如何学习数据挖掘
发布网友
发布时间:2022-04-23 19:04
我来回答
共1个回答
热心网友
时间:2022-04-09 09:02
数据挖掘(DM: Data Mining)的思想最初来源于统计学,属于数据分析,而不是计算机,不过现在分两块: 理论型(统计学),实践型(计算机); 而现在两个专业都有数据挖掘专业的研究生,都是从不同的方面入手. 计机的学生啃统计学原理,时序/多元分析等,概计之类的数据理统计知识; 统计学的兄弟啃计算机的数据库原理等...互相学习...
如
果你从计算机方面入手,那可以看一些数据挖掘的书,而大部分以数据仓库(Data
Warehouring)为主,一些比较计算机专业的东西,都是建在数据库上.而IT业发展迅速,数据库厂商就大炒BI(商业智能)概念,加上一些厂商都
推自己的产品,互抄互炒...
而就业市场上都是一些BI实施的工作,做BI的公司帮客户整成(ETL)数据到数据仓库,之后套一些DM的算法,加上前端漂亮的显示...
再用SPSS,SAS来按主题(Subject)来计算等...
而统计学入手呢,就是系统的数据分析了,如果你之后看过计算机方面的数据
仓库与数据挖掘的书的话,里面的一章就相当于统计学的一门课(如:时间序列分析), 计算机方面只把统计学精华方面溶过去~ 而统计学更注重的统计分析,
与其说以理论为基础, 不如说以模型和数据为基础, 模型与数学为基础....(不深入了)...
最后说说市场吧, 市场以利益为主~ 无论计算机还是统计学的应用的目的就是辅助业务发展.
而不同的行业有不同的做法, 但都离不开: 数据处理(收录) -> 数据统计与分析, 就目前的BI来说,分为:
ETL->DW->OLAP/Data Mart -> DM; DM是最后一节, 挖之前要有模型,
大厂商都有很成熟的模型架构(如:银行用NCR的, 保险用IBM 的IIW);
系统模型之上的就是知识模型,之后就是用DM算法去找规则了(如:在CRM系统里找一批忠诚客户, 怎才算忠诚呢?
这就需定义了,像:30天内消费29次算不算忠诚? 这些都是一些理论,最后加上计算机技术,就可以很快很自动地生成报表给管理层人员了)
说多了,不知是否离题,反正让你理解多点吧. 不要单独学了一些DM的软件(SPSS/SAS)和理论. 有时间就从大体入手, 了解整体,知道什么来的,怎么用,最关键学了是否对自己有用,是否是自己的兴趣等. 之后深入某一个你有兴趣的环节,当然你可以全部精通,全才呀~ 呵呵
了解更多开源相关,去LUPA社区看看吧。