数据科学,数据挖掘,数据工程和大数据之间有什么关系？

发布网友发布时间：2022-04-20 22:16

共1个回答

热心网友时间：2023-07-12 06:10

数据挖掘基于数据库理论，机器学习，人工智能，现代统计学的迅速发展的交叉学科，在很多领域中都有应用。涉及到很多的算法，源于机器学习的神经网络，决策树，也有基于统计学习理论的支持向量机，分类回归树，和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。

大数据有三个重要的特征：数据量大，结构复杂，数据更新速度很快。由于Web技术的发展，web用户产生的数据自动保存、传感器也在不断收集数据，以及移动互联网的发展，数据自动收集、存储的速度在加快，全世界的数据量在不断膨胀，数据的存储和计算超出了单个计算机(小型机和大型机)的能力，这给数据挖掘技术的实施提出了挑战（一般而言，数据挖掘的实施基于一台小型机或大型机，也可以进行并行计算）。Google提出了分布式存储文件系统，发展出后来的云存储和云计算的概念。

大数据需要映射为小的单元进行计算，再对所有的结果进行整合，就是所谓的map-rece算法框架。在单个计算机上进行的计算仍然需要采用一些数据挖掘技术，区别是原先的一些数据挖掘技术不一定能方便地嵌入到map-rece框架中，有些算法需要调整。

此外，大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上，而在大数据时代，可能得到的是总体，而不再是总体的不放回抽样。