发布网友 发布时间:2022-04-23 09:56
共1个回答
热心网友 时间:2023-10-10 11:12
不完整的数据,含噪声的数据,不一致的数据。
数据预处理,其实主要就是为后续的分析建模提供更高质量的数据来源,因为实际上我们从各个渠道获取到的数据源,是存在各种“瑕疵”的,数据预处理,就是为了解决这些数据当中存在的“瑕疵”。
数据预处理,主要处理以下一些数据:
1,不完整的数据:有些相关的属性缺少属性值,或仅包含聚集数据。
2,含噪声的数据:包含错误或者“孤立点”。
3,不一致的数据:在编码或者命名上存在差异。
数据预处理主要的手段包括:
1,数据清理。
通过填补缺失值、光滑噪声数据,平滑或删除离群点,并解决数据的不一致性。
2,数据集成。
数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。
3,数据规约。
用替代的,较小的数据表示形式替换元数据,得到信息内容的损失最小化,方法包括维规约,数量规约和数据压缩。
4,数据变换。
对数据进行规范化,离散化,稀疏化处理,达到适用于挖掘的目的。