上QQ阅读APP看书,第一时间看更新
1.2.2 数据预处理
如图1-4所示,数据预处理的步骤包括数据清洗、数据集成、数据变换和数据规约。
图1-4 数据预处理的过程
数据预处理各步骤说明如下。
1)数据清洗包括数据格式标准化、异常数据清除、数据错误纠正以及重复数据清除4个步骤。
2)数据集成是指将多个数据源中的大数据集成并统一存储,构建数据仓库。
3)数据变换是指通过平滑聚集、数据概化、规范化等方式将大数据转换为适合数据挖掘/数据分析的形式。
4)数据规约是指通过寻找大数据有用特征的方式,缩减大数据规模,最大限度地精减数据量。