大数据技术基础
上QQ阅读APP看书,第一时间看更新

1.2.2 数据预处理

如图1-4所示,数据预处理的步骤包括数据清洗、数据集成、数据变换和数据规约。

图1-4 数据预处理的过程

数据预处理各步骤说明如下。

1)数据清洗包括数据格式标准化、异常数据清除、数据错误纠正以及重复数据清除4个步骤。

2)数据集成是指将多个数据源中的大数据集成并统一存储,构建数据仓库。

3)数据变换是指通过平滑聚集、数据概化、规范化等方式将大数据转换为适合数据挖掘/数据分析的形式。

4)数据规约是指通过寻找大数据有用特征的方式,缩减大数据规模,最大限度地精减数据量。