1.3.4 数据处理
数据处理是指从大量杂乱无章、难以理解、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。数据处理主要包括数据规约、数据清洗、数据加工等方法,具体如图1.5所示。
图1.5 数据处理
☑数据规约:在接近或保持原始数据完整性的同时将数据规模减小,以提高数据处理的速度。例如,一个Excel表中包含近三年的几十万条数据,由于我们只分析近一年的数据,所以选取近一年的数据即可,这样做的目的就是减小数据规模,提高数据处理速度。
☑数据清洗:在获取到原始数据后,其中的很多数据可能都不符合数据分析的要求,这时就需要按照如下步骤进行处理。
➢数据探索分析:分析数据的规律,通过一定的方法统计数据,通过统计结果判断数据是否存在缺失、异常等情况。例如,通过最小值判断是否包含缺失数据,如果最小值为0,那么这部分数据就是缺失数据,也可以通过查看数据是否存在空值来判断数据是否缺失。
➢重复数据处理:对于重复的数据,删除即可。
➢缺失数据处理:对于缺失的数据,如果缺失比例高于30%,可以选择放弃这些数据,删除即可;如果缺失比例低于30%,可以对这部分缺失数据进行填充,以0或均值填充。
➢异常数据处理:对于异常数据,需要根据具体业务进行具体分析和处理,对于不符合常理的数据可进行删除。例如,性别数据中除男和女以外的其他值,以及超出正常年龄范围的年龄数据,这些都属于异常数据。
☑数据加工包括数据抽取、数据计算、数据分组和数据转换。
➢数据抽取:选取数据中的部分内容。
➢数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。
➢数据分组:按照有关信息进行有效的分组。
➢数据转换:数据标准化处理,以适应数据分析算法的需要,常用的有z-score标准化、“最小、最大标准化”和“按小数定标标准化”等。经过上述标准化处理后,数据中的各项指标将会处在同一数量级别上,可以更好地对数据进行综合测评和分析。