数据挖掘实用案例分析
上QQ阅读APP看书,第一时间看更新

1.4 数据分析常见陷阱

由于业务复杂度,数据多样,数据分析人员考虑不周等原因,在数据分析过程中会有很多陷阱,为了在应用中进行规避,这里列举几个常见的问题。

1.错误理解相关关系

很多事物之间都存在相关性,但并不意味着其存在因果关系,或者有可能二者的因果关系颠倒了,要避免此类问题,一方面需要深入理解业务,规避大部分错误;另一方面要分析是否由第三方变量同时引起两种变量的变化,找出其变化原因。

2.错误的比较对象

数据分析中的结果或效果比较时,容易将不同样本集进行结果比较,比较对象不合理,其结果自然无效,结论便不能成立,这类问题很常见。例如,调查发现部队军人的死亡率要低于城市居民,但是分析人员没有对城市居民中的年龄等条件进行限制,二者并不具有同样的比较基础,所以其结论“参军很安全”自然也无法成立。

3.数据抽样

在数据抽样时如果出现偏差,可能会影响分析结果,所以采样时,需要考虑什么时候进行采样,如何随机进行等,即按照什么标准来保证其子集能够代表全部样本,特别在分类问题中,目标类别的比例如果在采样时失去平衡,将直接影响分类结果。

4.忽略或关注极值

有些时候,极值点或异常点是需要关注的,如果忽视它们,将可能失去某类样本或丢失某项重要特征,而如果在某些时候过于关注极值点,则可能会对结果造成偏差,影响结论。如何处理需要结合实际应用进行判断,要分析这些极值点出现的原因,从而决定其去留。

5.相信巧合数据

有些数据分析结果会使人感到有一种假象,即结果恰好印证了之前的某个判断或猜想,实际上,如果重新进行多次实验,就会发现这不过是某种巧合而已。这类问题一般容易出现在医疗或生物学科领域中,或者是在回归分析中两个变量之间具有某种关联,可能是巧合。

6.数据未作归一化

两个数据指标进行比较时,容易进行总数比较,而忽视比例的比较。例如,对比两个地区房价的增长情况,房屋单价同样涨1000元,上海可能涨幅只有2%,而对于太原,可能达到15%。忽视了总量对于指标的影响,必然影响结果的准确性。

7.忽视第三方数据

我们在分析的时候往往只盯着手上的数据,由于维度有限,很多结论或观点是无法进行验证的,为了进一步深入分析,有必要搜集或使用爬虫获取更多种数据,使数据源更加丰富,这样也有利于比较分析,论证更加充分。

8.过度关心统计指标

过于相信数据分析方法中的各项指标,就会忽视某些方法或结论成立的前提条件。例如,处理分类问题时,如果类别比例非常不平衡,99%为负例,只有1%的正例,这种情况下,分类器一般不作分析,直接返回负例结果,准确率可以达到99%,但是实际并没有意义,如果不加注意,可能会被指标欺骗。