第3章
数据挑战
尽管我在上一章中讨论了科技进步带来更多数据的可能性,以及处理能力的极限。但如我们在上一章末尾提到的,数据分析领域面临的最大挑战、问题和机遇在于人,在于像您这样的人。
以下是我职业生涯中遇到的最棘手的问题和数据挑战:
1.数据分析未遵循严格且一致的流程。
2.从一开始就没有正确收集数据。
3.由于错误的研究方向,无法进行统计分析和预测。
4.数据分析领域缺少有效讨论。
5.人们对于分析结果缺少必要的怀疑态度。
如您所见,挑战很多。好消息是只要积极应对,这些挑战都能解决。
在之后的章节中,我们将对这些问题进行更详细的讨论,并且我将为您提供积极的预防策略和解决方案。
但是在解决它们之前,让我们先来讨论一下数据分析的五个步骤。
每每提及数据挑战,大部分人通常会错误地认为其面临的最大挑战在于分析环节。确保收集到关键数据并对它进行分析是下一章的重点。但我敢说,最大的挑战往往并不在此。
使用原始数据的挑战性在哪
数据分析的最重要的两个挑战是:分析步骤不严谨、不一致,以及缺乏有效沟通。在本书的下一章中,我阐述了遵从分析步骤的重要性,因此在这里就不赘述了。
但是,关于交流,再怎样形容这一问题的重要性都不为过。在不懂统计学的听众眼里,经济学家、分析师和统计学家经常会被当成一群书呆子,因为他们讨论的统计学内容,观众往往很难理解。在我的职业生涯中,我一直努力避免讨论各种统计分析和预测计算的细节内容,因为对我的项目最感兴趣的往往是管理层人员。
然而不幸的是,我目睹过太多这样的例子:数据分析人员、预测人员与管理层讨论统计学问题中的细节,而管理人员中大多数人可能已经有30年没有接触统计课程了。这类受众感兴趣的是高级框架——需要哪些输入内容以及结果的含义和价值,而不是想跟您讨论峰度和调整决定系数。跟他们讨论理论细节不仅效果甚微,而且会大大降低您获得他们投资的可能性。
与交流相关的另一个例子是,技术专家和未来主义者偏爱使用流行概念,这也是一个可怕的趋势。比如,常见的几个概念如人工智能(artificial intelligence)、机器学习(machine learning)、预测性分析(predictive analytics)和大数据(big data)。其实我们离实现真正的人工智能还有很长的路要走,这就意味着到目前为止,大多数运用机器学习和预测性分析技术的数据分析项目还不能产生有价值的、可行的、能带来利润的成果。本质上,这几个概念是同一个东西,而就在几年前他们还被笼统地称作统计学。
综上,讨论数据分析结果时,您能做的就是尽量一针见血,不要有多余的花样。我们将在第16章“切勿过分标新立异”中,继续讨论这个话题。