成为数据分析师:6步练就数据思维
上QQ阅读APP看书,第一时间看更新

然定量分析的种类颇多,但它们都有一些共同的关键特征和步骤。正如我们在引言中提到的,定量分析遵循下列3个阶段和6个步骤:

 

构建问题

·识别问题

·回顾之前的发现

 

解决问题

·建模或选择变量

·收集数据

·分析数据

 

传达结果并基于结果采取行动

·传达结果并采取行动

 

在本章和接下来的两个章节中,我们将分别介绍每个阶段和每个步骤,并列举一些全面应用了这6个步骤的定量分析案例,不过对每个案例进行的分析都将着重于所在章节正在论述的特定分析阶段。在这三个章节的末尾,我们将列举两个案例,通常情况下,这两个案例分别来自商业领域和社会整体或个人的经验。这些案例将用来说明如何在分析过程中展开这6个步骤,不过,分析还是会侧重在一个特定的分析阶段上。我们所说的3个阶段和6个步骤并不是进行分析工作的唯一方法,例如,还有一种用于分析产品质量的相关变量的方法叫六西格玛(Six Sigma),它能从每100万个产品中测定出不少于3.4个的不合格产品,不过,我们认为大多数分析专家都是认可这种遵循3个阶段和6个步骤的方法的,而且它的适用范围足够广泛,包罗许多不同类型的商业问题和分析需求。

步骤1 从识别问题开始

一位定量分析师所做的工作始于认识一个问题或决策,然后才开始解决问题。在决策分析过程中,这个步骤叫作“构建问题”,它是一个良好的决策过程中最重要的一环。有很多原因会让你迈出第一步,包括:

 

·纯粹的好奇,这通常是基于常识或对事物的观察;

·识别问题;

·工作相关的经验;

·需要制定一个决策或需要采取行动;

·需要关注当前存在的问题,包括个人、企业或国家的问题;

·创建理论或者辨明现有的理论或以往的研究;

·采纳项目计划书或者决定可用的资金。

 

在这一步的时候要注意,分析还未到来。预感或直觉可能是决定继续进行某种分析的推动力。这时候,证据的标准不高。当然,定量分析的最终目的是使用一些数据来检验预感。这就是分析性思维者和其他人的区别:分析性思维者用数据和分析来检验他们的预感。

在识别问题这个阶段,最重要的事情是充分理解问题是什么以及这个问题为什么重要。这两个问题的答案不仅会帮助我们弄清楚“通过解决问题能够达到什么目的”,也有利于随后的阶段性工作的顺利开展。

找到利益相关者

很明显,这一步涉及的人主要是管理者和决策者,也就是企业的所有者或者组织问题的负责人。然而,即便是在这个阶段,如果能得到对业务问题、决策过程和可能采用的定量分析方法了如指掌的定量分析师的帮助,管理者和决策者在组织问题的处理上就能实现事半功倍的效果。如果你不能找到一个如此全能地拥有上述所有知识的人,那你可能需要组建一个团队,让大家优势互补,让团队整体拥有上述所有知识。

在这一步,有一个问题需要你认真思考,那就是谁是你打算进行的分析工作的利益相关者,以及他们对待你即将处理的问题的态度。你是否有能够根据结果采取行动的利益相关者?他们是否对问题的存在有所怀疑?假如分析本身是完全站得住脚的,他们有可能被说服去做一些事情吗?

人人都是分析师

谁才是利益相关者

如果你不能针对下面的大部分问题给出肯定的回答,那你的项目可能从一开始就会陷入困境:

 

·哪些高管和定量分析项目的成功息息相关?

·他们是否对存在的问题和问题的解决方案有一个大概的了解?

·他们是否有能力提供必要的资源?是否有能力推进定量分析项目成功所必须的业务变革?

·他们是否都支持在决策制定过程中使用分析和数据?

·你所推荐的分析案例和交流方式是否与他们常用的思维与决策方式相一致?

·你是否计划向他们提供定期反馈和阶段性成果报告?

 

分析师通常有这种习惯,即完全不考虑利益相关者就直接一头扎进分析工作当中。对自己所掌握的分析技能越是自信,分析师就越不会考虑分析结果最终呈现给谁看以及决定根据分析结果采取行动的“决策者”是谁。

如果你觉得有必要为自己的分析项目考虑利益相关者,那么对利益相关者的管理就涉及以下一些常见的步骤:

 

·识别所有的利益相关者;

·记录利益相关者的需求;

·评估和分析利益相关者的兴趣或影响;

·管理利益相关者的预期;

·采取行动;

·审核身份和重复步骤。

 

利益相关者分析能够识别主要的决策者,并确定最有可能用分析结果说服这些决策者的方法。如果决策者将分析结果束之高阁,不据此采取任何行动的话,那么即使是最严苛、最站得住脚的分析方法也会变得毫无用处。事实上,如果这是唯一能让决策者信服的证据,那么从方法论的角度采用一个有争议的分析方法进行分析工作也是有意义的。

例如,罗布·杜波夫(Rob Duboff)是一家名为HawkPartners的市场调研和市场战略公司的管理者,在任何情况下,他都会对定量研究的价值充满信心。不过据他了解,一些高管不懂得用定量分析方法去了解客户的需求,他们反而更相信定性分析法,如焦点小组访谈法,即召集一小组客户或潜在客户,询问他们对公司的产品和服务的看法,并观察和记录他们的反应。现在,杜波夫明白在方法论上,焦点小组访谈法的做法并不可信。众所周知,在市场研究领域,客户很可能会投你所好,说你想听的话,因此事实就是,他们虽然告诉了你他们喜欢什么,但并不意味着他们会愿意为这些东西掏腰包。当然,如果由一个经验丰富的主持人来引导焦点小组的讨论,这个问题可能会有所缓解,但是焦点小组讨论所得出的结论并不能推广到更宽泛的领域。尽管如此,杜波夫认为,有研究总是聊胜于无,而且如果决策者愿意相信焦点小组的讨论结果并根据结果采取行动,却不愿意相信采用定量分析法分析出来的结果,那么我们不妨采用焦点小组访谈法。

同样地,确定一个决策的利益相关者,有助于我们确定该决策的输出和结果呈现形式。不同的人喜欢不同的结果呈现方式:有些人喜欢将结果以数字行列排序的方式呈现,有些人更喜欢以图形的形式呈现,还有些人则喜欢用文字描述数字。在相对较早的阶段,知晓这些不同的偏好是非常重要的。当然,如果分析结果不是给人类使用而是给计算机使用,而且越来越多的情况下决策是自动或半自动的,那么,考虑通过理想的视觉形式对分析结果进行呈现这个问题也就将变得毫无意义,因为对机器来说,你需要做的只是给它需要的数字。

特定的分析方法也能够让利益相关者参与整个分析过程。例如,在思科系统公司(Cisco Systems)有一个预测项目,证实通过使用统计方法可以大大提高预测的精准度(我们将在第6章末介绍这个案例的6个步骤)。虽然一些思科系统公司的管理者支持并看好这个项目,但还有一些管理者则怀疑更精准的预测是否可能。安妮·鲁宾逊(Anne Robinson)负责这个项目,她在这个项目上采用了比较灵活的方法,每隔几个星期就会分析出一些可交付成果,并将这些成果呈现给项目的利益相关者。这种更渐进的解决问题的方法有助于获得利益相关者的认可。最后,即使是持怀疑态度的管理者也能明确地看到,相比以前的非分析方法,新的预测方法能够对更多产品进行更精确、更快速的预测。

聚 焦

我们发现,在问题的识别阶段聚焦于基于分析结果制定的特定决策是非常有利的。聚焦决策有很多理由。第一,聚焦决策让所有的参与者认识到,制定决策就是定量分析的理由,定量分析不是一次毫无目的的实践;第二,聚焦于将制定的决策能帮助识别关键的利益相关者,关键的利益相关者是基于分析结果进行决策的个人或团体;第三,如果没有基于分析结果制定决策的展望,进行分析活动也许并不值得。

例如,迈克·汤普森(Mike Thompson)是分析服务公司第一分析(First Analytics)的负责人,他描述了他与某个客户的团队在问题识别阶段进行的一次会面。这个客户是一家连锁餐厅,餐厅高管认为,分析应该主要聚焦于产品的利润率。该餐厅高管希望,第一分析公司能够帮助餐厅确定菜单上的每一道菜能够产生多少利润。汤普森也同意聚焦决策的看法,所以他询问餐厅管理者,在分析得出每道菜的利润率之后,他们会制定什么样的决策。安静了很长一段时间之后,一位高管提出,首要的决策是决定是否要将这道菜从菜单上撤掉。然而,另一位高管指出,在过去的20年里,连锁餐厅还从未撤换过任何一道菜。在经过进一步的讨论之后,客户团队一致认为,也许分析应该聚焦的是菜单上每道菜的定价而不是利润率。“自从我们成立起,未曾调整过价格。”一位高管意识到。

你所说的是什么样的故事

一旦你已经决定好制定什么样的决策,就可以开始考虑如何为该决策提供答案或者见解了。我们将在第3章讲述如何用数据来讲故事,以及如何以最理想的方式将分析结果传达给非分析人士。这时候,你应该开始考虑你手上的是一个什么样的故事,以及如何讲述它,尽管这个故事的大量细节会在随后的分析过程中呈现出来。当然,故事就是数字如何向人们传达分析结果。至少有6类与定量分析相关的故事。下面会对每类故事进行描述,且每类会列举一两个案例。

犯罪现场调查(CSI)故事|

一些定量分析就像是侦探小说式的电视节目:试图用定量分析的方式来解决业务问题。突然出现一些经营问题,这时数据被用来确认这些问题的本质和找出解决方案。这种情形通常不需要深层次的统计分析,仅仅需要好的数据和报告方式就足够了。在线交易经常会遇到这种情况,因为客户的点击率能够为分析活动提供大量数据。

犯罪现场调查故事方法的一个专家级人物是乔伊·麦基鲍(Joe Megibow),他是在线旅游公司艾派迪集团(Expedia)美国运营副总裁兼总经理。麦基鲍以前是一位网络分析专家,当然现在依然如此,不过他基于数据解决问题的方法已经为他带来了各种各样令人印象深刻的晋升。

艾派迪集团的许多调研都旨在了解在线销售额减少的背后缘由。一个特别的犯罪现场调查故事与酒店付款交易收入下降有关。数据分析表明,在一个客户选定了一家酒店、填写完旅游和账单信息,然后点击“立即购买”按钮之后,一定比例的销售交易并未成功完成。麦基鲍团队使用整个过程中网页访问者的访问情况数据和服务器的记录文件,调查出了交易失败的原因。

显然,处于客户名字下方的“公司名称”一栏是造成交易失败的原因。一些客户以为这个“公司名称”指的是给他们持有信用卡的银行的名字,而之后他们在账单地址栏内也填写了该银行的地址。因此,信用卡处理器无法正常处理交易,导致交易的失败。仅仅删除“公司名称”一栏就立即为艾派迪集团增加了1200万美元的利润。麦基鲍说艾派迪集团已经研究了很多个犯罪现场调查似的故事,发现它们总是能带来巨大的经济收益。

有的时候,犯罪现场调查故事的确涉及更深层次的定量分析和统计分析。麦基鲍团队的一位分析师曾调查了客户的哪些点击会带动线上销售业绩的增长。这位分析师使用了Cox回归模型(Cox regression model),这种模型起初用于判断在经过一段特定的时间之后,哪些病人会死亡、哪些病人会存活下来。他进行的这项分析表明,之前相对更简单的模型完全无法正确体现哪些营销方法能够促成交易。麦基鲍评论说:在收入增长上,“我们还有很多认知盲区。”

尤里卡故事|

尤里卡故事与犯罪现场调查故事相似,不同的一点是,它是一种解决特定问题的有目的的方法,以此检验组织战略或商业模型中进行的重大改变。久而久之,尤里卡故事通常会变成一个伴随着更深层次分析的更长的故事。有时候,尤里卡故事也涉及其他分析性故事类型,只是因为分析结果对于需要它们的企业而言是如此重要。

例如,再次回到艾派迪集团的案例上,一个尤里卡故事涉及从在线酒店、航班和汽车租赁预订中免去变更或取消费用。直到2009年,艾派迪集团和其竞争对手对客户的变更或取消行为整整收取了高达30美元的费用,这个数额甚至超过了酒店方要求的违约金。不过,因为从艾派迪集团和其他在线预订平台预订酒店明显比直接从酒店预订要便宜很多,所以客户愿意支付这笔变更或取消费用。

然而,到2009年,这项费用的收取很显然已经出现了弊端。艾派迪集团的酒店预订费已经接近酒店本身的收费,因此客户对艾派迪集团的主要诉求只剩下了便利,艾派迪集团收取变更和取消费用会导致客户的不便利。分析师查看了客户的满意度,发现支付了变更或取消费用的客户对网站的满意度特别低。艾派迪集团授权其电话客户服务中心的代表们免除客户的变更或取消费用,因为收取这笔费用对客户而言是致命的。在过去的三年里,免除这笔费用带来了两位数的营收增长。除非一场灾难性的疫情从天而降,否则客户很清楚他们能以这种方式把自己的钱收回来。

艾派迪集团的高管意识到市场已经发生了变化,但是变更和取消费用却成了一项巨大的收入来源。他们想知道,如果取消这项费用,交易转化率是否会提升。2009年4月,他们宣布当月进行暂时性的免除变更和取消费用。这次免除有点像一个疯狂的科学家的实验故事,我们会在下文详细介绍。事实是,转化率立即得到了巨大提升。高管们认为,他们有足够的证据证明终止这项费用是合情合理的,且同行将会争相效仿。

位于西雅图一个小镇上的Zillow公司是一家发布居民房地产信息的公司。Zillow也许算得上是最为定量分析高手所熟知的公司,究其原因就是其能够对房屋价值进行估算的独家算法“Zestimates”。但是,就像艾派迪集团一样,Zillow公司的整个企业文化都是基于数据和分析,这一点也不奇怪,因为Zillow公司的创始人里奇·巴顿(Rich Barton)正是艾派迪集团的创始人。

一个与Zillow公司有关的尤里卡故事是,该公司通过与房地产代理商的关系来赚钱。2008年,Zillow公司开始和房地产代理商合作,在这之前它只聚焦于客户身上。代理相关业务模式的一个方面是有偿为代理商打广告并向它们提供线索。Zillow公司向代理商收取线索费用,但在公司高管的眼里,每一条线索的价值却不足值。克洛伊·哈福德(Chloe Harford)是Zillow公司的高管,负责产品管理和产品战略。她着重于提出正确的模型,以增加线索的价值和优化线索的价格。

哈福德是火山学博士,专注于火山研究,她具备进行一些特别复杂的数学分析的能力。然而,她和同事起初只依赖于她所说的“餐巾纸数学”来探索其他能够产生更多线索和对线索进行优定价的方法。2010年4月,Zillow公司打造了一种新的特色,即有偿为代理商打广告,之后迅速被竞争者模仿。这种方式与以前相比,创造出了更多的客户联系,并且允许客户直接和代理商进行联系。Zillow公司也向代理商介绍了一种复杂的算法,它能通过对转化率的评估,计算出线索的经济价值。竞争对手也会在某种程度上这样做,但算法复杂度也许不及Zillow公司的高。线索和对线索的定价是如此重要,以至于哈福德和其同事经常使用下面描述的疯狂科学家实验方式来测试不同的线索和对线索的定价方式。总之,Zillow公司的尤里卡故事与它的商业模式和商业成绩紧密联系在一起。

疯狂科学家故事|

在以科学为基础的行业,如医药行业,科学实验并不陌生。医药公司在实验测试组成员身上试验产品时,给对照组成员发放对照剂。医药公司会特别注意,确保被试随机分配到测试组或对照组,这样两组的人员配备就不会有很大的区别,否则可能会影响药效。这个实验方法是一个强有力的分析工具,因为它常常能够让我们接近事实的本源,在测试组进行测试的事物以因果关系的方式促成结果的出现。

现如今,严格的实验不再只是穿着白大褂的科学家的专属,而是每一家大型企业都能使用的分析工具。有大量可行的软件能引导管理者或分析师走完实验流程。现在的公司能基于真实、科学有效的实验做出重要决策。过去,任何进行随机实验(即我们在上文中提到的随机分配群组成员)的尝试都意味着使用或雇用一位统计学博士或“实验设计”专家。现在,在软件的帮助下,只要进行过定量培训的MBA就可以监督整个过程,软件可以帮助其确定所需群组的大小,测试组和对照组应选用场地的位置,以及任何来源于实验的变化是否在统计上是显著的。

疯狂科学家故事特别适合像零售商(它们有大量的商店)或银行(它们有大量的分支机构)一样的组织。因为这类组织能够很简单地在一些地方进行实验,然后把另外一些地方的商店、分支机构等当作对照组。同时,在网上进行实验也很简单,你只需给一部分客户发送网页的一个版本,给另一部分的客户发送另一个版本,然后观察结果是否会显著不同即可。这在网络分析领域被称为A/B测试。

以下是疯狂科学家故事的案例:

 

龙虾供应商会在雄狮食品(Food Lion)超市卖掉更多龙虾吗?

如果消费者已经在这家店购买过龙虾,而且相对更质优价廉,那么这个问题的答案显然就是“会的”;但是如果是一家从一开始就无法吸引消费者在这里购买龙虾的超市,那么这个问题的答案显然就是“不会”。

 

位于一家凯马特商场(Kmart)的西尔斯百货超市的销售额会比整个凯马特商场的销售额高吗?

西尔斯控股公司(Sears Holdings)主席埃迪·兰伯特(Eddie Lampert)非常热衷于进行随机测试,并且他已经对大量这样的组合进行了测试。虽然我们并不知道这个特定问题的答案,但我们猜想,如果答案是“是的”,那么西尔斯控股公司肯定会开更多这样的联合商店,而事实上,我们并没有看到更多的联合商店。

 

红龙虾餐馆(Red Lobster)的最佳销售是由饭店的低成本或中成本改造导致的,还是高成本改造导致的?应该主要关注外部还是内部改造?

据红龙虾的高管称,调查结果显示,中成本的内部改造能带来最佳的回报。外部改造能够帮助引入大量的新客户,但如果这些客户看到内部并没有一起改造,就不会成为回头客。

调查故事|

调查是一种经典的定量分析方法。调查分析师观察那些已经发生或正在发生的现象。分析师不会试图控制结果,只是对结果进行观察、编码和分析。通常,调查者试图理解在调查中观察到的哪些特征或变量与其他的特征统计相关。最简单的例子是,如果我们询问特定产品的一批消费者关于他们的各种信息,包括性别、年龄等,如果我们同时还询问他们喜欢哪种产品,那么我们就能判断出男人是否比女人更喜欢某种产品,或者某种产品是否可能更受年轻人喜爱。

调查非常常见,且执行起来相当容易。然而,我们必须记住,基于调查基础上的调查结果和故事会因为问题提出的方式以及问题随时间的变动(可能不会改变)而出现相当大的变化。例如,美国人口普查局(US Census Bureau)已经对美国公民的种族问题调查了足足几十年,在普查中发现,种族的种类一直在增加,到2010年时,美国公民中已经有15个种族,包括“其他种族”一项。对人口超过5000万的美国拉美裔公民而言,“其他种族”是一个颇受欢迎的选择,其中1800万人选择加入“其他种族”。如果种族存在诸多混淆,想象一下针对诸如政治派别、宗教、社会态度和性行为等敏感问题,调查人员要进行定性分析会存在多大的困难。

我们也必须记住,虽然调查分析中的两个变量是相关的,但可能并不是因果相关。在第5章,我们将对这一问题进行更详细的阐述,在这里我们只是指出来,有可能存在你没有注意到的其他变量才是推动你所关注的现象产生的原因。

调查故事常常会包括人们的信仰和态度,并不针对人们自身。例如,以第二次世界大战期间进行的飞机调查为例,这个案例曾出现在一本经典的统计学教程中:

在第二次世界大战期间,军队需要让飞机尽可能多地处于运行状态,因此人们决定看看是否能在无风险的情况下减少极为耗时的引擎彻底检修。出乎所有人的意料,通过对毁坏的飞机进行的一次回顾性调查发现,在刚刚彻底检修之后,由于引擎问题引发的飞机毁坏是最频发的,而事实上,离彻底检修的时间越久,飞机毁坏的可能性越低。这个结果导致彻底检修间隔时间有了相当大的延长,这个结果还促使了检修方式的重大改变,彻底保证飞机上所有的螺丝、螺帽等被牢固地拧紧。

如果你计划去执行或分析一项调查计划,请确保已经对要调查的问题或者变量的意义进行过深思熟虑。一个关于人、情况或行为属性的任何可衡量的变量都有两个或多个值。性别、测试范围、室内温度、爱、幸福感和团队凝聚力就是关于变量的很好的例子。

同样重要的是,请确保调查样本能够代表你想要研究的人群。你怎样执行调查才能够影响样本。例如,如果你想调查年轻人群的态度或行为,就不要雇用一家只通过固定电话来接触样本的调查公司。使用固定电话进行调查是一种非常具有代表性的做法,但我们都知道,许多年轻人没有且根本没打算安一台固定电话。因此,仅通过固定电话来调查的样本将不具有代表性。

预测故事|

预测故事是关于预测将来会发生什么的分析方式。因为获得有关未来的理想数据非常困难,所以采用以往数据和理解导致过去的事情发生的原因对定量分析而言具有非常直接的意义。这通常涉及预测分析或预测建模。

世间存在许多分析师能够构建的预测故事。以下是其中一些可能的情况,请注意它们有多特殊:

 

·提供回复:哪些消费者会在两个工作日内回复一封免运费的电子邮件,并购买50美元或价格更高的商品?

·交叉销售/追加销售:通过邮件推送,哪一位账户余额超过2000美元的支票账户消费者会在1个月内回复邮件,并购买利率为1.5%的1年期定期存款服务?

·员工流失率:哪些在职超过6个月却没有签署401 K计划的员工会在接下来的3个月内辞职?

 

有很多其他预测分析的可能性。在经营活动中,预测的普遍方法是判断客户最有可能接受什么样的推荐。“下一个最好推荐”的分析越来越自动化,在客户看到推荐之前不需要人工介入,而客户能得到数百甚至数千个不同的推荐。

例如,微软公司拥有一种不可思议的能力,即为它的搜索引擎“必应”(Bing,使用必应是免费的,所以微软只需要设法让你去使用它)进行动态“推荐”。这个“推荐”会诱导你去使用必应,在你的浏览器上安装一个必应搜索条,使用一个特别的必应产品等,诸如此类。推荐的定制化服务基于各种各样的因素,包括你的位置、年龄、性别和最近的网络活动,这些因素能通过你的缓存或其他来源进行判断。如果你注册了Microsoft Passport程序,微软将获得关于你的更多信息,因此微软能够为你定制更加高效的推荐。当你在收件箱点击一个推荐时,得益于微软使用的Infor Epiphany Interaction Advisor软件,微软能立马向你发送一封定向电子邮件,仅需花费200毫秒。微软表示,这种定向推荐邮件的方式在提升转化率上效果极佳。

通常情况下,预测故事有点像钓鱼。我们不能准确地知道什么因素能够帮助我们预测,所以便尽量实验更多因素来观察到底哪些因素能够起作用。有时候,结果让人意想不到。例如,在我们刚刚描述的微软必应推荐中,你拥有的Microsoft Messenger好友数是用来预测你是否会使用必应搜索的一个好工具。

谷歌想预测什么样的员工品质预示着更高的绩效。一些分析显示,谷歌起初使用的大学成绩和面试评级都是非常糟糕的预测绩效的因素。既然谷歌不能确定哪些因素是重要的,于是要求员工做了一项包含300道题的调查。正如谷歌人力运营部主管拉斯洛·博克(Laszlo Bock)所指出的:“我们要撒下一张很宽的网。沿着这边的过道走,撞到狗是很正常的,也许养狗的人身上有一些特质能帮助我们进行预测。”

虽然把宠物带到工作场所并不能为预测工作奉献力量,但谷歌还是发现了一些意想不到的预测因子。例如,一个求职者是否创造了一项世界或国家纪录,或者创立了一家非营利性组织或俱乐部,这些都与高绩效密切相关。现在,谷歌在它的在线求职面试中,就会询问与经验相关的这类问题。

当然,如果预测因素根本没有任何意义,那么你最好重新检查你的数据和分析方法。但是事实上,在很多时候对一些数据进行考量的效果能够胜过一个未来主义者的预测。在这里需要提醒你的是,切记预测故事使用来自过去的数据预测未来。如果在你分析完之后,世界已经悄然发生变化,那么基于过去的数据进行的预测则可能会变得不再有效。

“情况是这样的”的故事|

也许最常见的是仅仅使用数据说明发生了什么的故事。这种故事提供事实,例如,什么时候、在什么地点有多少产品被售出;上个季度财务完成了哪些目标;上一年我们雇用的员工死亡的有多少。因为这种故事是导向报告型的故事,常常不会使用复杂的数学计算,所以可能看起来很容易讲述。然而,在现今的组织中,数据的大量增加导致了基于数据的报告大幅度增加,因此,有时候你很难吸引到预期观众对你创作或发布的报告的注意。

这类故事非常适合信息的视觉展示。简单地说,如果你用数字行列来进行报告,很可能难以吸引到你想要的关注。现在,我们当中的许多人甚至厌倦了彩色图表的报告方式,虽然如此,但大多数人还是觉得彩色图表形式起码比一整页一整页的数字更值得一看。既然第3章是关于交流结果的,那么我们将在第3章讲述让这种类型的报告更有趣和更能吸引眼球的方法。

问题的范围|

根据定义,一个数据驱动的故事和其背后的定量分析在范围上多少有一点狭隘,只是因为它要求收集数据并将数据应用到一个可检验的假设身上。如果问题很宽泛,数据收集就会变得非常困难。然而,在这一步,不要过早地限制问题或决策的范围是非常重要的。刚开始时,你应该开放性地思考问题,而且你的头脑中应该有一些可供选择的方向。例如,如果一家企业意识到在某个特定业务部门或业务区域存在绩效问题,那么企业应该开放性地设想各种各样的原因,从客户不满意到运营问题,再到产品或服务问题。

在本章末的全视线光学公司(Transitions Optical)的案例中,问题的识别和构建步骤是由一种模糊的感觉驱动的,即该公司认为,由于营销费用太高,决策构建被扩展到涉及整个光学市场营销费用水平和媒体使用的优化上。

我们已经把定量分析中的第一个步骤定义为问题识别,但它也能被定义为机会识别。约瑟夫·贾格尔(Joseph Jagger)是一位英国工程师,他发现,人们有机会在蒙特卡罗(Monte Carlo)大赌场赢得庄家的全部赌本。贾格尔在约克郡(Yorkshire)的棉花纺织业里获得了他的机械学实践经验。然后,他将机械学实践经验拓展到了赌博轮盘的表现上,并猜测赌博轮盘的结果并非绝对的随机顺序,而是机械的不平衡可能导致特定结果的偏差。如果他能在轮盘上发现能够为己所用的缺陷呢?于是,他来到摩纳哥检验自己的观点。

人人都是分析师

可检验的假设

 

·按照客户上一年从我们这里购买的产品类型,给他/她发送电子邮件进行推荐是最理想的。客户也最有可能对这样的推荐做出积极的回应。

·对一名处于知识型工作岗位上的员工会达到的绩效评级水平而言,受教育程度是一个良好的预测因素。

·相比在其他时期标低售价,在假期来临前的一个星期内将售价标低10%的效果差很多。

·为提升每周的销量,在零售店内对我们的产品进行货架两端展示是最有效的陈设方法。

·就客户购买的产品而言,我们的客户能被清晰地划分为4类细分人群。

·与经济萧条时期相比,在普通时期,我们对一类主要消费品进行提价更容易对需求造成影响。

·针对已经集中了存货管理设备的业务部门来说,它们一般会在生产过程中维持更短的平均存货期。

 

在法国/欧洲的赌博轮盘上有37位数字:1~36,还有0。每当轮盘旋转一次,每个数字在理论上出现的可能性都是1/37。因此,在旋转很多次后,每一个组合数的比例都应该大致等于1/37。贾格尔推断,如果轮盘存在机械不平衡的情况,那么这种不平衡将导致特定的数字出现的概率大大高于1/37。

带着这些想法,在传奇的蒙特卡洛美术赌场(Beaux-Arts Casino),贾格尔雇用了6个人观察6个轮盘,每个人观察的轮盘各不相同,而且每一个人都用特定的指令来记录轮盘每一次旋转所产生的记录。贾格尔在分析记录结果时发现,其中的5个轮盘就像大家常想的一样产生的是随机结果。然而,在第6个轮盘上,他发现了9个特殊数字(7、8、9、19、22、28、29)出现的比例远远高于能够解释的随机出现的比例。因此,贾格尔得出结论,第6个轮盘存在偏差,即该轮盘不是完美平衡的。于是,在1875年7月7日,他进行了第一次赌博,且迅速赢得了一笔数额相当可观的金钱,也就是14000法郎,这差不多相当于2012年的60倍,或者如果考虑到通货膨胀的话,这差不多是130多万美元。在知道贾格尔的赌博策略并最终宣布靠这种策略赌赢的情况无效之前,贾格尔已经赢得了一大笔钱,比600万美元还要多。这的确是一个机会!

关键是,知道你想要什么

虽然在问题识别阶段的早期,更广泛的思考是非常重要的,但到了末期,你将有必要对问题形成清晰的判断,对关键项目或你想要研究的变量有明确的定义。原因是:在定量研究中,对事物的不同定义方法会对结果成生很大的影响。例如,假设你是电视台的高管,对研究观众在观看哪个频道特别感兴趣,有两位分析顾问带着各自的问题解决方案找到了你。因为好玩,你决定同时雇用他们两个,以此来比较他俩的分析结果。

其中一位顾问建议,在为期一星期的时间内使用线上调查的方式或者使用纸质调查的方式,让观众记录下他们每天观看的频道以及观看的内容;另一位顾问建议,让受访者对他们在过去几个月内经常观看的电视频道进行排序。两个方案都有精心设计的调查样本,而且能代表目标群体。

虽然这两位顾问都在解决非常相似的问题,但很可能会得到不同的结果。那个建议观众记录每天观看的频道和内容的顾问很可能获得更加精确的结果,但是额外的记录负担很可能意味着调查样本的观众参与率会降低。尼尔森媒体研究(Nielsen Media Research)是一家不间断地对电视频道和节目进行监视的公司,它的记录是自动进行的,结果发现在某个时间段内,观众观看某频道或节目的退出率达到50%。另外,这位顾问面临的另一个问题是,在这项调查进行的某个特定星期里,观众的观看模式可能会受到特定季节或这个星期各电视台所提供的特定节目的过度影响。

另一位顾问进行的调查研究很可能没有那么精确,但因为它覆盖了更长的时期,可能不会受到季节性因素的影响。最重要的是,两项调查的结果将很可能因为差距甚远而难以折中。这就是为什么说,在问题识别阶段就对你所要做的研究形成一个清晰的认识是非常重要的。

步骤2 回顾之前的发现

一旦问题被识别,就应该对所有与之相关的之前的发现进行调查。回顾之前的发现仍然属于分析(构建问题)的第一阶段中的一个步骤,因为调查之前的发现能帮助分析师和决策者思考他们想解决的问题到目前为止是如何被构建的,以及这个问题可能以何种不同的方式被概念化。通常情况下,分析师会在回顾之前的发现时发现一些事情,这些事情的发现将促使分析师对问题识别阶段形成的认识进行大幅度的修改。反过来,这又将带来不同类型的发现。

在这个步骤,我们基本上会问:“以前是否讲过相似的故事?”如果讲过,我们能从以前讲过的故事中为此次分析获得一些看法。回顾之前的发现能带来以下启发:

 

·我们能讲述什么样的故事?这个故事是否与预测、报告、实验、调查相关?

·我们更想找到何种类型的数据?

·以前的变量是如何定义的?

·我们更可能执行哪种分析?

·我们如何用一种趣味横生、可能获得结果且与过去不一样的方式来讲故事?

 

定量分析和更宽泛的科学方法的一个关键特征是它们利用之前的研究和发现。例如,通过在书本、报告和文章中搜索出现过的与你想解决的问题相关的知识,对于理解问题的本质是非常重要的,甚至还有助于你识别相关变量和发现已识别的变量间的任何联系。

在任何给定的定量分析里,对所有之前的发现进行完整的回顾是必不可少的。你不能在分析中无中生有。也许你只有在对之前的发现进行了全面回顾之后,才真正开始进入解决问题的阶段。记住一件事:你的问题不像你想的那样特殊,并且你正打算做的工作,有许多前人可能已经做过了。不要白费力气做无谓的重复性劳动,你所需要做的是搜索、搜索、再搜索。通过使用一个像谷歌这样的搜索引擎,你能轻易地收集到与你的问题相关的尽可能多的材料。只需通过整理和评估材料,你就能识别出解决问题的潜在模型或方法。

回顾之前的发现做得很成功的一个案例发生在第二次世界大战期间。德军生产出了一款叫作V-2的威力巨大的新型火箭弹,以威胁伦敦市民的安全。在接下来的几个月里,至少有3172枚V-2火箭弹遍布在各个同盟国国家中,其中的1358枚投向伦敦地面,导致了约7250名军人和平民的死亡。

在空袭伦敦期间,许多观察家坚称炸弹打到的各点是集群式分布的。英国人很想知道,德国人是有目标的炸弹攻击还是只是随机攻击。英国人认为,如果德国人只是随机攻击目标,那么部署在遍布全国的各种安全装备能够很好地保护国家,但如果德国人能够进行有目标的轰炸,那么英国人面临的是一个更强有力的对手。因此,在全国范围内部署的安全装备可能还不足以保护国家的安全。英国政府雇用了统计学家克拉克(R.D.Clarke)来解决这个问题。克拉克基于他对之前的发现或已存在的知识的回顾,实施了一个简单的统计分析。

克拉克意识到,泊松分布(Poisson distribution)可以用于分析这些炸弹的分布。如果事情以一个已知的平均概率发生,泊松分布就会解释这些事情发生在某段固定时期、固定区域或固定体积内的可能性。为了具体了解泊松分布,我们必须知道的一件事情就是事件发生的平均概率。如果炸弹是随机落下的,那么轰炸任何特定小区域的炸弹的数量会遵循泊松分布。例如,如果炸弹的平均轰炸数是每个区域1枚炸弹,那么只需把这些数字填写到泊松公式里,我们就可以轻松又精准地计算出没有炸弹轰炸的可能性,如1枚炸弹轰炸的可能性、2枚炸弹轰炸的可能性、3枚炸弹轰炸的可能性、4枚炸弹轰炸的可能性和更多枚炸弹轰炸的可能性。

为了测算某一特定小区域可能受到多少枚炸弹的轰炸,克拉克把南伦敦划分为576个方块,每个方块为0.25平方公里大小,然后对飞过的炸弹按照0、1、2、3等进行计数。如果轰炸完全是随机的,那么每一个方块被0、1、2、3等炸弹轰炸的可能性将符合泊松分布。事实上,结果数据和泊松分布匹配得非常好,因此,它不支持集群分布的假设。克拉克的结论让英国人松了一口气。让人感到幸运的是,在V-2火箭弹造成更大破坏之前,德国在1945年投降了。尽管德国没能让导弹有效制导,但是火箭却成了美国太空计划的技术基础。

正如克拉克意识到的,落下的导弹的问题能够用泊松分布来描述时的所作所为一样,你在回顾之前的发现之后,可以回过头来重新审视问题识别的步骤。你可能会发现需要修改故事、问题范围、决策甚至是决策的利益相关者。如果你已经对这些进行了调整,或者如果你仍然满意起初对问题的定义,就可以认为你的问题已经构建好,然后继续往下走,采用定量分析方法来解决实际问题。

人人都是分析师

回顾之前的发现的一些方法

 

·对与你的分析相关的关键术语做一次网上搜索。

·查阅统计学教程,查找与你正打算进行的分析类似的分析。

·与你们公司的分析师沟通,了解他们是否已经做过类似的事情。

·如果你们公司有一个知识管理系统,就在系统里查一下与你的分析相关的知识。

·与来自其他公司的分析师谈论这个问题,但注意不要与来自竞争对手公司的分析师谈论。

·参加一个关于分析的会议或者至少收看会议直播,了解是否有其他人在讲与你的分析相关的话题。

构建问题

虽然我们已经把解决问题的分析过程以3个阶段6个步骤的线性方式进行了展示,但如果这个过程不具迭代性,它将毫无用处。分析过程中的每一步都对问题进行了新的阐述,对新掌握的知识进行思考以了解它如何让人们对先前的步骤有更深刻的认识,这往往是一个很好的想法。虽然你不能永远回顾走过的每一步,但花费一点时间回顾一下之前的发现以获得对问题构建的启示还是值得的。

人人都是分析师

接下来,问自己10个问题

你已经很好地构建问题了吗?如果是,那么你应该能明确地回答以下所有的或者起码是大多数问题:

 

·你是否已经定义了一个清晰的问题或机会来解决企业里非常重要的问题?

·你是否已经考虑了多种选择方式来解决问题?

·你是否已经识别出这个问题的利益相关者,且针对这个问题你已经和这些利益相关者进行了广泛的交流?

·你是否对你计划解决的问题和利益相关者产生共鸣,且对他们会使用问题的结果来制定决策拥有信心?

·一旦问题被解决,将基于结果制定的决策的内容以及决策制定者是谁,你清楚吗?

·刚开始时,你对问题是否有一个较广泛的定义,到后来缩小到一个需要解决、需要应用数据以及明确可能出现的结果的非常确切的问题?

·在解决这个问题时,你能否描述出你想讲述的分析故事的类型?

·有人能够帮助你完成这个特定类型的分析故事吗?

·你已经在你的组织内部或外部进行系统的查阅,以了解是否存在与你想解决的问题相关的之前的发现或者经验了吗?

·你是否基于回顾之前的发现所了解到的内容,对问题的定义进行了修正?

 

举一个很好的例子,拉玛·莱玛克里斯南是一个零售分析专家,他现在是一家初创公司CQuotient的CEO,在他发表的博客中描述了一种适合构建问题的情形:

以直销中出现的“选定目标客户”的问题为例。选定目标客户就是决定应该给哪些客户发送邮件,因为给每位客户发邮件耗时耗力,所以只用给选定的目标客户发送邮件就可以了。这是一个被无数研究人员和从业人员研究过的古老问题。最常用的解决办法如下:

 

·发送测试邮件给样本客户。

·使用测试邮件的结果来建立一个“反应模型”,这个模型能够预测每一位客户对回复邮件的倾向,并将这个倾向作为客户特征、过去的历史等的一个函数。

·使用这个模型给数据库中的每一位客户打分,然后给高分客户发送邮件。

 

这个模型看上去很合理,而且也正是企业所需的,但事实情况并非如此。

这个模型的名字叫作“回复模型”,从这个名字可以看出,企业通过发送邮件来引发客户回复邮件。事实上,客户可能已经到商店购买了企业想通过邮件来推荐的商品(我在这里针对的是那种销售渠道多样化的零售商,而不是非专营目录零售商。因为对于专营目录零售商来说,没有目录,客户也许根本就无法实现商品购买,因此专营目录零售商也许也不适用“回复”这个词)。

这些回复模型实际上所做的是要识别那些可能购买物品的客户,而不是识别那些可能因为收到邮件而去购买物品的客户。那么,问题就出在管理层真正想确定的也许正是后者。对那些要么一定要去购物,要么不管给他们发送什么都不会购物的客户来说,发送邮件就是浪费金钱,同时也潜在地消耗了客户的好感。企业真正想要识别的是那些如果给他们发送邮件就会来购物,而不发送邮件就不会来购物的客户。

这个确定目标客户的问题构建和解决这个问题的方法都是相对较新的。确定目标客户的新方法有很多:提升模型、净提升模型(相对于传统的回复模型),关于这个新模型的学术研究是非常少的。然而,对于许多零售商而言,与旧的方法相比,这是一个构建和确定目标客户的更中肯且更有用的方式。

 

在这个案例中,对之前的发现进行全面的回顾也许会揭示在提升模型、净提升模型上的最新研究,而这可能为问题的构建带来机遇。莱玛克里斯南建议在这些情况下使用相对更新的建模方法:“既然新问题在定义上没有获得足够的关注,简单的算法可能会迅速产生效果。”

我们将通过两个案例来结束对本章的构建问题的相关讨论,其中一个案例来自商业领域,另一个来自法律领域,在这两个案例中构建问题的阶段对结果至关重要。不过,其中一个是正确的构建案例,另一个是错误的建构案例。虽然构建问题阶段之外需采用的分析步骤你还未曾了解过,但我们相信你在这些案例中能够理解它们。

分析性思维实例

营销中哪一分钱花得最值得

商业领域存在的一个最普遍的分析性问题是,确定一个特定行为的花费应该是多少。另外,确定营销费用也是一项特别困难的决策。百货商店之父约翰·沃纳梅克(John Wanamaker)以及在他之前的一些欧洲零售商,因为一句名言而赫赫有名:“我知道花费在广告上的投入有一半是无用的,但问题是我不知道是哪一半。”然而,现在企业能使用定量分析来找出哪些营销费用是有用的,哪些是无用的,以及哪部分是最有效的。这通常被称为营销组合分析,这种分析越来越受到销售型公司的欢迎。

识别与构建问题。全视线光学公司为眼镜提供变色镜片,不过在营销支出方面受到了来自母公司的压力(全视线光学公司由PPG和法国依视路公司[Essilor]共同所有),特别是PPG不是从事客户营销的公司,所以这家母公司非常怀疑在广告和促销上的花费是否值得。母公司还针对特定的广告和营销活动是否有效地提出了具体的质疑。虽然整体给人的感觉就是,全视线光学公司的营销支出过多,但没有实际的数据来回答营销支出的最佳水平是什么这个问题。全视线光学公司的高管决定以让投入的金钱最大化地带动销售增长的方式,来构建一个优化营销支出和营销方法的问题。据当时的市场营销主管格雷迪·伦斯基(Grady Lenski)说:“当时在进行营销决策时,我们严重依赖于感觉,因此我们需要更多理智和科学的概念。”

回顾之前的发现。在这个问题上不存在已有的发现。虽然全视线光学公司拥有能够让对这个问题的分析成为可能的客户数据,但这些客户数据分散在公司的各个部门。伦斯基和一些同事意识到,虽然分析不同营销方式的有效性是可能的,但他们并不清楚不同营销方式的细节情况。

建模(选择变量)。营销组合优化模型涉及营销反应、营销成本和产品利润率等变量,它可以用来优化营销开支,所以越来越受到大企业的青睐。营销组合优化模型使用线性的和非线性的程序方法找出能最大化收入、利润率或者两者的周度或月度广告、促销和定价水平,也能判断出哪些特定的广告媒体对于最大化收入、利润率或者两者是最有效的;而且,这一模型通常还包含可能影响客户开支和购买行为的一系列“控制”变量,比如天气和宏观经济数据。

收集数据。对全视线光学公司而言,这是分析工作最难的地方之一,因为公司是和中间商合作(比如光学实验室),所以在过去与终端客户接触甚少。因此,它无法精确地测算客户是否看到了广告或者广告是否确实带来了销售额的提升。全视线光学公司开始了多年的努力,从其渠道合作伙伴(有些是其母公司的竞争对手)处收集终端客户数据。因为伦斯基曾是零售渠道部的主管,所以他相对轻松地收集到了这些信息。全视线光学公司收集进来的客户数据有30种不同的格式,公司最终把它们放入了一个整合的数据库中以供分析。伦斯基认为,市场营销部门也需要说服全视线光学公司的其他部门来提供数据。在没有数据库的情况下,全视线光学公司进行了第一次分析。

分析数据。全视线光学公司雇用了一位外部顾问来进行数据分析,因为公司内部没有熟悉营销组合优化模型的人。这次分析最初花费了几个月的时间,因为必须收集数据,而且模型需要排除对任何营销策略都会有反应的大量其他解释性因素,包括天气、竞争对手的市场营销等。由于模型已经成型和日渐完善,最终的确立只需几天就能完成。

传达结果并采取行动。全视线光学公司认为,解释和展示结果非常重要,需要公司内部具备这个能力,于是它雇用了内部员工来完成它。内部专家从外部顾问处获取模型,然后和高管讨论并判断模型带来的启发,接着将这些启发与他们自身对市场的直觉进行整合。总体来说,这些结果导致全视线光学公司在营销上的花费被进一步拔高,特别是在电视广告上。

证人与柯林斯夫妇案

证人和柯林斯夫妇案是加利福尼亚州的陪审团以在法庭上错误地使用数学和概率论而臭名昭著的典型案例,正是错误地构建问题导致了糟糕的结果。

陪审团认定被告马尔科姆·柯林斯(Malcolm Collins)和他的妻子珍妮特·柯林斯(Janet Collins)犯二度抢劫罪。丈夫对判决提出上诉,最终加州最高法院推翻了有罪判决,批评了统计推理的使用并禁止陪审团使用该决策方式。我们将在6步框架内检验这个案例。

识别问题。事发前,朱厄妮塔·布鲁克斯女士(Juanita Brooks)在圣佩德罗(San Pedro)沿着一条小路走着,她正要去购物。突然,她被一个从未见过的人推倒在地,被撞得头脑发晕,还有一些疼痛。紧接着,布鲁克斯女士发现她的钱包不见了,里面装有35~40美元。这个抢劫案的一名证人说,行凶者是一名留着络腮胡的黑人男性和一名扎着马尾辫的金发白人女性。他们驾驶着一辆黄色小轿车逃跑了。在为期7天的审讯中,原告在确定犯罪行凶者的身份上存在困难。受害人无法证实珍妮特·柯林斯的身份,且没有看见行凶者,而由证人提供的身份证明又不够充分。也许是,原告也想不顾一切地赢得诉讼,所以决心帮助陪审团确定被控的两人与证人的描述相匹配的概率。

回顾之前的发现。大家都认可的是,法院通常能够分清楚法律学和数学之间没有什么内在的不相容,且对于将数学作为一个发现法律事实的方法并没什么异议。在一些犯罪案例中,原告就使用了数学概率作为证据,而这就是上述所说的法律也认可数学作为发现法律事实的方法之一的佐证。

建模(选择变量)。由原告建议的模型是被控的两人与证人的描述相匹配的概率。

收集(测量)数据。原告打电话叫来一位加州州立大学的数学讲师作证。作为证人的证词,这位数学讲师表示陪审团可以估算出如下罪犯和罪行的特征的匹配概率:

有胡须的黑人 1/10

有小胡子的男性 1/4

扎马尾辫的白人女性 1/10

金色头发的白人女性 1/3

黄色机动车 1/10

跨种族夫妇在车内 1/10

分析数据。数学讲师表示,当事件独立发生时,它们同时发生的概率为它们各自概率的乘积。

P(A)=被控两人匹配证人描述的概率

=1/10 * 1/4 * 1/10 * 1/3 * 1/10 * 1/10000

=1/120000000,即1/1200万。

传达结果并采取行动。原告得出的概率是任何一对有两名被告这样特征的夫妇只有1/1200万的可能性。相应地,通过这个理论,被告有且只有1/1200万的可能性是无辜的。陪审团据此进行了有罪判决。

柯林斯夫妇对该判决提出上诉请求。加州最高法院认为,毫无疑问,陪审团成员被数学实证过度影响,没能评估数学实证的关联性和价值。因此,法院撤销了定罪,批评了统计推理的使用并禁止陪审团使用该决策方式。最高法院指出,数学家的证据里显示了两个非常重要的缺陷。第一,无论这个方法表现得多有效,原告都不能提供任何证据,因此无论如何这个方法并不能提供任何证据;第二,原告的方法中还有一个明显的缺陷:被告作为证据的6个因素的统计学独立性不能得到充分证明,例如,留着胡须的男性通常会留小胡子。

更重要的是,原告错误地构建了这个案件和证据。即便原告的结论在算数上是精确的,但并不能由此认定柯林斯夫妇是罪犯。这种统计应用在一个决定性的问题上完全没有指导意义:虽然在地球上显然没有几对这样的夫妇能被人们遇上,但如果遇上的话,就能证明他们就是罪犯吗?

这个案件中的相关变量不是被控告的夫妇与证人的描述的匹配概率,而是存在其他夫妇与证人的描述相匹配的概率,因为被控告的夫妇已经与证人的描述相匹配了。根据洛杉矶地区夫妇准确的数量,至少还有其他一对夫妇与描述相匹配的概率可能高达40%。因此,原告的计算确定柯林斯夫妇就是证人所描述的这对夫妇,这远超出了合理的怀疑范围。这意味着很可能这个地区包括不止一对柯林斯这样的夫妇,也有可能证人在抢劫案中看到的是另一对夫妇而不是柯林斯夫妇。

在对包括证据在内的整个案件的情况进行复审之后,最高法院判定针对被告的判决必须撤销。

糟糕的问题构建无疑会导致糟糕的决策。