数据分析咖哥十话:从思维到实践促进运营增长
上QQ阅读APP看书,第一时间看更新

六、增长践行成于思:数据分析的关键思维

题解 王阳明说“知是行之始,行是知之成”。它的意思是在知行关系上,认知是行为的开始,行为代表认知的完成,应用思维来指导行动。《大学》首篇《经:大学之道》中有云“物有本末,事有终始,知所先后,则近道矣”。正确思维体系的形成就是成事之本,成功之始,成材之道。

咖哥的面试问题越来越抽象:“小雪,我们有了AARRR模型,精益数据分析模型,各种数据分析、采集、治理、可视化方法。那么在具体行动之前,如何用正确的思维指导实战,让数据真正开始‘说话’?”

小雪回答:“我觉得最重要的是要建立起一个完善的、能解决问题的逻辑思维体系……”

“逻辑思维体系很多人都听说过,但很少有人能够说清楚怎么建立起这个体系并用它来完善我们的认知过程。让我来和你说说。”咖哥再次成功抢过了话语权。

1 逻辑思维:演绎与归纳

什么是思维?什么是逻辑思维?

思维是人接受信息、存储信息、加工信息及输出信息的活动过程,是概括反映客观现实的过程。逻辑则是推论和证明的思考过程。逻辑思维是采用科学的方法反映客观现实的理性认识过程。借助逻辑思维,我们能够找到正确的思考方向,减少思考过程中的谬误及分析中的误差。逻辑思维能力就是指正确、合理思考的能力,是在认识事物的过程中,进行观察、比较、分析、综合、抽象、概括、判断、推理的能力。

数据分析基本遵循提出问题➟分析问题➟提出假设➟验证假设➟输出结论这一过程,这个过程本身就需要多种逻辑思维方法的参与。因此,良好的逻辑思维能力对数据分析的作用不言而喻。

逻辑思维的两种基本方法是归纳法和演绎法。

先说归纳法,它是从特殊到一般的推理过程,是通过个别经验归纳出普遍规律的方法,是从部分样本推知全体样本的过程,如下图所示。

归纳法

归纳法是基于经验的方法,其推理方式不够严谨。除非我们搜集了全部年轻女性的促销赠品信息,否则我们不能得出图中的结论。一只黑天鹅的出现,就能够推翻“天鹅是白的”这个基于经验得出的结论。

演绎法则是从一般到特殊的推理过程,它从一般原理出发,经过逻辑推理,解释具体事件或者现象,或推导出个别性的结论。其常见的表现形式是从大前提到小前提,再到结论的逻辑三段论,如下图所示。

演绎法

在演绎过程中,推论前提与结论之间存在联系是必然的,演绎法是一种确实性推理。

然而在现实情况下,一般原理也只能来源于经验。因此,我们不得不先使用归纳法得出原理,然后再用演绎法做出推断、判断或预测。“绝大多数男性都选择这款剃须刀作为赠品,针对男性用户推广该产品是可行的,向咖哥这样的用户推送该款剃须刀很合适。”—这句话中就包含了演绎法和归纳法两种逻辑思维方法[11]


[11] 逻辑思维方法是现代科学的起点。在数据分析过程中,再三强调它亦不为过。遵循逻辑思维方法(演绎法和归纳法),会让我们得出科学的结论。

2 发散思维与收敛思维

发散思维与收敛思维也是数据分析过程中常用的思维方法。

发散思维也叫放射思维或求异思维,其特点是视野广阔,多角度,多维度,呈现出发散状,追求“一题多解”。收敛思维也叫聚合思维或者求同思维,其特点是使思维始终集中于同一方向,使思维条理化、简明化、逻辑化、规律化。

将发散思维和收敛思维结合使用,可以帮助分析人员得到更有创造性的解决方案。具体步骤可以是先发散,再收敛。针对一个特定的问题,可以先展开“头脑风暴”,大家畅所欲言(发散),先不做任何限定和评判,得到尽可能多的答案和解决方案;然后把所有的方案集中在一起,按照相似性进行分类,此时可以淘汰一些不相关或者无法实施的方案;最后再进行排序与选择,确定一个或多个较好的解决方案(收敛)。

下面举一个电商运营环节中通过发散思维和收敛思维来解决问题的例子。

某知名电商以发货速度极快著称,然而也同时出现了用户大量退货的问题,有数据表明退货单占据总送货单的8%。问题是如何在控制退货造成的损失的同时提升用户体验

第一步是展开“头脑风暴”。无前提地提出尽可能多的解决方案,不考虑方案的可行性,如下图所示。

步骤一 展开“头脑风暴”

第二步是分类并减少方案。把上述所有方案进行分类与整合,减少重复方案,同时移除不可行的方案,如下页图所示。

步骤二 分类并减少方案

其中方案9是通过提高商品质量减少退货,这个方案过于宏大,涉及进货流程,需要单独立项探讨,暂时删除此方案。

第三步是排序和选择,确定最终方案。 

经过反复论证,公司认为其核心竞争力在于在减少退货的同时提升用户体验。因此最终确定下述方案(见下图)。

步骤三 排序和选择,确定最终方案

这样,VIP会员的会费成了公司新的收入来源,也可以用于建立自营物流公司以减少退货的成本。这样的做法也提高了公司的服务水准,进一步提升了公司的竞争能力,使得其他电商公司很难与其比肩。

3 从相关思维到因果思维

在现今的数据分析中,机器学习和统计学习方法[12]非常盛行。无论是机器学习,还是统计学习方法,都非常注重事物之间的相关性。而相关性需要通过对大量数据进行分析来发现。


[12] 二者无清晰界限。

举个例子,有数据表明,某海滨度假城市冰淇淋的销量和溺水人数呈现出很强的相关性。一旦冰淇淋卖得多,溺水人数就会增加,因此我们也可以将冰淇淋的销量作为一个指标,用来指导海滨救援人员的工作安排。

然而,冰淇淋卖得多和溺水人数增加只具有相关关系,不具有因果关系。冰淇淋销量增加是因为气温上升,气温上升使游泳人数增加,从而导致溺水人数增加。游泳人数增加和溺水人数增加才具有因果关系。

因此,通过数据分析和机器学习就能够发现看似风马牛不相及的两个事物之间的联系,这很了不起;然而,机器目前还无法给出相关性背后的因果逻辑推理过程。此时,数据分析师要使用逻辑思维中的归纳法、演绎法,在推理过程中贯穿从因到果的辩证,找到相关性背后的真正驱动因素。目前的AI机器无法取代人类完成这项工作,这也更体现出数据分析师的价值。

因果关系有下图所示的类型。

因果关系的类型

演绎法和归纳法都是由因及果的推理过程。

举一个因果思维的应用示例:由于监管不当,近期互联网保险行业的营销活动无法使用现金及优惠券等来促进保险交易的成交,这在一定程度上减少了活动的数量,因此交易量减少。那么,如何解决这一问题[13]


[13] 这个例子引自Wise的知乎文章《数据分析应学习逻辑思维及分析方法》。

先试着拆解出可能的因果关系,如下页图所示。

对示例问题的简单因果推理(不完善)

然后,进行因果辩证,提出一些假设性问题。

(1)原因是否真实?

(2)结果是否真实?

(3)这个原因一定会引出这个结果吗?是否有其他的原因?

如果假设的原因和结果都为真,对这3个问题可以做如下启发式的提问。

(1)使用现金及优惠券奖品,一定会使成交效果更好吗,是否有其他的方式?

(2)不使用这两种奖品,活动就一定不能做吗,是否有其他的奖品?

(3)活动没法做,一定不能促进保险交易的成交吗,是否有其他的方式?

此时,我们会发现一些表面上的原因只是结果的必要不充分条件。应先对结论提出假设,并设计实验或采取其他的手段来验证假设,最终验证结果才是真正的结论。

4 批判性思维:保持怀疑

上述的因果分析过程中也应用了批判性思维工具。

批判性思维一般包括理性的、保持怀疑的和无偏见的分析,以及对事实证据的评估等。思考者通过熟练地分析、评估和重构来提高其思维的品质。批判性思维是自我指导、自我约束、自我监督和自我纠正的思维。批判性思维着重研究如何系统地构建清晰的思路,以及研究不清晰思路的特征。

对于数据分析师来说,时时运用批判性思维的习惯能让他们透过现象看清问题的本质,并做到去伪存真。

5 结构化思维:形成系统

另一个有用的逻辑思维工具是把事物结构化。结构化思维是从整体思考到局部思考,先对事物进行分解,然后归类分组,最后总结概括。这是一种层级分明的思考模式,运用它可以把零散的信息整理成结构清晰的系统。

大家可能听说过麦肯锡咨询公司第一位女顾问芭芭拉·明托所著的《金字塔原理》。她总结出分为3个步骤的金字塔式结构化思维方法。

(1)归类分组,将思想组织为“金字塔”。

(2)自上而下表达,结论先行。

(3)自下而上思考,总结概括。

这种方法看似简单,实际上用处极大,运用它可以将碎片化的信息进行系统化的思考和处理,把复杂的事物分了层次,辅助我们更全面地思考,如下图所示。

结构化思维的好处

没有结构化的思维是零散混乱、无条理的想法集合,而结构化思维是一种有条理、有层次,脉络清晰的思考模式。

在结构化思维的分组过程中,要先发散,后总结,而且要遵循MECE原则。MECE是4个英文单词Mutually、Exclusive、Collective、Exhaustive首字母的组合,意思是各个部分之间相互独立,没有重叠;所有部分完全穷尽,没有遗漏

前面提到的SWOT矩阵、KANO模型,以及5W2H方法,其实都是从结构化思维衍生出来的分析工具。

在做数据分析的过程中,培养结构化思维十分重要,平时要刻意运用这种思维方法找逻辑结构,锻炼自己系统思考的能力。

6 图解思维:一图胜千言

俗话说,一图胜千言。另一个非常有用的思维工具是图形,用图形而非文字去引导思维往往效果更好。

法国数学家阿兰·孔涅曾说,数学当中的几何对应于大脑的视觉区域,并且是一种瞬时的、即刻的直觉。在这里,我们看到了一种几何图像,嘣!就是它,这就是一切,甚至不需要我们去解释,我们不想去解释。作家采铜在其著作《精进》中也提到,一张图表,能够直接激发直觉思考。这种直觉思考能引发顿悟,帮助人突破思考的瓶颈。

为什么会这样?

一是作为一种直观的表达,图片比语言文字更有优势,它可以让复杂的关系更好地展现,因此图形、图表比在纸面上占据同样空间的文字传达的信息量更大。

二是用图片展示信息,分担了人脑中工作记忆的负荷——一般认为大脑同时只能处理(7±2)个元素,突破了内存瓶颈后,工作记忆将有更大的活动空间,它可以参与更深、更广的思考。

咖哥在数据大屏幕前介绍图形与图表的重要性

因此,数据分析师都强调数据的可视化。这不仅是因为老板喜欢看图,还源于上述理论的潜意识支配——我们每个人都更愿意从图中获取信息。而一张精美的数据可视化图表不仅能展示大量的信息,还常常能够把数据间的隐藏关系直观地展现出来。

7 指标思维:北极星指标

指标的重要性不言而喻,在指标思维这个部分,我将介绍北极星指标、虚荣指标和魔法数字这些概念,然后给出优秀数据指标的一些特点,最后介绍互联网行业数据的指标体系的演进过程。

《精益数据分析》一书中提醒创业者在一段时间内只专注于某一个引擎。例如,先专注于让你的产品对核心用户产生黏性,接着把主要精力放在使其呈“病毒”式增长,最后再全力利用增长后取得的用户基数来增加营收,这就是专注。在数据分析的世界里,这意味着仅挑选一个指标,该指标对你当前所处的创业阶段无比重要。

这个指标就是北极星指标(North Star Metric),也叫第一关键指标(One Metric That Matters)。它是指在产品的当前阶段与业务、战略相关的绝对核心指标,它就像北极星一样,指引整个团队向同一个方向迈进(提升这一指标)。它是一个在当前阶段高于一切、需要集中全部注意力的指标。

目前的数据管理系统和数据分析工具很多,各种数据指标也很多,让人眼花缭乱,切记不要因能跟踪的数据太多而分散了注意力。我们可以捕捉所有的数据,但只应关注其中的那些重要数据。

而聚焦于最重要的业务场景,意味着我们要选择关键指标,摒弃虚荣指标。什么是虚荣指标?例如在营收不足、现金流陷入危机的情况下仍然只注重流量、增速,那么流量和增速就是虚荣指标。

表2中粗略分析了一些知名产品和商业模式,并给出了它们可能对应的北极星指标。

表2 知名产品和商业模式所对应的北极星指标

除北极星指标外,肖恩·埃利斯(Sean Ellis)的《增长黑客》中还经常提到魔法数字,这也是一个关键指标。如果说北极星指标是长远目标,魔法数字则是当前行动指南。例如,通过数据分析,某公司发现了高黏性用户的“秘密”之一:在80% 的情况下,高黏性用户会在第一次购物后的30天内完成第二次购物;LinkedIn用户在一周内添加5个社交好友,Facebook用户在10天内添加7个好友,这样就能够保证较高的留存率。这些例子中的“30天”“5个”“7个”就是《增长黑客》中的魔法数字。

优秀的数据指标有如下特点[14]


[14] 原说法来自《精益数据分析》第2章“创业的记分牌”,本书根据笔者的实践经验做了一些提炼与扩展。

优秀数据指标的特点

上图中对各特点的说明很简短,但是含义深刻。例如,两个指标“年销售额增量”和“日新获客数”,哪个更好?对于CEO来说,可能需要的是年销售额的突破;但是对于完成日常业务的运营人员来说,也许更应该聚焦于每天的新获客人数,通过“日新获客数”他才知道近期的方案是否有效。这就说明优秀的数据指标能够引领行动。因此,不同指标在不同的场合发挥的效用有差异。在运营人员调整短期获客方案的场景中,“日新获客数”指标就好过“年销售额增量”指标。

从互联网产品的发展历史来看,随着技术的创新和业务模式的进化,常用的指标体系从最早的聚焦于流量监控的PULSE指标体系,到衡量用户体验的HEART指标体系。现在互联网产品间的差异越来越小,公司之间的竞争阵地从产品切换到运营,于是近几年开始流行基于AARRR的指标体系[15]。这个指标体系的演进过程如表3所示。


[15] “三元方差”公众号的文章《数据分析指标思维》和李启方的知乎文章《数据指标体系的演进》等文章中都提及了数据指标体系从PULSE到HEART再到AARRR的演进,大家可以了解一下。

表3 近几年开始流行的基于AARRR的指标体系的演进过程

也有人提出了从AARRR进一步过渡到RARRA的想法,即AARRR中5个阶段的次序变为留存(Retention)→激活(Activation)→自传播循环(Referral)→变现(Revenue)→获客(Acquisition)。在这个模型中,指标本身没有发生变化,但运营思路变了,AARRR以获客(A)为起点,而RARRA则以用户留存(R)为起点,也就是一切动作都以用户的留存为核心,同时也更强调现有用户在推荐和获客中的作用。

其实,AARRR也好,RARRA也罢,这些指标之间原本就不存在固定的顺序和明确的界限。当移动互联网运营进入“下半场”,竞争日趋白热化,每一个“大厂”都已经存储了足够的“流量池”后,那么重心当然应该从获客转移到留存上来,持续提高产品和服务的口碑,以老带新,这是基业长青之根基。

8 细分思维:分组与分类

细分思维也是结构化思维的“衍生品”。这里对其进行强调是因为这种思维工具在数据分析过程中太有用,值得为其单独命名。细分思维就是对产品、用户、运营策略及各种数据做单一维度或多维度的拆解、分组,再进一步细分,比较各组之间的差异。用户画像、波士顿矩阵、RFM模型、漏斗分析等,都是细分思维的应用。

在数据分析工作中,细分的维度非常多,如时间、地区、渠道、产品、员工、用户、行为、消费状况等[16]


[16] 此处“细分思维”的说法参考了“三元方差”公众号的文章《数据分析细分思维》。

9 对比思维:找到变化点

刚才在学习优秀的数据指标时,我们知道了优秀的数据指标具有比较性质。在数据分析过程中,对比思维是非常实用的工具。通过对比数据,我们才能够看出变化,计算增速,或者找到问题。

对比通常有两个方向,一个是纵向,它是指不同时间的对比,如将去年同期的获客数和今年同期的获客数进行对比;另一个是横向,它是指与同类产品相比,如将QQ的日活跃数和微信的日活跃数进行对比。

对比思维和细分思维经常结合起来使用,先分组,再对比。它们的特点是简单,人人都能理解,但又非常实用。这说明越简单的工具,往往越有大用,越有妙用

10 用户思维:初心不可忘

数据分析与运营都是为了获客、激活、留存和增长。而这一切的最终目的是什么呢?就是为了给用户提供他们所需要的服务。现在各个公司都把做用户画像、了解用户、研究用户的心理放在比较高的优先级,就是因为他们知晓了这个道理。

前面讲过的KANO模型就是用户思维的体现,它通过对用户核心的需求进行优先级排序,确保产品和服务能解决用户的痛点问题。而从AARRR到RARRA的演进,更是突出了用户在持续增长过程中的关键作用。

无论是做产品、做运营、做市场,还是做数据分析,心里都要有为用户服务的精神,这样事情才能做得更好,路才能走得更长远,这也就是不忘初心,方得始终

11 真实思维:以事实为真

真实思维是以尊重事实为导向的思维,这看似与数据分析完全无关,但是又非常值得一提。

彼得·德鲁克有句名言:一切无法用指标来衡量的东西都无法被管理(If you can't measure it, you can't manage it)。主观的认知总会有偏差,但是数据是不会说谎的。

粥左罗在《学会成长》中提到了开面馆的例子,如果以盈利为目的,商家就要根据真实的反馈信息不断优化口味、提升服务品质、提高质量。但如果开面馆是为了做慈善,免费给大家吃面,大家不花钱也就不提意见。该面馆收不到真实的反馈信息,产品和服务品质就有可能弱于以营利为目的的面馆。

对于处在创业、发展和守业各个阶段的互联网公司来说,真实思维就意味着认真地分析现状,正确认识自身发展的实际情况,确定合理的目标,不虚荣地追逐数据,不弄虚作假,不急功近利,不追求纸面上的急速增长。否则,公司有再优秀的数据而没有根基,它也可能只是昙花一现。

今天我的分享就以真实思维结束吧。我希望有一天,你发现精心准备的数据分析报告并不是总能与你所期待的结果相匹配,请不要强行用数据解释结果,或者刻意忽略掉某些本不应该忽略的因素。而应该从始至终尊重事实,从事实出发,寻根究底,发现不足。要有接受数据分析不是“万能灵丹”的勇气,也要敢于找出数据背后隐藏的事实真相

尊重数据,更要尊重数据背后的真相,这才是一个数据分析师应该具有的最大勇气。

“等等,我还有问题!”小雪看咖哥手臂一挥,定格在那里,心想这冗长的演讲终于进入了尾声,赶紧发问:“第一,你到底是怎么知道我昨晚到今天早上的行踪的?第二,我这面试到底过没过?”

咖哥笑着说:“先回答你的第一个问题。刚才在“逻辑思维:演绎与归纳”的部分,我提到了演绎推理—从一般性原理出发, 经过逻辑推理,从“已知”推知“未知”,以解释具体事件或者现象。而我正是用类似的方法通过数据对你的行踪进行了演绎推理,我把它称为‘数据演绎法’。”

咖哥顿了顿,开始详细解释:“昨天,我把公司的招聘海报发给了几个朋友。很快,你姐姐就打电话给我,说了说你的情况。她说你是名校毕业,觉得自己在之前的公司学不到太多东西,对这边的工作环境很有兴趣。昨天下午4点25分,我在后台数据系统看到用户名为“小雪”的ID关注了“咖哥数据科学讲习所”公众号,然后,我们这个‘小芝麻’公众号各篇文章的浏览量就开始+1、+1、+1了,一直到深夜还有人在访问。”

小雪轻轻地点了点头,心想:“难怪了,我昨天看咖哥的文章的确看到很晚。”

“看得出来你对我们公司挺有兴趣的,所以小雪,我相信你是一个很认真的面试者,而且现在你对我们的工作风格可能也有点了解了。你给我们公众号的最后一次点赞发生在今天早晨8点36分。我刚才看了眼实时数据,之后我们的公众号就再没有任何其他的访问信息了。这说明,你大概在8点36分下了公交车。而且我想,你可能有一个走路不看手机的好习惯。”

“从地铁站到我们公司,一共就那么几路公交车,哪路车大概什么时间到站,我当然是了如指掌。根据8点36分这个时间细节,推测出857路公交车对我来说不是难事,哈哈。”

“也许你觉得我在故弄玄虚,其实我卖这个关子想表达的是:既然数据无处不在,对数据的分析就是无处不在的。这种‘福尔摩斯’式的数据思维能带来很多意外惊喜。不过,我这里运用的‘数据演绎法’和我们常用的因果推理法不太一样,它有点像贝叶斯的后验概率模型,是由果到因的逆向推理,而且其中不仅应用了演绎法,还整合了归纳法和其他思维方法……好啦,说多了,你今天的面试就过关了吧。明天来公司,先实习,我们一起做项目,之后你就更加清楚我所说的‘数据思维’和‘数据演绎法’是什么了!”