第1章 正确的思维观
正确思维观是一种思维的能力,从广义角度,思维能力没有一个清晰的界定,而接下来的讨论,都是基于这样一个狭隘但清晰的定义展开的。那就是:将数据转化为价值的能力。或者,更加具体地讲,是从数据分析到商业价值的能力。这里有两个关键词:数据分析和商业价值。因为它的定义狭隘,所以相对清晰明了。
正确的思维观与数据敏感度有关,类似于情商,看不见摸不着的东西。简单来说,正确的思维观是一种通过数据手段解决问题的思维。
1.1 数据思维
在一个企业中,什么样的工作岗位需要数据思维能力?是否仅仅数据分析相关的岗位才需要数据思维能力?答案是否定的。无论什么企业,需要数据思维能力的岗位,绝不仅仅局限于数据分析相关的岗位。
而事实上,是所有的岗位都需要数据思维能力。例如,董事长CEO要有清晰的数据战略,理解数据之于核心业务的意义所在;CFO要懂数据资产的价值,甚至可以做到价值评估;运营要懂得如何通过数据改善业务;产品经理要洞察数据价值的产品表达形式;BD要懂自家数据同伙伴数据的交换价值;销售要懂数据之于客户业务的可度量价值;营销要懂得如何通过数据让广告投放更加精准。由此看出,这些工作岗位,从高层到底层,横跨不同的业务职能部门,都需要数据思维能力。因此,需要数据思维能力的岗位不仅仅局限于数据分析相关的岗位,而是现代化企业的全部岗位。
大家也许会说,难不成要让所有人学习统计学?其实不然,因为:数据思维能力不是数据分析能力。数据分析能力是数据分析专业人员应该具备的能力,而这部分人必须学习统计学。但是,如前所述,数据思维能力是一种从数据分析到商业价值的洞察能力。要具备这种能力,需要的是对业务的深刻理解,以及将业务问题转化为数据可分析问题的能力。要具备这种能力,需要深刻学习回归分析的思想(不是模型)。
技能是容易掌握的,但是思维却是很难培养的。数据思维一方面体现在它的方向性,另一个重要特征是客观性。数据思维能够帮助你摒弃主观的偏见与看法。
在我们读过的历史类或战争类的小说中,谋士给统帅的策略一般会给出上策、中策和下策,而统帅经常会出于人道主义原则选择中策或者下策。越是厉害的谋士给出的策略出发点越是绝对理性,不考虑感性的情怀与仁慈,一切以成功为最终目的。数据分析师就要具有这种谋士的精神,客观与理性地解决问题。同样,只要统帅提出问题,谋士总能给出解决方案,虽然有些理想主义的情怀,但是能从一定意义上反映数据分析思维的两个方面:分析问题的思想和处理问题时的态度。
思维与技能作为数据分析思维的两个核心要素是衡量一个数据分析师水平的软指标,培养自己的数据思维与处理问题的技能需要在实践中不断完善和进步。
1.2 统计思维
1.2.1 统计学
相比于数学,统计学在日常生活中的应用要明显而又简单得多。我们日常生活中接触的求和、平均值、中位数、最大值等其实都是统计学的一部分,统计学有一个非常经典的理论叫回归分析,回归就是“返祖现象”模型。平均值是用来衡量回归标准的一种方法,数据围绕着这个平均值波动,并有向平均值靠拢的趋势即为回归,如图1.1所示。
从图1.1可以看到一条曲线围绕着一条直线上下波动,从某种意义上说,可以把这条直线理解为这条曲线的回归线,平均值的思想在某种程度上也来源于此。
图1.2 回归分析示意二
显而易见,图1.1和图1.2的一个显著不同就是波峰和波谷与平均线的距离一大一小,在统计学上用方差来解释这一差异,即
统计思维是通过统计学方法来表述数据的分布特征。已知一组试验(或观测)数据为
x 1,x2,…,xn
它们可以是从所要研究的对象的全体(总体X)中取出的, 这n个观测值就构成一个样本。在某些简单的实际问题中, 这n个观测值就是所要研究问题的全体。数据分析的任务就是要对这全部n个数据进行分析,提取数据中包含的有用信息。
数据作为信息的载体, 当然要分析数据中包含的主要信息, 即要分析数据的主要特征(指标)。也就是说, 要研究数据的数字特征:数据的集中位置、分散程度、数据分布和数据相关等。
从思维科学角度看统计思维可归类为描述、概括和分析。这些词粗看起来似乎意思差不多,但有本质差别。
1.2.2 描述
描述就是对事物或对象的直接描写,是对事物的客观印象。如果把描述概念对应到数据上,可以理解为这堆数据“长什么样”,通过对数据的描述能够让人感悟到数据的真实长相。统计学描述数据使用的指标通常是如下统计量:平均数、众数、中位数、方差、极差和四分位点,这些指标就好像是数据的“鼻子”“眼睛”“嘴唇”“眉毛”等。
(1)水平的度量(数据的“位置”)
1)均值——mean(),即
2)中位数——median(),即
其中x(i)是第i个顺序统计量的样本值,按升序排列为x(1)≤x(2)≤…≤x(n)。
在R语言中,sore()给出样本的次序统计量的观察值。
sore(x):数据按升序排列, decreasing=TRUE 为降序。
sore(x,na):有缺失值的数据,不处理缺失数据。
sore(x,na.last=T):排序保留缺失数据,排在最后。
sore(x,na.last=F):排序保留缺失数据,排在最前。
与sore(x)相关的函数:
order()给出排序后的下标。
rank()给出样本的秩统计量。
【例1.1】排序,次序统计量的样本值,最大值、中位数下标。
set.seed(1);z=sample(1:100,9);z#设置种子,在1~100中任取9个数,比较与sample(1:100,9,rep=T)和去掉set.seed(1)的不同。
3)众数——which(table(x)==max(table(x)))。
众数即一组数据中出现次数最多的变量值,记为mo,如图1.3所示。
图1.3 众数示意
均值、中位数和众数分布的关系如图1.4所示。
图1.4 均值、中位数和众数分布的关系
①均值是观测值的重心:对称分布或接近对称分布时代表性较好。
②中位数是观测值的中心:数据分布偏斜程度较大时代表性较好。
③众数是观测值的重点:偏斜程度较大且有明显峰值时代表性较好。
4)分位数——quantile(),即
quantile(x):给出0%、25%、50%、75%、100%分位数。
quantile(x,prob=seq(0,1,0.2),na.rm=TRUE):给出0%、20%、40%、60%、80%、100%分位数,且可处理缺失值。
quantile(x,(0,25,0.75)):给出25%、75%分位数。
5)最大值——max()。
6)最小值——min()。
最小值、分位数、中位数和最大值关系如图1.5所示。
图1.5 分位数示意
7)描述统计量——summary()。
(2)差异的度量(数据的“尺度”)
1)方差——var(),即
2)标准差——sd(),即
3)变异系数——CV=100×sd()/mean()
变异系数是对数据相对离散程度的测度;消除了数据水平高低和计量单位的影响;用于对不同组别数据离散程度的比较。
4)样本矫正平方和——CSS<-sum((x-mean(x))^2)。
5)样本未矫正平方和——USS<-sum(x^2),USS。
6)极差——rang=max(x) -min(x)。
极差是离散程度的最简单测度值;易受极端值影响;且未考虑数据的分布。
7)标准误差——SE.mean<-sd(x)/n^0.5。
8)异常(离群)值。
异常值:
x>上四分位数+1.5×(上四分位数-下四分位数)
x<下四分位数-1.5×(上四分位数-下四分位数)
离群值:
x>上四分位数+3×(上四分位数-四百分位数)
x<下四分位数-3×(上四分位数-四百分位数)
(3)频数
R语言中常用频数、频率表即列联表函数,具体见表1.1。
表1.1 R语言中常用频数、频率表即列联表函数
1)离散值数据。
2)定性或分类数据。
3)连续值数据分组。
通过这些统计量很容易认识这堆数,直接看数字就感受不到这些信息。不仅如此,我们常常面临的数据是成千上万,如果把这些数字全部列出来很难看出什么特征,而通过上述指标能让这些庞大繁杂的数据一目了然,虽视数据却也知道数据长什么样,这就是描述。
如果把数据比作一个三维物体,则求和与计数用来衡量它的长宽高,平均数用来衡量它的密度,中位数用来衡量它的几何中心,最大值与最小值用来衡量它的突出和凹陷,方差用来衡量它是否均匀……上面几个统计量称为描述性统计变量。
1.2.3 概括
概括是形成概念的过程,把大脑中所描述的对象中的某些指标抽离出来并形成一种认识,就好像对一个人“气质”的概括,“气质”是基于这个人的“谈吐”“衣着”“姿势”“表情”等指标综合在一起,然后基于历史对“气质”这样的概念得出结论,“气质”是不可以依靠眼睛感受直接获取,而是需要收集这个人的细节描述信息,形成对这个人的整体印象。
如果将概括这样的概念引入到数据分析中,最常见的就是分布。
例如,我们抛10000次均匀的骰子,记录每次的点数,会得到这样一组数据:
2,5,1,6,3,…,4,6,1
计算1~6出现的概率,X表示点数,P表示概率,会发现:
P(X=1)≈1/6
P(X=2)≈1/6
P(X=3)≈1/6
P(X=4)≈1/6
P(X=5)≈1/6
P(X=6)≈1/6
于是,可以说点数X服从均匀分布(图1.6)。
图1.6 均匀分布
同样,正态分布可以理解为趋向于中间点的分布(图1.7)。
图1.7 正态分布
概括的意义在于用一两个简单的概念就能传递出大量的信息,就好像说某某姑娘“御姐范”“萝莉范”。我们说数据服从正态分布是从数据的描述性指标中抽取均值和方差作为关键元素,结合已经掌握的经验知识给予数据有关概括:均值为μ,方差为σ2;对统计稍有了解的人根据这些数值就基本了解了这组数据的特征。所以说,概括是在描述的基础上抽离出来的概念。
到这里,基本可以看到,描述与概括的意义了。在庞大繁杂的数据中,我们需要一些指标来了解数据,掌握数据的特点,熟悉数据的结构,才能为下一步的分析做准备。
图1.8给出了一维数据分布的特征,图1.9给出了分布形态的度量。
图1.8 一维数据分布的特征
图1.9 分布形态的度量
1)偏度系数——skewness(),即
2)峰度系数——kurtosis(),即
需加载包:fBasics、Pastecs、psych等。
多维数据的特征分析:
3)样本协方差矩阵——cov(),即
4)数据的中心化——scale(x,center=T),即
5)数据的中心化和标准化——scale(x,center=T,scale=T),即
其中,。
R语言中常用的描述分布的函数见表1.2。
表1.2 R语言中常用的描述分布的函数
具体操作见指标设计篇。
1.2.4 分析
分析就是将研究对象的整体分为各个部分、方面、因素和层次,并加以考查的认知活动,也可以通俗地解释为发现隐藏在数据中的“模式”和“规则”。
分析的有效性建立在这样一个共识上:一切结果都是有原因的。
通过描述获取数据的细节,通过概括得到数据的结构,通过分析得到想要的结论。分析区别于描述和概括的一个非常重要的特征就是以目标为前提,以结果为导向。
假设采集到B地1000名20岁男性的身高:
1.69、1.77、1.81、1.74、2.76、…、1.80、1.74、1.68、1.75
采集到A地1000名20岁男性的身高:
1.70、1.75、1.82、1.75、1.76、…、1.81、1.75、1.69、1.78
放在一起得到2000个观测值的矩阵,若要知道A地男生身高与B地男生身高的差异情况,怎么分析呢?
均值μ1=μ2
方差σ1=σ2
比较数据分布
T-test检验
……
从中可以看到数据的描述和概括在分析中起到的作用,同时还有单独的统计方法T-test检验,如果描述与概括是向其他人呈现一组数据,那么分析就是从描述与概括中抽离出能够实现目标的元素:A地男生的身高要高于B地男生。
图1.10解释了统计思维相互关系。
图1.10 统计思维相互关系
1.3 逻辑思维
逻辑思维,又称抽象思维,是人的理性认识阶段,人运用概念、判断、推理等思维类型反映事物本质与规律的认识过程。它是人的认识的高级阶段,即理性认识阶段。
逻辑思维是一种确定的,而不是模棱两可的;前后一贯的,而不是自相矛盾的;有条理、有根据的思维。在逻辑思维中,要用到概念、判断、推理等思维形式和比较、分析、综合、抽象、概括等思维方法,而掌握和运用这些思维形式和方法的程度,也就是逻辑思维的能力。
辨别在前,推理在后,这是逻辑思维的核心。就像走路一样,在走第一步之前,必须是脚踏实地的,只有在走之前确认脚下有地,这样才可以走第一步。迈步子好比是推理,而在迈步子之前必须辨别是否脚踏实地。
逻辑思维具体包括以下几个方面。
1.3.1 上取/下钻思维
(1)上取
上取思维就是在看完数据之后,要站在更高的角度去看这些数据。站在更高的位置上,从更长远的观点来看,从组织、公司的角度来看,从更长的时间段(年、季度、月、周)来看,从全局来看,你会怎样理解这些意义呢?也许向上思维能让你更明白方向。
关键:建立长远目标、全局观念、整体概念、完整地分析数据,不做井底之蛙。
(2)下钻
下钻思维就是把事物切细了分析。数据是一个过程的结果反映,怎样通过看数据找到更多的原因,发现隐藏在现象背后的真相,需要把事物切细了分析。
原理:显微镜原理。
关键:知道数据的构成、分解数据的手段、对分解后的数据的重要程度的了解。
实际情况:哪些数据需要分解分析?
1.3.2 求同/求异思维
(1)求同
当一堆数据摆在我们面前时,表现出各异的形态,然而我们却要在种种的表象背后,找出其共同规律。
关键:找到共性的东西进行分析,要客观。
实际情况:现在的整体数据表现出什么问题?是否有规律可行?
(2)求异
每一个数据都有相似之处,同时,也要看到它们不同的地方,特殊的地方。
关键:对实际情况的了解,对日常情况的积累,对个体情况的了解,对个体主观因素的分析。
实际情况:你了解你的下属员工吗?如何帮助她们分析问题,从自身找到解决方案。
1.3.3 抽离/联合思维
(1)抽离
当你从一个旁观者的角度不思考看待数据时,往往能发现那些经常让我们迷失方向的细枝末节,这并没有太多的意义,我们迷失方向,忘记了自己的价值,同时深受情绪困扰。这时,用抽离思维或许能够帮助到你。
关键:多种分析方法,多角度看问题,不要钻牛角尖,多学习别人的好方法,学会集思广益,发散性思维。
实际情况:你的学习能力和方法有效吗?
(2)联合
面对很多数据需要我们能站在当事人的角度去思考和分析,这样才会理解人、事、物。
关键:了解当事人的情况,学会换位思考。
实际情况:你了解你周边的情况吗?你了解你周围的人吗?
1.3.4 离开/接近思维
(1)离开
通过数据分析,你发现自己处在一个不太有利的地位,那么,此时就要用离开思维去想办法,离开困境。
关键:学会自我调节,自我放松。
实际情况:遇到难解的结,你怎么办?
(2)接近
要达成目标,实现销售增长,这时候需要用接近思维来帮助你。
关键:多接触要解决的问题,花时间分析,你要的是方案,不是问题。
实际情况:你在做选择题还是问答题?责任点在哪?
1.3.5 层次思维
问题发现是第一步,要怎样分析问题,找到真正的原因,那么就应该熟练地运用理解层次。
关键:你需要熟悉客观环境、员工的能力、行为的规律、他需要什么。
实际情况:你能够分析到哪一步?
问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的分析叫作初步问题分析,针对最终原因进行的分析叫作深层次问题分析(图1.11)。
图1.1 回归分析示意一
图1.11 问题的展开方式