2.2 平均薪资的陷阱和真相
公司的平均薪资高,待遇就一定好吗?除了均值,还有什么统计量能反映样本数据的中心?去尾平均数和加权平均数是什么?箱线图又是什么?常用的统计量如此之多,究竟哪个统计量才是最佳的统计量?
2.2.1 是谁拉高了平均薪资
小明是刚毕业的一名大学生。经过层层面试,他成功加入一家公司,成为一名工程师。公司环境优美,气氛融洽,唯一令小明不满的就是薪酬。入职前老板声称公司里平均薪酬是10000元,可小明的实际薪酬只有6000元。
而且,不仅小明的薪酬不高,其同事所拿的薪资也普遍只有6000元,远远达不到老板所说的10000元薪资,小明很不高兴地找到了老板,老板笑眯眯地说:“我并没有骗你。你没来之前公司里一共有12个人,我的工资是50000,两名主管的工资是10000,5名工程师的工资是6000,还有4名工程师助理的工资是5000。你算算,这不是正好人均10000吗。”表2.1所示为12个员工的薪资分布。
表2.1 薪资分布
小明算了算,薪资均值为,全体员工的薪酬均值果然正好是10000。小明不禁有些怏怏不乐,心想:当初要是问老板薪资的中位数是多少就好了。
公司里有12个人,工资从高到低排序依次是50000、10000、10000、6000、6000、6000、6000、6000、5000、5000、5000、5000。公司里薪资中位数指的就是第六个人和第七个人的薪资的均值。排序第六的薪资和排序第七的薪资都是6000,公司里职员薪资的中位数也就是6000,恰好等于小明的收入。
图2.1画出了这12个员工的薪资分布直方图,有11个人的薪资集中在5000~10000,只有老板的薪资大于10000。员工薪资的中位数比较好地反映了大部分人的薪资水平,均值却明显要大于中位数。这是由于老板的薪资过高,从而拉高了均值水平。
图2.1 薪资分布直方图
均值与中位数都能够反映数据的中心,即样本数据总是围绕在均值与中位数附近。与中位数相比,均值更容易受到极端值的影响,比如在上述例子中,老板的薪资就严重影响了均值。而中位数则更加稳定,不会受到极端值的影响。
以上结论反过来也成立。如果一组数据的均值远远大于中位数,就意味着数据中存在非常大的异常值;如果一组数据的均值远远小于中位数,就意味着数据中存在非常小的异常值;如果一组数据的均值与中位数十分接近,则可能是数据中没有异常值,也可能是数据中同时存在非常大的异常值和非常小的异常值,二者对均值的影响相互抵消。
在度量数据中心时,中位数的稳定性要好于均值,但均值却比中位数更为大众接受。为了增加均值的稳定性,可以使用去尾均值来代替均值,即去掉样本中的最大值和最小值后,再计算均值。在歌手比赛中,有时就会去掉最高的评委打分后再将几个评委打分的均值作为歌手得分,这就是一处去尾均值的应用。
2.2.2 如何计算加权平均薪资
第二年的毕业季,一名学弟找到了小明:“学长,听说你们公司待遇很好,平均工资接近10000,是真的吗?你们公司里一共有几种薪酬水平?”
在过去的一年里,小明所在公司的人事并没有发生变动,每个人的工资也没有发生变动,只是小明加入后,公司的总人数变成了13人,如表2.2所示。
表2.2 小明加入公司后的薪资分布
小明算了算,在自己加入公司后,公司中全体员工的薪资均值约为7538元,其计算公式为。公司中13个人的工资从高到低排序依次是50000、10000、10000、6000、6000、6000、6000、6000、6000、5000、5000、5000、5000。员工薪资中位数变成了排序第七的薪资,也就是6000元。
小明急忙回复学弟:“我们公司的平均薪酬大概是7500元,不过中位数只有6000,薪酬水平一共有4档。老板拿50000,主管拿10000,工程师拿6000,工程师助理拿5000。”
学弟追问道:“那众数呢?”
众数指的是样本数据中最多的数据。在这个例子里,有6个人的工资是6000元,因此,员工薪酬的众数就是6000。一组数据中的众数可以有好几个,假如当初小明的职位不是工程师,而是工程师助理,公司中的工程师和工程师助理就会各自有5个,那么员工薪酬的众数就有两个,一个是6000,另一个是5000。
小明回答说:“众数也是6000。”
学弟思考了一下,决定算一下加权平均薪资。学弟并不知道公司里每种职位上有多少人供职。他根据自己的成绩和面试时的表现估计了一下自己拿到每类职位的概率。4种职位的就职概率如表2.3所示。
表2.3 4种职位的就职概率
学弟认为自己不可能成为老板;成为主管的概率是20%;成为工程师的概率是50%;成为工程师助理的概率是30%。将每种职位的就职概率作为权重,那么加权后的平均薪资就是50000×0%+10000×20%+6000×50%+5000×30%,即为6500元。
加权平均数是平均数的一种变形。小明所计算的平均数也可看作一种加权平均数,其权重是每种职位上供职人数的比例。
均值、中位数、众数和加权均值都能够反映数据的中心,在这个例子中,学弟不知道每种职位上的供职人数,同时学弟认为自己得到每种职位的概率并不一致,因此有必要计算一下加权均值。
加权均值适用于样本已经分组或者样本之间的重要程度不一致的情况。比如在计算经济发展指标时,由于大企业对经济的影响力要远远强于小企业,因此,在根据企业利润率计算经济发展指标时,就应赋予大企业一个较大的权重,以体现其较强的影响力。
2.2.3 用四分位数估计薪资区间
除加权平均数外,常用的数值平均数还有调和平均数与几何平均数等。它们分别适用于几种不同的情况,均反映了数据的中心。
另一种能够反映数据分布的统计量是四分位数。将全部样本点所在的区间看作一条数轴,中位数指的是处于50%位置的数,四分位数指的就是处于25%位置与75%位置的数。
小明公司中有13个人,他们的工资从高到低排序依次是50000、10000、10000、6000、6000、6000、6000、6000、6000、5000、5000、5000、5000。那么处于25%位置的数就是排序第四的数,即6000;处于75%位置的数就是排序第十的数,即5000。两个四分位数与中位数恰好能将数据均匀地分成4份。
此外,在小明公司中,最高的薪资是50000,最低的薪资是5000,薪资的中位数是6000,这3个统计量与两个四分位数合起来,即可画成一个箱线图(见图2.2)。
图2.2 小明所在公司的薪酬箱线图
箱线图由5根横线组成,从上到下依次是位于极大值处的一根短线、位于上四分位数处的一根长线,位于中位数处的一根长线,位于下四分位数处的一根长线、位于极小值处的一根短线、其中3根长线组成一个“日”字形的箱子,两端的两根短线则用虚线与中间的箱子连起来。
图2.2中由于上四分位数和中位数相同,下四分位数和极小值相同,因此形成了一个在下方压得扁扁的箱子,只有老板的薪资高高地吊在最上方。为了便于理解,图2.3是一张更具有普遍意义的箱线图。
图2.3 数据分布十分均匀的箱线图
图2.3是一张十分标准的箱线图,该图对应的样本数据十分均匀,恰好有一半的数据集中在上下四分位数之间,还有1/4的数据分布在最大值和较大四分位数之间,以及1/4的数据分布在最小值和较小四分位数之间。
与图2.3相比,图2.2的形状堪称诡异。压得扁扁的箱子提示我们有3/4的人的薪资都位于5000~6000元。对于学弟来讲,只需看到图2.2,便可预测到自己的薪资也会在5000~6000元。
箱线图较全面地反映出样本数据中的信息。当样本个数较多时,箱线图更是格外有用。不过箱线图仅适用于数值型数据。对分类数据和顺序数据,绘制箱线图都没有意义。除箱线图之外,均值、加权均值、去尾均值等也是如此,仅适用于数值型数据。
综合考虑以上统计量,学弟可预知自己的薪资水平会在5000~6000元。这能够帮助他决定是否要进入小明所在的公司。总的来说,这些统计量各有各的优点,均值适用的范围更广,中位数则更精确。在解决问题时,多角度考虑这些统计量,使它们反映的信息相互印证是更佳的选择。