2.2 画统计图的准备1:选好统计表
画好统计表,要遵循两个基本原则,即“能排序就排序,能分组就分组”。
“怎样的统计表才适合画统计图?”“我是统计表,怎么就不适合画统计图?”为了说服和安抚这些声音,为了维护统计图数据大使的形象,本节聊一聊选好统计表这个话题。
统计图离不开统计表。统计表画好了,统计图才有可能画得好。统计表没画好,统计图肯定画不好。统计表是表格加数据,是画统计图的唯一来源。统计表没画好,将有损统计图数据的形象。可以说,有些不合格的统计图,根子就在于统计表没有画好。
接下来,举例说明统计表是怎样影响统计图这位数据大使形象的。
【例2-1】问:图2-2画得好吗?
图2-2 数据已排序的柱形图
答:画图2-2的统计表见表2-2。
表2-2 2020年2—4月中国邮政业务量的函件数
来源:中国国家统计局
图2-2是一张柱形图,实话实说,画得不好。从绘图区看,柱形图中的3根柱子,虽然按由小到大的顺序排列,让人看了也没有不适感,但画得不规范。这张柱形图,要按时间来排序,而不是按数据来排序。由于这张画柱形图的统计表没有按时间排序,因此统计表就没有画好,统计图自然也画不好。
将表2-2中的数据按时间进行排序,得到规范的统计表见表2-3。
表2-3 2020年2—4月中国邮政业务量的函件数
在表2-3中,邮政业务量的函件数按时间顺序排列。这样的统计表,能让人看到,在这三个月内,函件数的分布情况。
用好的统计表2-3就可以画出好的统计图,如图2-3所示。
图2-3 数据没有排序的柱形图
在图2-3中,柱形图的柱子按时间顺序排列,与统计表相比,可以让人更直观地看到在不同时间内,中国邮政业务量函件数的变化。
【例2-2】问:图2-4画得好吗?
图2-4 数据没有排序的柱形图
答:画图2-4的统计表见表2-4。
表2-4 2020年世界卫生组织区域新冠肺炎疫情累计确诊病例情况比较
来源:世界卫生组织 统计:截至北京时间:2020年5月23日15时32分
图2-4是一张柱形图,说实话,画得不好。柱子忽高忽低,而累计确诊病例的数据可以排序。由于统计表没有排序,因此统计表就没有画好,而统计表没有画好,图2-4自然也画不好。
将表2-4中的数据进行排序,得到规范的统计表,见表2-5。
表2-5 2020年世界卫生组织区域新冠肺炎疫情累计确诊病例情况比较
来源:世界卫生组织 统计:截至北京时间:2020年5月23日15时32分
在表2-5中,累计确诊病例按由少到多的顺序排列。这样的统计表,让人一眼就能看到累计确诊病例的最低点和最高点,同时,还能快捷地比较累计确诊病例在这六个区域的分布。用规范的统计表2-5就可以画出规范的统计图,如图2-5所示。
图2-5 数据已排序的柱形图
在图2-5中,柱形图的柱子由低到高排序,与统计表相比,让人更直观地看到累计确诊病例的最低点和最高点,各区域确诊病例排在什么位置也一目了然。
【例2-3】问:图2-6画得好吗?
图2-6 数据没有分组的柱形图
答:图2-6是用表2-6中的数据画的。
表2-6 2010—2019年世界诺贝尔文学奖10位得主的年龄与获奖年份
图2-6是一张柱形图,画得不中看。这张图,画了10根柱子,不仅让人看得眼花缭乱,而且根本就看不出年龄的分布特点。
在图2-6中,画10个年龄,画面就这样拥挤,可以设想一下,如果画更多的数据,20个、30个……甚至更多,画面又会怎样?可想而知,一定会挤成一团糟,让人一见就晕倒。
表2-6没有分组,有10个人,就有10个年龄的值,这是没有分组的资料。用表2-6的数据画出来的图2-6效果不佳,这是没有分组惹的祸。避祸趋利,可以采取分组法。按年龄分组,统计各组的人数,就能很好地呈现年龄的分布。
将表2-6中的数据按年龄进行分组,得到表2-7。
表2-7 2010—2019年世界诺贝尔文学奖10位得主的年龄分布
用好表2-7,就能画好图,如图2-7所示。
图2-7 年龄已分组的直方图
在图2-7中,年龄经过分组,分为4组,画出的直方图,其画面清爽,可以清楚地看到10位诺贝尔文学奖获得者的年龄分布情况。10年诺贝尔文学奖,10位获奖作者,以高龄者居多,都在50岁以上,60岁以上的有8人。
从以上3个例子可以看到,统计图的模样与统计表的设计直接挂钩。
在统计表中,【例2-1】不能对函件的数据排序,【例2-2】要对病例的数据排序,【例2-3】要对数据进行分组。那么,问题来了:在画统计表的时候,什么时候要对数据排序?什么时候不需要对数据排序?什么时候要对数据进行分组?什么时候不需要对数据进行分组?要回答这些问题,看一看统计表的基本框架与数据类型就一清二楚了。统计表的基本框架见表2-8。
表2-8 统计表的基本构成
在表2-8中,第一列是分类栏,包括分类的名称,以及分类的取值;第二列是数据栏,包括数据的名称和数据的取值。
在统计表中,分类的取值不同,数据的类型也不一样。数据的类型不同,直接影响到统计表中的数据是否排序,是否分组。所以,这里有必要来围观一下数据的三种类型,即时间型数据、文本型数据和数值型数据。
(1)时间型数据是指在统计表中,当分类的取值为时间时,那么统计表的数据为时间型数据。时间的形式,有年、月、日等。在时间型数据中,数据不排序。
比如,【例2-1】就是时间型数据的统计表。其分类的名称为“月份”,分类的取值为“2月、3月、4月”。数据的名称为“函件数”,数据的取值为“1.0、1.5、1.2”。“函件数”的数据不排序。
(2)文本型数据是指在统计表中,当分类的取值为文本时,那么统计表的数据为文本型数据。文本的形式,如文字、没有计算含义的数字等。在文本型数据中,数据能排序就排序。当分类取值的排列没有固定顺序时,数据就要排序;当分类取值的排列有固定顺序时,数据就不能排序。
比如,【例2-2】就是文本型数据的统计表。其分类的名称为“区域”,分类的取值为“东南亚、非洲、欧洲、美洲、东地中海、西太平洋”。数据的名称为“累计确诊病例”,数据的取值为一串数值。由于六大区域的排列没有固定顺序,谁都可以排名第一,所以“累计确诊病例”的数据就要排序。
(3)数值型数据是指在统计表中,当分类的取值为数值时,那么统计表的数据为数值型数据。分类的数值有实际含义。在数值型数据中,数据能分组就分组,分组后的数据不能排序。
比如,【例2-3】就是数值型数据的统计表。其分类的名称为“年龄”,分类的取值为“50—60、60—70、70—80、80—90”。数据的名称为“人数”,数据的取值为一串数值。由于“年龄”是分组数据,组与组之间有固定顺序,所以“人数”的数据不能排序。
显然,在统计表中,数据是否排序,与数据的类型有关。
对于时间型数据,数据不能排序。
对于文本型数据,数据能排序就排序。
对于数值型数据,数据能分组就分组,分组后的数据不能排序。
只有画好了统计表,画好统计图才有希望。
从没有分组的数值型数据到分组的数值型数据,这是一个技术活儿,下面以【例2-4】加以说明。
【例2-4】怎样整理年龄资料?
新华网收录了1901—2019年世界诺贝尔文学奖116位得主的年龄等资料。整理这些年龄资料的结果如图2-8所示。
图2-8 整理年龄的过程
对图2-8整理年龄的说明如下。
(1)准备。调出Excel 2010“数据分析”工具。其步骤为:右击“文件”按钮,在弹出的菜单中选择“自定义功能区”选项,在弹出的“Excel选项”对话框中,先选择“加载项”选项,再单击“转到”按钮,在弹出的“加载宏”对话框中分别勾选“分析工具库”和“分析工具库-VBA”复选框,最后单击“确定”按钮。这时,在“分析”这一组,“数据分析”工具闪亮登场。
(2)整理年龄的步骤如下。
第1步,录入数据与排序。对“年龄(岁)”排序,结果如图2-8中的第1步所示。
第2步,分组。对年龄分成5个组,并列出各组的最大值,结果如图2-8的第2步所示。
第3步,汇总并计算。对各组年龄的人数进行汇总并计算构成比,结果如图2-8的第3步所示。汇总各组年龄人数的过程为:单击“数据”选项卡,在“分析”这一组单击“数据分析”命令,在弹出的“数据分析”对话框中选择“直方图”选项,单击“确定”按钮,在弹出的“直方图”对话框中,在输入区域的文本框中输入“D5:D120”,在接收区域的文本框中输入“F5:F9”,单击“输出区域”单选按钮并输入G4,最后单击“确定”按钮,得到汇总的结果。计算各组的总和,并计算各组的构成比。
第4步,列出年龄分布的统计表,结果见表2-9。
表2-9 1901—2019年世界诺贝尔文学奖116位得主的年龄分布
第5步,画出年龄分布的统计图,结果如图2-9所示。
图2-9 年龄分布的直方图
从【例2-1】和【例2-2】可以看到,在画统计图时,“数据能排序就排序”的重要;从【例2-3】可以感受到,在画统计图时,“数据能分组就分组”的不可缺少,从【例2-4】可以发现,在画统计表前,“数据能整理就整理”的美妙。
这里,问题又来了:用【例2-1】和【例2-2】的数据画的是柱形图,用【例2-3】和【例2-4】的数据画的是直方图,那么,柱形图和直方图,这些统计图的选择有什么讲究吗?这个问题来得及时,因为这正是下一节的重点。