1.1 统计及其应用领域
1.1.1 什么是统计学
1980年,美国著名未来学家阿尔温·托夫勒(Alvin Toffler)在其所著的《第三次浪潮》中预言了人类社会发展的第三个阶段——信息化阶段。托夫勒将“大数据”称颂为“第三次浪潮的华彩乐章”,并强烈主张人类应该在思想、政治、经济、家庭领域里来一场革命,以适应第三次浪潮文明。尽管关于大数据与统计二者的关系,尚存在不同的观点和争议,但不可否认的是,我们的行为和决策越来越多地依赖于数据。例如,我们关注每天的PM2.5空气质量指数与健康之间的关系;在投资股票时了解宏观经济数据和公司财务信息;基于销售数据合理布置超市的商品摆放位置;根据客户的个人特征实施“精准营销”;构建大气运动规律模型,预测气象变化,指导“理性救灾”等。
与此同时,各个领域都在爆炸式地创造数据。抖音短视频用户保有量过亿人,日活跃用户数过千万,日新增用户数近百万;沃尔玛超市每小时可收集100万名顾客的数据,每天可对1亿个关键字进行分析优化;Facebook(脸书)每天更新的照片量超过1000万张,每天人们在该网络平台上的“点赞”或评论次数超过30亿次;2017年,天猫“双11”仅一天成交额就达1682亿元,全天支付总笔数达14.8亿笔,全天物流订单达8.12亿个,交易覆盖全球225个国家和地区。显然,如果这些数据只是静静地躺在存储空间中,没有被分析和挖掘,它们就不会创造任何附加价值;如果面对这样令人瞠目结舌的数据增长趋势,没有掌握任何一点分析方法和技能,我们也终将沦为信息时代的“出局者”。
统计学(statistics),恰好提供的是一整套用于数据收集、整理、分析并从数据中得出结论的方法和原则,是一门关于数据的科学。
不过,与物理学、化学、生物学、数学等其他学科相比较,统计学的确显得有些与众不同。它似乎没有固定的研究对象。它的产生和发展似乎一直都是“依附于”解决人们所面临的其他领域的各类问题。统计学家萨维奇(L.J. Savage)曾经说:“统计学基本上是寄生的,靠研究其他领域内的工作而生存。这不是对统计学表示轻视。这是因为对于很多寄主来说,如果没有寄生虫,它们就会死。对于有的动物来说,如果没有寄生虫,它们就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱。”这一阐述在形象说明统计学的独特性的同时,也恰好证明了统计学在支撑社会经济发展过程中的重要地位和作用。
我国著名统计学家陈希孺院士在其出版的《数理统计学简史》中写到:“统计学不止是一种方法或技术,还含有世界观的成分——它是看待世界上万事千物的一种方法。”按照C.R.劳(C.R. Rao)的观点:“今天,统计学已发展成为一门媒介科学。它研究的对象是其他科学的逻辑和方法论——做出决策的逻辑和试验这些决策的逻辑。”因此,在他看来,统计学是一门科学、一种工艺,也是一门艺术。
无论从何种角度理解统计学,给出怎样的定义,一个不争的事实是:近代以来,统计学已经成为一门极其活跃的、被广泛应用于各个领域的独特学科。
1.1.2 统计的应用
统计思想的起源最早可以追溯到远古时期,原始人在树木上刻痕,以此计算家畜及其他财产。而从人类放弃个体游牧生活状态,开始有组织的社会生活时,收集数据、记录信息就成为一种必要。1660年,德国人康林(Hermann Conring)首次在印刷品上使用了“statistik”一词。该词是指政府部门记录人口出生和死亡信息的工作,其成为今天统计学“statistics”这个英文单词的正式来源。经过三百多年的发展,统计仍然是当今世界各地政府机构保障正常工作运转的重要支柱。与此同时,统计学又被不断赋予新的内涵和责任,帮助人类寻找解决各个领域问题的有效方法和途径。
在商业中,统计方法被用来预测商品的未来需求量,制订生产计划和发展有效的管理技术以获得最大的利润。
在医学中,统计方法被用于药效的鉴定及临床检验,由大量生物化学提供的数据信息经过统计评估用于疾病的诊断和预测。
在犯罪学中,统计方法被用于探索犯罪原因,研究犯罪现象与种族、职业、经济状况、年龄、性别甚至气候条件之间的联系,进而探索犯罪规律和趋势。
在考古学中,统计方法被用于定量评估考察对象的相似性,提供确定古代工艺品年代顺序的科学方法。
在文学中,统计方法被用于分析不同作者的用词习惯,测定作家风格,从而在作者版权产生争议时提供证据。
诸如此类,不胜枚举。以至于有学者说:“举出一个统计没有用途的领域名称比举出一个统计作为其组成部分的领域名称要困难得多。”今天,对统计学的研究和应用已经由最初的政府部门的政策制定,扩展到自然科学、社会科学、管理、经济、工程技术、艺术、文学等各个领域。在此,我们仅提供几个小的例子供读者窥见一斑。
【例1.1】利用正态分布识别欺诈行为。德国在某战争期间物资特别紧缺,于是对面包实行配给制:政府把面粉发给指定的面包房,面包师傅烤好了面包再发给居民。有一个统计学家怀疑他所在区域的面包师傅私扣面粉,于是就天天称自己的面包。几个月以后,他去找面包师傅,说:“政府规定配给的面包是400克,因为模具和其他因素,你做的面包可能是398克、399克,也可能是401克、402克,但是按照统计学的正态分布原理,这么多天的面包重量平均应该等于400克,可是你给我的面包平均重量是398克。我有理由怀疑是你使用较小的模具,私吞了面粉。”面包师傅承认确实私吞了面粉,并再三道歉保证马上更换正常的模具。又过了几个月,统计学家又去找这个面包师傅,说:“虽然这几个月你给我的面包都在400克以上,但是这可能是因为你没有私吞面粉,也可能是因为你从面包里特意挑大的给我。同样,根据正态分布原理,这么多天不可能没有低于400克的面包,所以我认为你只是特意给了我比较大的面包,而不是更换了正常的模具。我会立刻要求政府检查你的模具。”面包师傅只好当众认错道歉,接受处罚。
【例1.2】利用简单的统计量推测重要军事情报。第二次世界大战(简称“二战”)期间,出于战略考虑,盟军非常希望知道德军总共制造了多少辆坦克。盟军最初通过间谍、解码和逼供等传统手段收集信息,但得出的结论与事实都相去甚远。最终,盟军找到了一个关键线索。当时,德国人在制造坦克时是墨守成规的,他们把坦克从1开始连续编号。在战争中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。基于此,盟军中的统计学家创建了各种估计量的计算公式,其中一个最为简单的做法是,先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点,因此这个均值乘以2就是对德军生产的坦克总数的一个估计(当然,这是假设缴获的坦克代表了所有坦克的一个随机样本)。这种方法的各种变形被应用于第二次世界大战之中。从战后发现的德军记录来看,盟军的估计值非常接近德国所生产的坦克的真实值,在这点上,统计学家做得比间谍们更漂亮!
【例1.3】利用回归分析预见重要决策后果。1986年1月28日清晨,载有7名宇航员的美国“挑战者号”航天飞机进入发射状态。几分钟后,正当包括许多学生在内的大批美国民众观看电视新闻的直播报道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员全部遇难。事故调查结果发现,发射当日清晨的低温(-0.5摄氏度)是导致航天飞机右侧固体燃料火箭推进器密封圈失效的直接原因,而这一悲剧是有机会避免的。因为负责制造该固体燃料发动机的塞奥科(Thiokol)公司的工程师们曾通过23次飞行中发生腐蚀或泄漏事故的次数及火箭连接处的温度数据进行回归分析发现,二者之间是存在一定的统计相关性的,并在发射前一天晚上向公司董事会提交了研究报告,建议推迟发射。不幸的是,美国宇航局及塞奥科公司的高层们忽视了统计分析的客观结论,抱着投机和侥幸的心态做出最终的决策,从而造成了不可挽回的损失。