第一节 统计与统计学
一、什么是统计学
统计作为一种古老的社会实践活动,已在人类社会存续了数千年;而统计学作为这种社会实践活动的经验总结和理论概括,也有了300多年的历史。可以说,自从有了人类社会文明,就有了统计实践活动。无论是在人们的日常生活中还是在国家治理中,统计都作为一种重要的管理手段被广泛地重视,进而演变成一种系统的理论工具。
人们通常所说的“统计”,包括统计工作、统计资料和统计学。统计工作是人们对客观事物数量方面进行调查研究的认识活动,包括数据资料的收集、整理和分析等;统计资料是统计工作的直接结果,包括调查得到的经过整理具有信息价值的各种统计数据和分析报告;统计学则是一门收集、整理、描述、显示和分析统计数据的科学,是统计工作实践经验的理论概括,其目的是探索数据内在的数量规律性,是数据的科学。
与其他学科一样,统计学是随着人类社会的发展和社会管理的需要而发展起来的。伴随着人类社会由低级向高级演进,统计活动也逐渐变得复杂起来,仅仅用数字计量的简单统计活动已不能满足社会的需要,人们开始对客观现象进行定量分析,并不断地在数据的处理和分析中进行抽象、概括和总结,于是,就顺理成章地产生了统计学。
统计学家们给统计学(statistics)下了不同但相似的定义,《不列颠百科全书》将统计学定义为“一门收集、分析、表述和解释数据的科学”;《韦伯斯特国际辞典》对统计学的定义是“统计学是一门收集、分析、解释和提供数据的科学”;美国学者特里奥拉在他所著的《初级统计学》一书中指出,“统计学指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”;我国学者贾俊平在其所编著的《统计学》(第2版)中给统计学下的定义是“统计学是收集、处理、分析、解释数据,并从数据中得出结论的科学”。上述关于统计学的概念有一个共同的特点,都与数据的解释与分析相关。总结上述定义,我们可以将统计学的定义概括如下。
定义 1.1 统计学,是一门研究大量社会现象和自然现象的总体数量,包括收集、整理和分析统计数据的方法论科学。
为了能对统计学的定义有一个更清楚的理解,我们将统计学归纳出如下几个特点。
1.数量性
统计学实际上是“信息提炼学”,它直接利用数学中研究好的计算方法研究如何去提炼出蕴藏于数据中的信息,自然首先具有数量性的特点。
2.总体性
统计学研究的是社会现象和自然现象的数量方面(指的是总体的数量方面)。从总体上研究社会现象和自然现象在数量方面的规律,是统计学区别于其他社会科学的一个重要特点。社会现象是各种社会规律相互作用的结果,它呈现出一种复杂多变的情景。统计学对社会现象总体数量方面的调查研究,用的是综合研究方法,而不是对单个事物的研究,但其研究过程是从个体到总体,即必须对大量的个体(这些个体都表现出一定的差别、差异)进行登记、整理和综合,使它过渡到总体的数量方面,从而把握社会现象的总规律、总水平及其变化发展的总趋势。比如,了解市场物价情况,统计着眼于整个物价指数(如居民消费价格指数)的变动,而不是某一种商品价格的变动,但物价统计必须从了解相关代表性商品的价格变动情况开始,然后经过一系列的统计工作,才能达到认识物价总体数量变动情况的目的。
3.具体性
统计学研究的数量方面是指社会现象和自然现象的具体数量,而不是抽象的数量关系,这是它不同于数学的重要特点。统计学与数学相比,有如下两点不同。首先,从研究对象上看,数学研究的是没有量纲或没有单位的抽象的数,而统计学研究的是有具体实例或有计量单位的数据。其次,统计学与数学研究中所使用的逻辑方法也是不同的,数学研究中使用的是纯粹的演绎,而统计学则是演绎与归纳相结合,占主导地位的是归纳。数学家可以坐在屋里,凭借聪明的大脑从假设命题出发,推导出漂亮的结果,而统计学家则要深入实际收集数据,并与具体的实际问题相结合,经过大量的归纳才能得出有用的结论。
4.指导性
统计学是一门研究大量社会现象和自然现象数量规律的方法论科学,所以统计学方法可以帮助其他学科探索内在的数量规律性,为人们的实践活动提供方法论依据,从而指导人们的实践活动。例如,美国季度国内生产总值增长率、月度通胀率或失业率一公布,马上会引起银根松紧、利率调整,甚至股价涨跌等一系列的连锁反应。不仅如此,这些数据往往能在几分钟内传遍全世界,一些国家不得不迅速作出相应的反应。统计数据对经济政策的影响和指导作用显而易见。
二、统计学的研究对象
统计学将大量社会现象和自然现象的总体数量作为研究对象,并提供一套历史的考察方法来分析和探索数量的内在规律性。我们可以通过以下几个具体的例子来说明统计学的研究对象。
对于人类的身高,人们通常认为,父母的身高越高,孩子的身高就会越高;反之,父母的身高越矮,孩子的身高就会越矮。统计学家费朗西斯·高尔顿(Francis Galton)发现了这是一个错误的认识!在他的生物统计实验室里,他收集了大量人类的身高数据,并对这些数据进行了分析。他发现,非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值,这个现象被他称之为“向平均回归”(regression to the mean)。他将这一发现纳入了所构建的统计模型中,从而对人类身高进行了进一步研究。他指出,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样也会很高,在这种情况下,一些儿子的身高必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者儿子这一代人的儿子也将如此,那么会有一些后代身材更高。这个过程将一代一代传下去。同样地,矮身材父亲的儿子将与他们的父亲一样也会很矮,还有一些儿子身高会矮于他们的父亲,以抵消身材比父亲高的人的影响。这个过程一代一代传下去,将会有一些后代身材更加矮小。如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。显然,上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。
在现实生活中被人们饶有兴趣地观察的另一个例子是人类性别的结构。众所周知,一个家庭新生婴儿的性别是随机分布的。从表面上看,新生婴儿的性别比例似乎没什么规律可循。但如果对新生婴儿的性别进行大量观察统计,就会发现性别比例还是有规律可循的,即婴儿总数中男孩的数量要多于女孩,大致为每生育100个女孩,就会生育107个左右的男孩。这个107∶100的比例就是新生婴儿男女性别的数量规律性,古今中外大致相同,它是人类社会长期遗传与发展的结果。人类社会要延续、要发展,就要保持男女人数的大致相同。但从新生婴儿的性别比例来看,却出现了男女比例的失衡。这难道不违背人类永续生存的自然规律吗?统计学家们对这一现象进行了分析解释,他们认为,尽管从新生婴儿的数量来看,男性要高于女性,但男孩的死亡率高于女孩,到了中青年时,男女人数就大致相同了。进入中老年后,男性的死亡率仍然高于女性,导致男性的平均预期寿命比女性短,老年男性的数量要少于老年女性的数量。从一个国家乃至全人类看,如果没有人为的B超、堕胎等干扰,其规律是:婴幼儿时男性的数量略多于女性,中青年时男女人数大致相同,老年时女性的数量又略多于男性。这样既保证了人类在中青年结婚生育时性别比例的大致平衡,又使得在人口总数上男性与女性的数量也大体相当,有利于人类社会的进化和发展。统计学家往往通过对大量数据的分析,来挖掘数据现象背后的规律。
上面的两个例子说明,通过多次观察或实验得到大量的统计数据,我们利用统计方法是可以探索出其内在数量规律性的。客观事物本身的特点再加上科学设计的统计方法,使得我们能够在探索数据的规律方面不断前进。
从客观事物特点来说,任何客观事物都是必然性与偶然性的对立统一,同样,任何一个数据,也都是必然性与偶然性共同作用的结果。必然性反映了事物本质的特征和联系,是比较稳定的,因而它决定了事物的内在本质是有规律可循的;偶然性则反映了该事物每个表现形式的差异。如果客观事物只有必然性一个方面的特征,事物的表现形式会比较简单,我们可以比较容易地把握它的规律性。正是由于偶然性的存在,造成了事物的表现形式与必然性和规律性发生了偏移,从而形成了表面形式的千姿百态和数据表现形式的千差万别,这样,就导致了必然的数量规律性被掩盖在表面的差异之中。
前面所说的两个例子,个别家庭父母和子女的身高和每个新生婴儿的性别都是随机现象,其表现形式也是偶然性的,但每个例子本身可以通过对大量数据的收集整理和研究得出其内在的规律性。应用统计方法可以从偶然性中探索到内在的、本质的数量规律:从统计方法来看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索(或推断)出事物总体的数量规律性。当然,如果事物本身的规律比较简单,所用的统计方法也就相对容易;如果事物本身的规律错综复杂,那么所用的统计方法也就相对复杂。而这些又都是统计学所重点关注的问题。
思考实践
统计学存在于我们身边许多客观事物中,你还能举出一些例子来说明统计学对人类生活的意义吗?
三、统计学的产生与发展
尽管统计活动在人类社会中已存续了数千年,但统计学作为一门独立的学科却只有300多年的历史。一般认为,统计学产生于17世纪中叶,其形成过程是从几个不同的领域开始的,在各自的领域又产生了许多不同的学派,如形成于德国的“国势学派”,形成于英国的“政治算术学派”,产生于19世纪中叶的“数理统计学派”“社会统计学派”等。然而,考察统计学产生的历史,无论是古典统计学、近代统计学,还是现代统计学,其发展过程都是沿袭两条主线展开的:其一是以“政治算术学派”为开端形成和发展起来的以社会经济问题为主要研究对象的社会经济统计;其二是以概率论的研究为开端并以概率论为基础形成和发展起来的数理统计。我们对统计学历史的考察就是围绕这两条主线展开的。
1.政治算术——社会经济统计
政治算术学派产生于17世纪中叶的英国,其主要代表人物是威廉·配第(William Petty,1623—1687)和约翰·格朗特(John Graunt,1620—1674)。
威廉·配第在其代表性著作《政治算术》(1676年)一书中,运用大量的数字资料和定量的研究方法对英国、法国、荷兰3国的经济实力进行了分析与比较,为统计学的产生奠定了基础。配第的这些开创性工作,得到了马克思的高度评价,马克思在《资本论》中评价配第“是政治经济学之父,在某种程度上也可以说是统计学的创始人”。
政治算术学派的另一个代表性人物是约翰·格朗特,他在1662年出版了《关于死亡表的自然观察与政治观察》。当时,伦敦瘟疫流行,死亡情况严重,引起了社会不安。他根据“死亡率公报”对伦敦人口的出生率、死亡率、性别比例作了分类计算和预测,证明没有悲观的必要。另外,在该书中,他通过大量的观察,研究并发现了人口与社会现象中重要的数量规律性。如新生婴儿的男女比例稳定在14∶13,即我们在前面的例子中谈到的107∶100,并解释了这一比例出现的原因。他得出了男性在各年龄组中死亡率均高于女性;男性新生婴儿的死亡率较高;一般疾病与事故的死亡率较稳定,而传染病的死亡率波动较大等很多富有启发性的结论。更为重要的是,约翰·格朗特在研究中运用多种方法对统计资料进行了间接的推算,并相互印证。由于约翰·格朗特的这些研究成果,该书被许多统计学家誉为“真正统计科学的肇端”。
政治算术学派的统计学家们基本上沿着威廉·配第开创的政治经济统计和约翰·格朗特开创的人口统计而展开进一步的研究。在经济统计方面,出现了农业统计、工商统计和物价指数计算方法的研究。在人口统计方面,由于对研究对象进行了扩展,出现了保险统计、卫生统计和医疗统计等分支。除此之外,人口调查、社会调查、道德统计等也逐渐发展起来。
19世纪中叶以后,包括政治统计、人口统计、经济统计、犯罪统计、道德统计、社会统计等多方面内容的“社会统计学”开始发展起来,与之相适应的社会调查与社会研究也有了较大的发展,并成为社会科学研究的重要方法之一。人们试图通过社会调查,收集、整理、分析资料,以揭示社会现象和问题,并提出解决问题的具体办法。例如,法国经济学家和社会改良家李·普莱(Le Play,1806—1882)曾利用“家庭预算表”来研究社会生活水平和贫困问题;德国统计学家恩斯特·恩格尔(Ernest Engel,1821—1896)在他的《比利时工人家庭的生活费》(1895年)一文中,提出了著名的“恩格尔法则”,即“家庭收入越多,则饮食消费支出在家庭收入中所占的百分比越少;家庭收入越少,则饮食支出在家庭收入中所占的百分比越大”。在这一法则的基础上,他又引申出至今仍得到人们广泛应用的“恩格尔系数”,用于衡量人们生活水平的高低。
与此同时,经济调查和经济统计学也迅速发展起来。比如,早在1835年挪威就与人口普查相结合从事农业统计调查;1839—1840年法国进行了第一次农业普查;1846年比利时进行了农业普查;1790年美国进行了第一次人口普查等。在这期间,美国、德国等还进行了工业普查。到了20世纪,这些调查活动日臻成熟。为满足国家和社会客观需要而进行的各种经济调查,不仅取得了大量的社会经济数据,为经济学家证实或提出新的经济理论提供了依据,也为统计学家概括和提出新的统计方法提供了数据材料。到了19世纪中叶,德国经济学家和统计学家克尼斯(K.G.A.Knies)在他的论文《独立科学的统计学》(1850年)中提出,统计学是一门独立的科学。可见,随着统计实践和学科门类的发展和分工,统计学作为一门对社会现象和自然现象进行数量对比分析的方法论科学,已为社会所公认。
学习指引
关于中国的人口普查数据,可在中华人民共和国国家统计局(以下称“国家统计局”)网站按以下路径查询:首页→统计数据→数据查询→普查数据。
此外,20世纪对国民收入的计算和研究、指数的编制及其方法研究、时间序列分析、经济预测和计量经济学等,也都取得了长足的进展。而这些成就,其思想渊源都可追溯到政治算术学派所开创的统计学的理论和方法,这为后来的社会经济统计的发展奠定了基础。
2.概率论——数理统计
统计学产生与发展的第二条主线是以概率论为基础形成和发展起来的以随机现象为主要研究对象的数理统计。
在西方,概率论的思想渊源最早可以追溯到意大利的文艺复兴时代,最初的研究是为赌徒们找出掷骰子取胜的一套办法,从而合理地算出成功的概率。这一时期的标志性著作是意大利数学家卡尔达诺(Kirolamo Cardano,1501—1576)编著的《论赌博》一书,他的研究成果为运用数学理论研究概率论开辟了道路。著名的天文学家伽利略·伽利雷(Galileo Galilei,1564—1642)写了一篇同样题目的论文,提出了概率论的基本原理,奠定了数理统计的基础。
几乎与政治算术学派的研究一致,概率论的真正研究历史是从17世纪中叶开始的,这一时期是古典统计学的黄金时代,其主要奠基人是法国的帕斯卡(B.Pascal,1623—1662)和费马特(P.Fermat,1606—1665)。他们将赌博中出现的具体问题归纳为一般的概率原理,为后来概率论和统计学的发展奠定了重要的基础。到了18世纪,积极研究概率论的还有瑞士数学家贝努里(J.Bernoulli,1654—1705),贝努里全面论述了概率论原理并将概率论建立在数学的基础上,在其所著的《推算法》一书中,提出了著名的“贝努里定理”,这是大数法则的早期形式。
古典统计时期的概率论基本上是独立发展的,它与社会经济统计没有太多的联系,但这一时期也有学者尝试着将概率论应用于社会现象的研究。到了19世纪,用概率论研究社会经济现象的人日益增多,在这方面作出重大贡献的是法国数学家拉普拉斯(P.S.Laplace,1749—1827)和比利时统计学家凯特勒(A.Quetelet,1796—1874)。拉普拉斯在其所著的《概率论分析》一书中,总结了前人的研究成果,并以大数法则为桥梁,将概率论与社会经济现象联系起来;凯特勒在发展和应用概率与统计方面作出了重要贡献,其著作主要有《概率论书简》和《社会物理学》等,其主要贡献是将自然科学的研究方法引进社会现象的研究中,他发展了大量观察法并为数理统计学的发展奠定了基础。
从19世纪中叶到20世纪中叶,概率论的进一步发展为数量统计学的形成和发展奠定了基础。英国生物学家和统计学家高尔顿(F.Galton,1822—1911)首次提出并阐述了“相关”的概念,并首次提出了“相关系数”的概念;英国数理统计学家卡尔·皮尔逊(K.Pearson,1857—1936)提出了计算复相关和偏相关的方法,并将复相关和回归理论扩展到许多领域。
20世纪初期,大工业的发展对产品质量检验问题提出了新的要求,即只抽取少量产品,作为样本对全部产品的质量好坏作出推断。因为对大批量产品要作全面的检验,既费时又费钱,加之对有些产品再作全部质量检验已不可能,数理统计学派的先驱、英国统计学家戈塞特(W.S.Gosset,1876—1937)建立了“小样本理论”,即所谓的“t分布”。通过这个理论,人们可以从大量的产品中只抽取较小的样本来完成对全部产品质量的检验和推断,这样就使统计学进入了现代统计学(主要是推断统计学)的新阶段。后来著名统计学家R.A.费希尔(R.A.Fisher,1890—1962)研究出了F统计量、极大似然估计、方差分析等方法。奈曼(J.Neyman,1894—1981)创立了区间估计理论,并和伊根·夏普·皮尔逊(E.S.Pearson,1857—1936)共同发展了假设检验理论。20世纪杰出的统计学家不胜枚举,正是他们的努力,推动了统计理论的发展和应用。到了20世纪中叶,现代统计学的基本框架已经确立。
从20世纪50年代以来,统计理论、方法和应用进入了一个全面发展的新阶段。一方面,统计学受计算机科学、信息论、混沌理论、人工智能、大数据等现代科学技术的影响,新的研究领域不断出现,如多元统计分析、现代时间序列分析、贝叶斯统计、非参数统计、线性统计模型、探索性数据分析、数据挖掘等。另一方面,统计方法的应用领域也不断扩展,几乎所有的科学研究都离不开统计方法。因为无论是自然科学、工程技术、农学、医学、军事科学,还是社会科学,都离不开数据,对数据进行研究和分析就必然要用到统计方法,现在连纯文科领域的法律、历史、语言、文学、新闻等都越来越重视对统计数据的分析,国外的人文与社会学科普遍开设了统计学的课程,可见,统计学已经成为一门极其重要的基础性学科。
学习指引
推荐扫描二维码观看国家统计局制作的统计科普视频“漫话统计·统计的源流”,该视频既专业又浅显地介绍了统计的含义、统计在中国的产生和发展以及统计在世界范围内产生和发展的简史。