§2 方差
一、方差的定义
有两批钢筋,每批各10根,它们的抗拉强度指标如下:
第一批 115,120,120,120,120,125,130,130,135,135;
第二批 90,100,105,120,125,135,135,135,145,160。
它们的平均抗拉强度都是125。但是,质量要求抗拉强度指标不低于115。那么,第二批钢筋的抗拉强度指标较差:其一取值较分散,抗拉强度指标有的较大,有的较小,与其均值偏差较大;其二,不合格的根数较多,实用价值差。
可见,只靠期望值(平均值)还不足以说明随机变量的分布特征,还必须研究随机变量取值与其平均值的偏离程度。
定义2.1 设X是一个随机变量,若E[X-E(X)]2存在,则称E[X-E(X)]2为X的方差(variance,dispersion),记为var(X)(或σ2(X)),即
var(X)=E[X-E(X)]2 (2.1)
在应用上还需要引入与随机变量X具有相同量纲的量(或σ(X)),称其为标准差。
关于随机变量的数学期望(平均值)有一重要结果:设k为任一实数,随机变量X关于k的平方误差的均值E(X-k)2可视为k的函数,记作f(k),即f(k)=E(X-k)2,可以证明,当k=EX时,f(k)达到最小值f(EX)=E(X-EX)2,这个最小值恰好是X的方差,证明过程由读者自行完成。
这个极值等式的概率意义是,若欲用一个实数集中代表一个随机变量,则随机变量的数学期望是最理想的。这再一次说明了数学期望表示了随机变量取值的集中位置,而方差,则表示了随机变量的取值相对于它的数学期望的集中程度。具体而言,若随机变量的取值比较集中在其数学期望附近,则它的方差较小;反之,若取值相对于数学期望比较分散,则方差较大。
二、方差的计算公式
由定义知,方差实际上就是随机变量X的函数g(X)=[X-E(X)]2的数学期望,于是对于离散型随机变量X,设其分布律为
P{X=xk}=pk (k=1,2,3,…)
则 (2.2)
对于连续型随机变量X,设其分布密度为f(x),则
(2.3)
计算方差,往往使用下面公式
var(X)=E(X2)-[E(X)]2 (2.4)
证明 由方差的定义及数学期望的性质有
下面推导几种重要的随机变量的方差。
【例1】 设X~P(λ),求var(X)。
解 (k=0,1,2,…;λ>0)
我们已知E(X)=λ,下面计算E(X2)
由此可知,对于服从泊松分布的随机变量的期望与方差都等于参数λ,因为泊松分布只含有一个参数λ,因此只要知道它的数学期望或方差就能完全确定它的分布了。
【例2】 设X在(a,b)上服从均匀分布,求var(X)。
解 因为X的分布密度为
我们已知,利用方差的计算公式,则有
【例3】 设X~N(μ,σ2),求var(X)。
解 X的概率密度为
令,得
由本章§1例4知,若X~N(μ,σ2),则E(X)=μ,现又推得var(X)=σ2,这说明正态分布的随机变量完全由它的数学期望和方差所确定。
设随机变量X存在数学期望E(X)与方差var(X),则随机变量
(2.5)
称为随机变量X的标准化,显然它满足
E(X*)=0,var(X*)=1
例如,若X~N(μ,σ2),则(0,1)。
在实际应用中,一般随机变量都具有度量的单位,为了摆脱度量单位对处理过程及其结果的影响,可以通过式(2.5)标准化,得到无量纲的标准化随机变量X*。
为了使方差能够更准确地描述随机变量的取值相对于它的数学期望(均值)的分散程度(集中程度的对立面),应该考虑单位均值上的标准差,即,它与随机变量X的单位无关。
定义2.2 设X是一个随机变量,若E(X)和var(X)存在,则称为X的变异系数(coefficient of variation),记作CV(X),即
(2.6)
三、方差的性质
下面介绍方差的几个重要性质(以下假设随机变量方差存在)。
(1)设C是常数,则var(C)=0。
(2)设X是随机变量,C是常数,则有var(CX)=C2var(X)。
(3)设X,Y是两个相互独立的随机变量,则
var(X+Y)=var(X)+var(Y)
(4)var(X)=0的充分必要条件是X以概率1取常数C,即
P{X=C}=1
显然,这里C=E(X)。证略。
下面只证明(3)。
由于X,Y相互独立,X-E(X)与Y-E(Y)也相互独立,由数学期望的性质知
所以 var(X+Y)=var(X)+var(Y)
这一性质可以推广到有限个相互独立的随机变量的情况。
需要指出的是,相互独立的随机变量之和的方差,等于各随机变量方差之和这一结论,是方差的一条极为重要的性质,称为方差的可加性。与均值的可加性(随机变量之和的均值,等于各随机变量均值之和)相比较,方差的可加性要求各随机变量相互独立,而均值的可加性不需要任何独立性条件。
【例4】 设X~B(n,p),求var(X)
解 设Xi的分布律为
且X1,X2,…,Xn相互独立。由第二章§4例5知,二项分布可看成n个相互独立的且服从同一(0—1)分布的随机变量之和,即,则