第3章 多变量联合概率分布
3.1 两变量联合概率分布
3.1.1 两变量联合概率分布的性质
水科学领域经常遇到的多变量水文事件的描述以及不同水文事件遭遇和联合分布概率常常属于两变量联合概率分布问题,其联合概率分布函数表述如下:
式(3.1)所示的联合概率分布函数F(x,y)表示事件X≤x和Y≤y同时发生的概率。
当随机变量相互独立时,联合概率分布函数直接为变量边际分布函数的乘积,即:
设点(x0,y0)的概率值F(x0,y0)表示二维随机变量(X,Y)落在点(x0,y0)左下方矩形区域,如图3.1所示。根据两变量联合概率分布函数F(x,y)的几何涵义,可以得到二维随机变量(X,Y)落在矩形区域(x1<X≤x2,y1<Y≤y2)内的概率如式(3.3)所示,图3.2为事件(x1<X≤x2,y1<Y≤y2)的几何表示。
图3.1 F(x0,y0)联合概率示意图
图3.2 F(x1<X≤x2,y1<Y≤y2)联合概率示意图
3.1.1.1 两变量联合概率的基本性质
两变量联合概率分布函数F(x,y)具有以下基本性质[49-50]:
(1)对一切x,y,有0≤F(x,y)≤1:
对于任意固定的x或y,有:
(2)F(x,y)是变量x或y的单调不减函数,即对任意固定的y,当x1<x2时,F(x1,y)≤F(x2,y);对任意固定的x,当y1<y2时,F(x,y1)≤F(x,y2)。
(3)F(x,y)分别是x或y的右连续函数,即对任意固定的y,F(x+0,y)=F(x,y);即对任意固定的x,F(x,y+0)=F(x,y)。
(4)对于任意的x1<x2,y1<y2,都有:
上述的基本性质(1)~(4)是F(x,y)为概率分布函数的充要条件,即:如果一个二维单值实函数F(x,y)满足上述基本性质,则该函数为某个二维随机变量(X,Y)的分布函数[49]。
3.1.1.2 二维连续型随机变量的性质
对于二维连续型随机变量(X,Y),联合密度函数概率为f(x,y),则对任意实数x或y,(X,Y)的概率分布函数为:
根据二维概率分布的基本性质,二维连续型随机变量概率分布函数具有以下性质:
式(3.10)和式(3.11)为f(x,y)为二维连续型随机变量概率密度函数的充要条件,可以证明,满足式(3.10)和式(3.11)的任意一个二维函数f(x,y),必可作为某个二维随机变量(X,Y)的分布函数的概率密度函数。
若f(x,y)在点(x,y)处连续,则有:
设D为平面上的任意区域,则点(X,Y)落在D内的概率为:
即(X,Y)落在区域D内的概率等于以D为底,以曲面Z=f(x,y)为顶面的柱体体积。
3.1.1.3 边际分布及条件分布的性质
设n维随机变量(X1,X2,…,Xn)的联合分布函数为F(x1,x2,…,xn),边际分布函数记为FX1(x1),FX2(x2),…,FXn(xn)。则联合分布函数和边缘分布函数的关系为:
当n=2时,对二维随机变量则有:
此外,当(X1,X2,…,Xn)的联合分布函数已知时,可以确定n维随机变量(X1,X2,…,Xn)的k维边缘分布函数,比如(X1,X2,…,Xn)关于(X1,X2),(X1,X2,X3)的边缘分布函数为:[49]
对二维连续型随机变量(X,Y),其分布函数与边际概率具有以下关系:
3.1.2 各种形式的两变量联合概率及重现期
3.1.2.1 两变量联合概率及重现期
单变量的频率分析可以通过变量观测值的频次分析直观表示,其累积不超过概率(CDF)可以用式(3.18)表示:
水科学领域常常关心的是变量超过某一值的概率,则超过概率为:
相应的重现期表示为:
两变量联合不超过概率:
图3.3 两变量概率分布函数——X,Y的区域
对于两变量频率分析而言,其变量频次分析没有单变量直观,但两变量联合分布函数的内涵与单变量分布函数本质上相同。由于变量之间的相关性和实际应用的需要,常常需要分析各种形式的联合概率和重现期。Sheng Yue[51]系统总结了各种变量的联合概率表示。图3.3为两变量联合分布函数变量的范围,可以直观描述两变量概率分布的内涵。将x—y平面分为四个象限,落入不同象限的(X,Y)表示不同的联合概率分布函数。
(1)象限Ⅰ:
(2)象限Ⅱ:
(3)象限Ⅲ:
(4)象限Ⅳ:
根据概率分布内涵可知:
相应事件(X>x,或Y>y,或X>x且Y>y)的重现期为:
相应(X>x,Y>y)的重现期为:
当随机变量X,Y相互独立时,其联合分布函数及重现期表示如下:
由于TX≥1及TY≥1,则不等式(3.31)成立:
3.1.2.2 两变量条件分布及重现期
水科学领域中各种随机变量之间常常具有不同程度的相关关系。条件分布是分析研究随机变量相依关系的有力工具。根据联合分布函数F(x,y)、边际分布函数FX(x)和FY(y),可以推导出各种条件分布函数。
设f(x,y)为连续随机变量X,Y的联合概率密度函数(PDF),fX(x)和fY(y)分别为变量X,Y的边际概率密度函数。
FX|Y(x|y)为在条件Y=y下,随机变量X的条件分布函数,fX|Y(x|y)≥0为条件概率密度函数,则:
即
相应地,可得到给定Y=y条件下,X>x重现期为:
同理可以得到在给定X=x条件下,Y的条件累积概率(CCDF)、条件概率密度函数及条件重现期如式(3.35)~式(3.37)所示:
当变量相互独立时,f(x,y)=f(x)f(y),则FX|Y(x|y)=FX(x),FY|X(y|x)=FY(y)。此时其相应的条件重现期为T(x|y)=TX,T(y|x)=TY。表明当变量相互独立时,条件概率和条件重现期等于相应边际分布的概率和重现期。
实际进行工程规划、设计、管理时,经常关心的是当某一变量大于或小于某一阈值条件下,另一变量的概率分布和重现期大小。
在X≤x条件下,变量Y≤y的概率为:
在X≤x条件下,变量Y>y的概率为:
给定X≥x时,变量Y的分布函数为:
给定Y≥y时,变量X的分布函数为:
在Y≥y条件下,变量X≥x的概率为:
在X≥x条件下,变量Y≥y的概率为: