智能搜索和推荐系统:原理、算法与应用
上QQ阅读APP看书,第一时间看更新

1.1.4 期望、方差、标准差、协方差

期望:试验中每次可能结果的概率乘以其结果的总和。对于离散型变量和连续型变量而言,其求解期望的方式如下所示。

离散型:P{X=xi}=pi,E(X)=

连续型:

期望代表了概率加权下随机变量的平均值。平均值的计算公式如,如求1~10数字的均值,计算过程为:。期望除了表示均值外,还反映随机变量平均取值的大小。

比如掷骰子,骰子有6个面,分别是(1,2,3,4,5,6),掷10000次骰子,假设骰子被掷到每个面的概率是均匀的,那么按照上面的计算方法,投掷10000次后的均值是3.5。如果所掷骰子的概率不服从均匀分布,均值的计算过程同离散型变量求期望的方法。

方差:D(X)=E[X–E(X)]2=E(X2)–[E(X)]2

一个随机变量的方差描述的是它的离散程度,也就是该随机变量在其期望值附近的波动程度。方差是针对预测数据的,预测数据的离散程度越大,方差越大。方差示意图如图1-4所示。

图1-4 方差示意图

标准差:

从本质上讲,方差和标准差具有相同物理意义,只是计算方式略有不同。

协方差:Cov(X,Y)=E[(X–E(X)(Y–E(Y))]

协方差是两个随机变量变化趋势的度量。若Cov(X,Y)>0,X、Y的变化趋势相同;若Cov(X,Y)<0,X、Y的变化趋势相反;若Cov(X,Y)=0,X、Y不相关。

如图1-5所示,图1-5a中第1、3象限的协方差变化趋势相同,图1-5b中第2、4象限的协方差变化趋势相反。

图1-5 协方差示意图