大话机器学习:原理|算法|建模|代码30讲
上QQ阅读APP看书,第一时间看更新

1.2 概率函数、概率分布函数和概率密度函数

在很多文章或者专业书籍中,经常可以看到几个术语:随机变量、概率函数、概率分布、概率分布函数、概率密度函数,它们又有自己不同的符号,非常容易混淆。下面就讲解几个概念的区别。

1.2.1 随机变量和普通变量的区别

一般用X代表一个变量,那么普通变量就是当X确定是某一性质或者事件时,其对应的结果/变化就是确定的,而随机变量就是这个对应的结果是不确定的,也就是存在一定的不确定性。

例如,100个人从1开始编号,一直到100,每个人分配一个编号,这个编号就是X,然后进行分组,分为10组,分组的规则可以是:

(1)按照编号的尾数进行分组。

(2)按照抽签的方式进行分组。

可以看到,第一个规则(函数)在X确定后,对应的结果(组别)也是确定的,例如,33号就必定分配到第3组。这个情况下,X是一个普通变量。第二个规则在X确定后,对应的分组结果是不确定的,第1组到第10组都有可能,而且概率都是1/10,也就是说这时X是一个随机变量。

如果微积分是研究变量的数学,那么概率论与数理统计是研究随机变量的数学(1)

1.2.2 离散型随机变量和连续型随机变量

如果随机变量的值可以逐个列举出来,则为离散型随机变量。如果随机变量X的取值无法逐个列举,则为连续型变量(2)

比如说一个骰子有几个面,这个面是可以列举出来的,如1~6。如果要问人类的身高有多少,只能说出一个范围,而无法逐个列举出来(不能限定为整数,整数只是为了方便,不是完全精确的身高)。所以骰子的面值是一个离散型随机变量,而人类的身高是一个连续型随机变量。

1.2.3 离散型随机变量概率函数

研究一个随机变量,不只是要看它能取哪些值,更重要的是它取各种值的概率如何(3)

比如针对一个骰子,不仅需要看每一次骰子掷出来的点数,还要看在无数次投掷骰子之后,这些点数在所有掷出来的点数中的占比,也就是概率。如果能够用一个函数表示,那么这个函数就是概率函数:

piPXi) i=1,2,3,4,5,6

上式中的X表示随机变量,也称为自变量,pi表示因变量,整个函数就是骰子的概率函数。确切地说,这个是离散型随机变量的概率函数。因为连续型随机变量是无法穷尽取值的,所以需要用另外的表示方法,也就是后面要讲的概率密度函数(PDF)。

1.2.4 离散型随机变量概率分布

分布这个词一般出现在“××民族大约有多少人,分布在×××区域,其中百分之多少的人在×××地方,其余百分之多少分布在×××地方”,图1-6为浙江省杭州市每100人的人口分布图。分布包含一个空间的概念,那么对应到概率分布,表示的是以下两种很重要的信息。

图1-6

(1)可以得到哪些值。

(2)得到这些值的概率分别是多少(对离散型随机变量而言),对连续型随机变量则是得到给定区间值的概率。

比如,对于掷骰子来说,其概率分布如表1-2所示。

表1-2

表1-2中的X代表点数随机变量的取值,pi是每个X相应取值下的概率取值。

知道了概率分布,如何用函数表示出来呢?这就要用到概率分布函数。

1.2.5 离散型随机变量概率分布函数

下面是离散型随机变量概率分布函数的定义。

设离散型随机变量X的分布为

P{X=Xk}=pk (k=1,2,…)

则有:

由于Fx)是取小于等于x的诸多xk值的概率之和,故又称Fx)为累积概率函数。

大家看到上面出现一个Fx)函数,而且是“累积概率函数”,它是Xx的一个概率之和,对于骰子的概率分布来说。所以概率分布函数就是累积概率函数。

1.2.6 连续型随机变量的概率函数和分布函数

因为连续型随机变量无法把X的值全部列举出来,有点类似一个物理实体一样,是连在一起的一团东西。表示一个物体的量有质量、体积和密度,通过比较密度就可以知道物体的差异,所以对于连续型随机变量的概率函数,又称为概率密度函数。那么知道了概率密度函数,在一定取值范围内对其进行累加,是不是就是概率分布函数呢?确实是这样,类似于知道了密度,对其进行一定的积分就可以求出质量;知道了质量,对其进行一定的微分就可以知道密度。相应地,知道了概率密度函数(概率函数),针对某个X的范围求积,就可以得到这个范围的概率分布函数,知道了概率分布函数,针对某个X值求导,就可以知道这个值对应的概率密度函数。

理解了上面的这段话,再来看专业的解释,就会好懂了。

《概率论与数理统计》中的定义:“密度函数”这个名字的由来可解释如下,取定一个点x,按照分布函数的定义,事件{xXxh}的概率(h是大于0的常数)应为Fxh)-Fx),所以,比值[Fxh)-Fx)]/h可以解释为在x点附近h这么长的区间(xxh)内,单位长所占有的概率。令h→0,则这个比值的极限,即F′x)=fx),也就是x点处(无穷小区段内)单位长的概率。或者说,它反映了概率在x点处的“密集程度”(4)。你可以设想一条极细的无穷长的金属杆,总质量为1,概率密度相当于杆上各点的质量密度。

结合图1-7我们可能更容易理解,上面的fx)就是概率密度函数,而Fx)就是概率分布函数,两者之间的关系是:

图1-7(a)是Fx)连续型随机变量的概率分布函数,图1-7(b)是fx)连续型随机变量的概率密度函数,它们之间的关系是,概率密度函数是分布函数的导函数。

图1-7的两张图放在一起对比,就会发现,如果用图1-7(b)中的面积来表示概率,通过图形就能很清楚地看出,哪些取值的概率更大,是不是看起来特别直观!所以在表示连续型随机变量的概率时fx这个概率密度函数来表示是非常有道理的因为它可以更容易看到哪些值的概率更大或者更小。而图1-7(a)的概率分布函数Fx)却无法直观地看到这个特征。

机器学习中有很多基于概率的应用,使用比较多的是概率函数以及概率密度函数,所以理清上面的几个概念,对于理解算法是相当有益处的。

图1-7