1.1.3 基础的概率分布_智能搜索和推荐系统：原理、算法与应用-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.1.3　基础的概率分布

很多基础的概率分布在机器学习和深度学习领域很有用，这些概率分布也是其他复杂分布的基础。下面我们学习几种基础的概率分布。

1）0-1分布：P(X=k)=p^k(1–p)^1–k，k=0，1

其中，p为k=1时的概率（0<p<1）。假设一个试验事件发生的概率为p，不发生的概率为1–p，任何一个只有两种结果的随机事件都服从0-1分布。

2）二项分布B(n，p)：P(X=k)=，k=0，1，…，n

其中，是二项式系数。该公式可以理解为，在n次试验中有k次成功（成功的概率为p）和n–k次失败（失败的概率为1–p），并且k次成功可以在n次试验的任何次试验中出现，则k次成功分布在n次试验中共有种不同的排列组合。

0-1分布是二项分布的特例。

例3：二项分布代码，如下所示。

1. import numpy as np  
2. from scipy import stats  
3. import matplotlib.pyplot as plt  
4. #####################  
5. #二项分布  
6. #####################  
7. def binom_pmf_test():  
8.    ''''' 
9.    为离散分布 
10.   二项分布的例子：抛掷100次硬币，恰好两次正面朝上的概率是多少？ 
11.   '''  
12.   n = 100#独立试验次数  
13.   p = 0.5#每次正面朝上概率  
14.   k = np.arange(0,100)#0-100次正面朝上概率  
15.   binomial = stats.binom.pmf(k,n,p)  
16.   print( binomial)#概率和为1  
17.   print(sum(binomial))  
18.   print( binomial[2])  
19.   plt.plot(k, binomial,'o-')  
20.   plt.title('Binomial: n=%i , p=%.2f' % (n,p),fontsize=15)  
21.   plt.xlabel('Number of successes')  
22.   plt.ylabel('Probability of success',fontsize=15)  
23.   plt.show()

二项分布示意图如图1-2所示。

二项分布不断叠加后会产生一个重要的分布，就是正态分布。

3）正态分布N(μ，σ²)：，σ>0；–∞<x<+∞

例4：正态分布代码，如下所示。

1.def  normal_distribution():  
2.    ''''' 
3.    正态分布是一种连续分布，其函数可以在实线上的任何地方取值
4.    正态分布由两个参数描述：分布的平均值μ和方差σ²
5.    '''  
6.    mu = 0  # mean  
7.    sigma = 1  # standard deviation  
8.    x = np.arange(-10, 10, 0.1)  
9.    y = stats.norm.pdf(x, 0, 1)  
10.   print(y)  
11.   plt.plot(x, y)  
12.   plt.title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f' % (mu, sigma))  
13.   plt.xlabel('x')  
14.   plt.ylabel('Probability density', fontsize=15)  
15.   plt.show()

图1-2　二项分布示意图

正态分布示意图如图1-3所示。

图1-3　正态分布示意图

4）泊松分布p(λ)：P(X=k)=，λ>0；k=0，1，2…，n

λ是单位时间（或单位面积）内随机事件的平均发生率，因此该分布适合描述单位时间内随机事件发生的次数。若随机变量X取0和一切正整数，在n次独立试验中出现的次数x恰为k次的概率为P_(X=k)(k=0，1，...，n)，式中λ是一个大于0的参数，此概率分布称为泊松分布。它的期望值E(x)=λ，方差D(x)=λ。当n很大，且在一次试验中出现的概率P很小时，泊松分布近似二项分布。

5）均匀分布U(a，b)：

均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值，在边界a和b处的f(x)的值通常是不重要的。

6）正态分布N(μ，σ²)：，σ>0；–∞<x<+∞

若随机变量X服从数学期望为μ、方差为σ²的正态分布，可记作N(μ，σ²)。当μ=0，σ=1时，正态分布是标准正态分布。

7）指数分布E(λ)：

其中，λ>0，常被称为频率参数，即单位时间内发生某事件的次数。指数分布的区间是[0，∞)。如果一个随机变量X呈指数分布，则可以写作X~Exponential(λ)。指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进机场的时间间隔、软件更新的时间间隔等。它是可靠性研究中最常用的一种分布形式。

8）几何分布G(p)：P(X=k)=(1–p)^k–1p，0<p<1，k=1，2，…

在n次伯努利试验中，试验k次才得到第一次成功的概率，即前k–1次皆失败，第k次成功的概率。在伯努利试验中，成功的概率为p，x表示出现首次成功前的试验次数，x是离散型随机变量，只取正整数。

9）超几何分布H(N，M，n)：，k=0，1，…，min(n，M)

描述了从有限的N个物件（其中包含M个指定种类的物件）中抽出n个物件，成功抽出指定种类物件的次数（不放回）。

本周热推：

SolidWorks软件入门与建模技巧 EPLAN实战设计商用机器学习：数据科学实践 Yii框架深度剖析鲲鹏架构入门与实战