1.1.3 基础的概率分布
很多基础的概率分布在机器学习和深度学习领域很有用,这些概率分布也是其他复杂分布的基础。下面我们学习几种基础的概率分布。
1)0-1分布:P(X=k)=pk(1–p)1–k,k=0,1
其中,p为k=1时的概率(0<p<1)。假设一个试验事件发生的概率为p,不发生的概率为1–p,任何一个只有两种结果的随机事件都服从0-1分布。
2)二项分布B(n,p):P(X=k)=,k=0,1,…,n
其中,是二项式系数。该公式可以理解为,在n次试验中有k次成功(成功的概率为p)和n–k次失败(失败的概率为1–p),并且k次成功可以在n次试验的任何次试验中出现,则k次成功分布在n次试验中共有种不同的排列组合。
0-1分布是二项分布的特例。
例3:二项分布代码,如下所示。
1. import numpy as np 2. from scipy import stats 3. import matplotlib.pyplot as plt 4. ##################### 5. #二项分布 6. ##################### 7. def binom_pmf_test(): 8. ''''' 9. 为离散分布 10. 二项分布的例子:抛掷100次硬币,恰好两次正面朝上的概率是多少? 11. ''' 12. n = 100#独立试验次数 13. p = 0.5#每次正面朝上概率 14. k = np.arange(0,100)#0-100次正面朝上概率 15. binomial = stats.binom.pmf(k,n,p) 16. print( binomial)#概率和为1 17. print(sum(binomial)) 18. print( binomial[2]) 19. plt.plot(k, binomial,'o-') 20. plt.title('Binomial: n=%i , p=%.2f' % (n,p),fontsize=15) 21. plt.xlabel('Number of successes') 22. plt.ylabel('Probability of success',fontsize=15) 23. plt.show()
二项分布示意图如图1-2所示。
二项分布不断叠加后会产生一个重要的分布,就是正态分布。
3)正态分布N(μ,σ2):,σ>0;–∞<x<+∞
例4:正态分布代码,如下所示。
1.def normal_distribution(): 2. ''''' 3. 正态分布是一种连续分布,其函数可以在实线上的任何地方取值 4. 正态分布由两个参数描述:分布的平均值μ和方差σ2 5. ''' 6. mu = 0 # mean 7. sigma = 1 # standard deviation 8. x = np.arange(-10, 10, 0.1) 9. y = stats.norm.pdf(x, 0, 1) 10. print(y) 11. plt.plot(x, y) 12. plt.title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f' % (mu, sigma)) 13. plt.xlabel('x') 14. plt.ylabel('Probability density', fontsize=15) 15. plt.show()
图1-2 二项分布示意图
正态分布示意图如图1-3所示。
图1-3 正态分布示意图
4)泊松分布p(λ):P(X=k)=,λ>0;k=0,1,2…,n
λ是单位时间(或单位面积)内随机事件的平均发生率,因此该分布适合描述单位时间内随机事件发生的次数。若随机变量X取0和一切正整数,在n次独立试验中出现的次数x恰为k次的概率为P(X=k)(k=0,1,...,n),式中λ是一个大于0的参数,此概率分布称为泊松分布。它的期望值E(x)=λ,方差D(x)=λ。当n很大,且在一次试验中出现的概率P很小时,泊松分布近似二项分布。
5)均匀分布U(a,b):
均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,在边界a和b处的f(x)的值通常是不重要的。
6)正态分布N(μ,σ2):,σ>0;–∞<x<+∞
若随机变量X服从数学期望为μ、方差为σ2的正态分布,可记作N(μ,σ2)。当μ=0,σ=1时,正态分布是标准正态分布。
7)指数分布E(λ):
其中,λ>0,常被称为频率参数,即单位时间内发生某事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X呈指数分布,则可以写作X~Exponential(λ)。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、软件更新的时间间隔等。它是可靠性研究中最常用的一种分布形式。
8)几何分布G(p):P(X=k)=(1–p)k–1p,0<p<1,k=1,2,…
在n次伯努利试验中,试验k次才得到第一次成功的概率,即前k–1次皆失败,第k次成功的概率。在伯努利试验中,成功的概率为p,x表示出现首次成功前的试验次数,x是离散型随机变量,只取正整数。
9)超几何分布H(N,M,n):,k=0,1,…,min(n,M)
描述了从有限的N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出指定种类物件的次数(不放回)。