上QQ阅读APP看书,第一时间看更新
3.2.1 基本概念
GMM是一种常见的概率参数模型,它利用多个高斯分布线性加权求和的方式对数据进行建模。对于观测变量x,它的概率密度函数表示为
其中,表示均值为μi、协方差矩阵为Σi的高斯分布,Q是GMM包含的高斯成分个数,αi是高斯成分的权值,且,αi≥0。
从式(3-1)可以知道,变量x的概率表达非常复杂。那么为什么要使用这样的表示呢?基本的高斯分布是一个单峰结构,均值表示峰值的位置,方差(协方差阵)刻画峰值的宽度。这在刻画服从简单分布的常见变量时非常有效,如图3-1a所示。但是,当需要描述复杂分布时,由于可能在不同的位置存在多个峰值的情况,因此已无法使用基本的高斯分布进行描述,如图3-1b所示。
图3-1 随机变量的概率密度分布图,为简化示意,此处均采用一维随机变量。图a中两个变量服从高斯分布,均值分别为-2和2,方差分别为1和4;图b中两个变量的分布呈现多峰形式,可以用多个高斯分布的混合形式表示
理论已证明,采用任意多的高斯分布,可以拟合任意的概率分布函数。虽然也可以使用其他形式的概率分布来进行拟合,但由于高斯分布具有非常好的数学性质,其相关推导也十分成熟,因此采用高斯混合模型来描述复杂的高维概率分布非常方便。