混合高斯模型 (GMM) 小记

GMM 推导

GMM 的基本思想是通过一系列的高斯分布的混合去拟合目标数据分布,本质上是将数据点进行聚类,每一类内部以一个高斯分布进行拟合,于是概率模型可以描述为:

1 $p_j$ 对应高斯分布,激活值 $a_j$ 对应 $\pi_j$,$R_{ij}$ 对应 $P(j|\mathbf{x}_i)$

需要采用EM算法对参数 $\mathbf{\pi}_k$, $\mathbf{\mu}_k$, $\scriptstyle \mathbf{\sum}_k$ 进行估计,依次求出三个参数的最大似然函数为:

为了求这三个似然的值,需要估计后验概率

使用 EM 算法,分别先计算后验概率的期望 (2) ,再计算该期望下的参数似然最大值 (1) ,迭代直至收敛即可。

详细推导可以参看这篇博客

【附】多元高斯分布