混合Bernoulli分布参数估计的EM算法研究

投稿杜行
更新时间2015-09-24
阅读量1250次
评分4
赞23
踩0

张宝龙，魏立力

（宁夏大学数学计算机学院，宁夏银川 750021）

摘要：本文构造了有限混合Bernoulli分布模型.由于有限混合Bernoulli分布模型依赖于参数的取值，我们必须求解未知参数的极大似然估计，基于常规方法求解对数似然函数的最大值点很困难，所以本文基于EM算法研究了有限混合Bernoulli分布模型的参数估计，并利用R软件进行了随机模拟.

教育期刊网 http://www.jyqkw.com
关键词：混合Bernoulli分布；EM算法；随机模拟

中图分类号：O212.1文献标识码：A文章编号：1673-260X（2015）04-0006-03

成败型随机试验在统计学上称为伯努利试验（Bernoulli trial）.很多实际问题都可以归结为伯努利试验.比如在医学领域考察对病人治疗结果的有效与无效、某种化验结果的阳性与阴性、接触某传染源的感染与未感染等；在系统可靠性理论中元件工作正常与失效；决定人类的某一特别属性（比如是否为左撇子）的一对基因的显性表现与隐性表现；某陪审团的陪审员对被告人的投票结果为有罪和无罪等等.伯努利试验必须满足两个基本条件：每次试验的结果独立且只有“成功”与“失败”，每次试验中“成功”的概率保持不变.

伯努利试验的一种推广是假设每次试验相互独立，但其成功概率允许不尽相同.这样的情形可以用一个混合Bernoulli分布来描述：

效或无效），则该模型非常适用，因为我们很难保证同种药物对不同患者的疗效完全相同.也就是说，我们预期对于众多患者的疗效可以分成l个不同的类别.

现在设y=（y1，y2，…，yn）来自于混合Bernoulli分布（1.1）的样本，我们的目的是求未知参数的极大似然估计.为此先考查其对数似然函数：

不难看出，直接求（1.2）式的最大值点是很困难的，我们下面将推导该问题的EM算法.

EM算法是一种迭代计算，其每次迭代由两步组成：E步（求条件期望）和M步（极大化），这正是该算法名称的由来.该算法最初由Dempster，Laird和Rubin提出[1]，主要用来求后验分布的众数（极大似然估计），广泛应用于删失数据，截尾数据，成群数据等.其基本思想是在给出缺失数据初值的条件下，估计出模型参数的值；然后再根据参数值估计出缺失数据的值.根据估计出的缺失数据的值再对参数值进行更新，如此反复迭代，直至收敛，迭代结束.

EM算法提出之后，很快引起国内外众多学者的关注，文献[2]很好地总结了EM算法及其推广算法的很多成果.文献[3]详细介绍了有限混合模型及其应用.文献[4]介绍了有限混合模型及其应用的研究进展.本文基于EM算法研究了有限混合Bernoulli分布模型的参数估计，并利用R软件进行了数值模拟.

1 EM算法简介

一般而言，形式上[1]我们有两个样本空间X，Y，以及X到Y的一个多对一映射x a y（x）.其中X中x=（x1，x2，…，xn）不能直接观测到，只能通过y间接的观测到，x被称为“完全数据”.Y里的y=（y1，y2，…，yn）是能够观测到的数据，即“不完全数据”.

其中X（y）={x：y（x）=y}

2 有限混合Bernoulli分布模型参数估计的EM算法

参数估计结果见表3.

从表1和表2可以明显看出，随着初值逐渐接近真值时，估计值亦趋于真值.当估计值变化不大时，说明估计值收敛到稳定点.由表3可以看出，随着样本容量的增加，参数的估计值逐渐接近于真值.同样，当估计值变化不大时，说明估计值收敛到稳定点.

教育期刊网 http://www.jyqkw.com
参考文献：

（1）Dempster A P，Laird N. Maximum Likelihood from Incomplete Data via EM Algorithm[J]. J. Royal Statistical Society，Series B，1977，39： 1-38.

（2）Gelffrey J. McLachlan. The EM Algorithm and Extensions（Second Edition）[M]. New York： Wiley & Sons，Inc，2008.

（3）McLachlan G，Peel D.Finite Mixture Models[M]. New York： Wiley & Sons，Inc，2000.

（4）孙兰.有限混合模型及其应用的研究进展[D].长春：东北师范大学，2006.

（5）魏立力，马江洪，颜荣芳.概率统计引论[M].北京：科学出版社，2012.