您现在的位置:首页 > 教案格式 > 正文

条件概率 条件分布 组合模型初探(5)

2018-02-04 15:15 网络整理 教案网

这样,完整数据的对数似然函数的形式为:

EM算法在开始时,首先选择模型参数的初始值 ,在E步骤中,这些参数用于计算每个数据点 n 的每个分量 k 的后验概率分布或者“责任”,结果为: ,然后,“责任”被用于确定完整数据对数似然函数关于后验概率分布 的期望,形式为:

在M步骤中,我们关于 最大化函数 ,保持 不变。对于关于混合系数 的最优化,我们需要考虑限制条件 ,这使用拉格朗日乘数法即可完成,得到了 的M步步骤重估计方程,形式为:

接下来,考虑关于第 k 个线性回归模型的参数向量 的最大化,带入高斯分布的表达式,我们看到 关于参数向量 的函数形式为: ,其中常数项包含来自 的其他权向量 的贡献。

注意,我们最大化的量类似于单一线性回归模型的标准平方和误差函数的负对数,但是包含了责任项 。这代表了 加权最小平方(weighted least squares) 问题,其中对应于第 n 个数据点的项带有一个加权系数 ,它可以被看成每个数据点的有效精度。

我们看到,混合模型中的每个分量线性模型由自身的参数向量 控制,在 M 步骤中使用整个数据集分别进行调节,但是每个数据点 n 由责任项 加权,它表示模型 k 对这个数据点的作用。

关于 的导数等于零,可得:

它可以用矩阵的记号表示为: ,其中 是一个 N * N 的对角矩阵,解出 ,我们有

它表示一组修改过的规范方程,对应于 加权的最小平方问题 ,与logistic回归问题中得到的结果具有相同的形式。

注意,在每个 E 步骤之后,矩阵 会发生变化,因此我们在后续的 M 步骤中必须重新解该规范方程

最后,我们关于 最大化 ,只保留依赖于 的项,函数 可以写成:

令它关于 的导数等于零,整理之后,我们得到了 的 M 步骤方程,形式为:

下图用一个简单的例子来说明这个基于线性回归组合的EM算法:

在上图的例子中,我们根据数据集来调整由两条直线组成的混合模型,数据集有一个输入变量 x 和一个目标变量 t。

我们看到,混合模型可以更好地表示数据分布,这一点通过更高的似然函数值反映出来。然而,混合模型也将相当大的概率质量分配到了没有数据的区域,因为它的预测分布对于 x 的所有值来说是双峰的

由于线性回归模型定义了给定输入变量的条件下目标变量的一个条件概率分布,因此很容易将其用作混合模型中的分量分布,从而与单一的logistic回归模型相比,可以表示更丰富的一类条件概率分布。

对于 K 个logistic回归模型来说,目标变量的条件概率分布为: ,其中 是特征向量, 是分量 k 的输出, 表示可调节参数,即

现在假设我们有一个数据集 ,从而对应的似然函数为: ,其中

我们可以使用EM算法迭代地最大化这个似然函数。这涉及到引入潜在变量 ,它对应于每个数据点 n 的用 方式编码的二值指示器变量。完整数据的似然函数为:

,其中 是潜在的变量矩阵,元素为

我们通过选择模型参数的一个初始值 来初始化EM算法,之后在 E 步骤中,我们使用这些参数值来计算每个数据点 n 的分量 k 的后验概率,形式为:

这些责任项然后用于寻找完整数据对数似然函数的期望,它作为 的一个函数,形式为:

M步骤涉及到关于 最大化这个函数,保持 不变,从而 保持不变。关于 的最大化可以使用通常的方式进行,引入拉格朗日乘数来强制满足 的限制,得到下面的结果:

为了确定 ,我们注意到 由一组下标为 k 项的求和式组成,它只依赖于向量 中的一个,因此不同的向量在EM算法的 M 步骤中可以独立进行优化。换句话说,不同的分量只通过责任项产生相互作用,它在步骤 M 步骤中是固定的,注意,M 步骤没有封闭解,必须使用例如 迭代重加权最小平方(IRLS)算法 迭代得求解。对于向量 的梯度和 为: ,其中 表示关于 的梯度。对于固定的 ,梯度和 独立于 ,因此我们可以使用 IRLS 算法分别对每个 求解,因此分量 k 的 M 步骤方程仅仅对应于使用数据集调整一个单独的logistic回归模型,其中数据点 n 携带权值

下图给出了一个logistic回归模型的混合模型应用的简单例子

从这2个例子,我们可以看出,混合模型的最强大的地方在于: 混合模型可以捕获数据集中多个不同的概率分布模式(如果真的存在的话),并通过权重调整来柔性地微调各个基分类器之间的关系