您现在的位置:首页 > 教案格式 > 正文

条件概率 条件分布我们已经学习了一系列不同的模型用于解决分类(5)

2018-02-04 15:15 网络整理 教案网

关于的导数等于零,可得:

它可以用矩阵的记号表示为:,其中是一个 N * N 的对角矩阵,解出,我们有

它表示一组修改过的规范方程,对应于加权的最小平方问题,与logistic回归问题中得到的结果具有相同的形式。

注意,在每个 E 步骤之后,矩阵会发生变化,因此我们在后续的 M 步骤中必须重新解该规范方程

最后,我们关于最大化,只保留依赖于的项,函数可以写成:

令它关于的导数等于零,整理之后,我们得到了的 M 步骤方程,形式为:

下图用一个简单的例子来说明这个基于线性回归组合的EM算法:

在上图的例子中,我们根据数据集来调整由两条直线组成的混合模型,数据集有一个输入变量 x 和一个目标变量 t。

我们看到,混合模型可以更好地表示数据分布,这一点通过更高的似然函数值反映出来。然而,混合模型也将相当大的概率质量分配到了没有数据的区域,因为它的预测分布对于 x 的所有值来说是双峰的

由于线性回归模型定义了给定输入变量的条件下目标变量的一个条件概率分布,因此很容易将其用作混合模型中的分量分布,从而与单一的logistic回归模型相比,可以表示更丰富的一类条件概率分布。

对于 K 个logistic回归模型来说,目标变量的条件概率分布为:,其中是特征向量,是分量 k 的输出,表示可调节参数,即

现在假设我们有一个数据集,从而对应的似然函数为:,其中

我们可以使用EM算法迭代地最大化这个似然函数。这涉及到引入潜在变量,它对应于每个数据点 n 的用方式编码的二值指示器变量。完整数据的似然函数为:

,其中是潜在的变量矩阵,元素为

我们通过选择模型参数的一个初始值来初始化EM算法,之后在 E 步骤中,我们使用这些参数值来计算每个数据点 n 的分量 k 的后验概率,形式为:

这些责任项然后用于寻找完整数据对数似然函数的期望,它作为的一个函数,形式为:

M步骤涉及到关于最大化这个函数,保持不变,从而保持不变。关于的最大化可以使用通常的方式进行,引入拉格朗日乘数来强制满足的限制,得到下面的结果:

为了确定,我们注意到由一组下标为 k 项的求和式组成,它只依赖于向量中的一个,因此不同的向量在EM算法的 M 步骤中可以独立进行优化。换句话说,不同的分量只通过责任项产生相互作用,它在步骤 M 步骤中是固定的,注意,M 步骤没有封闭解,必须使用例如迭代重加权最小平方(IRLS)算法迭代得求解。对于向量的梯度和为:,其中表示关于的梯度。对于固定的,梯度和独立于,因此我们可以使用 IRLS 算法分别对每个求解,因此分量 k 的 M 步骤方程仅仅对应于使用数据集调整一个单独的logistic回归模型,其中数据点 n 携带权值

下图给出了一个logistic回归模型的混合模型应用的简单例子

从这2个例子,我们可以看出,混合模型的最强大的地方在于:混合模型可以捕获数据集中多个不同的概率分布模式(如果真的存在的话),并通过权重调整来柔性地微调各个基分类器之间的关系