条件概率 条件分布我们已经学习了一系列不同的模型用于解决分类(4)
此外,决策树中的划分是硬划分,从而输入空间中的每个区域与一个叶节点模型关联,并且只与一个叶节点模型关联,树模型相当于生成了一个分段常数的预测,划分的边界是不连续的。
我们已经看到,标准的决策树被限制为对输入空间的硬的、与坐标轴对齐的划分。这些限制可以通过引入软的、概率形式的划分的方式得到缓解,这些划分是所有输入变量的函数,而不是仅仅某个输入变量的函数。当然,这样做的代价是模型的直观意义的消失。
如果我们也给叶节点的模型赋予一个概率的形式,那么我们就得到了一个纯粹的概率形式的基于树的模型,被称为专家层次混合(hierarchical mixture of experts)。
另一种得到专家层次混合模型的方法是从标准的非条件密度模型(例如高斯分布)的概率混合开始,将分量概率密度替换为条件概率分布。这里,我们考虑线性回归模型的混合以及logistic回归模型的混合。在最简单的情况下,混合系数与输入变量无关。如果我们进行进一步的泛化,使得混合系数同样依赖于输入,那么我们就得到了专家混合(mixture of experts)模型。最后,如果我们使得混合模型的每个分量本身都是一个专家混合模型,那么我们就得到专家层次混合模型。
用概率形式表示线性回归的众多优点之一是它可以用作更复杂的概率模型的一个分量。例如,将表示线性回归模型的条件概率分布看成有向概率图中的一个结点,即可完成这件事。
这里,我们考虑一个线性回归模型的混合的例子,它是高斯混合模型的一个直接推广,推广到条件高斯分布的情形。
我们考虑 K 个线性回归模型,每个模型都由自己的权参数控制。在许多应用中,比较合适和简单的做法是对所有 K 个分量使用一个共同的噪声方差,由精度参数控制。
我们将注意力集中于单一目标变量,将混合系数记作,那么混合概率分布可以写成:
其中表示模型中所有可调节参数的集合,即。给定一组观测数据集,这个模型的对数似然函数的形式为:,其中表示目标变量组成的向量。
为了最大户这个似然函数,我们可以再次使用EM算法,它是无条件高斯混合模型的EM算法的一个简单推广。条件概率 条件分布于是我们可以基于我们对无条件混合分布的经验构造模型,引入一组二值潜在变量,其中,其中对于每个数据点 n,所有的中只有一个元素为1,其余元素都等于0。等于1的元素表示哪个混合分布用于生成数据点。潜在变量与观测变量的联合概率分布可以用下面图模型表示:
这样,完整数据的对数似然函数的形式为:
EM算法在开始时,首先选择模型参数的初始值,在E步骤中,这些参数用于计算每个数据点 n 的每个分量 k 的后验概率分布或者“责任”,结果为:,然后,“责任”被用于确定完整数据对数似然函数关于后验概率分布的期望,形式为:
在M步骤中,我们关于最大化函数,保持不变。对于关于混合系数的最优化,我们需要考虑限制条件,这使用拉格朗日乘数法即可完成,得到了的M步步骤重估计方程,形式为:
接下来,考虑关于第 k 个线性回归模型的参数向量的最大化,带入高斯分布的表达式,我们看到关于参数向量的函数形式为:,其中常数项包含来自的其他权向量的贡献。
注意,我们最大化的量类似于单一线性回归模型的标准平方和误差函数的负对数,但是包含了责任项。这代表了加权最小平方(weighted least squares)问题,其中对应于第 n 个数据点的项带有一个加权系数,它可以被看成每个数据点的有效精度。
我们看到,混合模型中的每个分量线性模型由自身的参数向量控制,在 M 步骤中使用整个数据集分别进行调节,但是每个数据点 n 由责任项加权,它表示模型 k 对这个数据点的作用。
别人要摸你老婆的乳房