您现在的位置:首页 > 教案格式 > 正文

条件概率 条件分布 组合模型初探(4)

2018-02-04 15:15 网络整理 教案网

对应于整个输入空间的一个单独的根节点开始,然后通过每次添加一个结点的方式构建树;

在每一步,输入空间中会有若干个可以切分的候选的区域,对应于向当前的树中添加一对叶节点。对于每个这种候选区域,我们要选择使用D个输入变量中的哪一个进行划分?以及阈值的大小?

划分区域的选择以及输入变量和阈值的选择可以通过彻底搜索的方法高效地进行 联合最优化 。

得到构建树的贪心策略之后,剩下的问题是如何停止添加结点。一个简单的方法是当残留误差的减小量低于某个阈值时停止(精确度增长速度收敛)。

然而,我们通过实验发现,经常出现这样的情形:在某一轮迭代中,没有一种划分方式会使误差函数产生显著的减小,但是再进行几次划分之后,就又突然找到一个使误差函数显著减小的划分方式(似乎是从一个局部最优的陷阱里跳出来了)

因此,在实际应用中通常构建一个较大的树,使用基于与叶节点关联的数据点数量的停止准则(本质是限制树的深度),然后进行剪枝,生成最终的树。

剪枝的过程基于的准则是: 在残留误差与模型复杂度之间进行平衡

像CART这种树模型可以由人类进行表述这一性质通常被视为一个十分重要的优点,然后在实际应用中,学习到的特定的树结构对于数据集的细节非常敏感,从而训练集的一个微小的改变就会产生一个相当不同的划分集合。本质上来说,导致这个问题的原因在于决策的测决面太硬了,不够柔和。

另一个一个比较严重的问题是,划分边界与特征空间的坐标轴对齐的,这相当不好。

此外,决策树中的划分是硬划分,从而输入空间中的每个区域与一个叶节点模型关联,并且只与一个叶节点模型关联,树模型相当于生成了一个 分段常数 的预测,划分的边界是不连续的。条件概率 条件分布

我们已经看到,标准的决策树被限制为对输入空间的硬的、与坐标轴对齐的划分。这些限制可以通过引入软的、概率形式的划分的方式得到缓解,这些划分是所有输入变量的函数,而不是仅仅某个输入变量的函数。当然,这样做的代价是 模型的直观意义的消失 。

如果我们也给叶节点的模型赋予一个概率的形式,那么我们就得到了一个纯粹的概率形式的基于树的模型,被称为专家层次混合(hierarchical mixture of experts)。

另一种得到专家层次混合模型的方法是从标准的 非条件密度模型 (例如高斯分布)的概率混合开始,将分量概率密度替换为条件概率分布。这里,我们考虑线性回归模型的混合以及logistic回归模型的混合。在最简单的情况下,混合系数与输入变量无关。如果我们进行进一步的泛化,使得混合系数同样依赖于输入,那么我们就得到了专家混合(mixture of experts)模型。最后,如果我们使得混合模型的每个分量本身都是一个专家混合模型,那么我们就得到专家层次混合模型。

有没有条件概率分布_含三个事的条件概率_条件概率 条件分布

用概率形式表示线性回归的众多优点之一是它可以用作更复杂的概率模型的一个分量。例如,将表示线性回归模型的条件概率分布看成有向概率图中的一个结点,即可完成这件事。

这里,我们考虑一个线性回归模型的混合的例子,它是高斯混合模型的一个直接推广,推广到条件高斯分布的情形。

我们考虑 K 个线性回归模型,每个模型都由自己的权参数 控制。在许多应用中,比较合适和简单的做法是对所有 K 个分量使用一个共同的噪声方差,由精度参数 控制。

我们将注意力集中于单一目标变量 ,将混合系数记作 ,那么混合概率分布可以写成:

其中 表示模型中所有可调节参数的集合,即 。给定一组观测数据集 ,这个模型的对数似然函数的形式为: ,其中 表示目标变量组成的向量。

为了最大户这个似然函数,我们可以再次使用EM算法,它是无条件高斯混合模型的EM算法的一个简单推广。于是我们可以基于我们对无条件混合分布的经验构造模型,引入一组二值潜在变量 ,其中 ,其中对于每个数据点 n,所有的 中只有一个元素为1,其余元素都等于0。等于1的元素表示哪个混合分布用于生成数据点。潜在变量与观测变量的联合概率分布可以用下面图模型表示: