您现在的位置:首页 > 教案格式 > 正文

条件概率 条件分布 组合模型初探(3)

2018-02-04 15:15 网络整理 教案网

可以看到,在每轮迭代中参与调整的最核心的因素是: 本轮基分类器的分类错误的数据点的指数误差综合,对Boosting方法来说,每轮分对的数据点和分错的数据点可以理解为一个神经元(包含2个神经元的隐层的神经网络),每轮迭代都根据上一轮的误差,借助一个指数算式来得到一个负向反馈的权重调整

Boosting算法的最小化指数误差函数与我们之前学习的统计概率算法的误差函数有一些不同。为了更深刻地理解指数误差函数的本质,我们首先考虑期望误差:

如果我们关于所有可能的函数 进行变分最小化,那么我们有:

它是log odds函数的一般,因此Boosting算法是在由基分类器的线性组合表示的函数空间中,寻找对log odds的最好的近似,对应于顺序最优化策略下的受限最小化。

下图用不同颜色的线对指数误差、缩放的交叉熵误差、支持向量机使用的铰链误差函数、无分类误差函数进行横向对比:

我们可以看到:

1. 交叉熵误差函数和指数误差函数,都可以看成对理想误分类误差函数的连续近似。
2. 指数误差的一个优点在于它的顺序最小化会得到简单的adaboost方法。然而,一个缺点是,与交叉熵函数相比,它对负的 t * y(x)的惩罚是指数增长了,不如交叉熵那么线性。因此指数误差函数对于异常点和误分类点的数据点并不鲁棒。
3. 和交叉熵误差相比,指数误差函数无法表示为任何具有良好定义的概率模型的似然函数。
4. 此外,指数误差无法推广到具有 K > 2个类别的分类问题,而交叉熵这种概率模型可以很容易推广到多分类形式。

有许多简单但广泛使用的模型,它们将输入空间划分为超立方体区域,超立方体的边与坐标轴对齐,然后为每个区域分配一个简单的模型(例如一个常数阈值二分类器)。这些模型可以被看成一种模型组合方法,其中只有一个模型对于输入空间中任意给定点的预测起作用(输入数据点沿着二叉树直到树叶只能选择一条线路,到达唯一的一个叶子结点)。给定一个新的输入 x,选择一个具体的模型的过程可以由一个顺 序决策的过程 描述, 这个过程对应于一个二叉树(每个节点划分为两个分支的树)的遍历。

这里,我们关注一个特定的基于树的框架,被称为分类与回归树(classification and regression tree)。

下图给出了对输入空间进行递归二分的例子,以及对应的树结构。

在这个例子中,第一步根据 或者 ,将输入空间划分为两个区域,其中 是一个模型参数。

这创建了两个子区域,每个区域之后可以独立地进行划分,不断递归下去。

对于任意新的输入 x,我们确定它所属区域的方法是:从树顶端的根节点开始,根据每个结点的决策准则(基分类器),沿着路径向下走到具体的叶结点。

在每个区域内,有一个单独的模型(本质上就是基分类器)预测目标变量的值。例如

1. 在回归问题中,我们简单地在每个区域内预测一个常数(离散化采样思想)
2. 或者在分类问题中,我们将每个区域分配一个具体的类别(二分类或多分类)

基于树的模型的一个关键的性质是模型可以由人类表述(可解释性),因为模型对应于作用在输入变量上的一个 二元决策序列(注意,序列和加和模型是有区别的,序列不是简单的total加和,序列包含了决策顺序) ,这种序列在实际应用中非常有用。例如,为了预测一个病人的疾病,我们可以首先问“病人的体温是否大于某个阈值?”。如果回答是肯定的,那么我们可以问“病人的血压是否低于某个阈值?”。然后树的每个叶节点都与一个具体的诊断相关联。

我们继续来讨论如何确定决策树的结构,即使对于结点数量固定的树,确定最优结构(包括每次划分使用的输入变量以及对应的阈值)来最小化平方和误差函数的问题通常在计算上是不可行的,因为可能的组合数量非常巨大。相反,我们通常使用 贪心的最优化 。