您现在的位置:首页 > 教案模板 > 正文

指数分布公式回顾回归和分类的例子,在回归例子中:#7b5a(2)

2018-02-01 14:03 网络整理 教案网

第一个等式符合上面的假设 2,第二个等式符合事实 y|x;θ~Ν(μ,σ2),所以期望值是μ,第三个等式符合假设 1(我们早先的求导显示高斯分布作为指数分布簇 μ=η),最后一个等式符合假设 3。

再来看 Logistic 回归,y?{0,1},,y 是二值的,所以看起来选择伯努利分布来建模 y 对于 x 的条件分布是很自然的。伯努利分布属于指数分布簇,Φ=1/(1+e-η)。y|x;θ~Bernoulli(Φ),所以 E[y|x;θ]=Φ。

假设函数 hθ(x)=1/(1+e-θTx) ,之前我们想知道为什么使用 Logistic 函数 1/(1+e-z),这就是答案:一旦我们假定基于 x 的 y 的条件分布是伯努利,那么它就是GLMs 和指数分布簇的定义的结果。

多介绍一些术语,函数 g,作为自然参数的函数给定的分布均值,被称为正则响应函数(canonical response function),它的反函数 g 是正则关联函数(canonical link function)。所以,正则响应函数对于高斯家族只是 identity 函数,对于伯努利是 logistic 函数。

我们证实了 Logistic 回归和线性回归都属于广义线性模型,那么这个广义线性模型 GLM 有什么用呢?我们能通过 GLM 解决更多的问题吗?如何解决?下面就来举个例子。

考虑一个分类问题,响应变量 y 能取 k 个值,所以 y?{1,2,...,k}。例如,我们不仅想把邮件分为垃圾邮件和非垃圾邮件,可建成二分类问题,还想把邮件分为垃圾邮件、私人邮件和工作邮件。响应变量依然是离散的,但能取多个值。我们将把它建模成多项式分布。

为对这类多项式数据建模,我们先来推导 GLM。我们先把多项式表示为一个指数分布簇。

k 个参数 Φ1,Φ2,...,Φk指定了每个输出的概率。事实上,这些参数是有冗余的,因为 Φ1+Φ2+...+Φk=1,所以,我们可以参数化多项式为 k-1 个参数 Φ1,Φ2,...,Φk-1,其中 Φi=p(y=i;Φ),p(y=k;Φ)=1-(Φ1+Φ2+...+Φk-1)。为表示方便,我们也可以让Φk=1-(Φ1+Φ2+...+Φk-1),但应知道这不是个参数。

将多项式表示成一个指数分布簇,我们定义 T(y)?Rk-1如下:

跟之前的例子不一样,这里不是 T(y)=y, T(y)现在是一个 k-1 维的向量,而不是一个实数。我们用 (T(y))i表示向量 T(y) 的第 i 个元素。

这里介绍一个有用的符号。指示函数 1{·},1{True}=1,1{False}=0。例如,1{2=3}=0,1{3=5-2}=1。所以,我们可以把 T(y) 和 y 的关系写成 (T(y))i=1{y=i}},更进一步,E[(T(y))i]=p(y=i)=Φi。

现在我们将演示,多项式是指数分布簇:

其中:

这就完成了多项式作为指数分布簇的形式化。

关于 η可以跟伯努利分布 η=log(Φ/(1-Φ)) 和高斯分布 η=?? 作个对比。

连接函数为:

方便起见,定义 ηk=log(Φk/Φk)=0。 为转化连接函数,导出响应函数,我们有

这表示 Φk=1/(eη1+eη2+...+eηk),响应函数:

这个从 η映射到 Φ的函数称作 softmax 函数。

继续完善我们的模型,使用 GLM 的假设 3,ηi跟 x 的线性相关。指数分布公式所以,ηi=θiTx(i=1,...,k-1),其中 θ1,...θk-1?Rk+1是我们模型的参数。方便表示起见,我们也定义 θk=0,所以 ηk=θkTx=0。所以,我们的模型假定给定 x 后 y 的条件分布为: