跳转至

逻辑回归

逻辑回归(logistic regression)是概率统计视角下很经典的分类模型,将样本的特征与标签都视为随机变量,通过寻求最大化后验概率(MAP,maximum a posterior probability)来获得可分类的模型

分类

  • 监督学习方法
  • 概率模型
  • 参数化模型
  • 判别学习方法

基本形式

假设样本写作增广后的列向量,即

\[ \mathbf{x} = [1,x^{(1)},x^{(2)},···,x^{(p)}]^\mathrm{T} \]

第一个对应参数的偏置项,剩下的即是样本的特征项

逻辑回归不直接输出实数,而是关注一个后验概率 \(P(Y\mid X=\mathbf{x})\),在二分类的情形下,将标签分别编码为 0,1,我们可以具体假设该后验概率为 \(Y=1\) 的概率

\[ P(Y=1\mid X=\mathbf{x}) = f(\mathbf{x};\boldsymbol{\theta}) \]

于是由对立事件可知,我们只需要关注该输出是否大于 0.5 即可,大于则为 \(Y=1\),小于则为 \(Y=-1\)

但概率的取值是 \([0,1]\),我们该如何定义 \(f(\mathbf{x};\boldsymbol{\theta})\) 呢?逻辑回归给出一个漂亮的式子

\[ \ln \left[\frac{P(Y=1\mid X=\mathbf{x})}{1-P(Y=1\mid X=\mathbf{x})}\right] = \mathbf{x}^\mathrm{T}\boldsymbol{\theta} \]

如此便将后验概率取值映射到实数范围,于是有

\[ P(Y=1\mid X=\mathbf{x}) = f(\mathbf{x};\boldsymbol{\theta}) = \frac{e^{\mathbf{x}^\mathrm{T}\boldsymbol{\theta}}}{1+e^{\mathbf{x}^\mathrm{T}\boldsymbol{\theta}}} \]

我们便得到了逻辑回归的基本形式

损失策略

利用极大似然估计(MLE,maximum likelihood estimation),我们将最大化对数似然函数作为优化的损失策略

有对数似然函数

\[ \begin{aligned} L(\boldsymbol{\theta}) &= \ln \left[\prod_{i=1}^nP(Y=y_i\mid X=\mathbf{x_i})\right]\\ &= \sum_{i=1}^n\ln P(Y=y_i\mid X=\mathbf{x_i})\\ &= \sum_{i=1}^n\left[y_i\ln P(Y=1\mid X=\mathbf{x_i})+(1-y_i)\ln P(Y=0\mid X=\mathbf{x_i})\right]\\ &= \sum_{i=1}^n\left[y_i\ln \frac{e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}}}{1+e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}}}+(1-y_i)\ln \frac{1}{1+e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}}}\right]\\ &= \sum_{i=1}^n\left[y_i\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}-\ln (1+e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}})\right] \end{aligned} \]

\(J(\boldsymbol{\theta}) = -L(\boldsymbol{\theta})\),作为损失函数,最大化 \(L(\boldsymbol{\theta})\) 等价于最小化 \(J(\boldsymbol{\theta})\)

优化学习

常用方法为梯度下降与拟牛顿法

梯度下降

对损失函数 \(J(\boldsymbol{\theta})\) 求一阶导

\[ \begin{aligned} \nabla_{\boldsymbol{\theta}}J(\boldsymbol{\theta}) &= -\sum_{i}^n\left[y_i\mathbf{x}_i-\frac{\mathbf{x}_ie^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}}}{1+e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}}}\right]\\ &= \sum_{i}^n\left[\frac{e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}}}{1+e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}}}-y_i\right]\mathbf{x}_i \end{aligned} \]

故有

\[ \begin{aligned} \boldsymbol{\theta}^{t+1} &= \boldsymbol{\theta}^{t} - \alpha \nabla_{\boldsymbol{\theta}}J(\boldsymbol{\theta}^{t})\\ \boldsymbol{\theta}^{t+1} &= \boldsymbol{\theta}^{t} - \alpha \sum_{i}^n\left[\frac{e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}^{t}}}{1+e^{\mathbf{x}_i^\mathrm{T}\boldsymbol{\theta}^{t}}}-y_i\right]\mathbf{x}_i \end{aligned} \]

最后更新: 2024-01-12
创建日期: 2024-01-12

评论