关于机器学习:机器学习算法系列九多分类对数几率回归算法Multinomial-Logistic-Regression

9次阅读

共计 7139 个字符,预计需要花费 18 分钟才能阅读完成。

浏览本文须要的背景知识点:对数几率回归算法、一丢丢编程常识

一、引言

  后面介绍了对数几率回归算法,该算法叫做回归算法,但其实是用来解决分类问题,将数据集分为了两类,用 0、1 或者是 -1、1 来示意。事实中不仅仅有二分类问题,同时也有很多是例如辨认手写数字 0~9 等这种多分类的问题,上面咱们就来介绍下多分类的对数几率回归算法1(Multinomial Logistic Regression Algorithm)

二、模型介绍

  多分类能够通过对二分类进行推广来失去,通过一些策略,能够用二分类器来解决多分类的问题。罕用的策略有:一对一(One vs. One/OvO)、一对其余(One vs. Rest/OvR)、多对多(Many vs. Many/MvM)

  例如有如下数据集分类:

一对一(One vs. One/OvO)

  一对一的策略是每次只解决两个类别,将全副 N 个类别两两配对,会产生 N(N-1)/2 个二分类的工作。

  如上面的表格所示,一共有苹果、梨子、香蕉、桃子这四种分类,会产生六种不同的后果,所以须要六个不同的分类器。须要预测新的是哪一类时,只需通过这些分类器的后果,其中预测最多的分类就是最终的分类后果。

一对其余(One vs. Rest/OvR)

  一对其余的策略是将一个类别作为正例,其余所有的类别当成反例,全副 N 个类别会产生 N 个二分类的工作。

  如上面的表格所示,一共有苹果、梨子、香蕉、桃子这四种分类,会产生四种不同的后果,所以须要四个不同的分类器。须要预测新的是哪一类时,只需抉择分类器预测后果为正的后果作为最终分类后果,若有多个分类器都预测为正,则抉择权重最大的分类器的分类后果。

多对多(Many vs. Many/MvM)

  多对多的策略是将若干类别作为正例、若干类别作为反例,通过肯定的编码,实现多分类的问题。常见的次要有二元码与三元码。二元码将每种类型看成正例或者反例,三元码除了正反例以外有一个停用类,即分类时不应用。

  二元码:如上面的表格所示,一共有苹果、梨子、香蕉、桃子这四种分类,这里用了五个分类器来编码后果,如 h1 将苹果、香蕉、桃子作为反例,将梨子作为正例。须要预测新的是哪一类时,通过五个分类器的后果与原始后果比拟,这里应用海明间隔,即后果有多少不统一的数量,间隔最小的分类就是最终分类后果。

  三元码:如上面的表格所示,一共有苹果、梨子、香蕉、桃子这四种分类,这里用了七个分类器来编码后果,如 h2 将苹果作为反例,将香蕉、桃子作为正例,不应用梨子的分类。须要预测新的是哪一类时,通过这七个分类器的后果与原始后果比拟,一样应用海明间隔,间隔最小的分类就是最终分类后果。

  能够看到 OvO、OvR 是 MvM 的非凡状况。OvO 绝对 OvR 来说,须要更多的分类器模型,所以其存储与预测阶段的开销会更大,但在训练阶段应用的数据量更小,相对来说这部分开销会小一些。MvM 这种编码的形式具备肯定的纠错能力,某个分类器的后果谬误,可能对最初的分类后果不会有影响,所以这种形式叫做纠错输入码(Error Correcting Output Codes/ECOC)

多分类对数几率回归

  多分类对数几率回归与二分类的对数几率回归不同的是,不再应用逻辑函数(Logistic Function),而是应用 Softmax 函数2(Softmax Function),该函数能够看作是对逻辑函数的一种推广。

  Softmax 函数能将一个含任意实数的 K 维向量 z“压缩”到另一个 K 维实向量 σ(z)中,使得每一个元素的范畴都在 (0,1) 之间,并且所有元素的和为 1。

$$
\sigma(z)_{j}=\frac{e^{z_{j}}}{\sum_{i=1}^{K} e^{z_{i}}} \quad(j=1, \cdots, K)
$$

  假如有 K 种分类,能够将每种分类的条件概率写成 Softmax 函数的模式,行将每个分类的线性组合后果带入到 Softmax 函数中:

$$
P(y=j \mid x, W)=\frac{e^{W_{j}^{T} x}}{\sum_{i=1}^{K} e^{W_{i}^{T} x}} \quad(j=1, \cdots, K)
$$

  其假如函数为:

$$
h(x)=\left[\begin{array}{c}
P(y=1 \mid x, W) \\
P(y=2 \mid x, W) \\
\cdots \\
P(y=K \mid x, W)
\end{array}\right]=\frac{1}{\sum_{i=1}^{K} e^{W_{i}^{T} x}}\left[\begin{array}{c}
e^{W_{1}^{T} x} \\
e^{W_{2}^{T} x} \\
\cdots \\
e^{W_{K}^{T} x}
\end{array}\right]
$$

  因为多分类对数几率回归应用了 Softmax 函数,所以该回归算法有时也被称为 Softmax 回归(Softmax Regression)

多分类对数几率回归的代价函数

  与二分类对数几率回归的代价函数一样,也是应用最大似然函数的对数模式,首先写出其似然函数:

$$
L(W)=\prod_{i=1}^{N} \prod_{j=1}^{K}\left(\frac{e^{W j^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)^{1_{j}\left(y_{i}\right)}
$$

  其中指数局部为批示函数(indicator function),代表当第 i 个 y 的值等于分类 j 时函数返回 1,不等于时返回 0,如下所示:

$$
1_A(x) = \left\{\begin{matrix}
1 & x \in A\\
0 & x \notin A
\end{matrix}\right.
$$

  而后对似然函数取对数后加个负号,就是多分类对数几率回归的代价函数了,咱们的指标仍然是最小化该代价函数:

$$
\operatorname{Cost}(W)=-\sum_{i=1}^{N} \sum_{j=1}^{K} 1_{j}\left(y_{i}\right) \ln \left(\frac{e^{W j^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)
$$

  该代价函数也是凸函数,仍然能够应用梯度降落法进行最小化的优化。

三、原理证实

多分类对数几率回归的代价函数为凸函数

  同后面的证实一样,只需证实当函数的黑塞矩阵是半正定的,则该函数就为凸函数。

(1)代价函数对 W 求梯度,推导时须要留神下标

(2)能够将代价函数中的第二个连加操作拆成两个式子,后面一个为连加中的第 j 个式子,前面为连加项但不包含第 j 项,这时的下标用 l 示意

(3)将除法的对数写成对数的减法

(4)第一个连加操作对求梯度不影响,间接写到最外层。批示函数对求梯度也没有影响,利用求导公式别离对前面几项求梯度

(5)整顿后能够看到前面两项又能够合成同一个连加

(6)因为 y 的取值必然会在 1 - K 中,批示函数的从 1 - K 连加必然等于 1

$$
\begin{aligned}
\frac{\partial \operatorname{Cost}(W)}{\partial W_{j}} &=\frac{\partial}{\partial W_{j}}\left(-\sum_{i=1}^{N} \sum_{j=1}^{K} 1_{j}\left(y_{i}\right) \ln \frac{e^{W_{j}^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right) & (1) \\
&=\frac{\partial}{\partial W_{j}}\left(-\sum_{i=1}^{N}\left(1_{j}\left(y_{i}\right) \ln \frac{e^{W_{j}^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}+\sum_{l \neq j}^{K} 1_{l}\left(y_{i}\right) \ln \frac{e^{W_{l}^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)\right) & (2) \\
&=\frac{\partial}{\partial W_{j}}\left(-\sum_{i=1}^{N}\left(1_{j}\left(y_{i}\right)\left(W_{j}^{T} X_{i}-\ln \sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}\right)+\sum_{l \neq j}^{K} 1_{l}\left(y_{i}\right)\left(W_{l}^{T} X_{i}-\ln \sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}\right)\right)\right) & (3) \\
&=-\sum_{i=1}^{N}\left(1_{j}\left(y_{j}\right)\left(X_{i}-\frac{e^{W_{j}^{T} X_{i}} X_{i}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)+\sum_{l \neq j}^{K} 1_{l}\left(y_{i}\right)\left(0-\frac{e^{W_{j}^{T} X_{i}} X_{i}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)\right) & (4) \\
&=-\sum_{i=1}^{N}\left(X_{i}\left(1_{j}\left(y_{i}\right)-\sum_{j=1}^{K} 1_{j}\left(y_{i}\right) \frac{e^{W_{j}^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)\right) & (5) \\
&=-\sum_{i=1}^{N}\left(X_{i}\left(1_{j}\left(y_{i}\right)-\frac{e^{W_{j}^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)\right) & (6)
\end{aligned}
$$

(1)代价函数对 W 求黑塞矩阵

(2)第一项对 W 来说为常数,只需对第二项求导

(3)利用求导公式求出对应的导数

(4)整顿后果,分子为连加中去掉第 j 项

$$
\begin{aligned}
\frac{\partial^{2} \operatorname{Cost}(W)}{\partial W_{j} \partial W_{j}^{T}} &=\frac{\partial}{\partial W_{j}}\left(-\sum_{i=1}^{N}\left(X_{i}\left(1_{j}\left(y_{i}\right)-\frac{e^{W_{j}^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}}\right)\right)\right) & (1)\\
&=\sum_{i=1}^{N} \frac{\partial}{\partial W_{j}}\left(\frac{e^{W_{j}^{T} X_{i}}}{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}} X_{i}\right) & (2)\\
&=\sum_{i=1}^{N} \frac{\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}} e^{W_{j}^{T} X_{i}} X_{i}-e^{W_{j}^{T} X_{i}} e^{W_{j}^{T} X_{i}} X_{i}}{\left(\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}\right)^{2}} X_{i} & (3)\\
&=\sum_{i=1}^{N} \frac{\sum_{k \neq j}^{K} e^{W_{k}^{T} X_{i}} e^{W_{j}^{T} X_{i}}}{\left(\sum_{k=1}^{K} e^{W_{k}^{T} X_{i}}\right)^{2}} X_{i} X_{i}^{T} & (4)
\end{aligned}
$$

  同后面的证实,黑塞矩阵后面的常数必然大于零,则对应的黑塞矩阵矩阵为正定矩阵,阐明其代价函数为凸函数,证毕。

对数几率回归是多分类对数几率回归的特例

(1)当 K 的值为 2 时,带入到多分类对数几率回归的假如函数

(2)将分子分母同时乘以 e 的 -W1 次幂

(3)e 的零次幂为 1,化简可得

(4)将 W2-W1 视为新的 w,这时会发现假如函数就为二分类的对数几率回归的假如函数

$$
\begin{aligned}
h(x) &=\frac{1}{e^{W_{1}^{T} x}+e^{W_{2}^{T} x}}\left[\begin{array}{c}
e^{W_{1}^{T} x} \\
e^{W_{2}^{T} x}
\end{array}\right] & (1)\\
&=\frac{1}{e^{0^{T} x}+e^{\left(W_{2}-W_{1}\right)^{T} x}}\left[\begin{array}{c}
e^{0^{T} x} \\
e^{\left(W_{2}-W_{1}\right)^{T} x}
\end{array}\right] & (2) \\
&=\frac{1}{1+e^{\left(W_{2}-W_{1}\right)^{T} x}}\left[\begin{array}{c}
1 \\
e^{\left(W_{2}-W_{1}\right)^{T} x}
\end{array}\right] & (3) \\
&=\left[\begin{array}{c}
\frac{1}{1+e^{\hat{w}^{T} x}} \\
\frac{e^{\hat{w}^{T} x}}{1+e^{\hat{w}^{T} x}}
\end{array}\right] & (4)
\end{aligned}
$$

  对数几率回归是多分类对数几率回归在 K = 2 时候的特例,也能够看到多分类对数几率回归的权重系数具备冗余的性质,即权重系数同时扭转雷同的值时,对最初的预测后果不影响。

四、代码实现

应用 Python 实现多分类对数几率回归算法(梯度降落法):

import numpy as np

def dcost(X, y, w):
   """
   多分类对数几率回归的代价函数的梯度
   args:
       X - 训练数据集
       y - 指标标签值
       w - 权重系数
   return:
       代价函数的梯度
   """
   ds = np.zeros(w.shape)
   for i in range(X.shape[0]):
       c = np.sum(np.exp(w.dot(X[i])))
       for j in range(w.shape[1]):
           a = 0
           if j == y[i]:
               a = 1
           b = np.exp(w[j].dot(X[i]))
           ds[j] = ds[j] - X[i] * (a - b / c)
   return ds

def direction(d):
   """
   更新的方向
   args:
       d - 梯度
   return:
       更新的方向
   """
   return -d

def multinomialLogisticRegressionGd(X, y, max_iter=1000, tol=1e-4, step=1e-3):
   """
   多分类对数几率回归,应用梯度降落法(gradient descent)args:
       X - 训练数据集
       y - 指标标签值
       max_iter - 最大迭代次数
       tol - 变动量容忍值
       step - 步长
   return:
       W - 权重系数
   """
   y_classes = np.unique(y)
   # 初始化 W 为零向量
   W = np.zeros((len(y_classes), X.shape[1]))
   # 开始迭代
   for it in range(max_iter):
       # 计算梯度
       d = dcost(X, y, W)
       # 当梯度足够小时,完结迭代
       if np.linalg.norm(x=d, ord=1) <= tol:
           break
       p = direction(d)
       # 更新权重系数 W
       W = W + step * p
   return W

五、第三方库实现

scikit-learn3 实现多分类对数几率回归:

from sklearn.linear_model import LogisticRegression

# 初始化多分类对数几率回归器,无正则化
reg = LogisticRegression(penalty="none", multi_class="multinomial")
# 拟合线性模型
reg.fit(X, y)
# 权重系数
W = reg.coef_
# 截距
b = reg.intercept_

六、动画演示

  下图展现了存在三种分类时的演示数据,其中红色示意标签值为 0 的样本、蓝色示意标签值为 1 的样本、绿色示意标签值为 2 的样本:

  下图为应用梯度降落法拟合数据的后果,其中浅红色示意拟合后依据权重系数计算出预测值为 0 的局部,浅蓝色示意拟合后依据权重系数计算出预测值为 1 的局部,浅绿色示意拟合后依据权重系数计算出预测值为 2 的局部:

七、思维导图

八、参考文献

  1. https://en.wikipedia.org/wiki…
  2. https://en.wikipedia.org/wiki…
  3. https://scikit-learn.org/stab…

残缺演示请点击这里

注:本文力求精确并通俗易懂,但因为笔者也是初学者,程度无限,如文中存在谬误或脱漏之处,恳请读者通过留言的形式批评指正

本文首发于——AI 导图,欢送关注

正文完
 0