关于机器学习:机器学习开篇Logistic-回归LR原理推导

机器学习类别比神经网络大，经典的机器学习模型具备十分强的逻辑性、数学性和可解释性。自己抉择用经典的 LR 模型作为机器学习的开篇！
本篇次要重视模型的构建和数学原理的推导，包含模型的评估的办法。代码局部放在另一篇文章探讨。

一、起源 ：用规范线性回归模型失去一系列预测值，设置某参考阈值，将预测值二分类。然而这样分类导致两种问题 1、如果预测值过于弥散，且混淆，阈值的设置将很难确定。2、设定阈值后没有数学根据建设正当损失函数，损失函数与规范的线性回归模型天壤之别无奈精确批改线性模型参数。
解决方案：1、将预测值转换为概率，将其值压缩在 0~1 之间。2、利用概率的最大似然预计反过来确定模型参数。和咱们上一篇文章 softmax 层选取思维有相似之处，大家能够比照。

二、LR 模型的构建
来源于线性回归模型，咱们首先给出规范的线性模型公式：

z=B0+B1X1+B2X2+B3X3+…+BiXi

logistic 函数 ：

其实这是一个简化版的 logistic 函数，他还有个名字叫 sigmoid 函数，多用在激活函数。

为什么选用 logistic 函数？

看他的函数分布图：

上图也能够了解为 logistics 概率分布，数字越大越靠近于 1，数字越小越靠近于 0，典型两极分化，既然是两极分化作为分类再适宜不过了。但这种样子的函数也挺多，为啥只找它？
1、数字越大概率变动越小，超大数据对模型的影响不会很大。什么意思呢，我举个好玩的例子：印度贫富差别大，可分为富人区和富人区，咱们以楼房的高度去预测楼房属于富人还是富人。依据事实咱们能够晓得一般来说富人房子比拟高，富人个别小平房不过几层。那么辨别点咱们不做剖析也想得到，也就大略区分度在 5 层左右，5 层以上是富人，五层一下是富人。如果当初有个超级大厦 200 层，按线性的计算他会大大影响模型判断，就会呈现 5 层也是富人 200 层也是富人这种分类外面数据弥散。所以用 logistic()，相当于对两级数据有惩办，让他们对模型的影响小一点不要像线性那么大。
2、这个函数的倒数能够用它自身示意，不便后续的参数计算。
它的倒数为 y(1-y)

LR theory

z=B0+B1X1+B2X2+B3X3+…+BiXi

为什么选用 logistic 函数？