关于数据:最小二乘法了解一下

摘要：最小二乘法是一种在误差预计、不确定度、零碎辨识及预测、预报等数据处理诸多学科畛域失去广泛应用的数学工具。最小二乘很简略，也在业界失去了宽泛应用。

本文分享自华为云社区《最小二乘法介绍》，作者：Yan 。

最小二乘法是一种在误差预计、不确定度、零碎辨识及预测、预报等数据处理诸多学科畛域失去广泛应用的数学工具。最小二乘很简略，也在业界失去了宽泛应用。

然而对于最小二乘法和它的故事，兴许很多人并不理解，明天给大家做一下分享。

1801年，意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。通过40天的跟踪观测后，因为谷神星运行至太阳背地，使得皮亚齐失去了谷神星的地位。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，然而依据大多数人计算的后果来寻找谷神星都没有后果。

时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯依据高斯计算出来的轨道从新发现了谷神星。

高斯应用的最小二乘法的办法发表于1809年他的著述《天体静止论》中，而法国科学家勒让德于1806年独立发现“最小二乘法”，但因不为世人所知而石破天惊。

为了不便大家了解最小二乘法，给大家讲个故事。

假如身高是变量X，体重是变量Y，咱们都晓得身高与体重有比拟间接的关系。生存教训通知咱们：个别身高比拟高的人，体重也会比拟大。然而这只是咱们直观的感触，只是很粗略的定性的剖析。

在数学世界里，咱们大部分时候须要进行严格的定量计算：能不能依据一个人的身高，通过一个式子就能计算出他或者她的规范体重？

咱们能够采样一批人的身高体重数据， (x1,y1),(x2,y2),⋯,(xn,yn)，其中x是身高，y是体重。

生存常识通知咱们：身高与体重是一个近似的线性关系，用最简略的数学语言来形容就是y = \beta_0+\beta_1xy=0+1x。

于是，接下来的工作就变成：怎么求出这个0与1呢？

为了计算0,1的值，咱们采取如下规定：0,1应该使计算出来的函数曲线与察看值的差的平方和最小。用数学公式形容就是：

其中，y_{ie}yie示意依据y=\beta_0 + \beta_1xy=0+1x估算进去的值，y_iyi是察看失去的实在值。

这样，样本的回归模型很容易得出：

当初须要确定0、1，使cost function最小。大家很容易想到，对该函数求导即可找到最小值：

将这两个方程整顿后应用克莱姆法令，很容易求解得出：

依据这个公式，只须要将样本都带入就能够求解出相应的参数。

如果咱们推广到更个别的状况，如果有更多的模型变量x1,x2,⋯,xm（留神：x_1x1是指一个样本，x1是指样本里的一个模型相干的变量)，能够用线性函数示意如下：

y(x1,⋯,xm;0,⋯,m)=0+1x1+⋯+mxm

对于n个样本来说，能够用如下线性方程组示意：

如果将样本矩阵x_i^hxih记为矩阵A,将参数矩阵记为向量\beta，实在值记为向量Y，上述线性方程组能够示意为：

即A \beta = YA=Y

对于最小二乘来说，最终的矩阵表达形式能够示意为：

min∣∣A−Y∣∣2

最初的最优解为：

=(ATA)−1ATY

2021华为云 AI 实战营——华为云员工都在学的AI实战营，快来报名收费学习吧~

点击关注，第一工夫理解华为云陈腐技术~