作者|Kaushik Choudhury
编译|VK
起源|Towards Data Science
大概13年前,David Cournapeau的Scikit learn作为Google Summer of Code我的项目的一部分开始。随着工夫的推移,Scikit learn成为Python中最驰名的机器学习库之一。它提供了几种分类、回归和聚类算法,在我看来,它的要害劣势是与Numpy、Pandas和Scipy无缝集成。
在本文中,我将用excel比拟Scikit-learn多元线性回归的预测精度。Scikit-learn提供了许多参数(称为预计器(estimator)的超参数)来微调模型的训练并进步预测的准确性。
在excel中,咱们没有太多的货色能够调整回归算法。为了偏心比拟,我将应用默认参数训练sklearn回归模型。
目标
此比拟旨在理解excel和Scikit learn中线性回归的预测精度。另外,我将简要介绍在excel中执行线性回归的过程。
示例数据文件
为了进行比拟,咱们将应用10万个降水量、最低温度、最高温度和风速的数据集。工作人员在8年中的每一天进行测量屡次从而失去了这些数据。
咱们将利用降水量、最低气温和最高气温来预测风速。因而,风速是因变量,其余数据是自变量。
咱们将首先在excel上建设和预测风速的线性回归模型。而后咱们将应用Scikit learn进行雷同的练习,最初,咱们将比拟预测后果。
要在excel中执行线性回归,咱们将关上示例数据文件并单击excel功能区中的“Data”选项卡。在“Data”选项卡中,抉择数据分析选项。
提醒:如果看不到“数据分析”选项,请单击 File > Options> Add-ins。抉择“AnalysisToolPak”并单击“Go”按钮,如下所示
单击“Data Analysis”选项,将关上一个弹出窗口,显示excel中可用的不同剖析工具。咱们将抉择Regression回归,而后单击“OK”。
将显示另一个弹出窗口。“Input Y range字段中填写风速(因变量)的Excel单元格参考。在“Input X Range”中,咱们将为独立变量(即降水量、最低温度和最高温度)提供单元参考。
咱们须要选中复选框“Label”,因为示例数据中的第一行有变量名。
在指定数据后单击“确定”按钮,excel将建设一个线性回归模型。你能够将其视为Scikit learn中的训练(fit 函数)。
Excel进行计算,并以良好的格局显示信息。在咱们的例子中,excel能够拟合R方为0.953的线性回归模型。思考到训练数据集中的100000条记录,excel在不到7秒的工夫内执行了线性回归。与其余统计信息一起,它还显示了不同自变量的截距和系数。
基于excel线性回归输入,咱们能够把上面的数学关系组合起来。
风速=2.438+(降水量*0.026)+(最小温度*0.393)+(最大温度*0.395)
咱们将用这个公式来预测测试数据集的风速,测试集数据是excel没有用于训练的数据。
例如,对于第一个测试数据集,风速=2.438+(0.51*0.026)+(17.78*0.393)+(25.56*0.395)=19.55
此外,咱们还计算了预测的残差并绘制了图,以理解其趋势。咱们能够看到,在简直所有的状况下,风速预测值都低于理论值,而风速越快,预测的误差就越大。
让咱们在Scikit learn中钻研线性回归。
第1步-咱们将导入要用于剖析的包。独立变量的值散布在不同的值范畴内,并且不是规范正态分布的,因而咱们须要StandardScaler来实现自变量的标准化。
from sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_scoreimport pandas as pdimport numpy as npimport matplotlib.pyplot as plt
第2步-将训练数据和测试数据别离从excel文件读取到PandasDataframe作为训练数据和测试数据。
Training_data=pd.read_excel(“Weather.xlsx”, sheet_name=”Sheet1") Test_data=pd.read_excel(“Weather Test.xlsx”, sheet_name=”Sheet1")
在本文中,我将不着重于初步的数据质量检查,如空白值、离群值等以及相应的校对办法
第3步-在上面的代码中,咱们申明了除“风速”外的所有列数据为自变量,只有“风速”作为因变量用于训练和测试数据。请留神,咱们不会应用“SourceData_test_dependent”进行线性回归,而是将预测值与其进行比拟。
SourceData_train_independent= Training_data.drop(["WindSpeed"], axis=1) # 从训练数据集中删除WindSpeed变量SourceData_train_dependent=Training_data["WindSpeed"].copy() # 训练数据集只有自变量SourceData_test_independent=Test_data.drop(["WindSpeed"], axis=1)SourceData_test_dependent=Test_data["WindSpeed"].copy()
第4步-因为独立变量的范畴是齐全不同的,因而咱们须要调整它以防止有些变量范畴大,有些变量范畴小导致的性能影响。在上面的代码中,自变量被缩放,并别离保留到X-train和X_test。在y_train中,相干训练变量被保留而不缩放。
sc_X = StandardScaler()X_train=sc_X.fit_transform(SourceData_train_independent.values) #缩放自变量y_train=SourceData_train_dependent # 因变量不须要缩放X_test=sc_X.transform(SourceData_test_independent)y_test=SourceData_test_dependent
第5步-当初咱们将别离输出独立和因变量数据,即X_train 和y_train ,以训练线性回归模型。出于本文结尾提到的起因,咱们将应用默认参数执行模型拟合。
reg = LinearRegression().fit(X_train, y_train)print("The Linear regression score on training data is ", round(reg.score(X_train, y_train),2))
训练数据的线性回归得分与咱们用excel察看到的后果统一。
第6步-最初,咱们将依据测试集预测风速。
predict=reg.predict(X_test)
从预测风速值和残差散点图能够看出,Sklean预测值更靠近理论值。
将Sklearn和Excel残差并行比拟,能够看出随着风速的减少,模型与理论值的偏差都比拟大,但Sklearn比Excel好。
另一方面,excel的确预测了相似sklearn的风速值范畴。如果一个近似的线性回归模型对你的商业案例来说足够好的话,那么疾速预测方面excel是一个不错的抉择。
Excel能够在与sklearn雷同的精度程度上执行线性回归预测。因为sklearn能够通过对参数的微调,能够大幅度提高sklearn线性回归预测精度,并且更适宜解决简单模型。对于疾速和近似的预测,excel是一个十分好的抉择,具备可承受的精确度。
原文链接:https://towardsdatascience.co...
欢送关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/