关于数据挖掘:python用回归模型对水泥生产关键温度点预测模型

2次阅读

共计 2507 个字符,预计需要花费 7 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=31930

原文出处:拓端数据部落公众号

分析师:Xiang Li

本我的项目指标为水泥生产要害生产数据的回归及预测(某一要害温度点的预测)。面临挑战如下所述:1. 水泥行业属于流程工业,流程工业因为其本身具备化学反应较多,前后流程耦合,控制变量多,生产稳定等特点,使得数据起源、数据治理及特征提取等步骤执行较为艰难,因而大数据及人工智能相干背景的从业人员无奈间接依照离散工业中的数据分析流程进行智能化相干利用的我的项目施行;2. 另一方面,流程工业的从业人员自身熟稔生产工艺,但对于智能化相干技术也不足理解,无奈将丰盛的一线教训和生产数据独立转化成在线化智能化的利用。

解决方案

工作 / 指标

由水泥烧成零碎的历史生产数据,对其中某标志性测量指标(C1 旋风筒进口烟气温度)进行预测,从而可能领导一线操作人员对水泥熟料的烧成零碎进行煤量和风量的正当调节。

备注:该要害测量指标仅仅为泛滥标志性测量指标之一,因而理论的智能生产管制其实是针对多指标的预测及联合模型的管制与优化,进行该我的项目是在水泥生产中发展数据分析及后续机器学习技术利用的先导工作。

数据源筹备

本我的项目的数据起源为生产所用的 DCS 零碎的数据。

在线 DCS 零碎导出数据源:本项目组与某水泥厂进行了长期的单干,我依据绝对应工艺,筛选出了指标温度参数对应的所有相干测量点位,在 DCS 零碎中采集了指标点位和相干点位的 2 个月的生产数据,并导出到了 CSV 文件中以进行数据治理和特色转换;

特色转换 及数据治理

采集到的生产数据不能间接用于数据分析,我联合计量点位的状况及该批数据的个性,做出了以下转换步骤(还有些预处理内容未列出):

1. 剔除非数字内容对应列:DCS 数据中有一些测量点位对应的测量仪表存在故障,显示内容为非数字格局,此类数据均被剔除;

2. 剔除恒定不变数据对应列:一些仪表点位的测量值早已超过量程(未及时更换新表),因而显示数据为同一值(最大示数),该类所有数据均被剔除;

3. 转换工夫戳数据格式:将原来 CSV 文件中的工夫戳格局转换为 python 中更易解决的 datetime 格局;

4. 删除停产对应的时间段的数据行。

数据 结构

在进行了数据治理后,我整顿出了如下表所示的原始数据列表(波及点位较多,仅显示局部内容)。

图 1 原始数据部分内容

图 2 数据集概览

划分训练集和测试集

针对该月份的数据划分出后面 21 天的日期对应数据作为训练数据集,后 10 天对应数据为测试数据集。

建模

针对这一典型的单指标多输出变量的回归问题,采纳了最根本的 scikit-learn 中的 linear regression(线性回归)的办法进行模型建模。

模型 训练及精度指标

采纳训练集针对模型进行了训练,采纳测试集进行了模型的精度验证,通过比拟预测后果,失去模型的预测的标准差为 0.010775,预测的平均误差为 0.005065,能够认为此回归模型合乎生产的需要。

采纳第三组数据(来自于 DCS 的相邻月份的数据)进行模型的预测,最终失去的预测值和实在值的可视化后果如下图所示:

由上图可知,依据线性回归模型预测失去的指标温度的数值与实在值在大多数状况十分靠近,在所采集的 1.5 个月的范畴内,思考到工况运行较为安稳,应该能够满足预测的理论需要。

应苏醒的意识到,因为水泥烧成零碎的生产蕴含的要害参数较多,且原燃料不可能变化无穷,更常见的状况是原料和燃料均存在肯定的稳定,而反映两者的品质剖析数据并未蕴含在本我的项目的数据集中,因而 该我的项目仅仅可能作为流程工业繁多参数预测的参考流程,并不可能作为广泛实用的数据模型加以推广。此外,神经网络、SVM 等模型也能够作为模型预测的建模办法,非线性回归模型更适宜稳定工况及多变量输出的目标值预测的我的项目(在 2019 年 -2020 年的水泥品质预测的我的项目中,采纳了机器学习中的多个模型进行了建模工作)。

对于分析师

在此对 Xiang Li 对本文所作的奉献示意诚挚感激,他善于深度学习、数据分析、网络爬虫。


最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%…)R 语言多元 Logistic 逻辑回归 利用案例

2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…)面板平滑转移回归 (PSTR) 剖析案例实现

3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%…)matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%…)R 语言泊松 Poisson 回归模型剖析案例

5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…) R 语言混合效应逻辑回归 Logistic 模型剖析肺癌

6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae…)r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a…) R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病

8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%…)python 用线性回归预测股票价格

9.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94%…) R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

正文完
 0