关于paddle:飞桨时序建模库PaddleTS及产业应用实践

45次阅读

共计 2584 个字符,预计需要花费 7 分钟才能阅读完成。

工夫序列:一种普遍存在的数据状态

家喻户晓,工夫序列是一种普遍存在的数据状态,与咱们的日常生活及生产流动密切相关。如:股票指数、原油价格等金融市场数据;温度、湿度等天气数据;振动、转速等工业设施运行工况数据;以及电力负荷、新能源发电功率等电力数据;还有与咱们身材相干的血压、心率、血氧饱和度等衰弱监测数据,都属于工夫序列数据。

概括起来,工夫序列能够被定义为一组或多组按产生工夫排列的随机变量。
时序数据如此广泛,时序建模也始终都是诸多畛域所关注的重点问题。简言之,人们心愿在对历史数据进行深入分析的根底上预知数据将来的走势,并依据预测后果来影响或扭转决策。
对时序数据进行钻研通常波及以下三类工作:

  • 缺失值解决、异样值解决、归一化等 数据处理工作
  • 时域剖析、频域剖析、时序合成等 数据分析工作
  • 时序预测、时序异样检测、时序分类、时序聚类等 建模工作

一个典型的时序利用场景,往往须要综合利用这些时序技术,能力无效解决问题并达到预期成果。

技术升级:深度学习推动时序建模进入新倒退阶段

简略回顾一下时序技术的倒退历程,能够发现时序技术的演进次要经验了 3 个阶段。

首先是从上个世纪 50 年代开始的统计学阶段,代表性的办法有简略滑动均匀、指数平滑、ARIMA 等经典办法。
从 2000 年开始,机器学习办法开始在时序建模中被宽泛应用,代表性的办法有 XGBoost、LightGBM 等 Boosting Tree 办法,因为其优异的成果和较好的可解释性,这类办法被很多开发者所青眼。
从 2017 年开始,呈现了大量基于深度学习的时序建模办法。在每年人工智能畛域的顶级会议上,都会有代表性的工作被提出。比方,反对概率预测的 DeepAR,具备可解释能力的 Nbeats 和 TFT,时序表征学习 TS2Vec 和 CoST 等。能够看到,深度学习正在推动时序建模进入新的倒退阶段,能够无效解决多变量、非安稳、长时序等时序建模所面临的一系列技术挑战。

PaddleTS:基于飞桨的深度时序建模库

为了使这些不断涌现的深度时序建模技术可能无门槛地惠及宽广行业用户和开发者,咱们打造了基于飞桨的深度时序建模算法库 PaddleTS。顾名思义,这里 TS 就是 Time Series 的缩写。
PaddleTS 所蕴含的次要功能模块形成,如下图所示:最下方是 TSDataset,它提供了对整个时序数据的对立表白,是 PaddleTS 各个模块最次要的数据操作对象。在 TSDataset 内,对不同属性、不同用处、不同类型的数据列进行辨别,不便模型算法按需对不同的数据列做不同解决。

两头是一系列数据处理、数据分析、模型算法及高级建模能力相干的模块,其中模型算法以后次要包含时序预测、时序表征和时序异样检测这三类算法。
最下面是流水线的反对,包含通用流水线和场景化流水线。流水线的设计,是为了满足各种十分典型的时序经营需要。

PaddleTS 产品特色:简略易用、算法先进、开发者敌对

在设计和开发 PaddleTS 的过程中,咱们始终保持 3 个根本准则:简略易用、算法先进以及开发者敌对,这 3 个准则也形成了 PaddleTS 的产品特色。

简略易用

PaddleTS 简略易用,心愿用户无门槛应用前沿的深度时序建模办法,来解决理论业务问题。为了实现这个指标,PaddleTS 次要从对立时序数据结构、标准化编程接口、提供丰盛的数据处理能力动手,容许用户只编写大量代码就能够实现从数据加载到数据处理,再到建模的全过程。
此外,咱们也提供了包含主动机器学习和集成学习这样的高级建模能力,这些性能能够帮忙用户获得更好的建模成果。咱们也提供了包含回测和穿插测验这样的实用工具。当然,针对所有的性能,咱们提供了十分详实的 API 文档和丰盛的示例教程,不便用户疾速学习并精通 PaddleTS。

算法先进

PaddleTS 的另一特色就是算法先进。一方面咱们提供了对近几年支流深度时序算法的反对,同时通过对前沿钻研的跟踪,继续引入代表性的新算法,让用户可能在第一工夫就体验到学术界最新的算法成绩,并取得卓越的建模成果。以后 PaddleTS 次要反对 3 类深度时序模型,包含时序预测、时序表征、时序异样检测,曾经实现了 10 余种极具代表性的深度时序建模算法。

开发者敌对

PaddleTS 心愿可能继续引入前沿的模型算法来让宽广的用户受害。这个指标的实现离不开社区的积极参与。为了让社区开发者、时序技术钻研人员、行业从业人员都能够对模型算法的引入做出奉献,咱们对模型开发框架做了精心的封装,使得开发者在充沛了解算法的根底上,只须关注网络结构的实现。
对于较为简单的模型,咱们也举荐进行层次化设计,比方常见的从 Block 到 Module 再到 Network,这样实现的代码逻辑清晰,可读性强,也便于保护。开发者能够参考 PaddleTS 已有的模型实现,疾速相熟模型开发工作。

PaddleTS 产业实际案例

接下来咱们分享一则 PaddleTS 在电力行业的利用案例——电力母线负荷预测。
精准的电力母线负荷预测是实现电网平安调度的重要根底。近年来,因为大量新能源发电的并网,显著增大了母线负荷的波动性,从而为电力母线负荷预测带来了新的挑战。基于对业务的深刻了解,咱们与电力调度畛域的专家一起提出了翻新的母线负荷预测技术计划,包含基于电网构造的负荷合成与重构、多变量深度时序预测技术、多母线对立建模技术以及归因剖析技术等。
基于 PaddleTS 所提供的弱小的建模能力,通过充分利用历史负荷数据和气象预报信息、节假日信息等各类数据,实现了十分精准的预测成果,准确率超过 98%。整个电力母线负荷预测零碎的投入使用也极大晋升了电网调度工作人员的工作效率,人效晋升 5 倍。

除此之外,PaddleTS 也在新能源发电功率预测、设施衰弱治理、水质预测等泛滥时序建模场景做了大量实际,均获得了很好的成果。很多来自不同行业的用户,曾经把 PaddleTS 用在各自的业务场景,也获得了十分不错的成果。

最初,真挚心愿与宽广开发者、钻研人员、行业从业人员一起将 PaddleTS 建成简略易用、算法先进、成果卓越的深度时序建模库,独特促成产业数据智能倒退,迈上新的台阶。
欢送退出 PaddleTS 社区,体验最新的产品个性。同时为 PaddleTS 的倒退献言献策,独特推动 PaddleTS 的迭代降级。
PaddleTS 社区网址:https://github.com/PaddlePadd…

正文完
 0