共计 7852 个字符,预计需要花费 20 分钟才能阅读完成。
前言
工夫序列建模从来是学术和工业界的要害畛域,比方用于气象建模、生物科学和医学等主题利用,零售业的商业决策和金融等。尽管传统的统计办法侧重于从畛域专业知识层面提供参数模型,比方自回归 (AR)、指数平滑或构造工夫序列模型,但古代机器学习办法提供了一种以纯数据驱动的形式对工夫序列进行动态分析学习的办法。随着近年来数据可用性和计算能力的一直进步,机器学习已成为下一代工夫序列预测模型的重要组成部分。
受图像分类、自然语言解决和强化学习方面显著成就的启发,深度学习最近特地受欢迎。通过联合反映根底数据集细微差别的定制架构假如(或演绎偏差),深度神经网络可能学习简单的数据表示,从而加重了对手动特色工程和模型设计的需要。开源反向流传框架 (如 tensorflow) 的可用性也简化了网络训练,容许对网络组件和损失函数进行定制。
鉴于各个领域工夫序列问题的多样性,在工夫序列问题上呈现了许多神经网络设计抉择。学术界曾经有很多深度学习模型来适应不同畛域的工夫序列数据集的多样性。本文通过调研大量前沿深度学习文献,形容每个模型如何将工夫信息合并到预测中。思考到云智慧在运维畛域面临的理论预测落地场景,本文次要波及三类深度学习模型:一步预测和多指标预测中应用的常见编码器和解码器设计,形容每个模型如何将工夫信息合并到预测中;混合深度学习模型的倒退;深度学习也能够通过工夫序列数据促成决策反对的一些办法。
一、工夫序列预测的深度学习架构
工夫序列预测模型预测指标 yi,t(指定第 i 个指标在 t 时刻) 的将来值,其中每个指标代表工夫信息的逻辑分组。例如来自气候学中不同气象站的测量值,或医学中不同患者的生命体征,并且能够同时察看。在最简略的状况下,一步法预测模型采纳以下模式:
其中公式左侧为模型预测值,公式右侧别离是在回溯窗口上对指标和外生输出的察看,si是与实体相干的动态元数据(例如传感器地位),f(.)是模型学习的预测函数。尽管咱们在本黑板报中专一于单变量预测(即一维指标),但咱们留神到雷同的组件能够不失一般性地扩大到多变量模型。简略起见,除非明确要求,否则在后续局部中省略了实体索引 i。
根本构造模块
深度神经网络通过应用一系列非线性层来构建两头特色示意来学习预测关系。在工夫序列设置中,这能够被视为将相干历史信息编码到隐变量 zt 中,并独自应用 zt 生成最终预测:
其中 genc(.) 和gdec(.)别离是编码器和解码器函数。编码器和解码器形成了深度学习架构的根本构建块,网络的抉择决定了模型能够学习的关系类型。此处将钻研编码器的古代设计架构,以及它们与传统工夫模型的关系,如下图所示。此外咱们摸索了工夫序列预测利用中罕用的网络输入和损失函数。
卷积神经网络
卷积神经网络 (CNN)传统上为图像数据集设计网络提取跨空间维度不变的部分关系。为了使 CNN 适应工夫序列数据集,钻研人员利用了多层因果卷积——即旨在确保仅应用过来信息进行预测的卷积滤波器。对于暗藏层 l 的两头特色,每个因果卷积滤波器采纳以下模式:
其中(1)式中 h 是网络结构中第 i 层在时刻 t 的外部状态。* 是卷积操作,W 是第 l 层指定的过滤权重,A(.)为激活函数,例如 sigmoid,用以解决任何特定架构的非线性表征。
思考一维状况,咱们能够看到(2)与数字信号处理中的无限脉冲响应(FIR)滤波器十分类似。这对 CNN 学习的工夫关系产生了两个要害影响。首先与规范 CNN 的空间不变性假如统一,工夫 CNN 假如关系是工夫不变的,即在每个工夫步长和所有工夫应用雷同的滤波器权重集。此外 CNN 只能应用其定义的回溯窗口或承受域内的输出来进行预测。因而须要认真调整感触野大小 k 以确保模型能够利用所有相干的历史信息。值得注意的是,单个因果 CNN 层等效于自回归 (AR) 模型。
收缩卷积 应用规范卷积层在长期依赖性很重要的状况下可能具备计算挑战性,因为参数的数量间接与感触野的大小成比例。为了缓解这种状况,古代架构常常应用扩大的共卷积层,于是将(2)扩大如下:
其中└.┘是向前取整操作,dl是特定层的膨胀率。因而收缩卷积能够解释为上层特色下采样版本的卷积,即升高分辨率以合并来自边远过来的信息。因而通过减少每一层的膨胀率,收缩卷积能够逐步聚合不同工夫块的信息,从而以无效的形式应用更多的历史。例如 WaveNet 架构的膨胀率在相邻工夫块聚合在每层中以 2 的幂减少,即容许在第 l 层应用 2l 工夫步长(上图 a)。
循环神经网络
循环神经网络 (RNN) 从来被用于序列建模,在各种自然语言解决工作上获得了很好的成果。鉴于工夫序列数据作为输出和指标序列的天然解释,许多基于 RNN 的架构已被开发用于工夫预测应用程序。在其外围为 RNN 单元蕴含一个外部记忆状态,作为过来信息的概述。在每个工夫步应用新的观测值递归更新内存状态(如上图 b 所示),即:
其中 zt 是 RNN 的隐状态,x˜t=[xt,tt,s]是每一步进入 RNN 的组合输出,ν(.)是学习到的记忆更新函数。例如最简略的 RNN 变体采纳以下模式:
其中 W 和 b 别离是网络的线性权重和偏差,γy和 γz 是激活函数。请留神,RNN 不须要像 CNN 那样明确指定回溯窗口。从信号处理的角度来看,次要的循环层 (方程 3) 相似于有限脉冲响应 (IIR) 滤波器的非线性版本。
LSTM 因为有限的回溯窗口,旧的 RNN 变体在学习数据中的长期依赖关系时可能会受到梯度爆炸和隐没的问题的限度。直观来看,这能够看作是记忆状态中的一种共振模式。因而长短期记忆网络 (LSTM)通过改善网络内的梯度流来解决这些限度。具体是通过应用存储长期信息的细胞状态 ct 联合一系列门进行调制来实现,如下所示:
其中 h t−1 是 LSTM 的暗藏状态,σ(.)是 sigmoid 激活函数。LSTM 的暗藏和单元状态如下:
其中⊙是逐元素 (Hadamard) 乘积,tanh(.)是 tanh 激活函数。
有相干文献也形容了 LSTM 与贝叶斯滤波器的关系,贝叶斯滤波器和 RNN 在保护暗藏状态方面是类似的,该暗藏状态随工夫递归更新。对于贝叶斯滤波器,例如卡尔曼滤波器,通过更新潜在状态的足够统计数据来执行推理,即应用一系列状态转换和纠错步骤。因为贝叶斯过滤步骤应用确定性方程来批改足够的统计数据,因而能够将 RNN 视为两个步骤的同时迫近:记忆向量蕴含预测所需的所有相干信息。
Attention 机制
注意力机制的倒退通过改良 Transformer 导致长期依赖学习的改良。架构在多个自然语言解决应用程序中实现了最先进的性能。留神层应用动静生成的权重聚合工夫特色(见上图 c),容许网络间接关注过来的重要工夫步长,即便它们在回溯窗口中很远。通常注意力权重采纳以下模式:
其中 h t−τ是网络较低层提取的两头特色,α(t,τ)∈[0,1]是 t−τ 在时刻 t 生成的 attention 权重;h˜t是 attention 层的上下文矢量输入。
在工夫序列预测应用程序中应用注意力机制与循环网络相比具备更高的性能。例如应用注意力来聚合由 RNN 编码器提取的特色,产生的注意力权重如下:
其中 α(t)=[α(t,0),…,α(t,k)] 是 attention 权重向量,h˜t−1,h˜t是用于特征提取的 LSTM 编码器的输入,softmax(.) 是 softmax 激活函数。最近一些工作也思考了 Transformer 架构,它利用 self-attention 的标量内积在回顾窗口中提取特色。从工夫序列建模的角度来看,注意力提供了两个要害的益处。首先具备注意力的网络可能间接关注产生的任何重大事件。例如在批发预测利用中,这包含可能对销售产生踊跃影响的假期或促销期。其次基于注意力的网络还能够通过为每个架构应用不同的注意力权重模式学习特定架构的工夫动静。
输入和损失函数
鉴于神经网络的灵活性,深度神经网络已被用于对离散和间断指标进行建模,即通过定制神经网络的解码器和输入层以匹配所需的指标类型。在提前一步预测问题中,这能够简化为编码器输入线性变换的组合,与指标的输入通过激活函数相结合。无论指标的模式如何,预测能够进一步分为两个不同的类别:点估计和概率预测。
点估计 一种常见的预测办法是确定将来指标的预期值。这次要波及将问题从新表述为应用上述编码器离散输入的分类工作(例如预测将来事件)和间断输入的回归工作。对于二元分类状况,解码器的最初一层具备带有 sigmoid 激活函数的线性层, 即容许网络在给定的工夫步长预测事件产生的概率。对于二元和间断指标的一步超前预测,网络别离应用二元穿插熵和均方误差损失函数进行训练:
概率输入尽管点估计对于预测指标的将来价值至关重要,但理解模型预测的不确定性对于不同畛域的决策者也很有用。例如当预测的不确定性很大时,模型用户在将预测纳入决策时能够更加审慎,或者依赖其余信息起源。在某些应用程序中,例如金融风险治理,拜访残缺的预测散布将容许决策者在呈现常见事件时优化他们的口头, 例如容许危险管理人员爱护投资组合免受市场崩盘的影响。
对不确定性建模的罕用办法是应用深度神经网络生成已知散布的参数。例如高斯分布通常用于预测具备间断指标的问题,网络在每个步骤输入预测散布的均值和方差参数:
其中 htL 是网络的最初一层,softplus(.) 是 softplus 激活函数,以确保标准差仅取正值。
多步预测模型
在许多应用程序中,取得将来多个点预测值的预计十分重要,其容许决策者可视化将来范畴内的趋势,并在整个门路上优化他们的口头。从统计学的角度来看,多步预测能够看作是对单步预测问题轻微批改,即:
其中 τ∈[1,…,τmax] 是预测的离散范畴,xt为整个工夫线已知的特色输出(例如日期信息,例如星期几或月份),且是只能在历史上察看到的输出。与传统的计量经济学办法统一,用于多步预测的深度学习架构能够分为迭代法和间接法,如下图所示(后续详细描述):
迭代法
多步预测的迭代办法通常利用自回归深度学习架构,即通过递归地将指标样本输出将来工夫步长来生成多层次预测(上图 a)。通过反复该过程以生成多个轨迹,而后应用每个步骤的目标值的抽样散布生成预测。例如可用蒙特卡罗预计取得预测平均值 y˜t+τ=Σj=1Jy˜t+τ(j)/J,其中 y˜t+τ(j)是基于模型方程(4)的采样后果。因为自回归模型的训练形式与一步法预测模型完全相同,因而迭代办法能够轻松地将规范模型推广到多步预测。然而迭代法的递归架构要求除了指标之外的所有输出在运行时都是已知的,即只须要将指标的样本送入将来的工夫步长。在存在观测输出的许多理论场景中,这可能是一个限度,促使须要更灵便的办法。
间接法
间接法通过间接应用所有可用输出生成预测来缓解迭代办法的问题。他们通常应用序列到序列架构,应用编码器来总结过来的信息(即指标、察看到的输出和先验的已知输出),并应用解码器将它们与已知的将来输出相结合(如上图 b 所示)。在防止递归的同时,间接办法须要指定最大预测范畴(即τmax),且预测仅在预约义的离散距离内进行。
二、将畛域常识与混合模型相结合
只管机器学习很受欢迎,但历史上其在工夫序列预测中的有效性始终受到质疑,正如 M 比赛等预测比赛所证实的那样。在 2018 年的 M4 比赛之前,广泛的认识是简单的办法不会产生更精确的预测,而带有集成学习的简略模型往往会做得更好。这里有两个要害起因来解释机器办法的性能不佳。首先机器学习办法的灵活性可能是一把双刃剑,容易过拟合。其次相似于统计模型的平稳性要求,机器学习模型对输出的预处理形式很敏感,而正确的数据预处理能够确保训练和测试时的数据分布类似。
深度学习的最新趋势是倒退解决这些限度的混合模型,在各种利用中展现出优于纯统计或机器学习性能的模型。混合办法将通过充沛钻研的定量工夫序列模型与深度学习相结合,即应用深度神经网络在每个工夫步生成模型参数。混合模型一方面容许领域专家告知应用先验信息进行神经网络训练以缩小网络的假如空间并进步泛化能力。这对小数据集尤其有用,因为深度学习模型过拟合的危险更大。此外混合模型容许拆散动态和非动态重量,并防止对自定义输出预处理的须要。这方面的例子是 M4 比赛的获胜者——指数平滑 RNN (ES-RNN),它应用指数平滑来捕获非安稳趋势并应用 RNN 学习其余成果。通常混合模型以两种形式应用深度神经网络:非概率参数模型编码时变参数与概率模型生成散布参数。
非概率混合模型
应用参数化的工夫序列模型,预测方程通常定义为解析地,并为将来指标提供点预测。因而非概率混合模型批改了这些预测方程,以联合统计和深度学习组件。例如 ES-RNN 利用 Holt-Winters 指数平滑模型的更新方程,行将乘法因子和季节性重量与深度学习输入相结合,如下所示:
其中 h i,t+τL是第 τ 步预测的网络的最初一层,li,t步长重量,γi,t是周期为 κ 的季节性重量,β1(i)和 β2(i) 是实体特定的动态系数。从上述等式中,咱们能够看到指数平滑组局部 (li,t,γi,t) 解决数据集中更宽泛的(例如指数)趋势,从而缩小了对额定输出缩放的需要。
概率混合模型
概率混合模型同样可用于散布建模很重要场景的利用,比方利用概率生成模型进行工夫动静,如高斯过程和线性状态空间模型。概率混合模型不是批改预测方程,而是应用神经网络为每一步的预测散布生成参数。例如深度状态空间模型为线性状态空间模型编码时变参数,通过卡尔曼滤波方程执行推理:
其中 l t是隐状态,a(.),F(.),q(.)是 hi,t+τL,ϕ(.),Σ(.) 的线性变换,是具备 softmax 激活的线性变换,并且 t ∼ N(0, 1),ϵt∽N(0,1),Σt∽N(0,I)是规范正态随机变量。
三、应用深度神经网络促成决策反对
只管模型构建者次要关怀他们预测的准确性,但最终用户通常应用预测来领导他们将来的口头。例如医生可用临床预测(例如疾病发生和死亡率的概率)来帮忙他们确定要订购的测试的优先级、制订诊断并确定医治计划。因而,尽管工夫序列预测是要害的初步步骤,但更好地理解工夫动静和模型预测背地的动机能够帮忙用户进一步优化他们的口头。接下来摸索了神经网络扩大以促成对工夫序列数据的决策反对的两个方向——重点是可解释性和因果推理的办法。
时序数据的可解释性
随着神经网络在要害工作应用程序中的部署,越来越须要理解模型如何以及为何做出特定预测。此外随着数据集的规模和复杂性在最近一直增长,最终用户可能对其数据中存在的关系知之甚少。鉴于规范神经网络架构的黑盒性质,在解释深度学习模型的办法中呈现了新的钻研主体,将在上面深刻介绍。
Post-hoc 可解释性技术 Post-hoc 可解释模型被开发用于解释训练有素的网络,并有助于在不批改原始权重的状况下辨认重要特色或示例。办法次要能够分为两大类。首先,一种可能的办法是在神经网络的输出和输入之间利用更简略的可解释代理模型,并依附近似模型来提供解释。例如部分可解释模型不可知解释 (LIME) 通过将特定于实例的线性模型拟合到输出的扰动中来辨认相干特色,线性系数提供了重要性的度量。Shapley 附加解释 (SHAP) 提供了另一种代替办法,它利用单干博弈论中的 Shapley 值来辨认数据集中的重要特色。接下来,曾经提出了基于梯度的办法,例如显著图和影响函数,它剖析网络梯度以确定哪些输出特色对损失函数的影响最大。尽管预先可解释性办法能够帮忙解决特色属性,但它们通常会疏忽输出之间的任何序列依赖关系,因而很难将它们利用于简单的工夫序列数据集。
具备注意力权重的固有可解释性 另一种办法是间接设计具备可解释组件的架构,通常以战略性搁置注意力层的模式。当注意力权重作为 softmax 层的输入产生时,限度权重总和为 1,即 Σ τ=0kα(t,τ)=1。对于工夫序列模型,预测方程的输入因而也能够是解释为工夫特色的加权平均值,应用注意力层在每一步提供的权重。而后能够应用对注意力权重的剖析来理解每个工夫步长特色的绝对重要性。在进行的实例可解释性钻研中,钻研人员应用特定示例来展现 α(t,τ) 的大小如何批示哪些工夫点对预测最重要。通过剖析注意力向量随工夫的散布,还展现了如何应用注意力机制来辨认数据集中的持续时间关系, 例如季节性模式。
反事实预测和因果推断
除了了解网络学习到的关系之外,深度学习还能够通过在察看数据集之外产生预测或反事实预测来帮忙促成决策反对。反事实预测对于场景剖析应用程序特地有用,即容许用户评估不同的动作集如何影响指标轨迹。从历史角度(即确定产生不同状况时会产生什么)和预测角度(即确定采取哪些口头来优化将来后果)来看,这都十分有用。
尽管存在一大类深度学习办法来预计动态环境中的因果效应,但工夫序列数据集中的要害挑战是存在工夫相干的混淆效应。这因为影响指标的动作与对指标的察看为条件的循环依赖引起的。没有对工夫相干的混淆因素进行任何调整,间接的预计技术可能会导致有偏差的后果。最近基于统计技术和设计的扩大,呈现了几种办法来训练深度神经网络,同时调整工夫相干的混淆因素新的损失函数。应用统计办法,扩大流行病学中边缘构造模型的逆医治概率加权 (IPTW)办法,应用一组网络来预计医治利用概率,并应用序列到序列模型来学习无偏预测。另一种办法是扩大 G 计算框架,应用深度学习联结建模指标和动作的散布。此外还有钻研提出了新的损失函数,它采纳畛域反抗训练来学习患者病史的均衡示意。
总结与瞻望
随着数据可用性和计算能力的增长,深度神经网络架构在跨域预测问题方面获得了很大胜利。本黑板报中考察了用于工夫序列预测的次要架构,重点介绍了神经网络设计中应用的要害架构模块。钻研了它们如何将工夫信息合并到一步预测中,并形容了它们如何扩大以用于多步预测。此外联合了统计和深度学习组件概述了混合深度学习模型的最新趋势,在任一类别中都优于纯办法。最初总结了两种能够扩大深度学习以改善决策反对的办法,重点是可解释性和反事实预测办法。
迄今为止学术界只管曾经开发了大量用于工夫序列预测的深度学习模型,但依然存在一些局限性。首先,深度神经网络通常须要以固定距离离散化工夫序列,因而很难预测可能会失落观测值或以随机距离达到的数据集。尽管已有钻研通过神常常微分方程对间断工夫模型进行了一些初步钻研,但还须要做更多的工作来扩大具备简单输出(例如动态变量)的数据集的这项工作,并将它们与现有模型进行基准测试。此外工夫序列通常具备层次结构,轨迹之间具备逻辑分组,例如在批发预测中,同一地区的产品销售可能会受到独特趋势的影响。因而,明确解释此类层次结构的架构的开发可能是一个乏味的钻研方向,并有可能进步现有单变量或多变量模型的预测性能。
开源福利
云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。
点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。
GitHub 地址:https://github.com/CloudWise-…
Gitee 地址:https://gitee.com/CloudWise/f…
万元现金流动: http://bbs.aiops.cloudwise.co…
微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~