关于人工智能:论文推荐ScoreGrad基于能量模型的时间序列预测

能量模型(Energy-based model)是一种以自监督形式执行的生成式模型,近年来受到了很多关注。本文将介绍ScoreGrad:基于间断能量生成模型的多变量概率工夫序列预测。如果你对工夫序列预测感兴趣,举荐持续浏览本文。

为什么工夫序列预测很重要?

这是一个陈词滥调的问题,因为工夫序列预测在各个行业都有宽泛的用例,从金融到能源,从医疗保健到农业等。

与其余人工智能畛域(如计算机视觉)相比,工夫序列具备挑战性的是高度的不确定性及其长/短依赖性等。也就是说,即便应用最先进的数学算法,就目前来说,你也不可能预测下个月比特币的价值,因为除了工夫序列自身,还有很多外在因素。然而在泛滥利用中,深度学习模型被宽泛用于预测将来,例如预测能源消耗,就能源来说,影响的因素较小,咱们倒是能够对其进行钻研。

为什么生成模型是人们关注的焦点?

生成模型是一种新的类型的深度学习模型,随着新一波有创意和有前途的初创企业在经济中取得越来越多的关注。生成模型中最受欢迎和风行的例子是驰名的ChatGPT,它在最近几个月里驯服了数百万人。

生成模型的机制可能听起来很简单,本文也无奈具体阐明,然而一般来说生成模型可能生成新的数据(这是废话😒)。但这些数据能够是任何类型的数据,从图像到文本,当然也包含数字。

生成模型是如何工作的?

一句话总结生成数据的机制:他们通过学习训练数据中的统计模式来生成新的数据样本,而后应用这些常识随机创立新的、类似的样本。

生成式模型试图生成尽可能靠近实在数据分布的散布。

上面开始进入咱们的正题

ScoreGrad是如何运作的?

ScoreGrad是一个用于预测工夫序列数据的框架,应用简单的数学和间断的基于能量的生成模型。它由两局部组成:一个特征提取模块,用于从数据中挑选出重要的局部;一个分数匹配模块,应用一种叫做随机微分方程的货色,通过回溯工夫来进行预测。它的工作形式是通过在迭代循环中求解逆时SDE。

1、训练

通过输出多变量工夫序列数据来训练模型,以最小化损失函数(如下所示):

训练过程是上面的算法1的伪代码:

2、预测

把预测看作是反向间断工夫SDE抽样的迭代。

从预约散布中获取样本。将特色状态、样本和相应工夫提供给试图解决反向SDE的采样器,这样就能够失去预测。

而后将预测(采样器的输入)、协变量和特色状态提供给一个名为工夫序列的特色抽取模块,将其用于下一个预测。

ScoreGrad的架构

下图看着有很多的模块,并且很乱,别放心,上面会缓缓解释。😉

(a)工夫步t的模型架构

(b)分数匹配模块架构

(1)符号和问题表述

应该留神的是,始终都有协变量的值。迭代预测的形式能够在上面公式2中表述:

(2)模型架构

该框架在每个工夫步上都由两个模块组成;首先是工夫序列的特征提取(TS),而后是基于条件SDE的分数匹配模块。

先介绍第一个模块“TS特征提取”:想要失去之前值的一个非凡特色;每个工夫步中咱们称它为Ft,因为要对所有工夫步都这样做,所以须要更新它就须要定义了一个函数(R):

能够很容易地将Eq(2)转换为Eq(4),这是一个条件预测公式:

这里的Ft能够等价于rnn中的暗藏状态,TCN或基于注意力的模型中学习特色的向量示意。缺省状况下,ScoreGrad应用rnn。

上面就是基于条件SDE的分数匹配模块:为了调节SDE,应用Ft,如架构图中的分数匹配模块所示,将其输出到全连贯的上采样器中,而后向上采样,这种操作产生在每个工夫步,所以咱们能够简略地应用工夫t的对应状态。如果ts是积分工夫,那么就有:

下面的公式是修改的条件逆时SDE。如果咱们晓得这个分数函数在所有工夫步长的值,就能够用数值SDE求解器进行反转。那么这个分数函数是什么呢?是一个神经网络。

(3)条件分数网络

这部分受到两个论文的启发:1.WaveNet 2.DiffWave;有趣味的能够去看看,这里就不多解释了

网络有三个输出:

  • 特色(Ft )
  • 输出状态(xt)
  • 对应工夫(ts)

用Conv1D (filter size= 1,3)扭转输出状态,并将嵌入模块(对应工夫)从地位嵌入扭转为随机傅里叶特色。这里Ft (Feature)是评分网络的调节器。将暗藏示意+工夫嵌入传递给卷积算子;而后增加输入并进行激活操作。

通过应用输入的一部分作为块的输入,其余部分用跳过连贯输出求和到下一个块。最初将所有输入加在一起,并对最终输入进行简略的卷积变换。

语言形容有点简单,能够依据ScoreGrad的架构图的分数匹配模块架构对应查看应该会更好的了解。

后果

这部分是钻研中最重要的局部;因为这是表明模型无效的一部分。这里提到了与其余以前的模型进行比拟的后果。

该模型在包含Exchange、太阳能、电力、交通、出租车和维基百科在内的各个行业的各种基准数据集上进行评估。

这里的区别点是他们应用了一个名为“间断排名概率分数(CRPS)”的分数,如下所示:

应用这个分数来计算累积散布函数(CDF)F与实在值x的相容水平。而后通过计算每个工夫步的CROS,能够计算CRPS_sum:

而后就失去了上面的后果:

基于VP SDE和交通数据集理论察看的ScoreGrad预测区间。

论文地址:https://avoid.overfit.cn/post/7dc6c0db14cc4e919bc4dbb8d342b0e0

作者:Reza Yazdanfar

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理