关于机器学习:处理医学时间序列中缺失数据的3种方法

42次阅读

共计 1817 个字符,预计需要花费 5 分钟才能阅读完成。

这些办法都是专为 RNN 设计,它们都通过了宽泛的学术评估,而且非常的简略

大量医疗数据例如心电图、体温监测、血压监测、定期护士查看等等实质上都是工夫序列数据。在这些医学图表的趋势、模式、顶峰和低谷中嵌入了大量有价值的信息。医疗行业要求对医疗工夫序列数据进行无效剖析,这被认为是进步医疗品质、优化资源利用率、升高整体医疗老本的要害。

一种有前途的医学工夫序列剖析模式是通过 RNN 来实现。RNN 因其建模能力和能够解决可变长度输出序列的能力而受到医学钻研人员的欢送。钻研人员通常将工夫序列数据划分为平均的工夫步长,例如 1 小时或 1 天。一个工夫步长内的所有数据点将通过均匀或其余聚合计划聚合。这种解决形式有两个长处。首先,它缩小了工夫序列数据序列的长度。其次,原始原始数据点通常在工夫上距离并不规则,这种形式能够对工夫上下文进行归一化。在这个预处理步骤之后,数据简直能够用于 RNN 解决。然而有一个十分事实的问题:如果在给定的工夫步长内没有数据怎么办?

上述问题在医疗环境中很重要,因为失落的医疗数据通常不是随机失落的。数据自身的缺失具备临床意义。例如,医院工作人员可能会进行测量被认为曾经稳固的患者的体温。或者兴许患者的状况须要另一种不同类型的测量来取代以前的测量方法。因而,通常的零填充或插补办法往往会产生次优性能。

在这篇文章,咱们将回顾 3 种简略的办法来解决与 RNN 一起应用的工夫序列钻研中缺失的医学数据。后一种办法都是建设在前一种办法的根底上,具备更高的复杂性。因而强烈建议依照它们呈现的程序浏览。

简略缺失编码

假如每个工夫步的输出变量是 x 并带有下标 t。变量有 d 维,用上标 d 示意。输出的示例如下图 1 (a) 所示,简化为 d =1。暗影局部是缺失的数据,咱们利用前向插补来填充它们最近的观测值。前向插补是可行的因为一旦医院工作人员认为某个指标稳固后,他们通常会进行对指标进行进一步测量,在这种状况下,最近察看到的值能够作为将来的理论值。

这篇论文(arxiv:1606.04130)提出的简略缺失编码方法表明,应该明确编码给定数据点实际上是估算的而不是理论察看到的值。这种显式编码为 RNN 提供了一个信号,能够让 RNN 留神到数据的缺失。如图 1 (b) 所示,其中 m 示意 x 的缺失,其中 1 示意存在,0 示意不存在 (如公式 1 所定义)。输出是 x 和 m 的拼接。。

确认值是否缺失的公式

这种办法对该钻研论文中提出的试验产生了有意义的改良。尽管数据有可能不同,但这是一个非常简单直观的想法,值得一试。

工夫间隔编码

在上述办法的根底上,除了显式编码缺失之外,这篇论文(https://www.nature.com/articl…)还倡议显式编码一个值与最近察看到的值之间的工夫间隔。所以当初的 RNN 的输出是所有三个值编码的串联,即输出 x、缺失信号 m 和工夫间隔值 δ。公式 2 和图 2。

以下是工夫间隔的计算公式

依据论文中提出的试验,该办法在缺失的显式编码之上带来了很好的改良,后果如下所示

引入衰减

再次以上述办法为根底,同一篇论文提出了一种估算值的衰减机制。第一步咱们利用前向插补来应用最近的察看值然而如果缺失值得工夫很长怎么办?咱们应该无限期地应用那些旧的察看值吗?考虑一下事实世界的场景:医院工作人员进行跟踪指标,因为他们认为它曾经稳固。但指标值可能仍处于失常范畴的远端,但置信它最终会回到一个好的中位数。这意味着在没有察看到的数据的状况下,有充沛的理由置信以后的指标值会继续一段时间,但最终会“衰减”回良好的医疗默认值。

衰减因子 γ 由权重矩阵 W 和偏差 b 确定,利用于工夫间隔 δ(参见公式 3),而后发送到下限为 1 的反向 exp 函数。W 和 b 在工夫步长和在训练期间独特学习。

下图是衰减因子得计算公式

在任意给定的工夫步 t,如果 x 被观测到,咱们应用 x。否则,咱们应用 t′最初一次观测的值,衰减为 x 的均值。RNN 的最终输出见公式 4。

该论文文还将相似的衰减机制利用于它们的 RNN 模型的暗藏状态,也产生了最好的后果。然而因为咱们探讨的是 RNN 输出的原始数据的解决,就不具体阐明了。

总结

在这篇文章中,咱们介绍了医学工夫序列数据钻研的背景,并提出了 3 种专为 rnn 设计得缺失数据填补得简略的办法,这三种办法都能够产生更好的后果,如果你有趣味能够在理论利用中试验以下。

https://avoid.overfit.cn/post/aefbb6103beb41b3a677ee2b24d13913

作者:Eileen Pangu

正文完
 0