乐趣区

关于开源:微软亚洲研究院推出时空预测开源工具FOST应对各行业共性预测需求

(转载自微软研究院 AI 头条)

编者按:2020 年新冠疫情肆虐寰球,为了管制疫情蔓延,找到应答措施,美国疾病控制中心颁布了大量疫情相干数据,向全世界顶级科研机构救助,心愿科学家们能够利用技术能力,提供具备较高参考价值的预测数据,从而帮忙制订无效的控制策略。微软亚洲研究院基于时空预测技术,训练了针对新冠疫情的预测模型,并于 2020 年下半年被美国疾控中心驳回应用。在过来的近一年中,该预测模型的体现整体优于寰球其它四十几家科研机构提供的预测模型。日前,微软亚洲研究院基于此前的技术积攒,正式推出了面向全行业的时空预测开源工具 FOST。

什么是时空概念?“时”是指工夫序列,“空”即空间上的相互影响和分割。例如,物流行业每个站点的历史派件量是时序关系,而各直达 / 配送站点间又存在空间上的分割;再比方,在新冠疫情防控中,各级行政区域的每日感化病例数字,独自来看是时序关系,而彼此之间的关联则属于空间关系。

“时空”因素在各行业中的宽泛存在,使时空预测成为泛滥行业进行科学决策、优化效率的要害。近日,微软亚洲研究院 推出了面向全行业、具备高度通用性与易用性的时空预测开源工具 FOST(Forecasting Open Source Tool)。存在相干需要的企业和机构能够基于这一便捷易用的工具生成高效的时空预测解决方案。

  • GitHub 链接:
    https://github.com/microsoft/…

共性形象:时空预测开源工具 FOST

近年来在与行业搭档的严密单干中,微软亚洲研究院的研究员们发现,时空预测需要普遍存在于物流、电信、医疗、交通等许多行业中。然而,以后大部分的时空预测还只是停留在钻研阶段,真正利用时,大家只是互相借鉴思路,想要解决理论问题还须要各自从头开始一点点摸索,并没有一个简略、易上手的通用工具。

基于与多家企业在时空预测上的单干钻研,微软亚洲研究院的研究员们形象出了行业共性问题,将多年的技术和教训积攒进行转化,推出了具备极高行业通用性的时空预测工具 FOST。


FOST 架构图

要使时空预测工具兼顾通用性和可用性,需解决三个常见问题:第一是数据的品质问题,这就须要升高数据乐音,减小信息缺失的影响;第二是时序上要能对趋势、周期、突发等各类维度具备良好的包容性;第三则是在空间维度上突破以往预测模型只能单点预测的局限性,可能在空间结构中精确预测并利用关联影响。

为此,微软亚洲研究院为时空预测工具 FOST 集成了三大功能模块,来应答多种简单时空条件下的预测:

  • 数据处理:数据降噪,晋升数据品质
    在 FOST 中,数据的收集由用户自主实现,这既保证了可能基于多样的场景数据训练出不同的业务场景模型,又保障了用户数据的隐衷平安。之后,FOST 会针对存在乐音等问题的品质低下的数据进行荡涤,晋升数据品质,确保模型训练的准确度。
  • 时序解码:轻量级时序神经网络
    在时序预测上,微软亚洲研究院采纳了轻量级深度时序神经网络。
    深度时序神经网络次要用来捕获理论业务场景中的简单历史法则。以物流行业为例,可能数据显示某几个站点在冬季派件量比平时多,那么是否就能够揣测出下个夏天派件量同样会上涨呢?理论的关联关系通常并不是这么简略就能够推断进去的。深度时序网络的作用就是找出其中的简单关联和细节法则。
    但深度时序神经网络往往面临训练速度慢,对于噪声敏感的问题。同时在数据量不短缺的状况下,容易过拟合训练数据。因而,微软亚洲研究院在深度时序神经网络的根底上通过对时序数据降维,使构造轻量化,从而减速训练效率并稳固预测后果。
  • 空间解码:图神经网络构建档次图
    在空间层上,微软亚洲研究院采纳了图神经网络,通过节点间的空间分割,来建模信号变动在空间上的相互影响和关联。例如在疫情数据预测中,一个地区的疫情后果会受到其余区域,尤其是相邻地区的影响,所以预测时也不能疏忽空间上的关联。对此,微软亚洲研究院利用图神经网络,在预测疫情倒退信息时,也将其余省市的信息参考进来,进一步晋升预测的精度。引入图卷积网络后,无论是针对县区的细粒度预测,还是省市级别的粗粒度预测,后果的准确性都大大晋升。

微软亚洲研究院副院长刘铁岩示意,“FOST 不是一个自上而下的钻研产物,也并不是一开始就有明确打算要进行研发的,而是通过与产业界的深度接触后,咱们发现了很多行业在时空预测方面存在的共性需要,包含问题挑战、解决方案等多个层面。因而,咱们决定将共性问题形象进去做成一个通用的开源工具,帮忙更多企业借助先进的人工智能技术节俭精力、老本,晋升经营及翻新效率。”

凭借高通用性,应答泛滥行业时空预测需要

在与工夫、空间概念密切相关的行业中,时空预测工具 FOST 如何运作并发挥作用?

仍然以较为典型的物流行业为例。如果物流企业心愿通过 FOST 对某个大站点的次日派件量进行预测,首先,企业须要在底层的深度时序神经网络模块中输出近一段期间的工夫序列数据,包含这个站点的每日总出库量和总收件量,及以该站点为起点或中转站的派件量,之后模型的时序模块会先学习历史数据中的特色,并示意为隐空间中的一组向量。

接下来则须要进一步叠加相邻站点的时序法则信息进行空间上的信息聚合。一个例子是站点与其相邻站点之间往往存在这样的关系——当相邻站点快递件数减少时,就会将一部分快件发送给该站点。在这种状况下,当在时序上预测出该站点次日派件量为 200 件,同时又看到空间层上相邻站点次日快递件数预计会急剧减少时,就能够预估出该站点次日的派件量可能将远超 200 件,这样就将站点空间上的关联关系也融入到了模型中。

上述仅是物流行业的例子。很多其余行业场景,如网络基站流量预测、交通流量预测、电力输送预测,与物流行业同样存在共通的时空概念,时空预测工具 FOST 在这些行业上的作用原理也根本相似。

不过要留神的是,对于关联性越大的节点,在预测时就越要优先思考他们的关联关系,否则如果将所有关联信息都进行无差别计算,那计算量将会微小到难以承受。比方本来就曾经有数千个地点,如果还要将所有地点间的关系都思考进来,这样的计算量对服务器的要求会十分高,是个别企业所无奈承当的一笔开销。对此,微软亚洲研究院也做了很多优化,包含在图随机采样时会优先思考强关联的信息,从而进步整个预测工具的运行效率。

此外,在某些行业中,空间概念未必仅停留在天文空间层面。例如,在医疗行业的糖尿病患者病情预测中,同一类糖尿病的不同患者,就可视作多个不同空间。一个病人的病情倒退法则能够作为历史参考,帮忙预测出其余患者的病情发展趋势。

微软亚洲研究院的时空预测开源工具给各行业用户提供了一个简略易用的深度学习“利器”。通过应用 FOST,用户不仅能够无效晋升业务场景预测的准确率,还能够防止从头开发相似平台的反复工作。将来,微软亚洲研究院将在以后版本的根底上,继续优化时空预测工具上模型的准确性和训练效率,助力更多企业和机构通过构建时空预测能力发明更大的价值。

退出移动版