乐趣区

关于网络:大咖眼中的AI开源|王敏捷深图在人工智能中的探索和研究

6 月 26 日,亚马逊云科技 Community Day在上海举办。亚马逊云科技首席开发者布道师、资深数据科学家、资深利用科学家以及亚马逊云科技 Machine Learning Hero 悉数到场,针对 AI 开源的技术趋势及落地实际我的项目进行分享和探讨。

上期,咱们带来了 亚马逊云科技首席开发者布道师王宇博 对于构建开源机器学习生态系统的精彩分享。本期,咱们带来了 亚马逊上海人工智能研究院资深利用科学家王麻利 对亚马逊云科技在深度学习算法使用到图数据畛域的摸索和钻研话题的分享。在亚马逊云开发者公众号后续的内容中也会带来更多的嘉宾分享,感兴趣的搭档们能够继续关注!

📢 想要理解更多亚马逊云科技最新技术公布和实际翻新,敬请关注在上海、北京、深圳三地举办的 2021 亚马逊云科技中国峰会!点击图片报名吧~上海站峰会曾经圆满闭幕,更多精彩内容,敬请期待北京、深圳分会吧!

王麻利:深图在人工智能中的摸索和钻研

说到深图在人工智能中的摸索和钻研,首先要明确一个概念——什么是人工智能?王麻利认为,要实现真正的人工智能有两点十分重要,第一是要了解为什么当初的人工智能算法会犯错,第二是要去探讨人工智能算法与人脑之间结构化的一致性

“研表究明,汉字序顺并不定一影阅响读。”比方当你看完这句话后,才发这现里的字全是都乱的。人在了解自然语言的时候,并非通过线性的形式去了解,而是成块的去了解文本。而很多模型,是通过线性的形式了解文本。

从图像识别的角度,如果用算法去辨认一张印有一只狗坐在摩托车上的图片,只能辨认到画面自身是由狗和摩托车形成的,无奈取得更多结构化的信息,而人脑是能够感触到画面的趣味性的。

生存中的很多数据以图构造 (Graph) 的模式存在,小到宏观分子,大到生产生存,在图上实现机器学习工作是极为常见的需要。

近年来,如何把深度学习算法使用到图数据成为开发者们关注的重点。因而也诞生了图神经网络 Graph Neural Networks (GNNs)。所谓图神经网络是指用于学习点、边或者整张图的向量示意的一类深度神经网络,其核心思想是消息传递。比方,想判断一个人喜爱哪只 NBA 球队,能够通过社交网络上理解他的敌人喜爱哪只球队,如果他 80% 的敌人都喜爱,那么他大概率也会喜爱这只球队。对某个点进行建模的时候,通过其余相邻点去收集信息,这个过程就是信息传递。

把所有相邻节点的信息收集到一起做一个累和,取得了一个加权累和的音讯之后,再通过更新函数对所在节点曾经有的信息做一个更新。这就是图神经网络最根本的数学建模。

图神经网络在不同畛域都有着十分宽泛的利用。

分子医药:首先是分子性质预测。其输出数据为分子结构图。之后通过消息传递建模,利用图神经网络获取向量表征,输出到上游的分类器,能够判断化学药品的性质、毒性等。其次是药分子生成,先构建一个编码模型,而后通过图神经网络将其变成向量示意,同时退出一些领导,生成可能合乎咱们须要性质的分子。第三,是药物重定位,在这方面,亚马逊构建了一个药物常识图谱 DRKG,用于示意药物,疾病蛋白,化合物等对象之间的关系。应用图神经网络对该数据进行建模后,则能够预测药物和疾病蛋白节点之间的连贯关系,从而预测医治新型疾病的潜在药物。目前,通过图神经网络建模所举荐的 41 种药物当中,有 11 种曾经被利用于临床。

常识图谱:在常识图谱中能够应用图神经网络实现很多上游工作。如常识补全、工作节点分类等。

举荐零碎:支流的举荐零碎次要基于用户和商品之间的交互数据。如果 A 用户购买某个商品,零碎留下购买记录,通过数据分析,如果发现 B 用户的购买记录与 A 用户类似,那么,大概率 A 用户购买的商品,B 用户也会感兴趣。目前,基于图神经网络举荐零碎已实现商业落地。

计算机视觉:输出场景图,通过图神经网络建模,在结尾时退出图片生成器,通过这张场景图能够反向去生成更好的图片。

自然语言解决:在自然语言解决中图的构造也无处不在。比方 TreeLSTM,句子自身不是线性构造,它有语法结构,利用句子语法树结构进行训练,失去更好的分析模型。此外,当初比拟炽热的是“变形金刚”(Transformer),也是深图的变种。

图神经网络不论是在学界还是业界,都有了一些十分好的落地计划。但也有很多问题亟待解决。如规模越来越大,如何去建模?如何把非结构化数据中的结构化数据抽取解决?这就须要好的工具去开发模型。

应用传统深度学习框架(TensorFlow/Pytorch/MXNet 等)编写图神经网络并非易事。消息传递计算是一种细粒度计算,而张量编程接口则须要定义粗粒度计算,粗粒度和细粒度的差别,使得图神经网络的书写十分艰难。亚马逊针对这一挑战开发了作为桥梁的 DGL。王麻利从编程接口设计、底层系统优化、开源社区建设三个方向介绍了 DGL。

首先是编程接口设计。用图的概念做编程,核心理念是以图为本。王麻利认为,开发者首先应理解,图是图神经网络的“一等公民”。所谓“一等公民”是指所有 DGL 的函数和 NN 模块都能够承受和返回图对象,其中也包含外围的消息传递 API。

其次是底层零碎的设计优化。其余的图神经网络框架(比方 PyTorch Geometric, PYG)往往应用 gather/scatter 原语来反对消息传递计算,计算过程中产生大量冗余的音讯对象,占用大量内存带宽。而 DGL 应用高效稠密算子减速图神经网络,比 PYG 快 2~64 倍,并能节俭 6.3 倍的内存,且对巨图十分敌对。

最初,王麻利就 开源社区建设 方面 的教训进行了分享。他次要分享了以下几点教训。

第一,代码并不是惟一重要的货色,文档在开源我的项目中也占有半壁江山。亚马逊设计了不同层级的文档。针对老手,有 120 分钟上手 DGL,只需下载运行,便可手把手学会如何训练。对于进阶用户,有用户指南,其中涵盖设计概念,有 DGL 接口手册,通过阶梯式的形式,让用户从老手成长为专家。

第二,开源社区须要有丰盛的 GNN 模型样例。社区倒退的十分快,反应速度要想跟上社区倒退,就须要 GNN 有很多不同的利用场景,通过模型把它们涵盖在一起。目前 DGL 大略有 70 多个经典的 GNN 模型样例,涵盖各个领域和钻研方向。

第三,须要重视社区交互。亚马逊设置了很多社区活动,组织开发者们互相交换,如定期举办 GNN 用户群的分享会,邀请学界和业界前沿的学者或者开发人员分享 GNN 畛域的成绩等。另外,用户论坛、Slack、微信群,也为大家提供不同渠道的沟通平台。

退出移动版