关于网络:大咖眼中的AI开源-张建图神经网络和DGL的实际应用

38次阅读

共计 3088 个字符,预计需要花费 8 分钟才能阅读完成。

6 月 26 日,亚马逊云科技 Community Day在上海举办。亚马逊云科技首席开发者布道师、资深数据科学家、资深利用科学家以及亚马逊云科技 Machine Learning Hero 悉数到场,针对 AI 开源的技术趋势及落地实际我的项目进行分享和探讨。

第一期:大咖眼中的 AI 开源|王宇博:四位一体,构建开源机器学习生态系统

第二期:大咖眼中的 AI 开源|王麻利:深图在人工智能中的摸索和钻研

第三期:大咖眼中的 AI 开源 | 吴磊:大规模机器学习在计算广告中的利用与落地

本期,咱们为大家带来了 亚马逊云科技资深数据科学家张建 对于图神经网络和 DGL 的理论利用的精彩分享。

📢 想要理解更多亚马逊云科技最新技术公布和实际翻新,敬请关注 2021 亚马逊云科技中国峰会!点击图片报名吧~

作为亚马逊云科技资深数据科学家,张建博士的一项重要工作是在理论的客户场景中,应用图神经网络和 DGL 作为工具来帮忙客户解决外围业务问题、晋升业务价值。在本次分享中,他 从数据、模型、速度、解释四个方面介绍了在图神经网络和 DGL 在落地我的项目中的遇到的挑战和对此的思考。

你的图蕴含足够的信息吗?

在学术圈中,很多学者会用凋谢的数据去做模型的构建及算法的加强。在图神经网络钻研畛域 最罕用的数据集是 Cora、Citeseer 和 PubMed。这些图通常连接性强,同类别的节点汇集在一起。应用这些图去做模型构建,往往图神经网络的后果体现良好。而理论业务场景中,受限于收集数据的伎俩、存储数据的形式以及解决数据的能力,构建出的图数据有时会十分稠密,导致投入很多精力和工夫进行模型调优,但成果却不现实。如果客户提供的图连接性太低,使得不论用任何的图神经网络模型,它们最终都进化成了一个常见的 MLP。另外,客户提供的业务图还常呈现标签数据特地少的状况,上亿个点的图中,只有十几万个节点有标签,仅有 0.01% 的标签数据。这导致很难通过一个带标签的点找到其余带标签的点构建分割,从而大大降低了图神经网络的有效性。

数据科学家圈有这样一句话:数据特色决定了模型性能的下限,模型只是去有限趋近这个天花板。在模型上再花力量还不如在数据上再想方法。既然说图的信息决定下限?那么什么是图的信息呢?如何掂量“信息”?信息值能领导 GNN 吗?还要不要搞图?这些问题往往是机器学习实践者甚至开发工程师们所要解决的。张建把这些问题提出来,心愿大家集思广益去解决它。

什么状况下 GNN 模型更有劣势?

“我晓得你们的图神经网络有各种各样的模型,你看看咱们的图用什么模型适合?”工业界的客户已经这样问张建博士。而这个问题很难答复。首先,模型的设计空间远远大于选择项,其次,不同的业务场景对应不同的业务需要,业务场景外面的模型设计或者模型抉择如何针对具体业务,并不容易判断,另外,DGL 的外围开发模式是消息传递(MP),在图类畛域,而有些问题曾经能够不必 MP 来实现。咱们还看到,在图机器学习畛域,至今还未能呈现相似 NLP 畛域里的 GPT 这样的模型,可能疾速解决大部分问题。

张建说,最扎心的还远不止这些,而是客户间接质疑:“张博士,你看咱们的 XGBoost 等模型比这个 GNN 成果好啊!”已经有个金融界的客户,用金融行业的常识图谱获取客户间各种各样的关系之后,间接用 LightGBM,在联合一千多维的特色后,间接秒杀图神经网络模型。尽管后续通过一些技术,图神经网络模型超过了这个客户的 LightGBM 模型,但也留下了很多的思考空间。比方,那么图神经网络模型比传统的机器学习模型好在哪儿?什么状况下更好?

张建认为,传统的机器学习模型绝大多数基于特色,而在事实的业务场景里,并不是每一个点或者每一个特色都能拿到,尤其随着隐衷爱护条例的加强,大数据监管越来越严格,收集数据也越来越难。但对于图神经网络模型来说,只管没有特色,仍旧可能建设起关联关系,这就是图神经网络模型的劣势。

图神经网络模型和传统的机器学习模型,并不是非此即彼的关系,须要依据业务场景和业务问题来决定如何抉择,甚至能够组合起来解决问题。不同 GNN 模型的适用性是什么?点 / 边的特色怎么用?是不是肯定要用 GNN?如何组合 GNN 和其余模型?张建将这些问题留给大家去思考。

图模型能做实时推断?

在模型有了成果后,是否能上线进行实时推断又成了客户常常询问的问题?这个问题波及两个层面。在图构造外面存在着数据之间的关联性 。因而和传统的 CV 和 NLP 相比,数据点不是独立同散布的。 在做图数据推断时,有两种模式,别离是 Transductive 模式和 Inductive 模式。Transductive 模式下,在训练阶段,要被预测的节点 / 边曾经存在于图中,训练的节点能够“看到”这些节点 / 边,这个模式的问题在于,当须要做预测的时候这些点必须曾经存在,图曾经构建进去了,简直没有方法做到实时。因为要想做到实时,模型必须要去应答将来的点。在 Inductive 模式下,须要预测的节点在训练阶段并不在图中,是看不见的,只有做推断时候,再去使用到一张图上,能力看到这个点。用 Inductive 模式做看不见点的推断,会有两种状况。第一种是做批次预测,比方进行反欺诈,用过来七天的数据构建出一个图数据训练模型,在对今天产生的用户行为做检测时,须要把今天的数据和前七天的数据组合起来做成一张图,而后用训练好的模型进行推断。这就是批次推断,它并非实时推断。真正要做到实时推断,须要实时将须要预测节点 / 边退出曾经存在的图,并抽取出以它 N 跳子图交给训练好的模型用于推断。

据张建介绍,不光是图社区,整个机器学习社区,包含大数据社区,都还没有为图设计出实时 (比方流式) 的图数据的存储、抽取、查问的办法。目前已有的图数据库往往在进行增和查的时候还不够快,特地是把一个点 / 边作为中心点 / 边进行采样的时候,图数据库的采样的速度还跟不上须要实时推断的速度。对于实时推断的零碎架构,业界也临时没有特地成熟的办法,这是目前须要解决的问题,对于开发者来说,也是个十分大的机会点。

图模型后果怎么解释?

模型上线之后,面临的一个问题是怎么去解释模型的后果?这个问题在学术圈能够看到一些钻研后果,但在工业界却很少能看到这类探讨。

比方,利用图模型失去一个节点的预测后,业务人员问为什么?通知他因为跟它相邻的“街坊”对它的影响最大,业务人员必定没方法承受。

另外,图神经网络模型,尽管能够通过图构造去辨认一些模式,然而其中的点都是带有特色的,这个特色最初是一些实数,通过一系列线性变换和非线性变动后,它们间的关系曾经大大超出人类对于因果的认知。如何对图模型的后果进行解释?对于开发者而言任重而道远。

图神经网络的落地面临多方面的挑战,张建说,这些挑战就像是撑持一个登月火箭。数据相当于燃料,模型相当于发动机,所有数据管道和施行架构的问题是整体的火箭设计,而模型的解释,就像须要一个飞控核心。只有把这四个层面的问题都解决好,火箭能力真正飞向月球。

写在最初

多年来,亚马逊云科技在人工智能畛域积攒了泛滥我的项目及实践经验,并始终致力于与寰球开发者共创,心愿为人工智能畛域带来新的生机。2021 亚马逊云科技中国峰会上海站已完满闭幕,大会以“构建新格局,重塑云时代”为题,携手云计算行业当先的技术践行者,独特分享云时代重塑和构建的故事。同时,上海站也只是本次峰会的先锋官,亚马逊云科技中国峰会还将于 9 月 9 日 - 9 月 14 日在线上与大家见面!

该峰会笼罩一百多个技术专场,设有人工智能畛域技术分论坛,为您带来干货满满、精彩一直的内容。此外,还将携手开源社区及技术大咖在线观点碰撞,开释生机!

👇 点击下方图片报名

点击 ” 浏览原文 ”,理解 DGL

正文完
 0