乐趣区

关于人工智能:厚积薄发华为云7篇论文被AAAI收录2021年AI行业技术风向标看这里

摘要:近期,寰球人工智能畛域的顶级学术会议 AAAI 2021 将于 2 月 2 日 - 9 日在线上召开,华为云的 7 篇 AI 科研成果被收录。

寰球人工智能畛域的顶级学术会议 AAAI 2021 将于 2 月 2 日 - 9 日在线上召开。论文录用结果显示,华为云的 7 篇 AI 科研成果被收录。论文内容波及联邦学习、深度学习、机器学习、自然语言解决、迁徙学习、常识计算等技术畛域,充沛展示了华为云在人工智能畛域的根底钻研实力。技术创新和利用落地是这些论文的亮点,相干技术目前已在油气勘探、药物研发、AI 开发、智能交通等业务场景下规模化落地,减速行业智能降级。

AAAI 每年评审并收录来自寰球最顶尖的人工智能畛域学术论文,代表寰球 AI 技术的趋势和将来。

以下是华为云此次入选 7 篇论文介绍:

论文一:业界独创自分组个性化联邦学习框架,并已落地华为云 ModelArts

论文题目:《非独立同散布下的自分组个性化联邦学习》(Personalized Cross-Silo Federated Learning on Non-IID Data)

论文地址:https://arxiv.org/abs/2007.03797

联邦学习机制以其独有的隐衷爱护机制受到很多领有高质数据的大客户青眼。然而,各大客户的数据分布十分不统一,对模型的需要也不尽相同,这些在很大水平上制约了传统联邦学习办法的性能和利用范畴。华为云自研 FedAMP 联邦学习框架应用独特的自适应分组学习机制(如图一)让领有类似数据分布的客户进行更多单干,并对每个客户的模型进行个性化定制,从而无效解决普遍存在的数据分布不统一问题,并大幅度提高联邦学习性能。通过与中国科学院上海药物所在 AI 药物联邦学习上的单干,FedAMP 优质的性能取得了蒋华良院士的高度认可,并在中国医药翻新与投资大会上吸引了泛滥医疗制药厂商洽谈单干。

图 1 FedAMP 联邦学习框架

论文二:首次提出利用物理信息深度学习的框架将二阶交通实践模型交融到神经网络中,以高效解决交通态的估值的问题:(Physics-Informed Deep Learning for Traffic State Estimation: A Hybrid Paradigm Informed By Second-Order Traffic Models)

交通态的估值须要解决如何应用稠密的传感器(如传感线圈,浮动车)数据将整条路线的交通态(如速度,流量,密度)残缺地预计进去。这对算法的数据效率有着十分高的要求,而传统的纯交通模型和纯机器学习的解决方案的成果均不现实。针对这些问题,本论文提出了基于物理信息深度学习框架,通过对激励函数和连贯权重的非凡设计,将简单的二阶交通模型编码到神经网络中去(图二 -a),让神经网络在高阶交通实践的束缚下进行训练。具体方法是,应用传统神经网络进行交通态的估值,而后将估值进一步输出到物理信息神经网络中去,计算出该估值的实践余量来量化偏移交通实践的水平。这个实践余量为估值网络的训练提供了重要的正则化信息,大大提高了估值模型的训练效率和估值精度。如图(图二 -b)所示,本办法能够基于很少的观测数据取得更高的估值准确度。

本文是华为员工在哥伦比亚大学深造期间实现的工作。

图 2 编码了二阶交通实践模型的物理信息神经网络与交通态估值后果

论文三:应用图卷积网络拟合权值共享神经构造搜寻的搜寻空间,晋升神经构造搜寻鲁棒性。(Fitting the Search Space of Weight-sharing NAS with Graph Convolutional Networks)

论文地址:https://arxiv.org/pdf/2004.08…

权值共享的神经构造搜寻通过训练一个蕴含所有分支的超网络来复用不同操作上的计算量,以子网络采样的形式评估网络结构,大幅度提高了搜寻速度。然而,这种子网络采样的形式并不能保障子网络的评估性能精确反映其实在属性。本文认为产生这一景象的起因是应用共享权值构建子网络的过程中产生了权值失配,使得评估性能中混入了一个随机噪声项。本论文提出应用一个图卷积网络来拟合采样子网络的评估性能,从而将这个随机噪声的影响降至最低。试验结果表明,应用本计划后,子网络的拟合性能与真实性能间的排序相关性失去无效进步,最终搜寻失去的网络结构性能也更加优异。此外,本计划通过图卷积网络拟合了整个搜寻空间中子网络的评估性能,因而能够很不便地选取合乎不同硬件束缚的网络结构。

图 3 总体框架示意图

论文四:首次提出基于多轮浏览了解的框架解决实体链接问题

实体链接是将文本中提到的实体链接到知识库中对应实体的工作,目标是解决实体存在的歧义性问题,但因为名称的变动和实体的模糊性,此工作非常具备挑战性,尤其是短文本的实体链接,因为句子长度短,在链接过程中,每个待消歧的实体能利用的上下文信息十分无限。针对这个工作,本论文提出了一个多项抉择浏览了解的框架,为句子中每个待消歧的实体别离生成一个问题,并将知识库中的候选实体转换成候选答案集,通过这样一个设计,实体链接转换为了一个浏览了解的问题(图 1 Local 局部)。在抉择正确答案的过程中,待消歧实体的上下文信息与知识库中的候选实体之间取得了充沛的交互,同时多个候选实体间的区别也失去了潜在地思考。为了进一步捕获句子内待消歧实体间的主题一致性来进步链接的准确率,本文采纳了多轮浏览了解的形式以序列去解决多个待消歧的实体(图 1 Global 局部),为句子内多个实体的消歧提供了更丰盛的信息。另外,为了解决短文本中常见的不可链接问题(即知识库中没有对应的实体),本文额定设计了一个两阶段的验证机制来判断实体是否可被链接。本论文提出的办法在多个中英文数据集上均获得了目前最优的实体链接成果。

图 4 基于多轮浏览了解的实体链接框架

论文五:首次提出基于多尺度地质常识迁徙的跨区块油气储集层分类算法,利用迁徙学习晋升跨区块油气储集层分类成果。(Cross-Oilfield Reservoir Classification via Multi-Scale Sensor Knowledge Transfer)

油气储集层分类是油气勘探中的一个关键步骤(如图一所示),主动精确的油气储集层分类办法不仅能够升高油气行业专家的工作累赘,也能够帮忙油气勘探公司做出最优的开采决策。以后已有的油气储集层分类次要关注在繁多区块上的分类成果,然而在新区块上利用成果却不尽如人意。因而,如何迁徙地层特色从而实现跨区块也能精确分类是一个富裕挑战的工作。本论文首次提出了一种多尺度传感器抽取办法从多元测井记录中抽取地质特色的多尺度示意,而后设计了一种 encoder-decoder 模块来充分利用指标和源区块的特有特色,最初通过一个常识迁徙模块来学习特色不变性示意,从而将地质常识从源区块迁徙到目标区块。实在油气数据上的试验结果表明本论文精心设计的迁徙学习办法,能够晋升分类模型在新区块上的分类体现,相较于基线算法能够有 %6.1 的成果晋升。

图 5 油气勘探工作流

论文六:首次提供基于超几何散布的概率模型,用于解决近程监督命名实体辨认中的去噪问题。(Denoising Distantly Supervised Named Entity Recognition via

a Hypergeometric Probabilistic Model)

近程监督是一种常见的机器学习范式,能够升高对标注数据的依赖。然而近程监督往往会引入噪声,从而影响学习效果。对于基于近程监督的命名实体辨认(NER)来说,如何无效去噪就是一个非常重要的问题。以往的去噪办法次要基于实例档次的统计后果,往往疏忽了不同数据集不同实体类型之间噪声散布的差异性,从而导致这些办法何难实用于高噪声比例的设定。本论文提出了一种基于超几何散布的学习办法,同时思考噪声散布和实例档次的置信度。具体而言,咱们将每个训练 batch 外面噪声样本的数量建模成一个由噪声比例决定的超几何散布,这样一来每个实例都能够通过上一轮训练取得的置信度来决定是噪声还是正确样本。试验结果表明本论文提出的办法能够无效去除近程监督范式引入的噪声,显著晋升 NER 的成果。

该工作由华为云团队与中科院软件所单干实现。

论文七:提出基于反抗学习与相似性加强的域泛化训练新框架,在域泛化行人再辨认畛域创下新纪录 (Dual Distribution Alignment Network for Generalizable Person Re-Identification)

域泛化是一种实用于事实利用场景的机器学习范式,对于行人再辨认问题,域泛化是指在大规模多源数据上进行模型训练,冀望模型在任意未知的场景中都可能间接实用。事实利用中,大规模训练数据往往难以收集,域泛化办法正是一个使得模型可能低成本疾速部署的优良计划。以往的办法对域间的微小差别不足无效的解决伎俩,同时疏忽了域间样本可能的相似性信息。在数据域层面,本论文提出了新的反抗学习办法,通过缩小核心域与外围域的差别,实现了域间差别的无效打消;在样本层面,本论文通过加强来自不同域的类似样本之间的相似性,进一步对齐来自不同域的样本特色散布。在这两个方面的独特作用下,本论文的双重散布对齐网络实现了新的性能冲破。试验表明,所提办法在公共测试基准数据集上获得了以后最好的后果。

该工作由华为云团队与厦门大学单干实现。

图 7 针对域泛化行人再辨认问题的双重散布对齐网络示意图

为了更好地赋能产业降级,华为云继续深耕 AI 根底钻研和落地利用,打造更懂世界的 AI。2020 年以来,华为云 EI 钻研团队已在图像分类、弱标注场景下的图像分类、图像检测,多模态数据处理、语音语义等畛域获得多项世界第一。将来,华为云将继续把 AI 前沿算法产品化,并凋谢给各行业的 AI 开发者应用,通过技术创新驱动产业智能降级。

点击关注,第一工夫理解华为云陈腐技术~

退出移动版