关于人工智能:首提跨模态代码匹配算法腾讯安全科恩实验室论文入选国际AI顶会NeurIPS2020

人工智能畛域顶级学术会议NeurIPS 2020（Neural Information Processing Systems）将于12月7日-12日在线上举办。在近日NeurIPS正式公布的论文入选名单中，腾讯平安科恩实验室聚焦利用AI算法解决二进制平安问题的《CodeCMR: Cross-Modal Retrieval For Function-Level Binary Source Code Matching》，凭借首次提出基于AI的二进制代码/源代码端到端匹配算法的翻新钻研胜利入选，揭示了“AI+平安”畛域的又一冲破摸索。

作为国内机器学习和计算神经科学畛域公认最具影响力的顶级会议之一，NeurIPS会集了时下人工智能和天然神经信息处理等畛域最前沿的科研成果，被中国计算机学会 (CCF)举荐为A类Top会议，每年都能吸引来自全世界AI畛域的研究者参会和进行前沿成绩分享。

新一代信息技术的“爆发式”遍及利用，在造就更为广大数字空间幅员的根底上，也带来了更为瞬息万变的网络威逼态势。AI技术以其在数据分析、常识提取、智能决策等方面的独有劣势，已成为近年来网络安全寻求翻新冲破的重要摸索方向。据Gartner预测，到2020年，人工智能在网络安全畛域利用比例将由10%回升为40%。

平安零碎的部署、响应的效率及准确性间接关乎其防护的有效性，而从计算机系统的最根底层上看，程序员编写的源代码程序向计算机能辨认的二进制语言的转化与执行，则是影响零碎效率的要害。为更好地晋升平安部署的效率和准确率，腾讯平安科恩实验室就在本次入选NeurIPS-2020的论文中，聚焦二进制代码-源代码的穿插畛域，首次提出了一种基于AI的二进制代码/源代码端到端算法模型：CodeCMR框架，以解决传统算法匹配准确率不高的问题，并为平安钻研人员致力寻找源代码的逆向剖析提供新思路。

与传统算法仅提取字符串、立刻数特色进行匹配的做法不同，论文提及的CodeCMR模型可能实现对代码间暗藏语义特色的主动提取，从而达到晋升二进制代码-源代码跨模态检索匹配效率的目标。CodeCMR框架可能以不同模型对源代码特色和二进制代码特色两大模块的语义、字符串、立刻数等三大输出特色进行向量计算，并以在根底上用拼接+BatchNorm形式最终实现高效匹配转化。其中，在语义特色辨认中，端到端的GNN模型体现出更强的健壮性，对于破解传统算法高专家教训的痛点起到关键作用。与此同时，在两大模块的向量采样阶段，Norm weighted sampling 与随机采样和distance weighted采样办法相比也体现出了更好的匹配成果。这种交融训练的办法对于大幅晋升二进制代码/源代码的匹配准确率摸索，晋升工业部署效率具备极大推动作用。

（CodeCMR整体框架）

本次论文入选是腾讯平安科恩实验室继以利用图神经网络解决二进制程序函数相似性剖析问题的研究成果入选AAAI 2020后，致力摸索二进制平安钻研的又一全新成绩，也是其致力布局人工智能畛域平安钻研和"AI+平安"穿插场景利用的全新实际。目前，论文成绩已在腾讯平安科恩实验室研发的代码检索工具BinaryAI实现了落地利用。

作为腾讯团体云与智慧产业事业群旗下一支国内一流的信息安全团队，腾讯平安科恩实验室自2018年就开始深刻到人工智能畛域的平安钻研中，先后针对特斯拉搭载零碎Autopilot高级辅助驾驶问题和AI算法与传统平安钻研联合摸索，别离挖掘出了业内首个实现反抗商用主动驾驶零碎图像识别性能的钻研案例和联结腾讯公司高校合作项目“CCF-腾讯犀牛鸟基金”公布了《深度学习在软件平安畛域的利用钻研》的研究课题，为促成平安与AI的深度利用提供了重要突破口。

在云计算、大数据及人工智能等技术发展趋势下，以机器学习为次要算法的AI技术显然将成为应答新平安威逼的重要伎俩。将来，腾讯平安科恩实验室将持续以本身的技术能力积淀和贯通汽车、智能利用、IoT等多行业的平安实际，从瞄准理论痛点的视角，为深处数字化倒退要害节点的全产业输送更多前沿技术成绩和解决方案。