随着人工智能的一直倒退,平安及合规问题变得越来越重要。以后机器学习比拟大的一个局限性在于其学习模型都是基于关联框架,这种框架存在样本抉择偏差的问题,且其稳定性也较差。而因果推理模型的呈现,给机器学习关上了一个新的思路。美团技术团队特地邀请到清华大学计算机学院长聘副教授崔鹏老师,请他为美团技术团队的同学分享了因果推断技术最新的发展趋势,以及现阶段获得的一些成绩。
| 分享嘉宾:崔鹏,清华大学计算机系长聘副教授,博士生导师
| 钻研趣味聚焦于大数据驱动的因果推理和稳固预测、大规模网络表征学习等。在数据挖掘及人工智能畛域顶级国内会议发表论文 100 余篇,先后 5 次取得顶级国内会议或期刊论文奖,并先后两次入选数据挖掘畛域顶级国内会议 KDD 最佳论文专刊。负责 IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD 等国内顶级期刊编委。曾取得国家自然科学二等奖、教育部自然科学一等奖、电子学会自然科学一等奖、北京市科技进步一等奖、中国计算机学会青年科学家奖、国内计算机协会(ACM)卓越科学家。
背景
预计将来十到二十年内,人工智能会在很多危险敏感性的畛域失去更加宽泛的利用,包含医疗、司法、生产、金融科技等等。之前,人工智能大部分是利用在互联网之上,而互联网是一个危险不敏感的畛域,不过随着这两年各种法律法规的出台,让各大互联网平台处在了「风口浪尖」,越来越多的人开始看到互联网中各种潜在的危险,并且还面临着被宏观政策调控的危险。因而,从这个层面上来讲,人工智能技术所带来的危险亟待被关注。
对人工智能危险的防控,堪称「只知其然,不知其所以然」。大家晓得怎么去做预测,但很难去答复「Why」,比方为什么要做这样的决策?什么时候能够置信零碎的判断?很多问题的模型咱们都无奈给出一个绝对精确的答案。这样的话,就会带来一系列的问题。首先是不可解释性,这也导致了「人机协同」模式很难在事实世界中落地,比方人工智能技术很难利用于医疗行业,因为医生不晓得零碎判断的根据是什么,所以目前人工智能技术在落地时有很大的局限性。第二,以后支流的人工智能办法基于独立同散布的假如,这要求模型的训练集数据和测试集数据来自同一散布,而在理论利用中,很难保障模型会被利用于什么样的数据中,因为模型最终的性能取决于训练集和测试集散布的拟合度有多高。第三,人工智能技术在利用于社会性问题时会引入公平性危险,比方在美国,支出、教育等背景完全一致的两个人,零碎判断黑人的犯罪率可能是白人的十倍。最初是不可回溯性,无奈通过调整输出来获取想要的输入,因为推理和预测的过程是不可回溯的。
而呈现以上问题的次要本源在于:以后人工智能是基于关联的框架。在基于关联的框架下,能够得出支出 - 犯罪率和肤色 - 犯罪率都是强关联关系。而在基于因果的框架下,当咱们须要判断某个变量 T 对输入 Y 是否有因果成果时,不是间接度量 T 和 Y 的关联关系,而是在管制住 X 的状况上来看 T 和 Y 之间的关联关系。比方,在两组对照组中 X(收入水平)是散布是一样的(要么都有钱,要么都没钱),而后再通过调整 T(肤色)去察看两组的 Y(犯罪率)是否会有显著的差别,而后咱们会发现黑人和白人的犯罪率并没有显著性的差别。那么,为什么在基于关联的框架中会得出肤色与犯罪率是强关联关系呢?这是因为大部分黑人的支出都比拟低,从而导致整体的犯罪率偏高,但这并不是由肤色导致的。
究其基本,问题并不是出在关联模型上,而是出在如何应用机器学习的形式上。总的来说,产生关联一共有三种形式,第一种是因果机制,因果关系是稳固、可解释且可回溯的。第二种是混同效应,如果 X 同时导致了 T 和 Y,T 和 Y 之间就会产生虚伪关联。第三种是样本抉择偏差。比方在狗和草地的案例中,当更换了沙滩环境之后,模型无奈辨认出狗,这是因为咱们抉择了大量草地环境下的狗作为样本,所以模型会认为狗和草地之间存在关联关系,这也是一种虚伪关联。
在以上三种形式中,除了因果关系产生的关联关系是靠谱的,其余两种形式产生的关联都不太靠谱。但目前的机器学习畛域并没有辨别这三种产生关联的形式,其中存在着很多的虚伪关联,这就导致了模型的可解释性、稳定性、公平性、可回溯性都存在肯定的问题。如果想要从根本上冲破以后机器学习的局限性,就须要用一种更严格的统计逻辑,比方应用因果统计去代替原来的关联统计。
把因果推理利用到机器学习层面面临着很多挑战,因为因果推理本来钻研的范畴次要是在统计畛域(包含哲学领域),这些畛域所面向的环境都是小数据的管制环境,整个数据的产生过程是可控的。比方一个检测疫苗是否无效的行为学试验,咱们能够管制哪些人打疫苗,哪些人不打疫苗。然而在机器学习中,数据的产生过程是不可控的。在一个大数据的观测钻研中,咱们须要思考大数据的高维、高噪声、弱先验性等因素,数据的产生过程是不可知的,这些对传统的因果推理框架都带来了十分大的挑战。另外,因果推理和机器学习的指标也存在很大的区别:因果推理须要去了解数据的产生机制,而机器学习(包含在互联网畛域的很多的利用)次要是去预知将来到底会产生什么样的变动。
那么,怎么去弥合因果推理和机器学习之间的鸿沟呢?咱们提出了一个因果启发的学习推理和决策评估的一套办法体系。第一个要解决问题的是如何在大规模数据中辨认出其中的因果构造。第二个要解决的问题是在有了因果构造后怎么去和机器学习做交融,当初的因果启发的稳固学习模型、偏心无偏见的学习模型都是以此为指标。第三个要解决的问题是从预测问题进一步到设计决策机制,怎么利用这些因果构造去帮忙咱们做决策上的优化,也就是反事实推理和决策优化机制。
因果推理的两个根本范式
构造因果模型
因果推理有两个根本范式。第一种范式是构造因果模型(Structure Causal Model),这个框架的外围是怎么在一个已知的因果图中去做推理。比方怎么去辨认其中的任意一个变量,这个变量对另一个变量的影响水平是多少。目前已有较为成熟的判断准则如后门准则(Back Door)、前门准则(Front Door)等去除其中的混同,通过 Do-Calculus 形式进行因果预计(Causal Estimation)。目前这种办法面对的外围问题是咱们无奈在做观测钻研时定义因果图,尽管在一些畛域(比方考古)能够通过专家常识来定义因果图,但这就又走到了“专家系统”的老路上。总的来说,外围问题还是怎么去发现因果构造。
这里有一个衍生技术是因果发现(Causal Discovery),能够基于条件独立性检测和现有的数据去定义因果图,应用现有的变量去频繁地做条件独立性等一系列的独立性判断来定义因果图,这是一个 NP 问题,可能会呈现组合爆炸的问题。这是构造因果模型利用于大规模数据时所面临的一个瓶颈,最近也有一些钻研比方应用可微分因果发现去解决这个问题。
潜在后果框架
第二种范式是潜在后果框架(Potential Outcome Framework),这个框架的外围是不须要晓得所有变量的因果构造,而只须要晓得其中一个变量对于输入是否有因果影响,对于其余变量之间的影响不在意,但咱们须要晓得这个变量和输入之间有哪些烦扰因素(Confounders),并假如其中所有的烦扰因素都曾经被观测到。
以上就是一些背景常识和实践方面的介绍。接下来,次要讲一下咱们最近的一些思考和尝试,以及如何把这两个范式联合到具体的问题中去。
可微分因果发现以及在举荐零碎中的利用
因果发现和问题定义
因果发现的定义是对于给定的一组样本,其中每个样本都由一些变量去表征,咱们心愿通过一些可观测数据去找到这些变量之间的因果构造。找到的因果图,能够认为是一个图模型,从生成式模型的角度来讲,咱们心愿找到一个因果图使得它可能依照其中的因果构造去生成这样的一组样本,这组样本的似然性是最高的。
这里引入一个叫做 Functional Causal Model(FCMs)的概念,所谓的 FCM 就是,对于某一类变量 X,因为因果图是一个有向无环图(DAG),这个变量肯定有它的父节点,那它的值肯定是由它所有的父节点通过一个函数的作用再加上噪声来生成的。比方在线性框架下,这个问题就变成:怎么找到一组 W,使得 X 的重构是最优的。
有向无环图的优化始终是一个开放性问题,2018 年的一篇论文 [1] 提出来了一个优化办法:能够在全空间的有向无环图内去做梯度优化,通过减少 DAG 限度和稠密限度(l1 或 l2 正则),使得最终 X 的重构误差最小。
咱们在具体实施这个框架时发现了一些问题,这个框架的根本假如是所有变量的噪声必须是高斯分布,且噪声的规模应该差不多,如果不满足这个假如就会呈现一些问题,比方说领有最小重构误差的构造可能并不是实在值(Ground Truth),这是可微分因果发现办法的一个局限性。咱们能够通过施加一个独立性限度去解决这个问题,把独立性判断准则转化为可优化的模式去进行优化。具体的实现细节在这里不再赘述,感兴趣的同学能够浏览论文[2]。
可微分因果发现在举荐零碎中的利用
整个举荐零碎存在 I.I.D(Independent and Identically Distributed, 独立同散布)的假如,也就是说用户和物品的训练集、测试集须要来自同一个散布,但实际上举荐零碎中存在各种各样的 OOD(Out Of Distribution,散布外)问题。第一种是天然偏移(Natural Shift),比方基于北京、上海的数据训练失去的模型,在面向重庆的用户时就不肯定无效。第二种是由举荐零碎机制引起的非天然偏移(Artificial Shift)。
咱们心愿能提出一种比拟通用的形式,去抵制举荐零碎中存在的各种 OOD 问题或者偏差问题的举荐算法。针对这个问题,咱们也做了一些钻研工作[3]。在 OOD 举荐零碎中存在一个不变性假如——一个人看到了一个商品后是否购买是不会随着环境变动而扭转的。因而只有保障用户对物品的偏好不变,就能够使得这样的不变性假如成立,从而给出比拟正当的举荐后果,这是解决 OOD 问题的外围。
如何保障用户偏好是不变的?有一个根本共识是,不变性和因果关系是存在某种等价性的转化关系的。如果能够保障一个构造在各种各样的环境下都具备等同的预测效应,那么这个构造肯定是一个因果构造,而且一个因果构造在各种环境下的性能都是绝对稳固的。因而,找到不变的用户偏好,就转化为一个因果偏好学习的问题。在举荐零碎中有一个非凡的构造叫做二部图,咱们须要基于这样的非凡构造去设计因果发现的办法。在这个最终学到的模型中,只须要输出用户的表征,就能够晓得这个用户会喜爱什么样的物品。
很显然,这种办法对于晋升举荐零碎的可解释性、透明性以及稳定性都会肯定的益处,咱们也和很多的办法进行了比照,能够看到,它都有比拟显著的性能晋升。
对于 OOD 泛化和稳固学习的一些思考
OOD 问题是机器学习中一个十分根本的问题,之前做的基本上都是基于 I.I.D. 的假如,尽管迁徙学习做了自适应,但因为迁徙学习假如测试集是已知的,所以它的主体还是 I.I.D. 的实践框架。咱们从 2018 年开始在 OOD 这个方向做了一些钻研,首先,OOD 的定义是训练集和测试集不是来自同一个散布,如果训练集和测试集来自同一个散布那么就是 I.I.D.。OOD 又可分为两种状况,如果测试集的散布是已知或局部已知的,就是 OOD Adaptation,也就是迁徙学习 / 畛域自适应。如果测试集的散布未知,才是真正的 OOD 泛化问题。
这里的「泛化」和机器学习中的「泛化」概念有所不同。机器学习中的「泛化」更多的是在谈内插问题,训练数据外部的插值问题都是「内插」问题,如果要对超出了插值域的 X 进行预测就是「外插」问题。「外插」是一件比拟危险的事件,在什么状况下能够做「外插」呢?如果可能找到其中的不变性(invariance),就能够做「外插」这件事件。
以前在做机器学习的时候,都是在做 I.I.D. 也就是数据拟合,只须要避免过拟合 / 欠拟合就好了。而当初如果要解决 OOD 问题,就要找到其中的不变性。找到不变性有两个门路,第一个门路是因果推断,因果关系和不变性之间存在等价性,也就是说只有找到了因果构造就能够保障不变性,实际上因果推断自身就是对于不变性的迷信。稳固学习,在某种程度上就是心愿模型在做学习和预测时是基于因果推断的。咱们发现,通过对样本进行重加权就能够使得所有的变量变得独立,使得一个基于关联的模型变成基于因果的模型,大家如果感兴趣的话,能够去看看相干的论文。
第二个门路是从差异性中找到不变性。在统计中有一个概念是异质性,比方说一个狗的散布有两个峰,一个峰是沙滩上的狗,一个峰是草地上的狗,既然这两个峰都代表狗,那么其中肯定存在着不变性,不变的那局部就具备 OOD 泛化能力。数据的异质性是不能被预约义的,咱们心愿通过数据驱动的形式去找到其中隐含的异质性,在隐含的异质性中找到其中的不变性,而这二者的学习是互相促进的。
所谓的稳固学习,就是应用一种散布的训练集和多种不同的未知散布的测试集,优化的指标是最小化准确率的方差。也就是说假如有一个训练散布,它外在具备肯定的异质性,但没有对它的异质性进行人为的划分,在这种状况下咱们心愿学出一个可能在各种未知散布下有较好性能体现的模型。咱们在去年写了一篇对于 OOD 泛化的 Survery[4],对这个问题做了比拟零碎的剖析,感兴趣的同学能够进行参考。
参考文献
- [1] Zheng, Xun, Bryon Aragam,Pradeep K. Ravikumar, and Eric P. Xing. DAGs with NO TEARS: Continuous Optimization for Structure Learning. Advances in Neural Information Processing Systems 31 (2018).
- [2] Yue He, Peng Cui, et al. DARING: Differentiable Causal Discovery with Residual Independence. KDD, 2021.
- [3] Yue He, Zimu Wang, Peng Cui, Hao Zou, Yafeng Zhang, Qiang Cui, Yong Jiang. CausPref: Causal Preference Learning for Out-of-Distribution Recommendation. The WebConf, 2022.
- [4] Zheyan Shen, Jiashuo Liu, Yue He, Xingxuan Zhang, Renzhe Xu, Han Yu, Peng Cui. Towards Out-Of-Distribution Generalization: A Survey. arxiv, 2021.
浏览美团技术团队更多技术文章合集
前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试
| 在公众号菜单栏对话框回复【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。