关于人工智能:NeurIPS-2021-一文洞悉因果机器学习前沿进展

36次阅读

共计 10011 个字符,预计需要花费 26 分钟才能阅读完成。

(转载自微软研究院 AI 头条)

编者按:近年来,因果机器学习在人工智能和诸多穿插畛域产生了卓越的影响,失去了越来越多的关注。借助因果关系推理,机器学习的鲁棒性、泛化能力、可解释性等方面都将失去无效晋升。明天咱们精选了三篇微软亚洲研究院对于因果机器学习的 NeurIPS 2021 论文,为大家介绍该畛域的最新科研停顿。论文内容涵盖:在单源域泛化预测、多源域泛化预测,以及模拟学习三类工作中学习因果关系的办法和实践,并展现了利用因果关系进步模型在环境和散布发生变化时的稳健性。将来,微软亚洲研究院将进一步推动机器学习办法在更多更严苛的事实工作上的利用。

近年来,随着机器学习模型性能的一直进步,人们逐步不再满足于它们在规范数据集上的体现,而是还心愿它们能在实在的利用场景中同样具备稳固牢靠的体现。但实现此目标的一个重要挑战是,实在场景中的环境状况通常与洁净的规范训练数据集不同,会有数据分布的变动从而会遇到散布外样例,而模型不肯定会在新环境中给出正当的后果。

这为机器学习模型带来了新的要求,即 模型须要学到做出预测或判断的实质起因和法则,而非依赖于外表“看上去”的关联关系,因为后者可能只是在特定环境下的表象,只有前者决定着环境变动之后的法则,可对散布外样例给出正当的后果。这便引出了因果机器学习这一新的钻研方向。在 NeurIPS 2021 上,微软亚洲研究院的研究员们发表了一系列因果机器学习畛域的研究成果。

学习用于散布外预测的因果语义示意

  • 论文链接:
    https://arxiv.org/pdf/2011.01681
  • 代码链接:
    https://github.com/changliu00…

人们曾经发现规范的有监督学习办法,特地是深度学习办法对散布外样例的预测体现欠佳。例如图 1 中的例子[Ribeiro’16],若训练集中大部分“哈士奇”的图片都是暗背景而大部分“狼”的图片都是雪地背景,那对于处在雪地中的“哈士奇”的测试样例,模型会预测为“狼”。若对模型进行可视化可发现模型更关注于背景,因为在这样的数据集上,背景与前景物体具备很强的关联性,并且背景是一个比前景物体更有区分度的特色,但只有前景物体决定图片的标注。


(图 1:散布外预测工作的挑战)

所以,微软亚洲研究院的研究员们心愿模型可能学到相似于前景物体这样的特色进行预测。此指标可在因果关系实践下进行正式的形容。该实践是通过零碎在干涉(intervention)下的体现来定义因果关系的,即若通过干涉扭转变量 A 的值会扭转变量 B 的值而干涉 B 不会扭转 A,那 A 就是 B 的因(cause),B 就是 A 的果(effect),记为 A→B。例如,海拔更高的城市的平均气温通常都比拟低,但单从这样的“海拔 - 气温”成对(pair)数据中并不能晓得谁是因谁是果。人们晓得海拔是气温的因,是因为若用一个大型举重机把一个城市举起,升高它的海拔,那它的气温会降落,而若用一个微小的加热器升高城市的温度,那这个城市并不会主动下沉。同理,若强行扭转一张图 x 的背景而维持前景物体不变,那这张图的标注 y 不应扭转,而扭转前景物体却会扭转 y。所以研究员们心愿模型学到的是 标注 y 的因,称为“语义因子”(semantic factor)s,如前景物体,而相区别的是“多变因子”(variation factor)v,如图片背景。只有将 s 辨认进去能力做好散布外预测(out-of-distribution prediction)。

基于这个因果角度的思考,研究员们提出了 “因果语义生成模型”(Causal Semantic Generative model, CSG),如图 2(a) 所示(留神基于后面的思考,图中去掉了 v→y)。此外,依据下面的例子,s 和 v 在特定环境中常会相干,例如“哈士奇”/“狼”常与暗背景 / 雪地背景一起呈现,但此相关性并非因为两者间有因果关系,比方把“哈士奇”放到雪地中不会让它变成“狼”,也不会把背景变暗。因而研究员们应用了一个无向边来连贯它们。这不同于大部分已有工作,那些工作认为各隐因子间都是独立的。

(图 2:因果语义生成模型 (a) 及其用于测试域的变种(b,c))

因果不变性与散布外预测

这个体现因果性质的模型可帮忙做好散布外预测。其出发点是“因果不变性 ”(causal invariance),即因果关系不会随环境或畛域(domain)变动。这是因为因果关系反映的是根本的自然规律,例如一个场景下的物体和背景通过相机成像为图片的过程,即 p(x│s,v),以及从物体的本质特征给出标注的过程,即 p(y│s)。畛域变动则源于先验散布 p(s,v) 的变动,例如训练环境下的 p(s,v) 会给(“哈士奇”, 暗背景) 以及(“狼”, 雪地背景)较大的值,而测试环境则相同。

作为比照,以后支流的畛域自适应和畛域泛化办法会在不同畛域上应用同一个编码器来推断隐因子。这其实蕴含着“推断不变性 ”(inference invariance)。研究员们认为, 推断不变性是因果不变性的特例 。在反对推断不变性的例子中,比方从图片中推断物体地位,具备因果性的生成机制 p(x│s,v) 简直是确定性的且可逆的,意味着只有一个“物体地位”的值(s 的一个重量)能力让 p(x│s,v) 对于给定的 x 非零。因为 p(x│s,v) 具备因果不变性,所以这种推断形式便也具备不变性。但当 p(x│s,v) 有噪或进化时,仅根据 p(x│s,v) 做推断是任意的,例如图 3 左图中的数字可能是由“5”也可能是由“3”产生的,而右图中,凑近咱们的不论是 A 还是 B 面都会失去同样的图。这种状况下,由贝叶斯公式 p(s,v│x)∝p(s,v)p(x│s,v) 给出的推断后果便会显著受到先验的影响。而先验是会随环境变动的(对可能的推断后果的偏好因人而异),所以 推断不变性不再成立,而因果不变性却依然牢靠

(图 3:当生成机制 p(x│s,v) 有噪(左)或进化(右)时,推断后果具备任意性,因此推断不变性不再牢靠)

基于因果不变性,研究员们给出了在测试域(test domain)上进行预测的准则。本篇论文思考了两种散布外预测工作,称为“散布外泛化 ”(out-of-distribution generalization)以及“ 畛域自适应”(domain adaptation)。两者都只有一个训练域(training domain)(因此散布外泛化不同于畛域泛化;下一篇工作会解决畛域泛化工作),但畛域自适应中有测试域上的无监督数据,而在散布外泛化中则对测试域无所不知。

由因果不变性可知,在测试域上,具备因果性的数据生成机制 p(x│s,v) 和 p(y│s) 依然实用,但先验散布会发生变化。对于散布外泛化则须要思考测试域先验的所有可能性。因而,研究员们提出了实用一个独立的先验散布 p^⊥ (s,v)≔p(s)p(v),其中 p(s) 和 p(v) 都是训练域先验 p(s,v) 的边缘散布。此抉择去掉了 s 和 v 在训练域上的虚伪关联(spurious correlation),并且因为 p^⊥ (s,v) 具备比 p(s,v) 更大的熵,因而减去了独属训练域的信息,从而让模型更依赖于具备因果不变性的生成机制进行预测。这种预测办法被称为 CSG-ind。对于畛域自适应,可利用无监督数据学习测试域的先验 p ̃(s,v) 用于预测,其对应办法称为 CSG-DA。这两个模型示于图 2(b,c)中。值得注意的是,因为 CSG 在测试域上应用了与训练域不同的先验散布,在测试域上失去的预测规定 p(y│x) 会不同于训练域上的,因此此办法与基于推断不变性的办法严格不同。

办法

事实上,无论哪种办法都首先须要很好地拟合训练数据,因为这是所有监督信息的起源。因为 CSG 波及隐变量,难以间接计算数据对数似然 log⁡p(x,y) 用于训练,所以研究员们采纳了变分贝叶斯办法(Variational Bayes)优化一个能够自适应变紧的下界,记为 ELBO(Evidence Lower BOund)。尽管规范做法要引入形如 q(s,v│x,y) 的推断模型(inference model),但它却并不能帮忙进行预测。为此,研究员们思考用一个形如 q(s,v,y│x) 的模型表示所需推断模型 q(s,v│x,y)=q(s,v,y│x)/∫q(s,v,y│x) dsdv。进一步,将它代入 ELBO 中可发现,这个新的 q(s,v,y│x) 模型的指标正是由 CSG 模型所定义的对应散布 p(s,v,y│x),而由 CSG 的图构造,这个散布可分解为 p(s,v,y│x)=p(s,v│x)p(y│s),其中的 p(y│s) 已由 CSG 模型显式给出,只有 p(s,v│x) 是难以计算的项。因而研究员们最终采纳了一个形如 q(s,v│x) 的推断模型以近似这个最小的难算局部 p(s,v│x),代入 ELBO 中即得训练指标。

对于 CSG-ind,它一方面须要针对独立先验 p^⊥ (s,v) 的推断模型 q^⊥ (s,v│x) 用于预测,另一方面也须要训练域上的推断模型 q(s,v│x) 用于训练。为防止应用两个推断模型的麻烦,研究员们发现可用 q^⊥ (s,v│x) 示意 q(s,v│x)。这是因为这两个模型别离以 CSG 所定义的 p(s,v│x) 及 CSG-ind 所定义的 p^⊥ (s,v) 为指标,依据两者的关系,取 q(s,v│x)=(p(s,v) / p^⊥(s,v)) (p^⊥(x) / p(x)) q^⊥(s,v|x),这样当 q^⊥ (s,v│x) 达成指标时,对应的 q(s,v│x) 也达成了指标。将此式代入 ELBO 中失去 CSG-ind 的训练指标为:

其中 π(y│x)≔E_(q^⊥ (s,v│x) ) [p(s,v)/(p^⊥ (s,v) ) p(y│s)]。式子中的冀望可在对 q(s,v│x) 进行重参化(reparameterization)后用蒙特卡罗(Monte Carlo)办法预计。预测由 p^⊥ (y│x)=E_(p^⊥ (s,v|x) ) [p(y│s)]≈E_(q^⊥ (s,v|x) ) [p(y│s)]给出。

对于 CSG-DA,它与 CSG-ind 相似,所以研究员们也用测试域上的推断模型 q ̃(s,v│x) 来示意 q(s,v│x),并相似地写出训练域上的指标函数。CSG-DA 在测试域上还须要通过拟合无监督数据来学习测试域先验 p ̃(s,v),这可由规范的 ELBO 实现:

实践

能够证实的是,CSG 模型在肯定条件下可从单个训练域上辨认出语义因子,并且这种语义可识别性可保障 CSG 在散布外预测上的体现(详细描述请参看论文原文)。研究员们将“CSG 辨认出了语义”定义为,存在一个可从实在(ground-truth)CSG 变换到该 CSG 的重参(reparameterization)满足它不会将实在的 v 混到所学的 s 中去。

定理(单训练域上的语义可识别性):假如 p(x│s,v) 和 p(y│s) 是加性噪声(additive noise)模式 p_噪声 (随机变量 - 函数 (条件变量)),且其中的函数是双射,并且 log⁡p(s,v) 有界。那当噪声方差 σ_μ^2 趋于 0 或者噪声有简直处处非零的特征函数时, 一个学好了的 CSG(即 p(x,y)=p^* (x,y))辨认出了语义

解读:在单训练域上获得识别性很难,所以必定会对它有要求。否则,若训练域中所有“哈士奇”都在暗背景中且所有“狼”都在雪地中,那就算是神仙也不晓得标注标的是前景物体还是背景。定理中 log⁡p(s,v) 有界的条件正是针对这一点,因为在上述情况下 p(s,v) 集中在 (s,v(s)) 曲线上因此密度函数无界。而若此有界条件满足,那当所学 CSG 将实在的 v 混入其 s 中时,实在 s 和 v 间的随机性会对训练集上的预测带来更大的噪声,从而使这个 CSG 不是“学好了的”。这是此定理的直觉。

定理(语义辨认对散布外泛化的保障):一个辨认了语义的 CSG 在无所不知的测试域上的预测误差有界:E_(p ̃^ (x) ) ‖E[y│x]-E ̃^ [y│x]‖_2^2≤Cσ_μ^4 E_(p ̃_(s,v) ) ‖∇ log⁡(p ̃_(s,v)/p_(s,v) ) ‖_2^2(其中 C 是一个特定常数)。

定理中研究员们发现 E_(p ̃_(s,v) ) ‖∇ log⁡(p ̃_(s,v)/p_(s,v) ) ‖_2^2 这一项正是掂量两个畛域上先验散布差异的费舍尔散度(Fisher divergence)D_F (p ̃_(s,v),p_(s,v) ),它在预测误差的意义下掂量了两个畛域的差异水平。另外,更小的费舍尔散度 D_F (p ̃_(s,v),⋅) 须要比 p ̃_(s,v) 有更大撑持集的散布,而 p_(s,v)^⊥ 恰好比 p_(s,v) 有更大的撑持集,这阐明 CSG-ind 比 CSG 有更小的预测误差界

定理(语义辨认对畛域自适应的保障):基于一个辨认了语义的 CSG 的学好了的(即 p ̃(x)=p ̃^ (x))测试域先验 p ̃(s,v) 是实在的测试域先验 p ̃^ (s,v) 的重参,并且基于它给出的预测规定是精确的,即 E ̃[y│x]=E ̃^* [y│x]。

试验

研究员们设计了一个只蕴含数字 0 和 1 的“平移 MNIST”数据集,其中训练数据中的 0 被有噪地向左平移 5 像素,而 1 向右。除了本来的测试集,研究员们也思考将其中的数字用零均值噪声平移。更加实在的工作包含 ImageCLEF-DA,PACS 和 VLCS(附录)。表 1 中的结果表明,对于散布外泛化,CSG 胜过规范监督学习(cross-entropy,CE)及判别式因果办法 CNBB,同时 CSG-ind 也胜过 CSG,表明了应用独立先验用于预测的益处。对于畛域自适应,CSG-DA 也胜过以后风行的办法。图 4 中的可视化分析表明所提办法更关注图片中有语义信息的区域和形态。

(表 1:平移 MNIST(前两行)、ImageCLEF-DA(中四行)和 PACS(后四行)数据集上散布外泛化(左四列)和畛域自适应(右五列)工作上各办法(所提办法加粗)的体现(预测准确度 %))

(图 4:散布外泛化(上两行)及畛域自适应(下两行)工作中各办法的可视化后果(基于 LIME [Ribeiro’16]))

寻找用于变散布泛化的隐式因果因子

  • 论文链接:
    https://arxiv.org/pdf/2011.02203
  • 代码链接:
    https://github.com/wubotong/L…

这篇论文将 CSG 模型推广到了多训练域的状况,即用来解决畛域泛化(domain generalization)工作,并给出了相应的算法和实践。为了建模与畛域标号 d 的关系,此时的先验散布记为 p^d (s,v)。为防止在图模型中以及在算法和实践中暗含给定 d 之后 s 与 v 的独立性,研究员们引入了混同变量(confounder)c。它解释了 s 与 v 之间的虚伪关联(spurious correlation),因为只管 s 和 v 之间没有因果关系,但若疏忽 c,那看上去 s 和 v 就会有相关性:p^d (s,v)=∫p^d (c) p^d (s│c) p^d (v│c) dc。拓展后的模型如图 5 所示,被称为 隐式因果不变模型(Latent Causal Invariant Model,LaCIM)

(图 5:隐式因果不变模型(LaCIM))

LaCIM 的训练方法与 CSG 相似,只是须要对所有训练域上的指标函数求和,并在各训练域上应用各自的先验模型 p^d (s,v) 和推断模型 q^d (s,v│x)。而其预测办法则与 CSG-ind 相似,区别在于推断 (s,v) 不通过一个推断模型,而是间接应用最大后验预计(maximum a posteriori estimate, MAP):p^(d^’) (y│x)=p(y│s(x) ), 其中(s(x),v(x))≔arg⁡max_(s,v)⁡ p(x│s,v) p^⊥ (s,v)^λ .

实践

因为须要建模各散布与畛域标号 d 的关系,实践剖析中须要退出更多的构造。因而,假如 c∈[C]≔{1,…,C},且 p^d (s│c) 和 p^d (v│c) 都属于指数分布族(exponential family),进而定义相应的识别性概念,称为 指数识别性:存在一个可从实在 LaCIM 变换到所学 LaCIM 的重参,且此重参可在容许一个重量置换和整体平移的意义下别离复原出实在 p^d (s│c) 和 p^d (v│c) 的充沛统计量。

定理(多训练域上的指数可识别性):假如 p(x│s,v) 和 p(y│s) 是特定加性噪声模式,且 p^d (s│c) 和 p^d (v│c) 的充沛统计量线性独立。那么当各训练域在特定意义下足够多样时,一个学好了的 LaCIM 就获得了指数识别性。

此定理的论断(获得指数识别性)比单训练域上可识别性定理的论断(获得语义识别性)更强。这体现在,前者不仅要求后者所要求的学到的 s 未混入实在的 v,还要求学到的 v 未混入实在的 s,即要求学到的 s 和 v 是解耦的(disentangled)。之所以能失去更强的论断,是因为多个足够多样的训练域为模型带来了更多的信息,且指数分布族也为模型带来了更具体的构造。另外,此论断也强于 identifiable-VAE [Khemakhem’20] 的论断,因为此论断要求充沛统计量的重量置换不能逾越 s 和 v 的外部。

试验

在试验中,研究员们抉择了一些最新的畛域泛化数据集,包含 NICO 天然图片数据集、黑白 MNIST,以及预测阿尔兹海默症的 ADNI 数据集。表 2 中的结果表明 LaCIM 获得了最好的体现。能够留神到 LaCIM 也比不辨别 s 和 v 的变种 LaCIMz 体现好,阐明了将 s 和 v 别离建模的益处。图 6 中的可视化分析表明,LaCIM 很好地区离开了语义和多样因子,且关注图片中具备语义信息的区域。

(表 2: 畛域泛化的各数据集上各办法的体现(预测准确度 %))


(图 6:畛域泛化工作中各办法的可视化后果)

解决模拟学习中因果混同问题的觉察对象的正则化办法

  • 论文链接:
    https://arxiv.org/pdf/2110.14118
  • 代码链接:
    https://github.com/alinlab/oreo

这一篇因果机器学习的论文关注的是模拟学习(imitation learning)中的因果混同(causal confusion)问题。模拟学习即为从专家示范中学习策略模型(policy),它可利用已有数据来防止或缩小危险或高代价的与环境交互。行为克隆(behavioral cloning, BC)是一种简略无效的办法,它将模拟专家示范看作一个有监督学习工作,即用状态(state)s 预测动作(action)a。然而,该办法常会产生因果混同问题,即学到的策略关注的是专家动作的显著后果而非起因(即专家策略所关注的对象)。De Haan 等人 (2019)举了一个经典例子:思考司机做驾驶示范的过程,其中车的仪表盘上有刹车指示灯。当视线中呈现行人时,司机会采刹车同时刹车灯亮起。因为“a= 踩刹车”和“s= 刹车灯亮起”总是同时呈现,策略模型很可能会仅仅基于刹车灯来决定是否踩刹车,这样能够很好地拟合示范数据,但在应用中当视线中呈现行人时,因为刹车灯没有亮,它也依然不会踩刹车,这显然不是人们心愿的。

研究员们发现,因果混同问题在个别的场景中宽泛存在。如图 7 所示,本来环境下学到的策略体现远不如训练时将分数覆盖掉的好。原环境中,策略模型会仅仅依赖于画面中的分数给出动作,因为它与专家动作的关系严密而敏感,但却不知这只是专家动作的后果,所以在应用中不能采取有效的动作。而在分数被覆盖的环境中,策略模型不得不寻找其余线索来预测专家动作,才得以发现实在法则。

办法

由上述剖析,研究员们发现产生因果混同问题次要是因为策略模型仅仅依赖于画面中的个别对象采取动作,而此对象往往是专家动作所产生的看上去很显著的后果。这启发了研究员们通过让策略模型平衡地关注画面中的所有对象来应对此问题,使策略模型能留神到真正的因。

实现此想法须要解决两个工作:(1)从图像中提取对象。(2)让策略模型留神到所有对象。对于第一个工作,研究员们采纳了量子化向质变分自编码器(vector-quantized variational auto-encoder,VQ-VAE)[v.d. Oord’17] 抽取对象特色。如图 8 所示,研究员们发现,VQ-VAE 学到的离散编码相近的值(相近的色彩)代表了同一(或语义相近的)对象,因而它找到并辨别了图像中的对象。

(图 8:VQ-VAE 学到的离散编码可找到并辨别图像中的对象_

对于第二个工作,研究员们对每一个离散编码的值随机地决定是否抉择它,并在图像的 VQ-VAE 编码中覆盖掉具备所选离散值的格点。此操作覆盖掉了编码中的一些对象,迫使策略模型关注未被覆盖掉的对象,防止仅关注个别对象。这是与现有办法最大的不同,现有办法覆盖掉的都是空间上相近的区域,并不反映具备语义的对象。因而,此办法被称为“觉察对象的正则化办法”(Object-aware REgularizatiOn,OREO)。图 9 展现了 OREO 办法的流程。第一阶段训练 VQ-VAE 提取对象示意,第二阶段学习基于 VQ-VAE 编码的策略模型,其间通过所述随机覆盖对象的办法做正则化。

(图 9:“觉察对象的正则化办法”(OREO)的流程)

试验

首先,思考混同雅达利游戏(confounded Atari games)环境,这是 De Haan 等人(2019) 所提出的考查因果混同问题的环境,其中游戏图像的每一帧都额定显示玩家上一步采取的动作。如表 3 所示,OREO 办法在大部分游戏中都获得了最好的体现。特地地一点,OREO 办法胜过在空间区域上随机覆盖的办法(Dropout, DropBlock)、数据增广(data augmentation)办法(Cutout, RandomShift)、以及空间式地随机覆盖 beta-VAE 所学编码的办法(CCIL)[De Hann’19],阐明了用觉察对象的形式进行正则化的劣势。OREO 也胜过了因果预测办法 CRLR,阐明简略间接地利用因果办法并不一定无效,因为其假如在模拟学习工作中并不成立,例如图像数据各维度间并没有明确的因果关系,且变量关系也非线性。图 10 的可视化结果表明,行为克隆所学到的策略的确仅关注个别物体,而 OREO 学到的则更宽泛地关注图中的相干对象。对于实在场景工作,研究员们也考查了在 CARLA 驾驶模仿环境中的体现。表 4 中的结果表明 OREO 也获得了最好的体现。论文原文及附录中提供了更多试验后果。

(表 3:混同雅达利游戏环境中各模拟学习算法的体现比拟)

(图 10:应用行为克隆(第一行)及 OREO 办法(第二行)在混同雅达利环境(左列)及本来的雅达利环境(右列)下学到的策略模型的可视化后果)

(表 4:CARLA 驾驶模仿环境中各工作下各模拟学习算法的成功率)


参考文献:

  1. [Ribeiro’16] M. T. Ribeiro, S. Singh, and C. Guestrin.“Why should I trust you?”: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 13-17, 2016, pages 1135–1144, 2016.
  2. [v.d. Oord’17] van den Oord, A., Vinyals, O., & Kavukcuoglu, K. Neural discrete representation learning. In Proceedings of the 31st International Conference on Neural Information Processing Systems (pp. 6309-6318), 2017.
  3. [de Haan’19] de Haan, Pim, Jayaraman, Dinesh, and Levine, Sergey. Causal confusion in imitation learning. In Advances in Neural Information Processing Systems, 2019.
  4. [Khemakhem’20] I. Khemakhem, D. P. Kingma, R. P. Monti, and A. Hyvärinen. Variational autoencoders and nonlinear ICA: A unifying framework. In the 23rd International Conference on Artificial Intelligence and Statistics, 26-28 August 2020, Online [Palermo, Sicily, Italy], volume 108 of Proceedings of Machine Learning Research, pages 2207–2217, 2020.

欢送关注微软中国 MSDN 订阅号,获取更多最新公布!

正文完
 0