共计 5856 个字符,预计需要花费 15 分钟才能阅读完成。
7 月 12 日,九章云极 DataCanvas 正式公布 YLearn 因果学习开源我的项目(以下简称“YLearn”)。据悉,这是寰球首款一站式解决因果学习残缺流程的开源算法工具包。YLearn 率先同时解决了因果学习中包含因果发现、因果量辨认、因果效应预计、反事实推断和策略学习等关键问题,无效晋升了政府和企业自动化“决策”能力。
GitHub 地址:https://github.com/DataCanvas…
近年来,因果学习在人工智能畛域引起了宽泛的关注。有观点认为,因果学习将开启下一代 AI 浪潮。图灵奖得主 Judea Pearl 也曾示意,“如果没有对因果关系的推理能力,AI 的倒退将从根本上受到限制”。
那么,到底什么是因果学习?它能解决什么问题?是否会取代机器学习?作为寰球首个一站式解决因果学习残缺流程的开源算法工具包,YLearn 有哪些技术实际和利用?针对这些问题,InfoQ 近日采访到了九章云极 DataCanvas 主任架构师、YLearn 团队次要负责人杨健和九章云极 DataCanvas 机器学习研究员吕博晨。
从预测到决策,AI 走向可信与可了解
从二十世纪五十年代正式钻研机器学习以来,机器学习历经多个倒退阶段,并在近十年获得疾速倒退。
2016 年,“AlphaGo 击败李世石”事件将以机器学习为代表的人工智能浪潮推至巅峰,并在寰球范畴内失去了宽泛关注。与此同时,寰球信息化建设疾速倒退带来了数据量的飞跃,以及算力的大幅度晋升,这也为机器学习注入了新的能量。
不过,近两年,机器学习无论是在学术界的基础理论,还是在工业界的利用上,冲破显著开始放缓。这个景象背地的实质是,以后的机器学习技术和通用人工智能两头还存在着微小的鸿沟。具体而言,机器学习技术还存在诸多局限性,如泛化能力差、不足解释性等。
泛化能力方面,机器学习模型常常在训练集上成果不错,但在测试集上成果很差,模型自身短少足够的鲁棒性。
从机器学习的实质来看,机器学习拟合的是从历史数据上观测到的相干关系,但基于相干关系的拟合是不牢靠的,甚至很多时候是伪相干。图灵奖得主 Judea Pearl 也曾示意,现有的机器学习模型不过是对数据的准确曲线拟合,只是在上⼀代的根底上晋升了性能,在根本的思维⽅⾯没有任何提高。这也就导致模型在线上容易呈现体现不稳固、数据漂移等问题。
一个典型的例子是,某个数据集展现了尼古拉斯·凯奇拍摄的电影数量和当年在泳池中溺水的人数,两个数据的曲线高度重合,这样的数据能够训练进去一个精准度相当高的模型。但在真实世界中,这两个数据的相关性随时可能生效,这就是伪相干。
“咱们目前应用的机器学习算法是没有方法发现伪相干的。因而咱们须要利用因果学习去补机器学习的短板,在特色工程的过程中利用因果关系领导咱们发现更加鲁棒的特色,让模型能够有更好的泛化能力。”杨健对 InfoQ 说道。此外,机器学习不足解释性,而因果关系的发现自身就是解释性的一部分,通过因果效应评估,能够进一步量化解释干涉变量和后果变量之间定量的影响。
所谓因果学习,指的是让机器具备因果思维,通过输出数据,算法能够推断某件事的前因后果,进行反事实推理。相较传统的人工智能,基于因果的人工智能更加靠近通用人工智能。
在杨健看来,机器学习技术自身存在肯定的局限性,因果学习除了可能补机器学习的短板,也能解决企业对智能决策的需要。
在数字化时代,企业的指标是尽量在决策链条中缩小人的参加,实现数据驱动的主动决策,从而进步决策的准确性和整体零碎的运行效率。
简略来说,企业更须要的是自动化的“决策”,而不仅仅是对将来的“预测”。而以后的机器学习以相关性为根底,更多解决的是预测性剖析,对将来后果做出预测。在面对须要因果关系为前提的决策性问题时显得力不从心,还很难满足自动化决策的需要,无奈提供无效的口头策略选项。因而,要做出数据驱动的决策,了解因果关系是要害。
图灵奖得主 Judea Pearl 也曾示意:“目前有太多深度学习我的项目都单纯关注短少因果关系的毛糙关联性,这经常导致深度学习零碎在实在条件下进行测试时,往往拿不出良好的理论体现。”Judea Pearl 还在他的新书《The Book of Why: The New Science of Cause and Effect》中提到,“如果没有对因果关系的推理能力,AI 的倒退将从根本上受到限制。”
目前,在学术研究方面,因果学习曾经在计算机视觉 (CV)、自然语言解决(NLP) 等方向获得多个研究成果,计算机视觉顶级会议 CVPR 中的一些钻研也是围绕着深度学习如何利用因果关系来改良它的表征学习,如何无效地去除伪相关性等方面进行钻研。
此外,因果学习和强化学习也有一些相干的研究进展。传统的强化学习基本原理就是在一个模仿环境模型中一直的试错和学习,大家普遍认为这是一个十分暴力的训练形式,这也是强化学习饱受诟病之处。
“咱们把因果关系引入到强化学习里,能够无效地膨胀它的试错空间,大幅提高学习效率,升高算力老本。”杨健示意,“总的来说,因果学习和机器学习二者并不是代替关系,而是互补关系。实际上,因果学习在近几年之所以可能高速倒退,也是得益于机器学习提供的一些撑持,甚至很多因果学习新的研究成果也是须要借助于机器学习算法来实现的。”
除深度学习和强化学习之外,因果学习在其余畛域,如反抗学习、元学习、多任务学习(举荐场景)等方向的钻研也比拟有前景。
开源 YLearn 因果学习开源我的项目的技术实际
正是察看到因果学习从 2019 年开始在学术研究上陆续获得成绩,波及到因果关系的论文数量每年都在翻倍增长,同时联合工业界在落地人工智能时遇到的问题,九章云极 DataCanvas 决定把因果学习作为 AutoML 之后的一个次要冲破方向,并于 2021 年 6 月开始布局 YLearn 开源我的项目。2022 年 7 月 12 日,YLearn 正式公布。
YLearn 是“learn why”的双关语,又称因果学习算法工具包,是一个残缺实现因果推断流程的开源 Python 包,目标是通过数据发现 why 和 what if 问题,力求解决因果推断最外围的五个问题:因果发现、因果量辨认、因果效应预计、反事实推断和策略学习。同时,YLearn 还提供了重要模块的可视化输入,如因果图、因果效应解释、决策树等,帮忙用户更直观地了解数据、调整策略,最终实现预期。
“因果学习没有被宽泛应用的一个次要起因就是门槛太高,这个畛域的人才比机器学习、深度学习更稀缺,又不足比拟残缺的易用的工具包,那么咱们就从这个痛点登程。有了 YLearn 最后的构想。”杨健示意,从因果学习的开源社区来看,目前的开源工具都只能解决因果学习几个次要工作中的局部问题,还没有一个端到端的全 pipeline 的残缺工具包,“咱们目前次要的精力投入是在开源我的项目的开发上,咱们的愿景是心愿 YLearn 能成为像 scikit-learn 在机器学习畛域这样的一个因果学习的必选工具”。
YLearn 的研发历程
据吕博晨介绍,YLearn 的整个研发历程一共经验了三个阶段:
第一阶段,对现有工具进行调研,对前沿停顿开展钻研。
在这个期间,团队成员次要对现有的因果推断工具进行考察和钻研,从而造成产品的大抵思路。“咱们在考察的过程中发现,以后少数因果推断工具只能做因果推断中的一类或两类步骤,用户想实现一个残缺的因果推断流程,须要切换到不同的工具,再拼接成一个残缺的流程,非常麻烦。”吕博晨示意,YLearn 最后的设计思路就是心愿能提供一个更残缺的因果学习算法工具包,并且反对学术界和工业界最新的各类算法,放弃实时更新。
第二阶段,设计原型验证机,实现最根底算法。
有了设计思路后,团队开始设计原型验证机,做了一个全流程的毛糙版本,并实现一些根底算法,比方最根本的后门调整算法,以及一些很毛糙的 Meta-Learner 算法等等。“原形验证机的次要工作就是验证想法的可行性,并将因果校验辨认、因果校验预计流程串起来,这一阶段进一步确认了最后的‘实现一个残缺因果学习工具包’的想法。”
第三阶段,丰盛各类算法,对立 API 和减少实用功能反对。
原形验证机设计实现后,须要进一步丰盛和欠缺产品性能,减少易用性,调整和对立 API 接口,并且减少各类测试用例和应用样例,减少各类实用功能,比方 policy 模型和一个残缺的 API Why。“在 Why 这个 API 里,用户能够残缺地应用因果推断的各个相干性能,而不须要去事后理解 YLearn 甚至是因果推断的各类细化概念,比方什么是 adjustment set, 在最简略的状况下,用户只须要输出一个数据集给 Why 就能够应用了。”
以后,团队的短期指标就是进步 YLearn 的成熟度,实现可用、好用、易用,在个性的完整性、算法效率、稳定性等方面,YLearn 还须要迭代几个版本。
至于长期指标,团队也布局了几个方向。一方面,Causal Machine Learning 利用 YLearn 去补机器学习的短板,另一方面,Automated Causal Learning 让 YLearn 也具备自动化的能力,进一步升高应用门槛。此外还有决策图谱,这是一个可能把企业的要害经营指标和可干涉变量构建出一个基于因果关系的图谱,通过可视化的交互式形式来推演各种决策动作对经营指标带来的影响。
YLearn 的算法模块设计、个性与利用
算法模块设计方面,YLearn 次要蕴含 5 个模块:因果发现(Causal Discovery)、因果模型(CausalModel)、预计模型(EstimatorModel)、政策模型(Policy)、解释器(Interpreter)。
从训练数据开始,首先应用因果发现揭示数据中的因果构造,通常会输入一个因果图,而后将因果图传递到因果模型,在其中辨认感兴趣的因果效应并将其转换为统计估计值。并用训练数据训练预计模型以模仿因果效应和其余变量之间的关系,即预计训练数据中的因果效应。而后能够应用经过训练的预计模型来预测一些新测试数据集中的因果效应,并评估调配给每个人的策略或解释预计的因果效应。
目前业界次要有两套因果模型:Judea Pearl 的构造因果模型(因果图)和 Donald Rubin 的潜在后果模型。在因果示意与因果效应辨认阶段,YLearn 次要采纳因果图模型 (Causal Graphical Model)这一示意,能不便地反对因果图的各类操作,达成因果效应辨认。此外,因为个别的因果效应辨认也是基于因果图模型,YLearn 在这一阶段抉择因果图模型也能反对这一办法。
而在因果效应预计阶段,YLearn 次要采纳依赖于构造公式模型,因为因果图与构造公式模型为对应关系,而构造公式模型在预计方面表述更为不便。
“目前来说,最大的问题是无混同假如的测验性问题,对于这个问题,一方面,能够通过学界的进一步钻研解决,另一方面,YLearn 提供一种近似预计的伎俩,能够肯定水平上确定一个因果效应的范畴,帮忙了解。”吕博晨说道。此外,YLearn 还提供了重要模块的可视化输入,如因果图、因果效应解释、决策树等,帮忙用户更直观地了解数据、调整策略,最终实现预期。
个性方面,YLearn 次要具备以下三个个性:
一站式。通常的因果学习流程包含从数据中发现因果构造,对因果构造建设因果模型,应用因果模型进行因果效应辨认和对从数据中对因果效应进行预计。YLearn 一站式地反对这些性能,使用户以最低的学习老本应用与部署因果学习。
新而全。YLearn 实现了多个近年来在因果学习畛域中倒退出的各类算法,例如 Meta-Learner、Double Machine Learning 等。也将始终致力于紧跟前沿停顿,放弃因果辨认与预计模型的先进和全面。
用处广。YLearn 反对对预计失去的因果效应进行解释、依据因果效应在各种计划中选取收益最大的计划并可视化决策过程等性能。除此之外,YLearn 也反对将因果构造中辨认出的因果效应的概率分布表达式以 LaTex 的模式输入等小性能,帮忙用户将因果学习与其余方向穿插。
利用方面,杨健认为,从普遍意义上讲,只有是须要决策反对的这类工作都能够应用 YLearn 来实现,如弹性定价、客户挽留、产品举荐、广告等等,应用的前提条件和机器学习一样,筹备好符合要求的数据就能够。
“因果学习中有一个重要的利用就是 Uplift 建模,间接字面了解就是晋升建模,非常适合用在精准营销下面,能够晋升 ROI(投入产出比)。”
杨健示意,晋升建模的外围是把指标用户分到 4 个象限里,举个例子:某个产品有四类用户,第一类是无论是否收到产品举荐信息,都确定会购买的用户;第二类是无论是否收到产品举荐信息,都确定不会购买的用户;第三类是收到产品举荐信息,会产生购买行为的用户;第四类是收到产品举荐信息,会勾销产品订阅的用户。对于第一、二、四类用户,商家能够节约营销老本,不触达他们,因为对这三类用户投入老本的收益简直是 0。而对于第三类用户,则须要重点触达,促成购买行为。
“机器学习模型是是没方法实现这个工作的。咱们须要通过因果学习外面的异质化因果效应评估,也就是 CATE 来实现,而且还能够更进一步,对于这类用户用哪种营销伎俩收益更高,也是能够学习进去的,甚至不同的用户能够有不同的策略,最初咱们能够综合性的进步总体投入产出比了。这是一个很典型的 YLearn 的利用场景。”杨健介绍道。
写在最初
尽管因果学习曾经证实了其存在的价值,但在以后,因果学习还并未被业界宽泛采纳。正如前文所言,因果学习没有被宽泛应用的次要起因就是门槛太高,这个畛域的人才比机器学习、深度学习更稀缺。
“咱们看到有很多探讨说当初的算法工程师不香了,其实这句话的背地就是机器学习在事实落地过程中遇到了一些问题,无奈解决理论的问题,这也是咱们要钻研因果学习的起因。我感觉对集体来讲,如果在机器学习、深度学习畛域遇到困惑了,无妨投入到因果学习方向上,这是一个十分有前途的方向。”杨健说道。
那么,技术人要想往因果学习畛域倒退,须要具备哪些业余素质?
吕博晨示意,因果学习须要技术人具备宽泛的知识面,并且要对经典的机器学习算法和实践有肯定的意识。“如果想在因果学习畛域做出一些问题的话,须要具备的基本素质包含深度和广度两方面。既要把握机器学习、深度学习自身的基本概念,也要具备统计学根底,这样更容易进入因果学习这个畛域。另外重要的一点是,要有足够的趣味和激情,全身心地投入在这一畛域,扎扎实实地在这一畛域深耕。”