共计 3224 个字符,预计需要花费 9 分钟才能阅读完成。
2016 年,AlphaGo 击败了围棋世界冠军、职业九段棋手李世石,以机器学习、深度学习为外围的人工智能技术,势不可挡地进入了公众视线。然而,在经验了之前几年的高速倒退后,无论学术届还是工业界,无论基础理论还是理论利用,人工智能技术仿佛都遇到了瓶颈,停顿绝对迟缓。
造成这个景象的实质起因,是以后机器学习技术与通用人工智能(Artificial general intelligence,AGI)之间还存在着微小的鸿沟。一方面机器学习模型本身存在泛化能力和稳定性差的问题,并且适度依赖数据拟合,不足可解释性;另一方面人工智能的指标是实现“决策”,而以后机器学习技术只能实现“预测”。前者须要提供指导性的剖析,例如企业想实现销售增长、用户数量减少的指标,应该如何去做;而后者目前只能依据历史数据进行预测,告知企业将来会产生什么。当初数智化的企业更须要的,是自动化的“决策”而不仅仅是对将来的“预测”。以相关性为根底进行预测的机器学习,在面对须要因果关系为前提的决策性问题时就显得力不从心。
正因为如此,2011 年图灵奖得主 Judea Pearl 提到,“机器不足对因果关系的了解可能是给它们提供人类程度智能的最大阻碍”,2019 年图灵奖得主 Yoshua Bengio 也说“因果关系对于机器学习的下一步停顿十分重要”。因果推断(Causal Inference)开始被认为是人工智能畛域的一次范式反动,成为近年来的钻研热点之一。
从古希腊到 2022 年,因果推断正在成为 AI 畛域热点钻研方向
因果推断(Causal Inference), 是对于因果关系的推断,钻研如何更加迷信地辨认变量间的因果关系。
因果问题是一个十分古老的问题,当人们意识到某些事物的变动会导致另一些事物产生时,便有了对因果的直觉性思考。古希腊期间,亚里士多德提出了 四因说,开启了对因果的哲学性思辩。18 世纪,英国哲学家大卫·休谟提出了三大难以解决的问题,对因果关系的普遍性和偶然性进行了反思。20 世纪初,美国数学家 Jerzy Neyman 提出了用于因果推断的“潜在后果”(potential outcomes)数学模型,把因果推断从一个哲学思考变成一个迷信问题,成为因果推断倒退过程中奠基性的冲破。
20 世纪 70 年代,哈佛大学驰名统计学家 Donald Rubin 在 Neyman 的钻研根底上进行了进一步延长,将其从齐全随机试验的畛域扩大为在察看性和实验性钻研中思考因果关系的个别框架,也就是 鲁宾因果模型 Rubin Causal Model (RCM)。差不多同一期间,另一位驰名科学家,图灵奖得主、“贝叶斯网络之父”Judea Pearl,利用构造因果图以及 do- 操作、反事实剖析等概念,创立了 构造因果模型 Structural Causal Model(SCM)。古代无关因果推断的实践钻研就次要基于以上两个根本实践框架。
因果推断次要解决因果发现(Causal Discovery)、因果量辨认(Identification of Causal Quantities)、因果效应评估(Causal Effect Estimation)、反事实预测(Counterfactual Inference)和策略学习(Policy Learning)五大类的问题。
国内外的一些大型企业,近些年都在逐渐加大对因果推断畛域的投入和利用。UBER、滴滴等共享汽车的平台,在弹性定价上高度依赖因果分析模型来进步整体收益率,腾讯等视频平台则应用基于因果分析模型的广告投放工具来帮忙晋升用户 ROI。
现有的一些因果推断工具集
目前国内上对于因果推断的产品和工具也有很多,例如 CausaLML、EconML、CausaLearn、DoWhy 等等。不同产品和工具的侧重点都有所不同,例如 CausaLML 由 UBER 开源,定位是一个 uplift 建模专用的工具,次要解决因果效应评估类问题。EconML 由微软研究院开源,重点也是围绕因果效应评估类问题。还有 Causal-learn,专一于解决因果发现类问题。能够发现,市面上的工具包各自解决了因果推断中的局部问题,短少零碎、残缺的、综合性、端到端的因果学习工具包。
YLearn:寰球首款一站式解决因果学习残缺流程的开源算法工具包
九章云极 DataCanvas 是国内一家专一于人工智能、机器学习与数据智能根底软件的公司,2020 年公司就看到了因果推断对人工智能将来倒退的重要性,并将因果推断作为重要的研发与冲破方向,2021 年 6 月正式启动了 YLearn 因果学习开源我的项目(https://github.com/DataCanvas…)。
YLearn 因果学习开源我的项目(以下简称“YLearn”),是 寰球首款可能一站式解决因果推断残缺流程的开源工具包 ,它简直蕴含并解决了因果推断畛域中所有的外围问题,包含 因果发现、因果量辨认、因果效应预计、反事实预测、策略学习 等,同时提供了面向用户的根底 API。YLearn 还提供了重要模块的可视化输入,如因果图、因果效应解释、决策树等,帮忙用户更直观地了解数据、调整策略、实现预期。
YLearn 工具包组成
咱们能看到,与上述其余产品和工具相比最大的不同,是 YLearn 具备 一站式、新而全、用处广 等特点。
首先,YLearn 一站式地反对从数据中发现因果构造、对因果构造建设因果模型、应用因果模型进行因果辨认、对因果效应进行预计等一系列性能,使用户能以最低的学习老本应用与部署。
其次,YLearn 实现了多个在因果推断畛域中倒退出的算法,例如 Meta-Learner、Double Machine Learning 等,也将始终紧跟前沿停顿,放弃因果辨认与预计模型的先进和全面。
最初,YLearn 还反对对因果效应进行解释、依据因果效应在各种计划中选取收益最大的计划并可视化决策过程等性能。除此之外,YLearn 也反对将因果构造中辨认出的因果效应的概率分布表达式以 LaTex 的模式输入等小性能,帮忙用户将因果学习与其余方向的钻研进行穿插交融。
YLearn 工作流程图
据介绍,YLearn 的利用目前次要集中在两个畛域,一个是 用于补救机器学习实践上的缺点 。在机器学习模型中退出因果机制,利用因果关系的稳定性和可解释性,优化模型、晋升效率;另一个是 帮忙实现用户需要从预测到决策的迁徙,例如应用基于因果推断的举荐算法帮忙企业进行客户增长和智能营销等。
目前九章云极 DataCanvas 已正式对外公布了第一个版本,前期也会继续进行版本的迭代。
九章云极 DataCanvas 的主任架构师杨健对 CSDN 走漏,接下来,YLearn 将做大量落地实际和验证的工作,并联合 DataCanvas APS 主动机器学习平台、DataCanvas RT 施行决策核心 等平台级产品,进一步实现客户在决策工作上的需要。同时联合客户理论场景,沿着帮忙企业建设 决策图谱 、解决 因果学习的主动调参和优化 问题、实现 高效的特色发现和特色工程 , 进步机器学习的泛化能力、解释性 等不同路线进行演进。最终,就像机器学习中的 scikit-learn 一样,九章云极 DataCanvas 心愿 YLearn 可能成为因果推断畛域的根底算法包和必选项。
人工智能倒退到明天,业界涌现了层出不穷的机器学习和深度学习技术,都是心愿帮忙人们更精确的剖析问题,甚至预测将来。当初,因果推断可能帮忙 AI 模型赋予因果关系,补救机器学习实践的缺点,正在解决从“是什么”到“为什么”的问题,也因而,因果推断将是进一步倒退人工智能技术的必经之路。又或者,因果推断将成为 AI 是否像人类一样思考、强人工智能是否可能实现的要害。
前沿技术的演进路线素来都是未知而迷人的,也心愿中国有更多人工智能技术的钻研人员和爱好者,可能进入因果推断这个充斥时机和挑战的畛域,充分发挥本人的聪明才智,为人工智能技术带来跨越式的倒退。CSDN 将继续关注与报道因果推断与九章云极 DataCanvas YLearn 因果学习开源我的项目的倒退。