编者按:本文次要介绍了迷信的演变历史,从笛卡尔到生成式人工智能。文章探讨了数学在验证迷信原理中的作用,并介绍了新机器学习工具如何验证新的迷信。
文中提到,将生成式人工智能与 Excel 或 iPhone 进行比拟是低估了这一新技术的潜在影响。生成型人工智能的成果很可能相当于电学(electricity)或香农的信息论(Shannon’s Information Theory)。
Generative AI will be a Superpower!
作者 | Robert Hacker
编译 | 岳扬
认为迷信意味着可察看和可反复的试验的观点,始于 17 世纪的笛卡尔,目前这种观点在某种程度上曾经完结了。
相比之下,寰球共识(Global understanding) 是基于由 常识基础设施(knowledge infrastructure) 反对的 计算模型(computational models)。
——[英] 尼古拉斯·米尔佐夫《如何观看世界》
阿拉伯数字使得数字可能很容易地被操作,这就导致数学可能作为验证迷信的工具应用。 事实上,科学史也能够说就是 新数学(new mathematics)验证迷信中新的基本原理 的历史。现在咱们有一套新的“数学”工具,即过来五年中人工智能(AI)和机器学习(ML)的成绩。这种新的机器学习(ML)真的不是仅仅对于生成文本或艺术作品,而是对于在一个比咱们以前摸索过的更根本的程度上验证新的迷信。写此篇文章的目标就是为了议论新的机器学习(ML)工具验证新的迷信这一话题。
现代科学始于牛顿和笛卡尔的研究成果。牛顿让咱们对物理学最后有了一个精确的理解,他也被认为是倒退微积分的功臣。这种物理迷信和数学的联合至今仍在影响着钻研,特地是在工程和物理学中利用偏微分方程的多变量问题。 笛卡尔因应用代数来解释几何学而备受赞美,一个几何形态能够通过一系列的方程(代数)来解释,其中能够用坐标定位一个点,点决定线,线决定立体和形态。这种代数办法反对了笛卡尔的迷信观点——即认为 迷信是从宏观到宏观层面对无形事物的自上而下的查看,关注物质、构造和线性、确定性的因果关系。不出所料,笛卡尔除了钻研数学和迷信之外,还是一位经验主义哲学家(empiricist philosopher)。他的“天然”哲学在接下来的两百年里始终影响着迷信,直到明天。
迷信的下一个重大进展是量子实践。量子物理学的大部分根底是建设在新的数学上。首先,路德维希·玻尔兹曼(Ludwig Boltzmann)给咱们提供了统计力学,将概率和不确定性引入物理迷信的钻研中 。麦克斯韦、庞加莱、海森堡、薛定谔、玻尔、普朗克和爱因斯坦都在玻尔兹曼的工作根底上应用数学。让咱们产生对世界的新了解,当然这个了解建设在以概率形式运行的亚原子、不可见粒子上。咱们不可能离笛卡尔的自然哲学有多远。迷信当初专一于不可见的货色。侥幸的是,数学和迷信的下一个冲破,即 混沌实践(Chaos Theory),帮忙咱们将量子物理学的不确定性与咱们每天看到的天然世界分割起来。
1972 年,麻省理工学院传授爱德华·洛伦兹(Edward Lorenz)提出了确定性混沌的概念。IBM 的研究员 Benoît Mandelbrot 推动了 Lorenz 的工作,建设了“自然界中模式造成的数学根底(a mathematical basis of pattern formation in nature)”[1],并 证实了确定性的、对初始条件敏感的非线性零碎 (SDIC) 能够在计算机上建模 。曼德尔布罗特(Mandelbrot)不仅解释了自然科学中以前简直不为人所知的一部分,而且他引入了 “分形(fractals)” 的概念来解释在整个自然界中一直反复的模式。随着这些模式的记录,数学变得很容易,并且计算机化极大地促成了对气象学、地质学和生物学等畛域的混沌景象建模的进一步钻研。无论笛卡尔的形而上学和认识论在量子物理学之后还留下了什么,混沌实践展现了对天然模式的新了解,展现了数学去解释以前无法解释的迷信的另一种形式。混沌实践也证实了一个或者更重要的观点, 迷信能够通过利用计算机建模来寻找零碎中的模式来了解。迷信对系统的这种关注起初被利用到另一类零碎——复杂性迷信。
1984 年,诺贝尔物理学奖得主默里·盖尔曼(Murray Gell-Mann)与一批卓越的科学家和学者一起成立了圣塔菲研究所(Santa Fe Institute)来摸索简单零碎(complex systems)。盖尔曼解释了复杂性,“咱们应该寻找的是现在呈现的、高度跨学科的平凡综合迷信”盖尔曼说。[2]其中一些曾经走上了胜利的路线,如:分子生物学、非线性迷信、认知科学。但他说,必定还有其余新兴的迷信,建设这个新的研究所的目标就是寻找它们。与混沌零碎(chaotic systems)相比,简单零碎(complex systems)不是确定性(deterministic)的,如下图所示。确定性零碎体现出“独特的演变(unique evolution)”,即“模型的给定状态总是跟随着雷同的状态转换历史(a given state of a model is always followed by the same history of state transitions)”。[3]
“非线性(nonlinear)”的特色,即“零碎不须要随着变量的变动而成比例地变动”[4],为从数学上捕获所有天然和人工零碎是包含反馈回路的网络这一想法提供了灵活性。这种 连通性 ,即不同的网络变量在不同的工夫点处于不同的状态,解释了简单零碎的不确定性(non-deterministic nature)、零碎的多变量性(multi-variable nature)和这些零碎的突创性(emergent quality)。 突创(Emergence) 是一种零碎特色,其中整体的特色不能用组件来相加解释,水变成冰就是一个突创的例子。复杂性(complexity) 向咱们展现的是另一种类型的零碎,它由远远超出笛卡尔迷信的原理来解释。
简单零碎(complex systems)的一个特色解释了为什么机器学习(ML)作为解释迷信的工具代表产生了微小的提高。 简单零碎是自下而上的层级构造,这意味着量子粒子联合造成原子,原子变成分子,而后变成细胞、器官(零碎),最终变成人类(零碎)。诺贝尔经济学奖得主赫伯特·西蒙(Herbert Simon)把这种部件的组合称为 综合(combining) [5],它是人类的创造力和一直进化的根底。每当你拉动拉杆,老虎机就会旋转,后果就会扭转。在零碎层次结构任何一级的很多后果都能进步生存能力,而很多变动也不能。无论是人工合成还是天然过程,这种综合过程都能发明出多样性,从而潜在地改善后果。这种组合过程的概念是计算生物学、化学和物理学的常识根底。
哈佛大学传奇生物学传授 EO Wilson 解释得很好。
“咱们吞没在信息中,同时又渴望智慧。从今以后,世界将由组合器(synthesizers)来进行治理,人们可能在正确的工夫组合正确的信息,进行批判性的思考,并明智地做出重要的抉择。”
基于这一思维,威尔逊创建了起初被称为计算生物学(computational biology)的实践——将机器学习(ML)利用于生物学钻研。在生物学中,咱们不仅要思考生物的物种,还要思考所有的基因组及其组成成分的多层次构造。随着 数据集规模的一直减少 ,机器学习(ML)的利用从 数据分析(data analytics) 扩大到预测性剖析和规范性剖析(predictive and prescriptive analytics) , 从生物学扩大到医学、农业、材料科学和信息物理(cyber-physical)利用。机器学习(ML)是用于跨学科模式识别的完满工具。最终,咱们意识到机器学习(ML)不仅仅能够用于剖析数据,还能够用于设计医学、材料科学、农业和其余畛域问题的解决方案。机器学习(ML)能够剖析组件的合成组合,以确定最佳的实践解决方案。咱们不再须要评估成千上万的解决方案。机器学习(ML)事后筛选了解决方案,缩小了工作量,更重要的是缩短了上市工夫(对于援救生命的解决方案)。
汉娜·弗莱(Hannah Fry)解释了事件的假相。
“数学是对事实的形象,而不是复制事实,它在这个过程中提供了真正的价值。通过容许人类从形象的角度来对待世界,您创立了一种惟一可能捕捉和形容模式和机制(patterns and mechanisms)的语言,否则这些模式和机制将永远放弃暗藏状态。而且,正如过来 200 年来任何一位科学家或工程师都会通知你的那样,了解这些模式(patterns)是可能利用它们的第一步。”[6]
正如威尔逊(Wilson)所意料的那样,机器学习(ML)通过应用模式识别算法,成为历史上进行数学运算的最佳工具。 正如复杂性经济学家(complexity economist)布莱恩·阿瑟(W. Bryan Arthur)的解释:“咱们用方程操纵零碎,使其达到咱们所寻求的某种模式:某种解的表达式,某种公式,某种必要条件,某种数学构造,某种所寻求的对系统中蕴含的真谛的证实。”……“算法为咱们提供了钻研造成过程的可能性。钻研人员钻研什么样的生成过程会产生给定的模式,以及这可能如何随着不同的算法设计而变动。 因而,因而,造成的模式或构造与造成它的算法之间存在着来回重复。这种格调(style)变成了实验性的:算法产生某种构造,这个构造反馈给查问产生它的算法。”[7]机器学习(ML)进化的下一步是从新定位这个“生成过程”。
随着机器学习(ML)的遍及和其实用性的进步,云计算蓬勃发展。依据 Synergy Research 预测,到 2026/2027 年,云计算的支出将超过 1 万亿美元。[8]云计算与更好的数据库技术相结合,反对针对特定问题扩充数据集大小。 随着数据库技术的改良,可用 ML 算法的分类也失去了改良。其中有一组算法是生成式人工智能(Generative AI),它因依据文本和艺术作品数据产生原创文本作品和艺术作品而备受关注,更重要的倒退是生成式人工智能在迷信畛域的利用。
生成式人工智能有很多种版本——无监督、有监督和强化 。不论是哪种格调的算法,合成数据要么被用作文字或艺术作品模式的输入,要么被用作新的训练数据来改良算法。将合成数据用作训练数据有许多用处,包含让用户匿名。然而,我认为更令人兴奋的发现是由计算机科学家 Daphne Koller,MacArthur Genius 和晚期生物医学公司 Insitro 的首席执行官阐明的。利用合成数据,Insitro 发现了医疗数据集中的新特色,而这些特色是钻研人员以前不晓得的。基本上,算法看到了人类看不到的模式,并在新的合成数据中复制了它们。科勒认为,在将来的合成数据集中反复呈现的新特色可能会将医学钻研带到基础医学迷信的一个全新程度。[9] 这种逻辑也能够利用于自然科学的简直任何计算畛域,从而开启新档次的基础理论钻研。
风险投资公司 a16z 的联结创始人马克·安德烈森(Marc Andresseen)在最近的一次播客中指出,新技术让咱们可能“从新扫视基本原理”。科学家从来受到试验工具的限度。生成性人工智能有可能在基本层面上扭转迷信。古代科学史最后是由教训数据分析造成的,并失去数学的验证。 现在,随着合成数据的呈现,咱们行将实现用数学解决整个迷信发现过程,而科学家们只做验证。正如 Air Street Capital 的风险投资人所说,“人工智能优先(AI-first)源于设计”。《化学信息学杂志》(Journal of Cheminformatics)对这种人工智能优先的设计进行了很好的解释:
“近年来,人工智能和机器学习(AI/ML)在研发药物中的利用迅速减少,为药物设计我的项目提供了 AI 辅助设计工具。人工智能的劣势在于从来自不同起源的大量数据中发现模式(patterns),最大限度地加强人类在分子优化等挑战性工作中的能力。分子从头生成(De novo Molecular Design)的提高使得药物设计的计算机设计 - 制作 - 测试 - 剖析(DMTA)周期中的设计步骤可能自动化。[10]
高级钻研人员应用机器学习(ML)来减速新办法——DMTA,以在相干行业中减少新化学品和药物的开发。钻研人员将继续改良算法以优化这一过程,但许多科学研究曾经转移到正在彻底改变生物学、化学和医学的计算模型上。
Stable Diffusion 创始人 Emad Mostaque 在《麻省理工学院技术评论(MIT Technology Review)》(2023 年 2 月)中强调了这一点。
“谷歌和微软正在全力以赴,将生成性人工智能作为其将来的外围。没有什么“倒退生成式 AI 还为时过早”,这些万亿美元的公司正在转移他们的整个策略和重点。我想不起有哪一次技术和策略转变像这样迅速而有意义。”
将生成式人工智能与 Excel 或 iPhone 进行比拟是低估了这一新技术的潜在影响。生成型人工智能的成果很可能相当于电学(electricity)或香农的信息论(Shannon’s Information Theory)。Generative AI will be a Superpower! [11]
事实上咱们无所不知,因为真谛在深处。
In reality we know nothing, for truth is in the depths.
——Democritus
END
参考资料
[1] https://bu.ac.bd/uploads/BUJ1V5I12/6.%20Hena%20Rani%20Biswas.pdf
[2] Complexity: The Emerging Science at the Edge of Order and Chaos by M. Mitchell Waldrop
[3] https://www.statisticshowto.com/deterministic-function-nondet…
[4] https://www.statisticshowto.com/deterministic-function-nondet…
[5] https://monoskop.org/images/9/9c/Simon_Herbert_A_The_Sciences… by Herbet A. Simon
[6] The Mathematics of Love by Hannah Fry
[7] https://beijer.kva.se/wp-content/uploads/2020/03/Disc269_Arth… by W. Brian Arthur
[8] https://www.nextplatform.com/2023/01/26/cloud-spending-to-top…
[9] https://www.mckinsey.com/industries/life-sciences/our-insight…
[10] https://jcheminf.biomedcentral.com/articles/10.1186/s13321-02…
[11] Many have used this phrase. It is not clear to me who deserves the credit.
本文经原作者受权,由 Baihai IDP 编译。如需转载译文,请分割获取受权。
原文链接:
https://www.topbots.com/the-evolution-of-science-from-descart…
对于原作者: 作者 Robert H. Hacker 是 StartUP FIU 的 co-founder 和 Director。曾在 麻省理工学院斯隆治理学院(MIT Sloan School of Management)任教。