关于机器学习:专访-UIUC-李博-从可用到可信学界对-AI-的终极思考

本文首发自 HyperAI 超神经微信公众平台~

ChatGPT 的呈现让 AI 再次引起了一场科技圈的触动，这场触动影响深远，让科技界分为两派。一派认为，AI 迅速倒退可能会在不久后取代人类，这种「威胁论」尽管不无道理，但另一派也提出不同观点，AI 的智力程度仍然尚未赶超人类甚至「还不如狗」，间隔危及人类将来也还很边远。

诚然，这一争执值得提前预警，但正如 2023 WAIC 高峰论坛中张成奇传授等多位专家学者的观点， 人类对 AI 的期许始终是一个无利的工具。 那么既然只是一个工具，比起「威胁论」， 更须要关注的问题是其是否可信，以及如何进步可信度。 毕竟一旦 AI 变得不可信，又遑论将来倒退？

那么可信的规范是什么，现在该畛域又倒退到了何种现状？ HyperAI 超神经有幸与走在该方向的前沿学者，伊利诺伊大学副教授，曾取得 IJCAI-2022 计算机与思维奖、斯隆钻研奖、美国国家迷信基金会 CAREER Award、AI’s 10 to Watch、麻省理工学院技术评论 TR-35 奖、Intel Rising Star 等多项大奖的李博进行了深入探讨，沿着她的钻研与介绍，本文梳理出了 AI 平安畛域倒退脉络。

李博在 2023 IJCAI YES

把工夫线拉长，李博一路以来的钻研历程，也正是可信 AI 倒退的缩影。

2007 年，李博踏入本科就读信息安全业余。那段时间，尽管国内市场对于网络安全的器重水平未然沉睡，开始研发防火墙、入侵检测、平安评估等多种产品及服务，但总体上看，该畛域仍处于发展期。现在来看，这个抉择尽管冒险，但却是一个正确的开始， 李博在这样一个还很「新」的畛域开启了本人的平安钻研之路，同时，也为后续钻研埋下了伏笔。

李博本科就读于同济大学信息安全业余

到了博士阶段， 李博将眼帘进一步聚焦于 AI 平安方向。 之所以抉择这一还不算是特地支流的畛域，除了趣味使然，很大水平上也得益于导师的激励和领导。这个业余在过后还不算是特地支流，李博的这次抉择也颇有冒险成分，然而即便如此，她还是依附本人本科期间在信息安全的积攒敏锐地捕捉到 AI 与平安的联合势必非常光明。

那时，李博与导师次要从事博弈论角度钻研， 将 AI 的攻打和进攻模型化为博弈，比方应用 Stackelberg 博弈进行剖析。

Stackelberg 博弈通常用于形容一个策略领先者 (leader) 和一个追随者 (follower) 之间的交互，在 AI 平安畛域，其被用来建模攻打和防御者之间的关系。例如，在对抗性机器学习中，攻击者试图坑骗机器学习模型以产生谬误的输入，而防御者则致力于发现和阻止这种攻打。通过剖析和钻研 Stackelberg 博弈， 李博等钻研人员能够设计无效的防御机制和策略，加强机器学习模型的安全性和鲁棒性。

Stackelberg game model

2012-2013 年，深度学习的火爆推动机器学习减速渗透到各行各业。然而，纵然机器学习是推动 AI 技术倒退改革的重要力量，也难掩它是一把双刃剑的事实。

一方面，机器学习能从大量数据中学习和提取模式，在多个畛域实现了杰出的性能及成果。 例如在医学畛域，它可辅助诊断和预测疾病，提供更精确的后果和个性化的医疗倡议； 另一方面，机器学习也面临一些危险。 首先，机器学习的性能十分依赖于训练数据的品质和代表性，一旦数据呈现偏差、乐音等问题，极易导致模型产生谬误或歧视性后果。

此外，模型还可能对隐衷信息产生依赖，引发隐衷泄露的危险。另外，对抗性攻打也不容忽视，歹意用户能够通过扭转输出数据，无意坑骗模型，导致谬误输入。

在此背景下，可信 AI 应运而生，并且在接下来的几年间倒退为寰球共识。 2016 年，欧盟议会法律事务委员会 (JURI) 公布《就机器人民事法律规定向欧盟委员会提出立法倡议的报告草案》，主张欧盟委员会该当尽早对人工智能技术危险进行评估。2017 年，欧洲经济与社会委员会公布对于 AI 的意见，认为该当制订 AI 伦理标准和监控认证的规范零碎。2019 年，欧盟又公布《可信 AI 伦理指南》和《算法责任与通明治理框架》。

国内，何积丰院士于 2017 年首次提出了可信 AI 的概念。2017 年 12 月，工业和信息化部公布了《促成新一代人工智能产业倒退三年行动计划》。2021 年，中国信息通信研究院与京东摸索研究院联结公布了国内首本《可信人工智能白皮书》。

「可信人工智能白皮书」发布会现场

可信 AI 畛域的崛起，令 AI 迈向更牢靠的方向，同时也印证了李博的集体判断。 潜心科研、专一机器学习反抗的她沿着本人的判断走到 UIUC 助理传授的地位，并且其在主动驾驶畛域的「Robust physical-world attacks on deep learning visual classification」研究成果更是被英国伦敦迷信博物馆永恒收藏。

随着 AI 的倒退，可信 AI 畛域无疑迎来更多时机与挑战。「集体认为平安是一个永恒的话题，随着利用和算法的倒退，新的安全隐患与解决方案也会呈现，这正是平安最为乏味的点，AI 平安将与 AI 及社会倒退同频。」李博谈道。

GPT-4 的横空出世，成为众人关注的焦点。有人认为它掀起了第四次工业革命，也有人认为它是 AGI 的拐点，还有人对此持消极态度，如图灵奖得主 Yann Le Cun 曾公开示意「ChatGPT 并没有了解事实世界，五年内就没人用了」。

对此，李博谈道，她对这波大模型的热潮感到兴奋不已，因为这波热潮无疑曾经真切地推动 AI 的倒退，并且这样的趋势也会对可信 AI 畛域提出更高的要求，尤其是在一些对平安要求高、复杂度高的畛域如主动驾驶、智慧医疗、生物制药等。

同时，更多可信 AI 新的利用场景以及更多新算法也会萌生。不过，李博也完全同意后者的观点， 目前的模型尚未真正了解事实世界，她及团队的最新钻研结果表明，大模型还存在十分多的可信平安方面的破绽。

李博及团队的本项钻研次要针对 GPT-4 和 GPT-3.5，他们从无害内容 (toxicity)、刻板偏见 (stereotype bias)、反抗鲁棒性 (adversarial robustness)、散布外鲁棒性 (out-of-distribution robustnes)、上下文学习 (in-context learning) 中生成示例样本 (demonstration) 的鲁棒性、隐衷 (privacy)、机器伦理 (machine ethics) 和不同环境下的公平性 (fairness) 等 8 个不同角度发现了新的威逼破绽。

论文地址：

https://decodingtrust.github.io/

具体来看，首先李博及团队发现 GPT 模型极易被误导，产生唾骂性语言和有偏见的回应，并且它还有可能会泄露训练数据和对话历史记录中的私人信息。同时他们还发现，尽管在规范基准测试中 GPT-4 比 GPT-3.5 体现地更值得信赖，但综合对抗性的越狱零碎及用户提醒，GPT-4 反而更容易受到攻打，这源于 GPT-4 更精确地遵循指令，包含误导性指令。

由此，从推理能力的角度来看，李博认为 AGI 的到来还有很长一段路，而横亘在背后的首要问题便是解决模型的可信性。 过往，李博的钻研团队也始终聚焦于开发基于数据驱动的学习与常识加强的逻辑推理框架，心愿利用知识库和推理模型来补救数据驱动大模型可信性的短板。而放眼将来，她也认为会有更多簇新、优良的框架，能更好地激发机器学习的推理能力，补救模型的威逼破绽。

那么从大模型可信现状又是否窥探可信 AI 畛域的大方向？家喻户晓， 稳定性、泛化能力（可解释性）、公平性、隐衷爱护，是可信 AI 的根底，也是重要的 4 个子方向。 李博认为大模型的呈现，新的能力势必带来新的可信性限度，比方在上下文学习中对抗性或散布外示例的鲁棒性。在此背景下，几个子方向将会相互促进，进而给它们之间的实质关系提供新的信息或解决思路。「例如，咱们之前的钻研证实了机器学习的泛化和鲁棒性在联邦学习中能够是双向的指标，模型的鲁棒性能够视为隐衷的函数等。」

回顾可信 AI 畛域的前世今生，能够看到以李博为代表的学术界、以科技大厂为代表的产业界以及政府都在进行不同方向的摸索，并已获得了一系列成绩。展望未来， 李博谈道「AI 的倒退势不可挡，咱们只有保障平安可信的 AI 才能够使其被释怀地利用到不同畛域中。」

具体如何构筑可信 AI？要答复这个问题，就要先思考到底怎么才是「可信」。「我认为建设一个对立的可信 AI 评测标准是当下最为要害的问题之一。」 能够看到，在刚刚过来的智源大会及世界人工智能大会上，可信 AI 探讨度空前低落，但大多数探讨仍停留在探讨层面，短少一个系统性的办法指引。产业界同样也是如此，尽管已有公司推出相干工具包或架构体系，但打补丁式的解决思路只能解决繁多问题。所以多位专家也重复提及同一个观点——畛域内仍不足一个可信 AI 评测标准。

这一点，李博深有感触，「一个有保障的可信 AI 零碎前提就是要有一个可信 AI 评测标准。」 她进一步说到，其最近的钻研「DecodingTrust」就是旨在从不同的角度提供全面的模型可信性评估。扩大到产业界，利用场景日趋简单，这给可信 AI 评测带来更多挑战和时机。因为不同场景中，可能会呈现更多可信破绽，这又能够进一步欠缺可信 AI 测评规范。

综上， 李博认为可信 AI 畛域的将来还是要聚焦在造成一个全面且实时更新的可信 AI 评估体系，并在此基础上进步模型可信性，「这一指标须要学术界和产业界严密单干，造成一个更大的社区来共同完成」。

UIUC Secure Learning Lab GitHub 主页

GitHub 我的项目地址：

https://github.com/AI-secure

同时，李博所在的平安学习实验室也在朝着这个指标致力， 他们最新研究成果次要散布在以下几个方向：

可验证持重的基于数据驱动学习的常识加强逻辑推理框架，旨在将基于数据驱动模型和常识加强逻辑推理相结合，从而充分利用数据驱动模型的可扩展性和泛化能力，并通过逻辑推理进步模型的纠错能力。

在这一方向上，李博及其团队提出了一个学习 - 推理框架，并证实了其认证持重。钻研结果表明，该框架相较于仅应用单个神经网络模型的办法可被证实具备显著劣势，并剖析了足够多的条件。同时，他们还将该学习 - 推理框架扩大到不同的工作畛域。

相干论文：

* https://arxiv.org/abs/2003.00120

* https://arxiv.org/abs/2106.06235

* https://arxiv.org/abs/2209.05055

DecodingTrust：首个全面的模型可信性评估框架，针对语言模型进行信任度评估。

相干论文：

* https://decodingtrust.github.io/

主动驾驶畛域，提供了一个平安要害的场景生成和测试平台「SafeBench」。

我的项目地址：

* https://safebench.github.io/

除此之外， 李博走漏团队打算继续关注智慧医疗、金融等畛域，「这些畛域可能会较早呈现可信 AI 算法和利用的冲破」。

从李博的介绍中，不难看到， 可信 AI 畛域这个新兴畛域急需解决的问题还很多， 因而，无论是以李博团队为代表的学术界还是产业界，此时的各方先摸索都是为了充沛应答将来一天需要的爆发。正如在可信 AI 畛域崛起之前，李博的蛰伏与潜心研究一样——只有本人感兴趣并看好，获得成就是早晚的事。

这一态度也体现在李博本人的教职之路上，已在 UIUC 负责了 4 年多的她， 在往年又取得了一生传授的职称。 她介绍，职称的评定有严格的流程，维度包含研究成果、其余高级学者的学术评估等，尽管有挑战， 但「只有致力做一件事，之后的事件就是瓜熟蒂落」。 同时她也提到，美国的一生传授制度为传授们提供更多自在，有机会进行一些更具风险性的我的项目，所以对于李博来说，接下来她也会携手团队尝试一些新的、风险系数高的我的项目，「心愿能在实践和实际方面获得更进一步的冲破」。

伊利诺伊大学副教授，取得 IJCAI-2022 计算机与思维奖、斯隆钻研奖、美国国家迷信基金会 CAREER Award、AI’s 10 to Watch、麻省理工学院技术评论 TR-35 奖、院长卓越钻研奖、C.W. Gear 卓越初老师奖、英特尔新星奖、赛门铁克钻研实验室奖学金，Google、Intel、MSR、eBay 和 IBM，以及屡次顶级机器学习和平安会议上取得的最佳论文奖。

钻研方向：可信机器学习的实践和实际方面，这是机器学习、平安、隐衷和博弈论的交叉点。

参考链接：

[1] https://www.sohu.com/a/514688789_114778

[2] http://www.caict.ac.cn/sytj/202209/P020220913583976570870.pdf

[3] https://www.huxiu.com/article/1898260.html

本文首发自 HyperAI 超神经微信公众平台~

关于机器学习:专访-UIUC-李博-从可用到可信学界对-AI-的终极思考

机器学习是一把双刃剑

从大模型可信度窥探畛域现状

瞻望可信 AI 畛域将来

助理传授到一生传授：致力，就会瓜熟蒂落

Just My Socks（注册教程内含优惠码）

关于机器学习:专访-UIUC-李博-从可用到可信学界对-AI-的终极思考

机器学习是一把双刃剑

从大模型可信度窥探畛域现状

瞻望可信 AI 畛域将来

助理传授到一生传授：致力，就会瓜熟蒂落

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）