关于开源:如何使用开源构建可信赖的人工智能

49次阅读

共计 3068 个字符，预计需要花费 8 分钟才能阅读完成。

申明：本文是 Diana Atanasova 和 Teodora Sechkova 所著文章《How to Bulid Trustworthy AI with Open Source》的中文译文。

点击这里看原文：How to Build Trustworthy Artificial Intelligence with Open Source

人工智能（AI）是一套让机器可能智能地行事的技术，甚至可能比人类更好。人工智能曾经来到了钻研实验室，并且曾经在扭转咱们生存的方方面面：沟通、娱乐、工作、做生意的形式，甚至生存和思考形式。通过人工智能零碎的自动化能够带来微小的经济和社会效益，甚至有心愿帮忙解决寰球挑战。而这所有才刚刚开始，随着人工智能的采纳越来越多，也带来了犯错的危险。

当咱们大规模利用人工智能时，咱们须要确保咱们推广牢靠、持重和值得信赖的解决方案。既然这始终是咱们构建软件系统的首要指标，当初有什么不同呢？人工智能与传统软件的不同之处在于它不会收到对于做什么的明确批示；相同地，它通过奇妙地推导算法，从过来的数据中发现具备统计学意义的模式。换句话说，数据决定了人工智能零碎的行为形式。

这种预测性人工智使咱们可能创立更弱小的应用程序。当初咱们正在向人工智能零碎提出新的问题，但咱们的问题有时是主观的、有争议的，或者没有惟一正确答案的。当它们是低危险时，它所提供的答案是概率性的，例如 “ 你很可能会喜爱这些电影 ”，即便它们失误，也不是灾难性的。相同，当后果波及咱们的衰弱、法律、主动驾驶等时，误差率是很有影响的。技术人员应该审慎地利用人工智能。在没有监督的状况下，咱们不能间接将人类和道德窘境转移给机器。那么，人工智能零碎及其依赖的数据的安全性和可信度如何？

因为人工智能零碎重大依赖数据，咱们必须审慎地确保咱们始终向它提供高质量和无偏见的数据。以下是一些实在案例：

新员工的筛选流程通常包含人工智能零碎，旨在提供一种简化的、无偏见的办法来筛选资格并放大候选人的范畴。亚马逊始终在应用这种人工智能零碎，但起初发现它对女性有偏见。该零碎自我学习，认为男性候选人更适宜做技术工作。
不失当或不清晰的数据标签或不均衡的数据有时会导致不利的算法后果。原始数据通过筛选和标记，为训练机器学习模型提供有意义的上下文。ImageNet 是一个领有数百万张图片的图像数据库，可供钻研和教育应用。负责辨认鸟、车或花照片的程序员发现其引入了不必要的偏见。例如，一张年老女子喝啤酒的照片被归类为“酗酒者”。此外，ImageNet 的用户发现该数据库在性别和肤色方面也存在不均衡。
在美国的医疗保健行业，一种算法能够帮忙医院和保险公司确定哪些病人可能受害于额定的 “ 高风险护理治理 ” 打算。该算法被发现对黑人患者不公正。次要起因是用于训练它的输出参数之一是病人过来的医疗收入。起初证实，评估过来的医疗费用对将来衰弱好转的预测齐全没有影响。

这些例子表明，伦理问题可能来自各种不同的起源。随着人工智能被大规模地利用于解决关键问题，咱们须要留神不要放大偏见。以上这些例子中的问题尽管都是无歹意的，而且都曾经被解决了，然而它们曾经扭曲了本来精心创立的算法的后果。

可解释的人工智能是一个对于机器学习（ML）可解释性技术的钻研畛域，旨在了解机器学习模型的预测，并以人类可了解的术语进行解释，以建设与利益相关者的信赖。可解释的人工智能是更宽泛的、以人为本的负责任人工智能实际的要害局部。可解读的解释为监管机构提供了可信的元数据，以便将意外的预测溯源，为纠正口头提供根据。

如何确定咱们的机器学习零碎正在做出正确的决定？通常，咱们将机器学习零碎看作一个黑盒子，软件变得更加弱小和简单，但却不那么通明。

机器学习零碎不仅容易受到已知的软件威逼，还会引入一组全新的攻打向量。“对抗性机器学习”一词是为了形容误导机器学习零碎的歹意行为而发明的。所谓的对抗性样本可能会误导人工智能零碎并导致危险状况。攻击者能够使分类器将一个稍加批改的物理停车标记解读为“限速 45 英里”标记。这种烦扰可能是一组黑白贴纸，对手能够将其附着在物理路线标记或模拟涂鸦上。

材料起源：康奈尔大学

在另一个例子中，眼镜框被用来假冒名人，这表明有可能呈现物理上可实现的攻打，以假冒身份或回避人脸识别零碎。社交平台应用人工智能来禁止上传含有暴力的视频或图片。通过应用对抗性攻打，用户能够克服这些限度。

材料起源：ACM 数字图书馆

一旦面临新的挑战，就须要设计解决方案了。一种可能的做法是，任何公司都将人工智能纳入其产品线或外部工具，以独立解决这些问题。这样做的益处是能够为专有市场创立定制解决方案，并在较小的规模上运行良好。但实现一个值得信赖的人工智能是一项艰巨的工作，开源软件社区通过构建和共享公共知识库提供合作，大大增加了胜利的机会。事实上，应用最宽泛的机器学习框架都是开源我的项目，社区的需要进一步推动了它们的倒退。TensorFlow、PyTorch 和 Kubeflow 是其中几个沉闷的我的项目。

如何在泛滥现有的我的项目和生态系统中找到本人的方向？与其他软件一样，开源软件也须要治理。Linux 基金会人工智能与数据部（LF AI & Data）就是这样一个组织，它主持并促成与 AI 相干的开源我的项目的合作开发。除跟踪托管的我的项目外，LF AI & Data 还保护着一个值得关注的 AI 我的项目的交互式全景图，这些我的项目被归为几个大的类别。只有我的项目满足根本规范，都能够申请将我的项目作为交互式地图的一部分。

一个更小的类别是可信和负责任的人工智能。它包含了“可解释性”、“偏见和偏心”、“对抗性”这三个子类别中最受欢迎的开源我的项目的概述，来对应上述的次要挑战。依据你所遵循的准则，你能够比拟并抉择最适宜需要的开源我的项目。除了我的项目的技术能力外，你还能够依附贡献者的数量、最近的提交和版本公布，以及我的项目的许可证等指标来评估我的项目的健康状况。

人工智能零碎带来了有数的新挑战。与构建、部署和保护机器学习模型无关的问题产生了一门名为 MLOps（机器学习操作）的新学科。各种新的安全漏洞发明了人工智能零碎，也对道德、信赖和责任提出了新问题。随着机器学习零碎变得更加弱小、简单，但透明度升高，对“可解释性”的需要减少，这意味着存在合作、钻研和摸索的新机会，以推动简单问题的解决。咱们期待步入这个人工智能驱动技术的新时代。

Diana Atanasova 是 VMWare 开源技术核心的 ML 开源工程师，领有索菲亚技术大学利用数学和信息学硕士学位。她正在为 Kubeflow – ML 工作流框架做出奉献，并对人工智能安全感趣味。

Teodora Sechkova 是 VMware 开源技术核心的开源软件工程师。她目前是 The Update Framework (TUF) 的踊跃贡献者 – 这是一个爱护软件平安的框架。

开源雨林围绕开源通识、开源应用、开源奉献三大方面构建常识体系，愿把长期积攒的教训系统化分享给企业，在团队、机制、我的项目三方面提供单干，推动各企业更高效地应用开源、奉献开源，晋升全行业开源技术与利用程度。
援用
开源雨林的内容已开源，并托管在 https://github.com/opensource…，欢送通过 Pull Request 的模式奉献内容，通过 Issue 的模式展开讨论，独特保护开源雨林的内容。
援用
欢送关注“开源雨林”公众号，获取最新、最全的音讯。

正文完

开源

发表至：开源

2023-02-25

0

关于开源:电科申泰加入龙蜥社区并成为理事单位共创基础软硬件生态新未来

关于开源:SelectDB-创始人兼-CEO-连林江荣获-OSCAR-开源产业大会尖峰开源人物-奖项

关于开源:中国移动受邀参加-OpenInfra-Days-China-2022-并发表演讲

关于开源:开源先锋宋可为做二十年开源是一种什么样的体验

关于程序员:Navicat-激活保姆级教程

关于开源:如何使用开源构建可信赖的人工智能

01 势力越大，责任越大

02 伦理问题

03 可解释的人工智能

04 平安和隐衷

05 开源软件：社区、合作、公共知识库

06 摸索开源我的项目的地图

07 迈向将来

Just My Socks（注册教程内含优惠码）

关于开源:如何使用开源构建可信赖的人工智能

01 势力越大，责任越大

02 伦理问题

03 可解释的人工智能

04 平安和隐衷

05 开源软件：社区、合作、公共知识库

06 摸索开源我的项目的地图

07 迈向将来

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）