关于人工智能:超越规模的冒险之旅引导人工智能价值对齐

在茫茫技术之林中，人工智能凭借大模型占据了重要位置。

人们曾经不再局限于人机对弈和 AI 识图，开始摸索那些可能模拟人类思考的机器。无论是日常聊天、文本写作，还是在完满的提醒词疏导下创作出惊艳的诗歌，咱们不得不抵赖 AI 工具曾经不再仅仅是工具。它们与共事、搭档无异。

据风闻，这些生成式 AI 模型每年可能可能为寰球经济注入数万亿美金——这显然不是一个小数目。

然而问题恰好在此。

如果计算机越来越像人类，那人类的特质——才华、创造力和偏见、盲区都会被学习。这不仅是让 AI 变得更聪慧，更是赋予它智慧。技术专家称之为人工智能对齐或价值对齐。

更直白地说，就是确保人工智能运行良好，不会偏离咱们预期的轨道。

模型越宏大，呈现谬误的可能性也就越高。

大模型的学习形式是吸取互联网上的海量信息，再将这些内容用作输入。这些内容参差不齐，所以当一个模型具备互联网上的所有常识（当然也包含神话、偏见和午夜阴谋论）时，小到拼写错误，大到重大失误，都更有可能呈现。

那么危险何在？

如果没有这种对齐，单纯的人工智能在执行稍有误导性的工作时就可能会输入无害或危险内容，被不怀好意的人利用，或者让一些软弱的人走上不归路。

因而，人工智能对齐实质上是人工智能的领导准则，或者说，是人工智能的良心。

在这个人工智能可能很快就要和智能手机一样遍及的时代，这才是咱们应该认真思考、正确对待的事件。

咱们的数字敌人是否理解事实、是否隐含偏见、是否晓得它们本身的力量为什么这么重要呢？

起因如下：

人工智能的“事实漂移”– 人工智能并不是全知全能的。有时，它会误入虚构世界。OpenAI 的首席技术官 Mira Murati 指出，咱们健谈的 AI 搭档 ChatGPT 偶然会一头扎进空想，在一些显著不实在的事件上体现得过于自信。这有点像给莎士比亚一台打字机，而后冀望每个后果都合乎历史。要解决这一问题，就要在人工智能的幻觉和确凿的事实之间找到均衡，这将是新的前沿。
镜中的 AI – 人工智能实质上反映了咱们的世界，无论好坏。有时，这些折射进去的后果可能不太令人欢快。依据 OpenAI 的首席执行官 Sam Altman 所言，冀望人工智能齐全放弃主观、没有偏见的难度堪比互联网上对于最佳的披萨配料的观点达成统一。真正的难题不在发现偏见，而是晓得在不可避免的状况下如何解决。
AI 意外的增长点 – 有一个乏味的想法：如果你的人工智能某天忽然开窍，把握了一个全新的意料之外的技巧呢？随着模型的演进倒退，它们可能会让咱们大吃一惊，但并不总是以咱们观赏的形式。有些人对这个想法感到不安，认为这些零碎可能会有一天倒退出本人的野心，就像一个蹒跚学步的孩子意识到本人能够爬上家具一样，更令人担忧。
双刃剑 – 如果你把握正确的办法，任何工具都能够成为威力弱小的武器。随着 AI 能力的扩大，通过奇妙操纵或间接劫持 AI 进行非法操作的危险一劳永逸。

让人工智能始终合乎人类价值观，不仅仅是崇高的哲学指标。这是为了保障人工智能在迈入更广大的畛域时，仍旧可能优雅、负责，并且最重要的是，可能以人类的最大利益为出发点。

如何使机器体现得体？事实证明，并不需要与它进行庄重的对话，而是波及到简单的训练技巧来保障 AI 可能了解且尊重人伦道德。

让咱们深刻探讨。

将基于人类反馈的强化学习（RLHF）视为对人工智能的一种造就形式。

与其让人工智能通过重复试验来摸索事物，不如让人类间接干涉，疏导它朝着冀望的方向后退。
2017 年，OpenAI 的试验揭示了 RLHF 如何依照人类偏好塑造人工智能的行为。这种办法实质上是在人工智能表现出色时给予夸赞，在它出错时温顺揭示。

这里有一个充斥野心的想法：如果咱们可能构建一个监控另一个人工智能的人工智能，会怎么样？

与其让人类追赶一直增长的模型，不如依附人工智能本身来进行一些反思。

AI 平安公司 Anthropic 提出了这个理智的想法，称之为“原发人工智能”。设想一下一个 AI 助手，查看主 AI 是否恪守预约义的一套规定，一种数字版大宪章。Anthropic 参考了人权宪章、可能疏忽的条款和其余技术指南，为他们的 AI 助手 Claude 设计了一套弱小的规定。最终后果是失去一个三思而行的 AI，保障它有用且体现良好。

既要充分发挥人工智能的力量，又要使其受到道德束缚，这无疑是一项多方面的挑战。

如果咱们将这个问题拆开来看，就会发现这是 被动调整和被动措施的有机对立。

从本源干涉：训练数据 – 无论是假造故事（即人工智能幻觉的呈现），还是反映进去的偏见，这些怪异的行为通常能够归因于训练数据。因而，首要任务是着手深入研究数据自身。记录训练数据以确保其多样性和代表性，仔细检查以发现和纠正偏见，甚至创立专用数据集用于价值对齐，都是打算中的一部分。这有点像在向上盖高楼时要先确保地基牢固。
内容把关：过滤模型 – 训练人工智能是一回事，确保它不会说出不该说的话是另一回事。这就须要像 OpenAI 开发的模型这类专门的过滤人工智能模型。这些模型监督用户输出和人工智能的输入，指出可能越界的内容。
魔镜：进步模型可解释性 – 透明度和可了解性在人工智能中不仅仅是说说而已，而是咱们对齐工具箱中的重要工具。例如，OpenAI 训练 GPT- 4 进行自我反思，撰写了无关前身 GPT- 2 神经行为的自动化解释，甚至对其进行了评分。同时，其余钻研人员通过深入研究机械可解释性来解决对齐问题，逐层揭示人工智能的外在机制。

这段将人工智能与人类价值观对齐的旅程，波及干涉、测试、过滤和最重要的了解。这样就确保随着倒退，AI 不仅晓得本人的力量，还可能明智地使用。

在广大的人工智能钻研畛域，” 价值对齐 ” 的概念仿佛尤为重要。

随着深入研究，咱们显然正处于一个充斥可能性与挑战性的十字路口，思考伦理、技术和或者还有一点存在主义。

科技前沿往往以迅猛发展为标记。但当咱们着手将人工智能与人类价值观对齐时，问题就呈现了：咱们是从精心策划的价值观列表中进行抉择，还是应该退一步识别更广泛更大众化的的社会法则？

人工智能畛域曾经获得了一些停顿，但达成一个广泛承受的 ” 人类价值观 ” 汇合就像是在试图装瓶云朵，是有形的、难以捉摸的，却又无尽迷人。

人工智能演进速度迅猛。它在提高，而且在飞速后退。咱们的监督和理解能力正在受到考验。咱们该如何与计算深度可能很快难以把握的实体协同工作？

OpenAI 最近组建了一个 ”Superalignment” 团队，是这一挑战的象征。这是人类为了让人工智能内省，解决其本身对齐问题而付出的致力。

咱们的最终目标不仅仅是监管，而是将这些数字奇观与人类的最高尚欲望同步。技术专家、政策制定者、学者和远见者的个体致力将决定咱们的前进方向。这是为了确保随着人工智能达到巅峰，它会与咱们独特的精力共鸣。

这段人工智能的旅程，于人类而言，意义不在于目的地，而是充斥挑战和奇观的冒险过程。前路漫漫，咱们要做的还有很多。

关于人工智能:超越规模的冒险之旅引导人工智能价值对齐

人工智能的钢索之行：价值观、假相和势力窘境

进入人工智能道德迷宫：老手指南

通过人性化的疏导学习

人工智能自我管理：规定办法

最佳实际的四重奏

穿梭人工智能的迷宫：马拉松，而不是长跑