举荐:应用NSDT场景编辑器助你疾速搭建可二次编辑的3D利用场景
一个弱小而专一于做善事的聊天机器人
如您所知,通过GenAI,咱们为AI关上了一个窗口来生成文本或图像之类的货色,这很棒。
但与技术中的任何货色一样,它随同着衡量,因为GenAI模型不足对“好”或“坏”的意识或判断。
实际上,他们曾经通过模拟人类生成的数据来实现生成文本的能力,这些数据通常暗藏着有争议的偏见和可疑的内容。
可悲的是,随着这些模型变得越来越大,无论内容如何,简略地给它任何你能找到的文本的动机都是特地迷人的。
这会带来微小的危险。
对齐问题
因为不足判断力,根底大型语言模型或通常所说的根本LLM特地危险,因为它们非常容易受到学习训练数据暗藏的偏见的影响,因为它们重演了雷同的行为。
例如,如果数据偏差种族主义,这些LLM就会成为它的活生生的体现。这同样实用于同性恋恐惧症和你能设想到的任何其余歧视。
因而,思考到许多人将互联网视为测试他们不道德和不道德极限的完满游乐场,LLM曾经承受了简直所有互联网的培训,没有任何护栏的事实阐明了潜在的危险。
值得庆幸的是,像 ChatGPT 这样的模型是这些根本模型的演变,通过调整它们对人类认为“适当”的反馈来实现的。
这是应用一种被称为人类反馈强化学习(RLHF)的处分机制实现的。
特地是,ChatGPT通过OpenAI工程师的命令性判断进行了过滤,将一个十分危险的模型转变为不仅偏见少得多,而且在遵循阐明方面也更有用和杰出。
不出所料,这些LLM通常被称为指令调整语言模型。
当然,OpenAI工程师不应该负责决定对世界其余中央的好坏,因为他们也有相当多的偏见(文化,种族等)。
援用
归根结底,即便是最有道德的人也有偏见。
不用说,这个过程并不完满。
咱们曾经看到,在一些案例中,这些模型只管据称是统一的,但对用户采取了粗略的、简直是卑劣的形式,正如许多 Bing 所蒙受的那样,迫使Microsoft将交互的上下文限度在事件横盘整顿之前只有几条音讯。
思考到所有这些,当两位前OpenAI钻研人员创建Anthropic时,他们想到了另一个想法...... 他们将应用人工智能而不是人类来对齐他们的模型,并采纳齐全革命性的自我对齐概念。
从Massachusetts到人工智能
首先,该团队起草了一部宪法,其中包含《世界人权宣言》或苹果的服务条款。
通过这种形式,该模型不仅被教诲预测句子中的下一个单词(就像任何其余语言模型一样),而且还必须在它给出的每个响应中思考决定它能够说什么或不说什么的宪法。
接下来,真正的人工智能不是人类,而是负责对齐模型,有可能将其从人类偏见中解放出来。
但Anthropic最近公布的要害音讯不是将他们的模型与人类能够容忍和利用AI的货色对齐的概念,而是最近的一项布告,使Claude成为GenAI和平中坚韧不拔的主导者。
具体来说,它已将其上下文窗口从 9,000 个代币减少到 100,000 个。前所未有的改良,具备无可比拟的影响。
但这是什么意思,这些含意是什么?
所有都与代币无关
让我明确一点,这个“代币”概念的重要性不容忽视,因为只管很多人可能会通知你,LLM 不会预测序列中的下一个单词......至多不是字面意思。
生成响应时,LLM 会预测下一个标记,该标记通常示意 3 到 4 个字符,而不是下一个单词。
当然,这些标记能够代表一个单词,或者单词能够由其中几个组成(作为参考,100 个标记代表大概 75 个单词)。
在运行推理时,像 ChatGPT 这样的模型将你提供给它们的文本分解成几局部,并执行一系列矩阵计算,这个概念被定义为自我留神,将文本中的所有不同标记组合在一起,以理解每个标记如何影响其余部分。
这样,模型就能够“学习”文本的含意和上下文,而后能够持续响应。
问题是这个过程对于模型来说是十分计算密集型的。
精确地说,计算要求与输出长度是二次的,因而您提供的文本(称为上下文窗口)越长,在训练和推理工夫中运行模型的老本就越高。
这些迫使钻研人员大大限度提供给这些模型的输出大小,大概在2,000到8,000个令牌之间的规范比例,后者约为6,000个单词。
能够预感的是,限度上下文窗口曾经重大减弱了LLM影响咱们生存的能力,使它们成为一个乏味的工具,能够帮忙您解决一些事件。
然而,为什么减少此上下文窗口能够开释LLM的最大后劲?
嗯,很简略,因为它解锁了LLM最弱小的性能,上下文学习。
无需培训即可学习
简而言之,LLM具备一种常见的能力,使他们可能“在旅途中”学习。
如您所知,培训LLM既低廉又危险,特地是因为要培训它们,您必须将您的数据交给他们,如果您想爱护您的隐衷,这不是最佳抉择。
此外,每天都有新数据呈现,所以如果你不得不一直地微调——进一步训练——你的模型,LLM的商业案例将相对被拆除。
侥幸的是,LLM善于这个被形容为上下文学习的概念,这是他们在不理论批改模型权重的状况下学习的能力。
换句话说,他们能够学会答复您的查问,只需向他们提供所需的数据,同时您向他们申请您须要的任何内容......无需理论训练模型。
这个概念,也称为零镜头学习或少镜头学习(取决于它须要多少次看到要学习的数据),是LLM应用他们以前从未见过的数据精确响应给定申请的能力,直到那个工夫点。
因而,上下文窗口越大,您能够提供给它们的数据就越多,因而它能够答复的查问就越简单。
因而,只管小上下文窗口能够用于聊天和其余更简略的工作,但它们齐全无奈解决真正弱小的工作......直到现在。
秒内星球大战传奇
我会进入正题。
正如我之前提到的,最新版本的 Claude 1.3 版能够一次性摄取 100,000 个代币,或大概 75,000 个单词。
但这并不能通知你很多,不是吗?
让我给你一个更好的理解,什么是适宜75,000字。
中题目
从弗兰肯斯坦到阿纳金
你当初正在浏览的文章不到2字,比Claude当初一口气摄入的文章少了000.37倍以上。
然而什么是可比规模的例子? 好吧,更具体地说,75,000字代表:
大概玛丽雪莱的弗兰肯斯坦书的总长度
整本《哈利·波特与魔法石》全书,共 76,944 字
任何纳尼亚传奇书籍,因为所有书籍的字数都较小
最令人印象粗浅的是,它足以包含多达 8 部星球大战电影的对话......组合的
当初,思考一个聊天机器人,它能够在几秒钟内让你有能力向它询问任何你想要的对于任何给定文本的信息。
例如,我最近看了一个视频,他们给了Claude一个长达五个小时的约翰·科马克播客,这个模型不仅可能用几个词总结整个播客,还可能在五个小时的演讲中指出在一个准确的时刻所说的特定内容。
令人难以置信的是,这个模型不仅可能用75,000字的成绩单做到这一点,而且令人兴奋的是,它还能够应用它第一次看到的数据。
毫无疑问,对于学生、律师、钻研科学家以及基本上任何必须同时解决大量数据的人来说,这是巅峰解决方案。
对我来说,这是人工智能的范式转变,这是咱们很少见过的。
毫无疑问,真正颠覆性翻新的大门曾经为法学硕士关上。
令人难以置信的是,人工智能在短短几个月内产生了怎么的变动,每周的变动速度也有多快。咱们惟一晓得的是它正在发生变化......一次一个令牌。
原文链接:ChatGPT被废黜:Claude如何成为新的AI领导者