关于人工智能:GPT4-剑指多模态前有谷歌-PaLMEAI-格局要变

本文首发自 HyperAI超神经微信公众号~

美东工夫 3 月 14 日，OpenAI 重磅推出大型多模态模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天机器人背地的技术根底。OpenAI 称，GPT-4 能承受图像和文本输出，输入文本内容，尽管在许多事实场景中的能力不如人类，但在各种业余和学术基准测试中已体现出人类程度。

GPT-4 突袭落地：三大个性吸睛

GPT-4 此次更新，次要有三个飞跃式晋升的新个性：文字输出限度晋升、具备识图能力以及更强的推理能力。

内容更长更丰盛

据 OpenAI 说法，GPT-4 可能解决超过 25,000 个单词的文本。Medium 作家 Michael King 对此谈道，此个性容许创立长篇内容，例如文章和博客，可能为企业和集体节省时间和资源。

此外，GPT-4 对大量文本的解决使扩大对话成为可能，这意味着，在服务业等行业中，人工智能聊天机器人能够对客户的查问提供更具体、更具洞察力的响应。同时，此个性还能进行高效地文档搜寻和剖析，从而成为金融、法律和医疗保健等行业的无利工具。

更具推理能力

OpenAI 示意，GPT-4 生成的答案谬误更少，正确性要比 GPT-3.5 高 40%。同时，GPT-3.5 与 GPT-4 在闲聊时差异不大，但若工作够简单，GPT-4 要比 GPT-3.5 更牢靠、更有创意且能解决更多奥妙指令。据悉，GPT-4 加入了多种基准考试测试，其中在 Uniform Bar Exam、LSAT 等考试中，得分要高于 88% 的应试者。

亮眼新个性：多模态

除了答题能力更胜一筹之外，GPT-4 另一个亮眼的个性就是能够承受文本和图像模式的输出，图像类型能够是照片、图表以及屏幕截图等。比方以下例子：

问题：这幅图有什么好笑的? 逐条形容它。

GPT-4 答复：该图像显示了一个蕴含三个图片的「 Lightning Cable 」适配器。
图1：一个智能手机与 VGA 连接器（一个大型，蓝色，15 针连接器通常用于计算机显示器）插入其充电端口。
图2：「 Lightning Cable 」适配器的封装，下面有一个 VGA 连接器的图片。
图3：VGA 连接器的特写镜头，最初是一个小型 Lightning 连接器（用于为 iPhone 和其余苹果设施充电）。
这张图片中的风趣来自于将一个过期的大型 VGA 连接器插入一个小型的古代智能手机充电端口的荒谬性。

须要留神的是，此个性还处于研究者预览版本，并没有对外开放，OpenAI 尚未走漏凋谢工夫。

「它并不完满」

在介绍 GPT-4 的新性能的同时，OpenAI 也坦言了它的一些局限性。与之前版本的 GPT 一样，GPT-4 依然存在 social biases、hallucinations 以及 adversarial prompts 等问题。换句话说，目前来看 GPT-4 并不完满。但 OpenAI 也示意，这些都是他们正在致力解决的问题。

多模态模型：谷歌领先上「前菜」

尽管多模态是 GPT-4 一大亮眼个性，但不得不说，GPT-4 并不是惟一的多模态模型。

微软 AI 技术专家 Holger Kenn 介绍所谓多模态模型，是其不仅能够将文本相应地翻译成图像，还能够翻译成音频和视频。而早在本月初，谷歌就已公布史上最大的视觉语言模型——PaLM-E (Pathways Language Model with Embodied)，一个可用于机器人的嵌入式多模态语言模型。PalM-E 整合了 540B 的 PaLM 语言模型和 22B 的 ViT 视觉模型，因而具备 562B 参数。

钻研人员在多个工作，包含机器人操作规定、视觉问答和图像字幕中等进行了端到端的训练，评估结果表明该模型可能能无效地解决各种推理工作，并在不同的察看模态和多个实体上体现出了「正向转移 (positive transfer)」，并且该模型除了承受机器人工作训练，还在视觉-语言工作上有杰出的体现。

展现示例中，当人类收回「把抽屉里的薯片拿给我」的指令时，PaLM-E 能够为一个装有机械臂的机器人生成一个口头命令并执行口头，其通过剖析来自机器人摄像头的数据实现，而无需对场景进行预处理。

除了赋予机器人以上能力，PaLM-E 自身也是视觉语言模型，能够看图说故事，或者根据图片内容答复问题。

多模态模型等同「iPhone 」公布？

现在看来，整个 AI 畛域正在紧锣密鼓地发展军备赛。面对 ChatGPT 的爆火，谷歌紧急公布 Bard 步步紧逼，近日又再次出击，凋谢自家的大语言模型 API 「PaLM API」，同时还公布了一款帮忙开发者疾速构建 AI 程序的工具 MakerSuite。

尽管 OpenAI CEO Sam Altman 前不久在承受采访时，仍对 GPT-4 的公布工夫放弃神秘，声称「咱们要在公布时，确定它是平安且负责任的」，但 GPT-4 这一波突袭，不免让人猜想是否是因为面对谷歌等巨头一直地出击和围剿，迫使它的步调减速。

须要留神的是，Sam 采访中还谈到一个观点，人工智能的下一个进化阶段正是多模态大模型的到来。「我认为这将是一个大趋势…更广泛的是，这些弱小的模型将成为真正的新技术平台之一，这是自挪动平台以来咱们没有领有过的。」

此次 GPT-4 的重磅公布，是否标记着多模态模型时代正式到来，尚须要工夫证实，但其弱小的能力曾经开始让很多开发者甚至普通人担心本人是否会被其取代。这一点，或者微软德国 CEO Marianne Janik 几天前的公开舆论能够作为答案，她认为以后 AI 倒退就像当年「iPhone 呈现」，同时，她也明确示意这不是要取代工作，而是要以与以前不同的形式实现重复性工作。

「改革会使得传统的工作模式发生变化，但咱们也应该看到，这种变动减少了很多新的可能性，因而，也会呈现让人兴奋的新职业。」

参考链接：

[1]https://openai.com/research/gpt-4

[2]https://venturebeat.com/ai/openai-releases-highly-anticipated…

[3]https://palm-e.github.io/

[4]https://medium.com/@neonforge

关于人工智能:GPT4-剑指多模态前有谷歌-PaLMEAI-格局要变

GPT-4 突袭落地：三大个性吸睛

内容更长更丰盛

更具推理能力

亮眼新个性：多模态

「它并不完满」

多模态模型：谷歌领先上「前菜」

多模态模型等同「iPhone 」公布？

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:GPT4-剑指多模态前有谷歌-PaLMEAI-格局要变

GPT-4 突袭落地：三大个性吸睛

内容更长更丰盛

更具推理能力

亮眼新个性：多模态

「它并不完满」

多模态模型：谷歌领先上「前菜」

多模态模型等同「iPhone 」公布？

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复