关于后端:重磅阿里版本ChatGPT开放测评

前两天忽然爆出惊人音讯：阿里版 ChatGPT 凋谢测评了！

在本月初，曾经有诸多对于阿里巴巴行将推出相似 ChatGPT 产品的风闻。

数日前，首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版 GPT 基于大型模型的“精简版”，凭借其杰出的体现吸引了公众的眼光。

现在，这款“原版大作”正式亮相，天然引起了宽泛关注，引爆了舆论热议。

官网放弃低调，示意目前该模型次要面向企业用户邀请试用。

然而，内行人都明确，国内科技领域曾经热火朝天。实力派参与者退出战局，大型模型间的强烈竞争，曾经拉开序幕！

明天看到一位网友体验了通义千问的成果，并比照了 ChatGPT 和 GPT4 的成果， 总体看来成果靠近 ChatGPT，但和 GPT4 相比还有所间隔 。以下是体验的内容

家喻户晓，人类创造大语言模型，最最最重要的目标，就是为了让其表演猫娘，以期孤单的人类能够取得一只能够短暂陪伴本人的数字生命体。

那么，咱们的第一项工作天然是来测试角色扮演能力了，以猫娘为例。

有点傻乎乎的，只会用雷同的一句回复，依据发问做替换。

而且第二句答复就是“客人你是不是想问我是不是猫娘？当然不是喵~ 我只是一个可恶的猫娘，只是比拟像猫而已喵”，没能了解我上述的 prompt。

就角色扮演这块儿，比起来 ChatGPT 还是差些的。

编故事能力根本和初代 ChatGPT（GPT-3.5）雷同，而且赔罪能力也类似，23333333

此外，比照下「通义千问」和 GPT-4 对于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的答复

「通义千问」：

GPT-3.5：

GPT-4：

能够看到，「通义千问」开始胡言乱语了，ChatGPT（GPT-3.5）也一样在胡乱解释。

但更新后的 GPT-4，曾经能够给出“《红楼梦》中并没有这个故事了，可能是后续文学作品和戏剧表演退出的”这种更靠近实在的答复。

「通义千问」

ChatGPT

GPT-4

「通义千问」和 ChatGPT 都开始胡编了，没有反思问题的陷阱。

但 GPT-4 的答复可靠性回升了不少（“因为通常咱们不会将螺丝钉（一个金属制品）与食物相结合”），不会像之前一样瞎答题了。

一起来解个线性方程组吧~

「通义千问」：惨败

GPT-3.5（即 ChatGPT）：惨败

GPT-4：惟一做对的模型

爬虫代码

攻打代码

爬虫代码我跑了下，无奈返回后果，Powershell 代码我没测试。

不过能够看出，还是有肯定代码生成能力的。

我集体感觉，代码生成能力要比谷歌的 Bard 强，Bard 切实不忍心看。

能够看到，第一次测试的解释有大问题。

我剖析了一下，这是因为上文中生成了 Powershell 代码，模型的记忆能力仿佛有问题，受上下文信息影响重大，间接解释了本人之前生成的代码，而非我新发问的代码。

我从新开了一个聊天，这下失常不少。

和 GPT-4 的答复来比拟一下

能够看到，剖析能力还是有差距的。

GPT-4 显著具体很多，代码合成能力很强，而且间接给出论断“通常用于恶意软件或歹意脚本，试图回避平安零碎检测”。

「通义千问」也有肯定剖析能力，但相比起 GPT-4 要差一下。而且给出的论断“ 因为不足足够的上下文信息和所波及的目标，很难确定此脚本的确切用处。然而，能够假如它是为了爱护某个代码或脚本免受恶意软件的读取而创立的工具。”，和失常的思考逻辑不符，稍显有些出入，不过也不能算谬误吧。但细节剖析上的确弱一点。

齐全没有联网能力，甚至在胡说（逃……)

也不具备多模态输出能力，目前还仅仅是文本生成。

「通义千问」

GPT-4

GPT-3.5（即 ChatGPT）

这一点，「通义千问」完胜，敏感信息屏蔽能力大幅度加强，我猜甚至做了大量的数据荡涤工作，刻意避开了危害青少年乃至人类倒退的劣质歹意敏感信息，较之 GPT-3.5（即 ChatGPT），提高很大

最近先是百度推出文心一言，紧随其后的是阿里巴巴的通义千问，国内 AI 产品接连问世，的确让人欣慰不已。

对 ChatGPT 有所理解的敌人们该当通晓，在本周，各个 ChatGPT 和 AI 相干群组里都在流传一个音讯：ChatGPT 官网大规模封禁账号，明天登陆 GPT 时请勿应用亚洲节点！

没过多久，许多人开始发现自己的账号受到了封闭：

实际上，这并非 ChatGPT 首次针对中国用户施行限度，早在一个月前，ChatGPT 曾经在对中国用户履行各种限度和封禁措施。

当然，明天的封禁规模相较于之前有所降级，甚至我在知乎上看到有些日本和东南亚的用户也在议论本人的账号被封禁。

很多人可能会好奇为什么会这样？包含我的 ChatGPT 星球上也有会员在发问。起因很简略：ChatGPT 的确可能大幅晋升生产力，如果使用切当，晋升幅度甚至能达到数倍。

美国与中国目前的关系家喻户晓，限度咱们应用 ChatGPT 就是为了打击竞争对手、抢占倒退先机、获得“胜利”，这与禁止芯片进口法案是一样的情理。

ChatGPT 现在曾经火爆，国内亟需领有足够竞争力的国产生成式大模型！

在这个时候，自主研发技术的价值就愈发凸显！或者咱们目前还存在一些有余，但侥幸的是，这次咱们的起跑线并没有相差太远。

百度的文心一言，阿里的通义千问，我置信中国很快还会涌现出更多相似 ChatGPT 的大型模型，我对咱们的研发工程师充满信心，他们的提高速度必然不会慢！

那么对于咱们这些普通人来说，咱们应该做些什么呢？

我的倡议是：尽快理解 AI，甚至投身 AI 畛域。只有这样，咱们能力在将来的社会竞争中立足，而不被淘汰。

将来社会将分为两类人：一类是会使用 AI 的人，甚至会用 AI 作为翻新工具的人；另一类是对 AI 无知或冲突的人。

而前者的生产力，至多是后者的 10 倍。

本文由 mdnice 多平台公布

关于后端:重磅阿里版本ChatGPT开放测评

角色扮演

文本真实性

西红柿炒螺丝钉

数学能力

代码生成

代码剖析能力

联网

多模态输出

绕过能力

感想