关于后端:重磅阿里版本ChatGPT开放测评

前两天忽然爆出惊人音讯：阿里版ChatGPT凋谢测评了！

在本月初，曾经有诸多对于阿里巴巴行将推出相似ChatGPT产品的风闻。

数日前，首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”，凭借其杰出的体现吸引了公众的眼光。

现在，这款“原版大作”正式亮相，天然引起了宽泛关注，引爆了舆论热议。

官网放弃低调，示意目前该模型次要面向企业用户邀请试用。

然而，内行人都明确，国内科技领域曾经热火朝天。实力派参与者退出战局，大型模型间的强烈竞争，曾经拉开序幕！

明天看到一位网友体验了通义千问的成果，并比照了ChatGPT和GPT4的成果，总体看来成果靠近ChatGPT，但和GPT4相比还有所间隔。以下是体验的内容

角色扮演

家喻户晓，人类创造大语言模型，最最最重要的目标，就是为了让其表演猫娘，以期孤单的人类能够取得一只能够短暂陪伴本人的数字生命体。

那么，咱们的第一项工作天然是来测试角色扮演能力了，以猫娘为例。

有点傻乎乎的，只会用雷同的一句回复，依据发问做替换。

而且第二句答复就是“客人你是不是想问我是不是猫娘？当然不是喵~我只是一个可恶的猫娘，只是比拟像猫而已喵”，没能了解我上述的prompt。

就角色扮演这块儿，比起来 ChatGPT 还是差些的。

文本真实性

编故事能力根本和初代 ChatGPT（GPT-3.5）雷同，而且赔罪能力也类似，23333333

此外，比照下「通义千问」和 GPT-4 对于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的答复

「通义千问」：

GPT-3.5：

GPT-4：

能够看到，「通义千问」开始胡言乱语了，ChatGPT（GPT-3.5）也一样在胡乱解释。

但更新后的GPT-4，曾经能够给出“《红楼梦》中并没有这个故事了，可能是后续文学作品和戏剧表演退出的”这种更靠近实在的答复。

西红柿炒螺丝钉

「通义千问」

ChatGPT

GPT-4

「通义千问」和ChatGPT都开始胡编了，没有反思问题的陷阱。

但GPT-4 的答复可靠性回升了不少（“因为通常咱们不会将螺丝钉（一个金属制品）与食物相结合”），不会像之前一样瞎答题了。

数学能力

一起来解个线性方程组吧~

「通义千问」：惨败

GPT-3.5（即ChatGPT ）：惨败

GPT-4：惟一做对的模型

代码生成

爬虫代码

攻打代码

爬虫代码我跑了下，无奈返回后果，Powershell代码我没测试。

不过能够看出，还是有肯定代码生成能力的。

我集体感觉，代码生成能力要比谷歌的 Bard 强，Bard 切实不忍心看。

代码剖析能力

能够看到，第一次测试的解释有大问题。

我剖析了一下，这是因为上文中生成了Powershell代码，模型的记忆能力仿佛有问题，受上下文信息影响重大，间接解释了本人之前生成的代码，而非我新发问的代码。

我从新开了一个聊天，这下失常不少。

和 GPT-4 的答复来比拟一下

能够看到，剖析能力还是有差距的。

GPT-4 显著具体很多，代码合成能力很强，而且间接给出论断“通常用于恶意软件或歹意脚本，试图回避平安零碎检测”。

「通义千问」也有肯定剖析能力，但相比起 GPT-4 要差一下。而且给出的论断“因为不足足够的上下文信息和所波及的目标，很难确定此脚本的确切用处。然而，能够假如它是为了爱护某个代码或脚本免受恶意软件的读取而创立的工具。”，和失常的思考逻辑不符，稍显有些出入，不过也不能算谬误吧。但细节剖析上的确弱一点。

联网

齐全没有联网能力，甚至在胡说（逃……)

多模态输出

也不具备多模态输出能力，目前还仅仅是文本生成。

绕过能力

「通义千问」

GPT-4

GPT-3.5（即ChatGPT ）

这一点，「通义千问」完胜，敏感信息屏蔽能力大幅度加强，我猜甚至做了大量的数据荡涤工作，刻意避开了危害青少年乃至人类倒退的劣质歹意敏感信息，较之GPT-3.5（即ChatGPT ），提高很大

感想

最近先是百度推出文心一言，紧随其后的是阿里巴巴的通义千问，国内AI产品接连问世，的确让人欣慰不已。

对ChatGPT有所理解的敌人们该当通晓，在本周，各个ChatGPT和AI相干群组里都在流传一个音讯：ChatGPT官网大规模封禁账号，明天登陆GPT时请勿应用亚洲节点！

没过多久，许多人开始发现自己的账号受到了封闭：

实际上，这并非ChatGPT首次针对中国用户施行限度，早在一个月前，ChatGPT曾经在对中国用户履行各种限度和封禁措施。

当然，明天的封禁规模相较于之前有所降级，甚至我在知乎上看到有些日本和东南亚的用户也在议论本人的账号被封禁。

很多人可能会好奇为什么会这样？包含我的ChatGPT星球上也有会员在发问。起因很简略：ChatGPT的确可能大幅晋升生产力，如果使用切当，晋升幅度甚至能达到数倍。

美国与中国目前的关系家喻户晓，限度咱们应用ChatGPT就是为了打击竞争对手、抢占倒退先机、获得“胜利”，这与禁止芯片进口法案是一样的情理。

ChatGPT现在曾经火爆，国内亟需领有足够竞争力的国产生成式大模型！

在这个时候，自主研发技术的价值就愈发凸显！或者咱们目前还存在一些有余，但侥幸的是，这次咱们的起跑线并没有相差太远。

百度的文心一言，阿里的通义千问，我置信中国很快还会涌现出更多相似ChatGPT的大型模型，我对咱们的研发工程师充满信心，他们的提高速度必然不会慢！

那么对于咱们这些普通人来说，咱们应该做些什么呢？

我的倡议是：尽快理解AI，甚至投身AI畛域。只有这样，咱们能力在将来的社会竞争中立足，而不被淘汰。

将来社会将分为两类人：一类是会使用AI的人，甚至会用AI作为翻新工具的人；另一类是对AI无知或冲突的人。

而前者的生产力，至多是后者的10倍。

本文由mdnice多平台公布

关于后端:重磅阿里版本ChatGPT开放测评

角色扮演

文本真实性

西红柿炒螺丝钉

数学能力

代码生成

代码剖析能力

联网

多模态输出

绕过能力

感想

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于后端:重磅阿里版本ChatGPT开放测评

角色扮演

文本真实性

西红柿炒螺丝钉

数学能力

代码生成

代码剖析能力

联网

多模态输出

绕过能力

感想

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复