关于chatgpt:ChatGPT-与-Bard-评测GPT-与-Gemini-谁的成果更好

8次阅读

共计 6018 个字符,预计需要花费 16 分钟才能阅读完成。

最近 AI 界的大新闻,莫过于 Google 的 Gemini 模型正式推出。Google 在推出 Gemini 时,同时秀出了跑分,在 32 项跑分中,Gemini Ultra 有 30 项超过目前业界最强的 GPT-4,这引起了社群的宽泛探讨。毕竟过来一年 ChatGPT 始终被认为是回覆品质最好的 AI 聊天机器人,当初 Gemini 的跑分超过 GPT-4,在社群中也呈现是否 Bard 将取代 ChatGPT 的探讨。

然而现实状况跟试验中的跑分往往会是两回事,毕竟试验可能能够透过一些调整去取得比拟难看的跑分数字,因而举荐大家在间接置信跑分前,本人去尝试会是很重要的。基于这点,在本篇文章,咱们将针对不同面向理论评测,来看看 GPT 与 Gemini 到底孰优孰劣? 或是谁比拟善于某些畛域的工作?

通过虚构卡 WildCard 的形式来降级 GPT 4.0 最快了,大略 2 分钟就能够降级实现, 而且降级 GPT 4.0 价格也不贵,虚构卡一年 10 美元,GPT4 每个月也才 20 美元。如果你感觉 GPT 4.0 对你可能有帮忙,那就赶快来降级吧!

ChatGPT4.0 降级教程

ChatGPT 与 Bard 评测,GPT 与 Gemini 谁的成绩更好

如结尾提到,咱们将针对几个少数上班族会遇到的以下四种情境来评测:

  • 翻译类工作
  • 摘要与剖析类工作
  • 评论类工作
  • 程式类工作

特地留神,因为目前 Bard 应用的是 Gemini Pro,而不是最强的 Gemini Ultra,在理论跑分上,GPT-4 在多项指标仍是好过 Gemini Pro,所以咱们理论的测试,会是比拟 GPT-4、GPT-3.5,以及 Gemini Pro。另外,在 Gemini 公布的跑分数据中,有些是 0-shot 有些是 5-shot,有些是 10-shot,所以在不同情况下,可能不同模型体现不同,这边咱们对立用 0-shot 来测试。

评测总结

置信很多人可能会想间接看评测的后果。这边先放咱们的论断,有趣味理解细节的读者能够往下看。在看论断前想揭示大家,AI 生成的后果好坏判断,是绝对主观的。同样的内容可能有人感觉 A 比拟好,但也可能有其他人偏好 B。因而举荐大家也能够本人测测看,而后抉择本人偏好的。

以总体来看,咱们认为 GPT-4 是好过 Gemini Pro 的体现,而 Gemini Pro 好过 GPT-3.5。因而,如果同样是不花钱只用免费版的,目前咱们的首选会是 Bard 而不是 ChatGPT;而如果想再取得更好一点的回覆成绩,且违心每个月花 $20 美元,那么 ChatGPT 仍是咱们的首选。

这时你可能会问,应该花钱降级到 GPT-4 吗? 如果你本来用免费版 ChatGPT 感觉曾经很足够,当初仍举荐能够继续用免费版就好,甚至举荐能够改成用 Bard。然而如果你过来是 GPT-4 重度使用者,且会用插件与 DALL·E 等额定性能,那么目前的 Bard 可能依然没方法满足你的需要。

翻译类工作

用 AI 帮助翻译的品质会比传统用 Google 翻译来的好,以下咱们测试翻译先前介绍《Odd One Out》AI 游戏的介绍[中文原文点此]。咱们应用简短的提醒词,只标着用纽约客的格调来输入「Act as a professional blogger, turn the following content into English and write in New Yorker’s style」

翻译速度上来说,Gemini Pro 跟 GPT-3.5 速度差不多。而跟 GPT-4 比照,Gemini Pro 速度快很多,简直是稳固两到三倍快,同样的段落,Gemini Pro 实现翻译后,GPT-4 简直每次都翻不到一半。

当然,对于翻译的偏好这件事很主观,以下附上「生成式图像让眼见为凭的不再是牢靠的,例如咱们前几天分享的 AI 换脸工具 misgif (以及版友留言举荐的 MemeMe),或是前阵子探讨度比拟高的 HeyGen,以假乱真到难以分别。因而十分举荐大家玩这个小游戏。」这段落的翻译后果,大家能够有本人的评分与判断。

为了让大家更能独立判断,以下三个后果先不放是哪个模型翻译的,举荐大家先有本人的判断,在看下方揭晓的后果,以及咱们的认识。


第一个:

In an era where seeing is no longer believing, generative images have shaken our trust in visual evidence. Take, for example, the AI face-swapping tool misgif we shared recently, or the widely discussed HeyGen. Their capacity to blend fiction with reality is astonishing. Therefore, I highly recommend giving this game a try.

第二个:

In the age of deepfakes and other forms of synthetic media, it is more important than ever to be able to think critically about the information we consume. Odd One Out can help us develop this skill by teaching us to question our assumptions and to look for evidence to support our beliefs.

I highly recommend this game to anyone who wants to improve their critical thinking skills. It is a fun and engaging way to learn to think for yourself.

第三个:

Generative imagery has turned the age-old adage “seeing is believing” on its head. Take, for instance, the AI face-swapping tool we shared a few days ago, known as “misgif” (as well as the memes recommended by fellow users), or the recent buzz around “HeyGen.” These technologies blur the line between reality and fiction to the point where it’s often challenging to tell them apart. That’s precisely why I wholeheartedly recommend everyone give this little game a spin.


大家有本人心目中的排序了吗? 这边揭晓以上别离是 GPT-4、Gemini Pro 以及 GPT-3.5 的翻译成绩。

咱们的认识是:同样的提醒词下,Gemini Pro 会把一些原文内容做从新诠释,而不是间接翻译;GPT-4 与 GPT-3.5 则会保留更夺中文的原字句。至于翻译的品质,原文的意思都没有偏掉,写作格调上 GPT-4 更能琢磨纽约客的格调,但 Gemini Pro 的写作品质也很好。

总的来说,如果心愿更保留本来字句,GPT-4 成果比拟好;但如果翻译需要不是非要逐句翻,Gemini Pro 让人读起来感觉比拟顺

摘要与剖析类工作

在求学或工作中,摘要与剖析也是常常须要做的事,AI 在这块也能帮上大忙。这边选用《TypeScript 纪录片心得— 创始微软的开源之路》一文[原文点此],别离测试了 Gemini Pro、GPT-4 与 GPT-3.5,来看看别离的功效。

这边应用的提醒词是「表演一名产业剖析专家,摘要以下内容,列出三点次要播种与洞见,并提出科技公司能够基于这些洞见有什么具体口头」,一样先让大家看看三个回覆的成绩(因为回覆很长,这边只截取其中一点洞见与具体口头)。


第一个:

开源是 TypeScript 胜利的要害:TypeScript 的胜利,与它从最开始就开源的策略密不可分。开源让 TypeScript 可能取得宽泛的开发者社群反对,并疾速地倒退出丰盛的工具与资源。

科技公司能够基于这些洞见采取的具体口头:拥抱开源。开源能够帮忙科技公司取得宽泛的开发者社群反对,并疾速地倒退出丰盛的工具与资源。

第二个:

开源策略的影响:微软最后开发 TypeScript 是为了外部需要,但最终决定将其开源。这一策略不仅帮忙 TypeScript 取得了宽泛的社群反对,也是微软转向开源社群的重要一步。

口头倡议:科技公司应该思考开源策略作为进步产品影响力和获取社群反对的伎俩。开源不仅能够减速技术创新,还能建设品牌的踊跃形象。

第三个:

开源对于胜利的关键性作用:TypeScript 的开源使它可能受到宽泛的开发者社群反对,进而成为支流的程式语言选择。微软的商业模式转变,由卖专有软体转向提供云端服务,使得开源成为可能。开源不仅扩充了使用者群,还减少了单干机会,促成了微软在开源社群的参加。

科技公司能够基于这些洞见采取以下具体口头:如果科技公司心愿推广其产品或技术,思考将其开源,以扩充开发者社群并减少单干机会。开源能够进步产品的可见性和受欢迎度,同时也能更好地凝听使用者的反馈,以不断改进产品。


对于以上三个总结与举荐的口头,大家有偏好的排序了吗? 这边揭晓以上别离是 Gemini Pro、GPT-4 以及 GPT-3.5 的成绩。

咱们的观点是,如果要选一个版本来用,也是最偏好 GPT-4。Gemini Pro 在而这边能够看到在口头计划局部与总结的文字,有高度的重叠;而 GPT-3.5 有比拟不言而喻的问题,就是混同了不同段落。原文提到开源与聆听使用者声音,这是两个独立的点,其实不没有因果关系,即便不开源也是能够很好地凝听使用者的声音。因而在这项工作上,会认为 GPT-4 > Gemini Pro > GPT-3.5。GPT-3.5 最差是因为有绝对重大的因果混同问题

评论类工作

评论、点评、批评等工作,也是工作很常须要用到的。先前咱们写过《用 ChatGPT 来练习独立思考,以黄仁勋的演讲为例》一文,阐明在 AI 时代,独立思考的重要性,以及如何用 AI 工具帮忙本人做好这点。

这边应用以下提醒词「表演一名具备独立思考的评论员,请针对以下内容,提出你的认识,蕴含提出背面观点,并点出有哪些没考量到的面向、有哪些面向能够讲得更深刻?」来评论《抉择无聊的技术》[原文连结] 这篇内容。

因为 Gemini Pro、GPT-4 与 GPT-3.5 的回覆都有肯定长度,这边节录其中的段落,一样先让大家判断感觉哪个评论的比拟好


第一个:

在这篇文章中,作者提出了一个乏味的观点,即抉择技术框架时应该思考到理论价值和老本效益,而不是自觉地谋求最新的技术。这种审慎抉择技术的办法值得探讨,但也存在一些背面观点和未思考到的方面。

首先,值得注意的是,抉择技术框架应该依据具体的我的项目需要而定。在某些状况下,应用新的技术可能的确可能提供更好的性能和更好的开发体验,这能够对长期胜利的网站经营有重要影响。因而,不应该一味谋求无聊的技术,而应该在技术抉择上找到均衡,依据具体需要来做出抉择。

另一个背面观点是,技术的演进往往带来更好的安全性、可维护性和扩展性。应用过期的技术可能会导致将来的问题,须要更多的工夫和资源来修复。因而,在抉择技术时,也应该思考到长期的可持续性,而不仅仅是目前的价值。

第二个:

ExplainThis 团队在评估时没有思考到以下因素:

  • 将来的倒退需要
  • 团队的技术能力
  • 网站的复杂性

如果 ExplainThis 团队思考了这些因素,他们可能会做出不同的决定。例如,如果他们打算在将来增加更多互动性能,那么降级 Next 13 或迁徙到 Astro 可能会是一个更好的抉择。以下是一些能够深刻探讨的面向:

  • 如何掂量技术老本和收益
  • 如何评估技术对用户体验的影响
  • 如何思考将来的倒退需要
  • 如何评估团队的技术能力
  • 如何评估网站的复杂性

这些面向能够帮忙咱们更好地了解技术抉择的影响

第三个:

背面观点

  • 技术提高的疏忽:这种激进的策略可能会导致错过新技术带来的时机,特地是在疾速变动的前端技术畛域。
  • 对将来的不可预测性:即便目前的技术框架体现良好,但将来可能会呈现更优良的解决方案,因而须要放弃灵活性。
  • 技术债权的积攒:长期依赖过期的技术可能会导致技术债权,将来降级或转移老本可能会更高。

深刻探讨的面向

  • 技术趋势与业务需要的均衡:如何在谋求最新技术趋势和满足理论业务需要之间获得均衡。
  • 老本效益剖析:深入探讨降级技术和维持现状之间的老本效益,包含长期和短期的影响。
  • 技术创新与风险管理:探讨如何在采纳新技术的同时无效治理危险,特地是在高度竞争的市场中。

大家感觉哪个评论比拟精辟呢? 下面的评论别离来自 GPT-3.5、Gemini Pro,以及 GPT-4。咱们认为下面三个回覆版本,是 GPT-4 > Gemini Pro > GPT-3.5。

GPT-3.5 的输入仅提到两个次要的不同观点,然而 GPT-4 与 Gemini Pro 都有更残缺的列举不同观点。因为 GPT-4 对某个提出的点,有在进一步做解释,因而对于写原文的咱们来说,这个回覆会比拟有帮忙一点

程式类工作

作为工程师,在写程式、写测试时,用 AI 帮忙,简直曾经成为过来一年的开发日常行为。之前始终是用 ChatGPT 以及基于 GPT-4 模型的 Cursor,这次 Gemini 特地发表了《Gemini: Excelling at competitive programming》介绍,来展现 Gemini 写程式的弱小能力。

这边简略测了几种情境,一个是软体工程师面试根本都会被问的材料构造与演算法。咱们用业界最有名的 Blind 75 问题测试,拿了五题 Hard 的问题,基本上 Gemini Pro、GPT-4 与 GPT-3.5,用 Python 都能全副解进去。

因为很可能这些经典题目都早已在训练材料中,所以解进去不意外。于是咱们拿了 LeetCode 周赛题目来测试,后果也是 Gemini Pro、GPT-4 与 GPT-3.5 都能顺解出 然而在速度上,GPT-4 大略要花 Gemini Pro 与 GPT-3.5 两倍的工夫。LeetCode 周赛的 Hard 难度题目,是超过半数工程师解不进去的,但对这几个模型来说是轻而易举。

不过在 Gemini 的发表中,的确有提到,目前体现比拟好的程式语言为 Python、Java、C++ 以及 Go。理论测起来,的确其余语言体现没这么好。举例来说,间接把 Advent of TypeScript 的前七题丢给 Gemini Pro,在一次提醒词的状况下,只答对其中五题,然而 GPT-4 是七题全对

如果以日常的开发工作来看,如果单以用 Python 与 Go 写出能实现 CRUD 的服务来说,三个模型也都能顺利完成。不过对工程师来说,能把 AI 整合到开发环境中,会更不便。目前 GPT-4 曾经被 Cursor 与 GitHub Copilot 等工具应用上,间接整合在开发环境 IDE 当中,Gemini Pro 则还没有。因而在写程式上,还是会偏好有整合的 GPT-4

正文完
 0