关于chatgpt:神仙打架大模型能力在线比拼

LMSYS 组织在https://chat.lmsys.org/?arena上进行了一项乏味的试验，同时与两个匿名的大模型聊天，在模型输入后果之后，再人工对其进行打分，模型的名称会在投票后显示。

不过，这一轮Claude抢跑间接说出了本人的名字🤭，然而从第二轮问答来看，左边的Claude显著还是强于右边的mpt-7b的。一共有如下13位参赛选手：

欸，不是说好的13位参赛选手吗，怎么还少一位？短少的那一位当然就是“跳出三界外，不在五行中”的GPT-4了。🙄

在这一轮的测试中，尽管Claude充分发挥了他话痨的特点，很尽力的在刺激我了，然而GPT-4就是这么不讲道理的，用起码的语言就给出了最精妙的答复。

而在这一轮的卧龙凤雏比拼当中，ChatGLM仍旧嘴软刚愎自用，然而无奈alpaca在中文畛域切实是太单薄了，无奈我的票也只能投给ChatGLM了。😔然而须要留神的是，因为某些起因，这个测试绝大部分是在英语环境下，因而alpaca的这个弱点并不会被放大。以下是总榜单：

能够看到GPT-4毫无意外的又荣登宝座了，不过随着近期bard以及Claude的降级，不晓得下周GPT-4还能不能蝉联这个桂冠呢？除此之外ChatGLM以6B的强大身板能在英文环境下仍旧彷徨在中游，也挺令人吃惊的。下图是测试的具体数据：

最近还流传了一张中文大模型之间的比拼图：

这张图据说争议很大，然而通过我这个强大的人类测试，实际效果可能也跟这张图大差不差。文心一言最近也在以肉眼可见的速度变聪慧，置信不久后他也能解脱倒一的名称，缓缓变强。

评论