共计 805 个字符,预计需要花费 3 分钟才能阅读完成。
LMSYS 组织在 https://chat.lmsys.org/?arena 上进行了一项乏味的试验,同时与两个匿名的大模型聊天,在模型输入后果之后,再人工对其进行打分,模型的名称会在投票后显示。
不过,这一轮 Claude 抢跑间接说出了本人的名字🤭,然而从第二轮问答来看,左边的 Claude 显著还是强于右边的 mpt-7b 的。一共有如下 13 位参赛选手:
vicuna-13b | koala-13b | oasst-pythia-12b | RWKV-4-Raven-14B |
alpaca-13b | chatglm-6b | llama-13b | dolly-v2-12b |
stablelm-tuned-alpha-7b | fastchat-t5-3b | mpt-7b-chat | ChatGPT-3.5 |
欸,不是说好的 13 位参赛选手吗,怎么还少一位?短少的那一位当然就是“跳出三界外,不在五行中”的 GPT- 4 了。🙄
在这一轮的测试中,尽管 Claude 充分发挥了他话痨的特点,很尽力的在刺激我了,然而 GPT- 4 就是这么不讲道理的,用起码的语言就给出了最精妙的答复。
而在这一轮的卧龙凤雏比拼当中,ChatGLM 仍旧嘴软刚愎自用,然而无奈 alpaca 在中文畛域切实是太单薄了,无奈我的票也只能投给 ChatGLM 了。😔然而须要留神的是,因为某些起因,这个测试绝大部分是在英语环境下,因而 alpaca 的这个弱点并不会被放大。以下是总榜单:
能够看到 GPT- 4 毫无意外的又荣登宝座了,不过随着近期 bard 以及 Claude 的降级,不晓得下周 GPT- 4 还能不能蝉联这个桂冠呢?除此之外 ChatGLM 以 6B 的强大身板能在英文环境下仍旧彷徨在中游,也挺令人吃惊的。下图是测试的具体数据:
最近还流传了一张中文大模型之间的比拼图:
这张图据说争议很大,然而通过我这个强大的人类测试,实际效果可能也跟这张图大差不差。文心一言最近也在以肉眼可见的速度变聪慧,置信不久后他也能解脱倒一的名称,缓缓变强。
正文完