半年多过去了ChatGPT的排名垫底了?

2023-09-08 | 来源: 三言Pro | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

今天，笔者无意中刷到一张图片。

据该图片显示，OpenAI的GPT-4在11个大模型中（第一名序号为0），已经排到了最后。还有网友配上了“GPT4：我的冤屈怎么诉？”的字样。

这不禁让人好奇，今年年初，ChatGPT爆火以后，其他公司才开始提大模型的概念。

这才半年多，GPT就已经“垫底”了？

于是，笔者想看看GPT排名到底咋样了。

测试时间不同

测试团队不同

GPT-4排第十一

从前文中图片上显示的信息来看，这个排名是出自C-Eval榜单。

C-Eval榜单，全称C-Eval全球大模型综合性考试测试榜，是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉，该套件覆盖人文、社科、理工、其他专业四个大方向，包括52个学科，涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目，难度分为中学、本科、研究生、职业等四个考试级别。

AI抵抗人类!ChatGPT o3不想被关机窜改程式码

当ChatGPT变成舔狗,这才是AI最危险的一面

ChatGPT:你老公出轨了!人妻崩溃要离婚

于是笔者查看了最新的C-Eval榜单。

C-Eval榜单的最新排名与前文中图片所显示的排名相符，排名前十一的大模型中，GPT-4排最后。

据C-Eval榜单介绍，这些结果代表zero-shot（零样本学习）或者few-shot（少样本学习）测试，但few-shot不一定比zero-shot效果好。

C-Eval表示，在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果，排行榜中显示了总平均分更好的那个设置。

C-Eval榜单还注明了，大模型名字中带“*”的，表示该模型结果由C-Eval团队测试得到，而其他结果是通过用户提交获得。

此外，笔者还注意到，这些大模型提交测试结果的时间有很大差别。

GPT-4的测试结果提交时间是5月15日，而位居榜首的云天书，提交时间为8月31日；排第二的Galaxy提交时间为8月23日；排第三的YaYi提交时间为9月4日。

并且，排名前16的这些大模型，只有GPT-4的名字加了“*”，是由C-Eval团队测试的。

于是笔者又查看了完整的C-Eval榜单。

最新的C-Eval榜单一共收录了66个大模型的排名。