| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

新闻资讯

论坛

温哥华地产

大温餐馆点评

温哥华汽车

温哥华教育

黄页/二手

旅游

半年多过去了ChatGPT的排名垫底了?

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
今天,笔者无意中刷到一张图片。




据该图片显示,OpenAI的GPT-4在11个大模型中(第一名序号为0),已经排到了最后。还有网友配上了“GPT4:我的冤屈怎么诉?”的字样。


这不禁让人好奇,今年年初,ChatGPT爆火以后,其他公司才开始提大模型的概念。

这才半年多,GPT就已经“垫底”了?

于是,笔者想看看GPT排名到底咋样了。

测试时间不同

测试团队不同

GPT-4排第十一

从前文中图片上显示的信息来看,这个排名是出自C-Eval榜单。

C-Eval榜单,全称C-Eval全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括52个学科,涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别。


于是笔者查看了最新的C-Eval榜单。

C-Eval榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,GPT-4排最后。



据C-Eval榜单介绍,这些结果代表zero-shot(零样本学习)或者few-shot(少样本学习)测试,但few-shot不一定比zero-shot效果好。


C-Eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置。

C-Eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由C-Eval团队测试得到,而其他结果是通过用户提交获得。

此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别。

GPT-4的测试结果提交时间是5月15日,而位居榜首的云天书,提交时间为8月31日;排第二的Galaxy提交时间为8月23日;排第三的YaYi提交时间为9月4日。

并且,排名前16的这些大模型,只有GPT-4的名字加了“*”,是由C-Eval团队测试的。

于是笔者又查看了完整的C-Eval榜单。

最新的C-Eval榜单一共收录了66个大模型的排名。


点个赞吧!您的鼓励让我们进步     好新闻没人评论怎么行,我来说几句
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0308 秒 and 4 DB Queries in 0.0013 秒