相信吗?李开复:中国大模型与美国仅差6个月

2024-05-21 | 来源: AI未来指北 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

刚刚在上周开过发布会的零一万物创始人李开复，时隔不到一周再一次在线上亲自和小部分媒体沟通，并在沟通会的开始就表示“难掩兴奋，所以希望马上开发布会和大家分享这个消息。”

这个让李开复无比兴奋的消息就是，零一万物提交的“Yi-Large” 千亿参数闭源大模型在LMSYS Org发布的Chatbot Arena取得了总榜排名第七的成绩。

过去一年的模型能力大战中，每次新模型的发布，模型能力Benchmark评分就会作为标准动作被同时公布，来评测模型的各种综合能力。但是，究竟如何解读这些评分？哪些才是有公信力的评测标准集，行业内并没有统一的标准。

但是在Gpt-4o发布后，OpenAI CEO Sam Altman亲自转帖引用 LMSYS arena 盲测擂台的测试结果。

为什么Sam Altman会引用LMSYS 的结果？为什么在这个榜单取得成绩会让李开复兴奋不已？

LMSYS Org发布的Chatbot Arena，关键词是盲测和开放。用通俗的语言来描述就是，它的模式是通过众包的方式对大模型进行匿名评测，用户可以在官网输入问题，然后由一个或者多个用户并不知道品牌的大模型同时返回结果，用户根据自己的期望对效果进行投票。

李开复:AI时代会让每个App都比人类更聪明

受曹德旺邀请,李开复加入福建福耀科技大学!

李开复:中国需自己的ChatGPT时刻 2024将是爆发年

在收集真实用户投票数据之后，LMSYS Chatbot Arena还使用Elo评分系统来量化模型的表现，进一步优化评分机制，力求公平反应参与者的实力。最后用Elo评分系统来得出综合得分。通俗地来讲，在Elo评分系统中，每个参与者都会获得基准评分。每场比赛结束后，参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率，一旦低分选手击败高分选手，那么低分选手就会获得较多的分数，反之则较少。

评测界面

在海外大厂高管中，不只Sam Altman，Google DeepMind首席科学家Jeff Dean也曾引用LMSYS Chatbot Arena的排名数据，来佐证Bard产品的性能。OpenAI、Google等自身的旗舰模型发布后第一时间提交给LMSYS，本身确实显示了海外头部大厂对于Chatbot Arena的极大尊重。

美国时间2024年5月20日刚刷新的 LMSYS Chatboat Arena 盲测结果，来自至今积累超过 1170万的全球用户真实投票数：此次Chatbot Arena共有44款模型参赛，既包含了顶尖开源模型Llama3-70B，也包含了各家大厂的闭源模型。

在这个榜单上，我们也看到了中国大模型的身影，智谱GLM4、阿里Qwen Max、Qwen 1.5、零一万物Yi-Large、Yi-34B-chat 此次都有参与盲测，零一万物提交的“Yi-Large” 千亿参数闭源大模型总榜排名第七，在总榜之外，LMSYS 的语言类别上新增了英语、中文、法文三种语言评测，开始注重全球大模型的多样性。Yi-Large的中文语言分榜上拔得头筹，与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一，Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。