| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

新闻资讯

论坛

温哥华地产

大温餐馆点评

温哥华汽车

温哥华教育

黄页/二手

旅游

相信吗?李开复:中国大模型与美国仅差6个月

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
刚刚在上周开过发布会的零一万物创始人李开复,时隔不到一周再一次在线上亲自和小部分媒体沟通,并在沟通会的开始就表示“难掩兴奋,所以希望马上开发布会和大家分享这个消息。”


这个让李开复无比兴奋的消息就是,零一万物提交的“Yi-Large” 千亿参数闭源大模型在LMSYS Org发布的Chatbot Arena取得了总榜排名第七的成绩。

过去一年的模型能力大战中,每次新模型的发布,模型能力Benchmark评分就会作为标准动作被同时公布,来评测模型的各种综合能力。但是,究竟如何解读这些评分?哪些才是有公信力的评测标准集,行业内并没有统一的标准。


但是在Gpt-4o发布后,OpenAI CEO Sam Altman亲自转帖引用 LMSYS arena 盲测擂台的测试结果。



为什么Sam Altman会引用LMSYS 的结果?为什么在这个榜单取得成绩会让李开复兴奋不已?

LMSYS Org发布的Chatbot Arena,关键词是盲测和开放。用通俗的语言来描述就是,它的模式是通过众包的方式对大模型进行匿名评测,用户可以在官网输入问题,然后由一个或者多个用户并不知道品牌的大模型同时返回结果,用户根据自己的期望对效果进行投票。


在收集真实用户投票数据之后,LMSYS Chatbot Arena还使用Elo评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。最后用Elo评分系统来得出综合得分。通俗地来讲,在Elo评分系统中,每个参与者都会获得基准评分。每场比赛结束后,参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率,一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。




评测界面

在海外大厂高管中,不只Sam Altman,Google DeepMind首席科学家Jeff Dean也曾引用LMSYS Chatbot Arena的排名数据,来佐证Bard产品的性能。OpenAI、Google等自身的旗舰模型发布后第一时间提交给LMSYS,本身确实显示了海外头部大厂对于Chatbot Arena的极大尊重。

美国时间2024年5月20日刚刷新的 LMSYS Chatboat Arena 盲测结果,来自至今积累超过 1170万的全球用户真实投票数:此次Chatbot Arena共有44款模型参赛,既包含了顶尖开源模型Llama3-70B,也包含了各家大厂的闭源模型。

在这个榜单上,我们也看到了中国大模型的身影,智谱GLM4、阿里Qwen Max、Qwen 1.5、零一万物Yi-Large、Yi-34B-chat 此次都有参与盲测,零一万物提交的“Yi-Large” 千亿参数闭源大模型总榜排名第七,在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。Yi-Large的中文语言分榜上拔得头筹,与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。
不错的新闻,我要点赞     好新闻没人评论怎么行,我来说几句
上一页123456下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0306 秒 and 4 DB Queries in 0.0019 秒