温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

人类高考"封王"的大模型,离真的"AI状元"还有多远?

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
三、科学的AI评测是什么样的?

那什么样的测试才算科学呢?

大模型评测可以一句话概括为:由模型开发方与第三方研究机构共同用公开基准在零/少样本条件下比对分数,以快速衡量通识知识、推理、对话、多模态理解与安全鲁棒性等关键能力。


大模型发布时通常由实验室先给出内部自动跑分,再提交到公开排行榜或接受学术评审;同期,独立学者、社区平台(Papers with Code、LMSYS)、以及企业安全审核团队会复测并公开对比。评测默认零样本或少样本,避免微调泄漏,并采用统一脚本与隐藏测试集。业界最关注三大维度:知识-推理精度(能否答对多学科或复杂问题);交互与多模态能力(对话一致性、视觉-语言推理);安全与稳健性(偏见、毒性、对抗鲁棒)。

一般大模型发布都会列出MMLU、BIG-bench、GSM8K、MATH、SuperGLUE、HellaSwag、TruthfulQA 及多模态 MMBench 或 VQA 的成绩,以展示在通识、创造性推理、算术与竞赛数学、深层语言理解、常识推断、事实一致性和视觉-语言理解上的水平。



图:常见大模型的BenchMark

在这些能力上的综合得分水平,才是对大模型能力量身定制的“高考”。




图: GPT-4.5、GPT-4o、Open AI o3-mini(high)的各项Benchmark分数对比

四、如果非要测试,怎样做才最客观?


虽然高考题并不能客观评价大模型的综合能力,但如果真的要做这样的测试,比如设计一个Gaokao Benchmark,怎样才能得到最客观、最有含金量的结果呢?

1、多次重复测试是关键。既然AI的输出有随机性,那就不能只测一次。科学的做法是让每个AI重复做同一套题目至少5-10次,然后计算平均分和标准差。这样能够更准确地反映AI的真实能力水平,而不是某一次的"运气"。

2、统一测试环境。不同的AI可能有不同的接口、不同的参数设置、不同的使用方式。为了公平比较,需要尽可能统一测试条件。比如,都使用相同的温度参数(控制随机性程度),都使用相同的输入格式,都在相同的时间段进行测试。

3、题目处理要标准化。对于包含图片的题目,应该统一使用高质量的OCR工具进行文字识别,或者统一使用多模态AI的视觉能力。不能有的AI看原图,有的AI看OCR文字,这样就不公平了。

4、评分标准要细化。不能简单地按照传统高考标准评分,而要考虑AI的特点。比如,如果AI用了一种非常规但正确的解题方法,人类应该认可。如果AI的答案在数值上正确但表述方式不同,也应该算对。
不错的新闻,我要点赞     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站