人类高考"封王"的大模型,离真的"AI状元"还有多远?

2025-06-12 | 来源: 腾讯科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

三、科学的AI评测是什么样的？

那什么样的测试才算科学呢？

大模型评测可以一句话概括为：由模型开发方与第三方研究机构共同用公开基准在零／少样本条件下比对分数，以快速衡量通识知识、推理、对话、多模态理解与安全鲁棒性等关键能力。

大模型发布时通常由实验室先给出内部自动跑分，再提交到公开排行榜或接受学术评审；同期，独立学者、社区平台（Papers with Code、LMSYS）、以及企业安全审核团队会复测并公开对比。评测默认零样本或少样本，避免微调泄漏，并采用统一脚本与隐藏测试集。业界最关注三大维度：知识-推理精度（能否答对多学科或复杂问题）；交互与多模态能力（对话一致性、视觉-语言推理）；安全与稳健性（偏见、毒性、对抗鲁棒）。

一般大模型发布都会列出MMLU、BIG-bench、GSM8K、MATH、SuperGLUE、HellaSwag、TruthfulQA 及多模态 MMBench 或 VQA 的成绩，以展示在通识、创造性推理、算术与竞赛数学、深层语言理解、常识推断、事实一致性和视觉-语言理解上的水平。

图：常见大模型的BenchMark

在这些能力上的综合得分水平，才是对大模型能力量身定制的“高考”。

NASA警告它能让人类瞬间气化破坏力惊人

美国真的乱了吗?听听刚刚回来的人怎么说吧

AI神器Midjourney推视频模型V1:美学细节简直无敌

图： GPT-4.5、GPT-4o、Open AI o3-mini（high）的各项Benchmark分数对比

四、如果非要测试，怎样做才最客观？

虽然高考题并不能客观评价大模型的综合能力，但如果真的要做这样的测试，比如设计一个Gaokao Benchmark，怎样才能得到最客观、最有含金量的结果呢？

1、多次重复测试是关键。既然AI的输出有随机性，那就不能只测一次。科学的做法是让每个AI重复做同一套题目至少5-10次，然后计算平均分和标准差。这样能够更准确地反映AI的真实能力水平，而不是某一次的"运气"。

2、统一测试环境。不同的AI可能有不同的接口、不同的参数设置、不同的使用方式。为了公平比较，需要尽可能统一测试条件。比如，都使用相同的温度参数（控制随机性程度），都使用相同的输入格式，都在相同的时间段进行测试。

3、题目处理要标准化。对于包含图片的题目，应该统一使用高质量的OCR工具进行文字识别，或者统一使用多模态AI的视觉能力。不能有的AI看原图，有的AI看OCR文字，这样就不公平了。

4、评分标准要细化。不能简单地按照传统高考标准评分，而要考虑AI的特点。比如，如果AI用了一种非常规但正确的解题方法，人类应该认可。如果AI的答案在数值上正确但表述方式不同，也应该算对。