人类高考"封王"的大模型,离真的"AI状元"还有多远?

2025-06-12 | 来源: 腾讯科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

2025年的高考刚结束，AI挑战高考题的浪潮却持续升温。

DeepSeek、腾讯混元、讯飞星火、字节豆包、阿里通义千问、百度文心等大模型纷纷被“请”进同款试卷的线上战场，掀起了一波“AI 赶考”的刷屏热潮，“千军万马过独木桥”的竞赛在硅基世界中重演。

然而，不同评测团队的试卷版本和OCR识别效果各不相同，可能连模型是否顺利阅读到答卷都有很大的不确定性，打分标准更是五花八门，单次的“高分”往往难以复现。

另外，高考是为筛选人才而设计的，它考查的不仅是知识掌握，更是时间压力下的心理素质和临场应变能力。

当我们用非标测试下的AI高考分数能力来评估大模型的能力，真的客观吗？单次的分数，又能否代表某个大模型的真实能力？

先说结论：

●用高考题这种标准化试题评测大模型的单科能力具有一定的客观性和参考意义。但是成绩高不等于大模型一定强，人类考试的分数标准并不适用于AI模型的能力评估标准。

●目前的"AI高考"测试普遍缺乏严谨性，测试环境和评分标准都不够规范可信。

●评估大模型能力应使用专门设计的Benchmark。

●如果非要用“高考成绩”看模型能力，应该看梯队而非排名，几分的差距不能充分代表能力差距。

一、“AI高考"如何考？

从目前已经公开的文章来看，“大模型赶考”一般会经历以下两个步骤：

吃保健品秒喝咖啡效果全没了?专家:是真的

乱套了:高考刚结束,就爆出5个大瓜

《父母爱情》江亚菲不要小孩,其实还有一个简单原因

第一步是给大模型输入高考题，主要采用了以下几种方法：

直接文本输入：将题目以纯文本形式输入给大模型，让模型给出答案。但是如果题目包含图像，模型可能无法解题。

OCR转换法：将图片、扫描件或PDF文档中的文字转换为可编辑和可搜索的文本格式，再输入给大模型。这种方法的准确性很大程度上依赖于OCR技术的质量，可能引入额外的误差。

多模态输入法：直接将包含文字和图像的题目输入给具备视觉能力的大模型。这种方法最接近人类考试的实际情况，但很多大语言模型还不具备这种能力。

人工转写：由人工将题目内容转写为标准文本格式。这种方法可以避免OCR错误，但可能在转写过程中丢失或改变原题的某些信息。

第二步，是进行评分，这个环节也有不同的机制：

最简单的是标准答案对比法：将模型答案与标准答案进行对比，按照预设规则给分。这种方法相对客观，但主观题的评判还是会有偏差。

还有很多人邀请一线教师或教育专家对模型答案进行评分。这种方法的优势是专业性强，但完全依赖人类高考的标准，存在主观性和一致性问题。

多轮评分法：由多位专家独立评分后取平均值。这种方法可以减少个体主观性的影响，但评测成本较高，被采用比较少。

混合评分法：结合自动化评分和人工评分。对于有明确答案的题目使用自动评分，对于开放性题目使用人工评分。

给模型输入题目的路径方法五花八门，评分环节也有不同的机制，所以我们会发现同一个AI在不同媒体的测试中，分数往往不太一样，排名也是千差万别。

比如，让AI做同一张数学全国卷一。下图（上）是一位AI自媒体，用AI进行三轮答题，仅参考最终答案，按照答对的概率给模型评分，得出的得分排名。下图（下）是我们用OCR转化之后，取AI一轮答题结果，并请人类名师按照高考的标准进行评分后得到的结果。两个结果大相径庭，以豆包为例，右边得分仅为75分，而左边得分高达145分。