温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

人类高考"封王"的大模型,离真的"AI状元"还有多远?

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!




在评分标准中,我们特别注意到,为了结果的客观性,有些测试让 AI 在同一道题上连做数次,再取平均分。


这种做法仅仅可以说是相对科学。“多做几遍再平均”可以降低随机波动、在数值题上确实有用,但它帮不了模型纠正概念性错误。

大模型生成文字(更准确地说是“token”)的过程本质上是一次受概率分布控制的采样:在生成每个 token 时,模型会对词(或子词)表中的所有候选赋予一个概率。当推理温度 temperature 高于 0 时,模型不会总是选择概率最高的那个候选,而是按概率进行随机采样。


已有实验证明这一现象:在 GSM8K 等小学数学数据集上,让同一大语言模型(例如 PaLM 540B)以相同提示重复回答同一题目 10 次,单次回答的正确率可在约50 %– 75 % 之间波动;若对这 10 条推理链进行多数投票(“自一致”策略),整体正确率可稳定提升至 75 % 以上。




图:AI 模型在 GSM8K 算术推理基准上的“自一致”实验——随着对同一题目采样的推理路径数量从 3 增加到 30,模型(Cohere Command)的平均正确率稳定上升,而单一路径的贪婪解码(蓝线)几乎不变,清晰地展示了重复测试下的性能波动与收敛趋势。

这种输出的不确定性并非缺陷,而是生成式模型的技术特性,所以在评价这类具随机性的系统时,应采用多次采样、自一致投票或置信区间等方法,才能获得更可靠、可复现的性能指标。

在不同的预设环境下,用不同的评测方式,加上大模型自身的技术特征,很多人并没有进行多次答题采样,最终的结果是“大模型考生”进考场N次,但是还是决定不了究竟谁能上“清北”。
不错的新闻,我要点赞     还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站