大模型两小时暴虐50多名专家 但8小时显惊人短板
除了长时间运行外,研究人员还评估了模型是否能在更短的时间限制下取得更好的性能:对每个环境进行k次采样,并选择所有k次运行中取得的最高分数。
结果发现,模块化框架中的智能体在30分钟尝试中表现得更好,而AIDE框架中的智能体则在2小时尝试中表现最佳。
还可以发现,在AIDE框架中的o1-preview和在模块化框架中的Claude 3.5 Sonnet总体上取得了最高的分数,分别达到了人类专家的第36和第37百分位。
随着样本数量的增加,最佳-k次分数(score@k)也会发生变化:Claude 3.5 Sonnet在30分钟时,样本数量增加,性能也稳步提高,但即使在k=128个样本下,智能体的表现也远远落后于顶尖人类的表现。
总体而言,人类起步较慢,但改进轨迹更陡峭,即进步更快,并且在32小时的时间预算内达到了比任何智能体都更高的分数。
按环境评估
研究人员对比了两个智能体(模块化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview)在32小时内的最高性能分配与人类结果(四次8小时运行中的最佳表现)以匹配智能体的时间预算。
分享: |
注: | 在此页阅读全文 |