大模型两小时暴虐50多名专家 但8小时显惊人短板
为了能够快速迭代,并以合理的成本收集数据,研究人员设定了运行限制:人类专家的评估不超过8小时,且所有环境都只能使用8个或更少的H100 GPU运行。
在环境设计时,主要考虑最大化覆盖前沿AI难题,同时确保人类专家与智能体能够持续推进任务,不会遇到研究瓶颈或得分上限。
RE-Bench包含了七个精心设计的评估环境,其中每个环境都提出了一个独特的机器学习优化问题,要取得高分需要大量的实验、实现和高效使用计算资源。
每个评估环境包括三部分:
1、评分函数(scoring function),定义了环境的目标,智能体可以随时运行该函数。每次运行评分函数时,都会在得分日志中添加一个带时间戳的事项。智能体可以看到得分日志,并检查评分函数的细节,有助于理解研究目标。
2、简单但性能不佳的初始解决方案(starting solution),提供给智能体,以展示有效的解决方案是什么样子,有助于说明环境设置,可以让智能体更快地开始研究问题中更具挑战性的部分。比如说,在“优化核函数”环境中,智能体的输入为一个简单但运行缓慢的Python解决方案。
3、由任务作者创建的参考解决方案(reference solution),得分很高。但该解决方案不会提供给智能体,只用于归一化得分(normalize score),作为一个优秀解决方案的示例。下式中ys为初始方案得分,yr为参考方案得分,y为模型得分,yn为归一化分数。
除了“Scaling Law Experiment”采用最终分数进行评估外,其他实验都使用得分日志中的最高分。
8小时极限,人类专家吊打AI
研究人员使用开源的Vivaria平台来设置安全的虚拟机,配备20-48个虚拟CPU、200-400 GB的RAM,以及0到6个H100 GPU,对比模型选择了claude-3-5-sonnet-20241022以及o1-preview,框架选择为METR和AIDE时间限制下的性能在相同时间下,可以看到,o1-preview和Claude 3.5 Sonnet在最初阶段进展迅速,但在几个小时后速度减慢;而人类专家起步较慢,但随后迅速取得进展。
分享: |
注: | 在此页阅读全文 |