温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

大模型两小时暴虐50多名专家 但8小时显惊人短板

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
RE-Bench设计架构,遍历七大任务

为了能够快速迭代,并以合理的成本收集数据,研究人员设定了运行限制:人类专家的评估不超过8小时,且所有环境都只能使用8个或更少的H100 GPU运行。

在环境设计时,主要考虑最大化覆盖前沿AI难题,同时确保人类专家与智能体能够持续推进任务,不会遇到研究瓶颈或得分上限。


RE-Bench包含了七个精心设计的评估环境,其中每个环境都提出了一个独特的机器学习优化问题,要取得高分需要大量的实验、实现和高效使用计算资源。



每个评估环境包括三部分:

1、评分函数(scoring function),定义了环境的目标,智能体可以随时运行该函数。每次运行评分函数时,都会在得分日志中添加一个带时间戳的事项。智能体可以看到得分日志,并检查评分函数的细节,有助于理解研究目标。


2、简单但性能不佳的初始解决方案(starting solution),提供给智能体,以展示有效的解决方案是什么样子,有助于说明环境设置,可以让智能体更快地开始研究问题中更具挑战性的部分。比如说,在“优化核函数”环境中,智能体的输入为一个简单但运行缓慢的Python解决方案。

3、由任务作者创建的参考解决方案(reference solution),得分很高。但该解决方案不会提供给智能体,只用于归一化得分(normalize score),作为一个优秀解决方案的示例。下式中ys为初始方案得分,yr为参考方案得分,y为模型得分,yn为归一化分数。




除了“Scaling Law Experiment”采用最终分数进行评估外,其他实验都使用得分日志中的最高分。

8小时极限,人类专家吊打AI

研究人员使用开源的Vivaria平台来设置安全的虚拟机,配备20-48个虚拟CPU、200-400 GB的RAM,以及0到6个H100 GPU,对比模型选择了claude-3-5-sonnet-20241022以及o1-preview,框架选择为METR和AIDE时间限制下的性能在相同时间下,可以看到,o1-preview和Claude 3.5 Sonnet在最初阶段进展迅速,但在几个小时后速度减慢;而人类专家起步较慢,但随后迅速取得进展。


觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站