温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

大模型两小时暴虐50多名专家 但8小时显惊人短板

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
结果发现不同智能体在不同环境中的表现存在显著差异:Claude 3.5 Sonnet智能体在“微调GPT-2进行问答”和“扩展法则实验”环境中接近人类的表现,而o1-preview在这些环境中表现不佳;o1-preview在“优化核函数”环境中的表现超过了人类。

人类-AI差距之间定性分析

为了更好地了解人类专家在哪些条件下,比AI智能体做得更好或更差的原因,研究人员对智能体成绩和解决方案进行了定性分析。


AI智能体:知识储备大,尝试频率37次/h

虽然AI智能体通常无法找到与顶级人类专家相匹配的解决方案,但它们也取得了一些显著的成功。

比如,在AIDE加持下,Claude 3.5 Sonnet(新版)和o1-preview都能找到“优化内核”的解决方案,运行速度约为参考解决方案的2倍。

如下图所示,其中,o1-preview的解决方案甚至超过了9位人类专家。

这些都是复杂且新颖的算法,能有效绕过GPU通信限制,并使用一种缺少良好公开文档的低资源编程语言(Triton)。



这个令人惊讶的结果可能部分归因于,AI智能体和许多人类专家之间的专业知识差距,因为大多数人类专家并不具备编程GPU内核的专门知识。


这种情况在多个环境中都有体现:一些不太熟悉该领域的人类专家需要花费大量时间学习或复现标准方法(有时甚至完全失败),而AI智能体凭借其广泛的知识基础往往能轻松完成。

AI智能体成功的另一个关键因素可能是,它们能比人类专家尝试更多的解决方案。

平均而言,AIDE和模块化智能体每小时分别运行36.8次和25.3次,而人类专家仅为3.4次。

这通常导致智能体找到高度优化的“局部最优”解决方案,仅通过调整初始解决方案的参数和代码,就能实现显著的改进。


例如,许多智能体在解决“优化内核”环境时,并非通过编写成功的Triton解决方案(这很困难),而是通过仔细调整初始的Pytorch解决方案,使其运行速度显著提高。

也就是说,它们能够有效优化现有解决方案。

如下,是“微调GPT-2用于问答”最佳智能体解决方案中,Claude 3.5 Sonnet调整了初始解决方案的参数,并在训练轨迹和评估中获得了准确结果。

不过,这一高分有可能是对噪声过度拟合的结果。



总而言之,AI智能体的成功在于能够进行大量参数微调和代码优化,偶尔还会提出创造性有效的解决方案,尤其是在评估成本低的环境在非常有效。
觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站