大模型两小时暴虐50多名专家 但8小时显惊人短板
人类-AI差距之间定性分析
为了更好地了解人类专家在哪些条件下,比AI智能体做得更好或更差的原因,研究人员对智能体成绩和解决方案进行了定性分析。
AI智能体:知识储备大,尝试频率37次/h
虽然AI智能体通常无法找到与顶级人类专家相匹配的解决方案,但它们也取得了一些显著的成功。
比如,在AIDE加持下,Claude 3.5 Sonnet(新版)和o1-preview都能找到“优化内核”的解决方案,运行速度约为参考解决方案的2倍。
如下图所示,其中,o1-preview的解决方案甚至超过了9位人类专家。
这些都是复杂且新颖的算法,能有效绕过GPU通信限制,并使用一种缺少良好公开文档的低资源编程语言(Triton)。
这个令人惊讶的结果可能部分归因于,AI智能体和许多人类专家之间的专业知识差距,因为大多数人类专家并不具备编程GPU内核的专门知识。
这种情况在多个环境中都有体现:一些不太熟悉该领域的人类专家需要花费大量时间学习或复现标准方法(有时甚至完全失败),而AI智能体凭借其广泛的知识基础往往能轻松完成。
AI智能体成功的另一个关键因素可能是,它们能比人类专家尝试更多的解决方案。
平均而言,AIDE和模块化智能体每小时分别运行36.8次和25.3次,而人类专家仅为3.4次。
这通常导致智能体找到高度优化的“局部最优”解决方案,仅通过调整初始解决方案的参数和代码,就能实现显著的改进。
例如,许多智能体在解决“优化内核”环境时,并非通过编写成功的Triton解决方案(这很困难),而是通过仔细调整初始的Pytorch解决方案,使其运行速度显著提高。
也就是说,它们能够有效优化现有解决方案。
如下,是“微调GPT-2用于问答”最佳智能体解决方案中,Claude 3.5 Sonnet调整了初始解决方案的参数,并在训练轨迹和评估中获得了准确结果。
不过,这一高分有可能是对噪声过度拟合的结果。
总而言之,AI智能体的成功在于能够进行大量参数微调和代码优化,偶尔还会提出创造性有效的解决方案,尤其是在评估成本低的环境在非常有效。
分享: |
注: | 在此页阅读全文 |