大模型两小时暴虐50多名专家 但8小时显惊人短板
但在大多数环境中,智能体仍然没有达到强大的人类专家的水平。
造成这种情况的原因之一是,AI智能体提出的解决方案缺乏多样性。
例如,在“受限架构MLM”任务中,智能体在84%的情况下,都在尝试使用稍作修改的Transformer架构。即使在不能使用除法和指数运算的情况下,仍固守这种方案。
另一个局限性是,持续性的指令理解错误,特别是在“受限架构MLM”和“优化LLM Foundry”任务中。
在某些情况下,这些对环境的误读可能导致智能体找到令人印象深刻且意想不到的漏洞,这些漏洞在自动评估中得分很高,但在人工检查时明显违反了环境规则。
缩小差距
基于以上的观察,研究人员认为AI智能体在以下特征的环境中,会比人类表现更好:
- 短期且高保真循环反馈,可以让AI智能体充分发挥尝试多个解决方案的优势
- 工程复杂度低,使得AI智能体通过几个步骤就解决问题
- 需要专业知识的任务,AI智能体比人类专家具备更全的知识
- 环境中有显著的噪声,这种情况下AI智能体可以进行大量尝试的优势会超过人类专家较少的尝试次数。
- 不易出现意外情况,不需要太多的探索和发现
Re-Bench局限性
评估环境的代表性不足
为了创建符合设计标准的高可靠性评估,研究人员需要努力确保指令和评分容易理解,8小时内可以取得显著进展,并且提供所有必要的资源,还必须选择易于构建和评估的环境。
这些限制使得评估环境不太能代表真实的研究,常见问题包括不明确的目标、糟糕的指令、慢反馈和无法解决的问题。
结果噪声
由于环境数量较少,且智能体得分严重向右倾斜,大多数运行得分为0,只有少数得分非常高,所以结果评估对抽样噪声很敏感。
评估的成本和复杂性
使用H100 GPU运行智能体数小时需要相应的基础设施和大量预算,对于普通研究人员来说压力很大,运行大规模实验来对比多个模型、框架和参数也更具挑战性。
缺乏框架迭代
选择不同的智能体框架或提示,有可能导致模型在相近的时间内,在基准测试上取得更好的成绩。
分享: |
注: | 在此页阅读全文 |