大模型两小时暴虐50多名专家 但8小时显惊人短板
Nature期刊的一篇研究曾证明了,GPT-4能自主设计并开展化学实验,还能阅读文档学习如何使用实验室设备。
另有Transformer作者之一研发的“世界首个AI科学家”,一口气肝出10篇论文,完全不用人类插手。
如今,AI在研发领域的入侵速度,远超人类预期。
来自非营利组织METR的最新研究称:
同时给定2个小时,Claude 3.5 Sonnet和o1-preview在7项具有挑战性研究工程中,击败了50多名人类专家。
令人印象深刻的是,AI编程速度能以超越人类10倍速度生成并测试各种方案。
在一个需要编写自定义内核以优化前缀和运算的任务中,o1-preview不仅完成了任务,还创造了惊人的成绩:将运行时间压缩到0.64毫秒,甚至超越了最优秀的人类专家解决方案(0.67毫秒)。
论文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf
不过,当比赛时间延长至8小时,人类却展现出了明显的优势。
由下可以看出,随着时间逐渐拉长,Claude 3.5 Sonnet和o1-preview的性能提升逐渐趋于平缓。
有趣的是,为了获得更高的分数,AI智能体居然会违反规则“作弊”。
原本针对一个任务,智能体应该减少训练脚本运行时间,o1-preview直接复制了输出的代码。
顶级预测者看到这一结果惊叹道,基于这个进步速度,AI达到高水平人类能力的时间可能会比之前预计的更短。
分享: |
注: | 在此页阅读全文 |