温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

大模型两小时暴虐50多名专家 但8小时显惊人短板

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
AI智能体离自主研发,还有多远?

Nature期刊的一篇研究曾证明了,GPT-4能自主设计并开展化学实验,还能阅读文档学习如何使用实验室设备。

另有Transformer作者之一研发的“世界首个AI科学家”,一口气肝出10篇论文,完全不用人类插手。


如今,AI在研发领域的入侵速度,远超人类预期。

来自非营利组织METR的最新研究称:

同时给定2个小时,Claude 3.5 Sonnet和o1-preview在7项具有挑战性研究工程中,击败了50多名人类专家。

令人印象深刻的是,AI编程速度能以超越人类10倍速度生成并测试各种方案。

在一个需要编写自定义内核以优化前缀和运算的任务中,o1-preview不仅完成了任务,还创造了惊人的成绩:将运行时间压缩到0.64毫秒,甚至超越了最优秀的人类专家解决方案(0.67毫秒)。




论文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf

不过,当比赛时间延长至8小时,人类却展现出了明显的优势。

由下可以看出,随着时间逐渐拉长,Claude 3.5 Sonnet和o1-preview的性能提升逐渐趋于平缓。




有趣的是,为了获得更高的分数,AI智能体居然会违反规则“作弊”。

原本针对一个任务,智能体应该减少训练脚本运行时间,o1-preview直接复制了输出的代码。

顶级预测者看到这一结果惊叹道,基于这个进步速度,AI达到高水平人类能力的时间可能会比之前预计的更短。


您的点赞是对我们的鼓励     好新闻没人评论怎么行,我来说几句
上一页123456下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站