| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

新闻资讯

论坛

温哥华地产

大温餐馆点评

温哥华汽车

温哥华教育

黄页/二手

旅游

大模型两小时暴虐50多名专家 但8小时显惊人短板

QR Code
请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
AI智能体离自主研发,还有多远?


Nature期刊的一篇研究曾证明了,GPT-4能自主设计并开展化学实验,还能阅读文档学习如何使用实验室设备。

另有Transformer作者之一研发的“世界首个AI科学家”,一口气肝出10篇论文,完全不用人类插手。


如今,AI在研发领域的入侵速度,远超人类预期。

来自非营利组织METR的最新研究称:

同时给定2个小时,Claude 3.5 Sonnet和o1-preview在7项具有挑战性研究工程中,击败了50多名人类专家。

令人印象深刻的是,AI编程速度能以超越人类10倍速度生成并测试各种方案。

在一个需要编写自定义内核以优化前缀和运算的任务中,o1-preview不仅完成了任务,还创造了惊人的成绩:将运行时间压缩到0.64毫秒,甚至超越了最优秀的人类专家解决方案(0.67毫秒)。




论文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf

不过,当比赛时间延长至8小时,人类却展现出了明显的优势。

由下可以看出,随着时间逐渐拉长,Claude 3.5 Sonnet和o1-preview的性能提升逐渐趋于平缓。




有趣的是,为了获得更高的分数,AI智能体居然会违反规则“作弊”。

原本针对一个任务,智能体应该减少训练脚本运行时间,o1-preview直接复制了输出的代码。

顶级预测者看到这一结果惊叹道,基于这个进步速度,AI达到高水平人类能力的时间可能会比之前预计的更短。


点个赞吧!您的鼓励让我们进步     这条新闻还没有人评论喔,等着您的高见呢
上一页123456下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0349 秒 and 4 DB Queries in 0.0061 秒