大模型两小时暴虐50多名专家 但8小时显惊人短板
覆盖前沿研究的局限性
由于硬件访问有限,并且前沿AI研究也大多是闭源的,评估所涵盖的研究类型与推动前沿AI进步的研究类型之间可能存在差异。
方案可能过度拟合
除了“扩展法则实验”之外,所有环境都向智能体提供了测试分数输出,以最小化误解或混淆的风险;在未来的迭代中,研究人员考虑只在大多数环境中向智能体提供验证分数,把测试分数隐藏起来。
“扩展法则实验”得分存在运气成分
虽然良好的实验可以帮助人类专家在环境中做出明智的预测,但智能体还是主要依赖猜测,更多是运气而不是技巧的问题。
分享: |
注: | 在此页阅读全文 |