-
_NEWSDATE: 2024-10-04 | News by: 量子位 | 有0人参与评论 | 专栏: 留学生 | _FONTSIZE: _FONT_SMALL _FONT_MEDIUM _FONT_LARGE
简单来说,论文发现:更大且更遵循指令的大模型也变得更不可靠了,某些情况下 GPT-4在回答可靠性上还不如GPT-3。
与早期模型相比,有更多算力和人类反馈加持的最新模型,在回答可靠性上实际愈加恶化了。
结论一出,立即引来20多万网友围观。
在Reddit论坛也引发围观议论。
这让人不禁想起,一大堆专家/博士级别的模型还不会“9.9和9.11”哪个大这样的简单问题。
关于这个现象,论文提到这也反映出, 模型的表现与人类对难度的预期不符。
换句话说,“LLMs在用户预料不到的地方既成功又(更危险地)失败”。
Ilya Sutskever2022年曾预测:
也许随着时间的推移,这种差异会减少。
然而这篇论文发现情况并非如此。不止GPT,LLaMA和BLOOM系列,甚至OpenAI新的 o1模型和Claude-3.5-Sonnet也在可靠性方面令人担忧。
更重要的是,论文还发现依靠人类监督来纠正错误的做法也不管用。
有网友认为,虽然较大的模型可能会带来可靠性问题,但它们也提供了前所未有的功能。
我们需要专注于开发稳健的评估方法并提高透明度。- 新闻来源于其它媒体,内容不代表本站立场!
- 出国学文科的留学生,如今后悔了吗?
- 女留学生BC宿营时遇风暴不幸丧生
- 温哥华汇款/外币兑换 汇率最优安全
- 移民亲述:放弃舒适的生活到加拿大
- 这对明星逛温哥华圣诞集市尝美食
-
- 2025年春晚官宣后引争议,岳云鹏惨遭抵制,赵本山反而成焦点!
- 央行最新降息及新贷款规则的影响
- 加国豪华公寓陷困境 未能找到买家
- 温哥华要疯了!粉丝寒风中大排长龙
- 被打球的巩俐惊艳了!腰臀比太绝 59岁风韵犹存
- 全城狂欢 霉霉巡演最后一站温哥华
-
- 杨玉环墓地出土才发现,千年"传言"可能被证实
- "保姆纵火案"林生斌任职公司被列入经营异常名录
- 44岁张柏芝被质疑整容,鼻头奇怪笑容僵硬...
- 下场太惨!港媒爆中国芯片业3项自主率
- CEO街头被杀 警方多条线索仍未破案
- 王菲参加聚会 半躺在沙发上 宽松毛衣很高级
-
- 消费者报告:新年度最佳汽车品牌是
- 时代巡演终结 霉霉温村今谢幕表演
- 台湾、TikTok...川普透露选后首次与习沟通
- 加拿大耗资$1600万安10个天眼,直拍人脸车牌
- 大温著名发廊 美发师都来自于日本
- 河北一私家车不给救护车让路致老人离世 部门回应
-
目前还没有人发表评论, 大家都在期待您的高见