AI考高数 "卷死"了大帮计算机博士

2022-07-02 | 来源: 量子位 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

　　高数考不好，不知道是多少人的噩梦。

　　如果说你高数考得还不如 AI 好，是不是就更难以接受了？

　　没错，来自 OpenAI 的 Codex 已经在 MIT 的 7 门高数课程题目中正确率达到 81.1%，妥妥的 MIT 本科生水平。

　　课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

　　

　　这件事最近还登上了微博热搜。

　　

　　" 仅 " 得 81 分，对 AI 的期待也太高了吧

　　现在，谷歌那边又传来了最新大消息：

　　不止数学，我们的 AI 甚至在整个理工科上，都已经拿到最高分啦！

　　看来在培养 "AI 做题家 " 这件事上，科技巨头们已经卷出了新高度。

　　谷歌这个最新 AI 做题家，参加了四门考试。

　　数学竞赛考试 MATH，以往只有三届 IMO 金牌得主才拿过 90 分，普通的计算机博士甚至只能拿到 40 分左右。

　　至于别的 AI 做题家们，以前最好成绩只有 6.9 分……

　　但这一次，谷歌新 AI 却刷到了 50 分，比计算机博士还高。

　　综合考试 MMLU-STEM，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。

　　这一次，谷歌 AI" 满血版 "，也都拿到了做题家中的最高分，直接将分数拉高了 20 分左右。

　　

　　小学数学题 GSM8k，直接将成绩拉升到 78 分，相比之下 GPT-3 还没及格（仅 55 分）。

　　就连 MIT 本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，谷歌新 AI 也能在 200 多道题中，答出将近三分之一。

　　

　　最重要的是，与 OpenAI 凭借 " 编程技巧 " 取得数学高分的方法不同，谷歌 AI 这一次，走的可是 " 像人一样思考 " 的路子——

　　它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。

　　值得一提的是，论文一作 Lewkowycz 还分享了一个论文中没写到的亮点：

　　我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

　　

　　看到这里，有的家长已经坐不住了。

　　如果告诉我女儿这件事，我怕她用 AI 做作业。但如果不告诉她，就没有让她对未来做好准备！

　　

　　在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

　　

　　那么，这是怎么做到的？

　　AI 狂读 arXiv 上 200 万篇论文

　　新模型 Minerva，基于 Pathway 架构下的通用语言模型 PaLM 改造而来。

　　分别在 80 亿、600 亿和 5400 亿参数 PaLM 模型的基础上做进一步训练。

　　Minerva 做题与 Codex 的思路完全不同。

　　Codex 的方法是把每道数学题改写成编程题，再靠写代码来解决。

　　而 Minerva 则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。

　　在 PaLM 的基础上继续训练，新增的数据集有三部分：

　　主要有 arXiv 上收集的 200 万篇学术论文，60GB 带 LaTeX 公式的网页，以及一小部分在 PaLM 训练阶段就用到过的文本。

　　

　　通常的 NLP 数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦着名的质能方程只剩下了 E=mc2。

　　

　　但谷歌这次把公式都保留，和纯文本一样走一遍 Transformer 的训练程序，让 AI 像理解语言一样去理解符号。

　　与之前的语言模型相比，这是 Minerva 在数理问题上表现更好的原因之一。

　　但与专门做数学题的 AI 相比，Minerva 的训练中没有显式的底层数学结构，这带来一个缺点和一个优点。

　　缺点，是可能出现 AI 用错误的步骤得到正确答案的情况。

　　优点，是可以适应不同学科，即使有些问题无法用正规的数学语言表达出来，也可以结合自然语言理解能力解出来。

　　到了 AI 的推理阶段，Minerva 还结合了多个最近谷歌开发的新技术。

　　先是 Chain of Thought 思维链路提示，今年一月由谷歌大脑团队提出。

　　具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI 在做题时就可以采用类似的思考过程，正确回答本来会答错的题目。