AI最让人惊讶的发现：它和人类的区别并不大

逍遥

最近全球半导体产业的短缺让美国和中国争相寻求解决方案，并突显出人类对微芯片计算能力的依赖程度越来越高，从手机到汽车，几乎我们所有主要的日用品背后都有这个技术。然而，很少有人关注这个计算能力的深层含义。

人工智能的最新进展之所以能够实现，在很大程度上要归功于半导体技术的大幅改进以及它所释放的计算能力。但是，人工智能技术在这种新的计算机能力基础上实现，不仅仅是关于计算机或算法的新知识，而是关于我们自己的新见解...

文艺复兴时期，自动机器（automaton）在欧洲各国的王室宫廷中流行不久，法国哲学家笛卡儿（René Descartes）就推出了新一种观点：肉体不过是复杂的机器，它们的骨骼、肌肉和器官与机器的齿轮、活塞和凸轮没有什么不同。

喋喋不休

它们没有感情

逍遥

后来，随着工业革命技术的飞速发展，这个隐喻发生了变化：从机器，我们的肉体越来越多地被看作是工厂，一个复杂的传送带和马达（motor）网络。心理学家佛洛伊德（Sigmund Freud）有一个著名的比喻，把心灵比作工业时代的核心发明——蒸汽机。在这种心灵蒸汽机中，心灵的能量就像蒸汽一样在舱室里积聚，产生张力，通过性行为的“压力阀”来解决。

20世纪60年代，模控学（cybernetics，亦译“控制论”）和计算机科学再次掀起了科技界的革命，主导的隐喻从蒸汽机和工厂切换到了计算机：我们的大脑就是电脑，我们心灵是身体这种硬件的软件。

今天，计算机科学的最新进展——人工智能和该领域最流行的技术“机器学习”（machine learning）——再次彻底改变了人类对自己的看法。随着人工智能的日益使用和普及，我们的神经元已经越来越多地被视为位于我们头骨中的庞大机器学习算法的参数。

每当人类接触到一项强大的新技术，他们对世界和自身的看法就会发生改变。当然，这些隐喻是有局限性的；我们的肌肉功能并不完全像活塞，我们的身体比工厂复杂得多，我们的大脑做的也不仅仅是计算。

逍遥

然而，在人工智能的情况下，机器学习的工作方式和我们大脑的工作方式之间的相似度已经达到了不可思议的地步，这使得人工智能研究领域与心理学、生物学和神经科学等领域的交集越来越多，也使得研究者们基于人工智能的进步，对人类的基本知识有了惊人的发现。

AI揭开我们大脑的隐秘

人工智能的研究是如何带动其他科学领域的进步的？其中一个好的例子也是该领域最早的例子之一。

上世纪70年代，在机器学习的研究中，一个新的想法浮出水面，称为“时序差分学习”（temporal difference learning）。机器学习技术的目标是让算法从它们与环境的互动中学习。然而，在某些情况下，算法很难改进自己的行为，因为在执行动作和观察结果之间存在滞后。譬如，下棋的算法可能下了几十步才发现自己输了棋；它是哪里出了问题呢？是第13步还是第37步？用那时候传统的模型，算法很难知道什么动作是导致输棋，因此它无法从错误中学习。

“时序差分学习”能解决这个问题。它是基于一个巧妙的见解：算法不必等到游戏（或任何其他任务）的最后才得到关于自己的决策的反馈。通过在每一步棋后，根据棋盘的样子，重新计算它的获胜机率，它可以了解到一些关于刚才那一步棋的信息；如果放完棋子后，获胜机率上升了，那是一步好棋；如果下降了，很可能是一步坏棋。

一般来说，“时序差分学习”就是比较不同时间的预测。通过比较它在某一特定行动前后对未来结果的预测的差异，机器学习算法不需要等到实际结果才知道它的行动是好是坏。如果这个行动对它的预测产生了负面影响，它就可以了解到这个行动很可能是一个错误的决定。这一招让机器学习模型在一系列机器学习任务中大大提升了性能。

逍遥

这和人类有什么关系呢？大约在时序差分学习在人工智能界蔓延的同时，实时监测神经元的能力开始出现，心理学家开始对多巴胺（dopamine）神经元在人类和动物行为中扮演的角色感兴趣。

随着新的成像技术的发展，科学家们那时候可以实时看到实验室里的猴子在日常生活中多巴胺神经元发射的峰值。而且他们注意到了一些奇怪的事情：如果一只猴子伸手到箱子里找到了一块水果，它的大脑就会产生多巴胺峰值，但如果猴子重复同样的行为，继续寻找水果，多巴胺峰值就不会重复出现。科学家们认为，多巴胺似乎与惊喜或奖励有关，但也不完全是如此。大脑中究竟发生了什么，对于神经科学家来说，仍然是一个谜。

后来，上述实验的数据却被一位从事机器学习数学研究的科学家达扬（Peter Dayan）注意到。达扬立刻意识到，猴子的大脑正在使用与他的算法相同的技术：时序差分学习。猴子在第一次找到水果后，就在调整它对世界的预测，因此多巴胺飙升。但当它开始经常在那个位置找到水果时，它就不再学习任何关于世界的新知识了。

这一发现不仅仅是一个有趣的巧合，它使我们对人类的神经网络如何（根据其对世界的预测变化）来修正其行为有了新的认识。人类与机器学习算法有同样的问题，很多时候我们只能在几天、几周或几个月后才能观察到我们行为的结果。为了更早地从我们的错误中学习，大脑根据它对世界的模型不断地对未来进行预测，然后观察这些预测在不同时段的差异：我们就是在应用时序差分学习！直到今天，这仍然是科学界关于多巴胺系统作用的公认。

逍遥

在一个关于人工智能与人类的播客节目中，受欢迎的人工智能作者克里斯蒂安（Brian Christian）指出了这个故事的重要性：“对我来说，它告诉我们，我们（通过人工智能的研究）不仅仅是在开发解决工程问题的数学框架，而且我们实际上已经进入了哲学领域。我们真的是在发现进化已发现的一些基本学习机制。”

在某种程度上，这并不出人意料：人工智能的目标是在机器上重现人类的智能行为，而其领先的模型，机器学习，是受到生物神经网络的启发而发展的。通过让机器尝试解决只有人类能完成的任务，使用基于我们大脑工作方式的抽象模型，我们发现了与进化为人类提供的功能相似的技术解决方案，这个没什么可诧异。然而，令人惊讶的是，AI与人类行为的底层机制是多么相似。

人工智能科学和人类科学之间的联系并不仅仅是单向的。就像我们通过研究机器了解到关于人类的新事物一样，我们也在通过观察人类可以学习如何制造更好的机器，而这进一步证实了人工智能与人类之间的深刻联系。

逍遥

人类教机械人玩电子游戏

人工智能科学家经常在电子游戏上测试他们的算法。其中有一个特别受欢迎的系列游戏，就是美国电子游戏制造商雅达利（Atari, Inc.）公司开发的经典电脑游戏。

到2015年，机器学习方法已经取得了很大的进步，以至於单一算法已经能够学习如何以超人的水平玩转该游戏的大部分。然而，同样的算法仍然无法在雅达利公司的一款人们认为相当无聊的游戏《蒙特祖玛的复仇》（Montezuma’s Revenge）上获得一分。

逍遥

这款游戏有什么特别之处？《蒙特祖玛的复仇》并不像体育游戏或射击游戏那样提供快速奖励，而是要求玩家完成一系列复杂的步骤，爬过障碍物、避开敌人、收集钥匙等，然后才能获得第一分。这些任务对人类来说并不困难，但如果没有任何奖励来表明它的方向是正确的，算法就会尝试数百万种不同的动作，但仍然无法学习它应该做什么。

仔细观察，人工智能科学家们意识到，在这种情况下，人类和机器玩家有一个重要的区别：在没有明确奖励的情况下，机器只是随机摸索，但人类玩家会有一条路可走：自己的好奇心。

研究人员意识到，人类（和许多动物）拥有而机器缺乏的是一种鼓励他们探索环境、与生俱来的好奇心。人类儿童就是一个明显的例子：他们几乎对周围的任何东西都会有触碰、品尝和玩耍的动机，尽管对他们没有直接的好处。

逍遥

而且这是行为心理学中一个众所周知的现象。正如研究这个问题的人工智能科学家发现的那样，有明确的科学证据表明，人类存在这类好奇的内在动机。

这些心理学的科学文献与机器学习所面临的问题有着非常好的联系。2016年，一篇人工智能论文从婴儿行为认知科学中借用了“优先看”（preferential looking）的概念，帮助他们战胜《蒙特祖玛的复仇》。“优先看”是指人类婴儿从两周岁左右开始形成的一种偏好，即总是看一些他们从未见过的东西。

人工智能科学家将其理解为一种内部奖励机制，他们将其转化为数学术语，并添加到他们的游戏算法中。他们发现，只要他们奖励算法的“好奇心”，也就是奖励它看到屏幕上从未见过的图像，突然间它就能找出完成游戏第一关所需的一系列复杂动作。

AI科学家借鉴人类和行为科学的这种例子很多，它不仅涉及婴儿和动物的原始行为，还涉及整个成年人类的团队。

大约在算法学会玩《蒙特祖玛的复仇》的同时，麻州理工学院（MIT）的机械人学家萨（Julie Shah）也在研究如何让人类和AI驱动的机械人一起工作的问题。越来越多的工厂生产线上，人类和机械人都在肩并肩工作，工作时接触非常紧密，来回传递东西。

逍遥

然而，萨并没有试图自己解决这个问题，而是意识医学和军事研究人员早就为人类团队训练创制出一整个学门的研究。萨立刻发现，那个文献中描述的许多最佳实践其实可以直接适用于机械人技术。当她打开这扇门后，突然有大量的知识涌入，前人的研究成果没有什么摩擦就从社会科学流向了人工智能研究。

从这个对人工智能领域一些重大成果的非常简短的概述中可以看出，人工智能之所以重要，不仅仅是因为它为我们提供了有用的技术创新，还因为它为我们提供了一种新的理解：“为什么人类是这样的？”。正如克里斯蒂安所说：“有一种令人振奋的冲动，是让我们意识到越来越多的学科会相互交流。”

这就是人工智能如此具有革命性的原因：这个领域的未来不仅有望让我们的生活变得更轻松，而且还能解决我们关于世界以及自己本身的一些最大问题。