AI最讓人驚訝的發現：它和人類的區別並不大 (發表於3年前)

逍遙

最近全球半導體產業的短缺讓美國和中國爭相尋求解決方案，並突顯出人類對微芯片計算能力的依賴程度越來越高，從手機到汽車，幾乎我們所有主要的日用品背後都有這個技術。然而，很少有人關注這個計算能力的深層含義。

人工智能的最新進展之所以能夠實現，在很大程度上要歸功於半導體技術的大幅改進以及它所釋放的計算能力。但是，人工智能技術在這種新的計算機能力基礎上實現，不僅僅是關於計算機或算法的新知識，而是關於我們自己的新見解...

文藝復興時期，自動機器（automaton）在歐洲各國的王室宮廷中流行不久，法國哲學家笛卡兒（René Descartes）就推出了新一種觀點：肉體不過是復雜的機器，它們的骨骼、肌肉和器官與機器的齒輪、活塞和凸輪沒有什麼不同。

喋喋不休

它們沒有感情

逍遙

後來，隨著工業革命技術的飛速發展，這個隱喻發生了變化：從機器，我們的肉體越來越多地被看作是工廠，一個復雜的傳送帶和馬達（motor）網絡。心理學家佛洛伊德（Sigmund Freud）有一個著名的比喻，把心靈比作工業時代的核心發明——蒸汽機。在這種心靈蒸汽機中，心靈的能量就像蒸汽一樣在艙室裡積聚，產生張力，通過性行為的“壓力閥”來解決。

20世紀60年代，模控學（cybernetics，亦譯“控制論”）和計算機科學再次掀起了科技界的革命，主導的隱喻從蒸汽機和工廠切換到了計算機：我們的大腦就是電腦，我們心靈是身體這種硬件的軟件。

今天，計算機科學的最新進展——人工智能和該領域最流行的技術“機器學習”（machine learning）——再次徹底改變了人類對自己的看法。隨著人工智能的日益使用和普及，我們的神經元已經越來越多地被視為位於我們頭骨中的龐大機器學習算法的參數。

每當人類接觸到一項強大的新技術，他們對世界和自身的看法就會發生改變。當然，這些隱喻是有局限性的；我們的肌肉功能並不完全像活塞，我們的身體比工廠復雜得多，我們的大腦做的也不僅僅是計算。

逍遙

然而，在人工智能的情況下，機器學習的工作方式和我們大腦的工作方式之間的相似度已經達到了不可思議的地步，這使得人工智能研究領域與心理學、生物學和神經科學等領域的交集越來越多，也使得研究者們基於人工智能的進步，對人類的基本知識有了驚人的發現。

AI揭開我們大腦的隱秘

人工智能的研究是如何帶動其他科學領域的進步的？其中一個好的例子也是該領域最早的例子之一。

上世紀70年代，在機器學習的研究中，一個新的想法浮出水面，稱為“時序差分學習”（temporal difference learning）。機器學習技術的目標是讓算法從它們與環境的互動中學習。然而，在某些情況下，算法很難改進自己的行為，因為在執行動作和觀察結果之間存在滯後。譬如，下棋的算法可能下了幾十步才發現自己輸了棋；它是哪裡出了問題呢？是第13步還是第37步？用那時候傳統的模型，算法很難知道什麼動作是導致輸棋，因此它無法從錯誤中學習。

“時序差分學習”能解決這個問題。它是基於一個巧妙的見解：算法不必等到游戲（或任何其他任務）的最後才得到關於自己的決策的反饋。通過在每一步棋後，根據棋盤的樣子，重新計算它的獲勝機率，它可以了解到一些關於剛才那一步棋的信息；如果放完棋子後，獲勝機率上升了，那是一步好棋；如果下降了，很可能是一步壞棋。

一般來說，“時序差分學習”就是比較不同時間的預測。通過比較它在某一特定行動前後對未來結果的預測的差異，機器學習算法不需要等到實際結果才知道它的行動是好是壞。如果這個行動對它的預測產生了負面影響，它就可以了解到這個行動很可能是一個錯誤的決定。這一招讓機器學習模型在一系列機器學習任務中大大提升了性能。

逍遙

這和人類有什麼關系呢？大約在時序差分學習在人工智能界蔓延的同時，實時監測神經元的能力開始出現，心理學家開始對多巴胺（dopamine）神經元在人類和動物行為中扮演的角色感興趣。

隨著新的成像技術的發展，科學家們那時候可以實時看到實驗室裡的猴子在日常生活中多巴胺神經元發射的峰值。而且他們注意到了一些奇怪的事情：如果一只猴子伸手到箱子裡找到了一塊水果，它的大腦就會產生多巴胺峰值，但如果猴子重復同樣的行為，繼續尋找水果，多巴胺峰值就不會重復出現。科學家們認為，多巴胺似乎與驚喜或獎勵有關，但也不完全是如此。大腦中究竟發生了什麼，對於神經科學家來說，仍然是一個謎。

後來，上述實驗的數據卻被一位從事機器學習數學研究的科學家達揚（Peter Dayan）注意到。達揚立刻意識到，猴子的大腦正在使用與他的算法相同的技術：時序差分學習。猴子在第一次找到水果後，就在調整它對世界的預測，因此多巴胺飆升。但當它開始經常在那個位置找到水果時，它就不再學習任何關於世界的新知識了。

這一發現不僅僅是一個有趣的巧合，它使我們對人類的神經網絡如何（根據其對世界的預測變化）來修正其行為有了新的認識。人類與機器學習算法有同樣的問題，很多時候我們只能在幾天、幾周或幾個月後才能觀察到我們行為的結果。為了更早地從我們的錯誤中學習，大腦根據它對世界的模型不斷地對未來進行預測，然後觀察這些預測在不同時段的差異：我們就是在應用時序差分學習！直到今天，這仍然是科學界關於多巴胺系統作用的公認。

逍遙

在一個關於人工智能與人類的播客節目中，受歡迎的人工智能作者克裡斯蒂安（Brian Christian）指出了這個故事的重要性：“對我來說，它告訴我們，我們（通過人工智能的研究）不僅僅是在開發解決工程問題的數學框架，而且我們實際上已經進入了哲學領域。我們真的是在發現進化已發現的一些基本學習機制。”

在某種程度上，這並不出人意料：人工智能的目標是在機器上重現人類的智能行為，而其領先的模型，機器學習，是受到生物神經網絡的啟發而發展的。通過讓機器嘗試解決只有人類能完成的任務，使用基於我們大腦工作方式的抽象模型，我們發現了與進化為人類提供的功能相似的技術解決方案，這個沒什麼可詫異。然而，令人驚訝的是，AI與人類行為的底層機制是多麼相似。

人工智能科學和人類科學之間的聯系並不僅僅是單向的。就像我們通過研究機器了解到關於人類的新事物一樣，我們也在通過觀察人類可以學習如何制造更好的機器，而這進一步證實了人工智能與人類之間的深刻聯系。

逍遙

人類教機械人玩電子游戲

人工智能科學家經常在電子游戲上測試他們的算法。其中有一個特別受歡迎的系列游戲，就是美國電子游戲制造商雅達利（Atari, Inc.）公司開發的經典電腦游戲。

到2015年，機器學習方法已經取得了很大的進步，以至於單一算法已經能夠學習如何以超人的水平玩轉該游戲的大部分。然而，同樣的算法仍然無法在雅達利公司的一款人們認為相當無聊的游戲《蒙特祖瑪的復仇》（Montezuma’s Revenge）上獲得一分。

逍遙

這款游戲有什麼特別之處？《蒙特祖瑪的復仇》並不像體育游戲或射擊游戲那樣提供快速獎勵，而是要求玩家完成一系列復雜的步驟，爬過障礙物、避開敵人、收集鑰匙等，然後才能獲得第一分。這些任務對人類來說並不困難，但如果沒有任何獎勵來表明它的方向是正確的，算法就會嘗試數百萬種不同的動作，但仍然無法學習它應該做什麼。

仔細觀察，人工智能科學家們意識到，在這種情況下，人類和機器玩家有一個重要的區別：在沒有明確獎勵的情況下，機器只是隨機摸索，但人類玩家會有一條路可走：自己的好奇心。

研究人員意識到，人類（和許多動物）擁有而機器缺乏的是一種鼓勵他們探索環境、與生俱來的好奇心。人類兒童就是一個明顯的例子：他們幾乎對周圍的任何東西都會有觸碰、品嘗和玩耍的動機，盡管對他們沒有直接的好處。

逍遙

而且這是行為心理學中一個眾所周知的現象。正如研究這個問題的人工智能科學家發現的那樣，有明確的科學證據表明，人類存在這類好奇的內在動機。

這些心理學的科學文獻與機器學習所面臨的問題有著非常好的聯系。2016年，一篇人工智能論文從嬰兒行為認知科學中借用了“優先看”（preferential looking）的概念，幫助他們戰勝《蒙特祖瑪的復仇》。“優先看”是指人類嬰兒從兩周歲左右開始形成的一種偏好，即總是看一些他們從未見過的東西。

人工智能科學家將其理解為一種內部獎勵機制，他們將其轉化為數學術語，並添加到他們的游戲算法中。他們發現，只要他們獎勵算法的“好奇心”，也就是獎勵它看到屏幕上從未見過的圖像，突然間它就能找出完成游戲第一關所需的一系列復雜動作。

AI科學家借鑒人類和行為科學的這種例子很多，它不僅涉及嬰兒和動物的原始行為，還涉及整個成年人類的團隊。

大約在算法學會玩《蒙特祖瑪的復仇》的同時，麻州理工學院（MIT）的機械人學家薩（Julie Shah）也在研究如何讓人類和AI驅動的機械人一起工作的問題。越來越多的工廠生產線上，人類和機械人都在肩並肩工作，工作時接觸非常緊密，來回傳遞東西。

逍遙

然而，薩並沒有試圖自己解決這個問題，而是意識醫學和軍事研究人員早就為人類團隊訓練創制出一整個學門的研究。薩立刻發現，那個文獻中描述的許多最佳實踐其實可以直接適用於機械人技術。當她打開這扇門後，突然有大量的知識湧入，前人的研究成果沒有什麼摩擦就從社會科學流向了人工智能研究。

從這個對人工智能領域一些重大成果的非常簡短的概述中可以看出，人工智能之所以重要，不僅僅是因為它為我們提供了有用的技術創新，還因為它為我們提供了一種新的理解：“為什麼人類是這樣的？”。正如克裡斯蒂安所說：“有一種令人振奮的沖動，是讓我們意識到越來越多的學科會相互交流。”

這就是人工智能如此具有革命性的原因：這個領域的未來不僅有望讓我們的生活變得更輕松，而且還能解決我們關於世界以及自己本身的一些最大問題。