億歐智庫：深度學習之後是什麼？——《人工智慧的未來》書評

《人工智慧的未來》，是Palm公司、Numenta公司及Handspring公司的創辦者、電腦科學家與神經科學家Jeff Hawkins寫于2004年的科學著作。本書從神經科學和人腦研究的角度，

對神經網路與深度學習理論的不足進行批判；跳出應用層面，從“何為智慧的本質”的視角出發，本書搭建了一套經典的智慧模型，並希望以此啟發人工智慧研究超越當前深度學習框架，向真正的強智慧邁進。

糾正圖靈的錯誤：智慧≠行為

本書從批判現有人工智慧演算法與理論體系入手，指出目前學界商界研究人工智慧的諸多誤區，其中最重要的一點便是“將智慧簡單的等同于智慧行為”。這一謬誤起源於經典“圖靈測試”，企圖用行為主義框架定義智慧本質。

通過“中文屋”實驗，可以對“智慧=行為”這一論斷進行證偽。中文屋實驗旨在證明我們不能通過黑箱機制和大量計算的方式得到智慧。假設一位只說英語的人身處一個密閉房間中，

並隨身帶著一本寫有中文翻譯程式的書，將寫著中文的紙片通過小視窗送入房間中，房間中的人可以對任何中文做出翻譯，房間外的人也就將誤以為該翻譯者可以理解中文；同理，通過“簡單演算法+海量計算”提升演算法精准度的方法具有局限，部分學者“通過並聯深度學習模型得到強人工智慧“的設想是不可實現的。在開始“創造智慧”之前，應先理解現存智慧，即人腦智慧的運作方式，並對某些元素進行借鑒。

從神經科學角度解釋人類智慧的特徵：層級、封裝與知識模組

在理解人腦智慧的運作方式前，需要先從生物解剖學的角度，大致理解人腦的功能。人腦包含大腦、小腦、腦乾等部分，其中大腦可分為左右腦、前後腦等若干部分，由300億神經元細胞組成的新大腦皮層是產生智能的最重要器官；新皮層包裹在大腦最外側，包含6層細胞，展開後面積約同一張紙巾。

6層神經細胞的層級結構，説明人類完成了複雜的識別、思考和預測。根據作者的觀點，

人腦相當於一個巨大的素材庫，資訊從底層向上層傳遞，下層細胞不同的興奮組合，可以引起不同高層細胞的興奮；越上層的神經元細胞，包含的資訊越多，從而形成一個底部異常活躍，頂部逐漸趨於平穩的結構。 “垂直柱”是一系列神經元的組合，具有相同或相近的周圍感受野，即傾向於同時興奮；一個垂直柱很可能儲存著一個認知物件，如一個物體或一個完整動作。一個名為“聯合區”的區域，將視覺、聽覺、觸覺等資訊整合到一起，因此當我們“聽到某人聲音”和 “看到某人圖像”的時候，大腦可以匹配同一個物件。

“回饋性”、“層級性”和“序列性”，是人腦功能的主要特徵。神經元細胞的回饋是雙向的，即時的回饋保證了對錯誤的即時修正；層級性將複雜的任務分解，

類似于程式語言中的封裝；序列性是人腦對資訊的組織形式：資訊通過序列的方式，在一個垂直柱內被“物理儲存”。

智慧本質新論：記憶-預測模型

作者認為，智慧的本質不能通過行為因素進行判斷， “預測”能力應當作為衡量智慧的標準。換言之，智慧的核心，是通過已知推測未知的能力。人類智慧和動物最主要的區別，在於人類智慧不僅停留在應激反應級別，更能通過類比、閱讀等間接方式進行學習，並在未親身經歷的情況下形成經驗和預判。作者將人類的認知模式總結為“記憶-預測”模型。

在“記憶”階段，人腦大量吸取資訊素材和這些素材的組合序列，並為它們“命名”：將一系列神經元興奮儲存成垂直柱，在再次受到特徵刺激時同時興奮。在預測階段，一個人接觸到具有一定特徵的刺激後，大腦對刺激進行擬合，並匹配最適的“興奮序列”。當後續刺激和預測相一致時，大腦興奮的神經元序列保持不變，個體的認知也不發生改變；當後續刺激和預測相異時，大腦會根據最新的資訊，重新進行預測；當已有的知識（興奮序列）不能解釋當前的刺激時，大腦將在已有的垂直柱上進行修改，並形成新的“命名”。

舉例而言，當一個人聽到一段音樂時，他立刻會和自己已經聽過的最相似的音樂進行對比，並得出“這是我聽過的A音樂”，或“這與我聽過的A音樂有若干不同”的判斷。人腦“記憶-預測”模型中，已有知識（興奮序列）的複用率很高；各層皮質細胞儲存的資訊相當於一個素材庫，知識相當於一個個興奮序列；通過對已有序列最小限度的修改，大腦就形成了新知識。這些興奮序列或知識被稱為“恒定表徵”，相似于很多學者一直呼籲、建議運用在人工智慧演算法中的“知識結構”。

對比深度學習演算法，指明人工智慧未來

可以發現，相比於人腦的認知機制，神經網路和深度學習的機制顯得簡陋許多。首先，神經網路和深度學習對神經元機制的模仿是粗略的，這一演算法僅模仿了兩個神經元之間“增強”或“減弱”刺激的關係，鮮明的層次結構、封裝處理、和“垂直柱”知識儲存機制，都沒有在深度學習演算法中體現；其次，神經網路演算法建立在一系列“IF-THEN”判斷語句上；而人腦認知則建立在“預測-證偽”機制上；對比可發現，前者對於已有知識和“記憶-素材”的複用率極低。因此，神經網路演算法僅是對人類神經系統的粗劣模仿；通過更大資料量、更強計算能力、和更多的訓練，不能彌補演算法本身的拙劣性。

同時應該發現，一些科學家“通過串聯各弱智能的深度學習模式識別演算法，形成強智慧”的想法，很難真正實現。深度學習演算法不能很好的識別主體，不同類型的資訊（圖像、文字等）難以被整合；命名機制和特徵序列提取並不能通過深度學習演算法實現。深度學習在人工智慧“識別”層面具有優勢，而進入“認知”層面，其他機器學習演算法協同深度學習，才能達到更佳效果。

最後，在本書中作者無意為人工智慧的發展指明明確的方向，也並未做出“仿生和人腦智慧是實現強智慧的最好方式”之論斷。然而，通過參考人腦機制，我們發現了“垂直柱”、“層級制”、“記憶-預測”等尚未充分應用於機器學習、可能對機器學習有所裨益的機制和模式，這些才是真正具有價值的。

賞

在再次受到特徵刺激時同時興奮。在預測階段，一個人接觸到具有一定特徵的刺激後，大腦對刺激進行擬合，並匹配最適的“興奮序列”。當後續刺激和預測相一致時，大腦興奮的神經元序列保持不變，個體的認知也不發生改變；當後續刺激和預測相異時，大腦會根據最新的資訊，重新進行預測；當已有的知識（興奮序列）不能解釋當前的刺激時，大腦將在已有的垂直柱上進行修改，並形成新的“命名”。

對比深度學習演算法，指明人工智慧未來

賞