機器人數學考了134分，要上清華北大NLP是最大難關

時間＼2017-06-08

文/胡祥傑

高考恢復40周年，機器人已經開始挑戰高考：昨天學霸君和準星雲學的機器人解答2017年高考數學科目的試卷，並且學霸君機器人Aidam還與6位高考狀元即時PK，拿到134分的高分。

高考機器人是國家863計畫的一個重點項目，新智元專訪了專案負責人之一的胡鬱，以及學霸君首席科學家張凱磊，深度解答高考機器人的來龍去脈和技術詳情。AlphaGo之後，高考機器人很可能會在社會再掀熱潮，這次會在教育行業帶來一場顛覆性的變革。

2017年6月7日，高考恢復後的第40屆高考如期而至。40年前，人們為新時代的開啟歡呼雀躍。40年後，從高考走出的一代又一代學子正在不斷探索科技的新前線——在人工智慧領域，

科學家們正在努力讓機器通過“高考”，創造能適應時代發展的機器智慧。

這個夏天，正在高考如火如荼的舉行之時，國內一些前沿的技術公司、教育公司都發起了讓機器人挑戰高考的活動，比如科大訊飛、學霸君和準星機器人等。6月6日晚，科大訊飛輪值總裁吳曉如在直播平臺上介紹“高考機器人”；6月7日晚，學霸君智慧教育機器人將與四位往屆高考狀元現場PK；準星機器人也在挑戰高考數學卷。

134分，機器人的數學水準能碾壓多少人？

6日晚，機器人高考成績出爐。學霸君的Aidam首次與6名高考理科狀元在北京同台PK，解答2017年高考文科數學試題。Aidam的成績為134分，6名狀元的平均分為135分。Aidam答題耗時9分47秒。“學霸君”創始人張凱磊介紹，為了展示，Aidam今天答題放慢了六倍速度，平時每道題完成時間應該在7-15秒。

同時進行的另一場機器人高考測試中，

“準星數學高考機器人”AI-MATH測試北京文科數學試卷估分105分，用時22分鐘。據報導，AI-MATH也答了全國卷，得分100，用時10分鐘。

學霸君創始人張凱磊在接受藍象營的專訪時表示：“學霸君用的是 SVO 模型，當 SVO 模型工作的時候，就是在傳遞一個最小可用的資訊模型。傳遞過後再進行符號計算和邏輯推理。我們向電腦內輸入公理、定理，跟經典題目形成一系列的計算規則。然後快速做搜索，

窮盡計算規則，看它能不能解出來。這兩部分是電腦相對而言比較擅長的。最後，它會把形式語言變成自然語言輸出，讓人能讀懂步驟。”

新智元瞭解到，未來學霸君的所有合作都會通過藍象資本開放。

學霸君的首席科學家陳銳鋒對新智元介紹，Aidam 的解題過程涉及到三個步驟：

1）自然語言翻譯成機器能理解的形式語言，這裡主要可以用RNN的一套機制，把題目翻譯成以“主謂賓”為單位的最小描述單位，

用於描述題目的各種狀態。

2）進行推理和運算。這也是一個多層網路。區別在於數學計算（比如函數的最大值）在目前有很多運算比較難以用簡單的RNN或者CNN等去模擬。學霸君採用了一類叫做知識元網路的方案，把知識的基礎運算連接成網路。

3）形式語言翻譯成自然語言。解題引擎預測出解題步驟之後，輸出的是一些形式語言，這時候可以對其進行一個翻譯，再轉換成人可以理解的自然語言。

關於訓練量，陳銳鋒對新智元說，高考機器人已經做過和嘗試做超過一千萬的問題。因為機器解題是很快的，這個跟顯示學生是不可同日而語的。“我們的AI學產品上平均學生在單學科上每天的做題量不超過40道，所以，這個對比是懸殊的”，他說。

張凱磊說：“我們有400台至強十二核 64G 記憶體的伺服器加上1000台左右的次要伺服器，這400台基本都是 Tesla，容量很大。一個Aidam 的背後大概有7個引擎，代數和幾何使用的是完全不同的引擎，從演算法、邏輯到推理全都不一樣，技術上難度很大。數學公式非常重要的是需要翻譯成 LaTex ，通過 LaTex 進行閱讀理解和輸出。Aidam 每天訓練30萬道到50萬道題目，訓練時間基本是全天的。但是因為白天有大量的中斷性測試，所以晚上訓練的時間更長。”

高考機器人：國家立項，兩條腿走路

科大訊飛是863類人答題機器人專案的測試組織單位，他們認為，要客觀的評價“機器人”參加高考的水準，要確保以下幾點：

要有權威的協力廠商來主導和主持測試，包括測試機器的準備、測試系統的安裝以及測試過程的操作；

參加考試的機器，要確保處於斷網的環境；

測試試卷必須是原創的新題，在測試試卷實際完成測試之前，確保參測方無法獲得試卷；

測試過程要求輸出詳細的機器處理的中間過程，備查。

2015年7月，國家啟動“高考機器人”項目，作為我國在人工智慧技術領域新一輪創新的重要起點。“高考機器人”是國家863計畫資訊技術領域“基於大資料的類人智慧關鍵技術與系統”專案的重要研究目標之一，該專案一般簡稱為“類人智慧”項目。專案以科大訊飛為牽頭單位，聯合清華大學、中科院自動化所、北京大學、北京理工大學、中科院軟體所、南京大學、電子科技大學、哈爾濱工業大學等超過30家科研院校和企業共同負責項目的研發與實施，主要針對大資料所帶來的新的技術與挑戰，研究相關類腦計算關鍵技術和類人答題系統，希望通過本專案的實施，研製出能夠參加高考並考取大學的智慧型機器人。值得一提的是，準星機器人公司的高考機器人也屬於國家863框架下的計畫。

科大訊飛執行總裁胡郁是該專案首席科學家，2016年11月，在接受新智元的專訪時，他曾介紹說：“高考機器人其實是國家863框架下設定的計畫，不僅訊飛在做這件事情，而是國內的很多研究機構一起共同來做這個事情，它體現了中國在認知智慧方面研究領域整體的力量。無論從技術水準還是資源的建立還是最後學習系統的搭建在國際來講都是非常快的，這個工作開展也就兩年時間，在整個解題思路、資源的不斷積累還有系統運行方面現在講勢頭還是非常良好的。”

胡鬱還說：“我們現在用的高考機器人其實是一個典型的智慧問答和自然語言處理的核心關鍵性問題的求解，在這個過程中我們採用了兩條腿走路的方式，一條腿採用傳統的統計機器學習方法，對知識的內容進行建模、推理，保證有一個可用的系統。在研製這個系統的過程中，我們也將人工神經網路，對自然語言理解方面最新的科技進展全部使用到這裡面。也就是說，有一個基本的保底系統，傳統的統計學方法已經用上了，另外也在嘗試最新的人工智慧技術，就像訊飛在國際上取得了Winograd、Knowledge Base Population第一名成績的技術都用了深度神經網路的演算法，可以在這上面進一步加強。”

對機器人來說，數學和歷史其實比語文和地理更容易

在那次採訪中，胡郁向新智元介紹說，採取現在認知智慧突破的方法，要解決讓機器人自主學習答題，技術上首先肯定是可行的，但是挑戰也很大，現在基本得到一個結論——對於知識獲取型的題目，現在已經可以取得比較好的效果，根據你的知識存儲來完成這個題目的，死記硬背的可以過了。一般邏輯推理性的項目也可以進行，對於邏輯推理性特別強的，特別是綜合或者文科比如語文裡面的有些題目、地理裡面的有些題目是比較難的。歷史這樣的知識存儲型或者嚴謹的數學推理機器人是可以應付，數學中大部分是定理證明，定理證明在人工智慧第一個發展浪潮中就已經得到比較好的解決了。

可以看到，挑戰2017年高考的兩家人工智慧系統，也都選擇了數學卷。要讓機器學會解答數學題，面臨的難題有哪些？

微軟亞洲研究院此前有一篇技術博客曾介紹，機器數學解題需要多種層次的自然語言理解；在一定程度上理解文字之後，數學解題需要通過邏輯推理生成解題公式；電腦需要具有一定有關現實世界的常識去理解自然語言裡面一些隱式的指代，也就是我們常說的“常識”。

以上三點是電腦解讀數學題所面臨的三大主要障礙。總的來說，給出一道數學題文字描述，系統需要涵蓋三大部分：自然語言理解，語義表達和映射以及數學推理得出解決公式和答案。

下圖列出了目前較為常見的數學解題系統：

圖片來自微軟亞洲研究院

以微軟亞洲研究院的數學解題系統 SigmaDolphin 為例，該系統包含兩個部分：

Dolphin語言

SigmaDolphin定義了一套針對數學解題的抽象表示語言（被命名為Dolphin Language），包含了數學相關的類和函數。該語言人工定義了1000多種數學類型以及7000多種從Freebase和其它網頁自動抽取的概念類型，加上其定義的函數和資料結構，使得該語言十分適合表達數學概念及運算，並能很好地構建出一個精准的數學解題系統。同時Dolphin Language具有大約1萬條語法規則，把自然語言解析成Dolphin Language的表示，繼而進行推理得到數學公式。有關該方法的詳細介紹已經發表在EMNLP 2015，題為“Automatically Solving Number Word Problems by Semantic Parsing and Reasoning” 。

“what is 1 plus 2”的Dolphin語言表示形式

Dolphin18K資料集

該資料集包含了1萬8千多道數學題。有關該資料集的詳細介紹已發表在ACL 2016，題為“How Well Do Computers Solve Math Word Problems？ Large-Scale Dataset Construction and Evaluation”。在這篇論文中，作者專門為評估電腦自動解決數學問題的能力構建了一個大規模資料集 Dolphin18K。這個資料集是以往規模的 9 倍，從社區問答 CQA 網頁半自動獲取，使用基於 SVM 的方法自動評估，減少了人工標注的成本，並且包含了更多種類型的問題。

過往的系統在各自的資料集上都有高達60%至80%的準確率，但由於評測的資料集都在幾百道題目的規模上，而且都有不同的題型限制，導致其得出的結論可能不夠有代表性。對比之前的資料集，Dolphin18K題目數量增加了10倍以上，涵蓋了不同年級、不同難度的數學題，且題型更加全面豐富，更具有挑戰性。目前，在Dolphin18K的評測上，過往的這些數學解題系統平均只能獲得20%左右的準確率，說明了數學解題並沒有想像中的那麼簡單。

日本高考機器人放棄考入東大，NLP仍是最大阻礙

日本也有“高考機器人”項目，也就是大家熟知的蘿蔔君。日本國立情報學研究所（NII）自2010年啟動的“東大機器人專案”，其目標是2020年考上日本第一高等學府——東京大學。 2017年年初，日本研究人員宣佈，放棄讓人工智慧系統參加東京大學入學考試的計畫。研究者解釋道：“人工智慧系統無法理解必要的資訊，閱讀和理解句子含義的能力存在局限。我們發現，現在還沒有辦法使這一系統獲得足夠的分數，使它通過東京大學的入學考試。”

胡鬱在接受新智元專訪時也介紹說，東大機器人開發的時間相當長，現在已經有六年的時間，日本的專案是一個鬆散型的組織，沒有政府的支援做這個事情，靠研發人員自發的研究組織。

看來，在被譽為“人工智慧皇冠上的明珠”的NLP上遭遇的難題讓“蘿蔔君”打了退堂鼓。

在上周微軟亞洲研究院 NLP 技術分享會上，MSRA副院長、ACL 候任主席周明博士，介紹了機器閱讀理解的相關內容。他說，為了推動閱讀理解的發展，美國斯坦福大學就開發了一個測試題，也開放給大眾。它既有訓練的部分，也有開發的部分，還有測試的部分。每個參賽隊伍拿到測試題目，自己進行訓練。通過開發調自己的參數，最後提交自己的系統，然後斯坦福大學就把你的成績公佈到他的網站上。

周明博士介紹說，現在人工閱讀的正確率做到82%左右。現在微軟亞洲研究院的結果排名世界第一，在76%左右，與人類水準還差5分左右。

他說：“在閱讀理解這樣難的技術上，應該清醒的認識到還有很長的路要走。其實就包括對常識知識的把握、推理的能力，還有識別問題、上下文理解的問題等等。但是要有信心，隨著一天天的努力和進步，終究有一天我們可能達到或者超過人類平均的閱讀理解水準。”

學霸君的首席科學家陳銳鋒在接受新智元的專訪時說，NLP 的確是比較難的一部分，目前也很難有一套很好的方法全面解決這個問題。一般來說可以對語料進行個特定領域的標注，這個對訓練是很有幫助的。學霸君搭建了一個幾百人的團隊對資料進行標注，這個在很大範圍上降低了對模型的壓力。至於模型方面，目前沒有一致的解決方案，RNN和LSTM是不錯的選擇。

幹掉學區房：教育行業將迎來變革

1、衡量人工智慧水準的一個標準

高考作為人才選拔的一種考試，測試的是學生的綜合素質，其中最主要的是知識儲備情況和解答問題能力，這也是機器智慧的一個核心。

在可預見的將來，通過強化學習能力，“高考機器人”不僅可以儲存知識和高考題型，還將會具有邏輯推理能力。此外通過建立模型和演算法，可以讓機器在大資料中找到資料之間的關係和差異，讓這個模型的結果和人的表現很接近，甚至在最終結果上超過人的表現。

對於該項目，科技部楊咸武副司長曾表示，“本項目的最大意義是凝聚了國內從事人工智慧方向研究的頂級專家，研製考試機器人將會是本專案的代表性成果之一，未來期望專案成果能進一步向各行業廣泛推廣，提升國內人工智慧及資訊產業的整體發展水準。”因此，作為人工智慧的成果，研發“高考機器人”的主要目標並不是PK掉人類考生，而是為了服務人類，利用相關技術成果可以在教育全過程中起到非常大的説明，技術和演算法的突破後，同樣的成果可以用在醫療、用在客服、用在越來越多的領域。

2、掀起教育行業的革命

作為人工智慧的成果，實現了高考的目標，意味著相關技術和演算法的突破。利用相關技術成果可以在教育全過程中起到非常大的幫助，比如可以自動對學生的作業進行及時批改，極大程度降低老師的工作強度，等等。

學霸君創始人、CEO張凱磊認為，教育資源不均的本質是優秀教師稀缺，而學霸君智慧教育機器人有助於降低教育對人力的依賴性，推動教育公平。就像有豐富經驗的特級教師一樣，AI能從學生的答卷迅速分析出背後的失分原因，如何改進；還能輔助老師快速掌握全班學習進度、對症下藥，讓更多普通老師也能教出優秀的學生，每個孩子將有機會突破時空界限，接觸到“私人名師”級別的輔導，從而解決資源不均的困境。

未來5-10年，人工智慧或將成為教育行業變革最重要的解決方案。天價學區房以及前段時間引發熱議的上海幼升小事件，反映的根本是優質教育資源的稀缺。人工智慧的出現，將有助於讓這個問題得到解決。

談到應用場景的擴展，學霸君的首席科學家陳銳鋒對新智元說，應用場景非常的多，比如題目推薦就是一個很好的應用場景。目前我們教育經常提到“自我調整學習”的場景。而實際在操作中，自我調整題目推薦缺乏一個有效的對大量題目進行高精度分類的引擎。傳統的基於文本相似度的推薦題目的演算法很難保證推送出來的題目跟原題考的是同樣的細節。這個就影響了學生在做錯題練習時候的效果。使用高考機器人的情況下，只要題目能夠被解出來，就能夠很準確的判斷這道題屬於什麼知識點，在此基礎上可以推送跟它在邏輯上比較接近的題目。高精度的資料知識點預測能帶來更高效的學習結果。這個就能幫學生提分數。

面對AI 教育領域激烈的市場競爭，他說：“其實我更看重的是AI技術能在教育中發揮的作用。無論是哪家領先，都是為這條跑道做出貢獻。棋逢對手，惺惺相惜。彼此也知道，要真正高度智慧化，還有比較長的路要走。”

從AlphaGo到Aidam，2017年，機器帶給了我們許多驚喜，人機共存的智慧時代序幕正在緩緩開啟。在高考的這天，你還記得第八套廣播體操的開場口號嗎——時代在召喚！

參考文獻：

https：//zhuanlan.zhihu.com/p/26473053？from=groupmessage&isappinstalled=0

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

再轉換成人可以理解的自然語言。