大數據時代的到來,既向傳統的計算范式提出挑戰,又為范式突破準備了基礎條件。數據驅動和知識引導相互結合的智能計算恐怕是當前社會正經歷的人工智能時代,傳統的計算范式是怎樣的?大數據時代對新的計算范式提供了什么先天條件?有了數據驅動,為何還要與知識引導相互結合?
今年10月12日,2021中國人工智能大會(CCAI 2021)在成都正式啟幕,23位中外院士領銜,近百位學術技術精英共聚西南人工智能新高地,深入呈現人工智能學術研究,以及技術創新與行業應用的最新成果。浙江大學求是特聘教授,博士生導師吳飛教授發表了題為《數據驅動與知識引導相互結合的智能計算》的演講,娓娓道來地向與會者介紹了人類社會已經歷的四種計算范式,通過人腦的三種記憶體的工作模式引出社會目前已經進入的第五種計算范式時代,即數據驅動與知識引導相互而結合的人工智能時代。
吳飛:浙江大學求是特聘教授,博士生導師。主要研究領域為人工智能、多媒體分析與檢索和統計學習理論。吳老師是浙江大學人工智能研究所所長、美國加州大學伯克利分校統計系訪問學者。國家杰出青年科學基金獲得者、入選“高校計算機專業優秀教師獎勵計劃”、寶鋼優秀教師獎,曾任教育部人工智能科技創新專家組工作組組長、現任科技部科技創新2030“新一代人工智能”重大科技項目指南編制專家、《中國人工智能2.0發展戰略研究》執筆人之一。
吳教授著有《人工智能導論:模型與算法》(高等教育出版社)和浙教版普通高中教科書信息技術選擇性必修教材《人工智能初步》(浙江教育出版社)等教材。在中國大學MOOC(愛課程)開設國家級一流本科課程(線上課程)《人工智能:模型與算法》慕課
個人主頁:https://www.x-mol.com/university/faculty/243543
本次演講,吳飛教授首先對1998年圖靈獎獲得者 Jim Gray 提出的四種計算范式做了簡要介紹,指出我們已經進入第五范式時代,隨后以人腦三種記憶體之間的聯系,引出數據驅動與知識引導相互而結合的智能計算,最后舉例詳細介紹了數據驅動與知識引導相互而結合的人工智能時代。
以下是演講全文,AI科技評論進行了不改變原意的整理。
1
五種計算范式
圖靈獎獲得者 Jim Gray 曾說,人類社會已經經歷了四種計算范式。第一種是做實驗,比如,伽利略在斜塔上同時扔下兩個大小不一的鐵球,兩個鐵球同時落地。通過這個實驗,伽利略發現物體不管質量大小,重力加速度相同。
麥克斯韋讓一段電流通過磁鐵的左右,發現磁鐵的南北極發生了變化,推導出磁弱力和電弱力之間的方程。因此,第二個探索未知領域的范式就是做方程,即建立方程和模型來指導我們的計算。
第三種范式是虛擬仿真,就是搭建系統去模擬物理世界,觀測仿真系統里各種物質的變化。Jim Gray 認為現在進入了第四種范式,叫做數據密集型的計算年代。
今年8月,李國杰院士寫了一篇文章,提出了一個疑問:為什么我們的人工智能上不著天下不落地?恐怕我們已經進入了第五范式時代。李院士的這篇文章,直接用 AlphaFold 的例子來表示他所認為的第五范式:今后的科學計算,或者人工智能計算,一定是領域專家和數據的驅動相互結合,才能形成場景人工智能或者解決場景的任務。
數據驅動和知識引導相互結合的人工智能時代,即給定一堆數據,我們需要從數據里面吸取知識,然后基于知識做決策和服務。這里的數據一定是滿足任務可學習、結果可信、過程可推理和架構可實現這些條件。這種架構可實現,是現在的大型互聯網公司有能力完成的,我們也發現,下游的任務確實在大模型的驅動下能夠得到很好解決。
2
三種記憶體
我們反思一下,人腦的智能計算或者科學計算是怎樣的模式?生物學家和神經學家告訴我們,人的大腦有三種記憶體,第一個叫做瞬時記憶。我們可以眼觀六路、耳聽八方,在一個空間里可以瞬時感覺到這個空間里各種各樣數據,這就是瞬時記憶。但如果我們沒有對瞬時記憶的數據引起注意,這些信息就不會傳給工作記憶體。
瞬時記憶傳給工作記憶體后,工作記憶體直接展開用因果智能計算的高層次數據活動,但這些高層次的活動并不是就事論事,就數據論數據,它會激活我們長期記憶里的先驗和知識。比如,我們今天來到成都,中午和朋友聚餐;。我們在到達成都時,可能會回憶起上一次來成都干什么;和上次相比,成都有什么變化;朋友又發生了什么變化。我們經常講弦外之音、話外之意,為什么別人講話,我們能聽出話外之意?這是因為工作記憶體激活了相關的信息來理解當前的數據。
3
數據驅動與知識引導相互而結合的人工智能時代
我們從這個過程已經深刻感覺到,對當前數據的理解,一定激活了其他信息,這種信息是一種潛在的信息,或者叫做common sense,即常識性信息,也有人把它稱為暗知識,我們無法表達,機器也無法捕捉,但人的大腦可以很好地捕捉下來。既然人腦是這樣的活動模式,現在的智能計算可否往這個渠道進行?
DeepMind 在 2016 年發表了一篇《神經圖靈機》的文章,我們知道圖靈計劃就是兩端無限長的紙袋,上面有非常多的方格,然后把數據放在紙袋上,數據驅動以寫好的程序進行。這個過程沒有利用到數據以外的信息。但神經圖靈機架構起一個外在記憶體,對當前數據能更好地學習、理解和處理,以得到更好的學習成果。這篇文章發表后,Nature 期刊為其形成社論,稱其為深度神經推理,而不是平常的推理機制。
現在我們也發現,只要有一個 x 算法,神經網絡一定會把 x 算法變成一個 give 算法,或者一定想把它和認知或者神經結合起來,也就是不停地探索計算方式和方法,與我們大腦和心理認知如何更好地結合,這不是無病呻吟,而是沿著人腦的思路進行擴展。現在的計算一定要有數據,而且一定是數據驅動;亦即人工智能是引擎,大數據是燃料,一個模型空轉轉不起來。
第二,知識很重要。我們不能一味從數據里發現知識,一定要有知識指導計算過程。此外,行為探索也很重要,人畢竟是在一個開放的環境里進行認知與思考。所以,數據、知識、行為相互結合,是不是一種更好的計算模式?掀起新一輪人工智能浪潮使用的計算方法,AlphaGo 有深度學習、強化學習和蒙特卡羅樹搜索三把利劍,而AlphaFold 則是圖神經網絡、注意力模型和物理建模相互結合。
科學計算經過了三代發展,已經把數據和知識進行更好的探索。第一代是給定一個結構,然后去預測結構的性質;第二代是給定一些組成成分,去重建結構,然后基于重建的結構預測性質;第三代就是給定一堆數據,從給定的數據里繁衍結構,以及推理這個結構的性質,這是一個很重要的人工智能發展方向。
AlphaFold是 1972 年諾貝爾獎獲得者的一個猜想。人體有非常多的氨基酸,氨基酸里編碼了蛋白質,這些蛋白質不同的三維空間結構已經定義了我們生命的功能。那么,給定一段氨基酸,能否預測氨基酸所具有的三維空間結構?如果能預測,我們就編碼了生命的功能。
今年8月份,《自然》雜志發表了一篇現在被稱為 AlphaFold 的文章,《科學》雜志同時也發表了一篇叫做 Rose TTAFold 的文章。AlphaFold 和 Rose TTAFold 都非常強調 attention,即注意力,但這個“注意力”不是我們大腦的一種注意力,注意力是學習的輸入和輸出之間的一種關系。例如,給定一幅人臉圖像,為什么要去預測這是一張人臉?一定是學習到的輸入和輸出之間存在一種關聯,這個關聯肯定是通過像素點復雜的空間模式挖掘出來的。如果現在輸入一段氨基酸序列,去重演它的三維結構,是不是也是學一種叫做 attention 的關聯?
這兩篇文章有什么區別?Rose TTAFold 是美國華盛頓大學的一個實驗室寫的,它的第一作者非常坦白地承認 Rose TTAFold 的性能不如 AlphaFold,因為他們的實驗室沒有深度學習的工程師,只是一些生物學家拿著 Deep Learning 的工具寫出來。但是 AlphaFold 不僅會利用工具,還會修改工具,比如,它可以對 Deep Learning 的一些結構進行修改和重新設計,因此其性能超越了 Rose TTAFold。
大家可以反思一下,今后的人工智能一定是來自不同領域的工程師一起協作,這也預測著李國杰院士說的為什么人工智能上不了天、落不了地,因為要解決場景的任務,一定要和場景的工程師,以及 Deep Learning 的專家結合起來。按照李院士的說法,就是要把領域的知識和數據,在 Deep Learning工具之下更好地結合,他把它稱為正在呈現的第五范式。
2020年3月份,李院士受命撰寫中國工程院有關人工智能的特刊,我是咨詢副主編。特刊發表時,編輯部的同事讓我們畫封面文章,我和一位年輕老師先用鉛筆畫,只有人腦和機器腦結合起來才會形成這種學會學習能力。人的大腦一定是稀疏的,雖然人腦據說有 400 億個神經元,但完成任務時只有一小部分的神經元被激活,所以人腦一天只有 25 度電。而 AlphaGo Zero 經過了 2900 萬次的訓練,能戰勝所有的 AlphaGo,它的耗電量幾乎等于洛杉磯一年的耗電量。
人的大腦很復雜,但在完成某個任務時一定是稀疏的,而機器腦一定是密集的 ,比如機器的進化速度服從摩爾定律,每18個月性能就提升一倍。一個稀疏的人腦和一個稠密的機器腦結合,恐怕就是邁向人機耦合獲得數據驅動和人的知識相互結合的時代。這期期刊還邀請了一些專家撰寫文章,比如潘院士認為人工智能的下一步就是多重知識表達。今年的 CAAI 年會上有一期分論壇就叫做視覺知識的表達,把知識表達好,可能是下一步人工智能邁進的正確方向。
朱松純老師也受邀寫了一篇文章,以此回答他認為的“機器大腦是大數據小任務,人的大腦是小數據大任務”。但是,小數據大任務不是只給一點數據就能學復雜的任務,一定是在大任務的構建之下。只有小數據,如何完成大任務的訓練?知識在其中起了很重要的作用,這里的知識不只是舊數據,可編碼的知識、可感知的知識、暗知識以及常識性的知識一定也參與了大腦的智能活動。朱老師的這篇文章的標題也很吸引人,叫《“暗”,不止于“深”——邁向認知智能與類人常識的范式轉換》。
我們最近在做一些數據驅動與知識引導的工作,首先這里的知識肯定是領域知識。如果是維基百科或百度百科的知識,把高中生都懂的知識放到神經系統的模式里,也許能改進神經系統的學習性能,但和領域知識相比,作用力而言要小一點。我舉兩個例子,第一個例子是司法的智能化學習,這里有兩個案例都給出了一些司法數據。第一個案例,法院認定了一些事實,原告要求法院判定他的一些事實是成立的;第二個案例,法院認定了一些事實,原告要求法院在這些認定事實的基礎上,判決原告的一些訴求是成立的。但在一些真實的案子里,原告有些訴求被駁回,有些則被法院認同。
那么,什么情況下原告的訴求會被法院認同,什么時候會被駁回?能不能把司法知識和這樣的數據結合起來,形成數據驅動和知識引導相互結合的神經網絡的學習方法?我們提出了數據驅動和知識引導相互結合的方法,數據由神經網絡 co-attention network 去學,由數據驅動學習出數據模式,再加以 legal knowledge,即一階編碼的司法知識,兩者結合起來以加強原告訴求的判斷。把一些司法領域的知識通過一階位置編碼利用起來,與數據驅動進行結合,在一些數據集上進行了測試。
第二個例子叫做 video caption,主要是想解決一段短的 video clip 怎么得到更好的文本描述,主要和阿里達摩院合作。因為阿里要讓用戶點擊商品,必須要把商品所對應的視頻用文本描述出來。如何自動生成這種文本描述?我們引入了一個商品屬性的知識圖譜,通過圖神經網絡學習得到不同的紙袋之間的空間分布,再通過卷積神經網絡學習得到一個像素點的空間分布模式,然后把這些知識結合起來,是不是能夠生成一種更具廣告效應的文本描述?
把數據和視覺知識結合后,能不能把一些外在的記憶體也引進來?正如剛剛講的話外之意和弦外之音,不能只針對 video 理解 video,video 里一定有一些高級語義或屬性觸發了外在記憶體里的知識,加以利用這種知識更好地做視覺信息的分析與處理。再進一步,引入因果知識的關系,去除偽相關的關聯,
例如,一個吉他手穿著T恤彈吉他,也許彈吉他的人都喜歡穿T恤,本來彈吉他和穿什么衣服沒有因果關系,但由于數據選擇的偏差,選擇的這些場景,吉他手都穿了T恤,結果系統錯誤地認為,T恤和吉他有關聯。這有點像因果學習中,我們常說的公雞打鳴和太陽升起的例子,公雞打鳴和太陽升起好像有因果關系,因為公雞一打鳴太陽就升起。但如果有一天,把全世界的公雞都殺死,太陽照樣升起,它們之間是一種偽關聯,這種關系影響了我們學習的效果。如何消除T恤和吉他手的這種關聯,用統計分析的關聯學習,會說樂器和襯衫之間的關聯達到6%,但是引入因果的話,可以把這種偽關聯去掉。
數據驅動和知識引導實際上是很難的,特別是如何編碼領域知識。對徐院士之前報告里的一句話非常深刻:數據不夠模型上,模型不夠知識上。好像有點道理,數據不夠怎么辦?用更強大的模型去擬合,比如支持向量機。模型的能力不夠怎么辦?知識上,把數據、模型和知識和算力結合起來;算力也很重要,因為我們的模型現在變得比較復雜。
所以,我們提的問題首先一定要領域相關,比如化學問題、物理問題等;然后是物理建模,例如,麥克風放在桌子上,我們不能說麥克風懸浮在空中,這樣的物理結構是在人類社會是不存在的,一定要從物理結構里更好地約束建模的方法。最后,人一定要參與進去,這個問題確實很復雜,實際上是我們現在面臨的巨大挑戰。但人工智能在驅動科學計算,科學計算反過來也會驅動人工智能的進展。我們現在用數據和神經網絡,把物理的規則和模型結合起來,是不是能更好地解決領域相關的問題?而領域相關問題的解決,就促進了人工智能的發展。
現在有一個方向的研究,認為精確刻畫交通湍流和疾病傳播等復雜系統的動力學偏微分方程異常困難。如何刻畫新冠肺炎的傳播?怎么刻畫馬航失事的飛機在大西洋和太平洋的殘骸?它受到非常多的因素影響,大西洋彼岸一只蝴蝶翅膀的扇動,就會帶來臺風和暴雨,怎么帶來的臺風和風暴雨,這很難用方程表示。怎么辦?我們可以學神經網絡,但神經網絡的方程我們不知道,且這些神經網絡也不是簡單的神經網絡,而是建立輸入數據和輸出數據之間的關聯。現在沒有這個方式怎么辦?
神經算子是科學計算里非常熱門的一個方向,要把知識和數據更好地結合起來,就要更好地研究一些科學算子,更好地進行設計,把物理建模的約束融入到模型之中的模型。然后還要有一些快速的優化方法,從軟件的角度進行考慮,因為真實世界實在太復雜了,我們無法用方程建立,只能用逼近、函數、優化、擬合等科學的方法加以解決。
我們和潘院士之前做過一個調研,通用人工智能現在的態勢到底是怎樣的?很多媒體說美國已經把通用人工智能當成國家任務在積極部署,我們把特朗普、奧巴馬和拜登政府的國家人工智能規劃通讀一遍后,發現美國沒有把通用人工智能當成國家的重要任務,最多只在奧巴馬政府時期,用了一個叫做 General Purpose 的 AI。General Purpose 意為“通用目的”,和我們講的 AGI 不同。在美國的這些人工智能計劃里,更多是人工智能應該 more general,也就是更靈活、更通用。
借今天的演講我想傳遞一個想法:數據驅動和知識引導,這里的知識一定是來自領域的知識,AlphaFold、Rose TTAFold 肯定沒有用到百度百科或維基百科的知識,一定是化學家能看懂的知識,只有把這些知識和領域的專家做更好的結合,我們的人工智能才會 more general,才會向領域專家的能力靠近。