如何把存儲器做到CPU里?我們向大腦找答案

整理|網易科技 孟倩

特別鳴謝 部分編輯校對:

劉千惠,浙江大學計算機科學與技術專業(yè)博士生

邢東,浙江大學計算機科學與技術專業(yè)博士生

過去的十年以深度學習為代表的人工智能技術深刻影響了人類社會。但人類要進入真正意義上的智能時代,還需要更強大的智能技術。而向人腦學習,借鑒人類大腦的智能產生機理被認為是一條非常值得期待的道路。反過來,AI技術也在深刻改變著腦科學的研究方法。在“觀測腦”手段不斷變革的基礎上,AI技術為腦科學提供了越來越強大的分析、展示和科學發(fā)現手段。

2020年4月25日,青創(chuàng)聯盟發(fā)起的YOSIA Webinar特別推出了“AI+X”科學系列主題,第一期主題為AI+腦科學,主要針對人工智能與腦科學的發(fā)展以及兩者間的相互影響進行了分享。


本次參與者有六位嘉賓,他們分別是來自浙江大學計算機學院的唐華錦教授,清華大學微納電子系教授、副系主任吳華強,清華大學計算機科學與技術系副教授胡曉林、中國科學技術大學神經生物學與生物物理學系主任畢國強、北京師范大學認知神經科學與學習國家重點實驗室畢彥超教授以及北京大學信息科學技術學院長聘教授吳思。主持人為未來論壇青年理事會輪值主席、中科院計算所研究員、博士生導師山世光教授。

唐華錦發(fā)表了《神經形態(tài)計算機》的主題分享,他認為模擬大腦智能是計算機科學領域長久以來的目標,成為過去幾十年人工智能的發(fā)展的重要推動力。

人工智能和腦科學在各自領域獨自發(fā)展,且都取得了很大突破,我們亟需以新的眼光和視角重新建立兩者的聯系,特別是從腦科學的角度探索人工智能的新思路和新方法。報告從探討神經元-突觸為計算載體的信息處理和計算形式、記憶的形成和存儲,以及高級認知的產生,探討基于腦科學、神經科學的人工智能的展望。

他分享了如何來設計未來的神經形態(tài)計算機。首先必須具備異構的網絡結構,其次包含時序動力學的神經元非線性,要構建基于突觸可塑性的信用分配算法不僅實現模式識別這樣深度學習里面已經非常成功應用的各種算法,而且要實現學習-記憶融合的認知計算,我們未來把大腦搬進機箱讓它實現知識的表達、知識的學習、認知以及環(huán)境的交互。

吳華強則進行了《大腦啟發(fā)的存算一體技術》的分享,他提到,人工智能無處不在,從云端到我們手機端都有很多人工智能也在深刻影響我們生活。并且人工智能的研究和應用已經取得了突飛猛進的發(fā)展,但是運行人工智能深度神經網絡算法的計算平臺主要是超級計算機群(成百上千個CPU和GPU),不但需要巨大的硬件投入,而且占用的空間和消耗的能源也非??捎^。

受限于存儲計算分離對芯片性能的限制,同時CMOS工藝微縮速度放緩,以及人工智能應用對計算存儲需求的不斷提升,當前的技術將面臨諸多新的挑戰(zhàn)。

因此,我們需要類腦計算、存算一體,這也是向生物找答案,向大腦找答案。用腦啟發(fā)設計新的人工智能芯片是非常必要也是急需的。

在這一背景下,新器件的出現變得至關重要,通過引入新原理的半導體器件,不但可以拓展芯片的功能,甚至可以顛覆傳統(tǒng)電路理論,突破當前芯片面臨的能效、速度瓶頸,大幅提升芯片性能。

基于過渡族金屬氧化的憶阻器件顯示出了優(yōu)越的存算一體的特性,能夠規(guī)避存儲和計算之間數據搬運的功耗并且能夠實現大規(guī)模集成,進而實現高性能計算。

胡曉林則從AI的發(fā)展,神經網絡的發(fā)展來談如何促進神經科學的研究。他闡述了《神經元稀疏發(fā)放在視聽覺通路上的作用》,受Barlow高效編碼理論的啟發(fā),上世紀90年代人們通過計算建模的方式發(fā)現神經元的稀疏發(fā)放對于哺乳動物的視覺和聽覺系統(tǒng)的前期的信息處理機制有著重要作用,但是稀疏發(fā)放對于更上層的功能區(qū)域有什么作用一直不是很清楚。

在報告中胡教授介紹了目前他們的發(fā)現,通過用深度學習對腦的視聽覺通路的建模的兩個案例,建模后發(fā)現,高級視聽覺區(qū)域的神經元的稀疏發(fā)放與它們的一些獨特功能有著密不可分的關系。該結果暗示高效編碼理論可能在高級感覺區(qū)域也是成立的,從而推廣了前人在感覺通路低級區(qū)域發(fā)展出來的高效編碼理論。

在問答環(huán)節(jié)里,六位嘉賓探討了腦科學為AI提供了哪些思想、技術和方法,同時進行了相應的轉化,而AI也為研究腦科學提供了分析工具,并提供了更多思路。

“我們理解一個事情,我們需要能創(chuàng)造它才能做它。”從AI和腦科學的整體關系,是科學和工程的關系。作為正在被打開的兩個“黑箱”,二者在互相影響和碰撞,等待更大空間的研究被發(fā)現和釋放。

怎么樣培養(yǎng)更多的交叉學科的人才成為了重點討論問題。嘉賓們認為這是一個很大的挑戰(zhàn),作為交叉學科的人,要對兩個學科都要有充分的把握,而這兩個學科都是很難的學科,挑戰(zhàn)很大,因此需要鼓勵青年人要真正追求自己的興趣,如果真的想研究,要花別人雙倍的力氣把這兩個學科都學好。

以下為AI+腦科學主題分享速記:

主題報告

分享一:《神經形態(tài)計算機》—唐華錦

唐華錦,浙江大學計算機學院教授

唐華錦教授分別于浙江大學、上海交通大學完成本科和碩士學習,2005年新加坡國立大學獲得博士學位。2008-2015年于新加坡科技研究局資訊通信研究院擔任Robotic Cognition實驗室主任,2014年起擔任四川大學類腦計算研究中心主任,目前為浙江大學計算機學院教授。主要研究領域為神經形態(tài)計算、類腦智能芯片、智能機器人。獲2016年度IEEE TNNLS杰出論文獎、2019年度IEEE Computational Intelligence Magazine杰出論文獎。擔任/曾擔任IEEE TNNLS、 IEEE Trans. on Cognitive and Developmental Systems、Frontiers in Neuromorphic Engineering,Neural Networks等期刊的Associate Editor,擔任國際神經網絡學會(International Neural Networks Society)理事及評獎委員會成員等。

唐華錦:大家好!我今天很榮幸被邀請來分享這樣一個主題,我的主題是以神經形態(tài)計算機為中心來探討一些開放問題以及對這個領域做一些展望。

我今天報告提綱分以下幾條:

一、首先簡述計算機與大腦的區(qū)別以及大腦對開發(fā)更加新型智能計算機的啟示;

二、接著討論關于神經形態(tài)計算機的必要組成以及介紹大腦如何完成各種計算任務的;

三、之后介紹目前算法的進展以及硬件方面設計的成果;

四、最后提出對這個領域的個人的總結和展望。

計算機與大腦的區(qū)別以及大腦對開發(fā)更加新型智能計算機的啟示

大家知道,目前的計算機體系是基于馮·諾伊曼架構,這已經非常成功的引領計算機科學技術的發(fā)展幾十年。在這個計算機架構的基礎上我們的深度學習在近年取得了飛速發(fā)展,在各個領域取得非常成功的應用。同時,馮·諾伊曼架構發(fā)展到現階段也存在一些制約,比如說由于存在風險帶來的I/O性能的瓶頸制約以及功耗的制約,這種制約隨著大數據、深度學習為基礎的計算架構帶來的擁擠會凸顯的越來越嚴重,比如大量數據讀寫嚴重降低整體效率。和大腦的計算方式相比,大腦處理的步驟非常少,但它的運行速度非常高。其次由于突觸和神經元同時可以做激發(fā)和存儲,所以不存在馮·諾伊曼架構的I/O的吞吐帶來的瓶頸。就能耗來說,大腦的計算能耗非常低,大致只有20W左右,所以帶來的計算效率非常高。另外非常顯著的區(qū)別,計算機實現的或者處理大量的實值數據,大腦神經元處理的(或者說編碼的)都是稀疏的事件或者神經科學稱之為脈沖。從如何構建一個非馮·諾伊曼體系的新型智能計算機體系,不僅是計算機科學也是我們計算機工程以及硬件芯片發(fā)展的一個重要方向。隨著新的計算體系結構以及硬件方面的實驗,我們預測可能帶來新一代的人工智能的算法的硬件以及架構上的新突破。

關于神經形態(tài)計算機的必要組成以及介紹大腦如何完成各種計算任務的

下面我從大腦主要的計算過程來解釋一下我們如何來設計未來的神經形態(tài)計算機。

第一,網絡結構。生物神經元有多種神經元類型,這里以錐體神經元(Pyramidal神經元)為例,錐體神經元是多個環(huán)節(jié)、多個部件組成的復雜的神經元模型結構,包括軸突的遠端和近端,對生物神經元的輸入前饋和反傳,發(fā)生在神經元的不同部位,對于I/O來說做了充分的簡化,把它作為一個典型神經元,沒有遠端軸突和近端軸突的區(qū)別,從網絡結構上來說,大腦存在著大量稀疏的異構的連接結構,目前ANN主要依賴的深度網絡是前饋全連接的網絡結構。當然在不同的網絡結構處理的實際方式也有顯著不同?;谏疃染W絡的空間算法,往往采取一個全區(qū)的優(yōu)化函數來達到最優(yōu)值來調解。而對于生物神經網絡來說,由于存在大量的局部連接以及遠程連接,有豐富多樣的突觸可塑性,可以更加靈活的調整神經元之間的連接來完成對目標函數的優(yōu)化。

第二,大腦的計算模式采用的是更加接近生物的個性的方式,比如脈沖神經元的輸入,在人工神經元里面不需要考慮輸入時間的特性,輸入是一個實值,典型的ReLU函數或者Sigmoid激活函數做了一個這樣的簡單的非行為數據,但是對于生物神經元來說,它不僅采用了輸入輸出的映射,還具有四個典型的時間的非線性動力學,一是膜電位積分,二是漏電效應,三是不應期,四是需要閾值來判定脈沖發(fā)放或不發(fā)放。這樣導致脈沖神經元輸入脈沖編碼的不連續(xù)性,以及輸出脈沖的不連續(xù)性。這樣導致后面的第三個問題就突出來,即信用分配問題。信用分配在人工神經網絡里常常說成是優(yōu)化算法,最典型的一個優(yōu)化算法是誤差反傳,就是梯度下降算法,但是這里梯度下降算法存在一個誤差,要求前向和反向權值要完全對稱,因為全局的目標函數,設定了一個這樣的網絡結構,這是典型的ANN的學習模式以及處理方式。

第三,生物神經元同樣的信用分配機制,但是采用完全不同的處理方式。神經元之間依賴于脈沖發(fā)放時間,導致他們可以采用基于脈沖時間的學習方式,最典型的在神經科學里面應用非常廣泛的是STDP(脈沖時間依賴的突觸可塑性),基于脈沖時間前后發(fā)放的時間差來調整權值,實現局部的無監(jiān)督學習。此外,我們也可以考慮設計輸入脈沖和期望脈沖序列之間的序列差,來有監(jiān)督式的學習和訓練脈沖,發(fā)放一定的脈沖。

其次依據多巴胺的神經科學的發(fā)現,可以構造這樣一個強化學習的脈沖實驗網絡,把每個神經元和突觸都當做一個智能體,把發(fā)放脈沖或者不發(fā)放脈沖作為一個它的行動,來構成這樣一個強化學習網絡,這樣不僅實現更加靈活的行為,而且是生物性更加強的一種學習算法。

第四點,大腦的計算機制,重要的是學習與記憶的融合。在前饋網絡里,權值訓練完之后,當新的任務進來,往往權值會被抹殺或者權值遺忘的作用,但是在生物神經元里面,有大量的專門負責記憶的細胞,比如海馬體中存在各種記憶細胞,尤其是對位置細胞的編碼,對空間的感知認知,它可以記憶熟知的場景,對這個空間進行編碼。所以依據皮層-海馬等腦區(qū),可以實現神經元大腦對外部輸入的表達,學習及記憶構成一個基于學習、基于融合的認知計算。(圖)右側是一個對皮層以及海馬體主要微腦區(qū)的神經電路結構,基于這樣的電路結構,我們可以實現基于海馬體的聯想記憶、持續(xù)記憶以及對空間的記憶模型。

目前算法的進展以及硬件方面設計的成果

下面初步介紹一下我們在這個領域的初步成果。因為時間有限,只是展示冰山一角。

對于信息的編碼,把輸入信息經過脈沖神經元的編碼轉變成一系列的時空脈沖信號,可以對輸入信息進行編碼以及重構。下圖是Nature的一篇文章,上圖是做的編碼神經元的算法。

同時可以對新型的神經形態(tài)視覺算法進行脈沖編碼和表征處理,分別處理動態(tài)的視覺信息,發(fā)表在2020年TNNLS的一篇論文上。

另外,信用分配算法可以高效的解決脈沖神經網絡由于時間動力學帶來的訓練困難問題,不僅在空間上進行誤差反傳,可以同時把誤差信息傳遞到脈沖的時間信息上,經過這樣的設計我們提出了基于脈沖簇的學習算法,不僅是可以訓練神經元在指定時間發(fā)放脈沖,而且是指定發(fā)放脈沖簇。

這是目前幾種典型的脈沖損失函數,各自具有一些不同的缺陷,我們改造這樣的損失函數,可以不斷的訓練發(fā)放,訓練這樣一個脈沖簇。它的優(yōu)點是能夠訓練神經元對復雜的時間序列的神經元的響應特性,左圖顯示的是雜亂無章的神經元響應,右側是訓練后神經元能夠顯示出對某些特定信號的選擇性響應。這是一個新型的深層的脈沖網絡,在訓練性能上已經超越專門設計和訓練的CNN的網絡。

學習與記憶融合,我們構建多層的模仿多層腦區(qū)的結構,實現神經元的編碼以及監(jiān)督學習和無監(jiān)督學習,同時實現聯想記憶和時序記憶。右側是神經硬件電路圖,是北大黃如院士團隊合作的FPGA硬件的記憶模型的設計和實現。

在感知-認知-交互閉環(huán)上我們做了一個初步的成果,把海馬體電路搬到機器人上,通過硬件模式來實現機器人對空間感知、認知交互的閉環(huán)。在Communications of ACM 2018專題介紹了這樣的工作,來解釋大腦如何幫助機器人對復雜環(huán)境空間的感知,依賴空間位置神經元對空間的記憶以及編碼的作用。

無獨有偶,在Deepmind,今年也開展了這樣類型的工作,但與我們基于模型、大腦結構方式的不同,Deepmind在基于學習和訓練的網絡來訓練神經元,發(fā)放基于網格細胞的效應特性,右圖展示了他們在虛擬環(huán)境下的網絡的效果。有興趣的朋友可以看一下論文。

在硬件實現上的一些成果。通過數字或者模擬集成電路可以實現神經元、突觸以及各種突觸可塑性,在這個領域上已經有大量的神經形態(tài)芯片的成果,比如SpiNNaker、BrainScaleS、Truenorth、Loihi、ROLLS、清華“天機”芯片、浙大“達爾文”芯片等,都是屬于在數字模擬電路上實現架構。另外,在對于未來類腦芯片的潛在突破,憶阻器及陣列,憶阻器可以分別實現突觸和神經元,實現模擬矩陣運算即存算一體。

下面我舉了北大楊玉超、黃如老師的工作,以及清華吳華強老師的工作,發(fā)布在Nature communications上,吳老師隨后會更加詳細的介紹,他們實現一體機的陣列來設計構建了這樣模擬矩陣的運算,實現快速的存算一體的神經網絡的計算模式。

關于神經形態(tài)計算機,我個人提出一些不太成熟的總結與展望。首先必須具備異構的網絡結構,其次包含時序動力學的神經元非線性。要構建基于多種突觸可塑性的信用分配算法,不僅實現模式識別這樣深度學習里面已經非常成功應用的各種算法,而且要實現學習-記憶融合的認知計算,我們未來把大腦搬進機箱讓它實現知識的表達、知識的學習、認知以及環(huán)境的交互。

分享二:《大腦啟發(fā)的存算一體技術》—吳華強

吳華強 清華大學微納電子系教授、副系主任

清華大學微納電子系,長聘教授,副系主任,清華大學微納加工平臺主任,北京市未來芯片技術高精尖創(chuàng)新中心副主任。2000年畢業(yè)于清華大學材料科學與工程系和經濟管理學院。2005年在美國康奈爾大學電子與計算機工程學院獲工學博士學位。隨后在美國AMD公司和Spansion公司任高級研究員,從事先進非易失性存儲器的架構、器件和工藝研究。2009年,加入清華大學微電子學研究所,研究領域為新型存儲器及存算一體技術,先后負責多項自然科學基金、863、973和重點研發(fā)計劃項目和課題。在Nature, Nature Communications, Proceedings of the IEEE等期刊和國際會議發(fā)表論文100余篇,獲得美國授權發(fā)明專利30余項,獲得中國授權發(fā)明專利40余項。

吳華強:今天和大家分享一下我們做的一點工作,題目是“大腦啟發(fā)的存算一體技術”。

我的報告將從硬件的挑戰(zhàn),研究進展以及展望三方面來介紹大腦啟發(fā)的存算一體技術。

人工智能無處不在,從云端到我們手機端都有很多人工智能。不同的人工智能應用對芯片的需求是不一樣的,比如數據中心、汽車無人駕駛要求算力特別高,而智能傳感網、物聯網和手機希望耗能低,追求高能效。不同應用對芯片的不同需求給了芯片領域很多機會。

人工智能的三個發(fā)展浪潮和硬件算力也有關系。從第一款神經網絡Perceptron網絡AI開始火起來,到70年代進入低谷,一個非常重要的因素是,雖然有很好的理論模型,但是沒有足夠的算力。后來專家系統(tǒng)出現,第二波浪潮又起來。這時候很多人做專門圍繞人工智能的計算機。同時代摩爾定律快速推動芯片的發(fā)展,通用計算機的性能飛速上揚,專業(yè)計算機能做的通用計算機也能做,因此逐漸占據市場,第二波浪潮又下去。第三波浪潮,深度神經網絡的提出到利用GPU加速網絡訓練,GPU成為AI的主要訓練平臺。有了更大的算力,網絡規(guī)??焖偬嵘?。AlphaGo Zero需要5000個TPU訓練40天才成為地表最強的圍棋選手,花費的時間還是很大的,因此人工智能的廣泛應用需要硬件能力革新,支撐人工智能的發(fā)展。

芯片能提供的算力和人工智能的高需求是很矛盾的。第一臺計算機ENIAC出現在1947年,算力是每秒鐘5000次左右。英特爾2019年的CPU大約是20.8GFLOPS。我們看到它的變化是圍繞著摩爾定律,即每18個月翻一番的集成度來提升算力。但是目前AI的需求是每3.4個月翻一番。因此需要尋找新方法提供算力。

算力提升越來越困難有兩個原因,一是過去摩爾定律是把器件做的越來越小,現在器件尺寸縮小已經接近物理極限了,所以摩爾定律逐漸失效。二是傳統(tǒng)計算架構發(fā)展帶來的性能提升日趨緩慢?,F代計算系統(tǒng)普遍采用信息存儲和運算分離的馮諾依曼架構,其運算性能受到數據存儲速度和傳輸速度的限制。具體來說,CPU的計算速度小于1納秒,但是主存DRAM是百納秒左右,也就是存儲的速度遠遠低于計算速度。在能耗上,以TSMC45納米的工藝為例,加減乘小于一個pJ,但是32位DRAM的讀要高達640個pJ,這一比也是百倍的差距。因此存儲速度遠遠低于CPU的速度,而存儲的功耗也遠遠高于CPU的功耗。這還沒有講存儲的寫,寫的功耗會更高。這樣整個系統(tǒng)的性能受到數據存儲速度和傳輸速度的限制,能耗也因為存儲讀的功耗和寫的功耗很大,導致整個系統(tǒng)功耗都很大。

現在可以看到很多新的計算出來了,量子計算、光計算、類腦計算、存算一體。所以當我們要思考未來的計算時,我自己覺得量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。

著名的人機大戰(zhàn),人工智能選手AlphaGo用了176個GPU、1202個CPU,功耗是150000W。而我們大腦體積大概1.2L,有1011個神經元,1015個突觸,思考的時候功耗是20W。大腦的功耗這么少,這么聰明,這里面還有這么大容量的神經元、突觸。所以我們希望用腦啟發(fā)設計新的人工智能芯片。

我們想通過向生物學家學習、向神經學家學習,來看看大腦是如何處理計算的。大腦有幾個特點,一個是有大量的神經元連接性,以及神經元加突觸的結構,一個神經元將近連接了1萬個突觸。第二個它的時空信息的編碼方式是用脈沖的方式。我們希望模仿大腦的結構和工作機制,用脈沖編碼的形式來輸入輸出。

生物突觸是信息存儲也是信息處理的最底層的生物器件。我們想在芯片上做電子突觸新器件,做存算一體的架構。新器件方面我們主要研究的是憶阻器,它的特點是可以多比特,同時非易失,即把電去掉以后可以保持這個阻值,并且它速度很快。還有很關鍵的一點,它和集成電路的CMOS工藝是兼容的,可以做大規(guī)模集成。近十年我們一直圍繞這個器件來做其優(yōu)化和計算功能。

美國DARPA的FRANC項目提出用模擬信號處理方式來超越傳統(tǒng)的馮·諾依曼計算架構,希望帶來計算性能系統(tǒng)的增加。任正非在2019年接受采訪時說,未來在邊緣計算不是把CPU做到存儲器里,就是把存儲器做到CPU里,這就改變了馮·諾依曼結構,存儲計算合而為一,速度快。阿里2020年的十大科技趨勢里提到計算存儲一體化,希望通過存算一體的架構,突破AI算力瓶頸。存算一體的理念也是受大腦計算方式啟發(fā)的。

基于憶阻器的存算一體技術可以分為三個階段:第一個階段是單個器件的發(fā)展階段。2008年惠普實驗室的Stan William教授首次在實驗室制備了憶阻器,之后美國密西根大學的盧偉教授提出了電子突觸概念,美國UCSB大學的謝源教授提出了基于憶阻器的PRIME存算一體架構,引起廣泛關注。第二個階段開始做陣列,2015年UCSB在12×12的陣列上演示了三個字母的識別,我們團隊2017年在128×8的陣列上演示了三個人臉的識別,準確率能夠大于95%,同時期還有IBM,UMass和HP等研究團隊實驗實現了在陣列上的存算一體;第三個階段是存算一體芯片,我們以芯片設計領域的頂會ISSCC上近幾年發(fā)表的文章為例,2018年松下展示了多層感知機的宏電路,2019年臺灣地區(qū)新竹清華大學和臺積電聯合演示了卷積核計算的宏電路,今年清華和斯坦福合作做的限制玻耳茲曼機宏電路。也是今年我們清華團隊完成的一個全系統(tǒng)集成的完整的存算一體芯片,從系統(tǒng)測試結果來看,這個芯片能效高達78.4TOPs/W,是相當高的。我們還做了一個對比,一個是存算一體的芯片和系統(tǒng),一個是用了樹莓派28納米的CPU。我們的芯片跑完一萬張圖片是3秒,而他們是59秒,我們的速度要快很多,準確率卻相當。

今年1月我們在Nature上發(fā)表了一個憶阻器存算一體系統(tǒng)的工作。這個工作主要是把多個陣列放在一起組成一個系統(tǒng),并驗證是否能用作模擬計算來實現AI的工作。我們提出新型混合訓練算法,實現了與軟件相當的計算精度。還提出了新型卷積空間并行架構,成倍提升了系統(tǒng)處理速度。

為什么憶阻器存算一體適合人工智能呢?因為交叉陣列結構特別適合快速矩陣向量乘法。存算一體可以減少權重搬移帶來的功耗和延時,有效地解決目前算力的瓶頸。另外,人工智能更關注系統(tǒng)準確性,而不是每個器件的精度,這特別符合憶阻器和模擬計算的特點。

我們還和畢國強老師合作了一篇綜述文章。利用腦啟發(fā)來設計人工智能芯片,我們把大腦從I/O通道,到突觸,神經元,到神經環(huán)路,到整個大腦的結構,都和電子器件做了對比。文章題目叫《Bridging Biological and Artificial Neural Networks》,發(fā)表在2019年的Advanced Materials上面,如果大家感興趣可以讀這個文章。

展望未來,希望能夠做一個存算一體的計算機系統(tǒng)。以前是晶體管加布爾邏輯加馮·諾依曼架構,現在是模擬型憶阻器加模擬計算和存算一體的非馮架構。

人工智能無處不在,從云端到我們手機端都有很多人工智能也在深刻影響我們生活,前幾天聽說谷歌用人工智能預測天氣預報,比過去物理模型做的好很多,所以說人工智能的應用會越來越廣泛。

我們看看不同的人工智能的應用對芯片需求是不一樣的。數據中心的需求就是要求算力特別高,比如說GPU,芯片算力有多少個TOPs,功耗比較高,但是它的算力很大,比如汽車無人駕駛也是大芯片,算力很高。智能的傳感網、物聯網和我們手機都是用電池的,這種情況下希望耗能特別低,這時候就追求高能效,比如1W到幾十個TOPs等等,甚至更高,所以不同的應用對需求不一樣,這也給了我們芯片領域很多機會,不管是瞄準數據中心服務器的還是智能終端的。

人工智能有三個浪潮,我主要從三個浪潮和硬件算力的關系來說。1956年,達特茅斯開AI夏季研討會,1957年Rosenblatt發(fā)明了第一款神經網絡Perceptron,后來AI就非?;穑蠹野l(fā)現這個有用。到了70年代,后來就出現一些問題,進入了低谷,這里面有一個非常重要的因素,雖然理論模型很好,但是缺的算力很多,沒有足夠算力是不行的,那時候芯片的算力只有1M的OPs,其實跟現在比差了很多,所以1到10M OPs的芯片算力很難支撐序列的復雜任務。到后來專家系統(tǒng)出現,專家系統(tǒng)能回答很多問題,第二波浪潮又起來,這時候很多人做專門圍繞人工智能的計算機,這時候從操作系統(tǒng)上、指令集上等等做了一些設計,那時候摩爾定律快速推動芯片的發(fā)展,通用計算機的性能飛速上揚,很多事情專業(yè)計算機做的事情,通用計算機也能做,這時候通用計算機性能飛速上揚,逐漸占據了市場。第二波浪潮下去了。第三波浪潮,2006年Hilton提出深度學習神經網絡,到2015年Alex提出利用GPU加速網絡訓練,獲得了當年ISV計算冠軍,GPU就成為AI的主要訓練平臺,網絡規(guī)??焖偬嵘覀兛梢钥吹胶髞硪恍S玫挠布?,比如谷歌開發(fā)的APU,包括計算所的“寒武紀”等等,都是新型的硬件架構開始走上了舞臺。我們看看AlphaGo的Zero需要5000個TPU訓40天才成為地表的圍棋,還是要花很大時間訓練的,對他算力的趨勢很大,我們也希望硬件能力革新,能夠支撐發(fā)展。

這張表是我們團隊基于英特爾的一個表又重新制作的表。計算機在四幾年的時候,ENIAC,這個計算機當時的算力是每秒鐘5000次左右,5000是加法,400是乘法?,F在英特爾的CPU,20.8的GFLOPS,這是2019年的。我們看到它的變成,從ENIAC,到英特爾的386、486,到奔騰,到英特爾Croe,它是圍繞著摩爾定律,每18個月翻一番的集成度來提升算力。當芯片功耗比較高就調整為多核,開始進入換變期。其實中間還有Nvida的GPU,GPU比CPU搞一個數量級。但是我們AI的需求,可以看到在這之后每三年四個月翻一番目前,AlphaGo Zero在這個地方,可以看到芯片能夠提供的算力和人工智能的高需求是很矛盾的,所以需要尋找新方法提供算力。

芯片來講算力提升越來越困難。有兩個原因。(圖)這個圖展示80年代到現在的性能表,是J·Hennessy和D.Patterson的文章里講的,目前來講每年的算力提升3%左右。兩個原因,一是過去摩爾定律是把器件做的越來越小,現在器件尺寸縮小已經接近物理極限了,所以摩爾定律變換了。二是傳統(tǒng)的計算,存儲計算分子架構帶來的性能提升日趨緩慢。

摩爾定律變緩。在2019年我們集成電路的量產工藝是7納米,今年說是要5納米、現在3納米也看到了機會。再往下很難做,原因就是說我們現在原則執(zhí)行一個納米左右,再往下做很多量子效應是很難控制的。晶體管尺寸存在物理極限,不可能無限的縮小,所以傳統(tǒng)的不斷縮小器件尺寸的方式已經很難往下走了。

存儲墻的瓶頸。馮·諾伊曼架構因為存儲、計算分離,1946年提出馮·諾伊曼架構,處理器分離,處理器專門做計算,算完之后通過總線把數據放到存儲器,需要數據從存儲器再提取數據,通過總線傳到處理器來,這種存算分離架構在設計上非常清晰,也助推了過去70年的計算機系統(tǒng)的發(fā)展。但現在受到一個很大的挑戰(zhàn),我們看右邊的表,CPU的計算速度小于1納秒,但是我們主存DRAM是百納秒左右,這方面存儲的速度遠遠低于計算速度,差100倍,存儲就拉后腿了。最右邊的圖是能耗圖,TSMC45納米的工藝,可以看到加減乘,其實也就小于一個PCR左右,但是32位DRAM的讀要高達640個PCR,這一比也是百倍的差距。所以看到存儲速度遠遠低于CPU的速度,它的功耗也遠遠它的功耗。而且還沒有講存儲的寫,寫的功耗更高。這樣整個系統(tǒng)的性能受到數據存儲速度、傳輸速度的限制,能耗也因為存儲讀的功耗、寫的功耗很大,導致整個系統(tǒng)功耗很大。

向大腦找答案

所以我們講人工智能時代我們要思考未來的計算,剛剛唐老師也做了很好的總結,現在可以看到很多新的計算出來了,量子計算、光計算、類腦計算、存算一體。我自己覺得量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。

我們來對比,我們知道人工智能讓我們大家很感興趣,著名的故事AlphaGo和李世石、柯潔大戰(zhàn),一個是2016年3月份,一個是2017年4月份,最后李世石和柯潔都輸了。我們看到AlphaGo用了176GPU、用了1000多個CPU,又把TPU又加上了,它的功耗是150000W,我們大腦體積大概1.2L,有11的11次的神經元,10的15次方個突觸,而且在思考的時候功耗是20W,這是非常奇妙的。大腦的功耗這么少,這么聰明,這里面還有這么容量計算的神經元、突觸。所以我們希望用腦啟發(fā)設計新的人工智能芯片是非常必要也是急需的。

我們看一看大腦從微觀到宏觀尺度。(圖)我們從電子信息的角度、芯片角度來看這個問題。以視覺系統(tǒng)來看,視覺信息處理前面眼睛傳感,視網膜是各種各樣的細胞結構。后面還有對比視覺信息的處理。這是大腦和神經環(huán)路的結構。還有很多神經元,軸突和另外一個神經元的樹突形成了一個突觸。仔細看突觸,軸突過來,這是樹突接收的地方,然后發(fā)現很多離子通道,離子通道也很關鍵的,是很重要的機理。從結構上來看,最底層是離子通道,形成了突觸,這個有突觸,這邊有神經元,再往上有神經環(huán)路,腦網絡。從微觀到宏觀尺度,怎么反映到芯片里面?怎么反映到Brain Spike Cumputng里面去,這是我們需要思考的問題。

把神經元放大里面,這是它的軸突、樹突,這是另外一個神經元,它的軸突和樹突交接的地方就是Steps。動作電位是神經傳導的勝利基礎,例子通過通道移動之后會引起離子膜電位的變化,膜電位的變化介導神經信號的傳導。我覺得這里面還有好多可以學習的,我今天會簡單提一句我們另外的工作,也是樹突上面的一些計算功能。

類腦計算。大腦有很多奇妙的地方,我們想通過向生物學家學習、向神經學家學習看看大腦怎么計算。大腦有幾個特點,有大量的神經元連接性的突觸,神經元加突觸的結構,一個神經元將近1萬個突觸。另外它的時空信息的編碼方式是用Spike的方式,Spike之間的間距來看,我們把這些轉移Spike過來,在一個神經網絡里面不管是積分也好,還是非線性處理也好,我們希望模仿大腦的結構和工作機制,也就是說我用脈沖編碼的形式來輸入輸出,編碼方式和現在的數據上的輸入是不一樣的,剛才唐老師也介紹了這方面的工作。

突觸這個地方,生物突觸是既儲存了信息,I/O通道的情況會對突觸的大小有影響。另外,它的膜電位在這個地方也進行了信息處理,我們認為突觸結構本身是信息的存儲也是信息處理的最底層的生物器件。我們能不能在芯片方面做同樣的事情,我們做電子突觸新器件,我們做存算一體的架構,我們改變我們的馮·諾伊曼架構,存儲計算分離架構變成存算一體架構,這時候新器件我們主要做憶阻器,憶阻器這個器件還是比較簡單的,因為太復雜的器件集成度上不去。大腦有千萬億個突觸,我們比它少一點也得是多少億以上才行,我們器件很小,很簡單,上電極、下電極,中間是介質層。這期間通過里面氧離子的運動,讓我們這個器械的組織可變,這是在持久電壓下的情況。它有個特點,可以多比特,這個器件可以1歐姆可以是2歐姆,可以是3歐姆,可以在不同的組織停下來。同時這個組織是非易失的,把電去掉以后,它保持這個組織,它速度很快,多少納秒之后就行了。還有很關鍵的一點,它和集成電路的工藝很多是兼容的,也就是CMOS compatible,可以做大規(guī)模集成,這是這個器件的特點,我們主要圍繞這個器件,近十年一直做它的優(yōu)化和在它的上面做計算功能。什么叫新型計算范式呢?在人工智能算法里面有很多向量乘矩陣、矩陣乘矩陣,如果把向量X1、X2、XM,轉化成器件的交叉陣列,垂直上電極,中間黃的是介質層,在這種情況下,如果把X1到XM轉化到電壓的V1、V2到VM,這樣我把這邊G11參數轉化為器件的電導,電壓乘以電導就得到電流,這是歐姆定律,定流累計相加就得到了總和電流,這是加法。也就是說我們現在的計算是基于物理定律的計算,這是用完成矩陣乘積的計算。

存算一體美國DAPPA的FRANC項目,美國的ERI“電子復興計劃”里面提的FRANC項目,他們提出用模擬信號處理方式來超越傳統(tǒng)的馮·諾伊曼計算架構的創(chuàng)新,希望帶來計算性能系統(tǒng)的增加。

任正非在2019年4月接受美國采訪時說華為未來一方面做連接做5G,在邊緣計算上做到世界最好,未來在邊緣計算不是把CPU做到存儲器,就是把存儲器做到CPU里面,就改變了馮·諾伊曼結構,存儲計算合而為一速度快,他們也在做這個事情。

阿里2020年講十大科技趨勢,趨勢二里面就說,計算存儲一體化,通過AI算力評級??梢哉f采用存算一體的架構,應該說是非常大的突破,我們也希望能夠突破AI算力瓶頸。存算一體的理念也是受大腦計算方式啟發(fā)的。

數字芯片,它的技術路線由過去的CPU、GPU,也有谷歌TPU,它是用近存計算來做的,還有存算一體處理器等等。

我們的存算一體處理器,我把它三個階段,單位個器件的發(fā)展階段,惠普的Stan Villiam,在2008年首次在實驗室制備了憶阻器,之后密歇根大學的盧偉教授提出電子突觸概念,之后華人教授加州大學的謝源教授提出PRIME存算一體架構,謝源教授現在在阿里巴巴。

第二個階段,做完器械之后開始做陣列,2015年UCSB的Barbaro Dimitri(音)教授在12×12的陣列上,也是三個字母,Z、V和M三個字母識別,我們2017年在128×8的陣列上,演示了三個人臉識別工作,準確率能夠大于95%,比CPU+外存儲器高一千倍左右。還包括密歇根大學的稀疏編碼,惠普和麻省大學在8K上的MNIST數據集,IBM做的結合相變存儲器和GT1C單元演示前夕學習,這是他們2018年做的工作。2015年到2018年是國際上多個團隊存算一體的陣列工作。

第三個階段是存算一體芯片,芯片可以更好地反映trade-off,松下的宏電路多層感知機,包括新竹清華大學和臺積電的卷積核計算,ISSCC上面,這是芯片里面最高的會議了。今年我們和斯坦福合作做了宏電路限制玻耳茲曼機,同時我們獨立完成了一個全系統(tǒng)集成的完整的存算一體芯片,也是一個多層感知機。跟它合作的是宏電路,我們這是一個完整的芯片。這個芯片我們從實際系統(tǒng)測試結果來看能達到78.4TOPs/W,還是相當高的。而且現在的工藝是130納米,我們做了兩個系統(tǒng)對比,左邊是存算一體的芯片和系統(tǒng),右邊是用了樹莓派28納米的CPU,可以看到我們的速度,跑完一萬張圖片是3秒,他們是59秒,速度要快很多。準確率相當,能效比它高幾百倍,同時有完整的芯片可以深入的分析各種模塊的性能。

今年1月我們在Nature上發(fā)了文章,這個工作主要是我們把多個陣列放在一起組成一個系統(tǒng),陣列和陣列之間怎么傳數據,我們來驗證是否能夠用模擬計算實現一些AI的工作,我們提了新型的混合訓練算法,也提出了新型卷積空間并行架構。

為什么憶阻器存算一體適合人工智能呢?因為交叉陣列結構特別適合快速矩陣向量乘法。存算一體的器件特性可以減少權重搬移帶來的功耗和延時,有效地解決目前算力的瓶頸。另外,我們覺得人工智能是一個更關注系統(tǒng)組織性,而不是關注每個器件的精度,這特別符合憶阻器和模擬計算的特點,這是我們的認識。

最后講講我們最近的工作,最近神經科學界發(fā)現樹突不僅僅是傳輸數據的功能,也有濾波和積分的作用,它在空間和時間上都可以對一些信號進行處理,也就是不是說的信號,不是縮短信號,從突觸通過樹突傳到胞體,而是有很多信號在樹突被過濾掉,我們希望把樹突的概念引入到我們的神經元的結構里面去,我們相信這種結構可能會對神經網絡的性能尤其能效大幅度提高。我們做了一個器件,我們整理了一下突觸、樹突和胞體不同的功能,我們還搭了一個系統(tǒng),樹突和胞體連在一起,我們也做了工作,這個工作已經被接收,希望盡快能發(fā)表出來。我們發(fā)現動態(tài)功耗能降低30倍左右,而且準確率還能提高。我們后來覺得注意力等等是不是也和樹突也有關系。

總的來說,腦啟發(fā)來設計人工智能芯片,我們寫了一篇綜述文章和畢國強老師合作,在去年Adv.Mater發(fā)表了將近30頁的綜述文章,大家感興趣可以看一看。我們把大腦從I/O通道,到Synapses Neuro,到神經環(huán)路,到整個大腦的結構,我們和電子器件做了對比,文章題目叫《Bridging Biological and Artificial Neural Networks》,如果大家感興趣可以讀這個文章。

展望未來,希望也能夠做一個存算一體的計算機系統(tǒng),跟以前比,以前是晶體管加布爾邏輯加馮·諾伊曼架構,現在是模擬憶阻器加模擬計算和存算一體的架構,同樣我們需要編譯器、指令集等等,還有面向模擬計算的算法等等,上面的應用就不用太多變化。

分享三:《神經元稀疏發(fā)放在視聽覺通路上的作用》

胡曉林 清華大學計算機科學與技術系副教授

2007年在香港中文大學獲得自動化與輔助工程專業(yè)博士學位,然后在清華大學計算機系從事博士后研究,2009年留校任教至今。他的研究領域包括人工神經網絡和計算神經科學,主要興趣包括開發(fā)受腦啟發(fā)的計算模型和揭示大腦處理視聽覺信息的機制。在IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Image Processing, IEEE Transactions on Cybernetics, PLoS Computational Biology, Neural Computation, European Journal of Neuroscience, Journal of Neurophysiology, Frontiers in Human Neuroscience, Frontiers in Computational Neuroscience等國際期刊和CVPR, NIPS, AAAI等國際會議上發(fā)表論文80余篇。他目前是IEEE Transactions on Image Processing和Cognitive Neurodynamics的編委,曾擔任IEEE Transactions on Neural Networks and Learning Systems的編委。

胡曉林:各位嘉賓好,各位在線朋友們好!非常榮幸今天有機會和大家交流,今天我分享的主題和前面兩位嘉賓分享的正好相反,前面兩位嘉賓講的都是我們神經科學怎么樣啟發(fā)做新的器件,因為這個主題是AI和腦科學的交互,我來講另外一個方面的工作,就是AI的發(fā)展,神經網絡的發(fā)展,怎么樣促進神經科學的研究。

我對神經科學和AI方面都比較感興趣,兩方面的工作都在做。今天主要是講從AI到BI這方面的兩個小工作。我今天介紹的內容和前兩位嘉賓有點不同,前兩位嘉賓講的都是非常宏大,我今天只是介紹兩個點上的工作。

神經網絡和神經科學與大腦視覺皮層是有一定關聯的

首先看一下背景。左邊是視覺系統(tǒng)大致的通路,信息從視網膜到LGN到腦皮層。中間是聽覺皮層,也是一個層次化結構,信息從耳蝸一直傳到聽覺皮層。右邊是典型的神經網絡。從圖上可以看到,至少我們現在的神經網絡和視覺、聽覺系統(tǒng)有一定的相似性,至少是層次化的結構?;谶@種相似性是不是可以利用現在神經網絡的飛速發(fā)展來促進神經科學的研究,促進我們對大腦的視覺、聽覺或者其他感覺皮層工作機制的理解呢?這是我們今天要重點討論的問題。

這個方面的工作,比較早期的一個工作,是2014年MIT的教授他們做的一個工作,他們用一個神經網絡,一個CNN去訓練了一個圖片分類的模型,然后同樣的圖片給猴子看,可以記錄猴子不同的視覺區(qū)域,比方說V4和IT兩個區(qū)域神經元的發(fā)放,最后去比較神經網絡不同層和猴子的不同皮層V4和IT這兩個區(qū)域神經元的相關性。發(fā)現不同神經網絡層的神經元反應的特點正好對應猴子IT、V4區(qū)域反應的特點。這是第一次證明神經網絡和神經科學和大腦視覺皮層是有一定關聯的。

這是一個神經科學的發(fā)現,我們先簡單介紹一下這個神經科學發(fā)現,然后對比一下。這是2013年紐約大學的一個工作,他們做了一個實驗,讓猴子和人去看兩種不同的圖片,這是從原來的自然圖片通過算法合成的兩種不同的圖片,中間的比較像自然圖片,右邊是噪聲圖片,不完全是噪聲,是從自然圖片合成的噪聲。然后給猴子這兩類圖片,NT是中間那一列,SN是右側一列,V1區(qū)域記錄猴子的發(fā)放,發(fā)現V1的神經元對這兩類圖片的反應差不多,基本上分不開。但是到V2神經元對于NT一類的圖片反應高一些,對于SN類的圖片反應低一些,也就是在V2有一個區(qū)分。他們定義了Index,一個神經元的Index如果越高,就說明這個神經元越喜歡比較上面的圖片,那個圖片從數學定義上來講是含有高階統(tǒng)計特性的圖片,時間關系,不展開講它具體的數學定義,什么叫含有高階統(tǒng)計特性。總而言之V1區(qū)域,所有的神經元的Modulation Index都集中在0附近,在0左右對稱。在V2,大部分神經元的Modulation Index都是正的,也就是大部分的神經元都是喜歡這種比較像自然圖片的圖片。

2015年的時候日本的一個研究小組在另外一個區(qū)域,就是猴子的V4區(qū)域,他們發(fā)現了同樣的結論。V4的神經元相對V1來講,他們更喜歡具有高階統(tǒng)計特性比較像自然圖像的圖片,而不是噪聲。

為什么會又有這樣的結果?為什么V2和V4的神經元他們喜歡像自然圖像的圖片而不是那種噪聲呢?為了研究這個問題,有兩種選擇,一種是用傳統(tǒng)的計算模型,計算神經科學領域早期的模型都是單層的,現在為了研究這個問題顯然單層模型沒有辦法的,因為研究的是視覺皮層的高級皮層,如果沒有下面的這些層,上面就沒有辦法研究,所以需要一個層次化的模型,所以我們考慮用深度學習的模型來研究這個問題。

這是我們的模型,我們構建了這樣一個模型,這是很標準的深度學習模型,有輸入輸出,我們用同樣的方式從自然圖片中創(chuàng)造出一種像自然圖片的圖片,一種是噪聲圖片,這個噪聲不是隨機噪聲,它也是具有一定語義的,但是它和像自然圖片的圖片有所不同。我們把這兩類圖片輸入到模型里面去,然后記錄每一層神經元的反應。我們也可以定義每個神經元的Modulation Index,這個Modulation Index比較大就說明這個神經元比較喜歡具有高階統(tǒng)計特性的圖片。

結果非常有意思。有三行,第一行是AlexNet,第二行是VggNet,大家如果做深度學習的話是非常熟悉的,這兩類非常典型的卷積神經網絡。這兩個神經網絡有很多層,我們把他們分成五個大層,AlexNet本身就有五個卷積層,Vgg因為中間有很多max pooling,以此為界可以把相鄰的幾個卷積層分成一個大層,總共也會有五個層,統(tǒng)計每個大層的Modulation Index,就是藍色的柱狀圖,基本上隨著層數越高,它的Modulation Index越高,右邊的圖顯示的每一層,Modulation Index的分布,可以看到在LAYER1的時候,Modulation Index集中在O,左右差不多對稱,越往后面去,Modulation Index越來越正,最后大部分集中在1,也就是說比較頂層LAYER5大部分神經元就是特別喜歡高階統(tǒng)計特性的圖片。下面還有一個網絡這是一個無監(jiān)督模型,我們叫它SHMAX,它的結構跟上面兩個結構基本是一樣的,唯一區(qū)別是它的學習是一種無監(jiān)督學習,我們可以得到同樣的結果,藍色柱狀圖和后面的Modulation Index分布都是一樣的結論。剛才最后的模型,每一層的學習是Sparse codind,Sparse coding的公式在這兒,我想很多朋友應該聽說過這個模型,這是經典模型,1996年就提出來了,這是一個無監(jiān)督學習模式,也就是對于圖片不需要監(jiān)督,就可以進行學習。我把這個模型堆疊很多層,先學一層,把它的輸出作為下一層的輸入,在下一層繼續(xù)用同樣的過程進行學習,就可以得到剛才說的第三個模型。

也就是說對于有監(jiān)督學習模型和無監(jiān)督學習模型,他們的Modulation Index都是隨著乘數的增加而增高的。到底是什么樣的因素導致了這些神經網絡具有這樣的特性,我們考察了很多因素,最后我們發(fā)現,Response Sparseness非常重要,它跟Modulation Index成正相關的關系,比如我們看AlexNet、VggNet、以及SHMAX,你看他們的稀疏性Sparseness,你給它看很多圖片,很多時候神經元是不發(fā)放的,因為它有一個ReLU,有些時候是不發(fā)放的,有些時候是發(fā)放的,Sparseness定義的是神經元在多大的比例是不發(fā)放的,可以看到隨著層數上升,Sparseness會越來越強,正好跟Modulation Index趨勢差不多,我們做了對照實驗,AlexNet每一層的稀疏性越高,Modulation Index也會越高,SHMAX也是一樣,稀疏性越高,Modulation Index就會越高。

簡單總結,我們通過三個深度學習模型上發(fā)現和猴子視覺皮層高層反應特點類似的一個結論。當然也可以做一些預測,時間關系,這些模型預測我就不講了。

稀疏發(fā)放的特點和神經科學的發(fā)現是呈正相關的關系

第二個工作,這是一個關于聽覺的。剛才已經提到聽覺皮層也是層次化的結構,人們在聽覺通路上也發(fā)現了很多有意思的一些結果,比如說在耳蝸后有一個nerve fiber(59:03),你給它一些刺激,它的反映特別是呈這樣的小窩的形式,在下丘這個地方,這些神經元它們的感受也是可以測出來的,橫軸是時間、縱軸是頻率。在聽覺皮層,人們發(fā)現在皮層里面有很多神經元或者有很多Local area,他們可以特異性的一些音素比較喜歡,音素是比音節(jié)更小的單元,比如“a”里面有輔音“b”,元音“a”,元音輔音這些東西又叫音素。

作為計算能力科學怎么解釋這些結果?計算機科學已經用Sparse coding解釋了nerve fiber 和下丘(IC)的神經元的反映情況,具體是這樣的,這個模型還是Sparse coding模型,X是輸入、S是Response,如果你的輸入不再是圖片如果是語音,最后解出來A,A是每個神經元的感受野,它就長成這樣小波的形式。在IC區(qū),用同樣模型只是把輸入改了一下,輸入不再用位子格式的輸入,而是進行視頻轉換,輸入頻譜圖,把頻譜圖當成X,再去求解一個Sparse coding模型,就會得到神經元的感受點也呈這樣的形式,神經科學家已經發(fā)現IC區(qū)的神經元的感受點的形狀就是長這樣。

前面兩個層級的神經元的反應特點已經被解釋了,第三層級,就是最高層,這個現象怎么解釋呢?核心含義是給病人插一些電極,做手術的病人插一些電極,可以發(fā)現有些電極特別喜歡d、g、e、h、k、t這幾個輔音,有些電極喜歡摩擦音,還有的喜歡元音o、e、i。總而言之他們發(fā)現在人類的Quarter上面,神經元對音素有特異化的表達,這種表達是怎么出現的呢?就是我們要回答的問題,我們?yōu)槭裁从羞@樣的表達。第二個問題是前面比較低的皮層用Sparse coding解釋了他們的現象,同樣的Sparse coding模型能不能解釋高層的現象呢?為了回答這兩個問題我們做了層次化的稀疏編碼模型,典型的CNN結構,只不過我們每一層的學習不再用BP算法,而是用Sparse coding,第一層學習完以后再學習第二層,第二層學完以后再學第三層,就這樣從底層一直到高層學習,我們的輸入就是時頻格式的信號。

有意思的是,構建了這樣的層次化的稀疏編碼模型,我們把靠中間的層拿出來,S2第二卷積層,把這個地方的神經元的感受畫出來,可以看到這些感受野和神經科學家在下丘測出來的神經元的感受野有類似的形狀,這些感受野的形狀參數的分布也和在貓的下丘這個地方測的參數分布是一致的。最有意思的是到頂層以后,我們發(fā)現頂層Layer C6,這里很多神經元特異性的喜歡一類音素,比如B、P、L、G,還有一些神經元喜歡元音,a、o、e。而且聚集效應在頂層最明顯,在下面這些層也有,只不過這個效應低一些,數值越低就是說它的聚集效應低一點。也就是說這個模式并不是陡然在頂層出現的,其實下面的層級也出現了,只不過神經科學家們沒有測到下面那些區(qū)域神經元有這樣的表達,當然這是我們的推測。

總結一下,我們發(fā)現一些深度學習的模型在中層和高層這些地方,這些神經元的反應和視覺和聽覺的中層和高層的真實的神經元的反應有一定的一致性,這個結果并不是一個非常Trivial的結果,我們并沒有嘗試Fit數據,所有的學習準則要么是使得分類的準確率高,要么是使得重建的輸入準確,并沒有Fit任何生理學的數據,但是就是出現了這樣的特性,所以我們覺得這樣的結果還是非常有意思的。第二個結論,稀疏編碼,前面研究的這些深度學習模型都有一個稀疏發(fā)放的特點,而且稀疏發(fā)放的特點和神經科學的發(fā)現有重要的關系,當然這些深度神經網絡去研究神經科學的問題也是存在巨大的缺陷,就是他們模型的細節(jié)結構和生物上的系統(tǒng)還是存在著非常大的差異,所以沒有辦法用很粗糙的學習模型去研究細節(jié)的神經科學的問題。

感謝大家!

討論環(huán)節(jié)

山世光:謝謝胡老師給我們分享了兩個非常具體的案例,試圖去建立AI特別是深度學習模型和我們腦的神經網絡之間在某一些層面的一致性。

再次感謝三位嘉賓的精彩分享,接下來我們進入嘉賓討論環(huán)節(jié)。

我們今天的討論嘉賓除了剛剛已經給大家介紹過的作分享的三位老師外,我們有幸邀請到三位討論嘉賓,他們分別是來自北京師范大學認知神經科學與學習國家重點實驗室的畢彥超老師,來自中國科學技術大學神經生物學與生物物理學系系畢國強老師,來自北京大學信息科學技術學院長聘教授吳思老師。

畢彥超:我是來自北京師范大學認知神經科學與學習國重的畢彥超,謝謝山老師和未來論壇的邀請。

我自己做認知神經科學研究,我覺得整個論壇做認知或者整個領域國內做認知的相對少一些,所以請允許我稍微介紹一下我們整個主題。我們關注人的認知功能的腦基礎,我們實驗室關注的核心問題是物體識別和知識的存儲。

我們關于大千世界有各種各樣的知識,比如簡單的,剪刀有什么功能?玫瑰有什么顏色?最近我們學到的新冠病毒是什么?都存在大腦當中,記憶系統(tǒng)的一部分叫語義記憶。有了這些知識信息我們才可以做各種各樣的認知功能,我們可以識別物體,理解詞的意思。我們實驗室特別關注這種知識,在記憶里面存儲在大腦什么地方。以什么樣的形式,編碼什么樣的信息。我們關注人的高級功能,拿各種各樣的人群做實驗。比如正常人,把他放在核磁機器里,讓他做知識提取加工任務,看大腦活動模式是什么。先天盲人和聾人,完全剝奪視覺和聽覺的經驗,看對大腦的知識和理解有什么樣的影響。

我們還做各種各樣的腦損傷病人,破壞大腦各種各樣的地方,看對什么樣的知識缺失。我們發(fā)現很多有趣的結果,很期待和AI領域的各位同行和朋友去交流,很想試一試我們的新發(fā)現和思路。

我是默默關注AI很多年,我一直受認知心理學訓練,在我早期念書的時候,AI早期的理論模型、PTP模型,都是天然的一些認知心理學的模型。后來自己工作關注到大腦的機制,發(fā)現中間有很多年的鴻溝。前些年機緣巧合參加了AI兩個主要領域的會議,機器視覺和自然語言處理,發(fā)現很大的領域這么多人,用和我們非常相似的詞匯,但是其實做非常不同的事情也有很多不同的視角。所以這些年我也盡量學習和了解AI領域對我們相似的問題的理解和思路,對我自己有很多的啟發(fā),同時我也覺得我們對人腦認知計算的很多新特點的發(fā)現,AI領域真的應該過來試一試,很好玩,所以非常有興趣參加這種跨學科的交流活動,謝謝未來論壇。

畢國強:非常感謝世光老師、華強老師與論壇的邀請,非常高興參加這次跨界論壇。我現在研究的工作和教書都是神經生物學,我自己本科是學物理的,跟AI還是有一些特別的淵源。1988年左右,趙凱華老師組織過一個全國人工神經網絡研討班,我跟著趙老師和他的研究生在研討班上做記錄,當時就覺得非常神奇,然后就特別想要了解一下大腦神經網絡是怎么回事兒,于是研究生的時候就開始學生物,算是一個曲折的經歷。

我們現在做的神經生物學工作與剛才華強、華錦老師都提到突觸可觸性有關,我關注的主要是學習記憶的規(guī)則和機制,這也與AI有關。AI之所以有這么強的威力,一個根本原因就是它的學習能力。我們研究大腦的學習和記憶主要關注兩個層次,一個是在突觸的層次,一個是在大腦神經網絡的層次。在突觸層次上,可塑性是一種局域規(guī)則,比如我們研究的STDP,剛才兩位老師也講到過,是在生理條件下很多系統(tǒng)里大家也都觀測到的規(guī)則,也應用在許多計算神經科學和脈沖神經網絡模型里。但實際上的STDP和脈沖神經網絡的應用還不是很成功,它的性能一直很難上去。我個人對這方面的理解是STDP作為一個生物學規(guī)律的描述還不是非常完善,比如在不同類型的神經突觸甚至同一類型的神經突觸的不同狀態(tài)下,STDP規(guī)則都可能很不一樣。這樣的話如果我們只是簡單應用同一個簡化的規(guī)則,確實可以理解會遇到很多問題。而完整的規(guī)則對于實驗神經生物學家來說是一個很大的挑戰(zhàn),原因是我們仍然缺乏對可塑性機理的深刻理解,而這在一定程度上是由于實驗技術的局限。

最近十來年我們做的事情是嘗試發(fā)展和應用新的微觀成像技術,包括最新的超分辨光學顯微和冷凍電鏡技術來看突觸到底是什么樣的,將來再進一步去看它在可塑性中發(fā)生什么變化。另一方面在發(fā)展新的工具來看更大尺度上大腦神經網絡是什么樣的,我們最近這幾年發(fā)展了一個新的高通量腦結構成像方法,可以很快的把一個鼠腦的神經元和全腦尺度的連接三維結構很快拍出來,這樣的一個工具也讓我們能夠開始探討動物在某些行為下的神經活動的印跡,再反推神經活動和行為之間的關系。我們正在深圳建設科大和深圳先進院的聯合研究中心,叫腦信息中心,在那里我們希望通過這些不同尺度的成像方法來探索腦結構和功能的大數據信息。這些數據的進一步分析,也需要AI的方法,而從這些分析得到的結果,也希望能對AI的進一步發(fā)展提供素材和啟發(fā)。這是我們做的事情,謝謝大家。

吳思:我先介紹一下自己,我是來自北京大學的吳思,我的研究方向是計算神經科學。簡單說,計算神經科學就是用計算的方法來研究腦科學,很顯然這樣的研究會有很多附產品,可以啟發(fā)我們發(fā)展人工智能的算法。

我課題組目前有50%的精力在做計算神經科學,另外50%做類腦計算。目前比較關注的課題包括:神經編碼的機制與模型,如大腦表征信息的正則化模型,大腦如何做貝葉斯推理,以及多模態(tài)信息整合的問題;另一個大的方向是關于視覺信息的加工機制,如神經反饋的作用,皮層下的視覺通路計算功能,以及皮層上和皮層下通路之間如何實現信息融合。另外,我們也做一些腦啟發(fā)的類腦計算研究,如用連續(xù)吸引子網絡大腦實現物體跟蹤,尤其是在加入負反饋的情況下實現預測跟蹤;同時受皮層下視覺通路啟發(fā),我們也發(fā)展一些算法,可以做運動模式的識別、物體全局信息識別等,這些都太細節(jié),這里就不詳細介紹。

首先感謝未來論壇的邀請,今天的主題是關于AI和腦科學之間的關系。在很多不同的場合總有人問我這個問題。從大的方面說,AI就是我們要創(chuàng)造一個人工的智能體,這是個工程問題;而腦科學,尤其腦科學中關注信息處理的研究,是要解析生物的智能體,這是一個科學問題。因此,AI和腦科學的關系從某種意義上說就是科學和工程的關系。在AI中,大家最近經常強調深度學習的有可解釋性,就是我們要打開深度學習網絡的黑箱,這其實也是腦科學研究一直在干的事情,只不過打開的是生物體智能的黑箱。兩者都是在干同一個解析智能的問題,一個是從工程的角度我們怎么去創(chuàng)造一個智能體,而另一個是從科學的角度去解析大腦的工作原理。因此,兩者之間的互動和互補是很顯然的。一方面,大腦是自然界已經存在的智能體,我們了解它肯定能夠幫助AI發(fā)展;另一方面,創(chuàng)造AI也有助于我們真正了解生物智能。有一種說法是了解一個事物,最佳的方法就是你去制造它。

AI和腦科學互助從邏輯上說是非常自然的。大腦是宇宙中已知的最好的智能體,發(fā)展人工智能當然要從大腦中去學。腦科學的確已經給了AI啟發(fā),但目前還遠遠不夠。從我自己的研究經驗看似乎經常是AI幫助我做腦科學,而不是腦科學對AI有什么幫助。這個問題出在什么地方呢?一個很大的問題是吳華強老師剛才說的,現在的算力不夠;即便計算神經科學發(fā)展了一些好模型,如果沒有很好的算力,就實現不了,體現不出腦啟發(fā)的優(yōu)點。此外,我覺得還有兩個問題經常被大家忽視。一是目前AI的應用其實關注的任務相比我們人腦的高級認知功能來說還是太簡單。比如AI的很多應用涉及的核心任務是目標識別,但大腦在我們日常生活所面臨的計算遠遠不是簡單的目標識別。當AI應用以后走向更復雜的任務,可能腦科學能夠提供更多的幫助。還有一個問題涉及當前實驗室科學的研究,計算神經科學要根據實驗數據,但當前的實驗范式通常都太簡單了,比如對猴子呈現一個簡單的刺激,然后記錄大腦內神經元怎么反應,即便我們把整個計算過程揭示出來,它對我們認識大腦的高級認知功能還相差很遠。所以實驗科學家也要加把勁,把整個實驗范式設置的更復雜,更多揭示大腦如何實現高級認知功能,在此基礎上計算神經科學的建模、以及發(fā)展的算法才能對AI有用。

第一:腦科學已經為AI發(fā)展提供了什么思想、方法和技術?有哪些典型案例?

吳華強:我們最近剛剛做一個樹突計算的事情,我們最開始做,其實是我們看一個器件和樹突優(yōu)點相似,過去神經網絡里只有神經元和樹突,樹突在神經元里面不體現,也就是所有的突觸的信號都傳到胞體上和neuro上來了,然后Neuro再做integrate/fire。我們發(fā)現有一些憶阻器和我們的突觸不一樣,可能有積分功能和過濾功能,后來就跟吳思老師、和畢老師討論過,覺得和樹突有點相似,我們就開始研究樹突能不能做一個Electronic dendrite Device,后來發(fā)現很有意思,人的大腦里突觸很多,突觸的很多信號如果都傳到胞體上,胞體就崩潰了,就分掉了,這是我猜測的。

不是所有的樹突都傳到胞體上去,它空間上會group,而且時間上也會做一些group。很多信號,70%、80%的信號突觸上產生的并不傳到胞體上來,它只把重要的信號傳過來,接近胞體比較近的樹突那邊有一個負的結構,這種結構對我們神經網絡是不是可以大幅度的提升,神經網絡是不是可以引入一個輕的樹突,就把有一些突觸的Synapses weight,它和多加一層(神經元)不一樣,多加一層“W…”(神經元)就要多加一個層weight(權重),樹突其實和Neuro Soma是緊密結合的,一個胞體,一個Neuro有很多個樹突,是固定連接。如果引入樹突,會不會讓我們整個計算更加準確。甚至我們的注意力也和這個有關系。后來我們做了一點工作,把突觸和樹突和胞體,在實驗場連在一起,做一個小的系統(tǒng),發(fā)現還挺有意思的。一方面對SVA圈數據集,街邊的數字,門牌號進行識別,發(fā)現準確率提高了,動態(tài)能效提高30倍。這是舉個例子說通過對腦科學理解讓AI網絡更加提升。

山世光:這是挺有意思的一個話題,剛才說到猜測樹突是不是有濾波的功能,過去我們說MCP的神經元模型里面是一個積分,你是不是相當于對每一路的輸入又有一個濾波,是又加了一層濾波嗎?

吳華強:就是那個器件可以對它進行過濾,我介紹的器件并不是百分之百把樹突功能都模仿了,也許在做新的電子器件,網絡架構上可以發(fā)生變化,去年10月我到美國訪問MIT,它的實驗室有一個教授做的報告就有樹突計算的,我聽了一下,他有一個觀點,樹突的長度和智慧是有關聯的。他說老鼠的樹突多長、人的樹突多長,智慧和樹突的長度有關系。也許給我們AI帶來很大變化。

畢國強:華強老師說的樹突計算非常有意思,我聽到華強的結果也非常興奮,最后的效能提升是由于什么原因?是不是樹突的濾波性質或樹突本身的構架?這種構架可能把突觸變得不太一樣,一般人工神經網絡構架中每個突觸的基本性質是一樣的,樹突構架可能引入了異質性。另外,樹突結構本身的層級結構的復雜性也可能會對最終產生的計算能力有一些影響。關于異質性,我剛提到的突觸可塑性,STDP應用到人工神經網絡效果不好,一個可能的原因就是異質性。所以華強的這個工作,把樹突結構加進去,非常值得進一步看到底是哪些特征產生了這些性能的提升或者改變。

當然從哲學層次上來說,生物的大腦和神經系統(tǒng)是很多年進化的結果,是經過自然選擇,證明是能夠Work的東西。但這里面又有多個尺度上的復雜性,從最小尺度上,即使只是看突觸不到一微米大小的設備,其實真實的突觸非常復雜,然后到環(huán)路、到整個大腦的結構。我們去模仿大腦,可能在不同尺度、不同層次上都可以獲得不同的啟發(fā)。這個時候關鍵的一點是我們從中得到的東西要分析出來是哪些特性能夠對AI起到正面的作用。我覺得短時間內要全面地模仿大腦肯定是不現實的,所以我們需要從復雜的層級結構中抽提出關鍵特性一步一步模仿。

第二:從腦科學可以轉化到AI來的,大家可以不可以分享一些更好的案例?

胡曉林:剛才的問題是問腦科學已經為AI提供了什么樣的幫助,有很多工作其實是從腦科學啟發(fā)過來,追根溯源到1943年,麥克和皮茨這兩個人第一次提出人工神經元MP神經元,如果沒有他們提出人工神經元,后面的這些CNN等等都是不存在的,他們其實是做神經科學的,他們嘗試發(fā)明計算模型并解釋大腦的工作,他們提出了這種邏輯運算的MP神經元。后來Rosenbaltt把MP神經元擴展了一下,得到了多層感知機。后來在1989年、1990年的時候Yan LeCun等人提出來CNN,當時是受了Neocognitron模型的啟發(fā),Neocognitron是日本人Fukushima提出來的,我真的找過他那篇論文,Neocognitron的結構和現在CNN的結構一模一樣,唯一區(qū)別是學習方法不一樣,Neocognitron在1980年提出來時還沒有BP算法。Neocognitron怎么來的呢?它是受到一個神經科學的發(fā)現,在貓的視覺皮層有簡單細胞、復雜細胞兩種細胞,從這兩種細胞的特點出發(fā)構建了Neocognitron嘗試去解釋大腦怎么識別物體的。后來才發(fā)展到CNN。MP神經元和Neocognitron這是兩個具有里程碑意義的方法,這是很典型的神經科學給我們AI的啟發(fā)的工作,甚至可以說是顛覆性的工作。

坦白說到這次神經網絡、人工智能的騰飛,這次騰飛期間我并沒有看到特別多令人非常興奮的腦啟發(fā)的工作,我本人也做了一些這方面的工作,發(fā)現目前一些受腦科學啟發(fā)的計算模型好像都沒有我剛才說的那兩個模型的意義那么大。希望這個領域能出現一些新的腦啟發(fā)的方法,哪怕它們現在的性能非常差,但是十幾年、幾十年以后,它們也許會成為奠基性的工作。

山世光:SNN還需要時間再去進一步觀察,因為目前還沒有到那么強大的地步。吳華強老師做存算一體,不知道很可能會成為未來值得關注受腦啟發(fā)做計算的模型。

胡曉林:有可能。

畢彥超:我們了解任何一個智能系統(tǒng),比如戈登摩爾,我們非常喜歡的一位計算神經科學家說,了解任何一個智能系統(tǒng),要從三個層次看:計算、算法和實現。我聽到剛才大家講的,借鑒的大多都是在實現層面的,包括硬件、底層、神經元,等等。我覺得在計算和算法的層面上,對于這兩個基本機理完全不同的智能系統(tǒng),計算和算法有很多可以參考的地方。我覺得目前沒有看到這方面的界線,我會覺得認知神經科學或者認知心理學是一個寶藏。剛才吳老師也提到在視覺加工的時候,至少人腦和猴腦的視覺絕對不僅僅是識別這個標簽就可以了,是為了正確規(guī)避的反應,有社交的功能。我們已經在人和猴子的高度視覺皮層能夠看到非視覺,比如對標簽的運動皮層的不同反應作為它的塑造作用。剛才吳老師和畢國強老師都提到,人的condition并不是特定的single purpose,而現在AI的計算很多是特定的purpose,但是并不等于人或者其他動物目前所謂的最優(yōu)解,肯定看我們想要達到什么樣的目的。

我舉一個簡單的例子,我做知識存儲,在AI里面知識存儲全都從文本來,但實際上神經科學,知識存儲,更主流的觀點是從感知經驗來,從視覺來、從聽覺來,跟視覺去互動來。我們最新的工作是發(fā)現在人里面這兩項都有,而且是獨立的存在。AI里面,大家經常會問,常識性的知識怎么表達,一直是個很大的挑戰(zhàn)。我們說人腦在神經科學的研究有這方面的答案,從我們感知和運動,與視覺的互動當中來。剛才說借鑒的成果,我會覺得Implementation我看到很多令人激動的已經很好的成果,我還蠻希望人和我們交流,我會覺得有很多寶藏。

第三:AI怎么助力了腦科學的發(fā)展, AI對腦科學的發(fā)展有什么典型的幫助?

吳思:我們要看我們怎么定義AI。如果泛泛的包括信息理論、動力學系統(tǒng)分析、統(tǒng)計學習等,那么這些都是計算神經科學每天在用的工具,它們一直在助力腦科學的發(fā)展。如果一定要強調最新的,比如說深度學習,那么如何將AI用于腦科學是目前的一個研究熱點。國際上有多個組,也包括清華的胡曉林老師,大家把視覺系統(tǒng)當成一個深度學習網絡,然后訓練這個深度學習網絡,同時加入一些生物學的約束,然后用對比的方法看這個系統(tǒng)能學習到什么,進而回答生物視覺認知的問題。

山世光:我們看到一些工作也都是在驗證,深度網絡和人的大腦之間似乎在層上有一定的對應性。

唐華錦:我補充一下吳思老師講的,在傳統(tǒng)上AI提供了很重要的大數據分析工具,視覺神經、視覺皮層,現在的AI提供了很重要的大數據工具,尤其是在高通量的腦成像方面,建立非常精細的腦模型,AI大數據起到重要的作用。還有實時的腦活動的分析上,比如斑馬魚的活動,如何同時實時記錄以及把這些神經元的活動匹配到那些神經元上,這是大量AI深度學習幫助腦科學家在分析數據、統(tǒng)計數據上,包括三維重建,包括樹突、軸突之間連接的結構也會起到非常重要的作用,AI還是提供了很好的工具在深入的解釋上面。

胡曉林:我接著吳思老師剛才的觀點和大家分享,吳思說現在國際有一個熱點,用深度學習的方式去研究以前在生物學實驗當中的結果,在這個模型當中能不能出現這個結果。我想說的一點,這是第一步,我們首先要來看一下深度學習模型是不是具有這樣的特點。如果發(fā)現它具有這樣的特點,你能干什么。深度學習模型是你自己構造的,這個模型你所有神經元都可以測。不像生物體會受到實驗條件限制,有些地方測不到。這個模型是你自己構造的,所有神經元的特點都可以測。如果有了一個等價模型,在等價的人工智能模型上做一些實驗和解釋,做一些原理性的探索,會比在動物那種“黑箱”上做容易一些。

我給大家再分享一個話題,去年的時候MIT有一個組,DiCarlo實驗室,剛才提到了他們2014年的工作,他們去年有一個更進一步的工作,在猴子的高級皮層,神經科學家很難用一個刺激讓這些神經元能夠以一個很大的發(fā)放率去發(fā)放。如果做實驗的話會發(fā)現,越往高層就越難讓一個神經元發(fā)放。為解決這個問題他們做了一個實驗。他們先構造了一個神經網絡CNN,然后把中間的某一層L3層取出來和猴子V4區(qū)域的神經元反應做簡單的映射,這個映射可能是一個小網絡,然后學出參數。學出來之后,他們認為從視覺刺激(這只貓)到你的眼睛通過L1、L2、L3再到V4這是一個通路,這個通路上經過的是人工神經網絡,而不是真正的生物系統(tǒng),真正的生物系統(tǒng)是下面的通路,看到這只貓然后經過V1、V2、V3最后傳到V4。所以他們其實構造了一個視覺通路的替代模型。你可以通過這個替代模型,這個神經網絡,用BP算法反求一個刺激,使得V4區(qū)的神經元反應最大,最后發(fā)現反求出來的刺激像下面這張圖的樣子。然后再把這些刺激給猴子看,去測V4區(qū)神經元反應是不是最大。發(fā)現V4區(qū)的神經元反應遠遠超出以前用任何刺激所帶來的反應,也就是說如果不用他們這種反求的方式去做刺激,用自然數據是很難讓這個神經元發(fā)放這么強烈的。這個就解決了他們做生理學實驗的一個痛點。我和做聽覺的老師聊過,他們在猴子的聽覺皮層發(fā)現大部分神經元都是不反應的,很多人覺得猴子的聽覺神經元不是干聽覺這件事的,很多人想不通為什么這樣,我覺得可能是我們沒有找到合適的刺激。

畢彥超:我想補充一句,用AI來理解大腦的事情,吳思老師也提到我們很費力的想把黑箱打開,我理解AI最近的潮流,包括最近講的DNN很多時候是把黑箱合上,比如模擬的很好,如果只為一個模型,跟我的神經模擬的很好,或者可以操縱的話,并不等于它就是這樣的。并不是說這個沒有用,而是用它理解大腦的時候,比如我們多找一些不同的模型去對比,才會有價值,才有可能為理解稍微添更多的證據。

山世光:這本身對AI,我們現在深度學習的模型也是一個黑箱,在過去三年里AI領域已經把AI的可解釋AI或者XAI這個研究問題突出出來了,很多人做了非常漂亮的工作解釋黑盒子模型,我相信在接下來的時間里肯定會有更多的發(fā)展。這個話題還有哪位老師發(fā)言?

畢國強:我再補充一句,剛才幾位老師已經說的非常透徹了,AI在腦科學研究中能夠起到很多助力作用,從基本的大數據分析到更高層次的模擬,對大腦的模擬。在最后一步,對大腦的模擬有不同深度,早期的人工神經網絡以及現在很多深度神經網絡所模擬的只是神經元和突觸連接的一些非常基本的性質。用這樣簡單的性質來模擬大腦,能夠得到的一些似乎和大腦里面發(fā)生的類似的現象,這確實反映了非常根本的機制。但是很可能很多事情是沒有辦法用目前的人工神經網絡來解釋的,這時候需要用進一步的模擬,也可能叫計算神經科學的模擬,剛才吳思提到AI和計算神經科學沒有本質上的嚴格邊界,這種更深層次模型通過加入更多的腦神經系統(tǒng)的特性就可能模擬神經系統(tǒng)更多的行為,然后可以再反過來看哪些性質是哪些行為必須的。當然最后這還是一個大腦理解大腦的復雜性問題。

第五:我們面臨的是兩個黑盒子,深度學習和大腦這兩個黑盒子怎么互相對比?能不能把這個黑盒子打開?

吳華強:我們可以用人的大腦去研究老鼠的大腦,我們可以先從簡單的東西研究起,我們不能打開自己的大腦,我們打開別人的大腦。

山世光:腦科學研究需要什么樣的AI技術來解決什么樣的前沿腦科學問題,哪位老師就這個話題再說幾句。

吳思:我特別期望望神經形態(tài)研究的發(fā)展,就是唐華錦和吳華強老師他們將的東西來幫助來幫助計算神經科學的發(fā)展。我們研究腦科學,提出了各種模型和機制后,如果有一個類腦的硬件系統(tǒng)驗證一下,就能更好證明這個機制和模型是否生物學合理,能否在AI中得到應用。

第六:我們還有一個話題關于人才培養(yǎng),這是未來論壇秘書處覺得非常重要的話題,我們看哪位老師對交叉學科培養(yǎng)有經驗或者想法?

畢國強:這是非常重要的,可能目前整個領域,尤其是在國內發(fā)展的真正瓶頸,就是怎么樣培養(yǎng)更多的交叉學科的優(yōu)秀人才。這是一個很大的挑戰(zhàn),因為真正的AI-腦科學交叉學科人才可能需要對兩個學科都要有充分的把握,而這兩個學科都是很難的學科,計算機科學、神經生物學都很難,而且它中間重疊的部分又不多,不像是計算機和應用數學,或者生物學和化學相對容易一些,如果想把AI和腦科學這兩個連在一起,你需要幾乎雙倍的專業(yè)知識。國外有很多值得借鑒的經驗,但最關鍵是需要鼓勵青年人追求自己的興趣,你如果感覺大腦很神奇或者AI很神奇,真的想研究它們,理解它們,那就花別人雙倍的力氣把這兩個學科都學好,這是最重要的。我讀物理研究生時很容易,英語聽不懂照樣去考試,但讀生物研究生的時候發(fā)現不光英語聽不懂,翻譯成中文也聽不懂,我只拿錄音機錄下來,仔細查,把所有東西一點一點搞清楚,這樣花了一個多學期的時間之后,就開始真正能理解生物學家說的話,可以開始去做這方面的研究。另一方面,國內很多課程設置有專業(yè)限制,不同專業(yè)間的壁壘還是很大的。在生物系和計算機系這兩個學科的要求差別非常大,這時候需要設計真正的交叉學科的課程體系,科大在這方面做過一些努力,比如溫泉老師教物理系學生計算神經科學的課,深圳在建的中科院深圳理工大學也希望建立AI+腦科學的智能交叉學科專業(yè)方向,建成培養(yǎng)交叉學科頂尖人才的機制。我想后面會慢慢好的,大家在北大、清華、浙大,在這方面都有很重的責任。

畢彥超:剛才畢老師講的太好,我自己會思索,不光是對人才培養(yǎng),對我們每個人都是一直的挑戰(zhàn),我們參加這個論壇,已經可能是自己領域的異類??鐚W科有很多特別不容易溝通的地方,雖然用同樣的詞,其實是固守一些成見,按照自己學科的思路去想。剛才吳思提到一點,腦科學很多是科學的思維,AI很多是工程思維,我會覺得在溝通過程中我們都會碰到一些壁壘,這時候怎么更開放,思考背后大家真正關心的大問題,而不是當前具體某個小問題,特別的重要。所以在人才培養(yǎng),我想說自己沒有成功的經驗,但是我一直在招博后,如果有感興趣的聽眾。

山世光:我今天早上還在看心理所要設計本科專業(yè),課程體系里我看到人工智能的課他們有一門,我就在想這個人工智能的課誰來講、講什么,對他們來講前面沒有計算機變成課,上來就有人工智能,給心理所的人講,確實課程體系建設方面有有非常多的地方需要努力。

唐華錦:浙大這邊新招的人工智能專業(yè)本科生專業(yè)設置了AI+腦科學的交叉課程,在推動培養(yǎng)新一代的AI+腦科學方面的交叉人才上已經在布局,相信清華、北大也有類似課程的設計。

胡曉林:我個人認為在畢老師你們那兒開人工智能課,前面沒有編程基礎,上來就講人工智能很難的。我覺得反過來,如果在信息科學這樣的院系開設腦科學相對來講應該是比較容易的,因為就我這點不成功的經驗來講,學神經科學可能不需要特別系統(tǒng)的、像數學、編程那樣要經過好幾年的培養(yǎng)。浙大這樣的做法可能是比較好一點。在我的課題組,我是鼓勵同學們做一些腦科學的事兒,但是目前為止不是特別成功?,F在計算機信息學科的學生更加關注的還是AI,偏純AI,技術本身。這是另一個方面的困難。

山世光:也不容易,我本人也學了好幾年,現在剛剛能做到腦科學、神經科學說的詞匯我基本能理解,但是更深刻的思考也做不到,感覺也不是那么容易。

胡曉林:要真正有興趣,真的覺得這個東西不解決,AI這個領域可能也沒有特別大的發(fā)展。

山世光:還是要投入雙倍的時間和精力。

現場問答環(huán)節(jié)

第七、 大腦如何完成學習-記憶融合的?能不能稍微展開講一下。

唐華錦:因為時間關系我簡單陳述一下。這涉及到我們對記憶的理解問題,首先記憶通過神經元的群組編碼實現,比如對某個概念,必須有一組神經元對這個概念進行表述,這組神經元就要通過學習對這個概念進行響應,比如通過快速學習,這個神經元群組之間要加強它們之間的連接。把這個概念和另一個概念之間,如果它們之間存在聯想關系,不同的神經元群組間要形成一個新連接,這個連接要把不同概念聯系起來。群組內的神經元連接以及群組間的神經元連接都要通過學習方式實現。要么通過無監(jiān)督STDP學習規(guī)則,或者通過有監(jiān)督的學習規(guī)則來實現學習和記憶的融合。

山世光:華強老師在做存算一體,不知道是不是更重要的是“學算、學憶一體”更值得做。

吳華強:這個問題問的很好,看學算怎么定義,我們現在做的這個工作,是可以Chip上做學習的,也就是它可以改變位置可以學習的,而且我們芯片上也實現了。

第八、如果就一個神經元來講,它怎么學和記憶一起,現在MCP模型是沒有記憶力的。

吳華強:如果現在突觸在生物上會不斷變化,因為通過學習它會變化,電子器件也是一樣的,比如我現在存的值10歐姆,新的學習過來之后把它變成12歐姆或者9歐姆也是可以的,通過變化就實現了它的記憶。當一個芯片真的能夠比較智能的話,集成度是比較關鍵的。比如10個突觸,現在每個的變化、離散性都會大幅度影響系統(tǒng)準確率,如果芯片集成10億個器件,其實單個器件就不會有太大影響,這塊要找數學理論家合作,在理論上怎么證明器件的離散和整個網絡的準確率的關系。

我剛才在聊天時已經回答了,憶阻器陣列可以做乘加,電流需要轉化,總得來說是需要的,但是如果每個陣列都做ADC轉化成本有點高,芯片里面時間其實是很快的,都是納秒級計算,比大腦快多了。更關鍵的是用了很多ADC導致芯片面積比較大,會導致它的能耗比較高,所以我覺得一部分可以做模擬信號傳遞,一部分可以做數字信號傳遞。這是回答這個問題。

激活函數可以通過硬件實現,我們現在做的函數是用CMOS去做的,但是也有人單個器件去做激活函數的事情,用新的器件去做。但我們是要把它集成更大規(guī)模的芯片,所以我們用CMOS去做。

第三個問題,跑完整的AlexNET還沒有跑,我們下個芯片會做這個事情。我們之前做的芯片集成度規(guī)模只有幾十萬個規(guī)模,下一個芯片的規(guī)模是幾百萬,再下個芯片達到更大規(guī)模,在幾百萬里就可以跑AlexNET,目前討論結果還可以,但是還需要在芯片上跑出來。

第四個問題,目前憶阻器,目前來講它的算法有乘法和加法,整個計算特別適合做矩陣計算,當然要配合別的輸入輸出,還有存儲和編碼這都是需要的,而且硬件上來講,我的陣列是固定的,算法是千變萬化的,需要用編譯器或者算法支持去把千變萬化的Layer Breakdown到我的固定陣列上。

第五個問題,關于存儲墻問題,在探究提高存儲器存取速度以及傳輸上,到第6層就到頭了嗎?如果繼續(xù)增加層數,預期會有什么結果?新的存儲器也是可能會有的,比如現在新的MRAM和新的其他東西,它其實有它的優(yōu)點,和現在的DRAM比,其實DRAM是很快的,速度足夠快,最大的問題是架構上的問題,再快比不過M…(02:24:52),小于1納秒,目前還沒有發(fā)現比它更快的存儲器更快的速度。

我剛才講的兩個瓶頸,速度慢、功耗大的問題目前沒有找到非常好的芯片去解決它。

第九、有沒有人研究好奇心是如何產生的?機制有什么辦法度量它。

畢彥超:簡單的答案,我自己不知道。傳統(tǒng)比較主流的認知神經科學上目前也沒有很好的回答。首先從嬰兒、兒童的研究上能夠看到,人們對心意的刺激有基本的生理性、直接性好奇。人各個方面對事情的答案有一個基本的好奇心。而且不光是在人身傷,貓也是很好奇的,對于生物體進化過程當中對于外部世界刺激的反應,有可能是生存繁衍一個很重要的進化的東西,所有的生物體是不是有一種比較基本的好奇心。是什么樣的時間范式,比如是不是僅僅對心意的刺激,一種是基本的好奇心,是不是一回事,怎么去實現,是不是有不同種類的好奇心,我自己不知道。

山世光:這是不是和神經科學有一個理論相關,它的基本理論是說對于外在世界什么東西會有一個預測,但如果實際刺激或者實際發(fā)生的事情和預測不吻合會有一個偏差,你會關注那個偏差。

畢彥超:如果要是觀察人們問的好奇心的問題,我得時刻關注外面的世界,進行預測,才能實現實際有效的識別和交互,有可能有關系。但至少在認知神經科學里面,不會把它Label成好奇心,我覺得有可能是有關系。

第十、剛才提到多模態(tài)融合很感興趣,能不能介紹一下人腦是如何進行多模態(tài)融合的?

吳思:多模態(tài)信息整合是我們大腦的一個基本功能。人為什么有五官?實際上它們是我們從不同的物理、化學和聲音等信號來感知這個外界世界,這些信號需要在大腦里有效地融合起來。從數學角度說,多模態(tài)信息整合的最好算法是貝葉斯推理。有意思的是,行為上已經證明大腦能做數學上優(yōu)化的貝葉斯多模態(tài)信息整合,在神經數據上猴子實驗也證明,在計算模型上也得到了驗證。我們最近做一個模型工作來解釋其機理?;镜乃枷胧歉髂X區(qū)有分工,分別負責處理視覺信號、聽覺信號等,但同時這些腦區(qū)之間又有連接,這些連接編碼不同信號之間關聯的先見知識。這樣多個腦區(qū)間通過信息交流,最終以并行分布的方式實現了優(yōu)化的多模態(tài)信息整合。

第十一、關于兒童發(fā)展或者跨物種比較的研究來研究學習如何動態(tài)塑造大腦神經網絡的,比如小孩的大腦可能更接近全連接,后面逐漸被選擇性的消除掉一些連接。這樣一種模式對計算會不會有幫助?

畢彥超:首先有很多人關注這方面,至于對AI的借鑒的程度我不知道,我會覺得是一個寶藏。首先從嬰兒認知的發(fā)展上,人們發(fā)現很多有趣的現象,比如機器學習一個詞很難,小孩在語言爆發(fā)期只要聽到一個詞一次就可以學會。但是在特定的情景下,發(fā)展心理學家已經發(fā)現只有在特定的這種情景下小孩才學會,所以可以借鑒一下。對于人腦來說,對于人類嬰兒的人腦非常難研究,因為我們不想以有損的方式研究嬰兒。最近隨著無損的神經影像的發(fā)展才開始有一些特別基本的認知,開始的時候相對全連接,其實通過分析早產兒的大腦,很快的先去發(fā)展初級的感覺運動皮層,但隨著后來的發(fā)展,網絡當中的樞紐然后在其他的額頂更高級的網絡再慢慢發(fā)展了,這些也是最近兩年隨著神經影像發(fā)展,人們才剛剛知道一點。所以可以關注,我不知道是不是動物上已經有很多很好借鑒的例子了。

第十二、突觸可塑性可以看成一種局部優(yōu)化規(guī)則,大腦是如何進行全局學習和調控的?

畢國強:這是一個很好的問題,我剛才提到一點,我們研究學習或者可塑性,一方面是看突觸本身發(fā)生的變化,另一方面我們希望,實際上還沒有真正做到,就是在全局尺度上或者環(huán)路尺度上看這些可塑性是怎樣發(fā)生變化的。這也分多個層次,一是在全局上面,哪些突觸可以發(fā)生可塑性變化,這需要突觸前后神經元的活動,任何一個需要學習的內容在整個網絡里面以不同的神經元活動表達出來的時候,就會有相應的突觸發(fā)生變化。

另一方面,全局尺度上還有神經調質的作用,比如說情緒或者是獎勵的信號,受到獎勵的時候大腦里多巴胺系統(tǒng)會對整個網絡有一個全面的調控。但調控具體影響還有待深入研究,但是一般來說它可能讓在這段時間受到影響的突觸的可塑性變化更容易。這樣就在全局尺度上可以把很多突觸的變化協調起來。

第十三、信息專業(yè)的學生如果希望自己入門腦科學相關內容,應該從哪里入手?

吳華強:可能找一本比較好的教科書,我當年自己入門的時候我是讀一本《從神經元到腦》,當然還有很多其他的教科書。讀的時候你會碰到很多名詞,你可能不太清楚,現在網上資源這么多,可以很容易的幫助你查。另一方面,有一些不懂的東西你先擱在那兒,看影響不影響你理解全局,然后先把可以理解的東西理解了。另外,一些計算神經科學的教科書里面大部分是數學語言,同時又介紹一些神經科學的基礎以及模擬的方法,這是另一個比較好的途徑。但我知道的書都比較偏深偏細,不知道吳思有沒有更好的建議。

吳思:最好能進到一個課題組,多聽報告,參與做具體的課題,這樣才更有效。如果光看書,剛開始堅持一個月還可以,你能堅持一年嗎?而且你學的東西得不到應用,你可能很沮喪,你可能就放棄了。所以找一個合作課題是最佳的。

山世光:我一直在建議未來論壇青創(chuàng)聯盟我們搞一個獎學金,能夠鼓勵一些信息科學或者腦科學的人互相進入對方,然后給他們提供支持,當然這也很難。

畢國強:這是非常好的辦法。我原來在的匹茲堡大學和CMU有一個聯合的CNBC Program,就是試圖把實驗神經生物學和計算神經科學和計算機科學實驗室都聯合到一起,學生拿到CNBC的獎學金,如果他屬于計算實驗室的他需要到一個生物實驗室去做一個學期或者更長時間,反過來也是一樣。當然對每個人,我還是要強調每個人的效果不同,最終還是要看個人的堅持,你有多強烈的興趣和你想花多大的力氣。

剛才我提到花雙倍的力氣,很多人就有雙倍的力氣,這些人可能就適合做這件事情。

山世光:而且雙倍的力氣可能只是在開始。

唐華錦:確實建議很好,要放在一個具體團隊或者項目里去做,一個是提升你的成就感,也不會學了一年之后感到很沮喪。中科院這一點做的很好,你們的“腦中心”甚至強制要求人工智能和神經科學蹲點。還有浙大,“雙腦”中心也是強調人工智能和神經科學在一塊兒在一個團隊,至少你要找兩個這樣的導師,然后去做這方面的工作,效果會很好。

吳思:計算神經科學的教材,網上有“cosya”(音)課程很好。我看觀眾提問中已經提到這一點。

畢彥超:跨學科交叉非常有趣,我建議一定要有一個自己的Base,某個方面要學透學的特別好才有能力去交叉學科去深入,要不特別容易飄在表面上。

山世光:從點到線再到面,不能上來就到面。

第十四、樹突需要Synapse一樣來訓練嗎?像突觸一樣來訓練嗎?

吳華強:這個問題非常好,我自己感覺從實物上來講,它樹突也是被訓練過的,這個應該需要。但是我們現在的工作還沒有做到那一步,怎么做還得琢磨琢磨。這個問題提的非常好,從思路和算法上都可以思考這個問題。

第十五、腦科學領域對常識的研究,有哪些資料可以推薦?

畢彥超:看我們組的文章。我們剛剛有一篇文章要在Neural出來,是一個特別簡單,但我自己很喜歡的工作,就是第一次有直接的證據,通過看盲人顏色的知識,在人身上發(fā)現有兩種不同的知識表征。馬上就出來,我推薦給大家。

山世光:請教各位專家人腦中是否存在誤差反向傳播?

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2020-05-07
如何把存儲器做到CPU里?我們向大腦找答案
如何把存儲器做到CPU里?我們向大腦找答案

長按掃碼 閱讀全文