人工智能的戰(zhàn)場,是算法之爭、數(shù)據(jù)之爭,更是算力之爭。AI燒熱的,不只是一個個街談巷議的話題,更是一顆顆大模型須臾不可離的GPU。
算力焦慮,猶如人工智能頭頂?shù)囊欢錇踉?。吹散這朵烏云,能僅憑傳統(tǒng)芯片不斷升級的力量嗎?也許,我們應該換個思路,轉(zhuǎn)而向我們自己的大腦學習……
要論能效,還看大腦
1946年,世界上第一臺電腦誕生。1973年,世界上第一臺手機接通。經(jīng)過半個多世紀的發(fā)展,今天的電腦手機已經(jīng)成為人們追求智能生活不可或缺的基礎設施。只不過,若論能效——算力與所需能量消耗之比,它們與人腦相比還是略遜一籌。
不妨用數(shù)字說話。訓練一款ChatGPT,需要燒掉多少算力?如Open AI所透露的,ChatGPT背后有一個龐大的計算網(wǎng)絡——Azure AI超算平臺。這個微軟專門建設的高性能網(wǎng)絡集群包含1萬顆GPU,為ChatGPT付出的總算力消耗超過3640 PF-days(以每秒計算1000萬億次計,持續(xù)計算3640天)。
而人類大腦在25瓦的極低能耗下,就能實現(xiàn)復雜環(huán)境中的關聯(lián)記憶、快速識別、自主學習。這是為什么呢?
人類大腦活動是精密而連續(xù)的動力學過程,復雜程度遠超當前算力資源模擬的上限。大腦約有1000億個神經(jīng)元,100萬億個突觸,突觸連接的平均長度約10-1000微米。以記憶為例,就與突觸形態(tài)與功能的長期變化有關。
清華大學集成電路學院長聘副教授高濱舉了一個例子:生理學先驅(qū)巴甫洛夫每天在狗吃飯前敲響鈴聲,再給它食物。經(jīng)過一段時間,狗只要聽到鈴聲,第一反應就是分泌唾液。這是因為狗的大腦已經(jīng)在搖鈴鐺和吃東西之間建起連接,微觀層面而言,就是兩個神經(jīng)元之間的突觸連接變強,記憶由是產(chǎn)生,在此基礎上,完成一次自適應學習。
小小芯片,模擬大腦
與人類大腦不同,迄今計算機的計算體系結構采取馮·諾依曼架構,計算與存儲分離。數(shù)據(jù)在處理器和存儲器之間不停地來回傳輸,約80%至90%的功耗都消耗在“搬運”中。
“每運算一次,就相當于把貯藏在遙遠倉庫(存儲器)中的原材料(數(shù)據(jù))運輸?shù)较嗑嗌踹h的加工廠(處理器),而且運輸?shù)牡缆泛苁仟M窄。這就導致實際生產(chǎn)效率非常低下,生產(chǎn)能力受到了運輸能力的限制——這個局限就是‘存儲墻’。運算量越大,這個瓶頸就越顯著?!备邽I說,馮·諾依曼架構在進行大規(guī)模的矩陣運算時,局限更為明顯。
試想一下,人類大腦在思考時會有計算和存儲的分別嗎?左半球計算、右半球存儲?“不是的。大腦的計算、存儲發(fā)生在同一處,無需把數(shù)據(jù)搬來搬去?!敝袊茖W院微電子研究所研究員尚大山說。
讓我們重新回到人腦的工作原理。神經(jīng)元接收來自其他神經(jīng)元的信號,達到一定閾值時,即會向其他神經(jīng)元發(fā)送信號。突觸則負責信號傳遞,而且會依據(jù)信號的強度調(diào)整傳遞的強度(突觸權重)。這個看似簡單無奇的過程,卻是身為“萬物靈長”的人類智慧得以承傳的前提,學習與記憶發(fā)生的基礎。
簡潔、高效而靈活,這樣的計算方式讓芯片科學家感慨演化的神奇之余,也不禁設想:何不設計一種可以模擬人腦的芯片?
一種新型電路元件——憶阻器,使這一設想有了實現(xiàn)的可能。
尚大山將憶阻器比作一條流動的河流:“河流的寬度(電阻值)可以根據(jù)流過的水量(電荷)而變化。如果流過更多的水,河床可能會變寬,使后續(xù)的水流更容易通過(電阻減?。<词顾魍V梗〝嚯姡?,河流的寬度(憶阻器的電阻狀態(tài))也不會變化,直到有新的水流來改變它?!?/p>
為何說憶阻器能夠模擬大腦?高濱說,憶阻器的奇妙特性,就在于可以通過外加電壓的調(diào)制來改變其電阻值,這樣,憶阻器器件就可理解為一個“電子突觸”,突觸權重用憶阻器電阻值來模擬。憶阻器陣列就可模擬人腦神經(jīng)元的突觸連接;神經(jīng)元的功能,則可以搭建具體的功能電路模擬。當前人工智能的核心算法——深度神經(jīng)網(wǎng)絡,就轉(zhuǎn)化為了憶阻器陣列的模擬計算。
簡單說,憶阻器存算一體芯片是存儲器中實現(xiàn)計算?!斑@相當于將加工廠放到了倉庫邊上,做到了本地加工生產(chǎn),把交通運輸過程中的時間、能源耗費降到最低。”高濱說。
超越“摩爾”,有待時日
衡量信息技術進步速度的摩爾定律,大家也許都耳熟能詳。不過,在一顆芯片上已可集成800億個晶體管的今天,這一“定律”還能適用多久,業(yè)界不無憂心。為芯片革新尋求增加晶體管數(shù)量之外的可能,在追求更高性能的同時盡量滿足低功耗、低延遲、低成本,成為當務之急。
打破“存儲墻”的存算一體模式,成為超越摩爾定律的潛在方向。而憶阻器,某種程度上就是存算一體的未來。
清華大學研究人員在實驗室進行憶阻器電學特性實驗
“憶阻器存算一體芯片最大的優(yōu)勢在于能效高,有望比馮·諾依曼架構提升2至3個數(shù)量級,是彌補工藝制程代差的可選路徑?!敝袊苿友芯吭何锫?lián)網(wǎng)研究所副所長牛亞文說,近期清華大學聯(lián)合中國移動研發(fā)的110納米憶阻器存算一體芯片已經(jīng)達到馮·諾依曼架構28納米GPU的能效。
訪問密集型任務尤其是這種新型芯片的用武之地。人臉識別、圖像識別、語義分割、大數(shù)據(jù)檢索……種種人工智能時代的尋常場景,都可讓憶阻器高密度和非揮發(fā)性存儲的特性一展長才。
當然,當前憶阻器存算一體芯片仍存在集成規(guī)模受限、推理精度誤差大、軟件生態(tài)構建難等問題,將硬件、軟件、系統(tǒng)、算法、庫以及終端應用一體化整合,還有很長一段路要走。有專家提醒,憶阻器芯片一個有待突破的局限在于其耐久性。傳統(tǒng)存儲芯片依恃的晶體管靠控制電子的移動來存儲數(shù)據(jù),而憶阻器控制的是離子的移動。離子較電子更重,時間一長,靈活性、耐久性不免打了折扣。
芯片研發(fā)是需要在產(chǎn)業(yè)化中不斷淬厲的事業(yè)。從科學到工程,從實驗室到生產(chǎn)線,憶阻器芯片可以期待的明天,還在業(yè)界不斷嘗試的努力之中。
半月談記者:張漫子
原標題:《緩解算力焦慮,向“大腦”要答案》