ChatGPT熱潮下的冷思考:2025年AI能耗或超人類,AI計算需要提質(zhì)增效

極客網(wǎng)·極客觀察2月9日 經(jīng)過多年的開發(fā),OpenAI公司推出的DALL-E和GPT-3生成式AI系統(tǒng)風(fēng)靡全球,目前凸顯了其驚人的應(yīng)用潛力。然而,這種生成式AI爆發(fā)式增長存在一個問題:每當(dāng)DALL-E創(chuàng)建一張圖像或GPT-3預(yù)測出現(xiàn)下一個的單詞時,就需要進(jìn)行多次推斷計算,因此占用大量的資源,并耗費更多的電力。當(dāng)前的GPU和CPU架構(gòu)不能有效地運行以滿足迫在眉睫的計算需求,這為超大規(guī)模數(shù)據(jù)中心運營商帶來巨大的挑戰(zhàn)。 

【專題:ChatGPT引爆生成式AI 人工智能產(chǎn)業(yè)如何生變?

調(diào)研機構(gòu)預(yù)測,數(shù)據(jù)中心成為了全球最大的能源消費者,占總用電量的比例將從2017年的3%上升到2025年的4.5%。以中國為例,2030年全國運營的數(shù)據(jù)中心用電量預(yù)計將超過4000億度,占全國總用電量的4%。 

云計算供應(yīng)商也認(rèn)識到他們的數(shù)據(jù)中心使用了大量電力,并采取了提高效率的方法措施,例如在北極建設(shè)和運營數(shù)據(jù)中心,以利用可再生能源和自然冷卻條件。不過,這還不足以滿足AI應(yīng)用爆炸式增長的需求。

美國勞倫斯伯克利國家實驗室在研究中發(fā)現(xiàn),在過去20年,數(shù)據(jù)中心效率的提高一直在控制能耗的增長,但研究表明,現(xiàn)在的能效措施可能不足以滿足未來數(shù)據(jù)中心的需求,因此需要采用更好的方法。 

數(shù)據(jù)傳輸是致命瓶頸

效率的根源在于GPU和CPU的工作方式,特別是在運行AI推理模型與訓(xùn)練模型的時候。很多人了解“超越摩爾定律”以及在更大尺寸的芯片上封裝更多晶體管的物理限制。更先進(jìn)的芯片正在幫助解決這些挑戰(zhàn),但目前的解決方案在AI推理方面有一個關(guān)鍵弱點:在隨機訪問內(nèi)存中傳輸數(shù)據(jù)的速度顯著降低。 

傳統(tǒng)上,分離處理器和存儲芯片成本更低,多年來,處理器時鐘速度一直是計算機性能的關(guān)鍵限制因素。如今,阻礙發(fā)展的是芯片之間的互連。

美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)研究人員的Jeff Shainline解釋說:“當(dāng)內(nèi)存和處理器分離時,連接兩個域的通信鏈路就成為了系統(tǒng)的主要瓶頸?!泵绹饦鋷X國家實驗室研究人員Jack Dongarra教授簡潔地說:“當(dāng)我們審視當(dāng)今計算機的性能時,發(fā)現(xiàn)數(shù)據(jù)傳輸是致命的瓶頸?!?nbsp;

AI推理vs.AI訓(xùn)練 

與使用AI模型進(jìn)行預(yù)測相比,AI系統(tǒng)在訓(xùn)練AI模型時使用不同類型的計算。AI訓(xùn)練在一個基于Transformer的模型中加載數(shù)以萬計的圖像或文本樣本作為參考,然后開始處理。GPU中的數(shù)千個內(nèi)核非常有效地處理大量豐富的數(shù)據(jù)集,例如圖像或視頻,如果需要更快地得到結(jié)果,可以租用更多的基于云計算的GPU。 

QQ截圖20230209095413.jpg

雖然AI推理需要更少的能量來進(jìn)行計算,但在數(shù)億用戶的自動補全中,需要大量的計算和預(yù)測來決定下一個單詞是什么,這比長期的訓(xùn)練要耗費更多的能量。

比如,F(xiàn)acebook的AI系統(tǒng)每天在其數(shù)據(jù)中心觀察到數(shù)萬億次推斷,在過去三年,這一數(shù)字增加了一倍多。研究發(fā)現(xiàn),在大型語言模型(LLM)上運行語言翻譯推理所消耗的能量是初始訓(xùn)練的兩到三倍。

需求激增考驗計算效率 

ChatGPT在去年年底風(fēng)靡全球,GPT-4也更加令人印象深刻。如果能采用更節(jié)能的方法,就可以將AI推理擴展到更廣泛的設(shè)備上,并創(chuàng)造出新的計算方式。 

例如,微軟的Hybrid Loop旨在構(gòu)建動態(tài)利用云計算和邊緣設(shè)備的AI體驗,這允許開發(fā)人員在Azure云平臺、本地客戶端計算機或移動設(shè)備上運行AI推理時做出后期綁定決策,以最大限度提高效率。Facebook引入了AutoScale來幫助用戶在運行時有效地決定在哪里計算推斷。 

為提高效率,需要克服阻礙AI發(fā)展的障礙,并找到行之有效的方法。

采樣和流水線可以通過減少處理的數(shù)據(jù)量來加快深度學(xué)習(xí)。SALIENT(用于采樣、切片和數(shù)據(jù)移動)是由麻省理工學(xué)院和IBM公司的研究人員開發(fā)的用于解決關(guān)鍵瓶頸一種新方法。這種方法可以顯著地降低在包含1億個節(jié)點和10億條邊的大型數(shù)據(jù)集上運行神經(jīng)網(wǎng)絡(luò)的需求。但它也影響了準(zhǔn)確性和精確性——這對于選擇下一個要顯示的社交帖子來說是可以接受的,但如果試圖近實時地識別工地上的不安全條件則不符合要求。

蘋果、英偉達(dá)、英特爾和AMD等科技公司已經(jīng)宣布將專用AI引擎集成到處理器中,AWS甚至正在開發(fā)新的Inferentia 2處理器。但這些解決方案仍然使用傳統(tǒng)的馮·諾依曼處理器架構(gòu)、集成SRAM和外部DRAM存儲器——這些都需要更多電力來將數(shù)據(jù)移進(jìn)和移出存儲器。

內(nèi)存內(nèi)計算或成為解決之道 

此外,研究人員已經(jīng)發(fā)現(xiàn)了另一種打破“內(nèi)存墻”的方法,那就是讓計算更接近內(nèi)存。 

image001.jpg

內(nèi)存墻指的是限制數(shù)據(jù)進(jìn)出內(nèi)存速度的物理屏障,這是傳統(tǒng)架構(gòu)的一個基本限制。內(nèi)存內(nèi)計算(IMC)通過直接在內(nèi)存模塊中運行AI矩陣計算來解決這一挑戰(zhàn),避免了通過內(nèi)存總線發(fā)送數(shù)據(jù)的開銷。 

IMC適用于AI推理,因為它涉及一個相對靜態(tài)但很大的權(quán)重數(shù)據(jù)集,可以反復(fù)訪問。雖然總是需要輸入和輸出一些數(shù)據(jù),但是AI通過將數(shù)據(jù)保存在相同的物理單元中,可以有效地使用和重復(fù)用于多個計算,從而消除了大部分的能量傳輸費用和數(shù)據(jù)移動的延遲。 

這種方法提高了可擴展性,因為它可以很好地用于芯片設(shè)計。通過采用新芯片,AI推斷技術(shù)可以在開發(fā)人員的電腦上進(jìn)行測試,然后通過數(shù)據(jù)中心部署到生產(chǎn)環(huán)境。數(shù)據(jù)中心可以使用一組帶有許多芯片處理器的大型設(shè)備來有效地運行企業(yè)級AI模型。 

隨著時間的推移,預(yù)計IMC將成為AI推理用例的主導(dǎo)架構(gòu)。當(dāng)用戶處理大量的數(shù)據(jù)集和數(shù)萬億次的計算時,這是非常有意義的。因為不必浪費更多資源在內(nèi)存墻之間傳輸數(shù)據(jù),而且這種方法可以輕松擴展以滿足長期需求。 

小結(jié):

AI產(chǎn)業(yè)現(xiàn)在正處于一個令人興奮的轉(zhuǎn)折點。生成式AI、圖像識別和數(shù)據(jù)分析的技術(shù)進(jìn)步揭示了機器學(xué)習(xí)獨特的聯(lián)系和用途,但首先需要建立一個能夠滿足這一需求的技術(shù)解決方案。因為根據(jù)Gartner的預(yù)測,除非目前能提供更可持續(xù)的選擇,否則到2025年,AI消耗的能源將超過人類活動所消耗的能源。在這種情況發(fā)生之前,需要想出更好的辦法!

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-02-09
ChatGPT熱潮下的冷思考:2025年AI能耗或超人類,AI計算需要提質(zhì)增效
當(dāng)前的GPU和CPU架構(gòu)不能有效地運行以滿足迫在眉睫的計算需求,這為超大規(guī)模數(shù)據(jù)中心運營商帶來巨大的挑戰(zhàn)。

長按掃碼 閱讀全文