人工智能的快速發(fā)展帶來了前所未有的算力需求,而數(shù)據(jù)中心作為算力基礎(chǔ)設(shè)施,也面臨著全新的挑戰(zhàn)。如何打造更加高效、更加韌性、更高適用性與更可持續(xù)的智算基礎(chǔ)設(shè)施,是當(dāng)前數(shù)據(jù)中心行業(yè)面臨的一個重要課題。
近日,施耐德電氣全球數(shù)據(jù)中心科研中心總監(jiān)、愛迪生專家林密在行業(yè)會議上針對人工智能的市場規(guī)模、屬性、發(fā)展趨勢、對數(shù)據(jù)中心基礎(chǔ)設(shè)施的影響以及應(yīng)對策略等方面,闡述了施耐德電氣對此的探索和思考。
智算引領(lǐng)算力產(chǎn)業(yè)變革
進入2023年,以ChatGPT為代表的人工智能大模型應(yīng)用層出不窮,越來越多的企業(yè)和個人開始關(guān)注并使用大模型工具。智算中心作為面向人工智能的算力基礎(chǔ)設(shè)施,也成為了數(shù)據(jù)中心產(chǎn)業(yè)投資建設(shè)的熱點。
一般來說,人工智能算力主要可以分為“訓(xùn)練”和“推理”兩種,它們有著不同的特點和需求。“訓(xùn)練”是通過使用大量的結(jié)構(gòu)化數(shù)據(jù)來訓(xùn)練一個模型,該過程需要依賴高性能的智能芯片(比如GPU),以追求訓(xùn)練時間和成本的優(yōu)化,但對時延和彈性的要求不高。“推理”則是用訓(xùn)練好的模型來處理新的數(shù)據(jù),比如語音識別、圖像分析、智能工廠、無人駕駛等,相比訓(xùn)練的需求,推理的算力密度較小,但由于直接面向應(yīng)用場景,對時延和彈性的要求非常高。
在介紹人工智能的市場規(guī)模和分布時,林密表示,人工智能的訓(xùn)練負載和推理負載因其不同特性,對智算中心也有不同的需求。訓(xùn)練主要是在大型、超大型的集中式數(shù)據(jù)中心進行,推理則需要部署在貼近用戶側(cè)的數(shù)據(jù)中心和邊緣數(shù)據(jù)中心。
根據(jù)施耐德電氣的研究和推演數(shù)據(jù)顯示,當(dāng)前人工智能的負載占整個數(shù)據(jù)中心負載的8%,其中邊緣的 AI 負載占比為5%。預(yù)計到2028年,人工智能的負載將占整個數(shù)據(jù)中心負載的15%到20%,同時,隨著更多人工智能應(yīng)用的普及,更多的算力也會更多地部署在分散的邊緣數(shù)據(jù)中心,邊緣數(shù)據(jù)中心的 AI 負載在智算負載中的占比將增長至50%。
此外,人工智能的算法也在不斷迭代。以ChatGPT為例,從 GPT-3 到 GPT-4,參數(shù)數(shù)量、訓(xùn)練時間、能耗等都增加了至少一個數(shù)量級,對算力的需求也更加龐大。
數(shù)據(jù)中心基礎(chǔ)設(shè)施面臨的挑戰(zhàn)
人工智能算力需求對數(shù)據(jù)中心的挑戰(zhàn)是全方位的,智算中心是為滿足人工智能算力需求而誕生的新型數(shù)據(jù)中心,需要考量智算的特性來建設(shè)。林密以供配電和制冷兩個方面為例,仔細分析了人工智能算力需求的特點和對智算中心建設(shè)的影響。
從供配電角度看,因為人工智能服務(wù)器往往需要部署高密度GPU等智能芯片,其功耗和散熱需求都遠超普通服務(wù)器。林密通過數(shù)據(jù)進行了對比:傳統(tǒng)機柜的運作功率一般只有 5 千瓦到 8 千瓦,而一個人工智能機柜的功率密度可以達到 30 千瓦到 100 千瓦,且在使用期間往往是100%滿負載運行。
因此,智算中心對供配電的規(guī)格、可靠性和安全性要求越來越高。這就需要智算中心配備更大規(guī)格的配電柜和母線,比如800A的母線,以滿足400千瓦到500千瓦的IT負載。同時,也需要使用更大容量的rPDU,比如100A、125A的rPDU,來給機柜供電。
此外,比如電流強度的增加也造成了弧閃危險的增加,智算中心需要做好短路分析,選擇更可靠的設(shè)備,防止斷路器脫扣造成下游的斷電和停機等,相比傳統(tǒng)數(shù)據(jù)中心需要注意的細節(jié)也更多。
制冷方面,林密表示,風(fēng)冷已經(jīng)很難滿足人工智能機柜的制冷需求,而液冷雖然可以提供更高的制冷效率,但當(dāng)前也面臨著產(chǎn)業(yè)標準化、漏液風(fēng)險、流量分配、管道潔凈度、溫度控制、運維復(fù)雜度等方面的難題。
他建議,如果機柜功率密度超過 20 千瓦,就應(yīng)該采用液冷,可以是冷板式液冷或浸沒式液冷。同時,要盡量采用標準化液冷系統(tǒng)的設(shè)計,比如冷板、分集液器、CDU、快接等,以提高兼容性和可靠性。另外,通過引入一些創(chuàng)新的技術(shù),比如LPS負壓系統(tǒng),可以降低漏液風(fēng)險。
同時,液冷的應(yīng)用,以及高密度的硬件配置,會導(dǎo)致IT設(shè)備的體積和重量增加。這就對機柜的尺寸和承重能力提出了更高的要求。因此,林密建議,人工智能機柜設(shè)計的寬度至少達到 750 毫米,深度至少達到 1200 毫米,高度要保持在 48U 以上,靜載承重能力則要在 1800 公斤以上,才可以承載、容納智算服務(wù)器和液冷系統(tǒng)。
智算時代更需要可持續(xù)發(fā)展
“施耐德電氣從覆蓋樓宇、IT和配電領(lǐng)域的智能化硬件、從設(shè)計、建設(shè)到運維的全生命周期數(shù)字化軟件和咨詢服務(wù)三個維度,全方位幫助客戶實現(xiàn)可持續(xù)發(fā)展。”林密表示,隨著算力需求的增長和越來越多的智算中心建設(shè),算力基礎(chǔ)設(shè)施的能耗和碳排放也在不斷增加,施耐德電氣依托前瞻創(chuàng)新技術(shù)與豐富實踐經(jīng)驗可以全方位幫助客戶應(yīng)對挑戰(zhàn)。
在硬件方面,施耐德電氣可以為智算中心提供了綠色高效的數(shù)字化產(chǎn)品,包括供配電設(shè)備、液冷系統(tǒng)等,并根據(jù)人工智能負載的特點和挑戰(zhàn),為客戶提供策略和建議,從機柜、供配電、制冷等方面幫助客戶打造可持續(xù)發(fā)展的智算中心基礎(chǔ)設(shè)施。
同時,以全生命周期可持續(xù)發(fā)展為核心,施耐德電氣推出了一系列的指標和工具,用于衡量數(shù)據(jù)中心對環(huán)境的影響,包括能源消耗、可再生能源的利用、水資源的利用、溫室氣體排放、廢棄物產(chǎn)生與處理以及對當(dāng)?shù)厣鷳B(tài)環(huán)境影響的維度,并且圍繞可視化碳足跡來源,針對性地提出優(yōu)化策略。
施耐德電氣還可以為客戶提供咨詢服務(wù),賦能客戶從戰(zhàn)略層面規(guī)劃和優(yōu)化數(shù)據(jù)中心的可持續(xù)發(fā)展,包括綠電的采購、電池的回收等方面,幫助客戶降低數(shù)據(jù)中心對環(huán)境的負面影響。
“根據(jù)Guidehouse Insights的最新排名,施耐德電氣目前已經(jīng)成為全球最大的綠電(PPA)解決方案提供商。”林密表示。
此外,作為當(dāng)之無愧的數(shù)據(jù)中心行業(yè)思想領(lǐng)袖,施耐德電氣一直致力將對數(shù)據(jù)中心行業(yè)的前沿技術(shù)、發(fā)展趨勢以及最佳實踐的研究成果分享給行業(yè)伙伴。比如兩年前發(fā)布的面向數(shù)據(jù)中心可持續(xù)發(fā)展的第67號白皮書《用于衡量數(shù)據(jù)中心環(huán)境可持續(xù)性指標的指南》,以及最新發(fā)布的面向人工智能的第110號白皮書《人工智能帶來的顛覆:數(shù)據(jù)中心設(shè)計的挑戰(zhàn)及相關(guān)指南》等,都受到了行業(yè)的廣泛重視和采納。
人工智能是時代前進的強大驅(qū)動力之一,也將為數(shù)據(jù)中心行業(yè)帶來重大變革。“施耐德電氣一直在關(guān)注人工智能需求的發(fā)展,并通過不斷地研究和創(chuàng)新,持續(xù)為智算中心的可持續(xù)發(fā)展提供解決方案。” 林密表示。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )