科技云報到原創(chuàng)。
從古代的算盤到如今的超級計算機,人類計算能力的承載形式在不斷演化。
隨著以ChatGPT為代表的生成式AI席卷全球,大模型已經(jīng)成為推動技術(shù)創(chuàng)新的關(guān)鍵驅(qū)動力。無論是自然語言處理中的GPT系列、BERT等預(yù)訓(xùn)練模型,還是計算機視覺領(lǐng)域的ViT和SWIN Transformer,這些模型的參數(shù)量往往以數(shù)十億甚至數(shù)萬億計,對計算資源的需求呈指數(shù)級增長。
面對如此巨大的算力需求,企業(yè)如何在平衡算力與能耗開支的前提下,高效地利用和管理算力資源,是實現(xiàn)降本增效的重要命題。這其中,對算力基礎(chǔ)設(shè)施和軟件平臺的精細化運營管理成為破題的關(guān)鍵。
全球AI持續(xù)井噴 大模型與智算共振
超大基礎(chǔ)模型的訓(xùn)練需要多項關(guān)鍵技術(shù)作為支撐,其中算力、算法和數(shù)據(jù)被喻為驅(qū)動人工智能向前的“三駕馬車”。
自生成式人工智能服務(wù)(AIGC)和GPT大模型訓(xùn)練爆火后,圍繞算力、算法和數(shù)據(jù)相關(guān)的討論此起彼伏,國產(chǎn)大模型應(yīng)用更是呈現(xiàn)出“千模大戰(zhàn)”的狀態(tài)。
眾所周知,大模型是一項“燒錢”的業(yè)務(wù),而“燒錢”的最主要原因由于大模型的計算復(fù)雜度很高,每次訓(xùn)練都需要使用大量的算力來進行計算和推理。
根據(jù)阿伯丁大學(xué)、MIT等機構(gòu)的研究者對算力需求的研究發(fā)現(xiàn),在2010年之前訓(xùn)練所需的算力增長符合摩爾定律,大約每20個月翻一番。自2010年初深度學(xué)習(xí)問世以來,訓(xùn)練所需的算力快速增長,大約每6個月翻一番。2015年末,隨著大規(guī)模機器學(xué)習(xí)模型的出現(xiàn),訓(xùn)練算力的需求提高了10到100倍,出現(xiàn)了一種新的趨勢。
根據(jù)OpenAI公開數(shù)據(jù)推測,如果按照每秒1000萬億次的計算,每次模型訓(xùn)練需3640天的計算能力,且全球AI訓(xùn)練所用的計算量,平均每3.43個月便會翻一番,算力需求的指數(shù)級增長曲線將更加陡峭。
大模型對算力的需求是顯而易見的,但更關(guān)鍵的點可能在于能否把算力更高效地挖掘出來。在不同的階段,企業(yè)對于算力需求也不盡相同。在訓(xùn)練階段,企業(yè)對算力的追求可能是“大”,這一方面能夠做出更大的模型,另一方面也能夠進行更快速的迭代。但到用戶開始接受這個效果的時候,就要涉及到怎樣做才能更劃算的問題,也就是說在部署階段,可能要更關(guān)注“精”的問題,盡可能用相對少的算力實現(xiàn)最大程度的作用。
與算力需求一路高歌猛進形成鮮明對比的是,當(dāng)前在算力使用上仍面臨許多挑戰(zhàn),存在著利用率低、混合算力協(xié)同調(diào)度難等問題。《中國算力發(fā)展觀察報告》顯示,有些算力中心整體算力利用率不足30%,大量的算力資源在沉睡中等待被喚醒,算力供需矛盾凸顯。
在此背景下,如何汲取硬件資源提供的每一滴能力、加速模型的訓(xùn)練速度成為行業(yè)首要考慮的問題。為此,智能算力作為新型算力服務(wù)模式的重要性愈加突顯,其不僅可以實現(xiàn)算力資源的最優(yōu)利用,還能夠靈活地適應(yīng)不同業(yè)務(wù)場景的需求,提高整體效率。
當(dāng)前,人工智能技術(shù)在多模態(tài)感知、決策規(guī)劃、自主控制等多個特定領(lǐng)域突破,向更開放的通用場景加速融合,以創(chuàng)造能在復(fù)雜、多元開放環(huán)境中不斷重構(gòu)的超級智能算力場景。這種演進使智能算力變得不可或缺,且不再局限于簡單的算力疊加或升級,而是在多元重構(gòu)驅(qū)動下實現(xiàn)算力的極致拓展與躍遷。
智能算力作為新型基礎(chǔ)設(shè)施,已是萬千行業(yè)智能化變革的核心驅(qū)動力,智算服務(wù)由此也將成為重要的IT基礎(chǔ)服務(wù),將重塑整個IT基礎(chǔ)設(shè)施領(lǐng)域的市場格局。根據(jù)IDC預(yù)測,中國智算服務(wù)市場2023-2028年復(fù)合增長率達56.2%,這反映出中國智算服務(wù)市場的巨大潛力。
智算服務(wù)市場未來增長潛力一方面在于智能算力供給提升背景下,智算中心加碼建設(shè),基于其配套的智算服務(wù)也將迎來發(fā)展基礎(chǔ)。另一方面,生成式AI正從單模態(tài)向多模態(tài)升級、從訓(xùn)練向推理落地、從通用向垂直行業(yè)滲透,智算服務(wù)需求尤其是生成式AI IaaS的服務(wù)需求也將不斷高增。
2024年出現(xiàn)一個明顯的轉(zhuǎn)折,隨著國內(nèi)互聯(lián)網(wǎng)大廠在算力基礎(chǔ)設(shè)方面資本支出的不斷增加,云時代的數(shù)據(jù)中心已經(jīng)基本消化完畢,或者無法滿足現(xiàn)有的智能算力要求,而新購買的大量智能算力設(shè)備又需要放到擁有更大規(guī)模綠色電力供應(yīng)和更大規(guī)模機柜的智算中心里,這也在很大程度上刺激了2024年以來國內(nèi)智算中心的建設(shè)熱潮。
據(jù)IDC圈不完全統(tǒng)計,截至2024年11月20日,中國智算中心項目已經(jīng)達到634個,大規(guī)模集群數(shù)量也不斷增加。
2025年,大模型將繼續(xù)向生產(chǎn)場景深度滲透。在這一過程中,大模型尤其是垂類大模型應(yīng)用的發(fā)展,對智算中心提出了更高要求,精細化、綠色化是智算算力高質(zhì)量發(fā)展的必然方向,投建邏輯將進入服務(wù)為主的2.0時代。
全棧智算新引擎 軟硬協(xié)同一站式按需服務(wù)
如果將大模型的運行環(huán)境比喻成一幢房屋,那么這幢房屋的居住品質(zhì)直接關(guān)系到大模型的運行效率。
談到居住品質(zhì),必然涉及到其中的裝修質(zhì)量。通常,裝修分為三步:基裝、硬裝、軟裝。
“基裝”就像蓋房子打地基一樣,是裝修的第一步,包括了房屋結(jié)構(gòu)的改造、水電改造、墻面處理等,讓房子“骨骼”更結(jié)實,為后續(xù)的裝修打下堅實基礎(chǔ)。
“硬裝”是基裝之上的進一步施工,涉及到房屋的固定裝飾,比如地板、墻面磚、天花板、櫥柜等,決定了房屋的風(fēng)格,是裝修中的中堅力量。
“軟裝”是裝修中的點睛之筆,包括了家具、窗簾、床品、裝飾品等物品,展現(xiàn)房屋的品味。
總體來說,基裝要牢固,硬裝要風(fēng)格統(tǒng)一,軟裝要個性鮮明,切換到智算領(lǐng)域亦是如此。
在2024世界互聯(lián)網(wǎng)大會期間,寧暢在業(yè)內(nèi)首次創(chuàng)新性地提出了“精裝算力”概念,并引發(fā)媒體和行業(yè)的熱議解讀。所謂“精裝算力”,就是依托寧暢定制化與全棧全液能力,以算力棧為交付形態(tài),從用戶需求與體驗出發(fā),提供全體系軟硬協(xié)同的精細化算力服務(wù)。
這一概念的提出,也讓寧暢成為了“智算領(lǐng)域裝修公司”,通過提供從基裝、硬裝到軟裝的一站式全棧智算服務(wù),滿足不同行業(yè)客戶對算力服務(wù)的需求,加速業(yè)務(wù)效率。
從概念來看,“定制化”和“全棧全液”可以視為寧暢的兩大“基裝”能力基石。定制化方面,寧暢圍繞用戶實際應(yīng)用場景和算力需要,可以為用戶定制對應(yīng)各種算力需求的解決方案,方案完整覆蓋用戶交付、部署、應(yīng)用、運維體驗和業(yè)務(wù)需求,本身就涵蓋了硬件、軟件平臺搭建、算法模型優(yōu)化、應(yīng)用場景定制等內(nèi)容,最終實現(xiàn)算力資源不浪費、使用成本更節(jié)省。
在大模型復(fù)雜的訓(xùn)練過程中,軟硬件的全盤適配至關(guān)重要,寧暢的“全棧全液”AI基礎(chǔ)設(shè)施解決方案便是基于這一思路打造。寧暢將場景、業(yè)務(wù)、中臺再到硬件資源的能力進行全面整合,全面滿足大模型對于計算、網(wǎng)絡(luò)、存儲等全面需求。作為業(yè)內(nèi)少數(shù)能夠?qū)崿F(xiàn)“全棧全液”的智算基礎(chǔ)設(shè)施方案,該方案不僅涵蓋了從底層硬件到上層軟件的全方位支持,還通過全液冷技術(shù)的應(yīng)用,幫助智算中心實現(xiàn)高效與綠色并行。
基于堅實的底座能力,寧暢為客戶提供符合需求的“硬裝”和“軟裝”智算服務(wù)。從“硬裝”層面,算力、存儲、網(wǎng)絡(luò)這類基礎(chǔ)設(shè)施要標(biāo)準(zhǔn)規(guī)范、布局合理、節(jié)能低碳,做到對硬件設(shè)施的管理省時省錢。
一直以來,硬件都是寧暢擅長并且專業(yè)的部分,產(chǎn)品體系覆蓋云邊端全場景,涵蓋通用、人工智能、高密度、存儲、整機柜等多種類型服務(wù)器,及AI工作站等邊端產(chǎn)品,可實現(xiàn)多種交付形態(tài)靈活組合。為兼顧綠色低碳,寧暢依托液冷領(lǐng)域的諸多首創(chuàng)性先進技術(shù),提供全時全域液冷方案,不論是液冷服務(wù)器,還是液冷基礎(chǔ)設(shè)施產(chǎn)品應(yīng)有俱有,可以完全滿足不同業(yè)務(wù)場景的算力建設(shè)需求。
在服務(wù)器方面,寧暢突破性實現(xiàn)標(biāo)準(zhǔn)化、可移植、大解耦全冷板液冷服務(wù)器技術(shù),冷板形式覆蓋CPU、內(nèi)存、硬盤、GPU、各種形態(tài)PCIe設(shè)備以及PSU等服務(wù)器內(nèi)全部散熱單元,實現(xiàn)了無風(fēng)扇形態(tài)的原生全液冷服務(wù)器。
在智算中心方面,寧暢提供了液冷、風(fēng)冷或風(fēng)液混冷等多種定制化建設(shè)方案,可以根據(jù)實際需求,靈活選擇最適合的散熱方式,從而有效控制能耗。同時,還確保了芯片在長時間高負載運行下的性能穩(wěn)定輸出,為大模型的訓(xùn)練和推理提供了堅實的支撐。
在“軟裝”層面,寧暢提供從集群、算子再到模型軟件優(yōu)化的全局服務(wù)和涵蓋算存網(wǎng)管用全體系優(yōu)化。也就是說從算力集群環(huán)境搭建,到AI開發(fā)算力調(diào)度,再到集群運維和算力運營,都有相對應(yīng)的軟件提供支持。
NEX AIOM和NexData可將分散的硬件整合為統(tǒng)一的算力和存儲資源池;AI Manager人工智能平臺能夠幫助用戶實現(xiàn)AI開發(fā)的全鏈路業(yè)務(wù)覆蓋;NVIDIA AI Enterprise平臺可加速數(shù)據(jù)科學(xué)工作流,加速生成式AI的部署和應(yīng)用,大幅度降低用戶AI開發(fā)門檻;運維方面有NCenter智能運維工具集,實現(xiàn)全生命周期的運維管理。此外,針對大型企業(yè)級用戶,SIMS算力互聯(lián)云平臺還可助力實現(xiàn)本地資源與云端資源的融合調(diào)度及統(tǒng)一管理,協(xié)助客戶高效構(gòu)建更適合自己的算力平臺,讓大模型的運行管理更加省心省力省時省錢,從而讓客戶更關(guān)注于應(yīng)用層面的落地。
“精裝算力”概念的提出,不僅從服務(wù)模式上縮短了企業(yè)與智算之間的路徑,還幫助企業(yè)最大限度降本增效,實現(xiàn)了從效率到經(jīng)濟性的精益管理。
比如在液冷領(lǐng)域,寧暢原生全液冷技術(shù),不僅液冷成本可控、運維方式與風(fēng)冷無異,數(shù)據(jù)中心運行PUE值更可低至1.09,遠低于業(yè)內(nèi)風(fēng)液混合形態(tài)冷板式服務(wù)器平均水平,致力于實現(xiàn)數(shù)據(jù)中心能效極致、最大限度釋放冷空調(diào)電力加速算力提升。
在“增效”方面,以某三甲醫(yī)院為例,在引入寧暢算力棧后,該醫(yī)院的醫(yī)學(xué)影像處理與分析的速度和精度得到顯著提升,醫(yī)學(xué)影像處理速度相較于之前提升688%,效率提升7倍,幫助醫(yī)生更快地識別病變區(qū)域,提高了診斷效率。
在科研領(lǐng)域,某大學(xué)在寧暢算力棧助力下,不僅在物理模擬和氣象預(yù)報中顯著提高了運算速度,還在藥物分子模擬研究中大幅縮短了計算時間,寧暢算力棧支持復(fù)雜的深度學(xué)習(xí)模型訓(xùn)練,加快了自然語言處理、圖像識別等領(lǐng)域的研究進度,將計算時間最高節(jié)省了82%,科研工作效率提升20%,直接推動了科研成果的快速轉(zhuǎn)化。
可以預(yù)見的是,隨著人工智能技術(shù)的不斷創(chuàng)新,算力應(yīng)用場景的日益豐富,企業(yè)對高質(zhì)量算力需求將會持續(xù)激增,靠不計成本、堆算卡、堆規(guī)模就期望能做好算力服務(wù)的日子已經(jīng)一去不復(fù)返了。而寧暢的“精裝算力”概念不僅是對智算服務(wù)的一次大膽創(chuàng)新,更是為企業(yè)適應(yīng)未來智算時代發(fā)展的一次積極探索。
面對未來行業(yè)發(fā)展的諸多不確定性因素,寧暢這類創(chuàng)新型的AI基礎(chǔ)設(shè)施服務(wù)商為大模型的持續(xù)發(fā)展提供確定性的技術(shù)支撐,讓企業(yè)能夠從容應(yīng)對時刻變化的市場行情,不斷穿越一個又一個市場周期。
【關(guān)于科技云報到】
企業(yè)級IT領(lǐng)域Top10新媒體。聚焦云計算、人工智能、大模型、網(wǎng)絡(luò)安全、大數(shù)據(jù)、區(qū)塊鏈等企業(yè)級科技領(lǐng)域。原創(chuàng)文章和視頻獲工信部權(quán)威認可,是世界人工智能大會、數(shù)博會、國家網(wǎng)安周、可信云大會與全球云計算等大型活動的官方指定傳播媒體之一。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。