Al生成與大模型,作為當今人工智能領域炙手可熱的話題,為相關產(chǎn)業(yè)鏈帶來新的機遇和挑戰(zhàn)。在 2023 世界人工智能大會上,UCloud優(yōu)刻得分享了“中立安全云計算助力大模型發(fā)展”的技術產(chǎn)品、工程能力和生態(tài)建設等諸多能力,特別提到私有化是垂直大模型未來的發(fā)展方向。
面向政府、金融、教育、制造、基金等行業(yè)客戶及大模型企業(yè)的大模型私有化交付場景,優(yōu)UCloud刻得推出國內第一款私有化大模型一體機,內置UCloud優(yōu)刻得自主研發(fā)的全棧私有云平臺,結合行業(yè)垂直大模型一體化交付給客戶,用戶可在企業(yè)內部一鍵部署大模型應用,安全便捷的提供AI訓練和推理等服務。
私有化大模型一體機,構建安全可靠的AI底座
隨著垂直行業(yè)大模型應用場景的豐富,企業(yè)為用戶提供大模型應用時,需要將大模型私有化部署,以保障大模型和數(shù)據(jù)隱私及安全合規(guī)性,同時與業(yè)務對接共同提供特定的AI場景服務。在此模式下,如何配置適合的計算、存儲、網(wǎng)絡及管理資源,以滿足私有化大模型訓練/推理任務的需求和安全要求,是私有化AI算力底座優(yōu)先要解決的問題。
為實現(xiàn)大模型私有化交付,UCloud優(yōu)刻得大模型一體機,基于一云多芯且自主可控的UCloudStack全棧私有云平臺,提供虛擬化、存儲、網(wǎng)絡及MaaS模型的私有化一體交付方案,支持Alpaca-LoRA、ChatGLM、T5、MiniGPT-4、Stable Diffusion、LLaMA2及Milvus向量數(shù)據(jù)庫等開源模型的部署及算力調度,用戶可在本地或自有數(shù)據(jù)中心內,輕松部署針對特定場景的大模型服務。
UCloud AIGC私有化方案架構
優(yōu)刻得私有化大模型一體機具備以下幾大優(yōu)勢:
1. 私有化算力中心 訓練推理專區(qū)建設
基于“東數(shù)西算”兩大自建數(shù)據(jù)中心——內蒙古烏蘭察布和上海青浦數(shù)據(jù)中心,UCloud優(yōu)刻得大模型一體機為大模型訓練和應用提供低成本、高附加值的私有化算力服務。自建數(shù)據(jù)中心內,提供多款GPU大模型一體機算力資源,分別建設靈活可擴展的AI訓練和推理專區(qū)。
訓練區(qū)主要以A800/H800及未來更高性能GPU一體機進行集群建設,單集群規(guī)模最大可達2048卡規(guī)模,可將GPU卡直接透傳至訓練算力實例,并通過高帶寬、低延遲的高性能網(wǎng)絡設計和高性能并行存儲系統(tǒng),打造互聯(lián)的高性能計算集群,實現(xiàn)多節(jié)點間無損通信,滿足用戶多節(jié)點并行計算,提升整體訓練效率。
推理區(qū)主要以通用GPU卡一體機進行建設,如T4/V100/V100S/A800,結合私有云的智能調度、彈性伸縮及資源編排進行推理業(yè)務覆蓋。同時基于運行環(huán)境一鍵打包和算力調度技術,實現(xiàn)訓練推理無縫切換和自助管理,并通過全面多維度安全保障體系,保障大模型和數(shù)據(jù)的安全。
2. 開箱即用一鍵部署 訓練推理無縫切換
UCloud優(yōu)刻得大模型一體機,統(tǒng)一底層CPU、GPU、存儲及網(wǎng)絡資源,結合大模型與業(yè)務數(shù)據(jù),為上層大模型預訓練或推理應用,提供靈活可靠的虛擬化、GPU計算、容器調度、安全隔離網(wǎng)絡、統(tǒng)一分布式存儲及數(shù)據(jù)庫緩存等云基礎設施,實現(xiàn)快速部署、簡化管理,助力AI應用高效交付穩(wěn)定運行。
集成通用AI和大模型的GPU標準鏡像和模板,快速打包算力基礎運行環(huán)境并實現(xiàn)一鍵部署,支持運行環(huán)境模板的一鍵拉起,結合調度管理和分布式存儲系統(tǒng),使得GPU算力環(huán)境,通過標準S3或NFS協(xié)議從存儲系統(tǒng)中拉取并加載大模型到內存中,進行預訓練或推理計算任務。
同時,在計算資源調度層面提供K8S容器調度服務,無縫對接云原生架構的資源調度和作業(yè)任務管理系統(tǒng),用于模型切換、訓練任務、推理任務的作業(yè)管理。基于運行環(huán)境一鍵打包和算力調度技術,使得一體機既可作為訓練的算力運行環(huán)境,又可在訓練結束后,無縫切換至推理業(yè)務部署模式,確?;A設施成本可控且安全。
3. 分布式存儲平臺 加速AI模型訓練
大模型訓練時,基礎設施需要提供高速讀寫能力、可擴展且可兼容POSIX的共享存儲系統(tǒng),以滿足大規(guī)模數(shù)據(jù)集的訓練需求。UCloud優(yōu)刻得大模型一體機基于UCloudStor統(tǒng)一分布式存儲,統(tǒng)一對外提供文件和對象存儲,可為訓練框架提供POSIX和K8S-CSI接口,便于算力調度接入,并結合冷熱數(shù)據(jù)分離的存儲形態(tài),提升數(shù)據(jù)讀寫性能、加速AI模型訓練,滿足千卡規(guī)模訓練需求。
UCloud優(yōu)刻得大模型訓練存儲架構設計
大模型一體機訓練集群底層依賴UCloudStor分布式對象存儲,用于存儲最終的數(shù)據(jù)。同時每個GPU算力實例上放置本地緩存,包括元數(shù)據(jù)和數(shù)據(jù)緩存。熱數(shù)據(jù)和元數(shù)據(jù)存儲在GPU計算實例掛載的高性能SSD/NVME云盤內,冷數(shù)據(jù)使用分布式存儲的對象存儲。
在大模型訓練數(shù)據(jù)訪問時,每個GPU計算實例均有多級緩存,第一級是基于內存的緩存,第二級是基于實例內SSD/NVME云盤,只有實例云盤緩存沒有命中時,才會訪問第三級對象存儲。熱數(shù)據(jù)緩存在GPU實例緩存磁盤上,通過預取可最大化發(fā)揮算力性能,達到加速數(shù)據(jù)I/O的效果。
4. 高性能計算網(wǎng)絡 高效率模型訓練
私有化大模型訓練場景下,需基礎設施提供高帶寬和低延遲的網(wǎng)絡連接,以支持大規(guī)模數(shù)據(jù)傳輸和分布式訓練。UCloud優(yōu)刻得大模型一體機基于RDMA RoCE網(wǎng)絡模型,構建單計算實例1.6T ETH RDMA網(wǎng)絡,為私有化大模型訓練和調試提供高性能計算網(wǎng)絡,提升GPU利用率,降低通信時延,提高大模型訓練效率。
UCloud優(yōu)刻得大模型訓練高性能計算網(wǎng)絡
大模型一體機可分別搭配8張GPU卡和200G RDMA網(wǎng)卡,平臺采用直通模式將GPU和網(wǎng)卡直接透傳給GPU計算實例,結合高性能RDMA RoCE無損物理網(wǎng)絡架構,支持自動化網(wǎng)絡隔離和配置,實現(xiàn)單實例1.6T帶寬計算網(wǎng)絡高性能接入,大幅提升GPU利用率并降低通信時延,為大模型訓練跨節(jié)點通信提供強力支撐。
在高可用保障上,通過一體機智能調度和分布式存儲機制,為GPU計算實例、云業(yè)務網(wǎng)絡及存儲的可用性和可靠性提供保障,云化業(yè)務網(wǎng)絡與模型計算網(wǎng)絡自適應通信;并通過實時的全棧監(jiān)控和一鍵巡檢監(jiān)控大模型業(yè)務系統(tǒng),實現(xiàn)性能實時監(jiān)控故障告警,保障大規(guī)模業(yè)務部署和運行效率。
5. 大模型信創(chuàng)一體機 自主可控安全可靠
UCloud優(yōu)刻得私有化大模型一體機,支持“一云多芯”,兼容x86和國產(chǎn)化信創(chuàng)服務器,從芯片到應用全面適配信創(chuàng)體系,可支持x86、ARM及GPU 等異構算力統(tǒng)一管理和調度,保證大模型和信息數(shù)據(jù)安全,滿足金融、政府、運營商及更多傳統(tǒng)企業(yè)的國產(chǎn)化需求。平臺還對信創(chuàng)生態(tài)的CPU、服務器及操作系統(tǒng)進行全面適配,形成信創(chuàng)一體機交付模式,使大模型可以和國產(chǎn)CPU相兼容并進行統(tǒng)一調度管理。
在GPU計算方面,平臺通過GPU直通模式將GPU資源池化,使國產(chǎn)GPU和AI加速卡無縫透傳給算力虛擬機實例,使得一鍵部署的大模型算力環(huán)境可兼容所有GPU和AI加速卡,搭配高性能存儲有效提升計算處理效率,為上層大模型的訓練和推理應用提供全信創(chuàng)體系的云化基礎設施。
此外,大模型一體機基于UCloud優(yōu)刻得公有云,歷經(jīng) 10 年大規(guī)模磨煉和驗證,保證平臺底層的穩(wěn)定性;平臺代碼自研率達96%以上,為業(yè)界領先水平,自主可控、安全可靠。
6. 全面多維度的安全保障體系
一體機私有云平臺提供全面的安全保障體系,從網(wǎng)絡、賬號、資源、審計、監(jiān)控等多維度保障平臺大模型和數(shù)據(jù)安全,并可結合信息安全等級保護三級保證業(yè)務的安全性。
●一體機通過安全隔離VPC網(wǎng)絡保障大模型業(yè)務的網(wǎng)絡隔離性,VPC內默認內網(wǎng)不通,租戶內和租戶間不同VPC網(wǎng)絡默認不通,同時結合安全組提供計算存儲等服務東西和南北向流量安全訪問控制。
●通過多租戶隔離,提供資源隔離和精細化權限控制,不同租戶之間資源完全隔離,互不影響。在物理資源層面,支持對大模型運行的計算存儲物理資源進行權限控制,用于將部分物理資源獨享給一個或部分用戶使用,從物理層面保證資源隔離和安全性。
●在數(shù)據(jù)存儲方面,提供存儲加密及在線芯片加密特性,保護大模型和數(shù)據(jù)不被未經(jīng)授權的訪問者獲取,甚至在磁盤丟失或被盜的情況下也可保證數(shù)據(jù)的機密性,實現(xiàn)私有化大模型在企業(yè)內部的安全性。
●此外,一體機私有云平臺擁有全面的日志審計和事件管理能力,具備安全分析、資源變更追蹤及合規(guī)性審計的功能。通過統(tǒng)一監(jiān)控告警服務,實現(xiàn)大模型一體機全線產(chǎn)品的運維監(jiān)控及告警服務,全方位保障業(yè)務的可靠性和安全性。
7. 開箱即用的私有MaaS服務
UCloud優(yōu)刻得基于私有化大模型一體機提供MaaS服務,從大模型訓練推理的多樣化場景出發(fā),為客戶推薦機型提供預裝部分工具的鏡像,支持各種開源大模型,可覆蓋知識推理、問答、圖文生成、中文語義及繪畫設計等 AI 應用領域,為用戶快速搭建大模型的微調或推理環(huán)境。
值得一提的是,UCloud優(yōu)刻得一體機私有云平臺還具備業(yè)務無感故障自愈的特性,算力資源將優(yōu)先選擇低負荷節(jié)點進行虛擬資源部署,并提供打散部署、在線遷移、離線遷移及宕機遷移等能力,整體保證客戶私有MaaS服務的可靠性和可用性。
另一方面,UCloud優(yōu)刻得大模型一體可提供負載均衡、數(shù)據(jù)庫及緩存服務,為大模型應用的計算調度、管理服務、API接口及AI應用提供接入負載均衡的能力,保證應用服務的高可用和負載分發(fā);同時為模型服務應用提供可自動化運維的MySQL及 Redis 服務,讓用戶專注業(yè)務創(chuàng)新。
AIGC繪畫大模型,私有化實踐應用
AIGC繪畫服務PICPIK.AI是UCloud優(yōu)刻得私有化一體機的實踐應用。PICPIK.AI提供了一種全新的方式,允許用戶利用“AI繪畫垂直模型”的能力進行AI藝術創(chuàng)作,提供AI WEB端和PhotoShop插件,賦予設計師無與倫比的創(chuàng)造力和精確性,創(chuàng)作出令人驚艷的視覺杰作。
UCloud優(yōu)刻得大模型一體機打包了GPU服務器、磁盤及通用網(wǎng)絡設備,為AI繪畫大模型提供IaaS層虛擬化、GPU虛擬機、服務鏡像、塊存儲及安全隔離網(wǎng)絡,可快速部署并運行資源調度、進行作業(yè)任務管理、AI繪畫計算服務、AI繪畫管理及接口服務。通過負載均衡服務實現(xiàn)管理服務接口高可用、負載分發(fā),保證繪畫業(yè)務的可用性。
AIGC繪畫服務私有化架構
平臺還提供對象存儲和文件存儲服務,為AI繪畫大模型提供統(tǒng)一存儲平臺,兼容標準S3和NFS 接口,可與傳統(tǒng)應用和新型應用無縫對接。同時可將AI 繪畫模型和業(yè)務服務生成的圖片進行數(shù)據(jù)存儲,并提供統(tǒng)一入口實現(xiàn)WEB服務,可在PhotoShop直接進行圖片下載。
在網(wǎng)絡部署和隔離方面,可通過一體機提供的VPC隔離網(wǎng)絡結合安全組進行部署和規(guī)劃,從而保證網(wǎng)絡訪問隔離性和安全性。
AI繪畫大模型在私有云平臺的網(wǎng)絡部署模式
●UCloud優(yōu)刻得大模型一體機均部署至客戶托管或自建的數(shù)據(jù)中心,內置私有云平臺,管理權限交付至模型提供方。
●通過云平臺虛擬機服務,將繪畫GPU算力服務、模型對象存儲服務、管理調度服務均部署于獨立VPC隔離網(wǎng)絡內的不同子網(wǎng)。
●算力、存儲及管理調度服務實例均在VPC內網(wǎng)通信,并通過內網(wǎng)安全組進行網(wǎng)絡訪問控制和隔離。
●管理調度服務中算法API服務對外通過彈性外網(wǎng)IP對客戶網(wǎng)絡開放算法服務API。
●外網(wǎng) IP網(wǎng)絡和客戶內網(wǎng)在同一個網(wǎng)絡面,AI繪畫 WEB 客戶端和 PS 插件可直接通過 網(wǎng)絡訪問API服務,并可通過外網(wǎng)安全組進行網(wǎng)絡訪問控制和隔離。
●AI繪畫計算服務推理出的圖片,通過VPC網(wǎng)絡將圖片存儲于對象存儲或文件存儲中,客戶端可直接通過平臺提供的外網(wǎng)IP下載對象存儲中的圖片。
云計算是通過云端提供海量算力和安全保障,而私有云是將算力和安全保障私有化交付到客戶的數(shù)據(jù)中心,并提供資源智能調度、業(yè)務高可靠高可用等機制,結合全面統(tǒng)一的云管理服務,為大模型業(yè)務私有化降本增效。
作為中立安全的云計算廠商,UCloud優(yōu)刻得也成為了大模型入口處的鋪路人。本次推出的UCloud優(yōu)刻得私有化大模型一體機,可同時為多種垂直大模型業(yè)務提供業(yè)務云化部署和資源調度服務,并可結合UCloudStor統(tǒng)一分布式存儲和USDP智能大數(shù)據(jù)平臺為大模型推理和預訓練業(yè)務,提供數(shù)據(jù)湖存儲及流批一體數(shù)倉構建解決方案,提高大模型業(yè)務私有化的交付及運維管理效率。
未來,UCloud優(yōu)刻得將全面擁抱大模型,通過自建數(shù)據(jù)中心、算力資源和工程服務能力,結合超10年云計算技術沉淀,為更多客戶及大模型公司提供算力及基礎設施服務,賦能千行百業(yè)。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )