原標(biāo)題:容器引擎CCE支持昆侖XPU,加速AI計(jì)算的落地與發(fā)展
近日,百度智能云容器引擎CCE正式上線支持構(gòu)建昆侖XPU集群,為百度自研昆侖芯片的高性能AI計(jì)算簡(jiǎn)化運(yùn)維、降本增效,快速實(shí)現(xiàn)場(chǎng)景落地與行業(yè)賦能。
CCE助力昆侖AI算力高速運(yùn)轉(zhuǎn)
當(dāng)下,人工智能已成為各行各業(yè)的熱點(diǎn)和趨勢(shì),市場(chǎng)對(duì)AI算力的需求也迎來(lái)了爆發(fā)式的增長(zhǎng)。
為此,百度智能云于去年底正式推出百度昆侖云服務(wù)器,基于百度自主研發(fā)的中國(guó)首款云端全功能AI芯片“昆侖”,以及百度智能云成熟的虛擬化技術(shù),在云服務(wù)器BCC產(chǎn)品中對(duì)昆侖AI加速芯片進(jìn)行深入的適配和兼容。
依托于昆侖芯片高性能、低成本、通用靈活的特點(diǎn),百度昆侖云服務(wù)器在云服務(wù)器本身具有的安全可靠、高性價(jià)比、彈性靈活的優(yōu)勢(shì)上,實(shí)現(xiàn)了更快、更強(qiáng)、更易用、更通用。
(詳情走傳送門:百度昆侖云服務(wù)器正式上線要提供中國(guó)最好的AI算力服務(wù))
隨著容器技術(shù)的快速發(fā)展和云原生的日益普及,企業(yè)和開(kāi)發(fā)者在追求更快更強(qiáng)的AI算力的同時(shí),也在不斷追求各類AI計(jì)算場(chǎng)景下高可用、免運(yùn)維、低成本、高效率的極致體驗(yàn)。容器技術(shù)以其獨(dú)特的優(yōu)勢(shì),已經(jīng)成為業(yè)界主流AI計(jì)算框架的核心引擎。
百度智能云容器引擎(Cloud Container Engine,以下簡(jiǎn)稱CCE)就是在這樣的背景下推出的,其采用Kubernetes作為容器集群管理系統(tǒng),依托于百度智能云BCC、BLB等技術(shù)提供的穩(wěn)定基礎(chǔ)架構(gòu),借助主流的Kubernetes開(kāi)源工具,能夠向客戶提供彈性、高可用、高效便捷的Container as a Services,助力系統(tǒng)架構(gòu)微服務(wù)化、DevOps高效運(yùn)維、AI應(yīng)用深度學(xué)習(xí)容器化等業(yè)務(wù)場(chǎng)景。
隨著昆侖云服務(wù)器上線,CCE基于Kubernetes支持對(duì)昆侖XPU資源集群的管理和調(diào)度,能最大化昆侖AI加速芯片算力的使用效率,進(jìn)一步提高底層計(jì)算能力。
CCE如何支持昆侖降本增效?
CCE對(duì)昆侖性能的提升毋庸置疑,具體是如何做到的呢?
Kubernetes作為新一代的AI開(kāi)發(fā)基礎(chǔ),一直在不斷提高對(duì)GPU等硬件加速設(shè)備進(jìn)行統(tǒng)一管理和調(diào)度的能力,主要通過(guò)Kubernetes支持的extended-resource特性和device-plugin的通用設(shè)備插件機(jī)制,以Daemonset方式部署,完成對(duì)新資源的注冊(cè)、調(diào)度和分配。
extended-resource是一種自定義擴(kuò)展資源的方式。擴(kuò)展資源類似于CPU和內(nèi)存資源,一個(gè)節(jié)點(diǎn)可具有一定數(shù)量的擴(kuò)展資源,供該節(jié)點(diǎn)上的容器使用,開(kāi)發(fā)人員可創(chuàng)建請(qǐng)求一定數(shù)量該資源的pod。擴(kuò)展資源的名稱和總量(必須指定為整數(shù))需上報(bào)給api server,scheduler則根據(jù)該資源pod的創(chuàng)建和刪除計(jì)算資源可用量,進(jìn)而在調(diào)度時(shí)刻判斷是否有滿足資源條件的節(jié)點(diǎn)。
device-plugin是用于提供通用設(shè)備插件機(jī)制和標(biāo)準(zhǔn)的設(shè)備API接口,設(shè)備廠商只需要實(shí)現(xiàn)相應(yīng)的API接口,即可在不更改Kubernetes主干代碼的情況下,向Kubernetes提供GPU、FPGA、高性能 NIC、InfiniBand等各種資源的統(tǒng)計(jì)信息和使用預(yù)備工作。使用該特性需要通過(guò)feature gate打開(kāi), 即配置:
--feature-gates=DevicePlugins=true
CCE支持昆侖的實(shí)現(xiàn)流程
CCE能在哪些場(chǎng)景下支持昆侖?
CCE作為一款成熟的容器引擎產(chǎn)品,能在包括深度學(xué)習(xí)模型訓(xùn)練、高密度高性能計(jì)算、簡(jiǎn)化訓(xùn)練環(huán)境的搭建運(yùn)維、簡(jiǎn)化AI應(yīng)用的邊緣化部署等多場(chǎng)景下支持昆侖。
深度學(xué)習(xí)模型訓(xùn)練:CCE已支持在Kubernetes集群基礎(chǔ)上一鍵集成百度開(kāi)源PaddlePaddle深度學(xué)習(xí)框架,客戶以百度昆侖云服務(wù)器為計(jì)算資源、以CCE服務(wù)為集群管理工具、以PaddlePaddle為深度學(xué)習(xí)框架,能夠很好地解決AI開(kāi)發(fā)中的兩大核心難題:利用Kubernetes解決大規(guī)模計(jì)算資源的管理和調(diào)度難題,屏蔽底層基礎(chǔ)設(shè)施的差異性;利用PaddlePaddle框架解決復(fù)雜算法研發(fā)和訓(xùn)練的難題,打造開(kāi)發(fā)、訓(xùn)練、預(yù)測(cè)全套方案。
高密度高性能計(jì)算:很多AI場(chǎng)景下,客戶需要快速、多次計(jì)算進(jìn)行迭代。CCE通過(guò)優(yōu)化k8s容器調(diào)度引擎,能夠?yàn)槿萜髦械腁I計(jì)算任務(wù)分配更細(xì)粒度的昆侖XPU資源,實(shí)現(xiàn)多個(gè)AI計(jì)算任務(wù)共享昆侖XPU資源,大幅提升資源利用率、降低AI計(jì)算成本。同時(shí),CCE提供秒級(jí)計(jì)費(fèi)、按需付費(fèi),大大降低了客戶進(jìn)行AI計(jì)算的成本。
簡(jiǎn)化訓(xùn)練環(huán)境的搭建運(yùn)維:自主搭建深度學(xué)習(xí)訓(xùn)練環(huán)境,需要準(zhǔn)備資源、安裝軟件驅(qū)動(dòng)等,并需要花很大精力保證開(kāi)發(fā)、測(cè)試、生產(chǎn)環(huán)境的一致性。通過(guò)CCE構(gòu)建昆侖XPU集群,在保證計(jì)算性能的同時(shí),還能利用容器的標(biāo)準(zhǔn)化封裝能力極大降低安裝部署的復(fù)雜度,利用容器的隔離性實(shí)現(xiàn)多訓(xùn)練框架的并行和獨(dú)立升級(jí)。通過(guò)降低研發(fā)運(yùn)維的難度和復(fù)雜度,客戶可以更專注于AI訓(xùn)練。
簡(jiǎn)化AI應(yīng)用的邊緣化部署:隨著5G、IoT技術(shù)的快速發(fā)展,AI應(yīng)用部署的本地化、邊緣化也逐漸成為解決很多行業(yè)問(wèn)題的關(guān)鍵。容器化是一種用于應(yīng)用程序部署的行業(yè)標(biāo)準(zhǔn)化設(shè)計(jì)模式,借助于Kubernetes提供的統(tǒng)一部署平臺(tái),其可以跨邊緣、數(shù)據(jù)中心、云和混合環(huán)境部署。 通過(guò)CCE實(shí)現(xiàn)AI應(yīng)用的容器化,并運(yùn)行于昆侖XPU集群上,可以簡(jiǎn)化AI應(yīng)用邊緣化部署工作。
超強(qiáng)、極速的算力及其使用過(guò)程的高效率、低成本、易用易獲取,是AI產(chǎn)業(yè)發(fā)展的關(guān)鍵。
作為百度AI生態(tài)中的一環(huán),CCE遠(yuǎn)遠(yuǎn)不止是一個(gè)容器集群管理工具,而是致力于為客戶解決從底層架構(gòu)到AI開(kāi)發(fā)中的各項(xiàng)難題,最大程度降低客戶使用的門檻和成本,為客戶提供一個(gè)高度自由的AI開(kāi)發(fā)環(huán)境,從而將百度強(qiáng)大的AI能力賦予到客戶的實(shí)際應(yīng)用中,加速AI計(jì)算的落地與發(fā)展。
- 世間將再無(wú)松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來(lái)藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。