原標(biāo)題:面向機器學(xué)習(xí)的HPC平臺,這個更強!
機器學(xué)習(xí)是當(dāng)下使用最廣泛的人工智能技術(shù)之一,與之相匹配的HPC平臺也愈加受到市場重視,從超算TOP100的變遷中就可見一斑。
從下圖中可以看出,2015年開始,面向數(shù)據(jù)分析和機器學(xué)習(xí)的超算平臺開始快速增長,2017年更是占比超過50%。除了傳統(tǒng)HPC的行業(yè)例如科學(xué)計算、地理信息等在構(gòu)建基于機器學(xué)習(xí)的HPC,更多行業(yè)也開始構(gòu)建基于機器學(xué)習(xí)的HPC系統(tǒng),以競爭行業(yè)AI能力的領(lǐng)先地位。
超算TOP 100 市場趨勢圖
隨著人工智能落地各行各業(yè),如何構(gòu)建面向機器學(xué)習(xí)的HPC系統(tǒng),讓AI模型的構(gòu)建過程更加簡單便利,快速實現(xiàn)AI的行業(yè)落地,助力企業(yè)快速占據(jù)行業(yè)領(lǐng)導(dǎo)者地位,商業(yè)價值極大。但需要關(guān)注的是,面向機器學(xué)習(xí)的HPC系統(tǒng)與傳統(tǒng)HPC系統(tǒng)有著很大的差異,傳統(tǒng)的HPC構(gòu)建模式并不能很好適應(yīng)機器學(xué)習(xí)需求。
為了加速機器學(xué)習(xí)的行業(yè)落地,在2019百度AI開發(fā)者大會上,百度智能云企業(yè)級AI開發(fā)平臺BML聯(lián)合ABC Storage私有云存儲產(chǎn)品發(fā)布面向機器學(xué)習(xí)的HPC解決方案。
該方案可提供高效的端到端機器學(xué)習(xí)算法算力應(yīng)用平臺和面向機器學(xué)習(xí)的高性能存儲平臺,一站式完成數(shù)據(jù)預(yù)處理、模型訓(xùn)練與評估、發(fā)布預(yù)測服務(wù)等工作,快速實現(xiàn)行業(yè)數(shù)據(jù)的AI能力生產(chǎn)落地。
面向機器學(xué)習(xí)的HPC系統(tǒng)
面向機器學(xué)習(xí)的HPC系統(tǒng)和傳統(tǒng)HPC系統(tǒng)有很大的差異,雖然從采購模式上和基礎(chǔ)算力構(gòu)建上類似,但是兩者核心完全不同,主要差異性如下: 一是算法算力。算法框架是基于機器學(xué)習(xí)和深度學(xué)習(xí)算法,算力中心更集中在GPU。 二是存儲層。機器學(xué)習(xí)大量應(yīng)用在計算機視覺領(lǐng)域,主要處理的數(shù)據(jù)是海量的圖片、影像、語音等非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)HPC方案在非結(jié)構(gòu)化數(shù)據(jù)處理上并不能適應(yīng)基于深度學(xué)習(xí)的HPC場景的需求,存儲系統(tǒng)需要滿足訓(xùn)練過程中數(shù)億甚至百億的圖片、影像的存儲和吞吐要求,性能、性能的穩(wěn)定性都有全新的技術(shù)要求。
五大特點針對超算場景
百度智能云基于深度學(xué)習(xí)的HPC方案,完全針對機器學(xué)習(xí)超算場景設(shè)計,具有高性能、高效率、易用、靈活、安全的特性:
高性能 系統(tǒng)采用全分布式架構(gòu),擁有高并發(fā)能力,支持超大規(guī)模場景。
高效率 AI訓(xùn)練是一個流程化系統(tǒng),文件在流程中搬移的時間成本非常高。通過采用ABC Storage高性能存儲軟件引擎+Optane高效元數(shù)據(jù)管理介質(zhì)+QLC SSD高性價比閃存,面向機器學(xué)習(xí)的HPC方案能覆蓋所有流程,數(shù)據(jù)一次寫入,整個生命周期不需要搬移,能持續(xù)提供高性能、高穩(wěn)定的吞吐保障。
易用 操作簡單,上手迅速,支持一站式開發(fā)部署,覆蓋了AI開發(fā)&部署的全工作流程。一個平臺就能完成發(fā)起訓(xùn)練任務(wù)、獲取訓(xùn)練模型、啟動預(yù)測服務(wù)等全流程環(huán)節(jié)。
靈活解耦 全面支持主流ML/DL框架,同時支持自定義第三方軟件庫及用戶定義集群。 安全 機器學(xué)習(xí)的數(shù)據(jù)集通過大量人力標(biāo)注,具有極高的商業(yè)價值。平臺可以提供完整的數(shù)據(jù)權(quán)限控制,保障數(shù)據(jù)使用安全。
更多能力提供,優(yōu)勢明顯
除了優(yōu)于傳統(tǒng)HPC系統(tǒng)的高性能、高穩(wěn)定、安全靈活等特點,百度智能云面向機器學(xué)習(xí)的HPC解決方案還具備更強的兼容性與可擴展能力,以及完整的生態(tài)解決方案能力,能夠面向不同特征的用戶,提供完備的解決方案,加速AI在各行業(yè)落地。
與普通的HPC系統(tǒng)相比,百度智能云面向機器學(xué)習(xí)的HPC解決方案具有以下四大明顯優(yōu)勢:
全面的功能和體驗 提供機器學(xué)習(xí)和深度學(xué)習(xí)開發(fā)能力,支持主流機器學(xué)習(xí)與深度學(xué)習(xí)框架。此外,還提供交互式(Notebook)、可視化(拖拽)、自動化三種建模體驗,讓不同研發(fā)能力的客戶都能快速實現(xiàn)模型的訓(xùn)練、評估和預(yù)測。
支持飛槳(PaddlePaddle)等主流深度學(xué)習(xí)框架 實現(xiàn)資源的精細化管理和調(diào)度,支持GPU多機多卡和GPU虛擬化,同時支持百度飛槳(PaddlePaddle)最新版本、Tensorflow最新版本,并能就其他主流深度學(xué)習(xí)框架按需靈活擴展。此外,通過內(nèi)置圖像/視頻(CV類)模型生產(chǎn)線,能夠以產(chǎn)線方式支持CV類模型的流程化、標(biāo)準(zhǔn)化、高效化開發(fā)生產(chǎn)。
開放上下層接口,集成方便 提供Open API/SDK接口,便于客戶上層應(yīng)用無縫對接,客戶的自有模型、第三方模型都能快速導(dǎo)入并服務(wù)。產(chǎn)品分層設(shè)計、接口開放,便于與客戶私有云、本地機器、大數(shù)據(jù)平臺、運維平臺等已有環(huán)境有效對接。
一體化交付服務(wù) 支持V100 GPU卡、百度自研GPU Box(Xman3.0),能夠滿足客戶多種算力需求,集成百度智能云專業(yè)且豐富的硬件供應(yīng)與交付經(jīng)驗,能力覆蓋全面,一條龍服務(wù)縮短交付周期。
存儲的挑戰(zhàn)交給ABC Storage
基于機器學(xué)習(xí)的AI能力需要大量的算力和數(shù)據(jù)樣本集,結(jié)合算法模型反復(fù)針對數(shù)據(jù)進行訓(xùn)練,才能提供商用的AI能力模型。在訓(xùn)練過程,存儲性能和穩(wěn)定性尤為關(guān)鍵。
性能方面 百度智能云針對該場景,采用Optane+QLC SSD的硬件方案,結(jié)合百度智能云私有云存儲ABC Storage的高性能對象存儲引擎,在5臺存儲集群規(guī)模下,即可滿足200臺GPU服務(wù)器針對100億小文件的并發(fā)吞吐要求。
穩(wěn)定性方面 ABC Storage采用Optane作為元數(shù)據(jù)管理存儲介質(zhì),可以保障在文件數(shù)量增長以及讀寫混合等綜合場景下,提供高性能穩(wěn)定的吞吐能力。
值得一提的是,ABC Storage支持InfiniBand網(wǎng)絡(luò),也是面向機器學(xué)習(xí)首推支持InfiniBand的全閃對象解決方案。作為HPC場景中不可或缺的高性能網(wǎng)絡(luò)系統(tǒng),能提供更低延遲和更快網(wǎng)絡(luò)故障恢復(fù)速度的InfiniBand網(wǎng)絡(luò)是HPC的重要保障。
百度智能云面向機器學(xué)習(xí)的HPC平臺,以自身優(yōu)異的性能及完整的方案解決能力,已經(jīng)為眾多領(lǐng)域的客戶帶來實際價值。隨著人工智能與各產(chǎn)業(yè)的結(jié)合向縱深發(fā)展,優(yōu)秀AI平臺的價值將日益凸顯。
未來,百度智能云基于深度學(xué)習(xí)的HPC方案將把握前沿技術(shù),不斷完善與創(chuàng)新,通過端到端的高效、開放、生態(tài)化的能力,助推更多企業(yè)和研究機構(gòu)的智能化升級。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。