訓(xùn)練ResNet-50模型速度超NVIDIA DGX A100 Graphcore的IPU還有哪些隱藏實(shí)力?

12月21日消息, 近期,AI基準(zhǔn)測(cè)試MLPerf公布了最新一期的訓(xùn)練測(cè)試榜單,成為行業(yè)內(nèi)關(guān)注的焦點(diǎn)。

IPU提供商Graphcore此次向MLPerf提交了IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256四種系統(tǒng)配置進(jìn)行訓(xùn)練測(cè)試,并獲得最新測(cè)試結(jié)果。在ResNet-50模型、自然語(yǔ)言處理(NLP)模型BERT的訓(xùn)練性能方面均有大幅提升。ResNet-50模型訓(xùn)練性能甚至超越NVIDIA DGX A100。

Graphcore專注于適用AI的IPU研發(fā),旗下?lián)碛蠭PU硬件和Poplar軟件兩項(xiàng)主要業(yè)務(wù),通過(guò)輸出“軟硬一體解決方案”來(lái)服務(wù)機(jī)器智能需求。企查查信息顯示,Graphcore自2016年成立以來(lái)已獲得超過(guò)7.1億美元投資。

和自己比:ResNet-50模型訓(xùn)練性能提升24% BERT模型訓(xùn)練性能提升5%

Graphcore提交給MLPerf的IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256系統(tǒng)均由不同數(shù)量的IPU-M2000、雙CPU服務(wù)器構(gòu)成。

IPU-POD16就是由4個(gè)1U的IPU-M2000構(gòu)成,配有一臺(tái)雙CPU服務(wù)器,可提供4 petaFLOPS的AI算力。

其中,IPU-M2000是一款即插即用的機(jī)器智能刀片式計(jì)算單元,由Graphcore的7納米Colossus第二代GC200 IPU提供動(dòng)力,并由Poplar軟件棧提供支持。

今年7月,Graphcore曾首次向MLPerf提交了IPU-POD16、IPU-POD64的訓(xùn)練測(cè)試。這次Graphcore同樣有提交IPU-POD16、IPU-POD64進(jìn)行測(cè)試,這兩項(xiàng)在硬件方面并未有變化。

最新測(cè)試結(jié)果顯示,與首次提交的MLPerf訓(xùn)練結(jié)果相比,對(duì)于ResNet-50模型,Graphcore這次在IPU-POD16上實(shí)現(xiàn)24%的性能提升,在IPU-POD64上實(shí)現(xiàn)了41%的性能提升;對(duì)于模型BERT來(lái)說(shuō),在IPU-POD16上實(shí)現(xiàn)了5%的性能提升,在IPU-POD64上實(shí)現(xiàn)了12%的性能提升。

Graphcore大中華區(qū)總裁兼全球首席營(yíng)收官盧濤表示,這些性能提升是自Graphcore首次提交以來(lái)僅通過(guò)軟件優(yōu)化就實(shí)現(xiàn)的。MLPerf測(cè)試結(jié)果表明Graphcore的IPU系統(tǒng)更加強(qiáng)大、高效,軟件也更成熟。

Graphcore大中華區(qū)總裁兼全球首席營(yíng)收官盧濤

和同行比:ResNet-50模型訓(xùn)練 IPU-POD16性能超NVIDIA DGX A100

最新的MLPerf測(cè)試結(jié)果還對(duì)比了Graphcore與NVIDIA的產(chǎn)品性能。

通常而言,ResNet-50模型主要用于計(jì)算機(jī)視覺(jué)領(lǐng)域,NVIDIA GPU在ResNet-50模型上的測(cè)試結(jié)果長(zhǎng)期處于領(lǐng)先地位。

不過(guò),最新的MLPerf測(cè)試結(jié)果顯示Graphcore的IPU-POD16在ResNet-50模型訓(xùn)練方面的表現(xiàn)優(yōu)于NVIDIA的DGX A100。在DGX A100上訓(xùn)練ResNet-50需要29.1分鐘,而IPU-POD16僅耗時(shí)28.3分鐘。

DGX A100是NVIDIA去年5月發(fā)布的旗艦產(chǎn)品,DGX A100使用兩顆AMD霄龍7742處理器,主打適用于所有AI工作負(fù)載。

對(duì)于Graphcore產(chǎn)品在ResNet-50模型測(cè)試上取得的成績(jī),盧濤表示:“ResNet是一個(gè)2016年的模型,已經(jīng)在GPU上優(yōu)化了5年。我們通過(guò)兩次的MLPerf測(cè)試,就能夠在這個(gè)GPU最主流的模型上超過(guò)GPU,這是非常自豪的一件事。而且我們后面還有進(jìn)一步的提升空間。”

值得注意的是,Graphcore這一次MLPerf測(cè)試跟上一次相比最大的不同是首次提交了IPU-POD128和IPU-POD256大規(guī)模系統(tǒng)集群的測(cè)試。IPU-POD128和IPU-POD256也取得了很好的成績(jī)。

從ResNet-50模型在不同機(jī)器集群上的訓(xùn)練性能來(lái)看,在IPU-POD16上的訓(xùn)練時(shí)間是28.33分鐘,隨著系統(tǒng)的增大,訓(xùn)練時(shí)間逐次遞減。在IPU-POD64上,只需要8.5分鐘;在IPU-POD128上訓(xùn)練的時(shí)間為5.67分鐘;在IPU-POD256上,為3.79分鐘。

對(duì)于NLP模型BERT,Graphcore在開(kāi)放和封閉類別分別提交了IPU-POD16、IPU-POD64和IPU-POD128的結(jié)果,在新的IPU-POD128上的訓(xùn)練時(shí)間為5.78分鐘。

談及此次Graphcore提交系統(tǒng)測(cè)試性能整體都有提升的原因,盧濤向TechWeb表示,這一次提交了大規(guī)模集群,其背后是GCL(Graphcore Communication Library)通信庫(kù)的基本完備,能夠支撐搭建集群,這是Graphcore在產(chǎn)品和技術(shù)上邁進(jìn)的重要一步。同時(shí)在產(chǎn)品細(xì)節(jié)上Graphcore團(tuán)隊(duì)也做了很多優(yōu)化,如編譯器優(yōu)化、框架層面優(yōu)化、算法模型優(yōu)化、還有IPU跟CPU之間的通信優(yōu)化等等。

盧濤介紹,在MLPerf原始數(shù)據(jù)中,每家制造商系統(tǒng)相關(guān)的主機(jī)CPU數(shù)量都十分驚人,而Graphcore的主機(jī)CPU與IPU的比率始終是最低的。以BERT-Large模型為例,IPU-POD64只需要一個(gè)雙CPU的主機(jī)服務(wù)器。ResNet-50需要更多的主機(jī)處理器來(lái)支持圖像預(yù)處理,Graphcore為每個(gè)IPU-POD64指定了四個(gè)雙核服務(wù)器。1比8的比例仍然低于其他所有MLPerf參與者。能實(shí)現(xiàn)主機(jī)CPU與IPU的低比率是因?yàn)镚raphcore的IPU僅使用主機(jī)服務(wù)器進(jìn)行數(shù)據(jù)移動(dòng),無(wú)需主機(jī)服務(wù)器在運(yùn)行時(shí)分派代碼。因此,IPU系統(tǒng)需要的主機(jī)服務(wù)器更少,從而實(shí)現(xiàn)了更靈活、更高效的橫向擴(kuò)展系統(tǒng)。

在GPT2、ViT、EfficientNet等新模型上表現(xiàn)如何?

如果說(shuō)ResNet-50、BERT等都是到2019年為止比較主流的模型。那么,近2年陸續(xù)涌現(xiàn)的GPT2、EfficientNet、ViT等新模型也越來(lái)越受到行業(yè)關(guān)注,比如,在AI領(lǐng)域,ViT已經(jīng)成為學(xué)界和工業(yè)界用Transformer來(lái)做計(jì)算機(jī)視覺(jué)的一個(gè)比較典型的算法模型。

盡管沒(méi)有在MLPerf中測(cè)試,Graphcore中國(guó)工程總負(fù)責(zé)人、AI算法科學(xué)家金琛展示了Graphcore產(chǎn)品在GPT2、EfficientNet、ViT等新模型中表現(xiàn)。

以EfficientNet-B4為例,在IPU-POD16上的訓(xùn)練需要20.7個(gè)小時(shí),IPU-POD256則只需要1.8個(gè)小時(shí),性能遠(yuǎn)優(yōu)于DGX A100官方提供的數(shù)據(jù)。

Graphcore中國(guó)工程總負(fù)責(zé)人、AI算法科學(xué)家金琛

據(jù)介紹,目前Graphcore產(chǎn)品已經(jīng)在金融、保險(xiǎn)、天氣預(yù)測(cè)、科學(xué)計(jì)算等領(lǐng)域落地,盧濤稱,在金融領(lǐng)域案例中,IPU能夠比GPU快10倍。在保險(xiǎn)算法模型方面的案例中,IPU的應(yīng)用比GPU快5倍。天氣預(yù)測(cè)方面,在歐洲中期天氣預(yù)報(bào)中心的模型上,IPU比CPU快50倍、比GPU快5倍。

近期,國(guó)內(nèi)百度深度學(xué)習(xí)平臺(tái)飛槳發(fā)布了在Graphcore IPU上實(shí)現(xiàn)訓(xùn)練和推理全流程支持的開(kāi)源代碼庫(kù),百度飛槳的開(kāi)發(fā)者可以在IPU上進(jìn)行AI模型加速。國(guó)內(nèi)的開(kāi)發(fā)者小伙伴們不妨試試看IPU的加速效果。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2021-12-21
訓(xùn)練ResNet-50模型速度超NVIDIA DGX A100 Graphcore的IPU還有哪些隱藏實(shí)力?
12月21日消息, 近期,AI基準(zhǔn)測(cè)試MLPerf公布了最新一期的訓(xùn)練測(cè)試榜單,成為行業(yè)內(nèi)關(guān)注的焦點(diǎn)。IPU提供商Graphcore此次向MLPerf提交了IPU-...

長(zhǎng)按掃碼 閱讀全文