性能提升超越摩爾定律!浪潮AI服務(wù)器再創(chuàng)MLPerf V2.0訓(xùn)練評(píng)測(cè)最佳成績(jī)

6月30日,全球權(quán)威AI基準(zhǔn)評(píng)測(cè)MLPerf™最新V2.0訓(xùn)練評(píng)測(cè)成績(jī)榜單公布。浪潮AI服務(wù)器表現(xiàn)優(yōu)異,繼兩月前在MLPerf™V2.0數(shù)據(jù)中心推理評(píng)測(cè)中斬獲全部冠軍后,本次又在MLPerf™V2.0單機(jī)訓(xùn)練性能繼續(xù)保持領(lǐng)先。

本次MLPerf™評(píng)測(cè)吸引了包括谷歌、NVIDIA、浪潮信息、百度、Intel-Habana、Graphcore等全球21家廠(chǎng)商和研究機(jī)構(gòu)參與,共有264項(xiàng)評(píng)測(cè)成績(jī)提交,是上一輪基準(zhǔn)評(píng)測(cè)的1.5倍。評(píng)測(cè)任務(wù)涵蓋了當(dāng)下主流AI場(chǎng)景,包括自然語(yǔ)言處理(BERT)、智能推薦(DLRM)、圖像分類(lèi)(ResNet)、醫(yī)學(xué)影像分割(3D U-Net)、輕量級(jí)目標(biāo)物體檢測(cè)(RetinaNet)、重量級(jí)目標(biāo)物體檢測(cè)(Mask R-CNN)、語(yǔ)音識(shí)別(RNN-T)以及強(qiáng)化學(xué)習(xí)(Minigo)8類(lèi)AI任務(wù)。

在單機(jī)訓(xùn)練評(píng)測(cè)的固定任務(wù)中,浪潮信息以高端AI服務(wù)器斬獲自然語(yǔ)言理解(BERT)、智能推薦(DLRM)、語(yǔ)音識(shí)別(RNN-T)三項(xiàng)性能成績(jī)第一,位列單機(jī)冠軍榜首。在本次配置8顆NVIDIA A100 Tensor Core GPU的主流高端AI服務(wù)器中,浪潮AI服務(wù)器斬獲5項(xiàng)任務(wù)最佳成績(jī)(BERT、DLRM、RNN-T、ResNet、MaskR-CNN)。

超越摩爾定律,持續(xù)領(lǐng)跑AI計(jì)算性能提升

MLPerfTM評(píng)測(cè)組織機(jī)構(gòu)MLCommons 執(zhí)行主任David Kanter 在此次成績(jī)發(fā)布會(huì)上表示,自首次公布評(píng)測(cè)基準(zhǔn)以來(lái),MLPerf性能提升速度遠(yuǎn)超過(guò)摩爾定律??紤]到業(yè)界對(duì)計(jì)算和AI的需求正以驚人的速度增長(zhǎng),這讓人非常振奮。

自參加MLPerf™AI性能評(píng)測(cè)以來(lái),浪潮AI服務(wù)器通過(guò)軟硬件全面優(yōu)化,持續(xù)實(shí)現(xiàn)AI性能突破。相較于2018年12月MLPerf™ 初始版本V0.5的典型配置8卡機(jī)型的性能數(shù)據(jù),浪潮AI服務(wù)器的性能顯示出大幅提升,提升比例最高達(dá)789%,2.35倍于摩爾定律增速。

浪潮AI服務(wù)器在MLPerf™基準(zhǔn)評(píng)測(cè)中的卓越表現(xiàn),得益于浪潮信息在AI計(jì)算系統(tǒng)上優(yōu)異的設(shè)計(jì)創(chuàng)新能力和全棧優(yōu)化能力。浪潮AI服務(wù)器針對(duì)AI訓(xùn)練中常見(jiàn)的密集I/O傳輸瓶頸,通過(guò)PCIe retimer-free 設(shè)計(jì)實(shí)現(xiàn)了CPU-GPU間通道免中繼高速互聯(lián),大幅降低通信延遲;并針對(duì)高負(fù)載多GPU協(xié)同任務(wù)調(diào)度,以及NUMA節(jié)點(diǎn)與GPU之間的數(shù)據(jù)傳輸性能進(jìn)行了深度優(yōu)化,確保訓(xùn)練任務(wù)中的數(shù)據(jù)I/O通路處于最高性能狀態(tài);在散熱層面,率先實(shí)現(xiàn)4U空間內(nèi)部署8顆500W的高端NVIDIA A100 TensorCoreGPU,并支持風(fēng)冷、液冷兩種散熱方式。同時(shí),在模型訓(xùn)練全流程中,浪潮AI服務(wù)器持續(xù)通過(guò)優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)處理、GPU之間高速通信、GPU核心加速等關(guān)鍵模塊,最大化提升了AI模型的訓(xùn)練性能。

大幅提升Transformer訓(xùn)練性能

當(dāng)前,基于Transformer神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型正引領(lǐng)新一代AI算法發(fā)展,并逐步從自然語(yǔ)言處理走向計(jì)算機(jī)視覺(jué)、多模態(tài)等領(lǐng)域。MLPerfTM評(píng)測(cè)任務(wù)中的BERT模型即是基于Transformer架構(gòu)的模型。Transformer簡(jiǎn)潔、可堆疊的架構(gòu)使得開(kāi)發(fā)極大參數(shù)量、基于極大數(shù)據(jù)集的預(yù)訓(xùn)練大模型成為可能,這帶來(lái)了模型算法能力的大幅提升,但同時(shí)也對(duì)AI計(jì)算系統(tǒng)的處理性能、通信互聯(lián)、I/O性能、并行擴(kuò)展、拓?fù)渎窂郊吧崮芰μ岢隽烁叩囊蟆?/p>

在本次BERT評(píng)測(cè)任務(wù)中,浪潮AI服務(wù)器通過(guò)優(yōu)化數(shù)據(jù)預(yù)處理、GPU之間密集參數(shù)通信、超參數(shù)自動(dòng)尋優(yōu)等,進(jìn)一步提升了BERT訓(xùn)練性能,在15.869分鐘內(nèi)即在Wikipedia數(shù)據(jù)集的2850176條數(shù)據(jù)上完成了3.3億參數(shù)的BERT模型訓(xùn)練,相較于V0.7版本的最佳成績(jī)49.01分鐘的性能提升達(dá)到309%。至此,浪潮AI服務(wù)器已經(jīng)連續(xù)三次獲得MLPerfTM訓(xùn)練BERT任務(wù)性能冠軍。

浪潮信息在MLPerf™ V2.0訓(xùn)練評(píng)測(cè)中取得佳績(jī)的2款A(yù)I服務(wù)器分別是NF5488A5及NF5688M6。NF5488A5是全球首批上市的NVIDIA A100 Tensor Core GPU服務(wù)器,在4U空間支持8顆由NVIDIA NVLink 互聯(lián)的NVIDIA A100 Tensor Core GPU和2顆AMD Milan CPU,同時(shí)支持液冷和風(fēng)冷散熱技術(shù),累計(jì)斬獲40項(xiàng) MLPerf™ 冠軍。NF5688M6是面向大規(guī)模數(shù)據(jù)中心優(yōu)化設(shè)計(jì)的具備極致擴(kuò)展能力的AI服務(wù)器,支持8顆第三代 NVLink 互聯(lián)的NVIDIA A100 Tensor Core GPU 和兩顆Intel Ice Lake CPU,支持多達(dá)13張PCIe Gen4 的IO擴(kuò)展能力,累計(jì)斬獲25項(xiàng) MLPerf™ 冠軍。

附:MLPerf™簡(jiǎn)介

MLPerf™ 是影響力最廣的國(guó)際AI性能基準(zhǔn)評(píng)測(cè),由圖靈獎(jiǎng)得主大衛(wèi)•帕特森(David Patterson)聯(lián)合頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立。2020年,非盈利性機(jī)器學(xué)習(xí)開(kāi)放組織MLCommons基于MLPerf™ 基準(zhǔn)測(cè)試成立,其成員包括Google、Facebook、NVIDIA、英特爾、浪潮信息、哈佛大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校等50余家全球AI領(lǐng)軍企業(yè)及頂尖學(xué)術(shù)機(jī)構(gòu),致力于推進(jìn)機(jī)器學(xué)習(xí)和人工智能標(biāo)準(zhǔn)及衡量指標(biāo)。目前,MLCommons每年組織2次MLPerf™ AI訓(xùn)練性能測(cè)試和2次MLPerf™AI推理性能測(cè)試,以便快速跟進(jìn)迅速變化的計(jì)算需求和計(jì)算性能提升,為用戶(hù)衡量設(shè)備性能提供權(quán)威有效的數(shù)據(jù)指導(dǎo)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )