浪潮吳韶華:為AI設(shè)計(jì)特定的HPC解決方案

浪潮吳韶華:為AI設(shè)計(jì)特定的HPC解決方案

今年4月初,浪潮正式對(duì)外公布成立人工智能部,并推出面向AI應(yīng)用的創(chuàng)新計(jì)算平臺(tái),并表示未來(lái)浪潮將在人工智能計(jì)算的數(shù)據(jù)中心產(chǎn)品創(chuàng)新、深度學(xué)習(xí)算法框架優(yōu)化、生態(tài)系統(tǒng)建設(shè)等方向全面發(fā)力。

對(duì)于浪潮,被人們所熟知的是持續(xù)增長(zhǎng)的服務(wù)器業(yè)務(wù)。而對(duì)于那時(shí)的“不務(wù)正業(yè)”發(fā)力AI,很多人都發(fā)出了不同的聲音。對(duì)此,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))也發(fā)文,面對(duì)人工智能,傳統(tǒng)的浪潮想做什么?

三個(gè)月即將過(guò)去,正如浪潮所判斷,人工智能的火越燒越旺,AI+正已空前的速度傳徹各個(gè)行業(yè)。以BAT為代表的中國(guó)技術(shù)風(fēng)向標(biāo)企業(yè)也已全面布局,而在這段時(shí)間內(nèi),浪潮的人工智能轉(zhuǎn)型到底怎么樣?發(fā)布了哪些新技術(shù)?藉由此,雷鋒網(wǎng)關(guān)注了浪潮人工智能和高性能專家吳韶華近期在雷克大會(huì)上的的演講《Designing Specific HPC Solutions for AI》。

在本次報(bào)告中,吳韶華主要講了幾個(gè)點(diǎn):

1、人工智能市場(chǎng)趨勢(shì)利好。

2、浪潮致力于在計(jì)算硬件和深度學(xué)習(xí)領(lǐng)域做出努力。

3、海量數(shù)據(jù)及巨大計(jì)算量帶來(lái)的挑戰(zhàn)。

4、浪潮為AI特別設(shè)計(jì)了服務(wù)器。

吳韶華還表示,浪潮從AI興盛開始,就緊跟著AI領(lǐng)域里各種熱點(diǎn)做相關(guān)的工作,到現(xiàn)在為止已經(jīng)形成了很完整的一條生態(tài)鏈。

以下是吳韶華的演講全文:

大家好,我是吳韶華,在過(guò)去的幾年里,浪潮一直在致力于為人工智能設(shè)計(jì)特定的解決方案,我們?cè)谶@方面也取得了一些成績(jī)。今天在報(bào)告里,我想主要講一下,我們?cè)谟?jì)算硬件和深度學(xué)習(xí)框架里面所做出的努力。

首先,我們都知道人工智能現(xiàn)在是非常興盛的行業(yè),從權(quán)威數(shù)據(jù)可以得知,2020年的市場(chǎng)預(yù)測(cè)規(guī)模是48億,在之前的五年間,AI市場(chǎng)投資額已經(jīng)達(dá)到42億美金,所以我們非??春肁I這個(gè)行業(yè),而且市場(chǎng)趨勢(shì)也是一直利好。

接下來(lái),AI技術(shù)發(fā)展趨勢(shì)有以下幾點(diǎn)。

一、大數(shù)據(jù),獲得越來(lái)越多的數(shù)據(jù)。

如今,數(shù)據(jù)量越來(lái)越大,對(duì)于語(yǔ)音識(shí)別來(lái)講,前幾年,我們?nèi)绻苣玫揭蝗f(wàn)小時(shí)的標(biāo)注后的語(yǔ)音識(shí)別數(shù)據(jù),就會(huì)非常滿足。但是今天我們已經(jīng)拿到十萬(wàn)小時(shí),甚至更多標(biāo)注過(guò)的數(shù)據(jù),在未來(lái)我們肯定可以獲得更大量的數(shù)據(jù),數(shù)據(jù)的增加是不斷完善、向上的過(guò)程。

二、大模型,精致的模型。

這些模型有能力通過(guò)這些數(shù)據(jù)獲得精確的結(jié)果。對(duì)于模型,如果大家關(guān)注云、圖象識(shí)別、語(yǔ)音識(shí)別等技術(shù)就會(huì)知道,模型精度會(huì)越來(lái)越高、越來(lái)越深、需求也會(huì)越來(lái)越大,最后大數(shù)據(jù)大模型,兩方面疊加,對(duì)計(jì)算量的需求也會(huì)提到很高的高度。

目前,對(duì)于獲得廉價(jià)的、可標(biāo)注的數(shù)據(jù)非常困難,同時(shí)在獲得這些數(shù)據(jù)之后如何快速的進(jìn)行數(shù)據(jù)處理將變得非常棘手。比如如何在語(yǔ)音識(shí)別里汲取音頻數(shù)據(jù)的特征等等。

另外,模型的數(shù)據(jù)量會(huì)越來(lái)越大,待處理的計(jì)算量也會(huì)越來(lái)越大,這就需要我們有更為高效并行的計(jì)算方式,我們將其稱為分布式的計(jì)算方式;而這對(duì)計(jì)算平臺(tái)的要求也會(huì)更為苛刻,因此,我們需要針對(duì)此設(shè)計(jì)專門AI,應(yīng)用于特定的高性能計(jì)算平臺(tái)。

在整個(gè)AI生態(tài)里面,浪潮已經(jīng)做了很多工作,從頂層架構(gòu)到端對(duì)端的方案,今天主要講一下我們計(jì)算硬件和深度學(xué)習(xí)框架方面的工作。今年5月份,我們?cè)诠韫却髸?huì)上發(fā)布了一款產(chǎn)品,這款產(chǎn)品目前是業(yè)界為AI特別設(shè)計(jì)的密度最高服務(wù)器,它最多可以達(dá)到170個(gè)T,與傳統(tǒng)服務(wù)器不一樣的是,它可以提供多達(dá)四個(gè)高速網(wǎng)絡(luò)的支持,如果每一條網(wǎng)絡(luò),我們連接的話,可以多達(dá)四百TB的連接。

另外,基于這款服務(wù)器,我們希望數(shù)據(jù)中心對(duì)于不同的應(yīng)用要用不同的服務(wù)器硬件,因此,在這其中,我們支持各種各樣的硬件以及GPU計(jì)算設(shè)備,再者,這款服務(wù)器設(shè)計(jì)有一個(gè)特別之處,它在機(jī)器后端提供了兩個(gè)16條線的PCRE接口,這兩個(gè)接口連在一起,可以提供翻一番的計(jì)算能力。浪潮吳韶華:為AI設(shè)計(jì)特定的HPC解決方案

對(duì)于我們現(xiàn)在GPU計(jì)算設(shè)備來(lái)說(shuō),我們不可能指望一臺(tái)服務(wù)器就可以解決我們計(jì)算問(wèn)題,通常情況下會(huì)搭建一個(gè)集群,我們通過(guò)高速網(wǎng)絡(luò)來(lái)連接,在AGS2這樣的設(shè)備里面,可以提供一百到四百GB的帶寬,因?yàn)檫@款服務(wù)器面對(duì)的是數(shù)據(jù)中心,以及眾多用戶,因此我們有像這樣的四個(gè)高速網(wǎng)絡(luò)的連接,提供四倍這樣的速度。

另外,服務(wù)器在數(shù)據(jù)中心或者機(jī)房里面的時(shí)候,對(duì)環(huán)境溫度有一個(gè)要求,機(jī)器過(guò)熱會(huì)死機(jī)。對(duì)此,我們通過(guò)高效的、智能的設(shè)計(jì),讓服務(wù)器的可控溫度高達(dá)45度;同時(shí)我們也提供一種混合方式,還可以進(jìn)一步的提升效率和性能。

這個(gè)服務(wù)器內(nèi)部包含了八塊GPU,GPU里面可以用技術(shù)來(lái)做系統(tǒng)引導(dǎo),通過(guò)這種方式極大的降低數(shù)據(jù)中心的花費(fèi)。通過(guò)數(shù)據(jù)對(duì)比,我們得知這不僅僅是簡(jiǎn)單的翻倍性能,直接是2.5倍,這就是高速的連接所帶來(lái)計(jì)算性能的好處。

再者是我們的框架,針對(duì)這樣一個(gè)模型,我們通過(guò)比較發(fā)現(xiàn),最初賈俊博士開發(fā)的Caffe-MPI(雷鋒網(wǎng)注:浪潮在第31屆國(guó)際超算大會(huì)(ISC2016)上,全球首發(fā)基于最新KNL平臺(tái)的深度學(xué)習(xí)計(jì)算框架Caffe-MPI,這標(biāo)志著浪潮稱為全球第一個(gè)在英特爾最新的KNL平臺(tái)上完成Caffe并行開發(fā)的公司。)模型只能運(yùn)行在單服務(wù)器上,不支持多服務(wù)器,我們做模型訓(xùn)練,需要好幾周時(shí)間。為了解決這個(gè)需求,浪潮針對(duì)Caffe框架,設(shè)立出一套并行版的Caffe,我們可以給多個(gè)服務(wù)器提供高速的,分布式的計(jì)算方案。

我接下來(lái)講一下針對(duì)并行版的開發(fā),它做了針對(duì)性的優(yōu)化。我們知道,單個(gè)服務(wù)器內(nèi)部,GPU個(gè)數(shù)會(huì)越來(lái)越多,在這種情況下,為了得到最好的性能,我們針對(duì)這種特定的硬件架構(gòu),改變?cè)O(shè)計(jì)思路。我們GPU服務(wù)器之間的連接是通過(guò)高速網(wǎng)絡(luò)來(lái)連接的,但是GPU內(nèi)的連接是通過(guò)PCIE,PCIE目前比高速網(wǎng)絡(luò)快很多。考慮到這個(gè)特點(diǎn),我們?cè)趩蝹€(gè)服務(wù)器內(nèi)部采用這種高速的通信方式,NCCL。在服務(wù)器之間,我們通過(guò)MPR來(lái)做,同時(shí)為了更進(jìn)一步的降低服務(wù)器之間的通信頻率,我們把服務(wù)器的通信都控制在通信內(nèi)部,在服務(wù)器內(nèi)部給他降到很低的程度,這里也就是我們?nèi)绾谓档屯ㄐ诺囊环N方式。

在每個(gè)服務(wù)器內(nèi)部,我們給出四個(gè)GPU或是八個(gè)GPU,主GPU概念只是一個(gè)虛擬的概念,他所做的工作和我們做的都是一致的。因?yàn)槲覀冎溃谏疃葘W(xué)習(xí)模型,訓(xùn)練過(guò)程中,反向傳播的時(shí)候,每一層的梯度值被計(jì)算出來(lái)之后,我們需要把這些梯度值發(fā)送到所有的設(shè)備上,從而對(duì)梯度進(jìn)行更新,我們?cè)诎l(fā)送的過(guò)程中,如果我們不考慮這種方式的話,沒(méi)有一個(gè)主GPU,四個(gè)GPU情況下,網(wǎng)絡(luò)帶寬需要把四倍的模型做交互。在我們這種設(shè)計(jì)下,如果有主GPU,節(jié)點(diǎn)只通過(guò)主GPU進(jìn)行交互的話,網(wǎng)絡(luò)帶寬的壓力只會(huì)到最初設(shè)計(jì)的四分之一,所以通過(guò)這種設(shè)計(jì),報(bào)節(jié)點(diǎn)之間帶寬的需求直接降低下來(lái)。

我的講述到這就結(jié)束了,浪潮從AI興盛開始,就緊跟著AI領(lǐng)域里各種熱點(diǎn)做相關(guān)的工作,到現(xiàn)在為止我們就形成了很完整的這樣一條生態(tài),在這個(gè)生態(tài)我們也相信會(huì)做的越來(lái)越好,謝謝。

以上是吳韶華的演講全文,雷鋒網(wǎng)稍微做了不改變?cè)獾男薷?。通過(guò)以上信息,我們不難知道,幾個(gè)月以來(lái),浪潮在布局人工智能業(yè)務(wù)上“樂(lè)此不疲”,通過(guò)其領(lǐng)先的服務(wù)器技術(shù)儲(chǔ)備及市場(chǎng)洞悉力為AI的快速落地提供動(dòng)力,2017年作為浪潮的戰(zhàn)略轉(zhuǎn)型關(guān)鍵之年,后續(xù)究竟發(fā)展的如何,我們持續(xù)關(guān)注。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-06-26
浪潮吳韶華:為AI設(shè)計(jì)特定的HPC解決方案
今年4月初,浪潮正式對(duì)外公布成立人工智能部,并推出面向AI應(yīng)用的創(chuàng)新計(jì)算平臺(tái),并表示未來(lái)浪潮將在人工智能計(jì)算的數(shù)據(jù)中心產(chǎn)品創(chuàng)新、深度學(xué)習(xí)算法框架優(yōu)化、生態(tài)系統(tǒng)建

長(zhǎng)按掃碼 閱讀全文