老黃心血之作 英偉達(dá)能憑借Tesla V100技?jí)喝盒蹎幔?/h1>

老黃嘔心之作,英偉達(dá)能憑借Tesla V100技?jí)喝盒蹎幔? /></p><p>雷峰網(wǎng)按:本文作者鐵流,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))首發(fā)。</p><p>上周,英偉達(dá)在加州舉行了2017年的GPU技術(shù)大會(huì)(GTC2017)。在大會(huì)上,英偉達(dá)CEO黃仁勛發(fā)布了全新力作——NVIDIA Tesla V100。根據(jù)英偉達(dá)官方介紹,Tesla V100采用了全新架構(gòu)Volta,不僅會(huì)有更強(qiáng)的性能,還增加了TensorCore用以專(zhuān)門(mén)針對(duì)深度學(xué)習(xí)。在發(fā)布會(huì)后,英偉達(dá)的股價(jià)也隨之走高。那么英偉達(dá)能憑借Tesla V100強(qiáng)悍的性能在深度學(xué)習(xí)領(lǐng)域力壓群雄嗎?</p><p>Tesla V100的優(yōu)點(diǎn)和存在的不足</p><p>根據(jù)英偉達(dá)官方介紹,TeslaV100采用臺(tái)積電12nm FinFET制造工藝,供集成了210億個(gè)晶體管,芯片面積達(dá)815平方毫米。英偉達(dá)為了針對(duì)深度學(xué)習(xí),專(zhuān)門(mén)進(jìn)行了優(yōu)化,經(jīng)過(guò)優(yōu)化的設(shè)計(jì)比前代Pascal架構(gòu)能效高50%。而且新的 Tensor Core是專(zhuān)門(mén)為深度學(xué)習(xí)設(shè)計(jì)的,為浮點(diǎn)運(yùn)算速度帶來(lái)了 12 倍的提升——TeslaV100增加了TensorCore,Tensor單元本質(zhì)上是把運(yùn)算器做得更密集,以這種方式獲取更強(qiáng)性能。此外,TeslaV100還擁有更大的帶寬和更低的延遲,半精度浮點(diǎn)乘混合單精度浮點(diǎn)加法也非常適合深度學(xué)習(xí)訓(xùn)練。</p><p ><img src=AI需要每秒20百億億次浮點(diǎn)運(yùn)算的處理能力;

谷歌2017年打造的NMT則需要每秒105百億億次浮點(diǎn)運(yùn)算的處理能力;

......

因此,英偉達(dá)的TeslaV100作為數(shù)據(jù)中心GPU是非常具有潛力的,不僅可以滿足訓(xùn)練的需求,還可以放在后臺(tái)提供相關(guān)服務(wù)。

雖然TeslaV100在性能上無(wú)與倫比,而且在一些領(lǐng)域頗具市場(chǎng)潛力,但還是存在不少缺點(diǎn)的。比如芯片面積過(guò)大——高達(dá)815平方毫米,而過(guò)大的芯片面積,加上英偉達(dá)在該款芯片上巨額的研發(fā)投入(黃仁勛稱(chēng)英偉達(dá)花了30億美元打造這款芯片),直接導(dǎo)致Tesla V100的價(jià)格異常昂貴,售價(jià)高達(dá)14.9萬(wàn)美元。如此高的售價(jià)會(huì)讓很多用戶望而卻步。

就產(chǎn)品定位來(lái)說(shuō),Tesla V100性能超強(qiáng),拿來(lái)類(lèi)比的話是一臺(tái)超級(jí)計(jì)算機(jī),而在很多場(chǎng)景下,其實(shí)用不到性能這么強(qiáng),價(jià)格如此昂貴的產(chǎn)品。對(duì)于普羅大眾和大多數(shù)應(yīng)用場(chǎng)景來(lái)說(shuō),性能夠用、功耗低且廉價(jià)的產(chǎn)品才是最好的選擇,就像普通消費(fèi)者需要的是智能手機(jī)和PC,而不是超級(jí)計(jì)算機(jī)。比如將來(lái)智能手機(jī)里如果要集成針對(duì)深度學(xué)習(xí)的模塊,英偉達(dá)的產(chǎn)品顯然是不合適的。在這種場(chǎng)景下,開(kāi)發(fā)專(zhuān)門(mén)針對(duì)嵌入式平臺(tái)的處理器IP更加符合市場(chǎng)需求。

英偉達(dá)的Tesla V100的市場(chǎng)定位類(lèi)似于核彈,但真正需要核彈的場(chǎng)景其實(shí)相對(duì)不多,而且客戶也只能是谷歌、微軟、百度這些國(guó)際巨頭。正如核彈僅被少數(shù)國(guó)家掌握,而且在國(guó)際沖突和局部戰(zhàn)爭(zhēng)中鮮有使用,AK47和RPG是才是被最廣泛使用的武器類(lèi)似,英偉達(dá)的這種市場(chǎng)定位,會(huì)使其失去非常廣闊的嵌入式設(shè)備市場(chǎng)。

最后就是功耗的問(wèn)題,英偉達(dá)的終端低功耗做得不夠好。必須說(shuō)明的是,臺(tái)積電的12nm工藝其實(shí)是16nm工藝的改良版本,是針對(duì)三星玩14nm命名游戲的反擊。因此,臺(tái)積電的12nm工藝到底對(duì)功耗控制有多大實(shí)際效果還是等產(chǎn)品上市后才能見(jiàn)分曉了。

深度學(xué)習(xí)處理器將進(jìn)入戰(zhàn)國(guó)時(shí)代

自AlphaGo與韓國(guó)棋手李世石大戰(zhàn)之后,深度學(xué)習(xí)、人工智能這些概念立馬火了,不僅成為資本的寵兒,各色各樣的深度學(xué)習(xí)處理器紛紛涌現(xiàn)出來(lái),各家IC設(shè)計(jì)公司推出了各自CPU、GPU、FPGA、DSP、ASIC等方案。

就CPU來(lái)說(shuō),最典型的就是Intel的Xeon Phi。Intel的眾核芯片雙精浮點(diǎn)性能為3 TFlops,性能功耗比為12 GFlops/W。雖然Intel宣稱(chēng):“四片 Knights Landing Xeon Phi芯片比四片 GPU要快 2.3 倍”、“使用Intel優(yōu)化版的Caffe深度學(xué)習(xí)框架時(shí),Xeon Phi芯片要比標(biāo)準(zhǔn) Caffe 實(shí)現(xiàn)快30倍”。但目前來(lái)說(shuō),還是英偉達(dá)的GPU更勝一籌。除了Intel之外,中國(guó)自主設(shè)計(jì)的申威26010也是一個(gè)潛在的選手,在人工智能領(lǐng)域也有應(yīng)用的潛力,百度還為此與申威有過(guò)接觸。

在DSP上,國(guó)內(nèi)外還有不少單位或公司也選擇用傳統(tǒng)SIMD/DSP架構(gòu)適配神經(jīng)網(wǎng)絡(luò)。比如中星微的星光智能一號(hào)、CEVA公司的XM4處理器、Cadence公司的Tensilica Vision P5處理器、Synopsys公司的EV處理器等。這些處理器本質(zhì)上都是將傳統(tǒng)的面向數(shù)字信號(hào)處理的DSP處理器架構(gòu)用于處理神經(jīng)網(wǎng)絡(luò),主要在運(yùn)算器方面作了相應(yīng)修改,例如低位寬和超越函數(shù)。這種做法的優(yōu)勢(shì)在于可以充分利用現(xiàn)有的成熟技術(shù),但缺點(diǎn)也很明顯,就是在應(yīng)用領(lǐng)域上有一定局限性。大多用于卷積神經(jīng)網(wǎng)(CNN),而對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)等處理語(yǔ)音和自然語(yǔ)言的網(wǎng)絡(luò)則無(wú)能為力。換言之,就是這種DSP主要用于機(jī)器視覺(jué)領(lǐng)域,可能難以應(yīng)用到語(yǔ)音識(shí)別、文本處理和自然語(yǔ)言理解等領(lǐng)域。雖然采用DSP作為人工智能硬件存在一定不足。不過(guò),采用現(xiàn)有比較成熟技術(shù)應(yīng)用于人工智能細(xì)分市場(chǎng)的做法在商業(yè)上還是有一定潛力的。

在FPGA上,阿爾特拉推出的用于人工智能的FPGA,雙精浮點(diǎn)性能為1.5TFlops,雖然雙精浮點(diǎn)性能只有 Xeon Phi 眾核芯片的一半,但性能功耗比卻高達(dá)50GFlops/W,如果人工智能硬件選擇FPGA,那么不僅對(duì)Xeon Phi 眾核芯片在性能功耗比上有明顯優(yōu)勢(shì),對(duì)英偉達(dá)的GPGPU也占據(jù)優(yōu)勢(shì)地位。而更高的性能功耗比就意味著在運(yùn)營(yíng)和維護(hù)中能夠節(jié)省電費(fèi)。FPGA雖然會(huì)在新興領(lǐng)域取得一定成績(jī),但卻缺乏性?xún)r(jià)比的問(wèn)題,而且在新興領(lǐng)域發(fā)展壯大后容易被專(zhuān)用芯片所取代。不過(guò),就目前來(lái)說(shuō),F(xiàn)PGA也是深度學(xué)習(xí)處理器的一個(gè)選擇。

在ASIC方面,中國(guó)中科院計(jì)算所孵化好市場(chǎng)化的寒武紀(jì)公司寒武紀(jì)開(kāi)發(fā)出了一系列產(chǎn)品,在芯片面積控制和性能功耗比上具有非常出色的表現(xiàn)。而在學(xué)術(shù)成果斐然:在2014年—2016年橫掃體系結(jié)構(gòu)學(xué)術(shù)圈,Diannao(電腦)是ASPLOS'14最佳論文(亞洲第一次);DaDiannao(大電腦)是MICRO'14最佳論文(美國(guó)以外國(guó)家的第一次);PuDiannao(普電腦)、ShiDiannao(視電腦)、還有指令集Cambricon等后繼工作都連中ASPLOS、ISCA。不過(guò),ASIC也存在開(kāi)發(fā)周期比較長(zhǎng)的遺憾,這對(duì)寒武紀(jì)在人工智能芯片的短期商業(yè)競(jìng)爭(zhēng)中非常不利,特別是在中國(guó)半導(dǎo)體工業(yè)原本就落后于西方的情況下。最后要說(shuō)的是谷歌的TPU,谷歌TPU其實(shí)是傳統(tǒng)脈動(dòng)陣列機(jī)的結(jié)構(gòu),MIT于2016年前后發(fā)表的Eyeriss也是類(lèi)似的架構(gòu),必須指出的是,脈動(dòng)陣列架構(gòu)是非常老的技術(shù),同時(shí)也是非常經(jīng)典的技術(shù)。早在上世紀(jì)80年代初,中科院計(jì)算所的夏培肅院士和李國(guó)杰院士就曾將脈動(dòng)陣列架構(gòu)用于石油勘探——計(jì)算所曾經(jīng)研發(fā)過(guò)的石油勘探專(zhuān)用機(jī)就是采用了脈動(dòng)陣列架構(gòu)。從實(shí)際運(yùn)行性能表現(xiàn)上看,TPU雖然可能在面對(duì)退化情形的卷積上也會(huì)遇到困難,但做卷積神經(jīng)網(wǎng)路(CNN)時(shí)總體效果還是不錯(cuò),但做其他類(lèi)型的神經(jīng)網(wǎng)絡(luò)運(yùn)算,可能效率不是那么高,通用性不是那么的好。例如在語(yǔ)音識(shí)別和自然語(yǔ)言理解中常用的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)上面,TPU只有4%左右的效率。

總而言之,就深度學(xué)習(xí)處理器而言,已然進(jìn)入戰(zhàn)國(guó)時(shí)代,而且各家的產(chǎn)品都有可能在這個(gè)廣闊的市場(chǎng)中找到自己的定位和細(xì)分市場(chǎng),在這種情形下,英偉達(dá)想憑借Tesla V100一統(tǒng)江山顯然是不切合實(shí)際的。在戰(zhàn)國(guó)時(shí)代,相對(duì)于技術(shù)上的片面追求極致性能,而忽視成本、功耗、價(jià)格,如何開(kāi)拓更多細(xì)分市場(chǎng),更好的商業(yè)化才是在大爭(zhēng)之世的當(dāng)務(wù)之急。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-05-17
老黃心血之作 英偉達(dá)能憑借Tesla V100技?jí)喝盒蹎幔?/div>
上周,英偉達(dá)在加州舉行了2017年的GPU技術(shù)大會(huì)(GTC2017)。在大會(huì)上,英偉達(dá)CEO黃仁勛發(fā)布了全新力作——NVIDIA Tesla V100。根據(jù)英偉

長(zhǎng)按掃碼 閱讀全文