作為人工智能“三駕馬車”之一,高效智能的計(jì)算能力對(duì) AI 技術(shù)的演進(jìn)至關(guān)重要。如何針對(duì)不同 AI 數(shù)據(jù)場(chǎng)景下,實(shí)現(xiàn)計(jì)算效率的提升,是各大計(jì)算技術(shù)研究機(jī)構(gòu)、云廠商以及相關(guān)開源社區(qū)的研究熱點(diǎn)。
12 月 8 日-9 日,第 2 屆數(shù)據(jù)編排峰會(huì)(DATA ORCHESTRATION SUMMIT 2020)將在線上召開。在為期兩天的開源社區(qū)會(huì)議中,大會(huì)將圍繞如何基于最新的開源技術(shù),如Alluxio、Apache Spark、Apache Airflow、Presto、TensorFlow、Kubernetes 等,構(gòu)建云原生或混合云數(shù)據(jù)和 AI 平臺(tái)這一話題展開討論,并重點(diǎn)關(guān)注其中關(guān)鍵性數(shù)據(jù)工程方面的挑戰(zhàn)和解決方案。
本次峰會(huì)的演講嘉賓邀請(qǐng)到諸多云、數(shù)據(jù)和 AI/ML 等領(lǐng)域富有遠(yuǎn)見的專家學(xué)者,包括來自加州伯克利大學(xué)的 Apache Spark 創(chuàng)始人 Ion Stoica 教授,英特爾 CTO Parviz Peiravi 以及 Alluxio 創(chuàng)始人李浩源博士。同時(shí),來自云知聲、阿里巴巴、Comcast、Electronic Arts、Facebook、Google,京東和騰訊等公司的技術(shù)專家也將先后帶來精彩的技術(shù)報(bào)告,分享業(yè)界領(lǐng)先的數(shù)據(jù)架構(gòu)、現(xiàn)實(shí)案例、現(xiàn)場(chǎng)演示以及從業(yè)人員最佳實(shí)踐。
云知聲很早就開始布局建設(shè)業(yè)界領(lǐng)先的 GPU/CPU 異構(gòu) Atlas 計(jì)算平臺(tái)和分布式文件存儲(chǔ)系統(tǒng),該計(jì)算集群可為 AI 計(jì)算提供高性能計(jì)算和海量數(shù)據(jù)的存儲(chǔ)訪問能力,在公司向 AI 多領(lǐng)域技術(shù)橫向擴(kuò)展和縱向迭代中發(fā)揮了至關(guān)重要的作用。
本次峰會(huì),云知聲作為國內(nèi)唯一受邀 AI 公司將帶來名為“Speeding Up In Atlas Deep Learning Platform with Alluxio+Fluid”的分享,系統(tǒng)闡釋云知聲在人工智能基礎(chǔ)建設(shè)與云原生原創(chuàng)技術(shù)領(lǐng)域的創(chuàng)新發(fā)展路徑。
本次分享中,針對(duì)目前深度學(xué)習(xí)訓(xùn)練平臺(tái)非結(jié)構(gòu)數(shù)據(jù)訓(xùn)練過程中 I/O 瓶頸問題,云知聲提出在存儲(chǔ)層和計(jì)算層引入 Alluxio 緩存層的解決方案,技術(shù)團(tuán)隊(duì)通過和 Alluxio、阿里巴巴以及南京大學(xué)合作開源項(xiàng)目 Fluid 對(duì)Alluxio 緩存引擎進(jìn)行統(tǒng)一的編排管理。架構(gòu)圖如下圖所示:
在新架構(gòu)的加持下,三種典型 AI 非結(jié)構(gòu)化數(shù)據(jù)類型:大文件、中等文件和海量小文件均取得大幅的加速效果。針對(duì)海量小文件語音降噪任務(wù)、以及大文件 OCR 任務(wù)加速效果如下。其中,在海量小文件訓(xùn)練場(chǎng)景中,讀取緩存相對(duì)于直接讀取底層存儲(chǔ)平均增速 10 倍。
在大文件場(chǎng)景,在訓(xùn)練任務(wù)早期階段,讀取緩存相對(duì)于直接讀取底層存儲(chǔ)平均有 30 倍的加速效果,當(dāng)數(shù)據(jù)集全部加載到內(nèi)存時(shí),兩者速度基本一致。
在加速訓(xùn)練的同時(shí),新架構(gòu)可以大幅度減少 I/O 帶寬的占用并進(jìn)一步提升 GPU 使用率,針對(duì)海量小文件降噪任務(wù)、以及大文件 OCR 任務(wù) I/O 占用及 GPU 使用率如下:
在海量小文件訓(xùn)練場(chǎng)景中,讀取緩存相對(duì)于直接讀取底層存儲(chǔ)計(jì)算節(jié)點(diǎn) I/O 由 230Mb/s 下降到 0Mb/s,表明海量小文件訓(xùn)練前已全部加載到緩存中,訓(xùn)練過程中無需占用 I/O;GPU 平均使用率由 82.76% 提升到90.24%,表明消除 I/O 瓶頸可以提高海量小文件訓(xùn)練資源使用效率。
在大文件訓(xùn)練場(chǎng)景中,提前預(yù)熱相對(duì)于讀取底層存儲(chǔ)到緩存,計(jì)算節(jié)點(diǎn) I/O 由 1300Mb/s 下降到 0Mb/s,表明海量小文件訓(xùn)練前已全部加載到緩存中,無需占用I/O;讀取緩存相對(duì)于直接讀取底層存儲(chǔ)計(jì)算節(jié)點(diǎn) GPU平均使用率由 69.59% 提升到 91.46%,表明消除 I/O 瓶頸可以提高大文件訓(xùn)練任務(wù)資源使用效率。
針對(duì)不同的數(shù)據(jù)場(chǎng)景,基于 Fluid 和 Alluxio 緩存加速引擎已經(jīng)在 Atlas 計(jì)算平臺(tái)進(jìn)行充分驗(yàn)證。不但緩解了集群 I/O 壓力,而且極大的提高了模型訓(xùn)練的速度以及 GPU 使用效率,為實(shí)現(xiàn) AI 算法的快速驗(yàn)證和迭代奠定計(jì)算基礎(chǔ)。
云知聲在實(shí)現(xiàn)內(nèi)部計(jì)算平臺(tái)技術(shù)迭代的同時(shí),也積極參與和擁抱開源社區(qū),是 KubeFlow、Istio、Fluid 社區(qū)的積極關(guān)注和貢獻(xiàn)者,為開源社區(qū)技術(shù)進(jìn)步貢獻(xiàn)自己的力量。
截止 2020 年,Atlas 計(jì)算平臺(tái)已經(jīng)超過一億億次每秒的浮點(diǎn)計(jì)算能力,為在人工智能新領(lǐng)域的拓展奠定了強(qiáng)大的計(jì)算資源基礎(chǔ)。通過協(xié)同利用 AI 底層計(jì)算平臺(tái)資源,也支撐起云知聲從語音識(shí)別、語義理解到機(jī)器翻譯、計(jì)算機(jī)視覺等多維人工智能技術(shù)領(lǐng)域的持續(xù)快速突破。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )