原標(biāo)題:突破存儲墻用容量換效率!瑞金醫(yī)院煉就沖擊IO-500頂尖大數(shù)據(jù)平臺
親,你聽過轉(zhuǎn)化醫(yī)學(xué)么?
所謂轉(zhuǎn)化醫(yī)學(xué)(Translational Medicine),顧名思義,核心就在于“轉(zhuǎn)化”。它不是單一的學(xué)科或技術(shù),而是突出一種多學(xué)科、多技術(shù)融合和轉(zhuǎn)化的狀態(tài),即從實(shí)驗(yàn)室到臨床(bench to bedside)、從臨床到實(shí)驗(yàn)室(bedside to bench)的應(yīng)用拓展。轉(zhuǎn)化醫(yī)學(xué)運(yùn)用現(xiàn)代分子生物學(xué)等技術(shù)將實(shí)驗(yàn)室研究成果轉(zhuǎn)化為臨床應(yīng)用的產(chǎn)品與技術(shù),同時通過臨床觀察與分析幫助實(shí)驗(yàn)室更好地認(rèn)識人體與疾病,并通過優(yōu)化實(shí)驗(yàn)設(shè)計(jì)來促進(jìn)基礎(chǔ)研究。目前,像新藥研發(fā)、醫(yī)療器械、醫(yī)療APP、分子診斷等都屬于轉(zhuǎn)化醫(yī)學(xué)的范疇。
轉(zhuǎn)化醫(yī)學(xué)也是當(dāng)下最熱門的醫(yī)療方向之一。畢竟在大眾的認(rèn)知中,能看好病的醫(yī)生才是好醫(yī)生,而轉(zhuǎn)化醫(yī)學(xué)就是將科研實(shí)驗(yàn)室中的研究成果轉(zhuǎn)換為實(shí)際的臨床成績——比如由上海瑞金醫(yī)院陳竺、陳賽娟院士研究推動的采用全反式維甲酸+三氧化二砷誘導(dǎo)療法治療M3型急性白血病,就是轉(zhuǎn)化醫(yī)學(xué)的經(jīng)典成功案例。
為了把這些成功案例復(fù)刻、普及,以及創(chuàng)造更多經(jīng)典案例,轉(zhuǎn)化醫(yī)學(xué)中心的日常工作,就是圍繞基因組測序、轉(zhuǎn)錄組測序、藥物篩選等各種先進(jìn)組學(xué)等研究形成多維度的數(shù)據(jù)流,之后再對這些數(shù)據(jù)流進(jìn)行綜合分析和挖掘,提供與疾病診斷和治療相關(guān)的遺傳和臨床信息,待形成特征數(shù)據(jù)后再通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能等方法整合特征數(shù)據(jù)與臨床診療方案,成就真正意義上的精準(zhǔn)分析、輔助診斷和個性化醫(yī)療。
這是一項(xiàng)步驟繁瑣、流程漫長、體量龐大的數(shù)據(jù)網(wǎng)絡(luò),其中僅單個人類全基因組測序分析涉及的數(shù)據(jù)就可能高達(dá)870 GB,所以對于這些數(shù)據(jù)的快速處理并最終快速形成結(jié)論,就顯得至關(guān)重要。因此,轉(zhuǎn)化醫(yī)學(xué)對于高性能計(jì)算平臺性能的需求較以往或者其他學(xué)科更高、也更嚴(yán)苛。
與病魔賽跑,轉(zhuǎn)化醫(yī)學(xué)更看重時效性
談到轉(zhuǎn)化醫(yī)學(xué)在中國的具體落地和實(shí)踐,就不得不提到轉(zhuǎn)化醫(yī)學(xué)國家重大科技基礎(chǔ)設(shè)施(上海)(以下簡稱“國家轉(zhuǎn)化醫(yī)學(xué)中心”),它是中國首個也是目前國內(nèi)唯一建成的國家級綜合性轉(zhuǎn)化醫(yī)學(xué)中心,其重點(diǎn)研究方向聚焦腫瘤(包括白血?。?、代謝性疾病和心腦血管疾病等領(lǐng)域。作為一家現(xiàn)代化、數(shù)字化特色顯著的醫(yī)療科研單位,該中心瑞金基地設(shè)有300張病床,這些病床可通過智能設(shè)備及信息化技術(shù)組成多功能智慧臨床研究集群,每個床單元都具備自動感知以及臨床研究數(shù)據(jù)自主集采功能。每天,這些病床采集的數(shù)據(jù)都通過后端的高性能計(jì)算平臺得到分析,以便相關(guān)團(tuán)隊(duì)有針對性地制定治療方案,而這也正是轉(zhuǎn)化醫(yī)學(xué)的主要應(yīng)用方式。
由此看來,轉(zhuǎn)化醫(yī)學(xué)可謂一種新型、數(shù)字化醫(yī)療方式,它不同于傳統(tǒng)醫(yī)學(xué)的望聞問切和常規(guī)的影像檢測手段,而更強(qiáng)調(diào)智能化以及算力的價(jià)值。同時,由于醫(yī)療行業(yè)的特殊性,許多疾病的治療過程都可謂是“與病魔賽跑”,所以提前一天、一小時甚至一分鐘,都有可能增加患者存活和治愈的概率。在這種情況下,轉(zhuǎn)化醫(yī)學(xué)所用的計(jì)算平臺自然需要更快更強(qiáng),無論是在數(shù)據(jù)的處理,還是數(shù)據(jù)的存儲和應(yīng)用等方面,都對性能有著嚴(yán)苛的要求。
“因?yàn)槊總€患者的情況不一樣,相應(yīng)地,臨床研究及手術(shù)治療的手段也不一樣。國家轉(zhuǎn)化醫(yī)學(xué)中心的建立就是希望能夠在一個整體的地方,讓數(shù)據(jù)和信息得到快速流轉(zhuǎn)和共享。比如臨床數(shù)據(jù)進(jìn)來后馬上可以在我們的超算平臺上進(jìn)行計(jì)算,這些計(jì)算結(jié)果又會及時反饋給醫(yī)生,為其制定診療方案提供有用信息”,在談到利用IT與時間賽跑的重要性時,ASTRA高性能計(jì)算平臺共同負(fù)責(zé)人呂綱如是說。他所負(fù)責(zé)的ASTRA高性能計(jì)算平臺就是整個國家轉(zhuǎn)化醫(yī)學(xué)中心的“大腦”,負(fù)責(zé)分析和處理所有的臨床數(shù)據(jù),因此容不得半點(diǎn)遲緩。該平臺為此在通用計(jì)算上選配了英特爾至強(qiáng)可擴(kuò)展處理器,并導(dǎo)入了GPGPU來為特定應(yīng)用加速,這種異構(gòu)的平臺設(shè)計(jì),可以更好地保障充足算力的輸出。
但打造這樣一套快速響應(yīng)的IT系統(tǒng)可并非易事。要滿足轉(zhuǎn)化醫(yī)學(xué)科研團(tuán)隊(duì)和臨床醫(yī)生團(tuán)隊(duì)對海量數(shù)據(jù)進(jìn)行高速頻繁讀寫和分析的需求,ASTRA不僅需要具備強(qiáng)勁的算力,還要擁有優(yōu)異的I/O和吞吐能力。在算法和算力突飛猛進(jìn)的今天,存儲架構(gòu)很容易成為高性能計(jì)算平臺拉胯的主要因素。目前流行的無論是SAN還是NAS存儲,大多沿用的還是之前的架構(gòu),尤其是機(jī)械硬盤的大量使用對于高帶寬的支持并不友好;雖然目前業(yè)內(nèi)也有不少閃存甚至全閃存產(chǎn)品,但即便是在互聯(lián)網(wǎng)領(lǐng)域大行其道的Ceph存儲,也難以滿足這樣的要求,同時考慮到未來的持續(xù)升級和快速擴(kuò)容,Ceph架構(gòu)也并非理想選擇。存儲難題就這樣,像一堵墻一樣攔在了平臺構(gòu)建的道路上,難道就真的沒有更合理的破解之道了嗎?
DAOS借力傲騰持久內(nèi)存,為“破墻”提供新思路
開源分布式異步對象存儲(Distributed Asynchronous Object Storage, DAOS)的出現(xiàn),就是產(chǎn)業(yè)界對用戶上述焦慮與困境的回應(yīng),它能為業(yè)界打破高性能計(jì)算的存儲瓶頸或存儲墻提供全新思路。這是一種由英特爾開發(fā)和開源的軟件定義的橫向擴(kuò)展對象存儲,與主要針對旋轉(zhuǎn)介質(zhì)設(shè)計(jì)的傳統(tǒng)存儲堆棧不同,DAOS圍繞英特爾主流非易失性存儲器(NVM)技術(shù)(包括英特爾傲騰持久內(nèi)存和英特爾傲騰固態(tài)盤)的使用進(jìn)行了充分的優(yōu)化(詳見下圖)。
DAOS 架構(gòu)與傳統(tǒng)存儲系統(tǒng)的對比
那么DAOS的實(shí)戰(zhàn)性能到底如何呢?剛剛結(jié)束的德國ISC22世界超算大會公布了新一期的IO-500榜單。在這份榜單的前十名中,有一半都采用了DAOS存儲架構(gòu),這足以證明DAOS在高性能、低時延存儲應(yīng)用中的出色表現(xiàn)。
是什么讓DAOS架構(gòu)能夠得到這么多頂尖HPC系統(tǒng)的青睞,并能幫助它們躋身榜單前列呢?這就需要從它的設(shè)計(jì)理念說起。
首先,相較其他分布式存儲系統(tǒng)多使用高時延的點(diǎn)對點(diǎn)通信的設(shè)計(jì),DAOS采用的是能夠繞過操作系統(tǒng)的低時延、高消息速率用戶空間通信。而且當(dāng)下大多數(shù)存儲系統(tǒng)都是針對塊I/O設(shè)計(jì)的,這種情況下所有I/O操作都需要通過塊接口在Linux內(nèi)核中進(jìn)行,從而會產(chǎn)生大量的開銷。DAOS則優(yōu)化了對傲騰持久內(nèi)存及固態(tài)盤的訪問來規(guī)避了這些不必要的開銷。更具體一點(diǎn)說,DAOS會使用持久內(nèi)存開發(fā)套件(PMDK)提供對于持久內(nèi)存的事務(wù)訪問,并使用存儲性能開發(fā)套件(SPDK)為NVMe設(shè)備提供I/O。
其次,就架構(gòu)設(shè)計(jì)理念來說,DAOS是專為大規(guī)模分布式非易失性內(nèi)存而設(shè)計(jì),并以包括傲騰持久內(nèi)存在內(nèi)的SCM(存儲級內(nèi)存)和NVMe存儲為核心介質(zhì),可提供細(xì)粒度數(shù)據(jù)原生支持的I/O模型,這也是當(dāng)下以及未來熱數(shù)據(jù)應(yīng)用的先進(jìn)技術(shù)。DAOS還是獨(dú)立的高性能容錯存儲層,無需依賴其它層便可進(jìn)行元數(shù)據(jù)及數(shù)據(jù)恢復(fù)能力管理;而在實(shí)際的應(yīng)用中,元數(shù)據(jù)可以保存在傲騰持久內(nèi)存,更多的批量數(shù)據(jù)則會存儲在NVMe固態(tài)盤中。
看到這里你應(yīng)該明白了,英特爾NVM技術(shù)或者更確切地說英特爾傲騰持久內(nèi)存可以說是DAOS的骨骼或基石。DAOS的架構(gòu)設(shè)計(jì)可充分發(fā)揮這款持久內(nèi)存自身,以及它與至強(qiáng)可擴(kuò)展處理器組合后的優(yōu)勢,特別是憑借接近DRAM的性能和數(shù)倍于DRAM的容量,從而將更多數(shù)據(jù)存放在距算力、距處理器更近的地方,也就是讓更多數(shù)據(jù)的讀寫和處理處于高速、大帶寬和低時延的狀態(tài)下。這也解釋了為什么在IO-500排名中DAOS架構(gòu)能夠一枝獨(dú)秀的原因。
瑞金醫(yī)院國家轉(zhuǎn)化醫(yī)學(xué)中心借DAOS打破存儲瓶頸,加速轉(zhuǎn)化醫(yī)學(xué)實(shí)踐
鑒于DAOS諸多優(yōu)勢,瑞金醫(yī)院轉(zhuǎn)化醫(yī)學(xué)中心將其引入了ASTRA平臺來攻克存儲瓶頸。用呂綱的話說:“英特爾傲騰持久內(nèi)存的低時延、高帶寬、大容量、長壽命、非易失等特性,再搭配專為高性能存儲硬件設(shè)計(jì)的DAOS開源并行文件系統(tǒng),是我們成功構(gòu)建適用于轉(zhuǎn)化醫(yī)學(xué)應(yīng)用場景的高性能生信數(shù)據(jù)挖掘平臺ASTRA的關(guān)鍵,讓我們在實(shí)現(xiàn)更優(yōu)存儲和計(jì)算能效的同時,推進(jìn)我們在轉(zhuǎn)化醫(yī)學(xué)領(lǐng)域的探索和實(shí)踐?!?/p>
值得一提的是ASTRA于2021年11月打入了全球IO-500榜單,位列10節(jié)點(diǎn)榜單第8名、總榜單第14名;而在今年最新一期的IO-500榜單上,ASTRA位列10節(jié)點(diǎn)榜單第12名、總榜單第19名。排名的小小變化足以證明高性能計(jì)算產(chǎn)業(yè)界在沖擊存儲性能方面的熱衷,但也證明了該平臺的領(lǐng)先地位——憑借讀寫性能達(dá)到102.35GiB/s和97.88GiB/s,極端場景下讀寫性能達(dá)到81.57GiB/s和71.71GiB/s的成績,它不但遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)存儲架構(gòu)的表現(xiàn),也是中國乃至全球范圍內(nèi)生信領(lǐng)域中存儲性能的佼佼者。
在實(shí)際業(yè)務(wù)中,該平臺自投入以來,也使國家轉(zhuǎn)化醫(yī)學(xué)中心數(shù)據(jù)處理效率得到了顯著提升。以基因組測序?yàn)槔?,以往做面對超高深度腫瘤的全基因組測序這種超大數(shù)據(jù)的處理時,可能需要7天左右,但現(xiàn)在已被壓縮到了8小時以內(nèi),是以往效率的21倍?!坝?jì)算耗時大幅縮短,讓醫(yī)生可以更早得到檢測信息、分析結(jié)果,從而更早提供更有針對性的診療方案和挽救更多生命,這就是我們?yōu)閷?shí)現(xiàn)個性化醫(yī)療及精準(zhǔn)醫(yī)學(xué)而做出的努力”,呂綱表示。
隨著科技的發(fā)展,越來越多的醫(yī)學(xué)診斷都需要高性能計(jì)算的支持,需要對于數(shù)據(jù)的密集處理和高效分析,由此也引發(fā)了跨界融合的數(shù)字化醫(yī)療應(yīng)用新趨勢。對于國家轉(zhuǎn)化醫(yī)學(xué)中心來說,急需將強(qiáng)勁算力、海量數(shù)據(jù)與自身專業(yè)醫(yī)療經(jīng)驗(yàn)相結(jié)合,更好地服務(wù)于患者。
就像呂綱說的:“英特爾的技術(shù)實(shí)力和我們生信領(lǐng)域?qū)<业膶I(yè)能力可以比較好地整合在一起,使我們這個平臺成為生信領(lǐng)域第一個能夠在存儲上有所突破的平臺?!?/p>
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。