浪潮高性能計算助力臻和科技告別基因研究的“小”困擾

臻和(北京)科技有限公司正在構(gòu)建從基因測序數(shù)據(jù)生產(chǎn),到樣本數(shù)據(jù)挖掘分析,再到備份保存和群體復(fù)查的信息流全生命周期管理,浪潮天梭TS10000高性能集群解決方案采用了TStor3000并行存儲系統(tǒng),有力支撐了腫瘤個體化精準(zhǔn)診療和伴隨診斷的科學(xué)研究與商業(yè)運(yùn)營,實現(xiàn)了對存儲資源的最大化利用,幫助臻和科技提升生產(chǎn)效率,個體基因測序數(shù)據(jù)運(yùn)行時間縮短了50%。

美國癌癥學(xué)會官方期刊發(fā)表的《2018年全球癌癥統(tǒng)計數(shù)據(jù)》報告顯示,中國已成為癌癥發(fā)病率、死亡率最高的國家,全球每新增100個癌癥患者中就有21個中國人。在中國,平均每分鐘有7個人確診癌癥,每分鐘有將近5人死于癌癥,腫瘤精準(zhǔn)診療已成為迫切而必要的趨勢。

作為改善腫瘤患者生命質(zhì)量的引領(lǐng)者,臻和(北京)科技有限公司(以下簡稱臻和科技)借助浪潮TStor3000并行存儲系統(tǒng),得以高效的開展針對主要癌癥的基因病理特征、個體化精準(zhǔn)診療和伴隨診斷等醫(yī)學(xué)研究與醫(yī)療服務(wù)。浪潮TStor3000是基于目前歐洲非常流行的BeeGFS商業(yè)版并行文件系統(tǒng)開發(fā)和優(yōu)化版本,專門針對高性能用戶需求設(shè)計的并行存儲系統(tǒng)。

基因研究的“小”困擾

臻和科技創(chuàng)立于2014年,以二代測序技術(shù)和生物信息學(xué)為核心,從事無創(chuàng)為主的腫瘤個體化精準(zhǔn)診療和伴隨診斷。目前,臻和科技已建立優(yōu)化的游離DNA提取及定量檢測技術(shù)平臺,具備國內(nèi)首創(chuàng)的基于游離DNA檢測的多個實體腫瘤的伴隨診斷、預(yù)后評估、用藥指導(dǎo)的技術(shù)平臺。

信息流的全生命周期管理是臻和科技研發(fā)、生產(chǎn)與醫(yī)學(xué)檢測等各項業(yè)務(wù)的基礎(chǔ)所在,它涵蓋了大量測序數(shù)據(jù)的產(chǎn)生、挖掘分析、備份保存以及群體復(fù)查等環(huán)節(jié)。在信息流的全生命周期管理過程,臻和科技面臨的一大挑戰(zhàn)在于小文件的并行處理與高擴(kuò)展性的分布式存儲,HPC系統(tǒng)在這方面的性能表現(xiàn),將直接影響到科研進(jìn)度與相應(yīng)醫(yī)療服務(wù)的開展。

臻和科技早期癌癥診斷類的基因序列數(shù)據(jù)通常由千萬到億萬條的基因片段組成,需要通過大量的比對和糾錯才能拼接成完整的基因序列,隨后再經(jīng)過大量病例樣本數(shù)據(jù)的對比,找到誘發(fā)腫瘤病變的基因變異特征。在這一過程中,拼接結(jié)果的準(zhǔn)確程度、拼接的速度都與HPC提供的計算力息息相關(guān)。當(dāng)數(shù)據(jù)從高速的計算設(shè)備中被完整記錄和備份,進(jìn)入歸檔程序后,還需要進(jìn)入群體數(shù)據(jù)的回顧挖掘,積累出中國人群特有的癌癥基因數(shù)據(jù)庫,對存儲的高擴(kuò)展性有著較高要求。

周期縮短50%,浪潮基于BeeGFS的并行存儲系統(tǒng)來幫忙

此前,用于生命科學(xué)領(lǐng)域的HPC平臺多采用基于Lusture文件系統(tǒng),但在實際使用中效果并不理想。針對于此,浪潮為臻和科技設(shè)計了基于BeeGFS并行集群文件系統(tǒng)的高性能集群解決方案,率先實現(xiàn)了BeeGFS在國內(nèi)生命科學(xué)領(lǐng)域的部署。

浪潮天梭TS10000高性能計算集群系統(tǒng)能夠提供超過500個計算核心,計算峰值速度達(dá)到50TFlops/s(萬億次),可在4小時內(nèi)完成一個人的全基因序列拼接、比對;存儲方面,TStor3000內(nèi)置的BeeGFS并行文件系統(tǒng)可提供極高的IO性能,充分發(fā)揮每塊硬盤的讀寫速度,滿足二代基因測序大文件帶寬需求,在處理三代基因測序場景下小文件并發(fā)的時候,BeeGFS也能發(fā)揮不錯的效果。帶寬可以達(dá)到寫7GB/s讀5GB/s。

浪潮高性能計算助力臻和科技告別基因研究的“小”困擾

BeeGFS具備高性能、高可靠性、存取讀取方便等特點,可以大大滿足用戶對數(shù)據(jù)安全可靠性、存取和維護(hù)的需求。其可為元數(shù)據(jù)和對象數(shù)據(jù)提供鏡像功能,使系統(tǒng)在半數(shù)服務(wù)器失效的情況下,業(yè)務(wù)不中斷,數(shù)據(jù)不丟失。BeeGFS還有一項非常有代表性的功能——BeeOND,用以滿足高性能用戶計算過程數(shù)據(jù)的讀寫需求,輕松達(dá)到高帶寬高IOPS的效果,并且可以通過作業(yè)調(diào)度系統(tǒng)快速地啟動和關(guān)閉文件系統(tǒng),并將其中的重要數(shù)據(jù)快速地可以轉(zhuǎn)移到后端存儲中,既保證計算,又不影響數(shù)據(jù)存放。

浪潮高性能計算助力臻和科技告別基因研究的“小”困擾

浪潮高性能計算助力臻和科技告別基因研究的“小”困擾

在部署了浪潮天梭TS10000高性能集群系統(tǒng)后,臻和科技在系統(tǒng)易用性、生產(chǎn)效率提升、存儲成本降低上均獲得顯著改進(jìn)。臻和科技相關(guān)負(fù)責(zé)人表示:“通過BeeGFS的分布式存儲功能,我們實現(xiàn)了對存儲資源的最大化利用,有效降低了存儲開銷,并且滿足了對存儲安全性及數(shù)據(jù)全生命周期追溯的需求。同時,系統(tǒng)易用性的提升極大的降低了使用門檻,從而提升了生產(chǎn)效率,個體基因測序時間縮短了50%。”

作為中國最早涉足生命科學(xué)領(lǐng)域的HPC解決方案提供商,浪潮對基因研究的應(yīng)用特點擁有深厚積累和深刻洞察,始終致力于以先進(jìn)計算技術(shù)及解決方案,推動精準(zhǔn)醫(yī)療的發(fā)展。目前,浪潮高性能計算系統(tǒng)已經(jīng)在中科院北京基因組所、蘇州大學(xué)醫(yī)學(xué)部、上海兒童醫(yī)院等眾多醫(yī)學(xué)研究與醫(yī)療服務(wù)機(jī)構(gòu)部署,為解決人類面臨的重要醫(yī)學(xué)問題提供領(lǐng)先的計算力支撐。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-03-19
浪潮高性能計算助力臻和科技告別基因研究的“小”困擾
臻和(北京)科技有限公司正在構(gòu)建從基因測序數(shù)據(jù)生產(chǎn),到樣本數(shù)據(jù)挖掘分析,再到備份保存和群體復(fù)查的信息流全生命周期管理,浪潮天梭TS10000高性能集群解決方案采

長按掃碼 閱讀全文