生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲100年?

生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲100年?

大咖介紹:(從左往右)

宋家雨,Dostor存儲在線總編輯

謝長生,華中科技大學(xué)武漢光電國家研究中心教授

曾文君,深圳國家基因庫生物信息數(shù)據(jù)庫主任

孫 斌,浪潮存儲產(chǎn)品線副總經(jīng)理

正文:

近日,在DOIT存儲峰會上,浪潮存儲產(chǎn)品線副總經(jīng)理孫斌、華中科技大學(xué)武漢光電國家研究中心教授謝長生、深圳國家基因庫生物信息數(shù)據(jù)庫主任曾文君,共同就基因研究帶來的數(shù)據(jù)存儲挑戰(zhàn)接受了媒體采訪。

基因庫建設(shè)對于社會發(fā)展具有重要意義,而基因庫的背后承載的是海量的數(shù)據(jù)存儲。2019年是國家基因庫建成的第3周年,現(xiàn)已具備88PB數(shù)據(jù)存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內(nèi)外600多個項目,那么在技術(shù)上如何同時滿足這些業(yè)務(wù)的需要?基因庫數(shù)據(jù)有哪些不同的特征?基因數(shù)據(jù)在數(shù)據(jù)存儲、數(shù)據(jù)保護(hù)和數(shù)據(jù)遷移上面臨著哪些技術(shù)挑戰(zhàn)?讓我們聽聽大咖的解答。

宋家雨:基因是一個特別熱的話題,它使人類在消病延年的路上不斷向前推進(jìn),在生命科學(xué)基因研究領(lǐng)域,有什么樣的應(yīng)用?對存儲提出怎樣的需求和挑戰(zhàn)?

生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲100年?

深圳國際基因庫生物信息數(shù)據(jù)庫主任 曾文君

曾文君:BT(生物技術(shù))的發(fā)展拉著IT在走,在生命科學(xué)領(lǐng)域,有個詞叫“超存”,因為對存儲的要求非常巨大,遠(yuǎn)超對算力的要求。

一個人的基因組,它的原始大小大概是3個GB左右,包含了30億個堿基,由A、T、C、G四個堿基對組成的。在全基因測序過程中,為了保證基因數(shù)據(jù)的完整性,需要平行測序30次,當(dāng)最終測序完成后,全基因組數(shù)據(jù)將達(dá)到大概100GB左右,只僅僅是一個單體,可想而知在廣泛的人口中,這是一個非常龐大的數(shù)據(jù)量。

整個基因分析研究,分為基因測序、基因數(shù)據(jù)分析和基因數(shù)據(jù)歸檔三個階段。其一,基因測序的整個過程是不允許被中斷的,這就要求支撐測序應(yīng)用的存儲系統(tǒng),具備極致的穩(wěn)定性和可靠性;另外,基因測序25微秒采集一幅高清晰圖像,對性能要求也超過了現(xiàn)有閃存固態(tài)盤的最高帶寬,必須采用更快的傲騰固態(tài)盤;其二,基因數(shù)據(jù)分析工作中,對存儲系統(tǒng)的性能、小文件處理能力提出很高要求;其三,在數(shù)據(jù)歸檔階段,需要將海量基因數(shù)據(jù)長期、完整、安全的保存起來,存儲系統(tǒng)的采購成本、能耗,是一個很大的挑戰(zhàn)。

總的來說,BT(生物技術(shù))的發(fā)展拉著IT在走,數(shù)據(jù)怎么存、怎么算、怎么長期保存,對IT來說,尤其存儲來說,是個非常巨大的挑戰(zhàn)。我們知道“超算”,它是對算力的要求,但是在生命科學(xué)領(lǐng)域,有個詞叫“超存”,因為對存儲的要求非常巨大,遠(yuǎn)超對算力的要求。

宋家雨:生命科學(xué)基因研究背后,面臨著海量數(shù)據(jù)存儲和應(yīng)用的挑戰(zhàn),學(xué)術(shù)界有哪些新的存儲技術(shù)趨勢?

生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲100年?

華中科技大學(xué)武漢光電國家研究中心教授 謝長生

謝長生:“數(shù)據(jù)如何存儲100年,是個具有挑戰(zhàn)性的問題,特別是基因分析研究這種需要長期存儲的應(yīng)用。全息存儲、玻璃存儲、突破光學(xué)的超衍……這些技術(shù),非常值得我們加快速度去研究。”

計算機(jī)和數(shù)據(jù)專家提出如何避免數(shù)字黑暗時代的命題,是指隨著IT硬件的失效和軟件的過時,很多數(shù)字信息在未來可能因為機(jī)器和軟件程序無法讀取而丟失。“數(shù)據(jù)如何存儲100年”,是個具有挑戰(zhàn)性的問題。正如現(xiàn)在的基因數(shù)據(jù),理論上說應(yīng)該是永遠(yuǎn)保存下去的。

針對這一命題,有三種主流的未來技術(shù)。

首先,最接近產(chǎn)品化的是全息存儲技術(shù)。用這種技術(shù)可以保存50年。全息存儲解決了光盤介質(zhì)容量小、密度低的問題,目前全息存儲技術(shù)已經(jīng)可以做到單張光盤存儲1.5TB容量,再往后發(fā)展,目標(biāo)是8TB,這樣就解決了存儲容量的問題。

其次,玻璃盤技術(shù)。5微米可以記一層,2毫米可以記幾百層,所以理論上它的容量可以做到很大,一張盤可以存300TB,而且玻璃是很穩(wěn)定的介質(zhì),可以永久保存。

再次,突破光學(xué)衍射極限的超分辨光存儲技術(shù)。該技術(shù)用雙光束的方法突破了光學(xué)衍射物理極限,將光點(diǎn)縮小到現(xiàn)在的1%。這個技術(shù)上已經(jīng)實現(xiàn)了,比現(xiàn)在光盤面密度提高了100倍,它還可以多層,實現(xiàn)幾個數(shù)量級的提高。

這些技術(shù),非常值得我們加快速度去研究,因為存儲的需求在那里,特別是基因分析研究這種需要長期存儲的應(yīng)用,在測序時要求存儲高性能、高可靠,長期保存時,要求存儲大容量、高性價比,所以面對這些挑戰(zhàn),我們有技術(shù)正在應(yīng)對,但是這需要時間的等待。

宋家雨:面對生命科學(xué)領(lǐng)域的海量數(shù)據(jù)存儲和應(yīng)用需求,浪潮擁有完善的存儲產(chǎn)品線,既有分布式存儲也有集中式存儲,客戶到底該如何選擇?

生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲100年?

浪潮存儲產(chǎn)品線副總經(jīng)理 孫斌

孫斌:到底是使用分布式架構(gòu)還是集中式架構(gòu),往往是由客戶的應(yīng)用類型、應(yīng)用環(huán)境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據(jù)種種需求給出最適合業(yè)務(wù)應(yīng)用的解決方案。

我們稱2019年是新數(shù)據(jù)時代元年,在新數(shù)據(jù)時代,需要有與之對應(yīng)的新存儲之道,浪潮會針對不同行業(yè)、不同領(lǐng)域和不同客戶應(yīng)用梳理我們的存儲解決方案。而生命科學(xué)領(lǐng)域,是浪潮非??粗氐念I(lǐng)域,目前我們的客戶包括生命科學(xué)研究系統(tǒng)、芯片研究企業(yè)、高校等等。

我們發(fā)現(xiàn)生命科學(xué)領(lǐng)域所使用的存儲的架構(gòu),多數(shù)是分布式存儲,但還有一部分是集中式存儲架構(gòu)。到底是使用分布式架構(gòu)還是集中式架構(gòu),往往是由客戶的應(yīng)用類型、應(yīng)用環(huán)境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據(jù)種種需求給出最適合業(yè)務(wù)應(yīng)用的解決方案。

生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲100年?

Dostor存儲在線總編輯 宋家雨

在新數(shù)據(jù)時代下,商業(yè)、技術(shù)、應(yīng)用、需求等等都在發(fā)展和演變,是Scale-up還是Scale-out,沒有一個標(biāo)準(zhǔn)答案存在,關(guān)鍵是在于我們要時刻地關(guān)注最新的存儲技術(shù)發(fā)展,然后結(jié)合最新應(yīng)用需要,把存儲能力運(yùn)用到最好,這就是新存儲之道。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-12-23
生命科學(xué)領(lǐng)域的“超存”挑戰(zhàn):數(shù)據(jù)如何存儲100年?
大咖介紹:(從左往右)宋家雨,Dostor存儲在線總編輯謝長生,華中科技大學(xué)武漢光電國家研究中心教授曾文君,深圳國家基因庫生物信息數(shù)據(jù)庫主任孫 斌,浪潮存儲產(chǎn)品

長按掃碼 閱讀全文