未來,也許只需要一口唾沫,你就能夠未卜先知,將潛在的疾病扼殺在發(fā)病之前;只需要一塊皮下組織,你就能夠克隆出新的器官并替換損傷的器官,從而極大地延長自己的生命。而這些,都依賴于科學家去發(fā)現(xiàn)人類基因背后的奧秘。
這就需要對人類的基因組進行測序和分析,才能找出其中的規(guī)律。但是,這在過去幾乎是不可能完成的任務,因為基因組的數(shù)量是如此之大,大到了超越目前的計算能力。一個小小真菌,比如酵母的基因組總量就有10Mb,而一個人的全基因組則是3Gb(3000Mb),也就是30億個堿基,如果將全部測序數(shù)據(jù)打成文字排成書,這本書的厚度將超過100米。此外,由于受到技術和方法學的限制,每個人至少要測100Gb也就是基因組的30倍以上,才能得到相對準確的全基因組數(shù)據(jù)。
為了完成一個人的全基因組測序,需要花費多少時間、多少金錢?1987年初,“人類基因組”計劃開始立項,1990年,項目正式啟動。經過美、英、日、法、德、中多國科學家的努力,終于在2003年4月完成了全部工作。當時,華大基因牽頭,國家基因組南方中心、北方中心共同參與,承擔了其中1%的基因組測序及分析工作??偣菜阆聛恚叭祟惢蚪M”花費了16年的時間和30億美元,才完成了第一個白種人的全基因組圖譜繪制工作。
不過,當華大基因在2007年10月11日完成第一個黃種人的全基因組圖譜繪制(該項目也被稱為“炎黃一號”)的時候,才不過花了一年的時間和區(qū)區(qū)1000萬人民幣。
這要得益于第二代基因測序技術的出現(xiàn)。與第一代基因測序技術相比,第二代最顯著的特征是高通量,一次能對幾十萬到幾百萬條DNA分子進行序列測序,從而大大地提升了測序速度和通量,從而極大地降低了成本。不過,第二代基因測序技術需要更高速的計算能力配合。在生物技術特別是基因組技術的發(fā)展進程中,是計算能力而不是測序技術成為了瓶頸。
早在參加“人類基因組”項目的時候,華大基因就已經洞悉了這個“秘密”。從那個時候開始,華大基因開始采購小型機以提升自身的計算能力,其采購的服務器也從SGIO2升級到了曙光2000/3000。有了強大的計算能力,華大基因得以在2002年順利完成水稻基因組的測序和組裝工作,只用了不到一年的時間,而日本同行卻用了8年的時間,花費也是華大基因的7倍以上。
從2005年開始,華大基因發(fā)現(xiàn)僅僅采購小型機已經不能夠滿足基因測序的饕餮胃口了,于是嘗試購買X86通用服務器,自己搭建分布式集群計算系統(tǒng)。據(jù)華大基因副院長方林回憶,當時他們先用辦公室里的幾臺PC搭建了一個集群系統(tǒng),用了感覺比較成熟之后才開始大規(guī)模地采購X86通用服務器。在這個過程中,他們參考了曙光4000的技術標準,也做了不小的改進。例如,當時的曙光4000沒有硬盤,而華大基因的計算對于交換分區(qū)的性能要求比較高,于是專門給服務器配了硬盤。
如今,華大基因已經建立起了2000多臺服務器的分布式集群計算系統(tǒng),技術架構也從過去傳統(tǒng)的分布式計算轉向了Hadoop等云計算架構。華大基因的集群計算能力達到了200萬億次/秒,能夠進入2013年全球高性能計算的前100名。強大的計算能力與測序能力一起,使得華大基因超越美國的Broad、英國的Sanger等海外知名的測序中心,成為全球最大的基因組學研究機構。
依托強大的計算能力,華大基因正在雄心勃勃地啟動“百萬人基因組”項目,它計劃同時完成百萬數(shù)量級的人類基因組、蛋白質組、代謝組、表型組等一系列數(shù)據(jù)收集分析工作。據(jù)華大基因估計,由此需要收集的數(shù)據(jù)量將高達10EB(1EB等于10的18次方個字節(jié)),數(shù)據(jù)的參數(shù)規(guī)模將達到1-10億。要知道,目前國內的BAT三大互聯(lián)網(wǎng)公司擁有的數(shù)據(jù)量也不過只有EB級別,數(shù)據(jù)的參數(shù)規(guī)模則只有千萬級別。無論從哪個方面來看,這都是不折不扣、名副其實的大數(shù)據(jù)計劃。
顯然,僅僅依靠華大基因自己的計算資源,已經無法搞定這件事情了,好在還有已經建成的國家隊——天河超級計算機。目前,華大基因已經分別與天津超級計算機中心(計算能力4700萬億次/秒)、廣州超級計算機中心(目前計算能力已達5億億次/秒,總設計能力將達11億億次/秒)達成了合作,將利用這兩大中心超強的計算能力,早日完成“百萬人基因組”項目。由于需要的計算量是如此之大,以至于當項目啟動之后,將占用天津超級計算機中心10%、廣州超級計算機中心30%的計算資源!
2013年3月,華大基因完成了收購美國基因測序公司CompleteGenomics的壯舉。這次收購一方面將降低華大基因對上游儀器生產商的依賴,另一方面也將深遠影響世界基因測序競爭格局,大大降低基因測序的服務成本。隨著超高通量測序技術和超級計算能力的完美結合,華大基因有望在兩年后將個人全基因組測序成本降低到數(shù)千人民幣甚至更低。
看來,BT(生物技術)要取得進一步的發(fā)展,仍然離不開老冀一直關注的IT(信息技術),離不開包括大數(shù)據(jù)和超級計算在內的“最強大腦”。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。