生物與AI的雙螺旋,正在被百度刻進DNA

原標題:生物與AI的雙螺旋,正在被百度刻進DNA

智能技術(shù)與生物技術(shù),正在碰撞中萌生出激情的火花。

2020年,全球人民都再盼星星盼月亮,盼著早日出現(xiàn)一支好疫苗。在這個過程中,AI前所未有地參與到基因測序、疫苗研發(fā)、生物醫(yī)藥等活動中來。而從英國變異病毒,到印度、南非等國出現(xiàn)變異毒株愈發(fā)嚴重,越來越多的人開始意識到,疫苗研發(fā)速度如果跟不上病毒變異的腳步,全球防疫成果會直接受影響。以此為契機,支撐高效研發(fā)的生物計算,也就各國重點關(guān)注并投入的科技賽道之一。

AI對生物科學的影響,也獲得了學界的普遍認可與應(yīng)用。在 “首屆中國生物計算大會” 上,著名結(jié)構(gòu)生物學家施一公就從生命科學的角度,提出計算決定未來。

那么,到底什么是生物計算,為什么說它會對國計民生至關(guān)重要?中國的生物計算發(fā)展究竟如何,未來又需要哪些產(chǎn)業(yè)要素?

一首智能計算與生物技術(shù)相結(jié)合的產(chǎn)業(yè)協(xié)奏曲,已經(jīng)在神州大地奏響,今天我們就化身一群最先“聞弦歌而知雅意”的人。

邂逅的偶然與必然:AI給生物計算帶來了什么?

簡單來說,生物計算指的是以生物大分子作為“數(shù)據(jù)”的計算模型。智能計算與生物技術(shù)的邂逅,似乎是疫情推動下的偶然事件,但如果我們將目光放得更長遠,從生物研發(fā)的歷史進程出發(fā),會發(fā)現(xiàn)二者的結(jié)合其實是一場必然。

有一個少有人知道的故事是,25年前,當時還在華爾街做程序員的李彥宏,就對生物信息倍感興趣,還收到了默克公司一個Bioinformatics(生物信息學)研究小組的offer。但受限于當時的生物數(shù)據(jù)量、成本、速度,計算的優(yōu)勢很難發(fā)揮出來。

而隨著時間的推移,基因組學研究帶來了人體數(shù)據(jù)增長、新藥研發(fā)過程當中積累的知識增長、各類機器學習算法的噴涌。這三個關(guān)鍵指標的變化,決定了當今的生物研發(fā)要考慮的不是該不該用AI的問題,而是用得上、用得好的問題。

具體來說,生物計算能夠在三個領(lǐng)域里面釋放價值:

1.新藥研發(fā)。

對于病患來說,藥物就是生命。但長期以來,創(chuàng)新藥的研發(fā)普遍存在流程復雜、投入產(chǎn)出比低、傳統(tǒng)方法昂貴、耗時長等問題。傳統(tǒng)制藥研發(fā)平均周期都要10年左右,在當下生命科學信息指數(shù)級增加的背景下,更使得藥物研發(fā)的復雜度不斷攀升。

這種情況下,依靠機器學習來識別新穎藥物、分析藥物結(jié)構(gòu)等,能夠快速且低成本地完成蛋白質(zhì)結(jié)構(gòu)預(yù)測、藥物篩選、分子生成、ADMET預(yù)測等工作,從而大大提升新藥發(fā)現(xiàn)的效率,縮短新藥研發(fā)周期,直接降低研究成本。不僅能夠更快更廣泛地造?;颊呷后w,而且能夠以技術(shù)為引擎,推動中國醫(yī)藥產(chǎn)業(yè)加速擁抱創(chuàng)新藥的發(fā)展機遇。

2.疫苗設(shè)計。

新冠疫苗的研發(fā)讓大家被科普了mRNA疫苗的強大。由于可在人體自身內(nèi)生產(chǎn)抗原蛋白,制備速度快、無感染風險,mRNA疫苗也被MIT Technology Review評選為2021年“全球十大突破性技術(shù)”之一。

但是,一個蛋白質(zhì)所對應(yīng)的mRNA序列有多種可能,隨著序列長度的增加,mRNA序列數(shù)量也會指數(shù)級增長,要設(shè)計出最穩(wěn)定、蛋白質(zhì)表達水平最高的mRNA序列并不容易。其中,AI的加入就至關(guān)重要了。

比如百度在疫情期間相繼開源的LinearRNA系列算法,就利用AI算法和AI算力,在十數(shù)分鐘內(nèi)就能夠計算設(shè)計出理論上的mRNA序列,讓緩慢高成本的疫苗設(shè)計流程大大加速。

3.精準醫(yī)療。

新興生物技術(shù)帶來越來越細顆粒度的數(shù)據(jù),也使得精準藥物設(shè)計、個性化臨床診療及用藥等成為可能。試想一下,未來醫(yī)療服務(wù)可以精細到針對個體開發(fā)出個性化的靶向藥物,在疾病極早期就能夠進行綜合分析診斷和精準治療,真正實現(xiàn)“上醫(yī)治未病”的理想,毫無疑問會大大提升人們的健康生活質(zhì)量。

而要達到這一愿景的前提,或許就要將每個人的基因信息都提取出來,并進行分析挖掘處理計算,從而讓數(shù)據(jù)能夠有效應(yīng)用到診斷當中,提供更適配的藥物選擇和治療方案。在這個過程中,利用AI算法讀懂數(shù)據(jù)必不可少。

說到這里,大家想必能夠理解,為什么智能技術(shù)在今天必須與生物技術(shù)相結(jié)合,共同奏響生物計算的時代奏鳴曲,開啟全人類的健康新篇章。

在這個領(lǐng)域當中,我們也看到了一批具有技術(shù)實力和社會責任感的科技巨頭們,扮演起了扛旗者的角色。比如谷歌DeepMind團隊研發(fā)的 AlphaFold 2算法,就曾震驚世人;中國AI公司百度,也在過去幾年里成立了生物實驗室、推出LinearRNA系列算法等。

站在生物計算興起的關(guān)鍵節(jié)點,百度是如何思考與行動的,無疑是一次深入了解中國生物計算探索的契機。

選定基調(diào),生物計算何以成為百度的新坐標?

在過去一年多的全球抗疫中,百度在生物計算領(lǐng)域交出了值得贊賞的答卷。

2020年疫情爆發(fā)伊始,百度研究院就立即宣布向各基因檢測機構(gòu)、防疫中心及全世界科學研究中心免費開放線性時間算法 LinearFold。公開數(shù)據(jù)顯示,LinearFold將當時新型冠狀病毒的全基因組二級結(jié)構(gòu)預(yù)測從55分鐘縮短至27秒,提速120倍。

隨后數(shù)月里,百度又連續(xù)與中國疾病預(yù)防控制中心聯(lián)合成立“中國CDC應(yīng)急技術(shù)中心-百度基因測序工作站”,后來北京新發(fā)地突發(fā)疫情,CDC工作站僅用10小時完成北京四個樣本的全基因組測序。

2020年5月,百度又率先推出的全球首個 mRNA 疫苗基因序列設(shè)計算法 LinearDesign,大大提升疫苗設(shè)計的穩(wěn)定性和蛋白質(zhì)表達水平,助力疫苗研發(fā);

2020年8月,百度研究院正式成立了生物計算實驗室,期望通過人工智能和計算技術(shù)助力生物醫(yī)療發(fā)展。

憑借RNA 結(jié)構(gòu)預(yù)測與序列設(shè)計相關(guān)成果,百度也因此在 2020 年全球人工智能峰會(AISummit)上,獲得了 AI For Good(AI 向善)獎。

經(jīng)此一疫,不僅AI參與基礎(chǔ)生命科學研究的重要性進一步凸顯,生物計算也得以進入百度業(yè)務(wù)發(fā)展的主基調(diào)。如果說AI技術(shù)是百度在智能時代的殺手锏,那么生物計算則是助力未來增長的新航道。

沒有積累,創(chuàng)新就是無本之木,更不可能快速展現(xiàn)出從實驗室到現(xiàn)實場景的技術(shù)貫穿力。這場百度戰(zhàn)疫,就得益于百度在生物計算上的布局由來已久。

原來,早在2018年,百度研究院就開展了 RNA 結(jié)構(gòu)預(yù)測和序列設(shè)計相關(guān)研究,并在2019年7月發(fā)表了前文中提到的 LinearFold算法。正是這些前期工作,讓百度可以在疫情爆發(fā)初期就快速響應(yīng),并在兩個月后就完成了mRNA 疫苗設(shè)計的革命性方法LinearDesign的研發(fā)。

此外,百度在生物計算上的快速反應(yīng),也離不開飛槳和百度智能云在AI基礎(chǔ)設(shè)施上的積累與領(lǐng)先。

過去幾年里,百度在底層計算硬件、深度學習框架、應(yīng)用創(chuàng)新開發(fā)等領(lǐng)域都進行了全面部署與創(chuàng)新,其打造的 AI基礎(chǔ)設(shè)施也得以成為百度助力產(chǎn)業(yè)智能化升級的底座。有了這些基礎(chǔ),才使得百度率先成為智能技術(shù)與生物技術(shù)相融合的橋梁。

疫情讓全社會意識到了生物計算的重要性。接下來,吸引更多醫(yī)藥研發(fā)人員與開發(fā)者投入,才能真正推動產(chǎn)業(yè)共榮、造福社會。顯然,百度也認可這一趨勢,所以在2020年12月的Wave Summit深度學習開發(fā)者峰會上,正式發(fā)布了PaddleHelix螺旋槳生物計算平臺,在生物計算領(lǐng)域中向前一步。

螺旋槳的蹄鳴:奏一支生物計算的交響樂

歷史上有許多看似平常的一天,卻發(fā)生了意義非凡的事件。比如1953年2月28日,沃森與克里克在一個酒吧里宣布,他們發(fā)現(xiàn)了生命的奧秘——DNA的雙螺旋結(jié)構(gòu)。

對于生物計算產(chǎn)業(yè)來說,百度生物計算平臺螺旋槳PaddleHelix的誕生,同樣是開創(chuàng)性的標志事件。它意味著有三個方面發(fā)生了變化:

首先,是研發(fā)模式發(fā)生變化。區(qū)別于傳統(tǒng)的試管加電鏡式的研發(fā)模式,基于百度?槳深度性能優(yōu)化和百度智能云的算力支撐,數(shù)據(jù)和算力不再成為生物醫(yī)藥研發(fā)等的制約因素,開始能夠被AI有效地發(fā)揮作用。

舉個例子,傳統(tǒng)藥物研發(fā)中,需要合成大量的候選化合物來進行活性篩選,周期長且成功率低。而借助AI進行虛擬篩選,可以提前預(yù)測化學物的性質(zhì),從而加速研發(fā)流程。比如螺旋槳PaddleHelix 1.0新增的化合物預(yù)訓練模型 ChemRL,就使用深度圖神經(jīng)網(wǎng)絡(luò)GNN來設(shè)計自監(jiān)督學習任務(wù)學習化合物分子表示,效果出色。在國際權(quán)威榜單Open Graph Benchmark圖神經(jīng)網(wǎng)絡(luò)基準 (OGB)上HIV和PCBA兩大數(shù)據(jù)集上,ChemRL拿下了雙冠軍。

其次,研發(fā)門檻前所未有地降低。

在醫(yī)藥領(lǐng)域,有標注的數(shù)據(jù)卻十分稀少,這就讓高質(zhì)量的深度學習算法模型遭遇了瓶頸。百度螺旋槳PaddleHelix的創(chuàng)新在于,基于自身在NLP等AI相關(guān)領(lǐng)域的研發(fā)經(jīng)驗,提出了生物醫(yī)藥領(lǐng)域的預(yù)訓練模型。先通過海量無標注數(shù)據(jù)的自監(jiān)督學習,訓練出一個預(yù)訓練模型,相當于讓AI先學好通識課程;再根據(jù)多任務(wù)學習,對預(yù)訓練模型進行微調(diào),能夠?qū)崿F(xiàn)“專業(yè)能力”的快速提升,即便是在有限高質(zhì)量數(shù)據(jù)的情況下,也能保證模型效果,從而極大地擴展了AI應(yīng)用于生物研發(fā)的場景,更好地輔助研究人員的工作。

另外,綜合性研發(fā)人才的短缺狀況得到緩解。

同時擁有AI算法設(shè)計能力與藥物研發(fā)臨床醫(yī)學等專業(yè)背景的復合型人才,在今天是絕對的稀缺資源。人才培養(yǎng)無法一蹴而就,當下的研發(fā)進程也不容落后,這其中,螺旋槳PaddleHelix就延續(xù)了飛槳開源開放、零門檻AI的理念,將一系列生物計算的預(yù)訓練模型與工具,包括RNA二級結(jié)構(gòu)預(yù)測、大規(guī)模的分子預(yù)訓練、藥物-靶點相互作用、以及ADMET成藥性預(yù)測等,覆蓋新藥研發(fā)和疫苗設(shè)計環(huán)節(jié)的核心能力。這些模型通過API接口,產(chǎn)業(yè)側(cè)研究人員只需要幾行簡單的代碼就能輕松調(diào)用,快速搭建計算任務(wù),從而大大緩解了生物計算的“人才焦渴癥”。

不難看到,螺旋槳PaddleHelix融合了百度多年在 AI 算力、算法上的積累,通過一整套工具、設(shè)施和服務(wù),讓更多醫(yī)療工作者和生物科研人員也能夠靈活方便地應(yīng)用AI,在藥物研發(fā)、疫苗設(shè)計和精準醫(yī)療等場景中釋放AI技術(shù)潛力。

接下來,百度還將前往更大的產(chǎn)業(yè)舞臺去釋放生物計算的潛能。

激昂樂章:百度的下一次大考

從技術(shù)成熟走向普適的行業(yè)生長,需要更大舞臺、更多生態(tài)合作伙伴的協(xié)作。一條完整良性的生物科技產(chǎn)業(yè)鏈,才能源源不斷地激發(fā)出創(chuàng)新力。

在這一點上,可以再一次看到百度的技術(shù)長期主義。與昔日成立研究院投身前瞻AI領(lǐng)域一樣,百度也在不斷加碼生物計算的投入與布局。

尤其是在產(chǎn)業(yè)生態(tài)的支持上,“百圖生科”(英文名稱“BioMap”)正式成立,一方面與為生命科學企業(yè)和科研用戶提供工具和解決方案,深度參與或主導發(fā)起新型精準藥物和精準診斷產(chǎn)品的研發(fā),探索前沿生命科學的“無人區(qū)”;

另一方面,則聚焦于孵化中國的生物計算產(chǎn)業(yè)生態(tài)。與提供新的數(shù)據(jù)軸和新的數(shù)據(jù)分析、藥物設(shè)計工具的初創(chuàng)企業(yè)與研究機構(gòu)攜手,構(gòu)建開放的生物計算創(chuàng)新生態(tài)。前不久,百圖生科宣布,將提供自身研發(fā)的核心生物計算引擎、海量自有數(shù)據(jù)、10億元的資金補貼,與聯(lián)盟伙伴共同打造國際領(lǐng)先的“免疫圖譜”。通過凝聚計算產(chǎn)業(yè)、AI領(lǐng)域、生物行業(yè)等不同領(lǐng)域的力量,共同為人類的終極健康福祉打造一艘未來方舟。

無論人工智能還是生物計算,百度能夠在每一次國家戰(zhàn)略級科技競速中搶占先機,這件事聽起來難,做起來更難,可以總結(jié)為幾個原因:

一是耐得苦寒的技術(shù)信仰。生物計算和AI一樣,需要長時間投入來形成技術(shù)優(yōu)勢積累,而百度在研發(fā)領(lǐng)域的投入有目共睹。李彥宏曾表示,“在生命健康這個最關(guān)鍵的領(lǐng)域,哪怕投入再大、風險再高、周期再長,我們也要堅決地做。生命科學沒有盡頭,只有盡力”,百度在生物計算上持續(xù)投入的決心由此可見。

二是尊重技術(shù)的落地節(jié)奏。和很多人幻想中“AI一出大殺四方”的途徑不同,技術(shù)落地也需要與產(chǎn)業(yè)需求、業(yè)務(wù)場景深入結(jié)合,百度在智能化進程中服務(wù)行業(yè)及企業(yè)的經(jīng)驗?zāi)軌蛲苿由镉嬎阊驖u進、釋放紅利。

三是利他的生態(tài)品牌。建立生態(tài)必須要贏得合作伙伴的信任,除了強大的技術(shù)研發(fā)創(chuàng)新能力,還要有開源開放的平臺價值、愿意承擔社會責任的利他心態(tài),才能吸引中國醫(yī)藥生物產(chǎn)業(yè)界來攜手同行。

當技術(shù)、產(chǎn)業(yè)、生態(tài)等一個個門檻被跨越,生物計算的前景自然也水到渠成。生物技術(shù)與智能技術(shù)這支協(xié)奏曲,也將經(jīng)久不息地綿延下去。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-06-30
生物與AI的雙螺旋,正在被百度刻進DNA
比如百度在疫情期間相繼開源的LinearRNA系列算法,就利用AI算法和AI算力,在十數(shù)分鐘內(nèi)就能夠計算設(shè)計出理論上的mRNA序列,讓緩慢高成本的疫苗設(shè)計流程大大加速。

長按掃碼 閱讀全文