AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?

原標(biāo)題:AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?

近期在生命科學(xué)領(lǐng)域,有一則爆炸性的新聞,DeepMind 的Al phaFold2模型,將人類的98.5%的蛋白質(zhì),全部預(yù)測(cè)了一遍,并且做成了數(shù)據(jù)集免費(fèi)開(kāi)源,供科研圈的人使用。

開(kāi)放的數(shù)據(jù)集不僅包括人類蛋白質(zhì)組,還有大腸桿菌、果蠅、小鼠等20個(gè)具有科研常用生物的蛋白質(zhì)組數(shù)據(jù),總計(jì)超過(guò)35萬(wàn)個(gè)蛋白質(zhì)的結(jié)構(gòu)。AlphaFold2模型的目標(biāo)是為所有具有已知序列的蛋白提供預(yù)測(cè)結(jié)構(gòu)。Deepmind計(jì)劃在年底將預(yù)測(cè)數(shù)量增加到1.3億個(gè),而這個(gè)數(shù)量已經(jīng)達(dá)到了人類已知蛋白質(zhì)總數(shù)的一半。

科研圈因?yàn)檫@一新聞都炸鍋了,平時(shí)需要花費(fèi)數(shù)月、數(shù)年的才能完成的事情,只需要幾天就可以搞定,大家無(wú)一不在贊嘆這個(gè)具有劃時(shí)代意義的時(shí)刻。DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis談道:“我認(rèn)為這是DeepMind整個(gè)10年多生命周期的頂峰?!睂?duì)于研究人員來(lái)說(shuō),豐富的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)有了,開(kāi)展下一步的研究就順暢了。

內(nèi)行人看門(mén)道,外行人看熱鬧,對(duì)于學(xué)術(shù)圈人的集體高潮,外行人的內(nèi)心都有個(gè)大大的問(wèn)號(hào),預(yù)測(cè)這么多的蛋白質(zhì)結(jié)構(gòu)究竟有什么卵用?人類為何一直在和蛋白質(zhì)死磕?

研究蛋白質(zhì)的意義

回答這個(gè)問(wèn)題之前,不得不提及生命科學(xué)領(lǐng)域最重要的中心法則:遺傳信息在細(xì)胞內(nèi)的生物大分子間轉(zhuǎn)錄從DNA→RNA→蛋白質(zhì)。

如何理解呢?在生物世代繁衍的過(guò)程中,生物會(huì)把自身攜帶的遺傳物質(zhì)DNA分子,通過(guò)復(fù)制傳遞給后代,而在每一代生物從生到死的過(guò)程中,這套DNA分子以自身為設(shè)計(jì)藍(lán)圖,指導(dǎo)生產(chǎn)大量的蛋白質(zhì)分子,執(zhí)行支持生物生存和活動(dòng)的全部功能。

中心法則的一端是DNA,一端是蛋白質(zhì),DNA可以看做是工廠里面生產(chǎn)制造的設(shè)計(jì)圖紙,而蛋白質(zhì)就是有各種功能的零部件,造出來(lái)的蛋白質(zhì)有的跑去參與體內(nèi)各種生物化學(xué)反應(yīng),比如食物的消化有各種酶的參與,有的在血液中(血紅蛋白)積極的運(yùn)輸養(yǎng)料,有的作為信使在細(xì)胞之間傳遞信號(hào),有的作為衛(wèi)士,參與生物體的免疫大戰(zhàn),各種設(shè)計(jì)組裝出廠的不同蛋白質(zhì)可以讓遺傳、發(fā)育、繁殖、代謝等生命活動(dòng)正常運(yùn)行開(kāi)展。

對(duì)蛋白質(zhì)進(jìn)行系統(tǒng)深入的研究,能讓我們從更深層次詮釋生命體的構(gòu)成和運(yùn)作變化規(guī)律,進(jìn)而全面揭示生命運(yùn)行、發(fā)展的機(jī)制,激發(fā)生物科學(xué)、藥物研發(fā)、合成生物學(xué)方面的發(fā)展。

我們?cè)谥袑W(xué)就已經(jīng)簡(jiǎn)單了解過(guò)蛋白質(zhì)了。蛋白質(zhì)是生物構(gòu)成的重要基本物質(zhì),由各種氨基酸組成,其排列方式和位置的差異使得其種類極其繁多,結(jié)構(gòu)復(fù)雜。每種蛋白質(zhì)的空間結(jié)構(gòu)和功能都大不相同,也因?yàn)榈鞍踪|(zhì)的空間結(jié)構(gòu),不同的折疊方式使得蛋白質(zhì)具有的活性和生物性能不定,而這個(gè)復(fù)雜的特性也就注定了研究蛋白質(zhì)的路徑困難重重。

蛋白質(zhì)研究的波折之路

蛋白質(zhì)早在18世紀(jì)就被法國(guó)化學(xué)家發(fā)現(xiàn),但是因?yàn)榧夹g(shù)條件的限制,直到20世紀(jì)初,科學(xué)家才能根據(jù)一些技術(shù)去深入的研究蛋白質(zhì)。因?yàn)榈鞍踪|(zhì)結(jié)構(gòu)的復(fù)雜與種類極其繁多,研究了解的過(guò)程極其費(fèi)時(shí)費(fèi)力。

對(duì)于早期的生化學(xué)家來(lái)說(shuō),研究蛋白質(zhì)的困難在于難以獲取大量的純化的蛋白質(zhì)用于研究,因此早期的研究工作就是在各種純化蛋白質(zhì)的路上。后來(lái)有生物公司1950年在牛胰腺中純化了核糖核酸酶a,并免費(fèi)提供給科學(xué)家使用,科學(xué)家的大量試驗(yàn)逐漸打開(kāi)。

1949年,英國(guó)生化學(xué)家桑格用8年的時(shí)間測(cè)試出了胰島素(蛋白質(zhì))的51個(gè)氨基酸的排列順序,驗(yàn)證了蛋白質(zhì)是由氨基酸所形成的線性多聚體。因這一研究桑格被授予1958年諾貝爾化學(xué)獎(jiǎng)。人們運(yùn)用桑格的方法對(duì)許多別的蛋白質(zhì)迅速進(jìn)行了測(cè)序,桑格的研究為1965年第一次人工合成胰島素鋪平了道路。

人類第一次知悉蛋白質(zhì)分子結(jié)構(gòu)是在1959年,英國(guó)科學(xué)家 Max Perutz 利用X射線衍射的方法,根據(jù)射線被散射的角度推測(cè)電子的位置解析了肌紅蛋白分子的三維結(jié)構(gòu),自此之后,X射線衍射成為解析高分辨率蛋白質(zhì)結(jié)構(gòu)最有力的工具。除了X射線衍射之外,后期科學(xué)家們常用的研究工具還有核磁共振與冷凍電子顯微鏡技術(shù)。

雖然有設(shè)備輔助研究,但是現(xiàn)實(shí)測(cè)試技術(shù)的局限,施行起來(lái)成本過(guò)高,按照傳統(tǒng)的實(shí)驗(yàn)步驟,從基因序列到相應(yīng)的蛋白質(zhì)結(jié)構(gòu)測(cè)定之間還要經(jīng)過(guò)基因表達(dá)、蛋白質(zhì)的提取和純化、結(jié)晶、X射線衍射分析等步驟。由于蛋白質(zhì)結(jié)構(gòu)和性質(zhì)的多樣性,這些步驟大多沒(méi)有固定的規(guī)律可循。

歷史上有科學(xué)家耗費(fèi)幾十年時(shí)間才能得到一個(gè)清晰的蛋白質(zhì)三維結(jié)構(gòu),蛋白質(zhì)三維結(jié)構(gòu)的測(cè)定成了生物學(xué)領(lǐng)域非常困難的研究。至今為止沒(méi)有AI技術(shù)的協(xié)助,三維結(jié)構(gòu)被看清的量也僅僅只有17萬(wàn)個(gè),這跟蛋白質(zhì)的總量相比差距大的跟九牛一毛似的。

對(duì)于蛋白質(zhì)的結(jié)構(gòu)來(lái)說(shuō),就算我們看得清測(cè)得出它的形態(tài),但是關(guān)于其折疊的方向在三維空間中有10^300種方式,為何就選擇折疊為現(xiàn)在的狀態(tài),這個(gè)過(guò)程和選擇的路徑?jīng)]法解析。因?yàn)檠芯康姆椒ㄅc內(nèi)容都極其困難,所以研究蛋白質(zhì)的結(jié)構(gòu)以及定性就真的只有死磕這一條路了。半個(gè)多世紀(jì)以來(lái),研究蛋白質(zhì)結(jié)構(gòu)的相關(guān)工作只要有新的發(fā)現(xiàn)就會(huì)喜提諾貝爾獎(jiǎng),至今為止僅僅蛋白質(zhì)領(lǐng)域已經(jīng)拿過(guò)20多項(xiàng)諾貝爾獎(jiǎng)。

也有一批科學(xué)家跳出肉眼觀測(cè)的技術(shù)思路困境,另辟蹊徑,繞開(kāi)費(fèi)事費(fèi)錢(qián)的傳統(tǒng)技術(shù)的試驗(yàn)步驟,從蛋白質(zhì)的氨基酸序列直接進(jìn)行計(jì)算預(yù)測(cè)它們的三維結(jié)構(gòu)。

站在AI巨人肩膀上研發(fā)

實(shí)現(xiàn)從氨基酸預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的大前提就是計(jì)算機(jī)技術(shù)的發(fā)展。1998年,華盛頓大學(xué)的 David Baker 教授開(kāi)發(fā)了一套名為 “Rosetta”(羅塞塔石碑)的計(jì)算機(jī)程序來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。但是因?yàn)樗懔Φ挠邢?,不能暴力地窮舉,因此在早期的預(yù)測(cè)中,主要用來(lái)處理氨基酸數(shù)量很小、排列比較規(guī)則的蛋白質(zhì)。對(duì)于復(fù)雜的蛋白質(zhì)也只能望洋興嘆了。

為了獲得對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)水平的客觀評(píng)估,由馬里蘭大學(xué)的John Moult領(lǐng)導(dǎo)的一組科學(xué)家在1994年創(chuàng)立了CASP(結(jié)構(gòu)預(yù)測(cè)的關(guān)鍵評(píng)估),預(yù)測(cè)者可以在一個(gè)雙盲框架內(nèi)評(píng)估他們的方法,以促進(jìn)研究、監(jiān)測(cè)進(jìn)展,并建立蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的最新水平。

得益于卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,Deepmind的研究在第十四屆CASP比賽中大放異彩,團(tuán)隊(duì)使用基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò),依靠端到端的優(yōu)化整體構(gòu)建結(jié)構(gòu),內(nèi)置了大量的序列、結(jié)構(gòu)和宏基因組等多重比較信息,其預(yù)測(cè)的GDT-TS中值達(dá)到了92.4分,遠(yuǎn)遠(yuǎn)高于第二名。這是個(gè)什么水平呢?據(jù)悉,GDT-TS的得分在70分左右,說(shuō)明其結(jié)果具有準(zhǔn)確的全局和局部拓?fù)浣Y(jié)構(gòu)的模型。超過(guò)80分,結(jié)構(gòu)細(xì)節(jié)的建模越來(lái)越正確,超過(guò)95分,模型就像根據(jù)實(shí)驗(yàn)數(shù)據(jù)建立的模型一樣準(zhǔn)確。

人工智能技術(shù)作為預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的輔助手段,通過(guò)暴力的學(xué)習(xí)窮舉,將科學(xué)家本來(lái)需要幾年幾十年預(yù)測(cè)的時(shí)間縮短為幾日,并且對(duì)于簡(jiǎn)單地蛋白質(zhì)分子來(lái)說(shuō)結(jié)構(gòu)的預(yù)測(cè)已經(jīng)非常精準(zhǔn),而這樣的結(jié)局就會(huì)讓科學(xué)家們轉(zhuǎn)身投入到深度理解蛋白質(zhì)本身的機(jī)理的研究中。

縱觀科學(xué)史,每次科學(xué)家在所在領(lǐng)域內(nèi)取得重大的進(jìn)步,都離不開(kāi)當(dāng)時(shí)技術(shù)的支持。無(wú)論是在蛋白質(zhì)提純的困難年代,還是觀察蛋白質(zhì)的冷電鏡技術(shù)時(shí)代,科學(xué)家研究的工具都依賴于當(dāng)時(shí)的最高科技水平。在AI時(shí)代,因?yàn)樗懔退惴P偷臉O大提升,我們見(jiàn)證了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的歷史時(shí)刻。

AlphaFold2的數(shù)據(jù)庫(kù)現(xiàn)已開(kāi)源并且還在不斷地增加新蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),這也成為了科學(xué)家進(jìn)行蛋白質(zhì)研究的寶藏?cái)?shù)據(jù)庫(kù)。不過(guò)算出結(jié)構(gòu)也只是生物科學(xué)領(lǐng)域的初步階段,指明了方向后續(xù)的進(jìn)展還得需要試驗(yàn)與頭腦的風(fēng)暴。對(duì)于沒(méi)有在已有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集訓(xùn)練的其他蛋白質(zhì)結(jié)構(gòu),其研究仍然是謎一般的存在,這也給科學(xué)家們留下了很大的研究空間。

不過(guò)AlphaFold2 這樣的高精度模型,總的來(lái)說(shuō)還是極大地推動(dòng)科學(xué)家的研究與發(fā)展,拓展了對(duì)蛋白質(zhì)進(jìn)行功能分析、以及下游應(yīng)用的范圍,科學(xué)家們得以在各個(gè)領(lǐng)域展開(kāi)開(kāi)拓性的研究,比如一些癌癥、病毒類感染的疾病研究,抗生素、靶向藥的開(kāi)發(fā),研發(fā)新效率的酶等為健康與環(huán)保的層面做出貢獻(xiàn)。

站在神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的技術(shù)巨人的肩膀上,生命科學(xué)領(lǐng)域的發(fā)展已經(jīng)有了質(zhì)的飛躍,AI對(duì)于蛋白質(zhì)的預(yù)測(cè)也不再依賴人類的先驗(yàn)知識(shí)去做結(jié)構(gòu)預(yù)測(cè),相比幾年前引起轟動(dòng)的 AlphaGo,AlphaFold 也讓深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)好好秀了把肌肉??茖W(xué)的創(chuàng)新離不開(kāi)技術(shù)工具的強(qiáng)力輔助,而蛋白質(zhì)這個(gè)能夠影響生命進(jìn)程的分子,技術(shù)為我們打開(kāi)了研究它的大門(mén),這些海量的蛋白質(zhì)結(jié)構(gòu)信息被技術(shù)釋放,背后的解讀與分析可能蘊(yùn)含著生命信息的密碼。下一個(gè)生命科學(xué)領(lǐng)域的革命性研究成果,炸出來(lái)的是什么我們無(wú)法想象。在生命科學(xué)研究中體驗(yàn)開(kāi)盲盒的快樂(lè),也是從來(lái)沒(méi)有想過(guò)的驚喜,期待下一個(gè)未來(lái)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2021-07-30
AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?
人工智能技術(shù)作為預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的輔助手段,通過(guò)暴力的學(xué)習(xí)窮舉,將科學(xué)家本來(lái)需要幾年幾十年預(yù)測(cè)的時(shí)間縮短為幾日,并且對(duì)于簡(jiǎn)單地蛋白質(zhì)分子來(lái)說(shuō)結(jié)構(gòu)的預(yù)測(cè)已經(jīng)非常精準(zhǔn),而這樣的結(jié)局就會(huì)讓科學(xué)家們轉(zhuǎn)身投入到

長(zhǎng)按掃碼 閱讀全文