AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?

原標題:AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?

近期在生命科學領(lǐng)域,有一則爆炸性的新聞,DeepMind 的Al phaFold2模型,將人類的98.5%的蛋白質(zhì),全部預測了一遍,并且做成了數(shù)據(jù)集免費開源,供科研圈的人使用。

開放的數(shù)據(jù)集不僅包括人類蛋白質(zhì)組,還有大腸桿菌、果蠅、小鼠等20個具有科研常用生物的蛋白質(zhì)組數(shù)據(jù),總計超過35萬個蛋白質(zhì)的結(jié)構(gòu)。AlphaFold2模型的目標是為所有具有已知序列的蛋白提供預測結(jié)構(gòu)。Deepmind計劃在年底將預測數(shù)量增加到1.3億個,而這個數(shù)量已經(jīng)達到了人類已知蛋白質(zhì)總數(shù)的一半。

科研圈因為這一新聞都炸鍋了,平時需要花費數(shù)月、數(shù)年的才能完成的事情,只需要幾天就可以搞定,大家無一不在贊嘆這個具有劃時代意義的時刻。DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis談道:“我認為這是DeepMind整個10年多生命周期的頂峰。”對于研究人員來說,豐富的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)有了,開展下一步的研究就順暢了。

內(nèi)行人看門道,外行人看熱鬧,對于學術(shù)圈人的集體高潮,外行人的內(nèi)心都有個大大的問號,預測這么多的蛋白質(zhì)結(jié)構(gòu)究竟有什么卵用?人類為何一直在和蛋白質(zhì)死磕?

研究蛋白質(zhì)的意義

回答這個問題之前,不得不提及生命科學領(lǐng)域最重要的中心法則:遺傳信息在細胞內(nèi)的生物大分子間轉(zhuǎn)錄從DNA→RNA→蛋白質(zhì)。

如何理解呢?在生物世代繁衍的過程中,生物會把自身攜帶的遺傳物質(zhì)DNA分子,通過復制傳遞給后代,而在每一代生物從生到死的過程中,這套DNA分子以自身為設(shè)計藍圖,指導生產(chǎn)大量的蛋白質(zhì)分子,執(zhí)行支持生物生存和活動的全部功能。

中心法則的一端是DNA,一端是蛋白質(zhì),DNA可以看做是工廠里面生產(chǎn)制造的設(shè)計圖紙,而蛋白質(zhì)就是有各種功能的零部件,造出來的蛋白質(zhì)有的跑去參與體內(nèi)各種生物化學反應,比如食物的消化有各種酶的參與,有的在血液中(血紅蛋白)積極的運輸養(yǎng)料,有的作為信使在細胞之間傳遞信號,有的作為衛(wèi)士,參與生物體的免疫大戰(zhàn),各種設(shè)計組裝出廠的不同蛋白質(zhì)可以讓遺傳、發(fā)育、繁殖、代謝等生命活動正常運行開展。

對蛋白質(zhì)進行系統(tǒng)深入的研究,能讓我們從更深層次詮釋生命體的構(gòu)成和運作變化規(guī)律,進而全面揭示生命運行、發(fā)展的機制,激發(fā)生物科學、藥物研發(fā)、合成生物學方面的發(fā)展。

我們在中學就已經(jīng)簡單了解過蛋白質(zhì)了。蛋白質(zhì)是生物構(gòu)成的重要基本物質(zhì),由各種氨基酸組成,其排列方式和位置的差異使得其種類極其繁多,結(jié)構(gòu)復雜。每種蛋白質(zhì)的空間結(jié)構(gòu)和功能都大不相同,也因為蛋白質(zhì)的空間結(jié)構(gòu),不同的折疊方式使得蛋白質(zhì)具有的活性和生物性能不定,而這個復雜的特性也就注定了研究蛋白質(zhì)的路徑困難重重。

蛋白質(zhì)研究的波折之路

蛋白質(zhì)早在18世紀就被法國化學家發(fā)現(xiàn),但是因為技術(shù)條件的限制,直到20世紀初,科學家才能根據(jù)一些技術(shù)去深入的研究蛋白質(zhì)。因為蛋白質(zhì)結(jié)構(gòu)的復雜與種類極其繁多,研究了解的過程極其費時費力。

對于早期的生化學家來說,研究蛋白質(zhì)的困難在于難以獲取大量的純化的蛋白質(zhì)用于研究,因此早期的研究工作就是在各種純化蛋白質(zhì)的路上。后來有生物公司1950年在牛胰腺中純化了核糖核酸酶a,并免費提供給科學家使用,科學家的大量試驗逐漸打開。

1949年,英國生化學家桑格用8年的時間測試出了胰島素(蛋白質(zhì))的51個氨基酸的排列順序,驗證了蛋白質(zhì)是由氨基酸所形成的線性多聚體。因這一研究桑格被授予1958年諾貝爾化學獎。人們運用桑格的方法對許多別的蛋白質(zhì)迅速進行了測序,桑格的研究為1965年第一次人工合成胰島素鋪平了道路。

人類第一次知悉蛋白質(zhì)分子結(jié)構(gòu)是在1959年,英國科學家 Max Perutz 利用X射線衍射的方法,根據(jù)射線被散射的角度推測電子的位置解析了肌紅蛋白分子的三維結(jié)構(gòu),自此之后,X射線衍射成為解析高分辨率蛋白質(zhì)結(jié)構(gòu)最有力的工具。除了X射線衍射之外,后期科學家們常用的研究工具還有核磁共振與冷凍電子顯微鏡技術(shù)。

雖然有設(shè)備輔助研究,但是現(xiàn)實測試技術(shù)的局限,施行起來成本過高,按照傳統(tǒng)的實驗步驟,從基因序列到相應的蛋白質(zhì)結(jié)構(gòu)測定之間還要經(jīng)過基因表達、蛋白質(zhì)的提取和純化、結(jié)晶、X射線衍射分析等步驟。由于蛋白質(zhì)結(jié)構(gòu)和性質(zhì)的多樣性,這些步驟大多沒有固定的規(guī)律可循。

歷史上有科學家耗費幾十年時間才能得到一個清晰的蛋白質(zhì)三維結(jié)構(gòu),蛋白質(zhì)三維結(jié)構(gòu)的測定成了生物學領(lǐng)域非常困難的研究。至今為止沒有AI技術(shù)的協(xié)助,三維結(jié)構(gòu)被看清的量也僅僅只有17萬個,這跟蛋白質(zhì)的總量相比差距大的跟九牛一毛似的。

對于蛋白質(zhì)的結(jié)構(gòu)來說,就算我們看得清測得出它的形態(tài),但是關(guān)于其折疊的方向在三維空間中有10^300種方式,為何就選擇折疊為現(xiàn)在的狀態(tài),這個過程和選擇的路徑?jīng)]法解析。因為研究的方法與內(nèi)容都極其困難,所以研究蛋白質(zhì)的結(jié)構(gòu)以及定性就真的只有死磕這一條路了。半個多世紀以來,研究蛋白質(zhì)結(jié)構(gòu)的相關(guān)工作只要有新的發(fā)現(xiàn)就會喜提諾貝爾獎,至今為止僅僅蛋白質(zhì)領(lǐng)域已經(jīng)拿過20多項諾貝爾獎。

也有一批科學家跳出肉眼觀測的技術(shù)思路困境,另辟蹊徑,繞開費事費錢的傳統(tǒng)技術(shù)的試驗步驟,從蛋白質(zhì)的氨基酸序列直接進行計算預測它們的三維結(jié)構(gòu)。

站在AI巨人肩膀上研發(fā)

實現(xiàn)從氨基酸預測蛋白質(zhì)結(jié)構(gòu)的大前提就是計算機技術(shù)的發(fā)展。1998年,華盛頓大學的 David Baker 教授開發(fā)了一套名為 “Rosetta”(羅塞塔石碑)的計算機程序來預測蛋白質(zhì)結(jié)構(gòu)。但是因為算力的有限,不能暴力地窮舉,因此在早期的預測中,主要用來處理氨基酸數(shù)量很小、排列比較規(guī)則的蛋白質(zhì)。對于復雜的蛋白質(zhì)也只能望洋興嘆了。

為了獲得對蛋白質(zhì)結(jié)構(gòu)預測技術(shù)水平的客觀評估,由馬里蘭大學的John Moult領(lǐng)導的一組科學家在1994年創(chuàng)立了CASP(結(jié)構(gòu)預測的關(guān)鍵評估),預測者可以在一個雙盲框架內(nèi)評估他們的方法,以促進研究、監(jiān)測進展,并建立蛋白質(zhì)結(jié)構(gòu)預測的最新水平。

得益于卷積神經(jīng)網(wǎng)絡的發(fā)展,Deepmind的研究在第十四屆CASP比賽中大放異彩,團隊使用基于注意力機制的神經(jīng)網(wǎng)絡,依靠端到端的優(yōu)化整體構(gòu)建結(jié)構(gòu),內(nèi)置了大量的序列、結(jié)構(gòu)和宏基因組等多重比較信息,其預測的GDT-TS中值達到了92.4分,遠遠高于第二名。這是個什么水平呢?據(jù)悉,GDT-TS的得分在70分左右,說明其結(jié)果具有準確的全局和局部拓撲結(jié)構(gòu)的模型。超過80分,結(jié)構(gòu)細節(jié)的建模越來越正確,超過95分,模型就像根據(jù)實驗數(shù)據(jù)建立的模型一樣準確。

人工智能技術(shù)作為預測蛋白質(zhì)結(jié)構(gòu)的輔助手段,通過暴力的學習窮舉,將科學家本來需要幾年幾十年預測的時間縮短為幾日,并且對于簡單地蛋白質(zhì)分子來說結(jié)構(gòu)的預測已經(jīng)非常精準,而這樣的結(jié)局就會讓科學家們轉(zhuǎn)身投入到深度理解蛋白質(zhì)本身的機理的研究中。

縱觀科學史,每次科學家在所在領(lǐng)域內(nèi)取得重大的進步,都離不開當時技術(shù)的支持。無論是在蛋白質(zhì)提純的困難年代,還是觀察蛋白質(zhì)的冷電鏡技術(shù)時代,科學家研究的工具都依賴于當時的最高科技水平。在AI時代,因為算力和算法模型的極大提升,我們見證了蛋白質(zhì)結(jié)構(gòu)預測的歷史時刻。

AlphaFold2的數(shù)據(jù)庫現(xiàn)已開源并且還在不斷地增加新蛋白質(zhì)結(jié)構(gòu)預測,這也成為了科學家進行蛋白質(zhì)研究的寶藏數(shù)據(jù)庫。不過算出結(jié)構(gòu)也只是生物科學領(lǐng)域的初步階段,指明了方向后續(xù)的進展還得需要試驗與頭腦的風暴。對于沒有在已有蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集訓練的其他蛋白質(zhì)結(jié)構(gòu),其研究仍然是謎一般的存在,這也給科學家們留下了很大的研究空間。

不過AlphaFold2 這樣的高精度模型,總的來說還是極大地推動科學家的研究與發(fā)展,拓展了對蛋白質(zhì)進行功能分析、以及下游應用的范圍,科學家們得以在各個領(lǐng)域展開開拓性的研究,比如一些癌癥、病毒類感染的疾病研究,抗生素、靶向藥的開發(fā),研發(fā)新效率的酶等為健康與環(huán)保的層面做出貢獻。

站在神經(jīng)網(wǎng)絡與深度學習的技術(shù)巨人的肩膀上,生命科學領(lǐng)域的發(fā)展已經(jīng)有了質(zhì)的飛躍,AI對于蛋白質(zhì)的預測也不再依賴人類的先驗知識去做結(jié)構(gòu)預測,相比幾年前引起轟動的 AlphaGo,AlphaFold 也讓深度學習與神經(jīng)網(wǎng)絡好好秀了把肌肉??茖W的創(chuàng)新離不開技術(shù)工具的強力輔助,而蛋白質(zhì)這個能夠影響生命進程的分子,技術(shù)為我們打開了研究它的大門,這些海量的蛋白質(zhì)結(jié)構(gòu)信息被技術(shù)釋放,背后的解讀與分析可能蘊含著生命信息的密碼。下一個生命科學領(lǐng)域的革命性研究成果,炸出來的是什么我們無法想象。在生命科學研究中體驗開盲盒的快樂,也是從來沒有想過的驚喜,期待下一個未來。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2021-07-30
AlphaFold2爆火背后,人類為什么要死磕蛋白質(zhì)?
人工智能技術(shù)作為預測蛋白質(zhì)結(jié)構(gòu)的輔助手段,通過暴力的學習窮舉,將科學家本來需要幾年幾十年預測的時間縮短為幾日,并且對于簡單地蛋白質(zhì)分子來說結(jié)構(gòu)的預測已經(jīng)非常精準,而這樣的結(jié)局就會讓科學家們轉(zhuǎn)身投入到

長按掃碼 閱讀全文