近日,華為與高毅勤教授團(tuán)隊、田長麟教授團(tuán)隊、王申林教授團(tuán)隊合作,基于昇騰AI基礎(chǔ)軟硬件平臺與昇思MindSpore AI框架開發(fā)了核磁共振波譜法(NMR)數(shù)據(jù)自動解析方法FAAST(iterative Folding Assisted peak ASsignmenT),利用昇思MindSpore SPONGE生物計算套件實現(xiàn)了NMR數(shù)據(jù)解析時間從數(shù)月到數(shù)小時的縮短,與現(xiàn)有方法相比效率提升超過10倍。
蛋白質(zhì)是生命活動的主要承擔(dān)者,獲取蛋白質(zhì)結(jié)構(gòu)是現(xiàn)代藥物研發(fā)流程中不可或缺的環(huán)節(jié)。由于藥物一般在溶液態(tài)環(huán)境下與目標(biāo)蛋白結(jié)合發(fā)揮作用,蛋白質(zhì)的溶液態(tài)(動態(tài))結(jié)構(gòu)對于藥物研發(fā)與生命活動研究具有重要意義。
蛋白質(zhì)YgaP的硫氰酸酶結(jié)構(gòu)域
核磁共振方法測得的溶液態(tài)結(jié)構(gòu)(左)與X射線法測得的晶體態(tài)結(jié)構(gòu)(右)
已有的蛋白質(zhì)結(jié)構(gòu)計算方法如MEGA-Fold/AlphaFold以預(yù)測單一構(gòu)象為主[1][2],在模型預(yù)測信息和實驗信息不一致時難以處理兩者誤差。如何應(yīng)用AI模型輔助實驗結(jié)構(gòu)解析、應(yīng)用實驗信號幫助提高結(jié)構(gòu)預(yù)測精度等問題依然亟待解決。核磁共振方法(NMR)是唯一一種以原子分辨率解析更貼近蛋白質(zhì)在實際環(huán)境下的溶液態(tài)構(gòu)象與動態(tài)結(jié)構(gòu)的方法 [3],然而該方法存在數(shù)據(jù)解析速度慢的問題,平均單條蛋白需領(lǐng)域?qū)<彝度胫辽贁?shù)月,而其中大部分時間都消耗在實驗數(shù)據(jù)的解析和歸屬上。
為了提高 NMR 實驗數(shù)據(jù)解析的速度和準(zhǔn)確性,華為與高毅勤教授團(tuán)隊(昌平實驗室、北京大學(xué)化學(xué)與分子工程學(xué)院和生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC))、田長麟教授團(tuán)隊(中國科技大學(xué)、中科院強(qiáng)磁場科學(xué)中心)、王申林教授團(tuán)隊(華東理工大學(xué)生物反應(yīng)器工程國家重點實驗室)合作,基于昇騰AI和昇思MindSpore開發(fā)了NMR數(shù)據(jù)(NOESY譜)自動解析方法FAAST(iterative Folding Assisted peak ASsignmenT)[4],實現(xiàn)了NMR數(shù)據(jù)解析時間從數(shù)月到數(shù)小時的縮短,相關(guān)代碼已通過在開源社區(qū)Gitee的MindSpore SPONGE 代碼倉開源[5]。
現(xiàn)有方法核磁共振數(shù)據(jù)解析流程
FAAST核磁共振數(shù)據(jù)解析流程
FAAST方法融合了自主創(chuàng)新的AI+約束結(jié)構(gòu)預(yù)測模型RASP(Restraints Assisted Structure Predictor),該模型可以生成滿足NMR實驗測得的結(jié)構(gòu)約束的蛋白質(zhì)結(jié)構(gòu)?;赗ASP模型,F(xiàn)AAST可以實現(xiàn)數(shù)據(jù)解析和結(jié)構(gòu)預(yù)測的交互迭代,自動解析NMR數(shù)據(jù)并獲取蛋白質(zhì)動態(tài)結(jié)構(gòu)與結(jié)構(gòu)約束信息,在解析精度與領(lǐng)域?qū)<医馕龀制降那疤嵯?,實現(xiàn)了NMR數(shù)據(jù)解析時間從數(shù)月到數(shù)小時的縮短。
解析精度對比
核磁共振方法各階段耗時對比
FAAST 方法大幅降低了 NMR 實驗數(shù)據(jù)解析的門檻。應(yīng)用該方法,領(lǐng)域?qū)<铱梢詮姆爆嵉臄?shù)據(jù)解析工作中釋放精力,專注于實驗設(shè)計和所得結(jié)構(gòu)的生物學(xué)分析,推動生命科學(xué)研究和藥物研發(fā)流程取得新突破。
北京大學(xué)博雅特聘教授、北大-清華生命科學(xué)聯(lián)合中心研究員唐淳教授認(rèn)為,該工作不僅可以將核磁共振實驗約束引入到結(jié)構(gòu)預(yù)測,還可以用來引入其他的約束。如質(zhì)譜交聯(lián)[6]、熒光共振能量轉(zhuǎn)移[7]都可以作為距離約束,可以全面互補(bǔ)的來對蛋白結(jié)構(gòu)優(yōu)化。因此,高毅勤團(tuán)隊所開發(fā)的這一方法也會在整合結(jié)構(gòu)生物學(xué)得到廣泛的應(yīng)用。
[1] Jumper J, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021 Aug;596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15. PMID: 34265844; PMCID: PMC8371605.
[2] Liu S, Zhang J, Chu H, et al. PSP: million-level protein sequence dataset for protein structure prediction[J]. arXiv preprint arXiv:2206.12240, 2022.
[3] Lutomski CA, El-Baba TJ, Robinson CV, Riek R, Scheres SHW, Yan N, AlQuraishi M, Gan L. The next decade of protein structure. Cell. 2022 Jul 21;185(15):2617-2620. doi: 10.1016/j.cell.2022.06.011. PMID: 35868264.
[4] Liu S, Chu H, Xie Y, et al. Assisting and Accelerating NMR Assignment with Restrainted Structure Prediction[J]. bioRxiv, 2023: 2023.04. 14.536890.
[5] https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/applications/research/FAAST
[6] Stahl, K., et al., Protein structure prediction with in-cell photo-crosslinking mass spectrometry and deep learning. Nat Biotechnol, 2023.
[7] Tang, C. and Z. Gong, Integrating Non-NMR Distance Restraints to Augment NMR Depiction of Protein Structure and Dynamics. J Mol Biol, 2020. 432(9): p. 2913-2929.
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )