圖片來源:intel官網(wǎng)
關(guān)注中國醫(yī)藥行業(yè)發(fā)展動態(tài)的人可能都還記得:2021年6月經(jīng)國家食藥監(jiān)管理局批準(zhǔn)上市的某新型靶向療法,曾在社會上引起長時間的關(guān)注與熱議。大家的好奇心和討論焦點,不僅僅在于它在臨床實踐中體現(xiàn)出的療效是否符合預(yù)期,還有一個關(guān)鍵詞,也頻頻出現(xiàn)在各類相關(guān)新聞報道中,那就是“120萬一針”。
一款新藥的使用成本為何會如此昂貴?這就不得不提及醫(yī)藥研發(fā)領(lǐng)域的一個經(jīng)典說法:“十年+十億美金”,它表明一款新藥的開發(fā),不僅周期漫長、成本高昂,而且成功率低。但與此同時,世界上還有30000多種疾病,尚未找到對癥的藥物。因此讓更多患者有藥可醫(yī),這是強勁的社會剛需,也是醫(yī)學(xué)界的目標(biāo)所在。
所幸的是,大數(shù)據(jù)與人工智能(Artificial Intelligence,AI)的興起,正讓新藥的研發(fā)走出這個“雙十”困局,使藥物研發(fā)的進度得以加速,成功率得以提高,同時成本也得以大大降低。
01、新藥研發(fā)搭上AI快車
AI對比人腦有著“做得更快、更準(zhǔn)確”的先天優(yōu)勢,可以高效地完成各個領(lǐng)域中繁重復(fù)雜的工作,進而向著更加困難和更有意義的目標(biāo)前進。AI領(lǐng)域的開創(chuàng)者之一尼爾斯·約翰·尼爾森教授曾經(jīng)對AI下了這樣一個定義:“人工智能是關(guān)于知識的學(xué)科”,這意味著AI自誕生以來,便肩負(fù)著推動人類科學(xué)發(fā)展的重任。
圖片來源:intel官網(wǎng)
因此這也不難解釋,為何當(dāng)前在各個科學(xué)領(lǐng)域的前沿研究中,幾乎每一次重大突破的背后都有著AI的身影。比如今天要談的,在生命科學(xué)領(lǐng)域當(dāng)中非常具有挑戰(zhàn)性,被人用“九死一生”來形容的新藥研發(fā)過程。
塔夫茨藥物開發(fā)研究中心提供的數(shù)據(jù)顯示,開發(fā)一個新藥的平均成本大約為26億美元。一般需要12-15年的時間才能將一個新藥從試驗室走入市場。不僅如此,5000個臨床前化合物大約只有5個化合物可以進入臨床試驗,最終只有一個才能被批準(zhǔn)用于臨床治療,成為真正的藥物。
如今,隨著大數(shù)據(jù)、AI技術(shù)滲透到生產(chǎn)生活的各個領(lǐng)域,醫(yī)藥行業(yè)也開始借助包括AI在內(nèi)的新技術(shù),用更經(jīng)濟、更有針對性的方法開發(fā)新藥。最近10年,隨著云計算等大規(guī)模算力的普及,以及以深度學(xué)習(xí)為代表的AI算法在多個領(lǐng)域的快速發(fā)展和應(yīng)用,AI開始在藥物研發(fā)的各個關(guān)鍵環(huán)節(jié)發(fā)揮越來越重要的作用。
來自TechEmergence的報告顯示,AI可以將新藥研發(fā)的成功率提高16.7%,AI輔助藥物研發(fā)每年能夠為藥企節(jié)約540億美元的研發(fā)費用,并在研發(fā)主要環(huán)節(jié)節(jié)約40%至60%的時間成本。
另據(jù)2020年6月發(fā)表于Drug Discovery Today雜志的文章顯示,21家頭部跨國藥企在2014-2019年共發(fā)表398篇與“AI藥物研發(fā)”相關(guān)的論文,同時啟動了73項內(nèi)部AI研發(fā)項目、61項與外部AI公司合作的項目、以及11項對初創(chuàng)AI企業(yè)的投資或收購。
從類似這樣的、越來越多的投入和案例中可以看到,AI已經(jīng)成為助力藥物研發(fā)模式升級的一個關(guān)鍵因素。
02、從蛋白質(zhì)結(jié)構(gòu)打開攻克疾病的缺口
蛋白質(zhì)是生物體內(nèi)一切功能的執(zhí)行者,人類身體內(nèi)的任何功能,從催化化學(xué)反應(yīng)到抵御外來侵略都是蛋白質(zhì)作用的結(jié)果,在氨基酸根據(jù)基因表達(dá)的信息形成一條多肽鏈之后,必須折疊形成正確的三維空間結(jié)構(gòu)才可能具有正常的生物學(xué)功能。如果在折疊過程中出現(xiàn)故障,形成錯誤的空間結(jié)構(gòu),不但將喪失其生物學(xué)功能,還會引起各種疾病。
對蛋白質(zhì)三維結(jié)構(gòu)開展有效解析與預(yù)測,就能對有機體的構(gòu)成,以及運行和變化的規(guī)律實施更深層次的詮釋和探究,進而可為生物學(xué)、醫(yī)學(xué)、藥學(xué)乃至農(nóng)業(yè)、畜牧業(yè)等行業(yè)和領(lǐng)域的未來研究與發(fā)展提供高質(zhì)量的生物學(xué)假設(shè)。
為了解蛋白質(zhì)的結(jié)構(gòu),傳統(tǒng)的實驗方法是使用X光、冷凍電鏡等方法對蛋白進行拍照,每一個樣品可能需要幾個月,甚至于幾年的時間,才能夠高精度地完成拍照。在國際深具影響力的SwissProt數(shù)據(jù)庫上,累計的蛋白序列的信息已經(jīng)達(dá)到了56萬之多,傳統(tǒng)的實驗方法很難去滿足幾十萬量級甚至于未來幾百萬量級的蛋白序列結(jié)構(gòu)解析的需求。
圖片來源:intel官網(wǎng)
在這個時候,AI開始發(fā)揮神奇的作用。
2020年,在第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP)上,DeepMind研發(fā)的AlphaFold2成功根據(jù)基因序列預(yù)測了生命基本分子——蛋白質(zhì)的三維結(jié)構(gòu),取得了中位分?jǐn)?shù)為92.4(滿分100分)的好成績,比第二名高25分,打敗了所有競爭對手。
一般來說,AI方法的預(yù)測精度超過90分,可認(rèn)為預(yù)測結(jié)果與實驗方法得到的蛋白質(zhì)結(jié)構(gòu)基本一致。這一突破,標(biāo)志著AI輔助藥物開發(fā)的基礎(chǔ)理論研究和實踐進入新的階段。
AlphaFold2,憑借自身在蛋白質(zhì)結(jié)構(gòu)預(yù)測上的高可信度,以及遠(yuǎn)優(yōu)于傳統(tǒng)實驗方法的效率和成本表現(xiàn),樹起了一座“AI for Science”的全新里程碑。它不僅在生命科學(xué)領(lǐng)域掀起了顛覆式的革新,也成為了AI在生物學(xué)、醫(yī)學(xué)和藥學(xué)等領(lǐng)域落地的核心發(fā)力點。
這從中國科學(xué)院院士施一公評價AlphaFold2“這是人工智能對科學(xué)領(lǐng)域最大的一次貢獻,也是人類在21世紀(jì)取得的最重要的科學(xué)突破之一”中可見一斑。
在英特爾和國際學(xué)術(shù)期刊《Science》聯(lián)合推出的《架構(gòu)師成長計劃》課程中,來自中國智能化、自動化藥物研發(fā)科技領(lǐng)域明星企業(yè)晶泰科技的首席研發(fā)科學(xué)家楊明俊博士這樣談到:“以AlphaFold2為代表的研究成果,被認(rèn)為是開拓了科學(xué)研究的第四范式,就是基于大量的數(shù)據(jù),然后采用以深度神經(jīng)網(wǎng)絡(luò)為代表的模型,給出對問題的一個解答。”他說,“蛋白質(zhì)結(jié)構(gòu)預(yù)測曾經(jīng)被認(rèn)為是不可能完成的一件事情,如今被AI算法實現(xiàn),這標(biāo)志著AI在生物醫(yī)藥領(lǐng)域的融合邁入了一個全新的階段,成為大勢所趨。”
03、AI找藥,需要什么樣的“加速器”
隨著越來越多的科研機構(gòu)、實驗室和企業(yè)開始借助AlphaFold2進行蛋白質(zhì)結(jié)構(gòu)預(yù)測,各行業(yè)和領(lǐng)域內(nèi)的使用者也開始遇到越來越多、也漸趨嚴(yán)峻的挑戰(zhàn)。例如結(jié)構(gòu)預(yù)測各環(huán)節(jié)面臨著龐大的計算量,使用者需要更加充分地挖掘硬件的計算潛力來提升執(zhí)行效率;為縮短結(jié)構(gòu)預(yù)測時間,他們還需要利用更多計算節(jié)點來構(gòu)建效率更高的并行計算方案等。
英特爾人工智能架構(gòu)師楊威博士說,AlphaFold2可以高效率地去進行一個蛋白結(jié)構(gòu)的解析,但是其原始實現(xiàn)其實存在兩方面的優(yōu)化空間。
一方面由于算法和硬件架構(gòu)本身的特點,它強依賴于一些AI專用加速芯片的支持,但是這類硬件存在嚴(yán)重的內(nèi)存或顯存限制,使得它在單芯片或單卡情況下能夠預(yù)測的蛋白質(zhì)序列長度較短(比如2000氨基酸長度的蛋白,其內(nèi)存峰值將超過200GB)。另一方面,使用原始實現(xiàn)在CPU上進行推理速度較慢,很難在可以接受的時間范圍內(nèi)完成高通量和長序列的預(yù)測需求。
正因為有這些限制,英特爾正在與眾多產(chǎn)、學(xué)、研領(lǐng)域的合作伙伴及客戶一起研究用內(nèi)存容量優(yōu)勢更為明顯的CPU平臺來加速AlphaFold2,但即便如此,在AlphaFold2的嵌入層中也容易遇到兩個問題:一方面是巨大的內(nèi)存峰值壓力,其需求量會使內(nèi)存資源在短時間耗盡,尤其是內(nèi)存峰值在相互疊加之后,進而可能造成推理任務(wù)的失敗;另一方面,大張量運算所需的海量內(nèi)存也會帶來不可忽略的內(nèi)存分配過程,從而增加執(zhí)行耗時。
圖片來源:intel官網(wǎng)
通過對算法架構(gòu)的解析可知,AlphaFold2中大量的矩陣運算過程都需要大容量內(nèi)存予以支撐。其最大輸入序列長度越長,計算中所需的內(nèi)存也就越大。而在并行計算能力得到有效優(yōu)化后,更多計算實例的加入也會進一步突顯內(nèi)存瓶頸問題。
如果用“星際探索”來比喻的話,對3GEH蛋白的結(jié)構(gòu)預(yù)測就相當(dāng)于探索地球;對某新型傳染病相關(guān)的刺突蛋白進行結(jié)構(gòu)預(yù)測就相當(dāng)于將探索擴大到了整個太陽系,對諾貝爾生理學(xué)或醫(yī)學(xué)獎發(fā)現(xiàn)的PIEZO1/2蛋白的結(jié)構(gòu)預(yù)測則是進一步將探索擴展到了銀河系,對低密度脂蛋白受體相關(guān)蛋白2(LRP2)的結(jié)構(gòu)預(yù)測,就相當(dāng)于探索宇宙了。
在實踐中,進行3GEH蛋白(長度為765aa)的結(jié)構(gòu)預(yù)測,內(nèi)存大小滿足96GB就足以。而對Spike蛋白和PIEZO2蛋白進行預(yù)測時,由于序列長度分別達(dá)到了1200aa和2700aa,就需要部署大于512GB的內(nèi)存。而當(dāng)人們對LRP2蛋白進行預(yù)測時,其4700aa的序列長度要求的內(nèi)存就遠(yuǎn)大于1.3TB。如果64個實例并行執(zhí)行,內(nèi)存容量的需求更是會沖到一個令人驚嘆的量級,如果內(nèi)存系統(tǒng)無法滿足這個需求,就會形成阻礙應(yīng)用效能發(fā)揮的“內(nèi)存墻”。
一直活躍在“AI for Science”創(chuàng)新前沿的英特爾結(jié)合自身優(yōu)勢,以內(nèi)置AI加速能力的產(chǎn)品技術(shù),特別是至強® 可擴展平臺和傲騰™ 持久內(nèi)存的組合,在CPU平臺上更便捷地提供了TB級的內(nèi)存支持,打破了“內(nèi)存墻“,對AlphaFold2實施了端到端的高通量優(yōu)化,在實踐中實現(xiàn)了比專用AI加速芯片更為出色的表現(xiàn),累計通量提升可達(dá)優(yōu)化前的23.11倍。
在這個全新的加速方案中,第三代英特爾® 至強® 可擴展處理器也憑借出色的微架構(gòu)設(shè)計,尤其是多核心、多線程和大容量高速緩存,為AlphaFold2提供了充足的總體算力,以滿足整個結(jié)構(gòu)預(yù)測過程所需;另一方面,這款處理器內(nèi)置的英特爾® AVX-512技術(shù),也能在英特爾® oneAPI 相關(guān)軟件優(yōu)化工具的激活下,輸出額外的并行計算加速支持,為方案提供更進一步的性能調(diào)優(yōu)空間。
這個加速方案的實驗結(jié)果顯示,對于一個含有765氨基酸的蛋白質(zhì)測試樣例,在64個物理核同時并發(fā)的情況下,最高的內(nèi)存消耗達(dá)到3.2TB,其測試通量可從未經(jīng)任何優(yōu)化的4.56序列/天,達(dá)到優(yōu)化后的105.35序列/天。而且如果在單節(jié)點上配備最高8TB內(nèi)存的話,就可以支持完成高于1萬氨基酸序列長度下蛋白結(jié)構(gòu)的預(yù)測。
從這個結(jié)果展開思考,就會發(fā)現(xiàn):通常情況下,雖然在需要圍繞大規(guī)模的訓(xùn)練以及算法的迭代更新時,各類專用AI加速芯片會作為固定演員扮演既有角色,但是這也意味著,所有入場者都需要為這種異構(gòu)平臺的建設(shè)和充分利用投入更多的財力并加強相關(guān)人才儲備。
但如果是僅僅利用成熟的算法模型來做推理,用以支持科研項目的開展而非算法本身的演進呢?或者是已經(jīng)擁有了異構(gòu)平臺,但一直難以突破蛋白質(zhì)預(yù)測長序的限制呢?CPU+大內(nèi)存的方案在這些場景下就有更為明顯、甚至是獨特的優(yōu)勢了。
換言之,這就相當(dāng)于所有相關(guān)行業(yè)和領(lǐng)域的從業(yè)者們自此有了更多也更為靈活的選擇,他們既可以選擇較為復(fù)雜的異構(gòu)平臺來探究AI算法的巔峰或極限,也可以借助更為普及、也更易于獲取和使用的通用平臺作為科研實踐的加速器。當(dāng)然,后者這些天然優(yōu)勢,也會降低AI在醫(yī)藥和生命科學(xué)領(lǐng)域落地的門檻,讓更多從業(yè)者能夠搭上AI for Science或AI找藥的“快車”。
04、給科研送上“神助攻” 不止是AI
為推動生命科學(xué)這一前沿科研領(lǐng)域中的相關(guān)應(yīng)用落地,《“十四五”生物經(jīng)濟發(fā)展規(guī)劃》提出要開展前沿生物技術(shù)創(chuàng)新,突破高通量篩選、高效表達(dá)、精準(zhǔn)調(diào)控等關(guān)鍵技術(shù),推動在新藥開發(fā)、疾病治療等領(lǐng)域的應(yīng)用。
得益于AI技術(shù)的高速發(fā)展和演進,它與科學(xué)前沿研究的結(jié)合正在快速地改變世界并造福人們的生活。楊明俊博士說,AI藥物研發(fā)是一個新興的交叉學(xué)科,它不僅對生命醫(yī)藥行業(yè)產(chǎn)生深遠(yuǎn)的影響,也對提高人類壽命的長度和質(zhì)量有重要意義,“讓AI流淌進每一款新藥,讓患者更快地獲得有效治療。”
如今,中國生物醫(yī)藥行業(yè)經(jīng)歷了跟蹤仿制和模仿創(chuàng)新階段,正處在向源頭創(chuàng)新的更高階段邁進。同時中國新藥創(chuàng)制核心競爭力也在不斷得到提升,未來將會在全球研發(fā)中發(fā)揮更大的作用。
窺一斑而知全豹,盡管藥物研發(fā)只是生命科學(xué)領(lǐng)域中的一環(huán),但是這并不妨礙從中能夠看到AI和傳統(tǒng)科研結(jié)合帶來的巨大潛能,從而深刻地理解“AI for Science”為何能成為當(dāng)前的重要趨勢。而更加重要,也更需要重視的是,除AI之外,大數(shù)據(jù)和HPC也曾經(jīng)和正在推進著類似的范式革命,驅(qū)動著重大的科學(xué)探索及發(fā)現(xiàn)。而位處算力創(chuàng)新源頭,產(chǎn)品涵蓋計算、存儲和通信等多個維度的英特爾,也正通過構(gòu)建全面且均衡的計算平臺,基于軟硬件之間的無縫組合與高效協(xié)作,以及多樣化的優(yōu)化方法,在滿足各方面需求的同時,通過聯(lián)合產(chǎn)業(yè)鏈各個環(huán)節(jié)的合作伙伴,致力于給科學(xué)研究送上更多神助攻,促發(fā)更多前沿領(lǐng)域的科研新發(fā)現(xiàn)。
原文鏈接:https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/alphafold2-throughput-improvement-optimization.html
架構(gòu)師成長計劃鏈接:https://bizwebcast.intel.cn/wap/eventstart.aspx?eid=328&tc=12m0u5kiss&frm=wechatkol
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )