8月31日消息,DeeCamp2022人工智能訓練營總冠軍答辯暨結營典禮今日在創(chuàng)新工場北京總部舉行。經(jīng)過精彩答辯,挑戰(zhàn)大規(guī)模蛋白質(zhì)組學信息發(fā)現(xiàn)賽題的ProteinMiner團隊摘得DeeCamp2022總冠軍的榮譽,另外五支隊伍獲得優(yōu)勝獎。
DeeCamp人工智能訓練營是創(chuàng)新工場發(fā)起的一項面向全球大學生的公益項目,專注培養(yǎng)應用型AI人才,迄今已經(jīng)舉辦六屆。
此次DeeCamp2022的主題是“用AI探索生命科學新邊界”,由創(chuàng)新工場和清華大學智能產(chǎn)業(yè)研究院(AIR)聯(lián)合主辦,來自全球各個地區(qū)頂尖高校的計算機、生命科學等專業(yè)的150位學員自發(fā)組成30支隊伍,經(jīng)過兩個月的課程學習和項目實踐,最終共六支隊伍入圍最終答辯環(huán)節(jié)。
創(chuàng)新工場董事長兼CEO李開復、清華?學智能產(chǎn)業(yè)研究院(AIR)院長張亞勤、沙特阿卜杜拉國王科技大學終身正教授兼中國人民大學高瓴人工智能學院訪問講座教授高欣、深圳灣實驗室系統(tǒng)與物理生物學所資深研究員周耀旗、清華大學智能產(chǎn)業(yè)研究院副院長劉洋、清華大學智能產(chǎn)業(yè)研究院(AIR)首席研究員聶再清、中國人民大學數(shù)學科學研究員龔新奇、創(chuàng)新工場執(zhí)行董事兼前沿科技基金總經(jīng)理任博冰擔任評委并出席了結營典禮。
創(chuàng)新工場董事長兼CEO、HICOOL商學院榮譽院長李開復表示,AI+科學交叉是創(chuàng)新工場預測未來5到10年間會引爆的創(chuàng)新增長新范式,AI+生命科學更是造福人類、影響深遠的黃金賽道。這也是6年來一貫倡導“學以致用”的DeeCamp首次聚焦AI+生命科學這一命題的深意所在。這次入圍總決賽的6支團隊都是由AI和生命科學相關專業(yè)的優(yōu)秀同學組成,在頂尖科研、產(chǎn)業(yè)導師指導下,在蛋白質(zhì)結構預測、全基因組表達預測等各種場景進行探索,挑戰(zhàn)了多個真實世界的難題。很高興決賽同學在這次大賽中脫穎而出,期待在不久的將來,成為中國“AI+生命科學”賽道的創(chuàng)新先鋒。我期許有志創(chuàng)業(yè)的DeeCamp同學,也可以把這次的項目實踐視為產(chǎn)業(yè)價值的初步探索,同時關注幫助高科技創(chuàng)業(yè)者的北京HICOOL創(chuàng)業(yè)大賽及HICOOL商學院的豐富資源。
DeeCamp2022聯(lián)合主辦方、清華大學智能產(chǎn)業(yè)研究院(AIR)院長張亞勤院士表示:“生命科學與生物醫(yī)藥領域正在步入數(shù)字化 3.0時代,以人工智能和數(shù)據(jù)驅(qū)動的第四科學研究范式,將輔助人類探索并解決生命健康的問題,加速生命健康與生物醫(yī)藥領域向著更快速、更精準、更安全、更普惠的方向穩(wěn)步發(fā)展。這既是AI for Science的重大機遇,同時也將造福全人類。我很高興做為本次DeeCamp導師和評委,過去兩個多月,我看到同學們在“AI+生命科學”的大命題下,積極探索AI與生命科學的交叉發(fā)展之路,也都取得了不錯的成果。最后,再次祝賀冠軍團隊,也希望同學們都學有所成,滿載而歸!”
再次參賽終奪冠,致力推動個性化免疫治療發(fā)展
在整個上午的精彩答辯后,創(chuàng)新工場董事長兼CEO李開復對六支入圍隊伍表示了肯定:“本次大賽中,同學們都有令人驚艷的表現(xiàn),特別是在短短的一個月時間就圍繞創(chuàng)新的課題獲得出色的成果。創(chuàng)新工場非常關注生物計算的發(fā)展,已經(jīng)圍繞‘AI+遺傳中心法則’方面孵化了多家公司,包括AI+基因編輯、AI+蛋白、AI+RNA等。本屆DeeCamp同學們的表現(xiàn)讓創(chuàng)新工場對這些前沿領域的創(chuàng)新突破充滿了期待,期待新世代AI+生命科學的人才投入,為未來生物計算帶來更多驚喜?!?/p>
清華?學智能產(chǎn)業(yè)研究院(AIR)院長張亞勤院士表示,很高興繼續(xù)和創(chuàng)新工場聯(lián)合主辦本屆DeeCamp。生命科學領域步入數(shù)字化3.0時代,DeeCamp2022聚焦AI+生命科學,不僅代表了當下整個科學界的研究趨勢,也代表了中國的科技和產(chǎn)業(yè)發(fā)展趨勢。AI與數(shù)據(jù)賦能的全新的科學范式,不僅會提高科學研究的效率,也將會造福整個人類社會。
隨后,張亞勤院士公布了DeeCamp2022總冠軍榮譽的歸屬。挑戰(zhàn)大規(guī)模蛋白質(zhì)組學信息發(fā)現(xiàn)賽題的ProteinMiner團隊,成為本屆DeeCamp的年度冠軍團隊。
蛋白質(zhì)是生命活動的真正承擔者。獲取蛋白質(zhì)的序列和結構信息,對于疾病的研究、藥物的研發(fā)尤為重要。質(zhì)譜作為一種生物表征儀器,在蛋白質(zhì)測序領域有著支配性的地位。但面對大規(guī)模的未知序列蛋白,現(xiàn)有的質(zhì)譜從頭測序技術仍面臨精度低的問題,而這是推動新抗原發(fā)現(xiàn)驅(qū)動的個性化免疫療法亟待解決的難題。
ProteinMiner立足于AI與大數(shù)據(jù)驅(qū)動的蛋白質(zhì)的質(zhì)譜測序技術,致力于提升大規(guī)模地發(fā)現(xiàn)未知的蛋白序列與結構信息的能力。ProteinMiner首次提出預訓練的AI譜圖語言大模型,提升質(zhì)譜從頭測序的精度,加速免疫相關的新抗原/抗體的發(fā)現(xiàn),以推動個性化免疫治療的進程。此外,ProteinMiner提出譜圖分類深度模型,實現(xiàn)快速的交聯(lián)質(zhì)譜數(shù)據(jù)的鑒定,構建實驗數(shù)據(jù)支撐的組學規(guī)模的蛋白質(zhì)空間距離信息數(shù)據(jù)庫。
ProteinMiner團隊的組建來源于大家多次合作的信任,隊長毛鵬志是中科院計算所計算蛋白質(zhì)組學/信息檢索方向的博士生,隊員還包括香港中文大學(深圳)計算機視覺碩博生葉崇杰、中科院計算所生物信息學博士生齊曉寧、香港中文大學(深圳)數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)本科生薛浩楠。
DeeCamp2022總冠軍
奪冠后,隊長毛鵬志表示,很感謝DeeCamp2022提供的資源和平臺,讓自己能夠找到志同道合的成員們,把自己的想法落地為實踐,有機會取得學術和應用場景的突破?!耙磺胁艅倓傞_始。這次奪冠是我們?nèi)〉玫男〉睦锍瘫覀儠^續(xù)堅持做下去,希望能夠做出對學術界有影響,幫助產(chǎn)業(yè)界降本增效,帶來實際的效益的產(chǎn)品。這條路還有很遠,非常感謝和珍惜DeeCamp為我們提供了啟動資金?!?/p>
毛鵬志與團隊成員葉崇杰都是第二次參加DeeCamp,去年他們也曾在一個團隊并肩奮斗,雖然鎩羽而歸但反而激發(fā)再次參賽的斗志。葉崇杰說,“第二次參加DeeCamp,是出于對DeeCamp和組委會的信任,也是由于對伙伴的信賴。我和鵬志有共同的愿景,我也相信他的能力和責任心,能夠帶領我們?nèi)〉贸晒??!?/p>
值得一提的是,隊伍里的薛浩楠同學,剛剛升入本科三年級的學習。被問到參與科研高手云集的DeeCamp2022的感受時,他表示,自己非常珍惜DeeCamp提供的機會,不僅能夠深度體驗技術落地與功能實現(xiàn),還能夠一窺生物信息這個當下最前沿的技術領域。這些都是自己在課堂上難以一線接觸到業(yè)界前沿技術+產(chǎn)業(yè)實踐的機會,未來自己也有志繼續(xù)在工程領域繼續(xù)探索和成長。
另外五支入圍總決賽的隊伍獲得了優(yōu)勝獎。
以鎂伽科技為產(chǎn)業(yè)導師的「InfGene團隊」結合神經(jīng)網(wǎng)絡和樹模型的優(yōu)勢,發(fā)現(xiàn)分形自編碼器(FAE)可以選取相比 L1000 Panel更加精簡的代表性基因集作為特征,在XGBoost模型上達到比L1000 Panel更優(yōu)的全基因組表達預測表現(xiàn)。該方法可進一步節(jié)約大規(guī)模測量成本,形成可專利的新Panel,并拓展應用至建立組織特異性Panel,推動精準醫(yī)療。
多肽藥物因獨特的理化性質(zhì)在現(xiàn)今的醫(yī)藥市場占據(jù)較高的份額,而親和力是判斷其能否成藥的首要步驟?!窤nother random number團隊」發(fā)現(xiàn)在多肽中廣泛存在著非標準殘基,這些殘基在提高與蛋白的親和力、改善進入生物體內(nèi)的各項性質(zhì)起著至關重要的作用。為此,團隊采用了大規(guī)模的預訓練模型學習了蛋白與多肽的序列信息,并將多肽的結構信息作為特征引入模型訓練,以期開發(fā)一個能夠準確預測多肽與蛋白的親和力,為多肽藥物的親和力篩選及體內(nèi)性質(zhì)改造提供幫助。
藥物研發(fā)主要通過藥物來抑制目標蛋白(PoI)的活性來發(fā)揮作用。目前主流的做法是找到一種小分子藥物通過bind到蛋白活性區(qū)域上,從而讓蛋白無法發(fā)揮功能。但不是所有蛋白都有這種蛋白結合口袋,事實上人體內(nèi)只有大約2%的蛋白可以成藥。而PROTAC技術可以通過利用身體內(nèi)自有的蛋白降解過程,給PoI打上降解標記,從而直接把PoI直降解掉。這其中,預測PROTAC三元復合體的結構是PROTAC研究的關鍵一環(huán)。Alphinity團隊聚焦三元復合體的結構預測,利用pre-train的歐式等變圖神經(jīng)網(wǎng)絡提出了該領域的第一個AI解決方案,將一次inference的時間從小時級降低到秒級,希望可以為PROTAC的研發(fā)帶來新的可能。
「Maifold團隊」利用AlphaFold2及AlphaFoldMultimer預測得到的蛋白結構,對已知會發(fā)生相分離的蛋白或蛋白復合體進行結構預測。再結合圖神經(jīng)網(wǎng)絡對蛋白質(zhì)結構進行表征,通過GCN的方法訓練分類模型,對蛋白單體或蛋白復合體的相分離能力進行預測。
「酶有你我怎么活啊」隊伍整理了BRENDA數(shù)據(jù)庫和文獻中的Km和Kcat數(shù)據(jù),形成了初步的數(shù)據(jù)集。通過公開的數(shù)據(jù)集,團隊整理了酶與底物的負例數(shù)據(jù),并將酶的序列和AlphaFold預測的結構進行了匹配,形成了包含酶結構數(shù)據(jù)的酶活性數(shù)據(jù)集。通過自然斷點法將酶活性的值進行了等級劃分,規(guī)定了酶的活性等級從而進行分類預測?;趖ransformer模型,綜合考慮酶序列、酶結構與化合物數(shù)據(jù)對酶活性進行預測,并評估了效果。
四組專項冠軍,直指生物醫(yī)療技術與社會痛點
最后,由沙特阿卜杜拉國王科技大學的高欣教授公布了DeeCamp2022四支專項冠軍隊伍的歸屬。
最佳創(chuàng)新獎的得主DeepStruction團隊設計了可用于藥物發(fā)現(xiàn)的端到端分子生成平臺Molecule Brewer,提供網(wǎng)頁端一站式、個性化服務。團隊基于多模態(tài)思想,構建了“結構+序列”的分子生成模型,集成并挖掘蛋白多構象結構信息,高效預測蛋白-分子親和性,可視化蛋白關鍵位點,助力靶點發(fā)現(xiàn)及蛋白改造。團隊原創(chuàng)的BrewerScore類藥性打分函數(shù),相比QED有更低假陽性率,所搭建的21個藥物相關分子性質(zhì)預測模型在TDC榜單均名列前茅,有效提高了藥物分子篩選效率。基于該平臺,團隊還創(chuàng)設了單蛋白孤兒病-靶點-潛在藥物分子數(shù)據(jù)庫,以AI之名,饗公益之心。
最佳技術獎的得主AlphaMed團隊系統(tǒng)地探索了主流的人工智能蛋白質(zhì)設計方法,并提出了能夠取得更先進效果的新方法Adesign。他們的方法引入了角度信息,為神經(jīng)網(wǎng)絡注入蛋白主鏈序列先驗信息,簡化了蛋白圖編碼器,并在解碼器端移除自回歸機制來提高模型的推理效率。Adesign模型在AlphaFold DB和真實數(shù)據(jù)集CATH 4.2上,分別取得了超過60%和51%的準確率;在推理速度上較此前的方法快至少40倍,達到了毫秒級高效蛋白質(zhì)設計的效果。
作為藥物合成中的關鍵步驟,先導優(yōu)化由于依賴專家憑經(jīng)驗設計,并需要反復合成進行實驗驗證,也成為藥物合成中花費最高、時間最長的步驟之一。為解決這個問題,啊對對隊團隊打造了面向藥物化學工作者的智能先導化合物優(yōu)化平臺DiffLead,利用人工智能指導化合物優(yōu)化,縮短研發(fā)周期、降低成本。平臺創(chuàng)新性地提出了條件等變原子擴散算法,在擴散過程中充分考慮到先導化合物的等變性和蛋白質(zhì)口袋的條件信息,并手動收集了首個真實先導優(yōu)化數(shù)據(jù)集PDBLead用于訓練,提升了優(yōu)化后化合物與蛋白質(zhì)口袋的親和力。團隊也斬獲了DeeCamp2022最具產(chǎn)業(yè)價值獎。
目前,數(shù)千萬中國人正遭受罕見病的折磨,而單個罕見病市場小,信息分散,新藥開發(fā)極為困難。目前急需能高效整合疾病信息,啟發(fā)藥物研發(fā)的工具。為此,最具社會價值獎得主make一起贏隊伍,以臨床知識圖譜為基礎,聚焦罕見病,從藥物、疾病及多組學角度進行拓展,從而整合藥理學、遺傳學和病理學等相關生物數(shù)據(jù)及利用NLP的文獻信息,形成面向醫(yī)生、患者、藥企、研究院所四類用戶且具有生物解釋性的罕見病知識圖譜,并獲得具有啟發(fā)性的罕見病相關潛在信息。
聚焦AI+生命科學,探索前沿科技改變?nèi)祟惷\
人工智能+生命科學的交叉在2021進入爆發(fā)元年。在 Science雜志發(fā)布的2021年度十大突破中,其中六項都來自生物學和醫(yī)學領域,人工智能蛋白結構預測技術AlphaFold和RoseTTAFold成功預測蛋白質(zhì)結構更是被評為最大突破。
隨著高通量技術的發(fā)展,生物大數(shù)據(jù)出現(xiàn)膨脹式增長,AI算法在生命科學中得到了廣泛的應用。例如隨機森林(Random Forest)算法可以用于對性狀相關基因組水平突變位點的預測;卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)被廣泛應用于蛋白質(zhì)基團間距計算及醫(yī)療影像識別技術等。AI與生命科學協(xié)同進化,不斷延伸出新的科學邊界,AI與計算生物學、合成生物學、藥物研發(fā)結合而催生的新交叉領域,正在以前所未有的進度被開墾著。
DeeCamp在2017年由創(chuàng)新工場發(fā)起,從最初小規(guī)模的實驗性訓練營,到今天每年培訓幾百名來自高校的AI+人才,旨在為學生提供技術學習、工程實踐、產(chǎn)品轉(zhuǎn)化和商業(yè)思考的完整過程,推進產(chǎn)學研深度結合。
2022年,第六屆DeeCamp首次聚焦AI+生命科學領域,以“用AI探索生命科學新邊界”為主題,號召全球 AI和生命科學領域的菁英們,迎接最激動人心的挑戰(zhàn),探究改變?nèi)祟惷\的可能性,助力生命科學領域中國AI應用型人才培養(yǎng)。
舉辦至今,DeeCamp已累計收到2萬余名在校大學生報名,錄取并培養(yǎng)了1500余名學員,是目前規(guī)模最大、周期最長、最具特色的AI公益訓練營。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )