雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))按:今年,人工智能在各個垂直領域的應用備受關注,其中醫(yī)療又是一個關鍵領域?!都~約客》發(fā)表的這篇深度長文,從醫(yī)學和計算機兩個領域詳細描述了業(yè)內(nèi)人士如何看待人工智能在醫(yī)療診斷方面的應用。作者Siddhartha Mukherjee 是醫(yī)學領域?qū)<摇1疚陌l(fā)布在《紐約客》網(wǎng)站,雷鋒網(wǎng)整理編譯。
去年 11 月的一個深夜,一位 Bronx 的 54 歲老婦來到哥倫比亞大學醫(yī)療中心,她說自己頭痛欲裂,視力已經(jīng)開始模糊,左手也變得麻木且不聽使喚了。醫(yī)生進行初步檢查后決定對老婦的頭部進行 CT 掃描。
轉(zhuǎn)眼幾個月過去了,今年 1 月份的一個早晨,四位還在培訓中的放射科醫(yī)生擠在醫(yī)院三樓的一臺電腦前。放置這臺電腦的房間沒有窗戶,除了屏幕的光,里面完全是漆黑一片,就像一片深海。四位醫(yī)生盯著屏幕看時,哥倫比亞大學的神經(jīng)放射科主任 Angela Lignelli-Dipple 正拿著鉛筆和平板電腦站在他們身后。他們可不是在搞什么秘密項目,主任只是在訓練這些菜鳥醫(yī)生如何看懂 CT 掃描而已。
“如果CT 上大腦的區(qū)域變灰,我們很容易就能診斷出病人是否中風了,”主任說道。“要想取得較好的治療效果,就必須趕在神經(jīng)細胞大量死亡前診斷出病因。”中風一般因堵塞或出血引起,神經(jīng)放射學家有大約 45 分鐘的窗口期進行診斷,這樣醫(yī)生才能及時采取干預措施,如溶解正在不斷膨大的凝塊。“如果你們當時身處急診室,每分鐘都是極端寶貴的,因為大腦的某部分正在死亡,時間就是生命。”主任補充道。
時間一分一秒流逝,主任看了看墻上的掛鐘,問道:“找到問題出在哪了嗎?”
中風通常是不對稱發(fā)展的,畢竟腦部供血會分左右,繼而細化為細小分支。不過,一旦出現(xiàn)凝塊或出血,就會影響一個分支,使大腦部分區(qū)域出現(xiàn)異常。隨著神經(jīng)細胞因為缺血而逐漸死亡,組織會略微腫脹,在掃描時,解剖結(jié)構之間清晰的邊界可能會變模糊,最終組織會皺縮,并產(chǎn)生干燥的陰影。但需要注意的是,這塊陰影通常在中風后幾小時或幾天才出現(xiàn),而這時醫(yī)生干預的窗口期已經(jīng)結(jié)束了。主任表示:“在這之前進行掃描的話,你只能在 CT 圖像上看到一些蛛絲馬跡。”而這就是中風的前兆。
好啦, 現(xiàn)在說回文章開頭提到的 54 歲老婦,她的 CT 掃描是對頭骨的橫切面切割額圖,看起來就像從底部一劈到頂?shù)奶鸸?。坐在電腦前的醫(yī)生們?yōu)g覽著圖層,把小腦、海馬區(qū)、島狀皮層、紋狀體、胼胝體、腦室等都分得清清楚楚。隨后,其中一名快 30 歲的男醫(yī)生在一張照片上停了下來,他拿鉛筆指著大腦右側(cè)邊緣區(qū)域說道:“這一塊有點不對勁,邊緣區(qū)域看起來有些模糊了。”不過,對筆者來說,從這張像素不怎么清晰的模糊照片怎么能看出有用的信息啊,但那位男醫(yī)生顯然看到了一些不同尋常之處。
“哪里模糊了?”主任問道。“你能說清楚點嗎?”
這名醫(yī)生沒著急回答,他停下來在腦中組織了詞語,想想到底該怎么解釋。隨后,他聳聳肩表示:“它確實不太正常,我也不知道有什么毛病,只是看起來比較有趣。”
接下來,主任又拿出了第二張 CT 片,這是第一張拍攝后 20 小時后掃描的。剛剛那位醫(yī)生指出的部位在這張片子中已經(jīng)腫脹的像葡萄那么大了,而且顏色也暗了下來。隨后主任又拿了一系列的片子讓他們看,圖中慢慢出現(xiàn)了一個明顯的灰色楔形區(qū)域。
當那位老婦到達醫(yī)院時,神經(jīng)科大夫試圖用溶栓類藥物幫她疏通動脈,但很遺憾,她來的太晚了。第一次掃描過去幾小時后,老婦就失去了意識,醫(yī)生趕緊將她送去 ICU 病房。兩個月后,老婦還是沒有好轉(zhuǎn),她的整個左側(cè)身體(從左臂到左腿)都癱瘓了。
從小黑屋出來后,筆者跟著主任去了她的辦公室,我想知道醫(yī)生是怎么學習的,機器也能學會這些方法嗎?
能力不是看書得來的
筆者涉足醫(yī)學診斷行業(yè)并不晚,1997 年就在波士頓開始了臨床輪轉(zhuǎn)。為了更好地完成工作,我讀了一本有關醫(yī)學教育的經(jīng)典讀物,這本書將診斷行為明確分為四個階段:第一,醫(yī)生需要借助病人病歷和最新的體檢來搜集有關病人的疾病或身體狀況的事實;第二,整理以上信息并總結(jié)出一份可能病因的綜合列表;第三,通過對病人的詢問和初步測試完成所謂的“鑒別診斷”,即排除某種疾病的假設并增強另一種疾病的可能性。這一步,還要對疾病是否常見下定義,并結(jié)合病人既往病史對風險和暴露情況進行判斷(謹記“不可掉以輕心”的臨床思維),這樣列表中的可能病因就減少了;最后,醫(yī)生需要重新通過實驗室檢查、X 光或 CT 掃描來確認假設。數(shù)十年來,這些步驟及實踐中出現(xiàn)的變體都如實出現(xiàn)在教科書中,我們也從一代代醫(yī)學院學生的身上看到了這幅圖景:他們從癥狀中尋找病因。
不過,隨著從業(yè)經(jīng)歷的豐富,我很快發(fā)現(xiàn),真正的診斷可不像教科書上那么簡單。我所在醫(yī)學院的主任是一個優(yōu)雅的新英格蘭人,他總穿著拋光的便鞋,口音濃重,并以成為專家診斷醫(yī)師而自豪。在診斷時,他會要求病人表現(xiàn)出某種癥狀,如咳嗽。隨后他會靠在自己的椅子上思考片刻,然后嘴中冒出一串形容詞,如“微弱但刺耳”,“底噪有點大”,仿佛是在描述一瓶陳年波爾多紅酒。對我來說,這些咳嗽聲聽起來都一個樣,但我會不自覺地應和這位主任,就像一個對品酒一竅不通但還要硬裝專家的傻瓜。
這位主任的做法確實有其依據(jù),因為咳嗽分類學家會很快通過聲音來縮小可能的病因范圍。如醫(yī)生可能會認為“這聲音聽起來像一種肺炎”或“充血性心力衰竭的濕疹”,隨后通過一系列問題,醫(yī)生就能判斷病人的大致情況,最后借助測試來證明自己的判斷,大多數(shù)情況下,醫(yī)院的“老司機”們準確率還是非常高的。
幾年前,巴西的研究人員研究了放射科醫(yī)生的大腦,為的就是理解他們到底如何做出診斷的。這些經(jīng)驗豐富的醫(yī)師在看 CT 圖像時是不是心里有一份“對照表”?或者說他們使用了“模式識別或非分析推理?”
參與這次研究的放射科醫(yī)生共 25 人,他們被要求評估肺部的 X 光,而核磁共振成像機則會隨時跟蹤他們的大腦活動。X 光圖像在他們面前一晃而過,其中一些包含很常見的單一病理性損傷,如肺炎時出現(xiàn)的棕櫚狀陰影或積聚在肺內(nèi)襯層后面發(fā)暗且不透明的流體壁。第二組圖像中鑲嵌了動物的圖像來干擾,第三組則加入了字母表的字母輪廓。在測試時,這三組圖像會隨即展示給參與的 25 位醫(yī)生,他們必須快速說出圖像的屬性,而核磁共振機則一刻不停的監(jiān)視著醫(yī)生的大腦。測試結(jié)果顯示,醫(yī)生做出診斷的平均時間為 1.33 秒,而在分辨三種圖像時,大腦亮起的區(qū)域相同,即左耳附近的神經(jīng)元寬三角洲以及顱骨后基上方的蛾形帶。
“我們的測試結(jié)果能支持這樣的假設:醫(yī)生發(fā)現(xiàn)一種特征和已知病變的過程與日常生活中命名事物的過程相似。”研究人員總結(jié)道。也就是說,識別病變與為動物命名的過程非常相似,當你認出一頭犀牛,你不會再想想其他替代動物,更不會將犀牛與獨角獸、犰狳和小象等動物弄混。對你來說,辨認犀牛已經(jīng)是一種模式,而放射科專家也是如此。他們不需要沉思、回憶以及區(qū)分,他們看到的是一個常規(guī)現(xiàn)象。對我的主任來說,那些咳嗽聲音也像叮當聲一樣容易辨認。
“紙上談兵”與“實踐出真知”
1945 年時,英國哲學家 Gilbert Ryle 舉辦了一場影響力巨大的講座,其主題涉及兩大知識。一個孩子知道自行車有兩個輪子,輪子充氣,車通過踩踏腳踏板來獲得前進動力。Ryle 將這種知識稱之為“書面知識”。不過,學習騎自行車光懂得這些可不夠,一個孩子要經(jīng)歷摔倒才能學會平衡,學會通過坑坑洼洼的路面。Ryle 將這種隱性的、體驗式的、基于技能的知識稱為“實踐知識”。
這兩種知識看起來是相互依賴的,因為你可以用書面知識來強化實踐知識,反之亦然。不過,Ryle 警告大家要抵制所謂“書面知識”可以轉(zhuǎn)化為“實踐知識”的想法。光看看自行車說明書孩子不可能學會騎車。Ryle 認為,只有當我們知道如何運用規(guī)則時,規(guī)則才能真正發(fā)揮作用,“規(guī)則就像小鳥,必須吃飽了才能生存。”一天下午,筆者 7 歲的女兒正騎著車爬上一個小山丘。她第一次嘗試時停在了斜坡最陡峭的部分,然后摔倒了。第二次嘗試時她屈身向前傾斜,最初角度很小,隨后越來越明顯;而當坡度減小時,她會向后增加重量。但是,我可沒教過她騎自行車爬上那座小丘的規(guī)則。我想,當我的孫女學習騎自行車翻過這座小丘時,家長也不會教她這些規(guī)則。我們會傳授一些與宇宙有關的規(guī)則,但是會將剩下的留給大腦來解決。
旁聽了 Lignelli-Dipple的教程后,我與 Steffen Haider 交談了一番,他是個通過 CT 掃描就能發(fā)現(xiàn)早期中風的年輕人。他是怎么發(fā)現(xiàn)病變的?靠的是“書面知識”還是“實踐知識”呢?
Steffen Haider 表示自己先要學習規(guī)則,在書中他得知中風往往發(fā)生在一邊,組織在 CT 中會輕微“變灰”,且常常伴有略微腫脹,造成解剖邊界模糊。“在某些部位,大腦的供血特別脆弱。”他說道。要想認出這些病變,他必須在大腦的一側(cè)尋找那些另一側(cè)沒有出現(xiàn)的跡象。
筆者提醒他忽視了圖像中很多不對稱的情況。這個 CT 掃描與大多數(shù)情況一樣,在腦部左側(cè)存在其他灰色的波紋,但右側(cè)卻沒有,它們可能是婦女中風前大腦中的異常運動或潛在變化。他是如何把重點縮小到這片區(qū)域的?他停了下來,沉思了一會,隨后說道:“我也不知道,有一部分是存在于潛意識里的。”
“對于一個放射學家來說,這是在學習和成長中自然習得的。”Lignelli-Dipple 說道。于是筆者開始思考,機器是否也能用同樣的方式進行“學習和成長”。
Thrun 的理想世界
2015 年 1 月,計算機科學家 Sebastian Thrun 開始迷上了醫(yī)學診斷這個課題。Thrun 在德國長大,他身材消瘦,剃了光頭,看起來就像漫畫里的人物。Thrun 以前是斯坦福大學教授,領導該校的人工智能實驗室,后來他離職創(chuàng)建 Google X,領導會自學的機器人和自動駕駛汽車的研發(fā)。但是,他發(fā)現(xiàn)自己對有著學習能力的醫(yī)療設備有很大的興趣。Thrun 的母親因乳腺癌離世,當時她才 49 歲。“大多數(shù)癌癥病人一開始沒有癥狀。”Thrun 說道。“我母親就是這樣,但當她去看醫(yī)生時,一切都晚了。因此,我一直想找到一個能盡早發(fā)現(xiàn)癌癥的方法,畢竟那時我們還能將病人從死亡線上拉回來。機器學習算法在這里能起到作用嗎?”
學界關于自動診斷的早期研究往往與教科書上的顯性知識緊密相關。以心電圖為例,過去的二十年來,電腦解讀的通常是這些系統(tǒng)的特征,執(zhí)行這些工作的程序也比較直接,特征波形與多種情況相關,如心房顫動或血管阻塞。此外,還有識別這些特征波形并輸入到應用中的規(guī)則。當機器識別到這些特征波形時,它會把這種心跳標記為“心房顫動”。
乳腺癌的檢查與心電圖類似,眼下“計算機輔助檢查”的方式已經(jīng)不再新鮮。在檢查中,模式識別軟件會標記那些疑似出現(xiàn)病變的區(qū)域,隨后醫(yī)生需要對這些可疑區(qū)域進行復查以確定診斷結(jié)果是否正確。不過,如今的診斷軟件大多數(shù)利用的還是基于規(guī)則的系統(tǒng),它們沒有自行學習的能力。因此,一個看過 3000 張 X 光片的機器人其實水平跟只看過 4 張的差不多。2007 年的研究進一步證明了這種檢測方法的局限性。人們通常認為機器介入后,準確率會明顯提高,但事實上機器產(chǎn)生的影響很復雜。在計算機輔助診斷組中,活體檢查的準確率上升,但腫瘤學家最希望檢測到的小型侵入性乳腺癌準確率卻有所降低(后續(xù)檢測中甚至出現(xiàn)了“假陽性”問題)。
Thrun 相信,他能將第一代診斷設備上基于規(guī)則的算法替換為基于學習的算法,這樣一來設備就拋棄了“書面知識”,學會了“實踐知識”。Thrun 的學習算法還加入了現(xiàn)在最為火熱的“神經(jīng)網(wǎng)絡”技術,因為該技術的靈感源于大腦運作的模型,所以它能完成這一學習過程。在大腦中,神經(jīng)突出會通過反復激活而遭到增強或削弱;這些數(shù)字系統(tǒng)旨在通過數(shù)學手段實現(xiàn)類似的目的,調(diào)整連接的“權重”向預期輸出靠攏。更強大的系統(tǒng)會與神經(jīng)元層級相似,每個系統(tǒng)會分別處理輸入的數(shù)據(jù)并將結(jié)果傳送給下一層,而這就是我們所說的“深度學習”。
Thrun 首先拿皮膚癌開刀,特別是美國人非常容易罹患的角化細胞癌和黑色素瘤(非誠勿擾 2 里孫紅雷得的,最恐怖的皮膚癌)。機器經(jīng)過學習,能在圖片上分清皮膚癌和那些良性皮膚?。ㄈ缍欢弧⑵ふ畹龋﹩??“如果皮膚科醫(yī)生能做到,那么機器肯定也能搞定,而且可能會做得更好。”
通常情況下,關于黑色素瘤的教學會從基于規(guī)則的系統(tǒng)開始,就像皮膚病醫(yī)生入門一樣。學習過程中會有一系列便于記憶的符號,如 ABCD。這些符號有其特殊含義,如黑色素瘤通常是不對稱的(Asymmetrical),它們的邊界(Borders)參差不齊,顏色(Color)呈斑塊狀,而直徑(Diameter)則超過 6 毫米。不過,Thrun 查了醫(yī)書和網(wǎng)絡上的標本后卻發(fā)現(xiàn),一些黑色素瘤的的標本并不適用于這些固定的規(guī)則。
Thrun 找了斯坦福的兩名學生幫他搞研究。學生們的首個任務就是創(chuàng)建一個“教學集”:這是一個龐大的圖片庫,機器可以通過對圖片庫的學習識別出惡性腫瘤。在網(wǎng)上搜索一番后,Esteva 和 Kuprel 找到了 18 個已經(jīng)成型的皮膚損傷圖片庫,其中包含了近 13 萬張有關痤瘡、皮疹、蟲咬、過敏反應和皮膚癌等疾病的圖片,皮膚病專家將它們分為近 2000 種疾病。值得注意的是,這些圖片庫中有一個包含 2000 個病變的集合已經(jīng)由病理學家切片檢查過了,因而它們幾乎可以算是已經(jīng)確診的了。
隨后,Esteva 和 Kuprel 開始了對系統(tǒng)的訓練,他們并沒有依據(jù)規(guī)則對其進行編程,也沒有教系統(tǒng)“ABCD”的順口溜。相反,這套系統(tǒng)只是不斷將圖像和醫(yī)生做出的診斷分類加入神經(jīng)網(wǎng)絡中。
Thrun 將這個神經(jīng)網(wǎng)絡的工作內(nèi)容描述為:“如果用一個老舊的程序去識別狗狗,軟件工程師可能會寫一千行下定義的語句,比如如果它有耳朵,一個鼻子,并有頭發(fā),且不是一只老鼠等。事實上,這并不是孩子學會辨識狗狗的方法。孩子會先通過觀察狗狗和大人的描述來學習相關的識別知識。如果她把狼當成了狗,家人會及時進行糾正,這時孩子就會改變最初的認識。機器學習算法就像小孩子,它能從已經(jīng)標注好準確信息的訓練集中汲取信息,隨后再從中汲取狗的特征,接著它會自行用成千上萬的圖片進行對比測試并最終學會識別狗狗的方法,整個過程與孩子識別狗狗完全一樣。”通過這個過程,系統(tǒng)學會了“實踐知識”。
2015 年 6 月,Thrun 的團隊開始通過“驗證集”來測試機器從圖像中都學到了什么。這次測試中共包含了 1.4 萬張經(jīng)過皮膚病專家診斷的圖片(并不一定經(jīng)過活檢),機器的任務就是將這些圖像分成 3 組:良性病變、惡性病變和非癌生長。結(jié)果顯示,該系統(tǒng)的準確率達到了 72%。兩位得到認證的皮膚病醫(yī)生也一同做了測試,但他們的準確率卻只有 66%。
隨后,Thrun 師徒三人將研究擴展到了 25 位皮膚病學家,而這一次他們使用了一個黃金標準——約 2000 張經(jīng)由活檢證實的圖像“測試集”,結(jié)果顯示,醫(yī)生們完全不是機器的對手,機器沒有錯過任何一個黑色素瘤。此外它還更加精確,不會將某個腫瘤錯診斷為黑色素瘤。
“在論文中,其實還有個關于網(wǎng)絡的關鍵問題沒有重點強調(diào)。”Thrun 說道。在第一次涉足該領域時,Thrun 的團隊用的還是個“很傻很天真”的神經(jīng)網(wǎng)絡,不過他們發(fā)現(xiàn)如果用的神經(jīng)網(wǎng)絡已經(jīng)會識別一些不相關特征(比如狗和貓),它就會學的更快也更好,也許我們的大腦也遵循類似的原理?;叵敫咧心切┝钊藷o語的枯燥訓練,如多項式因式分解、動詞變化和元素周期表,反而讓人記憶更加敏捷。
在訓練機器時,Thrun 的團隊需要對圖片進行處理。Thrun 希望有一天人們能通過智能機圖片上傳獲得精確的診斷,不過這就意味著該系統(tǒng)必須適用于多種角度和照明條件。Thrun 也有擔心,因為“在一些圖片中,黑色素瘤的部位被用黃色記號筆標注了,因此他們必須將這些部位裁剪掉,否則 Thrun 的團隊可能就是在教計算機如何識別圖中的黃色標記。”
其實這難題古已有之:一個世紀前,德國公眾就被聰明的Hans深深吸引了,這匹馬靠的不是日行千里,而是可以做加減運算并用敲蹄子的方法給出答案。進行一番研究后人們發(fā)現(xiàn),Hans 并不是什么聰明馬,它只是能感受自家主人的表情和動作。當 Hans 回答正確,主人的表情和動作都會放松下來。因此,Hans 的神經(jīng)網(wǎng)絡并沒有學會計算方法,它只是學會了閱讀人類的肢體語言。“這就是神經(jīng)網(wǎng)絡的奇怪之處。”Thrun 說道。“你根本不知道它們用了什么數(shù)據(jù),它們自己搞了個黑箱,內(nèi)部的工作非常神秘。”
“黑箱”問題是深度學習的專屬,這套系統(tǒng)并不是由醫(yī)學知識和診療規(guī)定引導的,相反它會有效的進行自我教育,通過大量內(nèi)部調(diào)整(類似于加強和減弱大腦中的突觸連接),學會區(qū)分普通的痣和黑色素瘤。那么它到底如何確定某個病變部位是黑色素瘤呢?我們也沒有答案,深度學習也無法解釋原因,一切的內(nèi)部調(diào)整和處理方式都在我們的監(jiān)視之外秘密發(fā)生著。當然,這樣類似的“黑箱”在我們大腦中也存在。當你控制自行車慢慢轉(zhuǎn)向時,身體會自動向相反方向傾斜,筆者的女兒也知道這個技巧,但她做出這些動作時自己根本就不知道。黑色素瘤診斷機器必須從圖片中看出所以然來,不過如果它不能將技巧告訴人類,會有什么影響嗎?它就像微笑的知識之神,遇見這樣的機器,你就能得以一窺動物感知人類心靈的某種方式:無所不知但卻無法理解。
Thrun 設想的世界是這樣的:在這里人類時刻處在診斷機器的監(jiān)控下,我們的手機能通過語音模式的轉(zhuǎn)變發(fā)現(xiàn)老年癡呆癥的先兆,而方向盤則能通過手部的遲鈍和抖動來確定人是否有可能患上帕金森癥。在洗澡時,浴缸則會通過無害的超聲波或磁共振來執(zhí)行掃描工作,并以此來判斷女性卵巢中是否有需要檢查的部位。大數(shù)據(jù)會注視、記錄并時刻對你的身體狀況進行評估,我們將在不同算法的眼皮底下生活。一旦進入了 Thrun 設想的世界,就進了滿是診斷鏡的大廳,這里的檢測項目一個接著一個。
這樣的愿景確實讓人心生向往,不過這樣的醫(yī)學“全景監(jiān)獄”能通過無死角甚至細小到細胞的掃描來提前探知癌癥的出現(xiàn)嗎?它能為癌癥檢測帶來什么突破嗎?聽起來好像一如反掌,但這里卻有個大坑:許多癌癥都屬于自限性疾病,我們會與它們一起死去,而不是被它們害死。一旦這種診斷引擎誕生,醫(yī)生可能會突然多出數(shù)百萬不必要的活檢任務。在醫(yī)學上,早期診斷可以挽救或延長生命。但有時,你會陷入恐懼之中,根本無法享受最后的時光,因此人對診斷結(jié)果的接受程度根本無法精確拿捏。
當被問到這種系統(tǒng)對人體診斷的影響時,Thrun 表示:“我對放大人類能力方面感興趣。機械化的農(nóng)業(yè)確實消除了一些傳統(tǒng)的農(nóng)業(yè)形態(tài),但它卻提高了我們的農(nóng)業(yè)生產(chǎn)力。事情都有好有壞,不過新型態(tài)的農(nóng)業(yè)確實能養(yǎng)活更多人了。”工業(yè)革命就增強了人類肌肉的力量,當我們用手機時,人類語言的力量也得到了放大。畢竟用肉嗓子喊,紐約的人可聽不到加州的聲音。”Thrun 和筆者當時就身處兩地。“你手中的這個小方塊讓人的聲音能快速傳遞 3000 英里,它替代人類聲音了嗎?當然沒有,它只是人類聲音的放大器。未來,認知革命將讓計算機將以同樣的方式增強人類的思維能力。就像機器使人類肌肉增強了一千倍一樣,機器也將令人類的大腦變聰明一千倍。”Thrun 堅持認為深度學習設備不會取代皮膚病醫(yī)生和放射科醫(yī)生,它們會成為專家們的力量倍增器,為他們提供專業(yè)知識和必要的輔助。
Hinton:醫(yī)院不用培養(yǎng)放射科醫(yī)生了
Geoffrey Hinton是來自多倫多大學的計算機科學家,他對學習機器在臨床醫(yī)學中的作用看的也很重。Hinton 是著名數(shù)學家 George Boole的玄孫,后者發(fā)現(xiàn)的布爾代數(shù)是數(shù)字計算的關鍵基石,有時人們甚至稱他為深度學習之父。Boole 在 19 世紀 70 年代中葉開始研究相關課題,他的許多學生都成了該領域的超級大牛。
“我覺得如果你是個放射科醫(yī)生,那其實你就像動畫里的 Wile E. Coyote(歪心狼)。”Hinton 說道。“你已經(jīng)沖的太快飛下了懸崖,但自己都不知道往下看看,下面已經(jīng)沒路了。”專用于乳腺和心臟造影的深度學習系統(tǒng)已經(jīng)完成了商業(yè)化開發(fā)。“毫無疑問,五年之內(nèi)深度學習的診斷能力就會超過放射科醫(yī)生。當然,也可能需要花十年,我此前就曾亮明這一觀點,但許多人不愿接受。”
當年 Hinton 的觀點很直率,他在醫(yī)院表示:“醫(yī)院無需繼續(xù)訓練放射科醫(yī)生了。”筆者拿這個問題詢問 Angela Lignelli Dipple 時她表示,放射科醫(yī)師可不是僅僅在做“是或不是”的分類工作。除了定位導致中風的栓塞,他們還在關注其它地方的小出血,這些小出血可能會令溶栓藥物的使用造成災難性的后果。他們在尋找一種意料之外的、或許依然處于無癥狀狀態(tài)的腫瘤。
現(xiàn)在,Hinton 確實有資格說這話。“放射科醫(yī)生的職責將從完成感知任務變成解決認知任務。”他對醫(yī)學未來的預測是基于一個簡單的原則,即“如果你掌握某種舊式分類問題的大量數(shù)據(jù),那么就考慮去解決它吧,而深度學習就能完成這個任務。到時會有數(shù)以千計的深度學習應用程序出現(xiàn)。”他想用深度學習算法來分析 X 光片,CT 掃描和核磁共振等醫(yī)學數(shù)據(jù)。不過這只是近期規(guī)劃,未來“深度學習算法將做出病理學診斷。”它們能看懂 Pap 涂片,也能聽懂心跳或預測精神病患者復發(fā)的可能性。
隨后,筆者還與 Hinton 探討了黑箱問題。雖然計算機科學家也在努力找答案,但 Hinton 明確表示那些試圖打開黑箱,或找出深度學習系統(tǒng)到底如何學習技能的努力都是微不足道的,誰要是說自己解決了黑箱問題,一定是在騙人。
不過,這個問題可以伴隨我們一起成長。Hinton 表示:“想象在某場比賽中,一名棒球運動員與一名物理學家比賽來猜球會在哪落地。棒球運動員在訓練和比賽中一次又一次的練習拋球,他可能不了解任何方程式,但是他知道球到底會有多高、能達到多大的速度以及它會落在哪里。當然,物理學家也可以通過方程式來判斷同一件事物。雖然方式方法不同,但兩者能得到同樣的答案。”
雖然前途光明,但在此前的乳腺 X 射線檢測中,計算機輔助系統(tǒng)的表現(xiàn)卻非常令人失望。因此,任何新系統(tǒng)都必須通過嚴格的臨床測試完成評估。不過,Hinton 也強調(diào),新的智能系統(tǒng)是為了從其錯誤中吸取教訓,從而隨著時間的推移而不斷改進。“我們需要搭建一個能搜集每個錯誤診斷的系統(tǒng),并將其反饋到機器學習系統(tǒng)中。到時我們就能詢問機器,這里你遺失了什么?能改進下自己的診斷結(jié)果嗎?放射科醫(yī)生現(xiàn)在還享受不到這樣的系統(tǒng)。如果你遺漏了某件事,導致5 年后你的一個病人患上了癌癥,這時沒有系統(tǒng)的例行程序來告訴你如何糾正自己,但你可以在系統(tǒng)中建立這種機制來教計算機完成這一任務。”
眼下,一些野心最大的機器學習診斷算法在試圖整合自然語言處理技術(好讓計算機能讀懂病例)和從教科書、期刊和醫(yī)學數(shù)據(jù)庫獲得的醫(yī)療方面的百科知識,著名的 IBM 和 DeepMind 都是其中的佼佼者。筆者見過多個系統(tǒng)的演示,但它們的許多功能,特別是與深度學習有關的,都還在開發(fā)中。
Hinton 對未來的深度學習診斷充滿熱情,這份熱情的來源有一部分就是他自己的經(jīng)驗。在 Hinton 開發(fā)此類算法時,他的夫人被發(fā)現(xiàn)得了晚期胰腺癌。禍不單行,Hinton 的兒子也被查出得了惡性黑色素瘤,但隨后活檢結(jié)果顯示該病變是一個基底細胞癌,并沒有想象那么嚴重。“在這方面我們還有很多要學。”Hinton 說道。“盡早盡快的診斷非常重要,為什么不讓機器幫我們一把呢?”
手藝出神入化的 Bordone
早春三月一個寒冷的早晨,筆者拜訪了位于曼哈頓第一大街 50 號的哥倫比亞大學皮膚診所。診所的主治醫(yī)師 Lindsey Bordone 當天共有 49 個病人預約,才早上十點,他的候診室就已經(jīng)人滿為患。一位 60 歲左右留大胡子的男子坐在角落,用羊毛圍巾把脖子上的疹子擋了起來,而另一對心神不寧的夫婦則在看著自己手中的《時代周刊》。
Bordone 眼看病人快速涌來,在一個由熒光燈照明的里屋內(nèi),一個護士坐在計算機前對病人的病情做了簡單總結(jié):“55歲,無既往病史,但其皮膚上卻有可疑點。”隨后,Bordone 進入化驗室,她的金發(fā)甚至因為跑的太快而飄了起來。
隨后,Bordone 又看了一個 30 多歲的男病人,他臉上起了紅色的疹子。在檢查過程中,這個病人的皮膚甚至開始從鼻子上掉了下來。Bordone 讓他躺在燈下并細細觀察他的皮膚,最后又拿起了手持皮膚鏡對病人進行檢查。
“你頭發(fā)里有頭皮屑嗎?”Bordone 問道。病人有點懵,他回答稱“當然有。”
“這是面部皮屑,”Bordone 告訴他。“你遇到的情況有些糟糕,但問題是它現(xiàn)在為什么會出現(xiàn)并且情況變得越來越糟了呢?你在頭發(fā)上使用過什么新產(chǎn)品嗎?或者你家人會給你一些比較大的家庭壓力嗎?”
“壓力肯定有的。”病人說道。最近他丟了工作,需要處理一些經(jīng)濟上的問題。
“以后你著手寫日記把。”Bordone 建議道。“通過日記我們能找到你的病情是否與生活壓力有關。”隔壁房間是一個年輕的律師助理,他的頭皮上起了一片發(fā)癢的疙瘩。Bordone 摸他的疙瘩時他趕緊避開了。“只是脂溢性皮炎而已。”她迅速完成了這個檢查。
另一個房間的女病人則換上了病號服,她過去被醫(yī)生診斷為黑色素瘤,因此非常注意自我保護,以防惡化。Bordone 詳細的掃了一遍她的皮膚,每個可能的部位都看了看,整個過程花了 20 分鐘。結(jié)果相當喜人,只有一些痣和角化病,并沒有黑色素瘤或者癌。
“看起來一起都很好。”她高興的說道,女病人心里的擔子也終于落下了。
整個過程就像凱撒大帝的名言,只不過人物換成了 Bordone:她來、她看、她診斷。與 Hinton 這樣的“草原狼”不同,她更像是瘋狂的尋路者,試圖用接二連三趕來的病例來跟上時代的步伐。Bordone 在屋里寫筆記時,筆者詢問了她對 Thrun 未來診斷愿景的想法:就像一張 iPhone 拍的照片通過 email 發(fā)給外部網(wǎng)絡,召集了一群專家來評價。
像 Bordone 這樣的全職皮膚科醫(yī)生,一生中會看到約 20 萬個病例。斯坦福的機器算法卻在 3 個月內(nèi)獲取了近 13 萬的病例。與其相比,每位新晉的皮膚科醫(yī)師都需要從零開始,但是 Thrun 的算法卻一直都處于獲取病例、成長和學習的過程中。
Bordone 聳聳肩表示:“如果它能提高我診斷的準確度,我很歡迎機器的到來。我的病人可以直接將患處的照片發(fā)給我,這樣我能幫到的病人就更多了。”
Bordone 的回復聽起來合情合理,讓我想起了 Thrun 的所謂“增強”理論。不過,機器學得越來越多,人的知識量是不是會越來越少呢?這種擔心父母就有,孩子經(jīng)常用手機中的拼寫檢查功能,是不是慢慢的忘記字母拼寫呢?這種現(xiàn)象被稱為“自動化偏見”。當汽車有了一定的自動駕駛能力后,司機就容易開小差,這樣的情況在醫(yī)療行業(yè)也會出現(xiàn)。
當然,Bordone 可能是新時代的 John Henry(美國民間傳說中的黑人英雄,對抗蒸汽機),但無法忽視的是,她的心確實在自己的工作上,檢查每塊皮膚時她都是那么認真。如果機器來幫忙,Bordone 還能維持自己的優(yōu)良作風嗎?
除了檢查認真,Bordone 與病人間還有其他互動模式。舉例來說,病人離開診室時心情看起來都不錯,Bordone 認真撫摸和檢查過他們的皮膚,且愿意與他們友好交談。因此即使話語中會出現(xiàn)類似“痣”和“角化病”這樣的名詞,人們心中也會稍感欣慰。
除了豐富的人文關懷,Bordone 在診斷技術上也出神入化,她能在短時間內(nèi)認出患者皮膚病的類型。巴西研究人員認為,當 Bordone 識別出某一模式時,你幾乎可以看到她大腦后下方的神經(jīng)元角錐狀物所迸發(fā)出的火花。不過送走病人并不意味著 Bordone 工作的結(jié)束,她還會花大量時間來研究病人出現(xiàn)病變的原因。是因為壓力嗎?還是洗發(fā)水有毒?難道是因為對游泳池中的氯過敏?為什么在這個季節(jié)患上皮膚???
筆者認識到,原來臨床實踐中的最有力的因素,不是了解它或是知道如何去掌握案例的事實情況,或是識別出醫(yī)生們所構建的模式,而是那存在于知識第三個領域中的“了解原因”。
機器是否會讓醫(yī)生丟掉初心?
對問題的解釋可淺可深。舉例來說,你手指上出了一個紅色的水泡可能是因為你碰到了一塊熱鐵,也可能是因為燒傷激發(fā)了前列腺素和細胞因子的一個炎癥級聯(lián)反應,但其中的調(diào)控過程依然讓人摸不著頭腦。因此,知道為什么、提問為什么,是我們通向各種解釋的關鍵渠道,而解釋正逐漸成為掌控醫(yī)學進步的核心。Hinton 還曾談到棒球運動員和物理學家,他認為醫(yī)師、人工智能或普通人都能成為棒球運動員,但習得球技后恐怕大家都說不出到底如何打好棒球。醫(yī)學研究者也能成為物理學家,就像棒球場上也能出理論家,但他們有知道“為什么”的渴望。這是一個方便的職責分工,但是否也意味著損失?
“深度學習系統(tǒng)可不會自我解釋。”Hinton 直截了當?shù)恼f道。既然是黑箱,就意味著原因無法調(diào)查。Hinton 表示:“深度學習系統(tǒng)越強大,就會變的越不透明。由于掌握了更多病因,診斷將變得越發(fā)準確,但為什么這些特征會從數(shù)以百萬計的其它特征中被提取出來,仍然是一個無法回答的問題。”算法能解決一個病癥,但它卻無法創(chuàng)建病癥。
在筆者從事的腫瘤學領域,那些技術高超的大牛們通常也是喜愛鉆研之人。事實上,在過去幾十年間,有 夢想的醫(yī)生曾經(jīng)努力想成為上面所提到的棒球運動員和物理學家:他們試圖用敏銳的診斷來理解疾病的病理生理學。為什么皮膚病變后的不對稱邊緣意味著黑色素瘤的出現(xiàn)?為什么有些黑色素瘤會自然消退?為什么黑色素瘤的案例中會出現(xiàn)皮膚變白的情況?有趣的是,醫(yī)生們在臨床上觀察到的情況,最終都與如今臨床使用的特效免疫藥的發(fā)明息息相關。這就意味著,臨床是許多疾病治療藥物的起點。如果越來越多的臨床實踐被黑箱所取代,我們是否會逐漸退化,變成只把能做的做得更好的人,但對于重新審視我們所應該做的事情或跳出黑箱進行思考時卻變得無能為力?
關于人類自動化的未來,筆者還與哥倫比亞大學皮膚病專家 David Bickers 進行過深入的交談。Bickers 表示:“相信我,我已經(jīng)試著理解了 Thrun 論文的相關知識。雖然不理解其背后的數(shù)學思維,但他提到的算法確實能改變皮膚病學的實踐。皮膚病專家會因此失業(yè)嗎?我看難,不過我認為學界應該多思考怎樣將這種技術引入醫(yī)療實踐。我們該怎么為這樣的協(xié)助付費?如果機器診斷錯誤,誰該負這個法律責任呢?如果依靠這樣的算法,是否會削弱我們的實踐,或者作為診斷專家的自身形象?最終,我們訓練的是否會成為技術人員而不再是醫(yī)生?”
談了一段時間后,Bickers 看了看時間,稱病人在等他,所以要先走了。“我這一輩子只從事了診斷學家和科學家兩個職業(yè)。我了解病人對我的依賴,我也知道醫(yī)學知識來源于診斷。”Bickers 說道。
英語中“診斷”一詞,其實是來源于希臘語中的“知道如何區(qū)分”,機器學習算法在疾病的區(qū)分上確實會越來越強,從全局來看它也會超越那些專注于解決任務的單一算法。在醫(yī)學領域中,也許只有獲得整體理解的能力,才能拿到終極回報。
Via.NewYorker,雷鋒網(wǎng)編譯
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 預計2024年中國折疊屏手機出貨量將達910萬部,華為占據(jù)半數(shù)份額
- Counterpoint:59%的受訪者計劃在一年內(nèi)升級到Gen AI智能手機
- 美國ITC裁定聯(lián)想智能手機侵犯愛立信專利
- 英特爾高通隔空叫陣:兩大巨頭在較什么勁?
- IDC最新預測:2024年PC和平板電腦市場將增長3.8%至4.035億臺
- 蘋果Vision Pro頭顯即將登陸中國臺灣,12月17日正式發(fā)售
- 全球折疊屏手機出貨量首次遭遇季度下滑,三星旗艦機型表現(xiàn)不佳是主因
- HUAWEI Mate X6 震撼登場,折疊引領者,巔峰再跨越
- 五年持續(xù)領跑,華為折疊屏一步領先,一路領先
- 全新HUAWEI MatePad Pro 13.2 英寸首發(fā)亮相,鴻蒙專業(yè)生產(chǎn)力體驗再升級
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。