
科學家基于大數據和機器學習,研發出一種計算機算法,這種算法通過眼底影像來預測人未來患心腦血管疾病的風險,其準確度已經和目前使用的專業評估標準相當。
南方周末特約撰稿 陳彬
人們常說“眼睛是心靈的窗戶”,這是因為通過眼神,你可以看出人心中的種種情感,喜怒哀樂,可謂一目了然。然而,從這扇心靈的窗戶,你能看到的還遠遠不止這些。隨著醫學的進步,科學家們現在已經能夠通過觀察一個人的眼睛,來評估其健康狀況和患病風險(不僅僅限于眼病)。谷歌和兄弟公司Verily Life Sciences的科學家最近就研發出一種計算機算法,基于大數據和機器學習,這種算法能夠通過眼底影像來預測人未來患心腦血管疾病的風險,其準確度已經和目前使用的一些專業評估標準的水平相當。這項新的研究成果發表在權威期刊《自然-生物醫學工程》(Nature Biomedical Engineering)上。由于這種方法高效、便捷以及非侵入性的特點,未來可能會得到廣泛應用,一方面,幫助普通人監控自己的健康狀況,盡早發現健康隱患,另一方面,還能夠幫助公共衛生機構和部門監控相關的流行病學趨勢,制定更加有效的健康指南和防控政策。
從眼底影像入手
心腦血管疾病是心臟血管和腦血管疾病的統稱,包括心臟病、動脈瘤、中風等。根據世界衛生組織的一份調查報告,這類疾病是全世界非洲以外地區的頭號死因。在全球每年死亡的人中,大約有32%死于心腦血管疾病。這份報告還估計,到2030年時,每年將會有兩千三百萬人死于這類疾病。心腦血管疾病不僅給病人和病人的家人帶來了極大的痛苦,如此龐大的患病人口也給各國的醫療衛生系統添加了沉重的負擔。另一方面,醫學研究表明,如果盡量做到避免相關的致病風險因子(比如吸煙、酗酒、缺乏鍛煉、不健康的飲食等),有90%的心腦血管疾病一定程度上是可以避免的。毫無疑問,如果有一種能高效、便捷地預測心腦血管疾病患病風險的方法,將會對這些疾病的防控以及發現未知的致病風險因子有很大的幫助。
此前的醫學研究還發現,人眼底影像中視網膜上血管的一些特征與心腦血管疾病的患病風險有很高的相關性,比如一個人的視網膜微靜脈如果比普通人微靜脈的直徑更大,那么他患心腦血管疾病的風險就比普通人更高一些。視網膜微動脈的直徑和心腦血管疾病的患病風險也存在關聯,不過與視網膜微靜脈正好相反,如果一個人視網膜微動脈的直徑比普通人微動脈的直徑更小,患心腦血管疾病的風險就更高。因此,從理論上說,人的眼底影像可以被用來預測心腦血管疾病的患病風險。
在這一領域的研究中,科學家此前也確實有一些進展。然而,此前的方法都有一個缺點,那就是其分析和評估過程最多只達到了半自動化(使用相應的計算機軟件)的程度。很多軟件對眼底影像的分析非常耗時,常常需要幾十分鐘才能對血管進行分類并測量相關的指標。即使完成了上述測量,這些軟件仍然無法以此來預測患病風險:這些方法最終總是需要有經驗的醫學工作者甚至專家來完成評估。這大大限制了這類方法在臨床上的應用。
在這項新的研究中,谷歌的研究人員利用大數據和機器學習的方法,設計出了一種算法(下文中用英語人工智能的首字母縮寫“AI”來表示),可以僅僅通過人的眼底影像,預測一系列已知的與心腦血管疾病患病風險相關的指標,比如性別、年齡、是否吸煙、血壓、身高體重指數(體重除以身高的平方)等。這些信息隨后被AI用于預測人患心腦血管疾病的風險。
用大數據“自學”
機器學習的方法不止一種,谷歌的科學家使用的是一種叫做深度學習的方法。而深度學習本身又有不止一種“策略”,科學家在這項研究中使用的是一種叫做卷積神經網絡的策略。
科學家之所以使用卷積神經網絡,是因為這種方法在圖像分析領域有非常不錯的表現。它的工作原理借鑒了大腦進行信息處理的策略,這也是卷積神經網絡這個名稱中包含“神經網絡”這個詞的原因。
卷積神經網絡包含有很多“層”,這一點與大腦類似,因為大腦的神經元也是分層分布的。在大腦的每一層中,往往有各式各樣不同的神經元來擔負各不相同的功能。與此類似,卷積神經網絡的每一層中也有不同的“神經元”,在這項研究中,它們負責對圖像的不同特征進行提取和分析(比如眼底影像中某個區域的顏色)。不同的“神經元”讀取到的信息并不“平等”,在決定卷積神經網絡得出的結論時所占的權重有大有小。在這個神經網絡中,相鄰的層與層之間存在連接,信息可以從一層流向另一層。卷積神經網絡的最后一層是一個“集大成”的層,與其他的所有層都有連接,通過把此前各層的分析結果整合到一起得出最后的結論,在這項研究中,就是對人患心腦血管疾病風險的預測。
要想讓AI準確預測人患心腦血管疾病的風險,科學家需要首先對它進行“訓練”。這種訓練是通過大數據分析和學習來完成的。研究人員使用了來自兩個生物醫學數據庫,總共284,335名病人的眼底影像照片來訓練他們設計的AI。在訓練的過程中,并不只是用到了上述眼底影像的照片,同時還用到了這些病人與心腦血管疾病相關的其他一些信息(這些都是上述兩個數據庫在采集數據時收錄的,因為只有包含這些信息,這些影像才會對醫學研究有幫助),比如年齡、性別、是否吸煙等,這些信息也是已知的導致心腦血管疾病的風險因子。每一個病人的信息與其眼底影像照片一一對應。
AI的訓練方式很像是一個學生在不斷進行考試,并且通過考試的結果進行“自學”,從而提高預測的準確性。每一張眼底影像照片就像一份“考卷”,當把照片提交給AI后,卷積神經網絡各層的“神經元”會對照片的各種特征(比如某個區域的亮度)進行分析,并將結果傳給下一層的“神經元”,所有分析結果會按不同的權重匯總整合到一起,并最終做出預測(這些預測實際上分為兩個層次,第一個層次是對性別、年齡、血壓等的預測,第二個層次是在第一個層次的基礎上對患心腦血管疾病風險的預測),這些做出的預測就像是AI寫在考卷上的“答案”。“答案”寫完了,就該“對答案”了。AI會把自己的“答案”與病人的相關信息,也就是“正確答案”進行比較。如果“答案”和“正確答案”很相似,那么就繼續進行下一輪“考試”;如果“答案”和“正確答案”存在較大的偏差,那么AI會對自己的“解題方法”做稍許調整,比如降低或是增加某一類“神經元”的權重,然后再進行下一輪“考試”。
通過海量的“考試”,科學家希望這些“考卷”能夠覆蓋到不同個體關于心腦血管疾病的各類信息:男人的、女人的、年輕人的、老年人的、煙民的、糖尿病病人的、高血壓病人的等等。這樣AI就能夠通過學習找到針對不同人群的“規律”,比如看到某一張眼底影像中存在與男性相對應的“規律”,就可以預測這張照片是一個男性的眼底影像。
在把這284335張“考卷”做完之后,AI就“畢業”了。接下來就該看看它是否“學有所成”,能夠準確預測病人患心腦血管疾病的風險了。科學家從上述兩個數據庫中又拿出大約13000名病人的眼底影像照片(這些病人的眼底影像沒有用來訓練過AI),讓AI進行預測,然后將預測結果與病人的信息進行比較,以考察其精準性。結果發現AI能夠很準確地預測出病人的年齡、性別、血壓、身高體重指數等風險因子,但對糖化血紅蛋白(水平與糖尿病相關)等其他一些風險因子的預測效果并不是很理想。
盡管如此,當AI把所有風險因子的預測整合到一起,預測病人心腦血管疾病的患病風險時,AI的表現仍然非常優異,在被用于預測五年內患心腦血管疾病的風險時,其準確度已經達到了由歐洲心臟病學學會制定的風險預測計算方法的水平,而后者的計算需要非常多的指標,很多都是AI在訓練時并沒有學習的(比如病人的血脂水平)。這樣的結果表明,無需其他任何信息,僅僅憑借眼底影像的照片,谷歌科學家開發的這種AI一定程度上就能專業級地預測病人患心腦血管疾病的風險了。
AI醫學正在起飛
雖然這種算法表現已經相當優異,但谷歌的科學家認為,其仍有很廣闊的提升空間。
一方面,對于大數據科學來說,284335張眼底影像照片這一數量還是太小了,如果用更多的眼底影像照片來對AI進行訓練,AI的預測準確度可能還會提高;另一方面,這項研究中用于訓練AI的病人信息并不是很全面,比如只有來自一個數據庫的病人信息中包含了血壓、糖化血紅蛋白等指標,而血脂水平則兩個數據庫都沒有收錄,如果用包含這些信息的眼底影像照片來訓練AI,其預測準確度也可能會提高。
除此之外,這項研究的主要參與者Lily Peng認為,病人一些非生理指標的信息,比如生活方式的變化也可以被納入到用于訓練AI的信息中去,這一方面可能提高預測的準確度,另一方面還有利于發現此前未被醫學界注意到的風險因子。總的來說,科學家對提高這種AI的準確性以及未來的應用前景持樂觀態度。
毫無疑問,如果谷歌科學家開發的這一算法能夠得到進一步的強化并最終用于臨床,將會對監控個人以及群體的心血管健康狀況有非常大的幫助。對于那些生活在貧窮或者偏遠地區的人們來說,這種方法帶來的益處將會更為顯著。
這些地區的醫療條件往往非常落后,因此使用常規的心血管健康狀況監控方法所需的很多檢查有可能無法進行。有了這種算法之后,理論上來說,醫療人員只需要一部智能手機就能對這些地區的人進行檢查和監控了:早在2010年,科學家就研發出了輕巧便捷并且能夠安裝到智能手機上的眼底照相機。利用加載了這種照相機的智能手機,醫療人員就可以拍攝病人的眼底影像,進而監測其心腦血管的健康狀況,無需攜帶其他任何設備。
實際上,隨著人工智能技術的飛速發展,人工智能的元素正在越來越多地滲透到醫學領域中。
2018年4月11日,美國食品藥品監督管理局(FDA)首次批準了一種基于人工智能的診斷設備。這種設備能夠通過一個叫做IDx-DR的AI軟件分析病人的眼底影像照片,進而診斷糖尿病病人的眼病,全程無需醫生參與。
2016年,利用IBM基于人工智能的超級計算機“沃森”,東京大學醫學科學研究所的科學家成功地診斷出了一名病人患的一種極為罕見的白血病。“沃森”在對超過2000萬篇癌癥研究論文進行交叉比對之后給出了診斷結果,全程僅花了十分鐘。
類似這樣的例子近年來正在越來越多的出現在科技新聞甚至新聞頭條上。有理由相信,大數據和人工智能技術即將掀起一場醫學革命。