王華南,崔節偉,王 娟,梁志欣
1 解放軍總醫院第一醫學中心 呼吸內科,北京 100853 ;2 聯勤保障部隊第九九〇醫院 呼吸內科,河南信陽 464000
肺癌是目前全球發病率和死亡率最高的惡性腫瘤,嚴重影響人類身心健康。2018 年全球癌癥統計結果顯示,肺癌患者占惡性腫瘤總人數的11.6%,死亡人數占所有惡性腫瘤致死人數的18.4%[1]。診斷惡性腫瘤的金標準是病理診斷,傳統病理診斷需要病理醫師在顯微鏡下逐個分析病理切片,其診斷結果具有一定的主觀性,診斷準確性與病理醫師的水平直接相關;同時由于環境污染、人口老齡化等多種因素的影響,腫瘤患者日益增多,病理醫師的負擔越來越重,疲勞閱片現象經常發生[2-3],導致一定的誤診和漏診。如何及時、高效、準確地診斷肺癌,是關乎肺癌患者下一步治療及預后判斷的關鍵。近年來,隨著人工智能和數字病理學的發展,醫學界越來越認識到人工智能在輔助病理診斷中具有的重大臨床及科研價值。人工智能在肺癌病理診斷中的應用已成為當前研究熱點。本文主要對人工智能在肺癌病理診斷中的應用進展進行綜述。
2016 年 “ 阿 爾 法 狗 (AlphaGo)”[4]以 4 :1 擊敗職業圍棋九段選手李世石(Lee Sedol),引起人們對人工智能(artificial intelligence,AI) 的廣泛關注。人工智能是研發用于模擬人類大腦學習并延伸人類能力的新型智能技術。人工智能的核心是機器學習,而深度學習(deep learning,DL) 是機器學習的一個分支,深度學習技術目前被認為是用于圖像分析的最先進技術[5]。最常用的深度學習模型是卷積神經網絡(convolutional neural network,CNN),CNN 從20 世紀90 年代開始應用于圖像分析,是一種特別適用于解決圖像分類問題的監督學習算法。
近年來興起的數字病理學(digital pathology,DP),旨在用全切片掃描儀對病理切片進行數字化處理,以及對這些數字化的全切片圖像進行分析,其核心技術是全切片成像(whole slide imaging,WSI) 技術。FDA 在2017 年批準飛利浦全切片掃描儀進入市場用于病理切片的數字化,是邁向真正數字化病理道路的一個重大轉折點[6]。隨著大數據技術、數字病理學的發展,以深度學習技術為代表的人工智能,已成功應用于病理圖像識別,以輔助醫學診斷,并表現出巨大的發展潛力。人工智能和數字病理學的組合[7],稱為人工智能病理診斷系統,國內有人將其稱為 “病理狗”[8],它將改變病理診斷專家的工作方式,使廣大患者受益,成為 “病理學的第三次革命”[9]。在某些情況下,基于深度學習的人工智能在病理學圖像的識別方面已經超過了經驗豐富的病理學家。人工智能病理診斷系統的應用,已經有了許多成功的案例。如Xu 等[10]開發了一個深層卷積神經網絡(deep convolutional neural network,DCNN),對乳腺癌及大腸癌組織病理學圖像中的上皮和間質區域進行分割和分類。Litjens 等[11]研究了組織病理學檢查的深度學習效果,并驗證了其在前列腺癌識別和乳腺癌轉移檢測中的出色表現。Ertosun 和Rubin[12]提出了一種使用深度學習的自動分級膠質瘤系統。
病理診斷分為細胞病理診斷和組織病理診斷,人工智能病理診斷系統在肺癌的細胞病理及組織病理診斷中均有應用。
2.1 人工智能細胞病理診斷系統在肺癌診斷中的應用 細胞病理學是研究組織碎片、細胞群團、單個細胞的形態和結構以及細胞間比鄰關系并探討組織來源的一門科學。在肺癌診斷中,細胞病理學取材簡便、快速,可用于肺癌的篩查或普查,在痰液、支氣管刷片及沖洗液中可以查找到肺部病變的癌前病變細胞或癌細胞,為肺癌的早期診斷和早期治療提供有力的依據。目前,已有人工智能細胞病理診斷系統應用于肺癌分類診斷的研究。
Teramoto 等[13]使用DCNN 開發了微觀圖像中的肺癌細胞病理自動分類模型,這是一種主要的深度學習技術。用于分類的DCNN 由三個卷積層、三個池化層和兩個全連接層組成。在進行的評估實驗中,研究者使用原始數據庫和圖形處理單元對DCNN 進行了訓練。他們首先將顯微圖像裁剪并重新采樣,獲得分辨率為256×256 像素的圖像,為了防止過度擬合,又通過旋轉、翻轉和過濾對收集的圖像進行增強,并利用三重交叉驗證評估了其分類準確性。在獲得的結果中,腺癌、鱗狀細胞癌和小細胞癌的分類診斷準確率分別為89.0%、60.0% 和70.3%,總準確率為71.1%,這與病理學家的診斷準確率相當。因此,他們的方法有助于輔助細胞學檢查在肺癌診斷中的應用。另一項研究,Teramoto 等[14]開發了一種使用生成對抗網絡(generative adversarial networks,GAN) 自動生成細胞學圖像的方法,目標是通過使用實際的和合成的細胞學圖像及生成對抗網絡來提高DCNN 的分類準確率。該研究從原始顯微圖像中分割出補丁圖像,并使用GAN 及漸進生長的GANs(PGGAN)生成高分辨率圖像,研究者用這些圖像預先訓練一個DCNN,并利用訓練過的DCNN 對良、惡性細胞的分類性能進行了評估。結果顯示,他們對肺細胞的總體分類準確率為85.3%,與之前未使用GAN 生成的圖像進行預訓練的研究相比,準確率提高了約4.3%。這些結果證實他們提出的方法在僅獲得有限數據的情況下對于細胞學圖像的分類是有效的。張纓等[15]在肺癌早期診斷立體定位儀的基礎上,研制了基于圖像處理和人工神經網絡的肺癌早期細胞病理電腦診斷系統(lung cancer diagnosing system,LCDS)。該研究選取512 例經皮肺穿刺標本涂片,經LCDS 檢測判定為肺癌者389例,判定為正常細胞者36 例,判定為核異型細胞者87 例,該系統與病理專家的細胞病理診斷結果相比,470 例符合,診斷總符合率達91.8%。接受手術治療的362 例中有307 例術后病理確診為肺癌,以術后組織病理診斷為標準,LCDS 對肺癌檢測診斷的敏感度為94.79%(291/307),特異性為90.91%(50/55),診斷準確率達94.20%(341/362)。
以上研究表明,人工智能細胞病理診斷系統可以對肺癌細胞進行分類,且其診斷準確率與病理學家的診斷準確率相當,這將大大節約病理學家的時間,減輕病理醫師工作負擔,有效提高肺癌細胞病理學診斷效率,使病理學家集中精力研究疑難病例。
2.2 人工智能組織病理診斷系統在肺癌診斷中的應用 組織病理學檢查即活體組織檢查,簡稱活檢,是指用局部切取、鉗取、穿刺、搔刮和摘取等手術方法,從活體內獲取病理組織進行病理檢測的診斷方法。組織病理學檢查是目前廣為采用的診斷方法,對腫瘤良、惡性的鑒別具有重要價值。腺癌和鱗狀細胞癌是肺癌最常見的亞型,病理學切片的目測檢查是目前病理學家評估肺部腫瘤分期和亞型的主要方法之一,人工閱片效率低,易出現疲勞閱片現象,人工智能組織病理診斷系統的應用,大大提升了肺癌的診斷效率。
在肺癌組織病理診斷中,已經證明人工智能可以對肺癌亞型準確分類,并能預測非小細胞肺癌 (non-small cell lung cancer,NSCLC) 患 者 的 生存預后。Yu 等[16]使用了來自癌癥基因組圖譜(the cancer genome atlas,TCGA) 的 2 186 張肺腺癌和鱗狀細胞癌患者的組織切片的全掃描圖像和來自斯坦福組織芯片(tissue microarray,TMA) 數據庫的294 張圖像進行驗證。他們使用圖像分析軟件提取了9 879 個用于預測結果的形態學圖像特征,用機器學習軟件評估了這些圖像,并開發了可以識別腫瘤細胞的分類器,以區分腺癌和鱗狀細胞癌,并預測生存期。結果顯示,分類器能夠有效地區分惡性腫瘤和相鄰健康組織(AUC=0.81),并且能夠區分兩種不同類型的非小細胞肺癌(AUC >0.75)。此外,它也能準確預測Ⅰ期腺癌(log-rank 檢驗P=0.002) 和鱗狀細胞 癌 (log-rank 檢驗 P=0.023) 患者的長期生存。目前,傳統的病理方法尚無法確定哪些Ⅰ期NSCLC 患者在手術后可能復發,而人工智能機器學習模型可以成功輔助預測。Luo 等[17]基于形態學特征開發了一個統計模型來預測肺癌患者的生存,他們從癌癥基因組圖譜數據集中下載523 例肺腺癌和511 例鱗狀細胞癌患者的病理圖像,提取了943 個特征,運用此模型進行分析。預測模型是從訓練集開發的,并分別在獨立的肺腺癌和鱗狀細胞癌的測試集中進行了驗證。結果表明,基于數字病理成像的人工智能可以預測肺癌患者的預后。Coudray 等[18]對從癌癥基因組圖譜獲得的全部切片圖像訓練出了一個深層卷積神經網絡,該網絡可以準確和自動地將肺組織病理圖像分類為腺癌、鱗狀細胞癌和正常肺組織,其結果與病理學家的分析結果一致,平均AUC 為0.97。他們的模型在冷凍組織、甲醛固定石蠟包埋組織和活檢組織的獨立數據集上得到了驗證。以上研究顯示,人工智能通過對數字病理組織切片的分析,可以幫助病理學家迅速判斷肺癌類型,并預測患者的預后,顯著提高了肺癌的診斷效率,明顯減少了誤診及漏診,大幅減輕了病理工作者的工作負擔。
2.3 人工智能組織病理診斷系統在預測肺癌突變基因中的應用 目前,用于疾病診斷的基因突變檢測較少。2015 年美國甲狀腺協會發布的關于甲狀腺結節分子譜在外科手術中應用的聲明指出,BRAF-V600E 突變對于甲狀腺乳頭狀癌的診斷具有關鍵作用,術前細針穿刺細胞學標本進行基因診斷可用于甲狀腺結節良惡性的鑒別[19],有研究報道,BRAF-V600E 基因檢測判斷甲狀腺良惡性結節的敏感度和特異性分別為72.6% 和100%[20]。而對于包括肺癌的大多數癌癥,基因檢測目前大多仍限于疾病的靶向治療或預后判斷。
目前,已有針對肺癌特定基因突變的多種靶向藥物問世,對于伴有基因突變的肺癌患者,可以使用具有針對性的靶向藥物對基因進行阻斷,以控制腫瘤繼續增長[21-22],因此基因突變檢測是目前肺癌常規且重要的治療及預后判斷方法之一。已有研究證明,人工智能可以幫助檢測肺癌突變基因。Coudray 等[18]推測某些基因突變會改變全切片圖像上肺癌腫瘤細胞的排布,因而他們對腺癌中最常見的10 個突變基因通過訓練神經網絡進行了預測,結果發現其中的6 個(STK11、EGFR、FAT1、SETBP1、KRAS、TP53) 可以通過病理圖像進行預測,其準確率為73.3% ~ 85.6%。該發現表明深度學習模型可以幫助病理學家快速檢測肺癌突變基因。另外一項研究,王荃等[23]選取南京軍區總醫院病理科50 例肺腺癌病理切片,其中包含表皮生長因子受體 (epidermal growth factor receptor,EGFR) 基因突變21 例和EGFR 基因未突變29 例,運用條件生成對抗網絡(conditional generative adversarial networks,CGAN)[24]分割癌變上皮組織內的細胞核,構建有效的病理組學特征以描述肺部腫瘤,從而運用支持向量機(support vector machine,SVM)[25]分類器構建EGFR 基因突變風險預測模型。實驗結果表明,他們構建的EGFR 基因突變風險預測模型的AUC 在測試集上可達72.4%,準確率為70.8%,提示EGFR 基因突變與肺腺癌全掃描組織病理圖像中的組織形態學特征密切相關,證明了從全掃描組織病理圖像中預測EGFR 基因突變的可行性。這些研究說明,人工智能組織病理診斷系統有可能幫助病理學家快速檢測肺癌突變基因,便于指導患者盡早開始靶向藥物治療,以提高治療效果,改善患者預后。
目前,指導肺癌靶向治療的基因檢測大多依賴于組織活檢標本,相對于傳統組織病理學,液體活檢是一類新興的病理檢測技術。液體活檢以血液、尿液、痰液等液體樣本中的腫瘤循環 細 胞 (circulating tumor cell,CTC)、 腫 瘤 循 環DNA(circulating tumor DNA,ctDNA)、 微 小 RNA(microRNA,miRNA) 以 及 外 泌 體 (exosome) 等 為檢測目標,通過熒光原位雜交(fluorescence in situ hybridization,FISH)、 二 代 測 序 (next generation sequencing,NGS) 等技術獲取腫瘤基因突變等相關信息,以指導臨床治療和預后判斷,液體活檢技術由于其無創、取材方便、操作風險低以及可避免局部取樣偏差從而獲取腫瘤組織的全面信息等優勢成為當前研究熱點。隨著人工智能的發展以及拉曼光譜等新興檢測技術的進步,人工智能病理診斷系統在液體活檢中的應用將會大大提高肺癌基因檢測的準確率和效率。
人工智能病理診斷系統在肺癌中的應用,不但提高了病理工作者的工作效率,且具有良好的穩定性,能發現人肉眼鏡下不易察覺的細節,有效降低了漏診率及誤診率。然而現階段人工智能病理診斷進展大多還停留在實驗室研究階段,未能真正進入臨床,其局限性表現在:1) 數據質量問題。目前,標本處理、切片染色及圖像標注尚未形成標準化流程,用于人工智能訓練的數據量不足,影響診斷的可靠性;2) 數據整合問題。目前,人工智能模型的數據主要來源于病理切片,而沒有結合患者的癥狀、體征及其他檢查化驗結果等信息,削弱了診斷的準確性;3) 法律責任界定問題。單獨應用人工智能發生醫療錯誤時責任的界定亟待相關法律法規的出臺。
目前,大多數人工智能在肺癌病理學方面的研究仍然集中在腫瘤的檢測和分級上。然而,隨著人工智能及數字病理技術的進步,人工智能在肺癌病理診斷領域中的應用,正逐步擴展至與臨床特征密切結合的疾病嚴重程度評估和預后預測方面,同時在新興的液體活檢相關技術領域也具有巨大發展前景。隨著越來越多經驗豐富的病理學家們參與到人工智能的肺癌病理圖像標注工作中,我們相信整合臨床數據、遺傳數據和形態數據的人工智能病理診斷系統在肺癌的精準病理診斷中將發揮更大的作用。