魏巍 黃櫻碩
目前基于計算機輔助檢測技術應用廣泛,其中卷積神經網絡(convolutional neural network, CNN)已成熟應用于影像學信息提取[1]。CNN與傳統的神經網絡模型相比較可以避免人工選擇圖像特征的主觀性,而獲得更準確的圖像分割參數并提高模型準確率[2]。近十年來,國內外學者應用CNN模型處理肝癌的影像學資料,建立了較為準確的診斷模型[3-6]。本研究嘗試利用文獻計量學的方法總結分析近年來在PubMed上公開發表的文獻中,以CNN模型評估肝臟纖維化的研究現狀,為今后肝臟纖維化評估模型的選擇提供參考依據。
本研究以Convolutional Neural Network (CNN) AND Hepatic Carcinoma (HCC)、Deep Learning AND Hepatic Carcinoma (HCC)、Deep Convolutional Neural Network (CNN) AND Hepatic Carcinoma (HCC) 為檢索詞在PubMed數據庫進行檢索,檢索的文獻涵蓋了英文文獻以及在PubMed中收錄的中文文章的英文摘要。檢索時間為PubMed收錄第1篇文獻至2021年3月3日,所查閱的文獻下載全文或摘要后由兩名研究者獨立篩選并提取相關信息。
(一)文獻信息提取 利用NoteExpress文獻管理軟件對入選的研究進行分類管理,采用Excel軟件編制關鍵信息提取表,提取的關鍵信息包含文獻發表年份、發表國家、第一作者、發表期刊名稱、影響因子以及CNN模型架構等信息。信息提取由兩名研究者獨立完成,意見不一致時邀請其他研究者進行討論確定。
(二)主要分析指標 將上述提取的信息按以下要點分類整理,①文獻特征:記錄研究的關鍵詞和首次發表的年份,第一作者的國家和基于Web of Science數據庫查詢的被引用次數;②模型特征:由于CNN是深度學習算法中的一大類,因此詳細記錄納入研究的CNN里網絡具體架構的名稱和模型用于診斷肝癌的準確性;③發表雜志的特征:雜志名稱以及2019年的影響因子。
基于Microsoft Excel 2013 整理提取的相關數據,利用SPSS 26.0 軟件對提取的數據進行統計分析。定量資料滿足正態分布采用均值±標準差描述,偏態分布數據采用中位數(四分位數)描述;定性資料以例數和百分比描述。關鍵詞詞頻分析采用圖悅工具(www.picdata.cn)處理。
截至2021年3月3日,基于PubMed數據庫用檢索到46篇相關文獻,剔除綜述類文獻和未發生肝癌的研究8篇,共納入38篇文獻(見圖1)。所有研究為2017年4月至2021年2月發表,其中2020年發表數量最多,為18篇(45%)。2018年發表的研究平均引用次數近80次,單篇引用次數最高的研究為229次,引用次數最少的為2021年1~2月最新發表的研究(見表1)。

圖1 關鍵詞詞頻分析圖

圖1 研究文獻篩選流程圖

表1 不同年份文章發表情況及引用情況
納入的文章全部為原始研究,研究者通過閱讀全文提取每篇文章的關鍵詞,在整理過程中首先將關鍵詞去重,例如:Hepatocellular carcinoma及HCC被記為同一類關鍵詞,然后記錄每類不同的關鍵詞出現的頻次和占總頻次的百分比。在38篇研究中,共出現136個不同的關鍵詞,其中詞頻超過10次的有肝細胞癌(Hepatocellular carcinoma)、卷積神經網絡(Convolutional neural networks)和深度學習(Deep learning),三個高頻關鍵詞累計出現的占比近35%,其余133個關鍵詞的占比為65%,其中有54個關鍵詞僅出現1次。將所有關鍵詞按詞頻進行從小到大的順序排列并繪制詞頻分析圖,圖中每一個關鍵詞僅出現1次,大小與每個關鍵詞的權重相關(見圖2)。
提取每篇研究的被引用次數,將被引用超過10次的文章進行詳細記錄,包括第一作者、發表時間、發表國家和模型的信息等。結果顯示,在8篇高引用的文章中,有4篇來自于中國(含香港),4篇來自國外作者。在發表年份方面,有1篇發表于2017年,3篇發表于2018年,4篇發表于2019年。發表的雜志中,影響因子最高的雜志為Radiology(IF=7.931),所有作者均選用了不同的深度CNN模型架構,經過多次卷積學習過程模型展現了較高的準確性,能夠實現診斷肝癌的圖像分割,為臨床診治提供輔助性判讀支持(見表2)。

表2 引用10次及以上文章特征分析
針對肝癌的診斷是學術界討論的熱點,由于肝癌發病隱匿,進展較快,占位形成至一定體積時才被診斷,患者在就診時大多是在終末期而延誤了最佳治療時期[7]。因此,國內外研究者嘗試利用深度學習技術用于肝癌影像學的數據提取和判讀,為肝癌早期診斷提供輔助性支撐。將CNN應用于肝癌圖像判讀的研究出現在2017年[8],由于CNN在肝癌影像學判讀中準確性高,能夠輔助臨床醫生早期診斷,近5年間發文量逐漸遞增,在2020年發文量達到高峰。在文章引用方面,單篇引用最高的文章發表于2018年[9],研究者利用深度卷積網絡模型針對肝癌影像學圖像進行分割和判讀,將研究結果與既往構建的相關模型對比,CNN模型的準確性均高于其他模型,可以應用于肝癌和其他腫瘤疾病的圖像分割和判讀。從本研究詞頻分析結果顯示,發表文章研究熱點主要圍繞肝癌、CNN模型、深度學習、圖像分類、人工智能、肝臟腫瘤、MRI和CT等,側面反映了近幾年國內外研究者嘗試利用人工智能的算法解決臨床疾病的診斷,尤其是CNN模型算法的特點更加適用于影像學資料的圖像分割、數據提取和臨床結局的分類等問題。
由于CNN模型原理較為復雜,且實現CNN模型的軟件通過編程才能實現,因此對于臨床醫生應用CNN模型解決臨床問題一直是個難點。目前有國外的學者將CNN模型學習過程開發成可視化的工具,能夠實現通過網站(http://chainer.org/以及https://keras.io/)以點選的方式搭建CNN模型進行分類和數據處理,便于臨床醫生和其他科研工作者使用CNN模型解決臨床實際問題。即使深度學習算法發展成熟,已經廣泛應用于肝癌臨床輔助性診斷中,并且在獲得了較高的診斷準確性,但是肝癌的診斷還需臨床醫生結合患者的病史、甲胎蛋白水平等綜合判斷,因此深度學習算法或是CNN模型僅作為輔助性診斷工具,為臨床醫生更加準確診斷疾病提供支持。
綜上所述,人工智能尤其是深度卷積神經網絡模型近年來發展成熟,越來越多的國內外研究者嘗試利用CNN模型進行肝癌的影像學評價并且獲得了較高的診斷準確性,文獻發表量逐年遞增,引用次數隨發表時間增加而增加。但由于模型原理和計算過程較為復雜,還需要進一步開發可視化及操作簡便的應用系統,以便于更多的臨床醫生和科研工作者解決問題。