石靜文,李 嘉
(五邑大學智能制造學部,廣東江門 529020)
乳腺癌常常被稱作“粉紅殺手”,根據(jù)國際癌癥研究機構2021年公布的全球最新癌癥統(tǒng)計數(shù)據(jù)表明:女性乳腺癌取代肺癌成為全球第一大癌[1]。乳腺癌產(chǎn)生的原因不止與遺傳原因、激素變化和既往相關疾病史有關,并且隨著時代的發(fā)展、現(xiàn)代都市生活節(jié)奏日益加快,女性也承擔著更多的社會責任而導致有過度的精神壓力,過于緊張的生活帶來的精神心理因素等也有可能增加罹患乳腺癌的風險,由此可見,乳腺癌對女性的身體健康造成了很大的影響。因此乳腺癌的早期篩查與診斷非常有必要,不僅能及時發(fā)現(xiàn)隱患,而且可以有效提高患者的存活率。
現(xiàn)階段對乳腺癌的檢測研究,主要依賴于病理醫(yī)生的大量專業(yè)知識和診斷經(jīng)驗,但是由于我國醫(yī)療資源不足,并且隨著社會的發(fā)展,生理和心理承受的壓力越來越大,女性患乳腺癌的風險日益增加。在乳腺癌的檢測研究中,對特征的提取是一個關鍵環(huán)節(jié),因為檢測效果受到特征提取的影響,近幾年乳腺癌病理圖像特征提取方法主要有基于紋理、形態(tài)特征等的傳統(tǒng)人工特征提取和基于深層神經(jīng)網(wǎng)絡的自動特征提取兩大類。
本文首先介紹了公開常用的乳腺癌病理圖像相關數(shù)據(jù)集,然后總結(jié)歸納了近幾年乳腺癌病理圖像特征提取算法的研究進展,并分析了這些算法的優(yōu)缺點,最后對乳腺癌病理圖像特征提取算法的未來研究發(fā)展進行了展望。
數(shù)據(jù)集在乳腺癌病理圖像特征提取領域的研究中具有重要意義,它是衡量特征提取算法性能的基本,也是推動乳腺癌病理圖像特征提取算法研究領域向更復雜方向發(fā)展的重要力量[2]。近幾年,公開常用的相關數(shù)據(jù)集有Digital Database for Screening Mammography(DDSM)[3-4],其是馬薩諸塞州綜合醫(yī)院、南佛羅里達大學和桑迪亞國家實驗室的合作項目,包含2 620個病例,總計20 480張的3 000×4 800像素和16位灰度級別的乳房X光圖像,灰度圖像的強度級別在0~255之間,圖像的原始格式是LJPEG,但它被轉(zhuǎn)換為jpg格式以降低復雜性。Mammographic Image Analysis Society Digital Mammo?gram Database(MIAS)[5]數(shù)據(jù)集收集在英國,該數(shù)據(jù)庫包含322張尺寸為1 024×1 024的數(shù)字乳房X光檢查圖像,并由專家精確標記。Wisconsin Breast Cancer Database(WDC)[6]數(shù)據(jù)集是由Dr.William H Walberg從威斯康星大學麥迪遜醫(yī)院收集的,該數(shù)據(jù)集包括699個實例和10個患者特征,包括實例標識符、腫瘤信息、類等。Wis?consin Diagnostic Breast Cancer(WDBC)[7]數(shù)據(jù)集也由Dr.William H Walberg從威斯康星大學麥迪遜醫(yī)院收集,該數(shù)據(jù)集包含569個實例(62.74%為良性,37.26%為惡性),并有32個患者屬性,包括1個患者ID號記錄,30個腫瘤診斷信息,1個腫瘤診斷結(jié)果記錄(良、惡性),數(shù)據(jù)集中的腫瘤診斷信息來源于10個方面,對于每個來源,給出3個測量結(jié)果,即均值、標準誤差和最大值,結(jié)果在數(shù)據(jù)集中有30個特征記錄。Breast Cancer Histo?pathological Database(BreakHis)[8]數(shù)據(jù)集是巴西巴拉那的P&D實驗室——病理解剖學和細胞病理學合作建立的,數(shù)據(jù)集由來自82名患者的7 909張乳腺腫瘤組織顯微圖像組成,其中包含5 429個惡性腫瘤樣本和2 480個良性腫瘤樣本。詳細內(nèi)容如表1所示。

表1 常見乳腺癌病理圖像數(shù)據(jù)集
人工提取特征常用的方法主要利用基本統(tǒng)計特征對圖像進行描述,常見的圖像特征包括紋理特征、空間特征和顏色特征等[9]。紋理特征例如有小波變換、灰度共現(xiàn)矩陣(Gray-level Co-occurrence Matrix,GLCM)、完全局部二進制模式(Completed Local Binary Pattern,CLBP)和局部二進制模式(Local Bimary Pattern,LBP)等[10-13],另外還有空間特征,如最小生成樹(Minimum Spanning Tree,MST)、Delaunay三角剖分(Delaunay Tr?langulation,DT)、Voronoi圖(Voronoi Diagram,VD)等[14-17]方法。具體如Mercan C等[17]將為將全載玻片乳腺組織病理學圖像分為多個類,于是利用各種特征描述符對圖像進行特征提取,如DT、LBP、MST、VD等描述符,最終精度達到81%和69%。Spanhol F A等[13]利用LBP、CLBP、GLCM和對參數(shù)自由閾值鄰接統(tǒng)計量(Pa?rameter-Free Threshold Adjacency Statistics,PFTAS)為特征提取技術,并分別應用至不同的分類器,實驗結(jié)果證明,PFTAS和支持向量機分類器的組合取得了更好的性能,準確率為85%。Vartika Mishra等[18]基于尺度不變特征變換(Scale-invariant feature transform,SIFT)和改進的SIFT被稱為Speeded Up Robust Features(SURF)[19]為特征提取技術對乳腺癌病理圖像進行特征提取,然后用主成分分析(Principle Component Analysis,PCA)降維,并對4種分類器的性能進行了客觀分析,結(jié)果表明,K最近鄰(K-NearestNeighbor,KNN)在SIFT、SIFTPCA、SURF和SURF-PCA中具有最高的精度,而且SURF比SIFT更快。張紅斌等[20]使用SIFT、空間包絡特征(Gist)、方向梯度直方圖(Histogram of Oriented Gra?dient,HOG)和VGG16對乳腺癌細胞從形狀、紋理、深度學習等角度進行了特征提取,并改進ERGS(Effective Range Based Gene Selection)算法動態(tài)計算特征權重進行特征選擇,采用自適應提升算法將弱分類器集成為強分類器,并對其輸出的預估概率做ERGS加權,實現(xiàn)多特征融合,實驗表明,算法識別精準度達86.24%,SIFT、Gist、HOG特征之間具有較強互補性。馬尚洋等[21]針對乳腺癌細胞,采用LBP描述乳腺癌細胞特征,并且利用多維縮放(Multidimensional Scaling,MDS)、局部線性嵌入(Locally Linear Embedding,LLE)等矩陣降維,以反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡算法實現(xiàn)癌細胞輔助判讀,實驗結(jié)果表明,采用LBP-LLE-BP結(jié)合的方法,數(shù)據(jù)規(guī)模降維至5×252時,準確率高達89.61%。此外,Pullaiah N等[22]還提出了混合局部最優(yōu)定向模式(Lo?cal Optimal Oriented Pattern,LOOP)&Haralick特征提取技術。Singh S[23]提出從乳腺癌病理圖像灰度圖中提取GL?CM、LBP、LTE(Law's texture energy)和HTF(Haralick Texture Feature)等特征,然后將這些特征集放在一起,形成一個特征向量進行分類;Gupta V[24]使用顏色-紋理特征來描述圖像,例如Gabor特征、多層坐標群集表示法等。
圖像特征除上述特征之外,還有形態(tài)特征,例如細胞核的細胞結(jié)構等。在提取形態(tài)特征方面,于翠如[25]統(tǒng)計了細胞核占整個面積的比例、細胞核面積和周長的平均值、標準差、最大最小值等特征值。另外還有采用自適應閾值技術和高斯混合聚類對細胞核進行分割[26],采用圓形霍夫變換估計細胞核位置[27]等特征提取方法。
人工提取特征方法需要手動設計乳腺癌病理圖像中感興趣的區(qū)域特征,所以具有一定的局限性和復雜性,更缺乏良好的適應性,難以包含有效且變化多樣的病變特征。盡管如此,這些特征提取技術也為進一步研究乳腺癌病理圖像特征提取方法提供了理論意義和參考價值。
深層神經(jīng)網(wǎng)絡又稱深度學習,基于深層神經(jīng)網(wǎng)絡的乳腺癌病理圖像特征提取方法主要采用人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)。人工神經(jīng)網(wǎng)絡是一種重要且有效的機器學習技術,其能夠?qū)?shù)據(jù)進行自主學習完成特征提取和分類任務。其本質(zhì)是通過生物學的基本原理,對人腦神經(jīng)網(wǎng)絡進行抽象而建立的模型[28]。近年來,深層神經(jīng)網(wǎng)絡被成功地引入到乳腺癌病理圖像特征提取研究中[29-31]。具體如Kassani SH等[32]提出了一種自適應VGG19、MobileNet和DenseNet三個預訓練的卷積神經(jīng)網(wǎng)絡集成模型,該集成模型用于特征表示和提取步驟,提出的多模型集成方法比單分類器和機器學習算法獲得更好的預測。Vo D M等[33]利用Inception-ResNet-v2模型對多尺度圖像進行視覺特征提取,然后采用梯度提升樹進行最后的分類步驟。Gandomkar Z等[34]開發(fā)了一個使用深度殘余網(wǎng)絡(MuDeRN)對H&E染色的乳腺癌組織病理學圖像進行特征提取的框架。Darlington A Akogo等[35]使用端對端(End-to-end)卷積神經(jīng)網(wǎng)絡對乳腺癌細胞進行自動特征提取,系統(tǒng)具有6層CNN,能夠區(qū)分兩種不同的癌細胞類型,實驗結(jié)果顯示可達到99%的準確率。Han Z等[36]基于GoogLeNet架構提出了一種新的CSDCNN模型,該模型可以實現(xiàn)端到端識別,也取得了很好的識別效果。楊曉玲等[37]基于經(jīng)典的LeNet-5模型,通過改變網(wǎng)絡的卷積層數(shù)等方法,對乳腺癌病理圖像進行識別,實驗結(jié)果顯示,該方法對乳腺癌病理圖像平均識別率達89.58%,對惡性乳腺癌細胞識別率可達96.75%之高。孫福權等[38]提出多模型(VGG16、Inception-V3和ResNet-V2-152)卷積神經(jīng)網(wǎng)絡對乳腺癌病理圖像進行識別,實驗結(jié)果表明,在Break His數(shù)據(jù)集的放大200倍的乳腺癌病理圖像上,準確率可達到97.64%。Jinyin Chen等[39]設計了基于深層神經(jīng)網(wǎng)絡的雙網(wǎng)絡結(jié)構(Net+DeNet),用于基因特征提取和癌癥分類,雙重網(wǎng)絡的特征提取方法既考慮了提取特征的分類能力又考慮了重構能力。蔣慧琴等[40]利用YOLOv3主干網(wǎng)絡提取特征,特征提取網(wǎng)絡由5個殘差模塊組成,可以獲得檢測目標的多尺度全局特征。
通過對現(xiàn)階段研究成果的分析,發(fā)現(xiàn)基于深層神經(jīng)網(wǎng)絡的乳腺癌病理圖像特征提取算法在準確率方面取得了突破性的成功。深層神經(jīng)網(wǎng)絡的優(yōu)勢在于可以通過其多個隱含層的網(wǎng)絡結(jié)構自動挖掘數(shù)據(jù)深層次隱式特征[28],這些隱式特征有利于改善乳腺癌病理圖像特征提取的效果,然而大多數(shù)深層神經(jīng)網(wǎng)絡的訓練過程相當耗時。其最重要原因在于:深層神經(jīng)網(wǎng)絡結(jié)構錯綜復雜而且涉及到許多超參數(shù),這種復雜性使得分析深層神經(jīng)網(wǎng)絡結(jié)構變得十分困難;為了在個性化應用中獲得更高的診斷精度,深度學習模型不斷加深網(wǎng)絡層數(shù)或者調(diào)整參數(shù),但有時增加網(wǎng)絡深度反而會出現(xiàn)性能退化的問題。
本文對國內(nèi)外研究者針對乳腺癌病理圖像特征提取問題所進行的大量科學研究進行歸納和總結(jié),可以得出:(1)基于傳統(tǒng)人工特征提取算法需要病理學專家的豐富經(jīng)驗對乳腺癌病理圖像進行標注,在此過程中有可能因為專家的個人因素導致誤診,并且人工設計的乳腺癌病理圖像特征表示方法往往只適用于某幾種顯著特征的識別,所以具有一定的局限性,更缺乏良好的適應性;(2)深層神經(jīng)網(wǎng)絡能對乳腺癌病理圖像進行自動提取特征,相比于傳統(tǒng)人工特征提取方法減少了許多繁瑣的步驟,并且可以提高癌癥檢測的準確率和效率,但是深層神經(jīng)網(wǎng)絡仍然被訓練時長問題和復雜的網(wǎng)絡結(jié)構等問題所困擾。
在今后的研究工作中,可以從以下3個方面進行:(1)由于不同的研究是在不同的乳腺癌病理圖像數(shù)據(jù)集上進行的,所以特征提取算法的比較缺乏說服性,因此在今后的研究中需要建立一個公開可靠的乳腺癌病理圖像數(shù)據(jù)集供國內(nèi)外研究學者使用;(2)除目前現(xiàn)有乳腺癌病理圖像特征提取算法外,缺乏對其他高效的特征提取方法的探討,因此設計一種方便、高效和普適性強的乳腺癌病理圖像特征提取算法是今后研究的重要內(nèi)容;(3)目前乳腺癌病理圖像研究主要還是粗略識別良性和惡性兩類腫瘤細胞,在今后的研究中,應該充分發(fā)揮人工智能的優(yōu)越性,輔助診斷更為細致、精確的腫瘤細胞的實時情況,讓醫(yī)生可以做出更加精準的治療,更好地為患者服務。