周孟齊,胡廣芹,林嵐,李斌,張新峰
北京工業(yè)大學(xué) a. 環(huán)境與生命學(xué)部;b. 信息學(xué)部,北京 100124
據(jù)統(tǒng)計(jì),2020年我國癌癥新發(fā)病例457萬例,其中肺癌新發(fā)病例82萬,死亡71萬例,發(fā)病率和死亡率均居首位[1]。臨床上,癌癥可根據(jù)癌細(xì)胞的擴(kuò)散程度分為5個(gè)時(shí)期:Ⅰ期為產(chǎn)生癌細(xì)胞,Ⅱ期為癌細(xì)胞在癌變部位發(fā)生輕微擴(kuò)散,Ⅲ期為癌細(xì)胞在周邊發(fā)生擴(kuò)散,Ⅳ期為癌細(xì)胞轉(zhuǎn)移至遠(yuǎn)端,Ⅴ期為癌細(xì)胞擴(kuò)散至測量方法的極限。其中,Ⅰ期和Ⅱ期兩個(gè)時(shí)期統(tǒng)稱為癌癥早期[2]。癌癥早期患者可以通過化療、放療等方式進(jìn)行治療,達(dá)到治療目的,因此早發(fā)現(xiàn)有重要意義。
中醫(yī)通過望聞問切四診合參的方式診斷,具有無創(chuàng)無痛的優(yōu)勢[3]。面診作為望診的內(nèi)容之一,在診斷過程中發(fā)揮著重要作用,如面部為全身經(jīng)絡(luò)血脈匯聚之處,面部的顏色、光澤、紋理特征表現(xiàn)可以直接反映人體內(nèi)部氣血運(yùn)行狀態(tài),并反映人體內(nèi)部器官健康狀態(tài)[4]。同時(shí)積聚患者面部皮膚狀態(tài)會(huì)發(fā)生改變,積聚即為腫瘤,如果人體某一部位發(fā)生癌變,會(huì)影響全身經(jīng)絡(luò)氣血的運(yùn)行狀態(tài),體現(xiàn)在面部的特征參數(shù)上[5]。
目前,已有關(guān)于面診信息化的研究,其中YCbCr顏色空間是YUV的國際標(biāo)準(zhǔn)化變種,在數(shù)字電視和圖像壓縮(如JPEG)方面都有應(yīng)用,其中Y與YUV中的Y含義一致,指亮度,CB和CR分別指藍(lán)色分量和紅色分量[6-8]。但關(guān)于癌癥風(fēng)險(xiǎn)預(yù)測評估的報(bào)道較少,基于此,本研究旨在結(jié)合面部顏色和紋理特征,使用機(jī)器學(xué)習(xí)的方法,對是否具有早期肺癌風(fēng)險(xiǎn)進(jìn)行分類研究,以期為肺癌早期發(fā)現(xiàn)提供客觀依據(jù)。
本研究數(shù)據(jù)處理流程圖如圖1所示,通過專業(yè)設(shè)備進(jìn)行人面部圖形的采集,并將所采集到的圖像按照研究所制定的標(biāo)準(zhǔn)進(jìn)行篩選、分類。通過BiSeNet 進(jìn)行面部圖像分割,獲取無背景噪聲的研究區(qū)域;對分割后的圖像進(jìn)行顏色空間的轉(zhuǎn)換,并在YCbCr顏色空間模型中通過CB以及CR的值尋找非膚色點(diǎn),利用均值濾波的方法進(jìn)行降噪。對降噪后的圖像通過一階顏色矩的方法獲取亮度分量、紅色分量、藍(lán)色分量3個(gè)顏色特征值,同時(shí)采用灰度共生矩陣獲取ASM能量、熵、對比度3個(gè)紋理特征值;使用隨機(jī)森林的算法進(jìn)行分類研究,并計(jì)算6個(gè)特征對分類模型的貢獻(xiàn)度。

圖1 數(shù)據(jù)處理流程圖
本研究數(shù)據(jù)來源于中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院數(shù)據(jù)庫和中國醫(yī)學(xué)科學(xué)院中醫(yī)藥健康工程研究室面部圖像數(shù)據(jù)庫。采集時(shí)均使用同一廠家同一型號的面診采集儀,并保證光照條件的一致性以及光源的穩(wěn)定,對圖像進(jìn)行篩選,最終將圖像人群劃定在35~50歲的華北地區(qū)人員。在符合年齡和地區(qū)的前提下,再次進(jìn)行數(shù)據(jù)篩選。
(1)患癌人群納入標(biāo)準(zhǔn):① 采集時(shí)醫(yī)生病歷診斷顯示為早期肺癌;② 為首次接受治療。
(2)未患癌人群納入標(biāo)準(zhǔn):體內(nèi)無任何炎癥感染。
(3)圖像納入結(jié)果:剔除不符合要求的圖像,即非早期肺癌患者、已經(jīng)治愈的患者、體內(nèi)存在炎癥的患者圖像以及采集時(shí)有異物遮擋的圖像。整理圖像,最終納入患癌圖像158例,不患癌圖像200例,數(shù)據(jù)分布較為均衡,并對數(shù)據(jù)進(jìn)行標(biāo)簽分類,0表示患癌,1表示不患癌。
(4)訓(xùn)練集和測試集:每次試驗(yàn)將279例圖像作為訓(xùn)練集,79例圖像作為測試集。
本研究使用BiSeNet網(wǎng)絡(luò)進(jìn)行分割,將圖像中的整個(gè)面部區(qū)域作為目標(biāo)前景,其他區(qū)域作為背景。BiSeNet網(wǎng)絡(luò)是一種雙路徑分割網(wǎng)絡(luò)[6-8],即通過空間路徑(Space Path,SP)和上下文路徑(Context Path,CP)分別獲取位置信息特征和語義信息特征,將兩者通過特征融合模塊進(jìn)行融和,篩選有效特征,從而準(zhǔn)確分割目標(biāo)區(qū)域。BiSeNet算法被廣泛應(yīng)用到各個(gè)領(lǐng)域的目標(biāo)分割中,均取得了較高準(zhǔn)確度的分割結(jié)果。
在本研究中的空間分支網(wǎng)絡(luò)由3個(gè)隱含層組成,每個(gè)隱含層包含一個(gè)不步長為2的卷積層(conv)、批量標(biāo)準(zhǔn)化層(bn)、激活層(relu),因此SP輸出特征圖的尺寸為原始圖像的1/8,可保存豐富的低級空間特征信息,而CP分支使用殘差網(wǎng)絡(luò),獲取最大的感受視野,進(jìn)而獲取上下文語義信息。BiSeNet結(jié)構(gòu)如圖2所示。由圖2可知,注意力提取模塊使用全局平均池化的方式來學(xué)習(xí)特征,特征融合模塊則將SP分支與上CP分支輸出的特征池化為一個(gè)特征向量,并進(jìn)行權(quán)重選擇,進(jìn)而識(shí)別到整個(gè)人臉區(qū)域。用100幅圖像進(jìn)行面部區(qū)域標(biāo)注,送入模型,進(jìn)行學(xué)習(xí)。

圖2 BiSeNet結(jié)構(gòu)模型
面部顏色是中醫(yī)面診過程中的一個(gè)重要信息,在不同的顏色空間中反映出的顏色信息也不一致。面部顏色特性在YCbCr顏色空間[亮度(Y)、藍(lán)色分量(CB)、紅色分量(CR)]上具有較好的信息反映能力,且可根據(jù)CB和CR的取值范圍區(qū)分膚色點(diǎn),且其取值與年齡、性別、職業(yè)等因素?zé)o關(guān),由于YCbCr顏色空間上,具有橢圓膚色聚類的特性,需對非膚色點(diǎn)進(jìn)行檢測[6],因此本研究將面部圖像轉(zhuǎn)換到Y(jié)CbCr顏色空間上,其轉(zhuǎn)換關(guān)系如公式(1)所示,將圖像轉(zhuǎn)化到Y(jié)CbCr顏色空間后,進(jìn)行非膚色點(diǎn)檢測。YCbCr空間使用非線性分段分割膚色區(qū)域時(shí),近似于橢圓形狀,如公式(2)~(3)所示。

式中,Y為圖像在YCbCr顏色空間模型中亮度通道上的分量,CB為其藍(lán)色通道上的分量,CR則為其紅色通道上的分量。R、G、B分別代表圖像在RGB顏色空間模型中紅色通道、綠色通道以及藍(lán)色通道上的分量。

式中,x、y分別表示圖像閾值的橫、縱坐標(biāo);a表示在YCbCr顏色空間膚色點(diǎn)聚類而成的橢圓模型的長軸的值;b表示短軸的值;ecx、ecy分別表示橢圓模型中心點(diǎn)的橫、縱坐標(biāo);θ表示坐標(biāo)軸遠(yuǎn)點(diǎn)到中心點(diǎn)的角度。
根據(jù)研究計(jì)算可得[7-8],在YCbCr空間聚類區(qū)域中,θ=2.53,cx=109.38,cy=152.02,a=25.39,b=14.03,ecx=1.60,ecy=2.41。本研究通過轉(zhuǎn)換公式獲取圖像CB和CR的值,通過公式(3)計(jì)算出x和y的值,并帶入公式(2)的左側(cè)部分,計(jì)算其結(jié)果。若大于1則表明該點(diǎn)不在橢圓區(qū)域內(nèi),即為非膚色點(diǎn)。將圖像中的每一像素點(diǎn)的CB,CR值代入,計(jì)算對應(yīng)像素點(diǎn)的x、y值,并入公式(2)的左側(cè),與1比較,發(fā)現(xiàn)只有當(dāng)CB、CR兩值同時(shí)滿足133≤CB≤173、77≤CR≤127時(shí),其結(jié)果才滿足≤1,落入橢圓區(qū)域內(nèi)部[7]。基于此,在本研究中,對像素點(diǎn)CB和CR值篩選,并將不能同時(shí)滿足兩值范圍的點(diǎn),記為非膚色點(diǎn),并使用9×9的均值濾波器進(jìn)行濾波,達(dá)到降噪的目的。
在YCbCr顏色空間模型中,通過獲取Y、CR、CB的一階顏色矩,即圖像各像素點(diǎn)的均值作為其顏色特征值。
除了顏色特征,面部還包含了許多其他有用的信息。紋理特征是對圖像灰度空間分布模式的分析,描述圖像像素與像素之間的關(guān)系,且不受顏色和亮度的影響[8]。本研究采用灰度共生矩陣(Gray Level Co-Occurrence Matrix,GLCM)提取ASM、熵、對比度3個(gè)特性,分別反映圖像灰度分布均勻程度、平均信息量和灰度反差,三者可從不同的角度描繪出圖像在灰度空間上的局部特征,反映面部的紋理特征,計(jì)算公式如式(4)~(6)所示。

式中,P(i,j)表示在灰度空間中灰度級之間的聯(lián)合條件概率密度,對于本研究,給定空間距離d=1,采用4個(gè)共生矩陣,其角度分別為 0°、45°、90°、135°時(shí),灰度以 i(某行)為起點(diǎn),出現(xiàn)在灰度級j(某列)上的概率。同時(shí)將所有圖像二值化,獲取其灰度圖像,使用4個(gè)不同角度的共生矩陣,分別按公式(4)~(6)進(jìn)行計(jì)算,并取4個(gè)矩陣計(jì)算結(jié)果的均值作為最終的紋理特征。
隨機(jī)森林是機(jī)器學(xué)習(xí)的一種方法,計(jì)算速度較快[9],其是通過多個(gè)決策樹構(gòu)造而成,最終的輸出結(jié)果是由多個(gè)決策樹組合而成的結(jié)果,因此優(yōu)于任何一個(gè)單個(gè)決策樹的輸出結(jié)果[10],因此隨機(jī)森林被廣泛應(yīng)用到分類[11]、預(yù)測[12-13]等方面。本研究在構(gòu)造隨機(jī)森林模型過程中使用ID3算法建立決策樹,并對ID3算法進(jìn)行改進(jìn),在構(gòu)造時(shí)進(jìn)行最大特征數(shù)的限定,通過調(diào)節(jié)最大特征數(shù)以及決策樹的個(gè)數(shù),觀察兩者對隨機(jī)森林的分類結(jié)果的影響,尋找最優(yōu)參數(shù)。隨機(jī)即指樣本的隨機(jī)抽取和特征的隨機(jī)選擇。
本研究將數(shù)據(jù)集進(jìn)行劃分,對訓(xùn)練集的279個(gè)樣本進(jìn)行有放回地隨機(jī)抽取,對抽取出的K組樣本進(jìn)行訓(xùn)練,其構(gòu)造過程如下:① 確定原始訓(xùn)練集:D={1,2,……279};② 對訓(xùn)練集進(jìn)行特征確定,確保所選擇的特征對分類有意義;③ 對訓(xùn)練集D進(jìn)行K次有放回地隨機(jī)抽樣,每次抽取N個(gè)樣本,其中N小于訓(xùn)練集D,得到K組樣本集,本研究中,K分別取值為30、0和100,即決策樹的個(gè)數(shù);④ 使用ID3算法,分別對K組樣本用信息增益的方法構(gòu)造決策樹,進(jìn)而形成有K棵決策樹的隨機(jī)森林;⑤ 輸入待測樣本,根據(jù)步驟④的決策數(shù)據(jù)計(jì)算輸出結(jié)果。
研究以準(zhǔn)確率作為模型的評價(jià)指標(biāo),準(zhǔn)確率的計(jì)算方法如公式(7)所示,混淆矩陣示意表如1所示。


表1 混淆矩陣示意表
構(gòu)造隨機(jī)森林后,對特征的重要度進(jìn)行分析。隨機(jī)森林中的特征選擇主要有3種方法:χ2檢驗(yàn)、信息增益、Gini系數(shù)。本研究在選用信息增益的方法進(jìn)行特征選擇。信息增益的選擇標(biāo)準(zhǔn)是按照每個(gè)子節(jié)點(diǎn)的純度達(dá)到最高純度進(jìn)行的,其值越大純度越高。
特征集合A為特征信息。由于本研究是一個(gè)二分類的數(shù)據(jù)集,故i的值有2個(gè),并根據(jù)公式(8)計(jì)算信息量。根據(jù)式(9)~(10)分別計(jì)算出其先驗(yàn)熵、后驗(yàn)熵。

式中,數(shù)據(jù)集D作為信息,Di為D中的一種類型;P(Di)表示輸出結(jié)果為第i類的概率。

式中,P(Di|Aj)表示在特征Aj條件下取得第i類的概率。P(aj)表示隨機(jī)選擇樣本時(shí)選擇特征aj的概率,Aj為特征aj中的一種。
信息增益是指信息從先驗(yàn)熵到后驗(yàn)熵減少的部分,反映了信息消除不確定性的程度,其值越大,消除不確定性的能力越強(qiáng),相關(guān)性越強(qiáng),計(jì)算方式如公式(11)所示。本研究,樣本集合D={Di|i=|0,1},特征集合A={Aj|j=|1,2,3,4,5,6}。

在具體進(jìn)行特征選擇時(shí),信息增益計(jì)算步驟如下:① 根據(jù)公式(8)~(11)計(jì)算每個(gè)特征的信息增益;② 比較集合A中各個(gè)特征的信息增益的大小,選擇信息增益最大的特征最為分割的子節(jié)點(diǎn),并選擇該特征下的樣本的類別作為子節(jié)點(diǎn);③ 對子節(jié)點(diǎn)重復(fù)上訴2個(gè)步驟,直至能夠獲取最終的分類結(jié)果。
經(jīng)過訓(xùn)練學(xué)習(xí),采用BiSeNet網(wǎng)絡(luò)模型圖像進(jìn)行分割,其分割結(jié)果準(zhǔn)確率為96.25%。每幅圖像均能夠較為準(zhǔn)確的分割出人的面部區(qū)域,其分割效果如圖3所示,通過分割,獲取研究中的目標(biāo)區(qū)域,即人的整個(gè)面部圖像。去除其他與面部圖像參數(shù)無關(guān)的噪聲,排除其他干擾因素。

圖3 分割效果圖
將分割后的圖像轉(zhuǎn)化到Y(jié)CbCr顏色空間中,通過CB以及CR的取值范圍,尋找非膚色點(diǎn),并采用9×9的滑動(dòng)窗口,通過均值濾波的方法進(jìn)行降噪處理,并在該顏色空間中,計(jì)算3個(gè)分量的平均值,作為其顏色特征,隨機(jī)選擇2組肺癌患者與未患癌人群的特征提取結(jié)果展示如表2所示,從顏色特征數(shù)值上可以看出,癌癥患者面部的顏色特征與未患癌人群面部的顏色確實(shí)存在明顯差異,尤其表現(xiàn)在紅色分量上,特征選擇也證實(shí)了紅色分量的特征貢獻(xiàn)度最大。

表2 部分面部顏色特征結(jié)果
對彩色圖像進(jìn)行二值轉(zhuǎn)化,獲取其灰度圖像,并對灰度圖像進(jìn)行灰度級量化,量化后采用角度分別為0°、45°、90°、135°的4個(gè)共生矩陣,計(jì)算ASM、熵、對比度反映面部的紋理特性,隨機(jī)選擇2組肺癌患者與未患癌人群的紋理特征提取結(jié)果如表3所示,通過表3中數(shù)據(jù)對比可得出,肺癌患者面部圖像的ASM值大于0.5,而未患癌人群的面部圖像的ASM小于0.5,兩者存在較為明顯的差異;同時(shí)兩者熵和對比度在數(shù)值上差異也較明顯。

表3 部分面部紋理特征結(jié)果
本研究構(gòu)造隨機(jī)森林,設(shè)置2個(gè)超參數(shù),即決策人樹個(gè)數(shù)和最大特征值,將決策樹個(gè)數(shù)分別設(shè)置為30、50和100,最大特征等設(shè)置為2、3和4,在不同參數(shù)下,進(jìn)行訓(xùn)練和測試,并對測試結(jié)果進(jìn)行分析。首先觀察混淆矩陣,并根據(jù)混淆矩陣計(jì)算模型的準(zhǔn)確率。圖4為其中1組測試結(jié)果的混淆矩陣,根據(jù)混淆矩陣,快速獲得TP、FP、TN、FN的值,并根據(jù)公式(11)計(jì)算每次訓(xùn)練的模型所做出分類的準(zhǔn)確率,即正確判斷的數(shù)量占測試集總數(shù)的比例。分別對數(shù)據(jù)集進(jìn)行了9次訓(xùn)練和測試,9次測試結(jié)果準(zhǔn)確率如表4所示。通過表4可以看出,當(dāng)決策樹的個(gè)數(shù)一定時(shí),隨著最大特征數(shù)的增加,其預(yù)測結(jié)果的準(zhǔn)確率也有所提升,但是所用的時(shí)間也隨之增長。對比第3次和第6次實(shí)驗(yàn),預(yù)測結(jié)果相同,且為本研究最高,但第3次所用的時(shí)間明顯少于第6次。

圖4 1組測試結(jié)果的混淆矩陣

表4 隨機(jī)森林預(yù)測結(jié)果
參數(shù)的設(shè)置不僅影響模型的準(zhǔn)確率和效率,同時(shí)也影響整個(gè)模型的擬合程度,設(shè)置不當(dāng)會(huì)造成整個(gè)模型欠擬合和過擬合。經(jīng)過多次實(shí)驗(yàn)調(diào)整,將決策樹個(gè)數(shù)設(shè)置為30,最大特征數(shù)設(shè)為4時(shí),模型擬合程度最好,同時(shí)具有最高效率和最佳準(zhǔn)確率。隨機(jī)森林的準(zhǔn)確度為87.3418%,高于SVM的64.7200%。在該參數(shù)條件下的模型最優(yōu),在該參數(shù)條件下,對特征選擇進(jìn)行評估,其結(jié)果如圖5所示,可以看到6個(gè)特征中,紅色分量的貢獻(xiàn)度最大,其次是ASM。

圖5 特征重要度
本研究從中醫(yī)望診法中的面診法出發(fā),通過分析面部顏色和紋理信息,針對肺部是否存在早期癌風(fēng)險(xiǎn)進(jìn)行了研究。在早期關(guān)面診的研究中,對面部的顏色特征信息進(jìn)行研究而忽略了紋理特征的研究[12-13]。相關(guān)文獻(xiàn)[6-7]雖然是針對腸癌進(jìn)行的,但也僅是在顏色特征對比上進(jìn)行,而本研究中除了顏色特征外還引入了紋理特征,從灰度空間反映患者表現(xiàn)在面部上的信息。
在面部分割的過程中,使用BiSeNet算法獲取到完整的目標(biāo)區(qū)域。近年來人臉識(shí)別分割算法不斷發(fā)展,但仍然存在效率低、分割不準(zhǔn)確等問題,相關(guān)文獻(xiàn)[12-24]分別用不同的深度學(xué)習(xí)方法進(jìn)行面部區(qū)域的分割,其分割準(zhǔn)確率在93%~95%,且耗時(shí)近3 min。而本研究所采用的雙邊語義分割結(jié)構(gòu)模型分別從空間路徑和上下文路徑2個(gè)方面獲取圖像中面部位置信息和語義信息,在分割過程中保存了豐富的信息和最大感受視野,準(zhǔn)確率為96.25%,且耗時(shí)為1 min左右。
本研究中,轉(zhuǎn)換顏色空間模型,獲取更為精確的顏色信息。通過YCbCr顏色空間尋找非膚色點(diǎn),并使用均值濾波進(jìn)行降噪處理,排除了化妝等因素導(dǎo)致的影響,從而使最終的分類結(jié)果更為可靠[25-27]。于婧潔[5]對早期肺癌與面診的相關(guān)研究中,通過梯度決策樹對面部顏色特征進(jìn)行訓(xùn)練,對是否患有早期肺癌進(jìn)行預(yù)測研究,但僅對額部進(jìn)行研究,忽略了口唇的顏色特征,因此準(zhǔn)確率僅在60%左右。而本研究不僅使用了在整個(gè)面部的顏色特征信息,還融入了紋理特征信息,而隨機(jī)森林的使用也提升精準(zhǔn)度至87.3418%。為早期肺癌的發(fā)現(xiàn)提供輔助依據(jù),表明研究中的面部分割模塊融入面診儀中,實(shí)現(xiàn)高精確度的分割,用于后續(xù)的面診分析,減少噪聲干擾。
本研究首先對面部圖像進(jìn)行分割,并在YCbCr顏色空間模型中檢測非膚色點(diǎn)并降噪,最大可能的減少環(huán)境帶來的影響。通過顏色特征和紋理特征,使用ID3算法構(gòu)造隨機(jī)森林。通過準(zhǔn)確率、召回率、精確度是對隨機(jī)森林模型進(jìn)行評估,并調(diào)整最大特征數(shù)和決策樹個(gè)數(shù)尋找最優(yōu)模型。根據(jù)結(jié)果,針對本研究,當(dāng)決策樹個(gè)數(shù)設(shè)置為50,最大特征數(shù)設(shè)為4時(shí),參數(shù)最優(yōu),模型最優(yōu)。
本研究未對舌部信息進(jìn)行分析,未來將增大數(shù)據(jù)集并融合舌部信息進(jìn)行研究,以獲取更高準(zhǔn)確率的分類模型。