袁夢(mèng)絢
(南京醫(yī)科大學(xué)附屬婦產(chǎn)醫(yī)院 南京 210004)
用深度學(xué)習(xí)的方法提高健康醫(yī)療行業(yè)的效率,一直是社會(huì)關(guān)注的焦點(diǎn),也是近些年來(lái)各大公司爭(zhēng)相進(jìn)入的熱點(diǎn)之一。醫(yī)療行業(yè)擁有天然的大數(shù)據(jù),為深度學(xué)習(xí)在醫(yī)療行業(yè)的應(yīng)用提供了非常廣泛的空間[1]。
目前深度學(xué)習(xí)方法可以自主學(xué)習(xí)圖像中不同深度的特征,取得了比用傳統(tǒng)方法提取特征更好的效果[2]。基于深度學(xué)習(xí)的方法與經(jīng)驗(yàn),本文探索了使用前饋神經(jīng)網(wǎng)絡(luò),通過(guò)分析乳房塊FNA的數(shù)字化圖像,抽取反映細(xì)胞核的特征數(shù)據(jù),預(yù)測(cè)乳腺癌是良性還是惡性。
本文使用深度學(xué)習(xí)方法對(duì)乳腺癌的良惡性預(yù)測(cè)取得了較好的結(jié)果,這種通過(guò)無(wú)創(chuàng)傷方式進(jìn)行乳腺癌的預(yù)測(cè)具有潛在的價(jià)值[3]。
本文從569張F(tuán)NA數(shù)字化圖像中,計(jì)算出反應(yīng)細(xì)胞核每個(gè)特征的平均值、標(biāo)準(zhǔn)誤差、最大值,從而產(chǎn)生30個(gè)特征。所有特征的特征值使用4位有效數(shù)字重新編碼,分為惡性腫瘤和良性腫瘤兩類,包括357例良性,212例惡性。
圖1 顯示了數(shù)據(jù)集中惡性和良性特征的區(qū)域分布。惡性診斷是均勻分布的,而良性診斷具有正態(tài)分布。當(dāng)其值超過(guò)750時(shí),更容易做出惡性診斷。

圖1 數(shù)據(jù)集中惡性與良性特征的區(qū)域分布圖
本文將357例良性,212例惡性作為劃分?jǐn)?shù)據(jù)集的原本。通過(guò)數(shù)據(jù)變形劃分訓(xùn)練集和測(cè)試集。其中訓(xùn)練集共456例,包括良性286例,惡性170例。測(cè)試集共113例,包括良性71例,惡性42例。
3.1.1 深度學(xué)習(xí)框架的選擇
本文使用TensorFlow框架,TensorFlow是一個(gè)采用數(shù)據(jù)流圖,用于數(shù)值計(jì)算的開(kāi)源軟件庫(kù)[4]。圖2就是TensorFlow數(shù)據(jù)流圖,結(jié)點(diǎn)在圖中表示數(shù)學(xué)操作,線表示節(jié)點(diǎn)間相互聯(lián)系的多維數(shù)據(jù)數(shù)組,也就是張量[5]。

圖2 TensorFlow數(shù)據(jù)流圖
TensorFlow是Google在總結(jié)了前身DistBelief的經(jīng)驗(yàn)教訓(xùn)上形成的,它不僅便攜、高效、可擴(kuò)展,還能在不同的計(jì)算機(jī)上運(yùn)行[6]。
3.1.2 前饋神經(jīng)網(wǎng)絡(luò)
前饋神經(jīng)網(wǎng)絡(luò)是最簡(jiǎn)單樸素的神經(jīng)網(wǎng)絡(luò),又稱多層向前神經(jīng)網(wǎng)絡(luò)[7]。如圖3所示是一個(gè)典型的前饋神經(jīng)網(wǎng)絡(luò)模型。在前饋神經(jīng)網(wǎng)絡(luò)中,各神經(jīng)元從輸入層開(kāi)始,接收前一級(jí)輸入,并輸出到下一級(jí),直到輸出層。中間兩層稱為隱藏層,看不見(jiàn)其輸入或輸出的數(shù)據(jù)[8]。整個(gè)網(wǎng)絡(luò)中無(wú)反饋。

圖3 典型的前饋神經(jīng)網(wǎng)絡(luò)模型
本文構(gòu)建了1個(gè)輸入層、4個(gè)隱藏層、1個(gè)輸出層的前饋神經(jīng)網(wǎng)絡(luò)。
3.2.1 初始化
初始化對(duì)訓(xùn)練有重大影響[9]。初始化能決定算法是否收斂,如果初始化不合適,初始值過(guò)大可能會(huì)在前向傳播時(shí)產(chǎn)生爆炸的值;初始值過(guò)小將導(dǎo)致丟失信息。
本文使用截?cái)嗟恼龖B(tài)分布進(jìn)行初始化[10],均值μ設(shè)為0.0,標(biāo)準(zhǔn)差σ設(shè)為0.15。如果產(chǎn)生的正態(tài)分布的值與均值的差值大于0.3(兩倍標(biāo)準(zhǔn)差),即產(chǎn)生的值在區(qū)間(μ-2σ,μ+2σ)之外那就重新生成。
3.2.2 批量化
深度學(xué)習(xí)的數(shù)據(jù)量大,高維也是其重要特征,這就說(shuō)明了在訓(xùn)練過(guò)程中不適合使用全量的方法,本文使用小批量梯度下降法進(jìn)行批量化處理,每次訓(xùn)練用訓(xùn)練集的一部分,既能使用向量化、矩陣化優(yōu)化算法,又能比較快速地找到最小值[11]。其更新參數(shù)更快,有利于收斂,避免了局部最優(yōu)。小批量值k一般取值10~500之間。
假設(shè)每次取出樣本數(shù)為k,初始化參數(shù)向量w f(xi,w)為輸入xi時(shí)所預(yù)測(cè)的輸出,Loss是每個(gè)樣本的損失函數(shù),yi是輸入xi的期望輸出,則小批量梯度下降法計(jì)算公式為

小批量梯度下降法的算法具體如下。

3.2.3 激活函數(shù)的選擇
激活函數(shù)的主要作用是給神經(jīng)網(wǎng)絡(luò)提供非線性建模的能力,如果沒(méi)有激活函數(shù),神經(jīng)網(wǎng)絡(luò)再?gòu)?fù)雜也只能處理線性可分的問(wèn)題[12]。
本文的隱藏層使用ReLU作為激活函數(shù)[13]:

ReLU的函數(shù)圖像如圖4所示。從圖中可以看出,在這個(gè)函數(shù)原點(diǎn)左側(cè)斜率為0,原點(diǎn)右側(cè)斜率為1,這是一個(gè)非線性的函數(shù)。當(dāng)網(wǎng)絡(luò)層數(shù)比較多,ReLU不會(huì)發(fā)生梯度消失或爆炸的情況。

圖4 ReLU的函數(shù)圖像
本文的輸出層使用Sigmoid作為激活函數(shù)[14]:

Sigmoid的函數(shù)圖像如圖5所示。對(duì)乳腺癌預(yù)測(cè)為良性還是惡性,實(shí)際上是一個(gè)二分類問(wèn)題,Sig?moid廣泛應(yīng)用于二分類的輸出層,其可以將輸出映射到(0,1)區(qū)間內(nèi),函數(shù)單調(diào)連續(xù),求導(dǎo)非常容易。

圖5 Sigmoid函數(shù)圖像
3.2.4 損失函數(shù)的選擇
在深度學(xué)習(xí)訓(xùn)練模型的過(guò)程中,其實(shí)就是一個(gè)優(yōu)化損失函數(shù)的過(guò)程。損失函數(shù)用來(lái)衡量模型的好壞,損失函數(shù)值越小說(shuō)明模型和參數(shù)越符合訓(xùn)練樣本[15]。
本文使用交叉熵作為損失函數(shù)[16],假設(shè)有n個(gè)訓(xùn)練數(shù)據(jù),a是預(yù)測(cè)的輸出,y是期望輸出,則交叉熵?fù)p失函數(shù)為

3.2.5 優(yōu)化
傳統(tǒng)梯度下降算法對(duì)學(xué)習(xí)率這個(gè)超參數(shù)極其敏感,本文使用Adam自適應(yīng)優(yōu)化算法,動(dòng)態(tài)調(diào)整學(xué)習(xí)率,可以根據(jù)不同情況來(lái)自動(dòng)調(diào)整[17]。
Adam利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率,在經(jīng)過(guò)偏置矯正后,每一次迭代學(xué)習(xí)都有一個(gè)確定的范圍,使得參數(shù)比較平穩(wěn)。以下給出了Adam的算法。


本文方法也可以用于其他癌癥的預(yù)測(cè),隨著國(guó)內(nèi)外相關(guān)數(shù)據(jù)集不斷豐富和公開(kāi),模型訓(xùn)練的樣本會(huì)不斷增加,可以使用不同方法針對(duì)數(shù)據(jù)集,來(lái)提高預(yù)測(cè)準(zhǔn)確率。本文的數(shù)據(jù)集可以繼續(xù)擴(kuò)展,基于本文的方法,可以更好地泛化模型[18]。
我們對(duì)模型進(jìn)行5次迭代進(jìn)行訓(xùn)練預(yù)測(cè)模型最終訓(xùn)練精度為96.27%,測(cè)試精度為99.92%。5次迭代結(jié)果如表1所示。

表1 迭代輪數(shù)與訓(xùn)練精度和測(cè)試精度

表2 迭代輪數(shù)與訓(xùn)練損失和測(cè)試損失
迭代次數(shù)與損失值和精度的對(duì)應(yīng)關(guān)系如圖6所示。可見(jiàn),隨著訓(xùn)練次數(shù)的不斷增加,模型精度越來(lái)越高,損失值越來(lái)越小。5次迭代為更大規(guī)模的迭代提供了非常好的范本,使用本文的方法可以得到比較理想的結(jié)果。

圖6 訓(xùn)練次數(shù)和精度、損失值的關(guān)系
乳腺癌早期的診斷對(duì)于患者后續(xù)治療具有重要意義,本文從乳房塊細(xì)針抽吸(FNA)數(shù)字化圖像分析數(shù)據(jù),提取出30個(gè)特征。使用深度學(xué)習(xí)Ten?sorFlow框架,搭建前饋神經(jīng)網(wǎng)絡(luò)得到了一系列結(jié)果。結(jié)果表明,本模型對(duì)乳腺癌良性惡性分類具有較好的效果,對(duì)醫(yī)療行業(yè)的乳腺癌預(yù)測(cè)方面具有潛在的應(yīng)用價(jià)值。