丁蓬莉,李清勇 ,張 振,李 峰
(北京交通大學(xué) 軌道交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044) (*通信作者電子郵箱liqy@bjtu.edu.cn)
糖尿病性視網(wǎng)膜圖像的深度神經(jīng)網(wǎng)絡(luò)分類(lèi)方法
丁蓬莉,李清勇*,張 振,李 峰
(北京交通大學(xué) 軌道交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044) (*通信作者電子郵箱liqy@bjtu.edu.cn)
針對(duì)傳統(tǒng)的視網(wǎng)膜圖像處理步驟復(fù)雜、泛化性差、缺少完整的自動(dòng)識(shí)別系統(tǒng)等問(wèn)題,提出了一套完整的基于深度神經(jīng)網(wǎng)絡(luò)的視網(wǎng)膜圖像自動(dòng)識(shí)別系統(tǒng)。首先,對(duì)圖像進(jìn)行去噪、歸一化、數(shù)據(jù)擴(kuò)增等預(yù)處理;然后,設(shè)計(jì)了緊湊的神經(jīng)網(wǎng)絡(luò)模型——CompactNet,CompactNet繼承了AlexNet的淺層結(jié)構(gòu)參數(shù),深層網(wǎng)絡(luò)參數(shù)則根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行自適應(yīng)調(diào)整;最后,針對(duì)不同的訓(xùn)練方法和不同的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了性能測(cè)試。實(shí)驗(yàn)結(jié)果表明,CompactNet網(wǎng)絡(luò)的微調(diào)方法要優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)訓(xùn)練方法,其分類(lèi)指標(biāo)可以達(dá)到0.87,與傳統(tǒng)直接訓(xùn)練相比高出0.27;對(duì)于LeNet,AlexNet和CompactNet三種網(wǎng)絡(luò)模型,CompactNet網(wǎng)絡(luò)模型的分類(lèi)準(zhǔn)確率最高;并且通過(guò)實(shí)驗(yàn)證實(shí)了數(shù)據(jù)擴(kuò)增等預(yù)處理方法的必要性。
糖尿病性視網(wǎng)膜圖像;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像分類(lèi);微調(diào)
糖尿病性視網(wǎng)膜病變(Diabetic Retinopathy, DR)是目前嚴(yán)重的致盲眼病。中國(guó)現(xiàn)在有將近1億的糖尿病患者,此中視網(wǎng)膜病變的患病率為65.2%。DR的潛伏期長(zhǎng)短不一,短則3~5年,長(zhǎng)可達(dá)15年,并且潛伏期越長(zhǎng),發(fā)病率越高。據(jù)統(tǒng)計(jì),潛伏期超過(guò)15年的病患發(fā)病率可高達(dá)50%[1]。早發(fā)現(xiàn)、早診斷、早治療對(duì)于抑制病情的發(fā)展至關(guān)重要,因此,對(duì)于視網(wǎng)膜圖像的早期篩選工作成為關(guān)注的重點(diǎn),對(duì)于視網(wǎng)膜圖像的分析也成為目前研究的熱點(diǎn)。
傳統(tǒng)的視網(wǎng)膜圖像處理方法包括4個(gè)階段:預(yù)處理、解剖結(jié)構(gòu)分析、病變檢測(cè)和病變?cè)\斷。視網(wǎng)膜圖像處理的每個(gè)階段都需要不止一種圖像處理技術(shù),而且視網(wǎng)膜圖像結(jié)構(gòu)復(fù)雜,容易與各種病變交叉影響,再加上復(fù)雜的背景變化影響(圖1),使得對(duì)視網(wǎng)膜圖像的處理面臨各種難題。不可避免的外界因素使得處理視網(wǎng)膜圖像的技術(shù)復(fù)雜、泛化性差,對(duì)先驗(yàn)知識(shí)也具有很強(qiáng)的依賴(lài)性。在這個(gè)過(guò)程中,任何一個(gè)技術(shù)環(huán)節(jié)出錯(cuò)或者效果不理想,都將導(dǎo)致后續(xù)的工作無(wú)法進(jìn)行或者圖像分類(lèi)檢測(cè)結(jié)果出現(xiàn)很大的誤差。在糖尿病發(fā)病率比較高的發(fā)達(dá)國(guó)家,已經(jīng)有不少科研單位從事糖尿病視網(wǎng)膜病變篩選的研究[2],而我國(guó)對(duì)這方面的研究少之又少,尚還缺少一個(gè)完整的針對(duì)視網(wǎng)膜圖像分類(lèi)診斷的系統(tǒng)。
本文采用基于深度學(xué)習(xí)的方法實(shí)現(xiàn)對(duì)視網(wǎng)膜圖像自動(dòng)分類(lèi),只需要作簡(jiǎn)單的圖像預(yù)處理,然后將預(yù)處理得到的圖像作為網(wǎng)絡(luò)的輸入,通過(guò)本文提出的CompactNet網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)訓(xùn)練,將訓(xùn)練好的模型用于圖像自動(dòng)分類(lèi)。與傳統(tǒng)的處理方法相比,深度學(xué)習(xí)只是對(duì)原始圖片集作了簡(jiǎn)單的預(yù)處理,不需要借助任何先驗(yàn)信息的情況下就可以達(dá)到高準(zhǔn)確率。

圖1 傳統(tǒng)視網(wǎng)膜處理方法中的干擾圖像
1.1 深度學(xué)習(xí)的發(fā)展及應(yīng)用
深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò),是模擬大腦的構(gòu)架并輔以一定的學(xué)習(xí)算法,從而使計(jì)算機(jī)的工作方式盡可能地接近人類(lèi)的工作方式。深度學(xué)習(xí)與淺層學(xué)習(xí)最大的區(qū)別在于模型結(jié)構(gòu)的深度[3]。雖然淺層學(xué)習(xí)方法在某些應(yīng)用中也獲得了一定的成就,但是仍然存在一大類(lèi)問(wèn)題不能使用淺層結(jié)構(gòu)表示,淺層學(xué)習(xí)仍然具有很大的局限性[4]。深度學(xué)習(xí)主要模仿神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu),低層次表示細(xì)節(jié),高層次表示抽象的數(shù)據(jù)結(jié)構(gòu)特征,通過(guò)逐層抽象、高度挖掘數(shù)據(jù)的本質(zhì)信息,從而達(dá)到學(xué)習(xí)的目的。該特征學(xué)習(xí)的過(guò)程完全自動(dòng),無(wú)需人工干預(yù)。Arel等[5]介紹了主流的深度學(xué)習(xí)方法以及近幾年來(lái)的研究方向,突出了深度學(xué)習(xí)方法的優(yōu)勢(shì)。
深度神經(jīng)網(wǎng)絡(luò)自流行以來(lái),已經(jīng)在語(yǔ)音識(shí)別[6]、圖像識(shí)別[7]和自然語(yǔ)言處理領(lǐng)域[8]取得了巨大的成功。LeCun等[9]最早于1998年開(kāi)始專(zhuān)注卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的研究,提出了用于識(shí)別手寫(xiě)體的LeNet模型。2006年之后,深度學(xué)習(xí)以一發(fā)不可收之勢(shì)霸占了人工智能領(lǐng)域,取得了巨大的成功。2011年,微軟研究院和Google的語(yǔ)音識(shí)別研究人員先后采用深度神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)語(yǔ)音進(jìn)行處理,極大降低了語(yǔ)音識(shí)別的錯(cuò)誤率,這在語(yǔ)音識(shí)別領(lǐng)域是突破性進(jìn)展。深度神經(jīng)網(wǎng)絡(luò)技術(shù)在圖像識(shí)別領(lǐng)域也取得了驚人的成果,涌現(xiàn)出了很多經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)。在ImageNet國(guó)際計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽(ILSVRC)中拔得頭籌的AlexNet(2012年冠軍)[10]將錯(cuò)誤率降低了9%。GoogleNet(ILSVRC2014冠軍)[11]和VGG(ILSVRC2014年亞軍)[12]針對(duì)網(wǎng)絡(luò)的深度取得了突破性的進(jìn)展。在ILSVRC2015中,He等[13]將神經(jīng)網(wǎng)絡(luò)的系統(tǒng)實(shí)現(xiàn)到了152層,并且還使用一個(gè)全新的“殘差學(xué)習(xí)”原則來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),很好地解決了深層網(wǎng)絡(luò)層級(jí)與準(zhǔn)確度之間的矛盾。
1.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,是一種多層的神經(jīng)網(wǎng)絡(luò),最早于20世紀(jì)60年代由Hubel等[14]提出,已經(jīng)成為當(dāng)前語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)。
CNN的基本結(jié)構(gòu)包括兩種特殊的神經(jīng)元層:特征映射層和特征提取層。特征映射層(卷積層)的每個(gè)神經(jīng)元的輸入和前一層的局部相連,并提取該局部特征;特征提取層(降采樣層、池化層、抽樣層)用來(lái)求局部敏感性和二次特征提取。卷積神經(jīng)網(wǎng)絡(luò)的卷積層和抽樣層交替出現(xiàn),每個(gè)卷積層后都跟著二次提取的池化層,這種兩次特征提取使網(wǎng)絡(luò)在識(shí)別時(shí)對(duì)輸入樣本有較高的特征學(xué)習(xí)能力[15]。卷積層的主要任務(wù)是特征映射,從不同的角度來(lái)選擇前一層特征圖的各角度特征使其具有位移、旋轉(zhuǎn)不變性。由于CNN的權(quán)值共享特性,從一個(gè)平面到下一個(gè)平面的映射可以看作是卷積運(yùn)算,計(jì)算形式如式(1)所示:

(1)
其中:l表示網(wǎng)絡(luò)第幾層,Kernel為卷積核,Mj為輸入特征圖的一種組合選擇,每一層輸出特征圖都會(huì)有一個(gè)唯一的偏置b。值得說(shuō)明的是,輸出特征圖所對(duì)應(yīng)的輸入特征圖可以是一個(gè)或者若干個(gè),當(dāng)有若干個(gè)輸入特征時(shí),每個(gè)輸入特征所對(duì)應(yīng)的卷積核是不一樣的。池化層的特征是在把上一層的相似特征合并起來(lái),進(jìn)行二次特征提取,降低隱含層的空間分辨率,池化層作用于圖像中不重合的區(qū)域,神經(jīng)元X的計(jì)算公式為:
(2)
其中,down(·)表示一個(gè)下采樣函數(shù),池化方法根據(jù)計(jì)算方法的不同有平均池化和最大池化,平均池化是對(duì)輸入圖像的n*n區(qū)域的所有像素求和取平均,最大池化是將輸入圖像的n*n區(qū)域中的最大值輸出。池化過(guò)后的輸出特征圖在兩個(gè)維度上都縮小到了原來(lái)的1/n,每個(gè)輸出特征都對(duì)應(yīng)一個(gè)唯一的乘性偏置β和加性偏置b。
卷積神經(jīng)網(wǎng)絡(luò)是語(yǔ)音分析、圖像識(shí)別等領(lǐng)域最主要的深度學(xué)習(xí)方法,其優(yōu)勢(shì)在于:1) 特征提取和模式分類(lèi)同時(shí)進(jìn)行,并同時(shí)在訓(xùn)練中產(chǎn)生;2) 權(quán)值共享可以減少網(wǎng)絡(luò)中參數(shù)爆炸的問(wèn)題,使神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得更加簡(jiǎn)單,適應(yīng)性更強(qiáng)。
2.1 算法流程
進(jìn)行視網(wǎng)膜圖像類(lèi)型識(shí)別時(shí),獲取到的圖像由于噪聲等的原因不能直接用于模型的訓(xùn)練,首先需要排除背景和噪聲的干擾,緊接著對(duì)視網(wǎng)膜圖像進(jìn)行一定的預(yù)處理,隨后將預(yù)處理之后的視網(wǎng)膜圖像傳入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型的訓(xùn)練,最后進(jìn)行圖像的分類(lèi)。如圖2所示,算法主要包括4個(gè)步驟。

圖2 算法流程
1)將獲取到的圖像周?chē)暮谶吙蛉サ簦瑢?duì)圖像進(jìn)行簡(jiǎn)單的篩選,剔除掉含有嚴(yán)重噪聲的圖像。
2)將圖像作局部歸一化,使所有圖像的色調(diào)統(tǒng)一,去掉由光線問(wèn)題而產(chǎn)生的噪聲。
3)所獲得的視網(wǎng)膜圖像樣本量不足,并且存在嚴(yán)重的數(shù)據(jù)不平衡現(xiàn)象,為了解決這個(gè)問(wèn)題,本文采用旋轉(zhuǎn)、平移、拉伸等方法進(jìn)行數(shù)據(jù)擴(kuò)增。
4)模型訓(xùn)練圖像識(shí)別,借鑒AlexNet網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)符合視網(wǎng)膜圖像特點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu),采用前饋式神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行分類(lèi)。
算法流程圖中的去除背景、數(shù)據(jù)歸一化和數(shù)據(jù)擴(kuò)增可以統(tǒng)稱(chēng)為數(shù)據(jù)預(yù)處理的過(guò)程,這樣就將整個(gè)算法流程分為兩部分:數(shù)據(jù)預(yù)處理和訓(xùn)練模型。
2.2 圖像預(yù)處理
2.2.1 數(shù)據(jù)集簡(jiǎn)介
本文數(shù)據(jù)集來(lái)源于數(shù)據(jù)建模和數(shù)據(jù)分析競(jìng)賽平臺(tái)(Kaggle)中的比賽DiabeticRetinopathyDetection。該數(shù)據(jù)集中的視網(wǎng)膜數(shù)據(jù)圖像都是高分辨率RGB圖像,其分辨率約為3 500×3 000。根據(jù)視網(wǎng)膜病變程度將圖像分為5類(lèi),如圖3所示。第0類(lèi)對(duì)應(yīng)的是沒(méi)有病變的健康圖像,第1類(lèi)對(duì)應(yīng)的是有輕微病變的,以此類(lèi)推,第4類(lèi)則是非常嚴(yán)重的病變,具體的數(shù)據(jù)集分布如表1所示,從表中可明顯看出,實(shí)驗(yàn)數(shù)據(jù)集極度不平衡,第0類(lèi)數(shù)據(jù)是第4類(lèi)數(shù)據(jù)的將近36倍之多。

表1 數(shù)據(jù)集分類(lèi)表

圖3 視網(wǎng)膜圖像示例
由于圖像采集時(shí)鏡頭光照以及其他因素,每類(lèi)圖像中都會(huì)存在噪聲圖像,如圖4所示。

圖4 噪聲圖像示例
這些數(shù)據(jù)中,每一類(lèi)都會(huì)存在噪聲圖像,而且噪聲的種類(lèi)很多。首先需要對(duì)圖像的噪聲作一個(gè)簡(jiǎn)單分類(lèi),圖中的每一列代表一類(lèi)噪聲,第1列和第2列是由鏡頭引起的噪聲,第3列是由光照引起的噪聲,第4列是完全沒(méi)有意義的圖像,圖像中沒(méi)有任何紋理信息,也無(wú)法辨認(rèn)具體屬于什么類(lèi)型的病變,第5列是光線太暗的原因,這類(lèi)噪聲圖像,圖像中是有一定信息的,但是由于光線太暗,肉眼難以辨認(rèn)。圖4只是列出了一部分典型的噪聲圖像。
數(shù)據(jù)預(yù)處理需要集中解決以下幾個(gè)問(wèn)題:每幅圖像都包含黑色邊框等無(wú)意義的信息并且每類(lèi)圖像都會(huì)包含不同的噪聲,圖像之間的明暗度有很大的差異,數(shù)據(jù)集種類(lèi)分布嚴(yán)重不均勻。
2.2.2 去除背景和嚴(yán)重噪聲圖像
作圖像預(yù)處理時(shí),首先處理圖像的邊框信息和被噪聲完全污染的圖像。對(duì)于所有數(shù)據(jù)集的圖像,需要把圖像的黑邊框全部都切除掉(圖5(a));然后把被噪聲完全污染的毫無(wú)意義的圖像刪除掉(圖5(b))。由于第3類(lèi)和第4類(lèi)圖像偏暗,并且數(shù)據(jù)量非常小,因此本文針對(duì)第3類(lèi)圖像和第4類(lèi)圖像進(jìn)行了白平衡(圖5(c))和直方圖均衡化(圖5(d)),這樣在一定程度上改善了圖像偏暗的現(xiàn)象,同時(shí)還擴(kuò)大了第3類(lèi)數(shù)據(jù)集和第4類(lèi)數(shù)據(jù)集的樣本數(shù)量。

圖5 圖像預(yù)處理示例
2.2.3 數(shù)據(jù)歸一化
數(shù)據(jù)歸一化的目的是將不同亮度、不同明暗度的圖像都?xì)w一化到同一個(gè)范圍中,本文采用的是減去局部均值的方法,具體的計(jì)算公式如下所示:
imgout=img*α+imggaussian*β+γ
(3)
其中α=4,β=-4,γ=128,img為原圖像,imggaussian為經(jīng)過(guò)高斯濾波器濾波過(guò)的圖像。經(jīng)過(guò)這樣處理后得到的圖像如圖6所示。不同色調(diào)、不同明暗度的圖像,經(jīng)過(guò)局部歸一化之后都會(huì)得到統(tǒng)一的色調(diào),這樣也就是對(duì)所有的數(shù)據(jù)作了統(tǒng)一的歸一化處理,在訓(xùn)練模型時(shí)對(duì)提高分類(lèi)準(zhǔn)確度有很大的幫助。

圖6 數(shù)據(jù)歸一化
2.2.4 數(shù)據(jù)擴(kuò)增
在使用深度學(xué)習(xí)作圖像分類(lèi)時(shí),由于深度學(xué)習(xí)需要大量的數(shù)據(jù),而現(xiàn)實(shí)中并沒(méi)有足夠數(shù)量的樣本,因此必不可少的步驟是數(shù)據(jù)擴(kuò)增。對(duì)不同的樣本采用隨機(jī)拉伸、旋轉(zhuǎn)等方法,產(chǎn)生一定數(shù)目的子圖像,這些圖像都是由原圖像產(chǎn)生的,也存在一定的可分類(lèi)性。與此同時(shí),數(shù)據(jù)擴(kuò)增技術(shù)還在一定程度上解決了數(shù)據(jù)集不平衡問(wèn)題(表1所示)。對(duì)樣本數(shù)目比較少的類(lèi)別采用數(shù)據(jù)擴(kuò)增技術(shù),向數(shù)目多的類(lèi)別樣本補(bǔ)齊。圖7是數(shù)據(jù)擴(kuò)充之后的圖像示例,圖7(a)為原圖像,圖7(b)則是由原圖像經(jīng)過(guò)移位、旋轉(zhuǎn)之后得到的圖像(M=8)。在數(shù)據(jù)擴(kuò)增時(shí),隨機(jī)生成M個(gè)θ角度(0<θ<360°),圖像旋轉(zhuǎn)M個(gè)角度,使得該類(lèi)樣本總數(shù)N×M介于10 000~15 000104,這樣同時(shí)解決了樣本不平衡和樣本量不足的問(wèn)題。
2.3 模型設(shè)計(jì)
在圖像處理領(lǐng)域最經(jīng)典的模型是AlexNet網(wǎng)絡(luò)結(jié)構(gòu),本文便是模仿AlexNet網(wǎng)絡(luò)結(jié)構(gòu)框架,根據(jù)視網(wǎng)膜圖像特性,遵循特征圖分辨率遞減、輸出特征圖數(shù)目遞增原則,精簡(jiǎn)了AlexNet網(wǎng)絡(luò),設(shè)計(jì)了自己的網(wǎng)絡(luò)結(jié)構(gòu)(CompactNet),如圖8所示,為了簡(jiǎn)潔直觀,圖中只表示了卷積層、池化層和全連接層。圖像經(jīng)過(guò)簡(jiǎn)單的預(yù)處理后輸入到網(wǎng)絡(luò)中,CompactNet主要由卷積層(Conv)和池化層(Pool)交替疊加而成,Pool4之后是全連接層(fc)。卷積層和池化層之間通過(guò)局部連接和權(quán)值共享的方式建立連接,參數(shù)量少,全連接層參數(shù)量占據(jù)了總參數(shù)量的80%,為保證數(shù)據(jù)的有效性并且防止數(shù)據(jù)過(guò)擬合,在全連接層后添加了dropout層。網(wǎng)絡(luò)的每個(gè)卷積層和全連接層后面都有一個(gè)Relu層以保證神經(jīng)網(wǎng)絡(luò)的非線性。網(wǎng)絡(luò)的最后使用Softmax對(duì)全連接層輸出特征進(jìn)行分類(lèi),得到分類(lèi)結(jié)果。

圖7 數(shù)據(jù)擴(kuò)增

圖8 CompactNet網(wǎng)絡(luò)結(jié)構(gòu)
由于反向傳播算法(BP)的梯度彌散問(wèn)題,訓(xùn)練網(wǎng)絡(luò)的時(shí)候,前幾層的參數(shù)很難得到有效的訓(xùn)練。所以在設(shè)計(jì)網(wǎng)絡(luò)的時(shí)候?qū)lexNet網(wǎng)絡(luò)的前兩層參數(shù)直接灌輸?shù)紺ompactNet的網(wǎng)絡(luò)中,即圖8中前兩層卷積層對(duì)應(yīng)的卷積層參數(shù),這兩層的卷積層結(jié)構(gòu)與AlexNet網(wǎng)絡(luò)的前兩層結(jié)構(gòu)相同,后兩層卷積層和全連接層的參數(shù)由訓(xùn)練得到。與AlexNet網(wǎng)絡(luò)相比,CompactNet精簡(jiǎn)了卷積層的數(shù)量以及全連接層的神經(jīng)元數(shù)量,極大減少了網(wǎng)絡(luò)的參數(shù)量。
3.1 實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)是基于深度學(xué)習(xí)框架Caffe,運(yùn)行在GPU工作站上。使用的測(cè)試平臺(tái):處理器為Intelcorei7,內(nèi)存為16GB,顯卡為NVidiaGTX980TI,GPU內(nèi)存為6GB。由于GPU內(nèi)存不大,所以深層次的網(wǎng)絡(luò)無(wú)法在現(xiàn)有的機(jī)器中運(yùn)行,這也是本實(shí)驗(yàn)采用AlexNet網(wǎng)絡(luò)作為參考網(wǎng)絡(luò)的原因所在。值得說(shuō)明的是,在做數(shù)據(jù)預(yù)處理之前,為了避免訓(xùn)練集和測(cè)試集有交叉,實(shí)驗(yàn)開(kāi)始之前先將所獲得到的數(shù)據(jù)分成兩部分,從每一類(lèi)圖像中隨機(jī)抽取約有100幅圖片作為測(cè)試集(為了實(shí)驗(yàn)過(guò)程中便于觀察,每一類(lèi)樣本數(shù)量不完全相同),剩下的圖像作為訓(xùn)練集。
為了對(duì)比同一網(wǎng)絡(luò)結(jié)構(gòu)不同訓(xùn)練方法對(duì)實(shí)驗(yàn)結(jié)果的影響和不同的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)分類(lèi)結(jié)果的影響,設(shè)置了兩組對(duì)比實(shí)驗(yàn)。為了避免數(shù)據(jù)不一致帶來(lái)的實(shí)驗(yàn)結(jié)果誤差,本工作中相關(guān)的實(shí)驗(yàn)設(shè)置所使用的網(wǎng)絡(luò)都使用相同的數(shù)據(jù)格式,所有網(wǎng)絡(luò)的輸入都為512×512,之所以選擇該尺寸是考慮到圖像原始尺寸在3 500×3 000左右,如果原始輸入尺寸過(guò)小會(huì)丟掉很多圖像原始信息。
由于該數(shù)據(jù)集是在2015年2月份公布,數(shù)據(jù)集公示時(shí)間較短,并沒(méi)有應(yīng)用于該數(shù)據(jù)集的傳統(tǒng)圖像處理方法來(lái)作對(duì)比,因此本文設(shè)計(jì)實(shí)驗(yàn)時(shí)采用的是自身對(duì)比的方式。
實(shí)驗(yàn)一 為了對(duì)比不同的參數(shù)初始值對(duì)實(shí)驗(yàn)結(jié)果的影響,對(duì)CompactNet網(wǎng)絡(luò)使用了兩種不同的訓(xùn)練方式:1)直接使用視網(wǎng)膜圖像訓(xùn)練CompactNet網(wǎng)絡(luò),簡(jiǎn)稱(chēng)ModelT;2)將AlexNet網(wǎng)絡(luò)的前兩層卷積層參數(shù)注入到CompactNet網(wǎng)路中,在此基礎(chǔ)上訓(xùn)練其他卷積層和全鏈接層參數(shù),簡(jiǎn)稱(chēng)ModelF。
實(shí)驗(yàn)二 為了對(duì)比不同網(wǎng)絡(luò)對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)對(duì)三種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練:1)使用LeNet網(wǎng)絡(luò)對(duì)視網(wǎng)膜圖像進(jìn)行訓(xùn)練,LeNet網(wǎng)絡(luò)只有3個(gè)卷積層,參數(shù)量少,屬于非常簡(jiǎn)單的網(wǎng)絡(luò)代表;2)微調(diào)AlexNet網(wǎng)絡(luò),AlexNet網(wǎng)絡(luò)有5個(gè)卷積層和2個(gè)全連接層,屬于復(fù)雜網(wǎng)絡(luò)的代表;3)將AlexNet網(wǎng)絡(luò)前兩層參數(shù)灌入到CompactNet網(wǎng)絡(luò)中,然后進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。
實(shí)驗(yàn)三 2.2節(jié)圖像預(yù)處理中的數(shù)據(jù)歸一化和數(shù)據(jù)擴(kuò)增是本文的主要貢獻(xiàn)點(diǎn)之一,為了驗(yàn)證二者的有效性和必要性,本文設(shè)計(jì)實(shí)驗(yàn)使得原始圖像數(shù)據(jù)只進(jìn)行簡(jiǎn)單的篩選之后便輸入到深度網(wǎng)絡(luò)中。
3.2 評(píng)價(jià)標(biāo)準(zhǔn)
由于本實(shí)驗(yàn)是視網(wǎng)膜圖像病變程度的一個(gè)預(yù)測(cè)問(wèn)題,因此相鄰兩類(lèi)圖像之間并沒(méi)有一個(gè)明確的界限,因此在評(píng)價(jià)實(shí)驗(yàn)結(jié)果的時(shí)候,不能直接以分類(lèi)準(zhǔn)確率作為該實(shí)驗(yàn)的結(jié)果。本文使用的評(píng)價(jià)標(biāo)準(zhǔn)如式(4)所示:

(4)

3.3 實(shí)驗(yàn)結(jié)果分析
3.3.1 實(shí)驗(yàn)一結(jié)果分析
合理的參數(shù)初始化方法對(duì)網(wǎng)絡(luò)的訓(xùn)練結(jié)果以及收斂速度有著至關(guān)重要的影響,實(shí)驗(yàn)一的ModelT和ModelF對(duì)視網(wǎng)膜圖像分類(lèi)結(jié)果混淆矩陣如圖9所示。

圖9 ModelT和ModelF的分類(lèi)結(jié)果
圖9(a)和圖9(b)分別對(duì)應(yīng)ModelT、ModelF的實(shí)驗(yàn)結(jié)果。兩個(gè)模型的分類(lèi)結(jié)果大部分都分布在混淆矩陣的對(duì)角線區(qū)域,說(shuō)明CompactNet網(wǎng)絡(luò)模型具有一定的分類(lèi)能力。對(duì)比兩組實(shí)驗(yàn)結(jié)果,ModelF的分類(lèi)結(jié)果要明顯優(yōu)于ModelT,ModelT和ModelF的κ指標(biāo)分別為:0.506 9, 0.871 0,分類(lèi)準(zhǔn)確率為:0.39和0.68。實(shí)驗(yàn)結(jié)果表明網(wǎng)絡(luò)的前幾層使用AlexNet模型已經(jīng)訓(xùn)練好的參數(shù)分類(lèi)結(jié)果會(huì)好很多,原因在于網(wǎng)絡(luò)的前若干層代表了圖像的基本信息,包括:邊緣、角點(diǎn)、色彩等信息,對(duì)模型的分類(lèi)至關(guān)重要,而后面幾層的參數(shù)則是由訓(xùn)練得出。兩個(gè)模型的第一層參數(shù)可視化結(jié)果如圖10所示,訓(xùn)練網(wǎng)絡(luò)時(shí),前幾層網(wǎng)絡(luò)的參數(shù)并沒(méi)有得到有效的訓(xùn)練,還是一些隨機(jī)值(圖10(a)),ModelF對(duì)應(yīng)的第一層參數(shù)如圖10(b)所示。這是因?yàn)橛?xùn)練網(wǎng)絡(luò)的時(shí)候,由于反向傳播算法的梯度彌散的問(wèn)題,網(wǎng)絡(luò)前幾層的參數(shù)并沒(méi)有得到有效的訓(xùn)練。AlexNet網(wǎng)絡(luò)的訓(xùn)練使用了大量的數(shù)據(jù)集,相當(dāng)于人類(lèi)大腦的先天性學(xué)習(xí),將前2層參數(shù)灌入到CompactNet網(wǎng)絡(luò)中,將先天性的學(xué)習(xí)傳給CompactNet網(wǎng)絡(luò),然后在此基礎(chǔ)上對(duì)視網(wǎng)膜圖像作后面網(wǎng)絡(luò)層的訓(xùn)練,這時(shí)候的訓(xùn)練相當(dāng)于大腦的后天學(xué)習(xí),只需要相對(duì)較少的數(shù)據(jù)量就可以使網(wǎng)絡(luò)自動(dòng)學(xué)會(huì)分類(lèi)視網(wǎng)膜圖像。

圖10 ModelT和ModelF第一層參數(shù)可視化
為了便于觀察兩個(gè)網(wǎng)絡(luò)的收斂速度,圖11展示了ModelT和ModelF的訓(xùn)練集的Loss和準(zhǔn)確率(Acc)曲線。實(shí)驗(yàn)ModelT中:在訓(xùn)練前期,訓(xùn)練集的Loss曲線一直在逐漸下降而測(cè)試集的Acc曲線則處于上升階段;當(dāng)網(wǎng)絡(luò)訓(xùn)練次數(shù)迭代到100 000時(shí),網(wǎng)絡(luò)收斂,分類(lèi)的準(zhǔn)確率約為0.4。而在ModelF中,Loss曲線下降的速度要比ModelT快得多,同時(shí)Acc曲線上升的速度也很快;在訓(xùn)練次數(shù)迭代到20 000的時(shí)候,Acc已經(jīng)達(dá)到了0.6以上;迭代到80 000的時(shí)候訓(xùn)練集的 Loss接近于0,網(wǎng)絡(luò)發(fā)生過(guò)擬合,網(wǎng)絡(luò)最終收斂,分類(lèi)的準(zhǔn)確率約為0.68。實(shí)驗(yàn)說(shuō)明優(yōu)秀的參數(shù)初始化不僅能夠提高模型的分類(lèi)準(zhǔn)確率,而且能夠提高網(wǎng)絡(luò)的收斂速度。

圖11 ModelT和ModelF的訓(xùn)練Loss和Acc曲線
圖12展示了兩種訓(xùn)練方式的矩陣錯(cuò)誤率的偽彩色圖像,顏色越深,說(shuō)明該類(lèi)分類(lèi)錯(cuò)誤率更為嚴(yán)重。ModelT的分類(lèi)錯(cuò)誤集中在第2類(lèi)圖像,說(shuō)明CompactNet網(wǎng)絡(luò)并沒(méi)有很好地訓(xùn)練成熟,只是達(dá)到了局部最優(yōu)的結(jié)果,網(wǎng)絡(luò)并沒(méi)有真正地收斂;但是ModelF中,大部分的錯(cuò)誤都集中在第0~2類(lèi),也就是說(shuō),第0~2類(lèi)的圖像差距較小,不容易分辨,但是,第3類(lèi)和第4類(lèi)的分類(lèi)效果要好得多。分析數(shù)據(jù)原圖像,第0~2類(lèi)確實(shí)存在多種多樣形式的視網(wǎng)膜圖像,并且3類(lèi)視網(wǎng)膜圖像在非專(zhuān)業(yè)角度確實(shí)沒(méi)有太明顯的差異,而第3、4類(lèi)圖像與前3類(lèi)圖像有明顯的差異,說(shuō)明實(shí)驗(yàn)結(jié)果是合理的。

圖12 ModelT和ModelF分類(lèi)錯(cuò)誤率矩陣
3.3.2 實(shí)驗(yàn)二結(jié)果分析
實(shí)驗(yàn)二做了三組對(duì)比實(shí)驗(yàn),使用不同的網(wǎng)絡(luò)結(jié)構(gòu)(LeNet、CompactNet、AlexNet)對(duì)視網(wǎng)膜圖像進(jìn)行訓(xùn)練,表2為三個(gè)網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)結(jié)果說(shuō)明深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)實(shí)驗(yàn)結(jié)果有著較大的影響,過(guò)淺的網(wǎng)絡(luò)不能夠獲取到充分的圖像特征信息,過(guò)深的網(wǎng)絡(luò)參數(shù)過(guò)多,在實(shí)驗(yàn)數(shù)據(jù)比較少的情況下,非常容易發(fā)生過(guò)擬合,實(shí)驗(yàn)的分類(lèi)效果反而不理想,CompactNet網(wǎng)絡(luò)分類(lèi)結(jié)果是三個(gè)網(wǎng)絡(luò)中準(zhǔn)確率最高的。LeNet網(wǎng)絡(luò)非常簡(jiǎn)單,所以采取了直接訓(xùn)練網(wǎng)絡(luò)的方法,網(wǎng)絡(luò)參數(shù)采用隨機(jī)初始化的方式;而AlexNet和CompactNet網(wǎng)絡(luò)都有一定的初始化值,微調(diào)時(shí)收斂速度要快得多,所以LeNet網(wǎng)絡(luò)的收斂時(shí)間要比其他的兩個(gè)網(wǎng)絡(luò)相對(duì)長(zhǎng)一些。
由于本文采用的數(shù)據(jù)集是Kaggle比賽的公共數(shù)據(jù)集,比賽列出了最終的排名榜,采用的評(píng)價(jià)指標(biāo)為κ,冠軍的κ為0.85,但是比賽使用的測(cè)試集是舉辦方未公布的測(cè)試集,而本文使用的測(cè)試集是從公示的數(shù)據(jù)集中隨機(jī)抽取的部分圖像,雖然與比賽使用的測(cè)試集有一定的出入,但是該實(shí)驗(yàn)結(jié)果也說(shuō)明了本文設(shè)計(jì)的CompactNet網(wǎng)絡(luò)達(dá)到了較為理想的分類(lèi)效果。

表2 三個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)果對(duì)比
3.3.3 實(shí)驗(yàn)三結(jié)果分析
由于原始數(shù)據(jù)有嚴(yán)重的數(shù)據(jù)分布不均勻的現(xiàn)象,因此所得到的實(shí)驗(yàn)分類(lèi)結(jié)果混淆矩陣表明所有的測(cè)試數(shù)據(jù)都被分為第一類(lèi),訓(xùn)練所得到的模型并沒(méi)有任何的分類(lèi)效果,這也說(shuō)明了本文提出的數(shù)據(jù)歸一化和數(shù)據(jù)擴(kuò)增必不可少。
本文采用深度學(xué)習(xí)的方法對(duì)不同病變程度的視網(wǎng)膜圖像分類(lèi)。由于視網(wǎng)膜圖像噪聲多、樣本量小、樣本不均衡,因此在作網(wǎng)絡(luò)訓(xùn)練之前需要先對(duì)圖像進(jìn)行預(yù)處理,該過(guò)程采用了三種預(yù)處理方式:去除邊界噪聲、歸一化視網(wǎng)膜圖像、數(shù)據(jù)擴(kuò)增。在作網(wǎng)絡(luò)的模型設(shè)計(jì)時(shí),借鑒AlexNet的網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)視網(wǎng)膜數(shù)據(jù)的特點(diǎn),設(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu)CompactNet,并且將AlexNet的前兩層參數(shù)灌入到CompactNet中,然后進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。為了對(duì)比相同網(wǎng)絡(luò)結(jié)構(gòu)的情況下不同訓(xùn)練方法、不同的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)實(shí)驗(yàn)結(jié)果的影響以及數(shù)據(jù)預(yù)處理的必要性,設(shè)計(jì)了三組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,有一定先驗(yàn)知識(shí)的參數(shù)初始化方法要比直接訓(xùn)練的方法好很多;三種網(wǎng)絡(luò)結(jié)構(gòu)中,CompactNet的網(wǎng)絡(luò)結(jié)構(gòu)分類(lèi)結(jié)果最好。
在今后的工作中,可以嘗試調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),使用更多的深度學(xué)習(xí)技巧,例如batchnormalization,進(jìn)一步提高實(shí)驗(yàn)的分類(lèi)準(zhǔn)確率,在此基礎(chǔ)上,發(fā)散思維,將深度學(xué)習(xí)應(yīng)用到其他研究領(lǐng)域中去。
)
[1]L’HEVEDERR,NOLANT.Internationaldiabetesfederation[J].DiabetesResearchandClinicalPractice, 2013, 101(3): 349-351.
[2]LEESC,LEEET,WANGY,etal.Computerclassificationofnonproliferativediabeticretinopathy[J].ArchivesofOphthalmology, 2005, 123(6): 759-764.
[3]LEEH,GROSSER,RANGANATHR,etal.Convolutionaldeepbeliefnetworksforscalableunsupervisedlearningofhierarchicalrepresentations[C]//Proceedingsofthe26thAnnualInternationalConferenceonMachineLearning.NewYork:ACM, 2009: 609-616.
[4] 孫志軍,薛磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.(SUNZJ,XUEL,XUYM,etal.Overviewofdeeplearning[J].ApplicationResearchofComputers, 2012, 29(8): 2806-2810.)
[5]ARELI,ROSEDC,KARNOWSKITP.Deepmachinelearning—anewfrontierinartificialintelligenceresearch[J].IEEEComputationalIntelligenceMagazine, 2010, 5(4): 13-18.
[6] 楊俊安,王一,劉輝,等.深度學(xué)習(xí)理論及其在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用[J].通信對(duì)抗,2014(3):1-5.(YANGJA,WANGY,LIUH,etal.Deeplearningtheoryanditsapplicationinspeechrecognition[J].CommunicationCountermeasures, 2014(3):1-5.)
[7]MOHAMEDA,SAINATHTN,DAHLG,etal.Deepbeliefnetworksusingdiscriminativefeaturesforphonerecognition[C]//Proceedingsofthe2011IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEE, 2011: 5060-5063.
[8]SARIKAYAR,HINTONGE,DEORASA.Applicationofdeepbeliefnetworksfornaturallanguageunderstanding[J].IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing, 2014, 22(4): 778-784.
[9]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE, 1998, 86(11): 2278-2324.
[10]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[EB/OL]. [2016- 03- 02].http://www.csd.uwo.ca/~olga/Courses/Fall2015/CS9840/Papers/imagenet.pdf.
[11]SZEGEDYC,LIUW,JIAY,etal.Goingdeeperwithconvolutions[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2015: 1-8.
[12]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[EB/OL]. [2015- 11- 04].http://www.robots.ox.ac.uk:5000/~vgg/publications/2015/Simonyan15/simonyan15.pdf.
[13]HEK,ZHANGX,RENS,etal.Deepresiduallearningforimagerecognition[EB/OL]. [2016- 01- 04].https://www.researchgate.net/publication/286512696_Deep_Residual_Learning_for_Image_Recognition.
[14]HUBELDH,WIESELTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat’svisualcortex[J].JournalofPhysiology, 1962, 160(1): 106-154.
[15]LIS,KWOKJT,ZHUH,etal.Textureclassificationusingthesupportvectormachines[J].PatternRecognition, 2003, 36(12): 2883-2893.
ThisworkispartiallysupportedbyBeijingNaturalScienceFoundation(4142043);theFundamentalResearchFundsfortheCentralUniversities(2014JBZ003).
DING Pengli, born in 1991, M. S. candidate. Her research interests include machine learning, deep learning, pattern recognition, image classification.
LI Qingyong, born in 1979, Ph. D., professor. His research interests include machine vision and pattern recognition, machine learning and data mining.
ZHANG Zhen, born in 1990, M. S. candidate. His research interests include machine learning, deep learning, pattern recognition, image classification.
LI Feng, born in 1990, M. S. candidate. His research interests include machine learning, deep learning, pattern recognition, image detection.
Diabetic retinal image classification method based on deep neural network
DING Pengli, LI Qingyong*, ZHANG Zhen, LI Feng
(BeijingKeyLabofTransportationDataAnalysisandMining,BeijingJiaotongUniversity,Beijing100044,China)
Aiming at the problems of complex retinal image processing, poor generalization and lack of complete automatic recognition system, a complete retinal image automatic recognition system based on deep neural network was proposed. Firstly, the image was denoised, normalized, and data preprocessed. Then, a compact neural network model named CompactNet was designed. The structure parameters of CompactNet were inherited from AlexNet. The deep network parameters were adjusted adaptively based on the training data. Finally, the performance experiments were conducted on different training methods and various network structures. The experimental results demonstrate that the fine-tuning method of CompactNet is better than the traditional network training method, the classification index can reach 0.87, 0.27 higher than the traditional direct training. By comparing LeNet, AlexNet and CompactNet, CompactNet network model has the highest classification accuracy, and the necessity of preprocessing methods such as data amplification is confirmed by experiments.
diabetic retinal image; deep learning; convolutional neural network; image classification; fine-tune
2016- 09- 23;
2016- 10- 26。
北京市自然科學(xué)基金資助項(xiàng)目(4142043);中央高校基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)基金資助項(xiàng)目(2014JBZ003)。
丁蓬莉 (1991—),女,山東濰坊人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、模式識(shí)別、圖像分類(lèi); 李清勇(1979—),男,湖南婁底人,教授,博士,主要研究方向: 機(jī)器視覺(jué)與模式識(shí)別、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘; 張振 (1990—),男,河北唐山人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、模式識(shí)別、圖像分類(lèi); 李峰 (1992—),男,湖北黃岡人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、模式識(shí)別、圖像檢測(cè)。
1001- 9081(2017)03- 0699- 06
10.11772/j.issn.1001- 9081.2017.03.699
TP
A