徐彬競(jìng),施 霖
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
圖像顯著性區(qū)域檢測(cè)方法能夠定位并提取人類(lèi)視覺(jué)系統(tǒng)感興趣的區(qū)域。顯著性檢測(cè)廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)任務(wù)中,如以顯著性檢測(cè)內(nèi)容來(lái)指導(dǎo)圖像內(nèi)容描述[1-2],在圖像定位和分類(lèi)任務(wù)中,顯著性檢測(cè)內(nèi)容轉(zhuǎn)化無(wú)監(jiān)督學(xué)習(xí)為實(shí)例學(xué)習(xí)[3],以及用于構(gòu)建測(cè)試視覺(jué)問(wèn)答模型性能的數(shù)據(jù)集[4]等。1998年,ITTI等人[5]從圖像強(qiáng)度、結(jié)構(gòu)方面入手,通過(guò)數(shù)學(xué)歸納法描述顯著性特征。圖像顯著性的早期檢測(cè)方法主要利用圖像的紋理、顏色等低級(jí)特征,或是水平線、中心點(diǎn)等中級(jí)特征信息來(lái)得到顯著性圖。例如,ZHAI等人[6]提出基于線性復(fù)雜度計(jì)算圖像顯著性檢測(cè)方法(Linear computational Complexity Salient Region Detection,LC);基于對(duì)頻率的考慮,ACHANTA等人[7]提出了基于頻率調(diào)諧的圖像顯著性檢測(cè)方法(Frequency-tuned Salient Region Detection,F(xiàn)T)。此后,深度學(xué)習(xí)的發(fā)展,使大量神經(jīng)網(wǎng)絡(luò)得以應(yīng)用在顯著性檢測(cè)領(lǐng)域。在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的基礎(chǔ)上,大量神經(jīng)網(wǎng)絡(luò)模型被提出并加入到顯著性檢測(cè)任務(wù)中。例如,LIU等人[8]提出PiCANet模型來(lái)選擇性地關(guān)注圖像全局或局部上下文,并為每個(gè)像素構(gòu)建信息豐富的上下文特征;QIN等人[9]提出U2-Net模型能夠從淺層和深層捕獲更豐富的圖像局部和全局信息,并且可以基本無(wú)視分辨率的影響;LIU等人[10]提出PoolNet模型將池化運(yùn)算更好地運(yùn)用于顯著性檢測(cè)上;QIN等人[11]提出BASNet模型包括一個(gè)預(yù)測(cè)-細(xì)化結(jié)構(gòu)和一個(gè)混合損失結(jié)構(gòu),可以實(shí)現(xiàn)于高度準(zhǔn)確的顯著性預(yù)測(cè)。
顏色特征由于具有強(qiáng)大的魯棒性,即旋轉(zhuǎn)不變性和尺度不變性,故在圖像顯著性研究方面具有重要價(jià)值。視覺(jué)顏色顯著性研究能有效指導(dǎo)工業(yè)生產(chǎn)、生活、交通等領(lǐng)域的安全標(biāo)志的識(shí)別性,從而減少事故的發(fā)生[12]。顏色特征在圖像檢索方面由于其高效性而有著廣泛的運(yùn)用[13]。工作記憶表征的顏色特征有著較強(qiáng)的引導(dǎo)效力,相比較其他刺激特征(如方向、形狀)更具有優(yōu)先性[14]。在設(shè)計(jì)領(lǐng)域,顏色語(yǔ)義有著裝飾審美性、詮釋產(chǎn)品功能、提升產(chǎn)品價(jià)值等功能[15]。顏色特征顯著性可以在醫(yī)學(xué)圖像處理領(lǐng)域更好地識(shí)別病理特征[16]。
圖像的顯著性檢測(cè)在圖像處理中有著重要的作用。顏色特征是圖像信息重要的組成部分,如何有效地提取顏色顯著性區(qū)域就成為重要的問(wèn)題。傳統(tǒng)的顯著性檢測(cè)方法往往更注重圖像的低層次特征信息,顏色顯著性檢測(cè)往往基于對(duì)比度、RGB值等信息而非語(yǔ)義信息。神經(jīng)網(wǎng)絡(luò)的出現(xiàn),很大程度上解決了無(wú)視語(yǔ)義信息的問(wèn)題,但現(xiàn)有顯著性數(shù)據(jù)集大都聚焦于物體顯著性檢測(cè)而非顏色顯著性檢測(cè),例如DUTS數(shù)據(jù)集[17]、HKU-IS數(shù)據(jù)集[18]等。沒(méi)有相關(guān)數(shù)據(jù)集則無(wú)法完成顏色顯著檢測(cè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
因此,本文設(shè)計(jì)了一種獲取眼動(dòng)注視點(diǎn)數(shù)據(jù)的顏色顯著性實(shí)驗(yàn)平臺(tái),采用EyeTribe眼動(dòng)儀,由實(shí)驗(yàn)獲取被試關(guān)注圖片上顏色信息時(shí)的視線位置數(shù)據(jù)并標(biāo)注于圖像,從而制作出數(shù)據(jù)集。相較于手工標(biāo)注,眼動(dòng)注視點(diǎn)數(shù)據(jù)能準(zhǔn)確記錄人眼看到圖像時(shí)的視覺(jué)注意位置[19],能更好地反映出被試對(duì)于圖像顏色信息的注意信息。首先,用此數(shù)據(jù)集中訓(xùn)練集分別利用傳統(tǒng)算法FT和LC進(jìn)行顯著性區(qū)域檢測(cè)。其次,分別利用PiCANet、PoolNet、U2-Net及BASNet4種顯著性檢測(cè)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。最終,對(duì)比各方法的顯著性檢測(cè)結(jié)果評(píng)價(jià)指標(biāo),得到在該任務(wù)上表現(xiàn)最為優(yōu)異的方法。
本次實(shí)驗(yàn)選取印象派畫(huà)作中較為著名的100幅畫(huà)作,按照1 920×1 020的分辨率縮放,空白區(qū)域以黑色填充的方式標(biāo)準(zhǔn)化后作為實(shí)驗(yàn)顯示圖像,如圖1所示。印象派畫(huà)作有著顯著的色彩特點(diǎn):按照光譜色選用顏料作畫(huà),畫(huà)面對(duì)比度強(qiáng),使用高純度色彩,運(yùn)用主觀色彩[20]。這些特點(diǎn)使其在色彩信息的表達(dá)上更加豐富與突出,同時(shí)語(yǔ)義信息更加強(qiáng)烈。如此,能夠更好地獲取被試對(duì)顏色信息刺激后的反應(yīng)。

圖1 圖像標(biāo)準(zhǔn)化
本文設(shè)計(jì)的顏色顯著性檢測(cè)實(shí)驗(yàn)平臺(tái),采用EyeTribe眼動(dòng)儀作為視線位置記錄裝置。該裝置是一種眼動(dòng)追蹤系統(tǒng),可以通過(guò)從人眼睛的角膜反射點(diǎn)位置獲取視線在顯示屏上的投影位置。眼睛注視坐標(biāo)是相對(duì)于人正在觀看的屏幕計(jì)算的,由屏幕坐標(biāo)系給出的一對(duì)(x,y)坐標(biāo)表示。圍繞該眼動(dòng)儀配備了顯示器、頭部固定支架,如圖2所示。其中s為被試頭部與眼動(dòng)儀水平距離,其值為35.55 mm;l為被試頭部與顯示器的水平距離,其值為40.00 mm。

圖2 實(shí)驗(yàn)平臺(tái)示意圖
該實(shí)驗(yàn)平臺(tái)經(jīng)過(guò)多次測(cè)試,可以滿足對(duì)被試眼動(dòng)軌跡的準(zhǔn)確記錄的需求,下面將結(jié)合基于此平臺(tái)的顏色顯著性實(shí)驗(yàn),進(jìn)一步介紹本設(shè)計(jì)。
本文的顏色顯著性實(shí)驗(yàn)完整過(guò)程如圖3所示。實(shí)驗(yàn)分為兩個(gè)模塊:模塊A為實(shí)驗(yàn)準(zhǔn)備階段,確定被試通過(guò)色盲測(cè)試且眼動(dòng)儀能準(zhǔn)確記錄被試注視點(diǎn);模塊B為正式實(shí)驗(yàn)階段,記錄被試對(duì)整個(gè)圖片集的顏色顯著區(qū)域注視點(diǎn)集合,并生成數(shù)據(jù)集。

圖3 實(shí)驗(yàn)流程圖
被試將頭部放置于頭部固定支架,首先進(jìn)行色盲測(cè)試。確認(rèn)被試色覺(jué)正常后,實(shí)驗(yàn)全程被試都以此姿勢(shì)進(jìn)行實(shí)驗(yàn)。之后,定標(biāo)程序開(kāi)始運(yùn)行。顯示器上顯示游標(biāo),被試跟隨游標(biāo)移動(dòng)注視點(diǎn),直至完成眼動(dòng)定標(biāo),獲得評(píng)分,直至評(píng)分大于等于4(意味著此校準(zhǔn)結(jié)果非常適合眼動(dòng)追蹤,視線誤差角度<0.7°),繼續(xù)進(jìn)行后續(xù)實(shí)驗(yàn)。顯示器將顯示標(biāo)準(zhǔn)化后的圖像,首先顯示4副圖像進(jìn)行測(cè)試。當(dāng)圖片顯示時(shí),請(qǐng)被試欣賞并依次注視圖片上最感興趣的多個(gè)顏色區(qū)域而非物體,每幅圖像顯示22 s。當(dāng)4幅圖全部實(shí)驗(yàn)完畢,將每幅圖像注視點(diǎn)坐標(biāo)集合以alpha值為0.5的白色點(diǎn)的形式標(biāo)注于該圖像,如 圖4所示。被試確認(rèn)標(biāo)注白色區(qū)域正確。至此,實(shí)驗(yàn)準(zhǔn)備工作完成。

圖4 被試確認(rèn)用標(biāo)注圖
實(shí)驗(yàn)正式開(kāi)始時(shí),顯示器將會(huì)依次顯示100幅標(biāo)準(zhǔn)化后的圖像,每幅圖像顯示時(shí)間為22 s,同樣令被試依次注視圖片上最感興趣的多個(gè)顏色區(qū)域。實(shí)驗(yàn)結(jié)束后,獲取被試對(duì)所有圖像注視點(diǎn)的坐標(biāo)集合。
在13個(gè)被試正確完成實(shí)驗(yàn)后,將所獲得的注視點(diǎn)坐標(biāo)集合以alpha值為0.5的白色點(diǎn)的形式標(biāo)注于分辨率為1 920×1 080的黑色圖像上,如圖5所示。采用該方法獲得的圖片集合即為神經(jīng)網(wǎng)絡(luò)訓(xùn)練的顏色顯著性檢測(cè)標(biāo)簽。與標(biāo)準(zhǔn)化后的圖像兩兩配對(duì),成為顏色顯著性檢測(cè)數(shù)據(jù)集,其中20%為測(cè)試集,80%為訓(xùn)練集。

圖5 實(shí)驗(yàn)生成神經(jīng)網(wǎng)絡(luò)訓(xùn)練用數(shù)據(jù)集示例
對(duì)實(shí)驗(yàn)獲取數(shù)據(jù)集中的測(cè)試集分別使用傳統(tǒng)方法和深度學(xué)習(xí)方法進(jìn)行顯著性檢測(cè),并與實(shí)驗(yàn)獲得的真值進(jìn)行對(duì)比,如圖6所示。通過(guò)F-measure最大值MaxF和MAE值來(lái)評(píng)估顏色顯著性檢測(cè)最優(yōu)方法。

圖6 各算法顏色顯著性檢測(cè)效果示意圖
基于頻率調(diào)諧的圖像顯著性檢測(cè)(Frequencytuned Salient Region Detection,F(xiàn)T)方法利用了顏色和亮度的特性,從原始圖像中保留比其他現(xiàn)有技術(shù)更多的頻率內(nèi)容,是一種利用顏色和亮度的低水平特征計(jì)算圖像顯著性的頻率調(diào)整方法。該方法易于實(shí)現(xiàn),速度快,并提供全分辨率顯著性圖。
基于線性復(fù)雜度計(jì)算圖像顯著性檢測(cè)(Linear computational Complexity Salient Region Detection,LC)方法通過(guò)計(jì)算圖像特征值的直方圖,遍歷整個(gè)圖像的計(jì)算特征值距離矩陣,為每一個(gè)對(duì)應(yīng)像素值分配顯著值得到顯著圖,將顯著圖歸一化并顯示。
傳統(tǒng)方法著重關(guān)注圖像中的基礎(chǔ)、低級(jí)的特征信息,并未考慮到圖像中的語(yǔ)義信息關(guān)聯(lián)。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)將語(yǔ)義信息的關(guān)聯(lián)納入預(yù)測(cè)中,隨后全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CNs)的出現(xiàn)大大提高了檢測(cè)的效率與性能,并逐步替代了傳統(tǒng)的圖像顯著性檢測(cè)方法。語(yǔ)境在顯著性檢測(cè)任務(wù)中扮演著重要的角色。本文采用4個(gè)在顯著性檢測(cè)任務(wù)中質(zhì)量較好的神經(jīng)網(wǎng)絡(luò)對(duì)顏色顯著性實(shí)驗(yàn)獲得的數(shù)據(jù)集進(jìn)行訓(xùn)練。PiCANet顏色顯著性檢測(cè)時(shí),區(qū)別于基于淺層顏色信息的傳統(tǒng)方法,PiCANet能夠充分考慮語(yǔ)境信息以及語(yǔ)義信息,將圖像中更符合人類(lèi)視覺(jué)特征的顏色顯著區(qū)域檢測(cè)出來(lái)。語(yǔ)境在顯著性檢測(cè)任務(wù)中起著重要作用,但并非所有上下文信息都有助于顯著性檢測(cè)的最終決策,一些相關(guān)區(qū)域通常更有用,而其他嘈雜的語(yǔ)義信息應(yīng)該被丟棄,由此提出了一種新的像素級(jí)上下文注意網(wǎng)絡(luò)PiCANet,該模型選擇性地關(guān)注全局或局部上下文,并為每個(gè)像素構(gòu)建信息豐富的上下文特征。由于CNN的金字塔狀結(jié)構(gòu)特征,較淺的階段通常具有更大的空間尺寸并保留豐富、詳細(xì)的低級(jí)信息,而更深的階段包含更多高級(jí)語(yǔ)義知識(shí),更擅長(zhǎng)定位顯著對(duì)象的確切位置。
2.2.1 PoolNet
檢測(cè)顏色顯著性時(shí),PoolNet具有更大的感受野,能考慮到更大范圍的顏色信息,同時(shí),該網(wǎng)絡(luò)模型對(duì)顏色邊緣的檢測(cè)也具有更好的效果。U形結(jié)構(gòu)在深度學(xué)習(xí)中是常見(jiàn)的結(jié)構(gòu),此結(jié)構(gòu)能夠通過(guò)在分類(lèi)網(wǎng)絡(luò)上構(gòu)建自上而下的路徑來(lái)構(gòu)建豐富的特征圖。首先,高層語(yǔ)義信息會(huì)逐漸傳遞到較淺層,因此較深層捕獲的位置信息可能會(huì)同時(shí)逐漸被稀釋。其次,CNN的感受野大小與其層次深度不成正比,并且會(huì)產(chǎn)生邊界損失。PoolNet基于U形結(jié)構(gòu)通過(guò)擴(kuò)展池化模型來(lái)解決這些問(wèn)題。該模型通過(guò)設(shè)計(jì)兩個(gè)簡(jiǎn)單的基于池化模塊GGM(全局引導(dǎo)模塊)和FAM(特征聚合模塊),從而將池化更好地運(yùn)用于顯著性檢測(cè)上。GGM在特征圖上的每層都能關(guān)注到顯著物體,在每次橫向連接的時(shí)候都加入高層的語(yǔ)義信息。FAM幫助模型降低上采樣導(dǎo)致的混疊效應(yīng),同時(shí)對(duì)感受野進(jìn)行放大。
2.2.2 U2-Net
進(jìn)行顏色顯著性檢測(cè)時(shí),U2-Net沒(méi)有使用圖像分類(lèi)的預(yù)訓(xùn)練主干模型,可以從頭訓(xùn)練,得到更符合顏色顯著性檢測(cè)的模型。其體系結(jié)構(gòu)是一個(gè)兩層嵌套的U結(jié)構(gòu),這使得網(wǎng)絡(luò)能獲得更深入的特征顏色信息,同時(shí)以高分辨率圖像計(jì)算,而不會(huì)顯著增加內(nèi)存和計(jì)算成本。利用殘差U型模塊不同尺度、不同感受野的混合,能夠捕捉更多的全局顏色信息。
2.2.3 BASNet
進(jìn)行顏色顯著性檢測(cè)時(shí),大多數(shù)網(wǎng)絡(luò)都更加關(guān)注于區(qū)域提取的準(zhǔn)確率。為了獲得高精度顏色邊界和精細(xì)顯著性結(jié)構(gòu)的分割,BASNet采用深層編碼器-解碼器的結(jié)構(gòu)先得到一個(gè)全局的、粗糙的結(jié)果,之后采用RRM(殘差求精模塊)修正結(jié)果,得到局部的、精細(xì)的結(jié)果。該模型引入結(jié)構(gòu)相似性損失,最后三種損失(BCE損失,SSIM損失,IoU損失)相加。為解決邊界模糊問(wèn)題,該模型更注重邊界質(zhì)量,計(jì)算時(shí),邊界的損失值比物體內(nèi)部或其他地方損失值的權(quán)重更高,以降低交叉?zhèn)鞑D像邊界和區(qū)域中訓(xùn)練時(shí)的信息所帶來(lái)的假錯(cuò)率,從而獲取更加準(zhǔn)確的顏色顯著性區(qū)域的邊界。
本文主要采用顯著性檢測(cè)中MAE值和F-Measure 最大值MaxF這兩個(gè)評(píng)價(jià)指標(biāo)對(duì)顏色顯著性檢測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
2.3.1 平均絕對(duì)離差MAE
平均絕對(duì)離差(Mean Absolute Deviation,MAE) 的計(jì)算方法如式(1)所示:

式中:W和H分別表示圖像的寬度和高度,S為該模型計(jì)算得到的顯著圖,GT為顏色顯著實(shí)驗(yàn)獲取的被試注視點(diǎn)標(biāo)注真值。一般地,MAE值越小表示該方法效果越好。
2.3.2 F-measure
精度(Precision)和召回率(Recall)的計(jì)算方式如式(2)、式(3)所示:

式中:M為二值化下預(yù)測(cè)的顯著性圖,G為顏色顯著實(shí)驗(yàn)獲取的被試注視點(diǎn)標(biāo)注真值圖。
F-measure綜合了查全率和查準(zhǔn)率,計(jì)算方式如式(4)所示:

式中:β代表非負(fù)權(quán)重,用以平衡召回率與準(zhǔn)確率之間的關(guān)系。通常,β2取值為0.3.在對(duì)比時(shí)往往選取F-measure的最大值MaxF作為模型的評(píng)價(jià)標(biāo)準(zhǔn)。一般地,F(xiàn)-measure值越大,表示該模型性能越好。
為了從數(shù)據(jù)上直觀地對(duì)比本文所選取的方法,在表1中展示了不同的顏色顯著性檢測(cè)方法在本次實(shí)驗(yàn)所得數(shù)據(jù)集上的性能參數(shù),并使用平均絕對(duì)離差MAE、F-measure的最大值MaxF作為評(píng)價(jià)指標(biāo)。所有數(shù)據(jù)均以測(cè)試集結(jié)果作為對(duì)比。通過(guò)表中數(shù)據(jù)對(duì)比可知,不論是以MAE參數(shù)還是MaxF參數(shù)來(lái)看,傳統(tǒng)方法在顏色顯著性檢測(cè)時(shí)性能均不佳。因?yàn)閭鹘y(tǒng)方法不是面向顏色顯著性檢測(cè)設(shè)計(jì)的算法,同時(shí)不能充分考慮圖像中的語(yǔ)義信息。對(duì)比神經(jīng)網(wǎng)絡(luò)模型時(shí),PiCANet、U2-Net、BASNet在該精度下的MAE值同為最優(yōu),再對(duì)比MaxF值,BASNet在本次實(shí)驗(yàn)中擁有最佳性能,說(shuō)明BASNet模型首先獲得粗糙檢測(cè)結(jié)果再精細(xì)化結(jié)果更符合人眼關(guān)注顏色時(shí)的特征。同時(shí),BASNet更加關(guān)注顯著性區(qū)域的邊界,故得到更精確的顏色顯著性檢測(cè) 區(qū)域。

表1 各算法顏色顯著性檢測(cè)評(píng)價(jià)指標(biāo)對(duì)比
顯著性檢測(cè)領(lǐng)域常用的數(shù)據(jù)集有DUTS、HKU-IS、 Judd及SOD數(shù)據(jù)集。將本次實(shí)驗(yàn)生成的數(shù)據(jù)集和常用顯著性檢測(cè)數(shù)據(jù)集分別用BASNet訓(xùn)練后,預(yù)測(cè)結(jié)果對(duì)比示例如圖7所示,MAE值與MaxF值對(duì)比如表2所示。本文方法所獲得數(shù)據(jù)集在MAE值和MaxF值上表現(xiàn)均為最優(yōu)。

圖7 各數(shù)據(jù)集顯著性檢測(cè)效果示意圖

表2 各數(shù)據(jù)集顏色顯著性檢測(cè)評(píng)價(jià)指標(biāo)對(duì)比
利用本文搭建的實(shí)驗(yàn)平臺(tái)開(kāi)展顏色顯著性實(shí)驗(yàn),準(zhǔn)確記錄被試觀察圖像中顏色顯著性區(qū)域并獲取數(shù)據(jù)。對(duì)比分析各個(gè)顯著性檢測(cè)方法,結(jié)果表明,在顏色顯著性檢測(cè)任務(wù)上,BASNet表現(xiàn)最優(yōu)。以最優(yōu)方法分別對(duì)傳統(tǒng)顯著性檢測(cè)數(shù)據(jù)集和本文實(shí)驗(yàn)所得數(shù)據(jù)集訓(xùn)練后,結(jié)果表明,本文數(shù)據(jù)集具有最好的性能。本文的實(shí)驗(yàn)結(jié)果可為進(jìn)一步提升顏色顯著性檢測(cè)效果奠定基礎(chǔ)。