











摘 要:為了解決文檔圖像質(zhì)量評價網(wǎng)絡(luò)對圖像特征提取不充分、評價指標(biāo)不恰當(dāng)?shù)葐栴},提出了一種基于Transformer的雙流文檔圖像質(zhì)量評價算法。首先,利用Transformer提取圖像特征,計算特征通道間注意力;其次,使用權(quán)重模塊預(yù)測文檔圖像OCR(光學(xué)字符識別)準(zhǔn)確率作為文檔圖像質(zhì)量得分,使用CNN(卷積神經(jīng)網(wǎng)絡(luò))提取文檔全局特征,全連接后預(yù)測圖像的自然圖像得分;最后,將兩者得分結(jié)合作為預(yù)測圖像的質(zhì)量得分。實驗結(jié)果表明,基于Transformer的雙流文檔圖像質(zhì)量評價算法在數(shù)據(jù)集上的皮爾遜線性相關(guān)系數(shù)(PLCC)達(dá)到0.9045,史比爾曼等級相關(guān)系數(shù)(SROCC)達(dá)到0.8775,證明該算法可以預(yù)測出更符合人類視覺標(biāo)準(zhǔn)的文檔圖像質(zhì)量分?jǐn)?shù)。
關(guān)鍵詞:圖像質(zhì)量評價;文檔圖像;Transformer;神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
圖像質(zhì)量評價是圖像處理的基礎(chǔ),準(zhǔn)確評估圖像質(zhì)量能夠為其他圖像處理算法的優(yōu)化與調(diào)整提供清晰的目標(biāo)和指引。文檔圖像質(zhì)量評價是圖像質(zhì)量評價的一個重要分支,具有其獨特性。與自然圖像相比,文檔圖像包含大量的文字、圖標(biāo)等紋理信息,并且具有實際意義。因此,對文檔圖像進(jìn)行質(zhì)量評價時,研究人員需要遵循特定的評價標(biāo)準(zhǔn)。傳統(tǒng)方法通過定義對文檔圖像質(zhì)量有影響的因素作為評價指標(biāo),對圖像的畸變、清晰度進(jìn)行評價得到文檔圖像質(zhì)量分?jǐn)?shù)[1]。由于大量電子文檔圖像的主要用途是供人閱讀或依賴OCR程序的輸入,因此機器學(xué)習(xí)方法大多使用CNN進(jìn)行特征提取,并嘗試將這些映射到OCR準(zhǔn)確率上,以此作為文檔圖像的質(zhì)量分?jǐn)?shù)[2-5]。傳統(tǒng)方法使用的指標(biāo)更加符合人類視覺標(biāo)準(zhǔn),但給出的得分包含較多主觀因素。現(xiàn)存機器學(xué)習(xí)方法使用OCR識別率作為指標(biāo),但存在兩方面不足:一是使用CNN提取圖像特征可能不夠充分;二是OCR準(zhǔn)確率客觀反映了計算機閱讀文檔圖像的圖像質(zhì)量,而單獨使用OCR作為文檔圖像質(zhì)量評價指標(biāo)并不能完全反映人對文檔圖像質(zhì)量的評價得分。因此,本文提出了一種基于Transformer的雙流文檔圖像質(zhì)量評價算法,該算法融合了文檔流和自然圖像流。其中,文檔流使用Transformer充分提取文檔圖像的文字特征,并預(yù)測OCR準(zhǔn)確率,給出文檔圖像作為文檔的圖像質(zhì)量評價得分;自然圖像流使用卷積神經(jīng)網(wǎng)絡(luò)給出的文檔圖像作為自然圖像的得分。將兩者結(jié)合,可以得到更符合人類視覺感官的文檔圖像質(zhì)量評價得分。
1 算法原理(Algorithmprinciple)
1.1 VisionTransformer
VisionTransformer(ViT)[6]是一種基于Transformer架構(gòu)的圖像處理模型,其核心思想是將圖像視為一種特殊類型的序列數(shù)據(jù),然后利用自注意力機制捕捉全局信息。ViT主要由圖像塊嵌入(PatchEmbeddings)、Transformer編碼器(TransformerEncoder)和分類頭(ClassificationHead)等部分組成。
1.2 殘差網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)由一系列的卷積層、池化層和全連接層組成。在CNN 中,輸入數(shù)據(jù)首先通過多層卷積操作逐漸提取高級特征,其次通過池化層降低特征圖的空間維度,最后經(jīng)過全連接層進(jìn)行分類或回歸。殘差網(wǎng)絡(luò)(ResNet)[7]由殘差塊(ResidualBlock)組成,每個殘差塊均包含跳躍連接(SkipConnection),允許信息繞過一個或多個層直接傳遞到后續(xù)層。ResNet的核心思想是使用殘差塊解決深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題,使得訓(xùn)練更加穩(wěn)定。
2 網(wǎng)絡(luò)結(jié)構(gòu)(Networkstructure)
2.1 整體算法
本文提出了一種基于Transformer的雙流文檔圖像質(zhì)量評價網(wǎng)絡(luò)(DualStreamImageQualityAssessmentnetwork,DSIQA-NET)。該網(wǎng)絡(luò)由文檔流與自然圖像流組成,將原始文檔圖像隨機裁剪為224×224的圖像塊,分別輸入雙流網(wǎng)絡(luò)進(jìn)行預(yù)測,得到基于OCR準(zhǔn)確率的文檔圖像得分和基于自然圖像質(zhì)量評價得分的自然圖像得分。將這兩個分?jǐn)?shù)按一定的權(quán)重進(jìn)行融合后得到最終的分?jǐn)?shù),以實現(xiàn)更加符合人類視覺感官的文檔圖像質(zhì)量分?jǐn)?shù)預(yù)測。基于Transformer的雙流圖像質(zhì)量評價網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。
2.2 文檔流質(zhì)量評價網(wǎng)絡(luò)
2.2.1 特征提取模塊
在使用ViT對圖像進(jìn)行特征提取的過程中,首先將圖像拆分成一組大小相等的圖像塊,每個圖像塊均被視為序列中的一個元素。其次將這些圖像塊轉(zhuǎn)換成低維的向量表示后,作為ViT模型的輸入。通過多頭注意力機制,ViT能夠同時考慮圖像中不同位置之間的關(guān)聯(lián)性,以及不同圖像塊之間的相關(guān)性,從而捕獲到全局信息。這使得模型能夠更全面地理解圖像,并提取出更具代表性的特征。使用ViT對圖像進(jìn)行特征提取,如圖2所示。
2.2.2 轉(zhuǎn)置注意力模塊
ViT通過注意力機制對圖像進(jìn)行特征提取,這一過程主要是通過多頭注意力機制計算圖像不同位置之間的相關(guān)性,進(jìn)而實現(xiàn)對全局信息的捕獲。然而,傳統(tǒng)的注意力機制可能會忽略輸入不同通道之間的信息,從而導(dǎo)致特征提取的不充分。為了解決這一問題,本文引入了轉(zhuǎn)置注意力模塊(圖3)。該模塊的核心作用在于通過計算不同通道之間的注意力來獲得包含通道間信息的特征矩陣。具體實現(xiàn)時,首先對大小為H ×W ×C的特征矩陣進(jìn)行Reshape操作,并使用全連接層映射新的Q、K、V 矩陣,將K 轉(zhuǎn)置后與Q 相乘,得到大小為C×C 的轉(zhuǎn)置注意力矩陣,該矩陣與V 相乘后的結(jié)果與原始輸入相加,得到輸出^F,該過程的定義如公式(1)和公式(2)所示:
F=WpAtten(Q,K,V)+~F (1)
Atten(Q,K,V)=V·Softmax(K·Q/α) (2)
其中:α 表示Q、K、V 矩陣的維度,Wp 表示映射矩陣。
2.2.3 分?jǐn)?shù)加權(quán)模塊
本文針對文檔圖像中背景信息和文字信息對圖像質(zhì)量的不同影響,提出了一種分?jǐn)?shù)加權(quán)模塊,旨在更準(zhǔn)確地評估圖像質(zhì)量。分?jǐn)?shù)加權(quán)模塊的設(shè)計如圖4所示。在該模塊中,圖像被分為背景信息和文字信息兩個部分,而這兩個部分對圖像質(zhì)量的影響是不同的。因此,需要一種機制動態(tài)地調(diào)整不同區(qū)域?qū)D像質(zhì)量評估的權(quán)重。
最終分?jǐn)?shù)的計算如公式(3)所示,其過程可以總結(jié)為將每個patch的權(quán)重和與其對應(yīng)的質(zhì)量得分相乘,并將所有patch的得分相加。采用這種設(shè)計方式的模塊能夠更好地反映文檔圖像中不同區(qū)域?qū)φw圖像質(zhì)量的貢獻(xiàn),使圖像質(zhì)量評估算法更精細(xì)和準(zhǔn)確。
其中,N 為將一張圖片分成patch的數(shù)量。
2.3 自然圖像流圖像質(zhì)量評價網(wǎng)絡(luò)
為防止文檔流圖像質(zhì)量評價網(wǎng)絡(luò)過擬合,同時也為了增強算法的泛用性,自然圖像流質(zhì)量評價網(wǎng)絡(luò)(圖5)采用CNN作為骨干網(wǎng)絡(luò)提取圖像特征。為解決CNN從局部特征提取逐步擴展到全局特征而損失的特征信息,該網(wǎng)絡(luò)將局部特征和深層特征相結(jié)合,以此為基礎(chǔ)來預(yù)測圖像的整體質(zhì)量分?jǐn)?shù)。
2.4 雙流網(wǎng)絡(luò)融合
在網(wǎng)絡(luò)的訓(xùn)練過程中,輸入的文檔圖像分別經(jīng)過文檔流和自然圖像流兩個分支,每個分支都會輸出一個對應(yīng)的質(zhì)量分?jǐn)?shù)。隨后,將這兩個分?jǐn)?shù)進(jìn)行加權(quán)融合,得到本文算法預(yù)測的更符合人類視覺感官的文檔圖像質(zhì)量分?jǐn)?shù);其具體計算過程如下:
S1=F?(I) (4)
S2=F?(I) (5)
S=αS1+βS2 (6)
其中:α 和β 分別是文檔圖像流和自然圖像流權(quán)重,兩者相加等于1,本算法中的α =0.8,β =0.2。
3 實驗及結(jié)果分析(Experimentandresultanalysis)
3.1 數(shù)據(jù)集構(gòu)建
為了彌補中文文檔圖像質(zhì)量評價數(shù)據(jù)集的缺失,本研究充分考慮實際文檔圖像可能遭受的攻擊,對原始圖像進(jìn)行噪聲攻擊后加入數(shù)據(jù)集,以提升網(wǎng)絡(luò)的泛化能力。同時,為了滿足不同的算法需求,對數(shù)據(jù)集進(jìn)行標(biāo)注,包括OCR精度、攻擊類型和綜合評分。首先,確定了攻擊類型,通過模擬光照變化和紙質(zhì)差異,調(diào)整圖像的亮度和對比度,以再現(xiàn)拍攝紙質(zhì)圖片時可能出現(xiàn)的過亮、過暗以及紙質(zhì)文檔變舊等情況。其次,對圖像增加不同的噪聲以模仿不同條件造成的模糊效果。最后,使用不同評價標(biāo)準(zhǔn)對圖像進(jìn)行標(biāo)注。中文文檔數(shù)據(jù)集構(gòu)建流程如圖6所示。
本研究使用數(shù)據(jù)集的基準(zhǔn)圖像和基準(zhǔn)文本結(jié)果均清晰可靠。為確保識別結(jié)果準(zhǔn)確且可靠,使用PaddleOCR對基準(zhǔn)數(shù)據(jù)集進(jìn)行文字識別,將識別后的文本與基準(zhǔn)文本進(jìn)行比較以獲取OCR精確度分?jǐn)?shù),每張圖片的識別與比較工作均進(jìn)行了3次。該自建文檔圖像數(shù)據(jù)集共有13936張圖片,其中2054張被劃分為測試集,剩余的11882張被劃分為訓(xùn)練集。
本網(wǎng)絡(luò)訓(xùn)練還使用了數(shù)據(jù)集SmartDoc-QA[8]。實驗基于Pytorch框架,使用Linux操作系統(tǒng),顯卡為GeForceRTX3090Ti。
3.2 消融實驗
本文所提算法引入了加權(quán)模塊及轉(zhuǎn)置注意力模塊,其中轉(zhuǎn)置注意力模塊可以提取到更加充分的圖像通道之間的信息,加權(quán)模塊可以根據(jù)圖像特征的重要性預(yù)測圖像質(zhì)量。為了評估這些模塊對圖像質(zhì)量評價的影響,本文使用自建文檔圖像數(shù)據(jù)集進(jìn)行了實驗。具體步驟如下:一是使用ViT提取圖像特征及質(zhì)量分?jǐn)?shù)預(yù)測QV ;二是使用ViT提取圖像特征及權(quán)重分?jǐn)?shù)預(yù)測QW ;三是使用ViT和轉(zhuǎn)置注意力模塊提取圖像特征及質(zhì)量分?jǐn)?shù)預(yù)測QT ;四是使用ViT和轉(zhuǎn)置注意力模塊提取圖像特征及權(quán)重分?jǐn)?shù)預(yù)測Q。ViT提取特征后不同網(wǎng)絡(luò)預(yù)測準(zhǔn)確率如表1所示。
由表1中的數(shù)據(jù)可知,使用ViT進(jìn)行特征提取和預(yù)測取得了一定的效果,轉(zhuǎn)置注意力模塊和權(quán)重分?jǐn)?shù)預(yù)測模塊引入對預(yù)測準(zhǔn)確率的提升起到了積極的作用,說明本文提出的兩種改進(jìn)模塊在使用ViT提取特征并預(yù)測OCR準(zhǔn)確率方面均發(fā)揮了重要作用。
3.3 SmartDoc-QA數(shù)據(jù)集
在SmartDoc-QA數(shù)據(jù)集上,使用文檔流算法進(jìn)行文檔圖像質(zhì)量評價,并將其與其他文檔圖像質(zhì)量評價網(wǎng)絡(luò)進(jìn)行了比較。文檔流算法與其他算法在SmartDoc-QA數(shù)據(jù)集的對比實驗結(jié)果見表2。
根據(jù)在SmartDoc-QA數(shù)據(jù)集上的實驗結(jié)果,本文提出的文檔流算法在PLCC評估指標(biāo)上獲得了0.977,SROCC達(dá)到了0.892,相較于其他文檔圖像質(zhì)量評價算法,表現(xiàn)出一定的優(yōu)越性。盡管本文提出的算法在PLCC指標(biāo)上取得了較高的成績,但是在SROCC指標(biāo)上的提升幅度相對有限。經(jīng)過對數(shù)據(jù)集的深入分析發(fā)現(xiàn),該數(shù)據(jù)集包含的2160張圖片中,有大約40%的圖片的OCR準(zhǔn)確率為0,這大大增加了文檔圖像質(zhì)量評價在SROCC指標(biāo)上的難度,從而導(dǎo)致該指標(biāo)相對較低。
3.4 自建中文文檔數(shù)據(jù)集
在中文文檔數(shù)據(jù)集上,使用文檔流算法進(jìn)行文檔圖像質(zhì)量評價,并與其他文檔圖像質(zhì)量評價網(wǎng)絡(luò)進(jìn)行比較。文檔流算法與其他算法在中文文檔數(shù)據(jù)集的對比實驗結(jié)果見表3。
使用相同的訓(xùn)練參數(shù)在中文文檔圖像質(zhì)量評價數(shù)據(jù)集上進(jìn)行訓(xùn)練,結(jié)果表明算法在中文文檔數(shù)據(jù)集上具有優(yōu)越性。該數(shù)據(jù)集圖片數(shù)量較多、攻擊類型更加豐富、圖像特征不容易提取,因此相較于SmartDoc-QA數(shù)據(jù)集,PLCC和SROCC指標(biāo)均有所下降,但PLCC和SROCC之間的差值縮小,表明本文提出的算法在應(yīng)對復(fù)雜數(shù)據(jù)集時依然有效,并且數(shù)據(jù)集的分布也相對較為合理。
3.5 雙流文檔圖像質(zhì)量評價網(wǎng)絡(luò)性能及結(jié)果展示
本文提出的基于雙流文檔圖像質(zhì)量評價網(wǎng)絡(luò),綜合考慮文檔圖像作為文檔屬性和圖像屬性,得出更符合人類視覺感官的文檔圖像質(zhì)量評價分?jǐn)?shù)。雙流文檔圖像質(zhì)量評價性能見表4。
在自建中文數(shù)據(jù)集上,本文提出的基于Transformer的雙流文檔圖像質(zhì)量評價算法的PLCC為0.9045,SROCC為0.8775,表現(xiàn)出對文檔圖像質(zhì)量評價的有效性。圖7為一張原始文檔圖片及5張受到不同攻擊的圖片,對這些圖片使用訓(xùn)練結(jié)果最優(yōu)的網(wǎng)絡(luò)權(quán)重對文檔圖像進(jìn)行質(zhì)量評價。評價結(jié)果顯示,基于Transformer的雙流文檔圖像質(zhì)量評價算法的有效性較高。
原始圖像為圖7(1),其與圖7(2)的OCR 準(zhǔn)確率都為0.9090,但圖7(1)使用基于Transformer的雙流文檔圖像質(zhì)量評價網(wǎng)絡(luò)預(yù)測得到的文檔圖像質(zhì)量得分為0.8996,圖7(2)的文檔圖像質(zhì)量得分為0.7361。這一差異主要歸因于圖7(2)的亮度過高,導(dǎo)致圖像在視覺上顯得過于明亮,從而影響了整體圖像質(zhì)量的評價,使得其得分較低。圖7(3)和圖7(4)由于受到模糊攻擊,導(dǎo)致OCR準(zhǔn)確率為0,兩張圖片的文檔圖像質(zhì)量得分很低,僅為0.0229和0.1182;圖7(5)和圖7(6)分別遭受到變暗和飽和度攻擊,但這兩種攻擊對OCR準(zhǔn)確率沒有太大的影響,獲得的準(zhǔn)確率分別為0.9141和0.8643,但文檔識別率分別為0.6376和0.7424。實驗結(jié)果表明,基于Transformer的雙流文檔圖像質(zhì)量評價網(wǎng)絡(luò)可以對文檔圖像進(jìn)行更符合人類視覺感官的評價。
4 結(jié)論(Conclusion)
針對文檔圖像質(zhì)量評價特征提取不充分、僅考慮OCR識別率的問題,本文提出了一種基于Transformer雙流文檔圖像質(zhì)量評價算法。該算法將文檔圖像分別作為文檔和自然圖像進(jìn)行處理。對于文檔流,將OCR準(zhǔn)確率作為圖像質(zhì)量評價指標(biāo),使用ViT進(jìn)行文檔圖像文字特征提取,通過引入轉(zhuǎn)置注意力模塊有效地融合了通道之間的信息,進(jìn)而通過加權(quán)預(yù)測得到文檔流圖像的質(zhì)量得分,該得分更加凸顯了文字部分對圖像質(zhì)量的貢獻(xiàn)。對于自然圖像流,利用CNN提取淺層特征,結(jié)合ResNet提取圖像深層特征,并使用全連接層得出自然圖像流得分。最終,將兩者得分加權(quán)融合后作為文檔圖像質(zhì)量評價的得分。實驗結(jié)果表明,該算法可以預(yù)測得到更符合人類視覺感官的文檔圖像質(zhì)量分?jǐn)?shù)。
參考文獻(xiàn)(References)
[1]李曉嬋.文檔圖像質(zhì)量評價方法的研究[D].成都:電子科技大學(xué),2023.
[2]KANGL,YEP,LIY,etal.Adeeplearningapproachtodocumentimagequalityassessment[C]∥IEEE.ProceedingsoftheIEEE:2014IEEEInternationalConferenceonImageProcessing.IEEE,2014:2570-2574.
[3]LIHY,ZHUF,QIUJH.CG-DIQA:No-referencedocumentimagequalityassessmentbasedoncharactergradient[C]∥IEEE.ProceedingsoftheIEEE:201824thInternationalConferenceonPattern Recognition.Piscataway:IEEE,2018:3622-3626.
[4]LIPC,PENGLR,CAIJY,etal.AttentionbasedRNNmodelfordocumentimagequalityassessment[C]∥IEEE.ProceedingsoftheIEEE:201714thIAPRInternationalConferenceonDocumentAnalysisandRecognition.Piscataway:IEEE,2017:819-825.
[5]WANGWS,YANZY,LINHL.Adocumentimagequalityassessmentmethodbasedonfeaturefusion[M]∥Theinternationalconferenceonimage,visionandintelligentsystems(ICIVIS2021).Singapore:SpringerNatureSingapore,2022:889-899.
[6]DOSOVITSKITYA,BEYERL,KOLESNIKOVA,etal.Animageisworth16x16words:transformersforimagerecognitionatscale[J/OL].(2020-10-26)[2024-04-06].https:∥arxiv.org/abs/2010.11929.
[7]HEK M,ZHANGX Y,RENSQ,etal.Deepresiduallearningforimagerecognition[DB/OL].(2015-12-10)[2024-04-08].https:∥arxiv.org/abs/1512.03385v1.
[8]NAYEFN,LUQMANM M,PRUMS,etal.SmartDoc-QA:adatasetforqualityassessmentofsmartphonecaptureddocumentimages-singleand multipledistortions[C]∥IEEE.ProceedingsoftheIEEE:201513thInternationalConferenceonDocumentAnalysisandRecognition.Piscataway:IEEE,2015:1231-1235.
作者簡介:
焦樹恒(1998-),男(漢族),臨沂,碩士生。研究領(lǐng)域:圖像處
張善卿(1971-),男(漢族),杭州,副教授,博士。研究領(lǐng)域:圖
基金項目:國家自然科學(xué)基金資助(62172132)