周紫微
(1.長春君地房地產開發有限公司,吉林 長春 130000;2.中科智谷國際醫藥生物科技(廣東)有限公司,廣東 清遠 511500)
隨著建筑工程自動化的發展,工程造價票據的自動化識別及臺賬錄入,已經成為提高建筑企業經營效率的重要手段[1]。研究如何提高票據檢測識別系統在印制模糊、手寫迥異等復雜背景下的票據特征提取能力具有重要意義。程德強等[2]選用了不同尺度增加特征信息量和利用率的方法,達到了獲取較高視覺效果的目的。楊夏寧等[3]引入對稱式分層結構,增加殘差結構連接密度等方法,實現了適應復雜場景下圖像超分辨率重構。畢曉君等[4]將密集剩余殘差塊作為特征提取模塊,采用沃瑟斯坦式提高模型泛化能力,有效提高了圖像細節的真實性和重構效果。文章使用SRGAN網絡實現對低分辨率圖像的超分辨率重構,能夠有效解決工程造價票據因印制設備個體差異、不同經手人員書寫動力定型差異化等因素造成的票據清晰度低和細節缺失的問題,提高工程票據自動化識別系統的效率。
通過將SRResNet網絡作為生成網絡,引入生成對抗網絡(GAN)產生的圖像超分辨率重建算法(SRGAN),由生成網絡和判別網絡構成[5],目標函數為:
式中:DθD——判別網絡;GθG——生成網絡;IHR——真實的票據高分辨率圖片;ILR——IHR對應的低分辨率版本;IHR~ptrain(IHR)——從票據數據集中對IHR進 行 采 樣;DθD(IHR)——IHR是 真 實 圖 片 概 率;ILR~pG(ILR)——根據IHR隨機生成一張對應的ILR;GθG(ILR)——通過生成網絡生成超分辨率重構圖片;DθD(GθG(ILR))——生成的圖片是真實圖片的概率。
利用min-max優化模型[6]對目標函數進行訓練,通過固定生成網絡參數訓練判別網絡和訓練生成網絡,每次循環迭代都會促使生成網絡和判別網絡互相對抗和進化,直至生成模型GθG。
SRGAN算法引入了感知損失函數lSR。
內容損失利用感知相似性原理,將重構圖片和目標圖片輸入VGG19模型,得到特征圖的歐式距離[7],達到重構細節,提升視覺感知的目的。
式中:Wi,j、Hi,j——VGG19網絡中各自特征圖的維度;Φi,j——第i個最大池化層前的第j個卷積層(經過激活層后)獲得的特征圖。
表示達到生成更接近真實圖片,提高通過判別網絡輸出預測為真實圖片的概率:
為獲得更好的梯度行為,對判別網絡將生成的圖片認為是真實圖片的概率DθD(GθG(ILR))的對數取負值,即最小化-logDθD(GθG(ILR))。
生成網絡的作用是由低分辨率圖片ILR生成超分辨率重構圖片ISR。SRGAN采用添加批標準化層和建立跳躍連接方式,復原 超分辨率圖片信息。
將低分辨率票據圖片輸入生成網絡后,經過一個卷積核尺寸為9×9、通道數為64、步長為1的卷積層和PReLU激活函數層。再經過一個殘差網絡,每個殘差模塊包含2個卷積核尺寸為3×3、通道數為64、步長為1的卷積層。其中,第一個卷積層后連接批標準化和PReLU激活函數,第二個卷積層后連接批標準化和逐點相加層,多個殘差模塊進行跳躍連接完成特征提取。然后進入一個卷積核尺寸為3×3、通道數為64、步長為1的卷積層以及批標準化處理,同時將第一個殘差模塊之前的參數與當前參數連接。接著連續經過兩個卷積核尺寸為3×3、通道數為256、步長為1的卷積層,將輸入圖片尺寸擴大至2 倍的上采樣模塊(PixelShuffler×2) 和PReLU激活函數。再經過一個卷積核尺寸為9×9、通道數為3、步長為1的卷積層調整圖片的通道數。最終輸出一張將輸入圖片尺寸放大4倍的超分辨率重構票據圖片,提升了分辨率。
與生成網絡不同,判別網絡是判斷輸入票據圖片的真實性。首先,輸入一張真實的高分辨率票據圖片或生成的超分辨率重構票據圖片;其次,經過一個卷積核尺寸為3×3、通道數為64、步長為1的卷積層和Leaky ReLU激活函數層,連接一個標準的VGG網絡;特征個數隨著網絡層數的增加而增加,特征尺寸持續減小至輸入圖片的1/16,從而降低圖片分辨率;再次,經過一個全連接層和Leaky ReLU激活函數;最后,經過一個全連接層和Sigmoid激活函數層得到預測為真實票據圖片的概率并輸出判定結果。
1.2.1 生成網絡的損失函數
為生成對抗模型,使用mini-batch方法,即從工程造價票據訓練數據集中隨機選出一定數量的數據,優化生成網絡參數θG。
式中:GθG()——生成網絡輸出的超分辨率重構票據圖片,即上文ISR;——真實的高分辨率圖片數據集;——高分辨率圖片對應的低分辨率副本圖片數據集。n=1,2,…,N。
此外,當損失函數最小時判別網絡無法成功識別生成的票據圖片的真假。
由式(3)可知,可以通過VGG19網絡計算超分辨率圖片(SR)與高分辨率圖片(HR)特征圖之間的損失。使用式(4)可以避免因判別網絡訓練效果較好導致生成網絡出現梯度消失的問題,達到生成網絡生成的票據圖片接近真實票據圖片,實現提高輸出預測為真實票據圖片概率的目的。
1.2.2 判別網絡的損失函數
SRGAN所用判別網絡的作用是判斷輸入的工程造價票據圖片是否真實,使用的訓練集為真實的工程造價票據高分辨率圖片和由生成網絡生成的超分辨率重構票據圖片。
式中:DθD(ILR)——判別網絡評估真實票據圖片的概率;DθD(GθG(ILR))——判別網絡將生成的圖片認為是真實圖片的概率;Ep(IHR)[logDθD(ILR)]——采樣自真實票據的輸入數據。
最大化DθD(ILR)令判別結果趨近于1,則有logDθD(ILR);最小化DθD(GθG(ILR))令判別結果趨近于0,即1-DθD(GθG(ILR))的值盡可能趨近于1時,有log(1 -DθD(GθG(ILR)))趨近于0。
因此,訓練判別網絡需要保證生成網絡不變,輸入票據圖片經過判別網絡后將輸出一個得分,得分越趨近于1則判別為真實票據,反之為非真實票據。判別網絡可以較準確地辨別由生成網絡生成的工程造價票據圖片。
為了實現網絡的迭代訓練,構建了由300張工程總造價票據構成的數據集,對網絡進行了200次的迭代訓練,得到了相應的訓練和預測結果。使用VGG19網絡獲得了VGG loss,引入動態學習率使網絡在擬合過程中保持較好的活性,將初始學習率和最大學習率設置為0.000 2和0.002 0。為了實現目標函數的快速擬合,引入了余弦退火(COS)算法。考慮文章構建的工程票據數據集樣本數量規模較大,引入適應性矩估計(Adam)優化算法,將動量參數(momentum)設置為0.9。
損失函數隨迭代次數的變化情況如圖1所示。
由圖1可知,在網絡訓練的200次迭代過程中,網絡的全局損失函數均呈現下降趨勢。特別是判別網絡在后期下降趨勢明顯,表明使用的COS算法及Adam優化器能夠使網絡得到快速擬合。
此外,生成網絡的全局結構相似性指標隨迭代次數線性遞增,表明生成網絡生成的超分辨率圖片與其對應的高分辨率圖片的相似性隨網絡迭代次數而增加,并在100次后趨于穩定,這與圖中生成網絡的全局損失變化基本一致,驗證了試驗的真實性。
票據圖片經超分辨率重構前后圖像對比如圖2所示。
由圖2可知,以機打的備注信息為例,通過對比可以觀察到圖中數字的清晰度在經過超分辨率重構后,圖像邊緣更清晰,色澤飽和度更高。工程造價票據圖片在分辨率提升4倍后,仍能保持良好的細節視覺感知度。字體在經過超分辨率重構后,字體線條更銳利且與票據背景邊界分離清晰,表明SRGAN網絡能夠提高票據圖片的清晰度和細節,實現文字識別系統對圖像特征的有效提取。
票據圖片上采樣4倍前后對比效果如圖3所示。

圖3 票據圖片上采樣4倍前后對比效果
圖3(a)中機打文字部分字跡模糊,肉眼辨識較為困難,為后續的工程造價信息自動化讀取帶來挑戰。圖3(b)中相同位置的文字較清晰,表明無論是票據模板本身的印制文字,還是機打的工程造價文字信息,票據圖片在經過SRGAN網絡預測后,均能夠有效地提升圖像素質。
文章利用SRGAN超分辨率網絡能夠實現低分辨率圖像的超分辨率重構,將其應用于提高低分辨率工程造價票據圖片的分辨率及圖片細節的肉眼感知度。結果表明,SRGAN能夠有效改善低分辨率工程造價票據在印制文字、機打文字及手寫文字方面的清晰度,為票據特征識別提供有效的預處理方法。