董浪 李發(fā)海 魏孟濤


摘 要:為維護用戶版權(quán),提高圖片文字的輸入速度,本文提出了“GAN+CTPN+CRNN+CTC”的水印去除文字識別技術(shù),經(jīng)過GAN去除圖片中的水印,然后通過CTPN對圖片中的文字進行檢測,最后通過CRNN和CTC進行文字的預測和識別。實踐證明,該研究提高了帶水印圖片的文字識別效率。
關(guān)鍵詞:水印去除;文字識別技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們選擇網(wǎng)絡(luò)辦公逐步成為主流,時長會涉及到圖片的發(fā)送,因為版權(quán)和原創(chuàng)性的原因,這些圖片被賦予了水印。隨著水印技術(shù)的廣泛應用,各種去水印技術(shù)在網(wǎng)上魚龍混雜,如何準確有效的提取水印下的文字內(nèi)容,正在成為越來越多學者的研究方向,受到學術(shù)界和工業(yè)界的普遍重視[1]。
本文研究了一種以生成對抗網(wǎng)絡(luò)(GAN)、文字檢測(CTPN)和(CRNN+CTC)模型來針對水印環(huán)境情況下如何進行文字提取的技術(shù)。
一、總體設(shè)計與實現(xiàn)
文字識別技術(shù)是計算機視覺研究領(lǐng)域的一個重要分支,被廣泛應用于票據(jù)的提取,證件的識別以及人工智能等領(lǐng)域。然而識別環(huán)境的復雜多變導致了識別的文字數(shù)據(jù)往往不可靠,圖片水印就是其中之一。
應對水印下的文字識別采用GAN網(wǎng)絡(luò)來達到去水印的目的。相對于普通的神經(jīng)網(wǎng)絡(luò)而言GAN采用兩個不同網(wǎng)絡(luò)模型進行對抗性訓練,而且G的梯度的信息來自于判別器而并非數(shù)據(jù)的樣本集。再將去除水印的圖片利用CTPN定位文字的位置達到文字檢測的效果,最終使用CRNN模型端對端的識別文字的序列。CRNN模型是一種簡單高效的文字識別模型,該模型由圖片特征提取層(CNN)提取圖像卷積特征,然后序列化建模層(RNN)使用BiLSTM進一步預測圖像卷積特征中的序列特征,最后引入解碼層(CTC)對齊輸出的文本。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,它可以直接從序列標簽中學習,而無需詳細標記;不再需要預處理步驟和手工特征;易于部署,結(jié)構(gòu)簡單,適用于文本長度變化較大的生產(chǎn)環(huán)境。CRNN模型是目前流行的圖形識別模型,可以識別較長的文章序列。它使用諸如BLSTM和CTC之類的組件來理解文章圖形中的上下文,從而有效地提高了文章識別的準確性,并使建模更加健壯。CRNN是一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),一般用于處理基于圖像的序列信息識別問題,但更多地用作場景文本識別問題。
輸入的圖片通過GAN層進行水印的去除,將所得到的去除水印后的圖片作為CTPN層的輸入,在CTPN中輸入的圖像進行文字的檢測,將所得到的序列特征信息作為CRNN層的輸入,在CRNN層對特征序列信息進行識別,并在CTC中找到概率最高的一組組合標簽序列并將其進行預測輸出,實現(xiàn)原理圖如圖1所示。
(一)GAN去水印模型
GAN是一種訓練生成式的新的模型方法,包含兩個”對抗”模型,生成器模型和判別器模型[2]。生成器模型:用于進行數(shù)據(jù)的捕捉分布;判別器模型:用來進行判別樣本來自真實數(shù)據(jù)而并非生成的樣本的概率。
在GAN中輸入一張帶有水印的圖片,輸出則為不帶水印的圖片。判別器(D)用于判別是原始無水印圖片還是生成器(G)生成無水印圖片。在兩者不斷地對抗訓練的過程中,可以使得生成器(G)產(chǎn)生的無水印的圖片達到以假亂真的效果,從而達到去除水印的效果。對GAN生成器(G)和判別器(D)增加額外信息(y)并作為輸入層的一部分。對生成器(G)中將輸入噪聲p(z)和條件信息(y)聯(lián)合組和形成聯(lián)合隱層表征。
(二)CRNN+CTC文字識別
CRNN作為一種新型的神經(jīng)網(wǎng)絡(luò)模型,它結(jié)合了CNN、RNN和CTC三個網(wǎng)絡(luò)模型,主要用于對可變長度文本序列進行端到端的識別。CNN用于對輸入圖像的卷積特征提取并得到特征圖;雙向的RNN(BLSTM)用于對CNN輸出的特征序列進行預測,得到特征向量的標簽分布;CTC用于將RNN所獲得的標簽進行轉(zhuǎn)化,并確定最終的結(jié)果。
1、CTC卷積層。CRNN卷積層由標準CNN和最大池化層兩部分所組成,能夠?qū)斎雸D像的特征序列進行自動提取。與標準CNN不同的是,CRNN卷積層會保證圖像的寬度不變。
在卷積層中一共有四個最大池化層,其中最后兩個池化層窗口為1×2。也就是將圖像的高度減半4次,而寬度減半2次。由于大多數(shù)圖像高度較小而寬度較長,因此feature map也是一個與之相對應的矩形。同時隨著Batch Normalization模塊的加入使得模型快速進行收斂,從而減少模型的訓練過程。
2、CTC。CTC負責每一幀的預測,從而找到概率最高的一組標簽序列。端到端OCR的難點在于對不定長序列的處理的。RNN識別后輸出的定長序列,在對該序列進行識別時可能出現(xiàn)信息的冗余和信息的丟失。所以我們需要一套行之有效的方法來解決識別過程的冗余機制,而CTC的blank機制恰好能夠較好的解決此問題。
二、實驗
本次實驗的數(shù)據(jù)集是通過人工手動添加水印進行制作的100張帶有水印的照片,其中70張圖像作為訓練集,30張圖片作為測試集,實驗最終準確率可達到76.67%。
在實驗的過程中將原始圖片作為輸入,經(jīng)過GAN進行照片水印的去除,然后在通過CTPN進行文字的檢測,最終通過CRNN和CTC進行文字的識別輸出,如下圖3所示.
三、結(jié)語
本實驗采用自制的100張數(shù)據(jù)集進行訓練,通過GAN、CTPN、CRNN以及CTC從而實現(xiàn)端到端的圖片文字識別,將圖片中不定長度的文字作為一個整體,對改區(qū)域進行文字的預測識別,并返回該該區(qū)域文字的內(nèi)容。在訓練后該模型的識別率可以較為穩(wěn)定的達到76.67%。在后續(xù)我們將進一步對該模型的參數(shù)進行調(diào)整以及訓練數(shù)據(jù)集的豐富,從而達到更好的識別效果。
參考文獻:
[1] 張婷婷, 馬明棟, 王得玉. OCR文字識別技術(shù)的研究[J].計算機技術(shù)與發(fā)展, 2020, 30(4):4.
[2] 曹仰杰, 賈麗麗, 陳永霞,等. 生成式對抗網(wǎng)絡(luò)及其計算機視覺應用研究綜述[J].中國圖象圖形學報, 2018, 23(10):17.
作者簡介:董浪(2000-),男,漢族,湖北省大冶市人,本科,研究方向:人工智能、深度學習。
資助項目:2022年湖北省大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(編號DC2022032)