張開生,李旭洋
陜西科技大學電氣與控制工程學院,西安710021
隨著國內經濟的迅速發展,近五年來我國國內現金流通量年均增速為5.9%,在各類交易流通中現金量仍然呈上升趨勢[1]。根據艾媒數據(iiMedia Research)的一項關于我國居民外出使用現金交易情況的調查結果顯示,截至2020 年我國四十歲以上人群中使用現金進行交易的人數占比達72.1%;五十歲以上人群中使用現金進行交易的人數占比高達93.6%?,F金流通量和需求量的不斷提升造成現金流通管理壓力不斷增大,為了確保國家發行的紙幣得到良好的監督和管理,紙幣的序列號承擔著重要的角色:一是國庫和銀行需要通過紙幣序列號進行數據統計。鈔票由一些指定的印刷廠生產后,先要將其存儲到國庫中,隨后發放到不同的銀行或金融機構,以便在市場上正式發行流通。在國庫接收印鈔廠印制好的鈔票前,工作人員需要統計各類型紙幣的序列號范圍,以便明確不同種類的紙幣的總數以及紙幣的總價值;二是當國庫或銀行發現一些已經銷毀或者受損嚴重因而無法正常使用的紙幣時,需要根據上述紙幣的序列號通知印鈔廠重新印制相同序列號的紙幣[2]。三是公安機關及有關部門需要通過紙幣序列號對走私、洗錢、金融詐騙等違法犯罪行為進行調查[3]。四是隨著數字信息技術的不斷進步和完善,為了完善貨幣的追蹤溯源機制,紙幣交易和數字貨幣交易將以紙幣序列號為線索聯系起來,將交易數據有機融合形成大數據,為貨幣溯源機制提供數據依據[4]。因此,開展紙幣序列號識別技術的研究具有重要意義。
紙幣序列號的識別任務主要是利用文字識別技術(optical character recognition,OCR)進行處理。該技術涉及文本檢測和文本識別兩個階段:首先,通過光學技術和計算機技術對獲取到的紙幣圖像中的序列號區域進行檢測,然后識別出圖像中的文字內容。自1980 年以來,研究人員已經針對該領域的各種問題開發出了許多識別系統。LeCun等人[5]首次將反向傳播算法應用于手寫體數字的識別過程中,提升了識別的泛化能力,識別準確率達到93%,而該方法在識別復雜背景文本時效果較差。Nakayama 等人[6]提出了一種基于神經網絡的新模式識別方案,通過在標準圖案中添加典型的手寫字符,提升了復雜背景下文本識別的準確率?;谏窠浘W絡的方法[7-8]開啟了文本識別的新階段。卷積循環神經網絡(convolutional recurrent neural network,CRNN)[9]集成了卷積神經網絡(convolutional neural networks,CNN)和循環神經網絡(recurrent neural network,RNN)來執行文本識別。然而上述識別方法由于神經網絡結構在長距離依賴問題上的局限性,導致其僅能針對水平排列的規則文本進行識別。
實際上,在各種紙幣流通的各類典型場景中,由于紙幣的材質序列號區域經常受到污染、損壞或折疊,如圖1 所示,導致該區域被部分遮擋或是變形,加之環境光線以及拍攝角度等問題,在識別過程中,紙幣序列號區域呈現出邊界框扭曲變形、字符大小不一致的不規則文本特點,極大地影響了OCR 識別技術的識別精度和識別效率。因此需要一種不規則文本識別方法,有效識別不規則排列的紙幣序列號,減少人工的工作量,進一步提升原有紙幣識別系統的識別效率和應用范圍。

圖1 受到污損或折疊的紙幣示意圖Fig.1 Illustration of defaced or folded banknotes
然而現行的不規則文本識別方法多數是在基于神經網絡的規則文本識別方法基礎上進行改良得到:TextBoxes[10]在卷積神經網絡的基礎上提出了一種場景文本檢測器,通過使用旋轉框和四邊形并結合回歸模型或損失函數實現任意方向的四邊形文本檢測,但對扭曲文本的檢測效果不佳;EAST[11]則是直接預測圖像中任意方向的四邊形邊框單詞或文本行,省去了不必要的中間步驟,但受限制于網絡結構,無法實現長文本識別;CRAFT[12]基于VGG-16全卷積網絡體系結構設計,通過檢測每個字符之間的親和力來確定任意形狀的文本區域,但檢測過程中需要成本高昂的字符級注釋和后處理步驟;Wang 等人[13]提出了一種具有自適應文本區域表示的場景文本檢測方法,但僅限于RNNs 的順序解碼;近期提出的ABCNet[14]和ABCNet v2[15]方法通過參數化的貝塞爾曲線自適應地擬合定向或彎曲的文本邊界框,雖然提高了檢測性能與適用范圍,但該方法無法適應由于紙幣序列號區域嚴重扭曲變形后產生的邊界框定位問題。為了提升不規則文本邊框定位能力,TextDragon[16]圍繞文本中心線生成多個局部四邊形,并使用RoISlide操作來在文本實例內進行特征扭曲和聚合。盡管不需要字符級別的監督,但它仍然需要執行中心線檢測,并進行相應的分組和排序,以將四邊形轉換為多變形文本邊界;Qin 等人[17]提出了一種感興趣區域屏蔽的方法通過將分割概率圖與特征相乘以降低背景對文本識別的影響,但仍需要相應的后處理操作才能完成識別任務。
為了應對更加復雜的不規則文本識別需求,現行的不規則文本識別模型在加入了大量的感興趣區域操作和后處理步驟后使得模型結構愈加復雜,同時應用于文本識別的神經網絡結構在長距離依賴問題上的局限性也并未通過上述模型的提出而得到徹底的解決。另一方面,由于序列號本身的格式特點在經過扭曲變形后會產生大量尺度不一的文本信息,進一步限制了部分識別模型的識別精確度,因此文本識別模型需要精確度更高的多尺度文本特征信息提取能力。
針對上述問題,隨著Transformer[18]在語言處理[19]和計算機視覺[20]領域得到越來越多的應用和實驗,特別是SRN[21]和NRTR[22]在文本識別任務上的良好表現,進一步證明了Transformer 在文本識別任務上的應用前景。Transformer的結構可以在特征提取部分關注全局信息,通過替換額外的上下文建模模塊有效解決神經網絡存在的弊端,同時可以避免冗雜的感興趣區域操作和后處理步驟,簡化了模型的復雜程度。然而僅通過經典的Transformer結構設計不規則紙幣序列號識別方法時,會出現由于其多頭注意力機制在處理不規則紙幣序列號文本特征圖時提取多尺度特征的局限性,導致的模型收斂速度慢和特征空間分辨率有限的問題。基于此,針對目前不規則紙幣序列號文本識別問題展開研究,采用線陣相機搭建紙幣序列號檢測識別系統,并提出一種結合多尺度可變形注意力和Transformer 模型(multi-scale deformable attention Transformer,MDATR)的紙幣序列號識別方法,在統一框架中執行文本檢測和識別,有效規避神經網絡處理文本識別任務時的局限性和經典模型結構過于復雜的問題,改進經典Transformer 結構的注意力機制模塊以提升方法的多尺度文本特征提取能力。對需要檢測的紙幣序列號進行高效的定位檢測和識別。主要貢獻如下:
(1)在編解碼器的設計過程中,引入了多尺度可變形注意力模塊。通過減少對骨干網絡輸出特征圖的采樣點個數,很大程度上降低了模型的計算成本,加快模型的計算速度。另一方面,多尺度可變形注意力模塊能夠充分利用多尺度特征圖中的信息,從而獲取到各類使用場景中豐富的紙幣序列號文本信息。
(2)在不規則序列號文本的定位階段,采用了一種多邊形邊界框檢測機制,將編碼器階段輸出的特征圖信息經過候選框生成器標記出特征圖中序列號文本的粗邊界框,使用位置編碼模塊對粗邊界框進行編碼后,輸入位置解碼器訓練不規則序列號邊界框控制點坐標回歸,進而引導邊界框的檢測,確定最終的序列號文本邊界框。
(3)實驗結果表明,對于紙幣序列號文本圖像,MDATR能夠有效識別受折疊扭曲或污損遮擋的不規則序列號文本,同時與主流識別模型相比對規則序列號文本的識別表現良好,其在統一框架下檢測與識別任務的處理方式能有效提升網絡的推理速度。
紙幣序列號檢測識別系統主要由4部分組成,圖像采集單元、圖像處理單元、運動控制單元和機械結構單元。系統總體結構如圖2所示,紙幣首先通過帶有可調光源的攝像頭,得到連續的模擬信號。圖像采集卡將模擬信號轉換為數字信號并將圖像傳輸到計算機。通過MDATR 算法處理圖像并對紙幣的序列號進行檢測識別。最后將結果輸出到監視器,同時檢測結果也將傳輸到目標參數輸出接口,以供計算機使用。

圖2 系統總體結構圖Fig.2 Illustration of system overall structure
圖像采集單元主要由CCD相機、可調節光源、圖像采集卡等組成。CCD 相機為DALSA 公司的Spyder3 Color 系列雙線CCD 線陣工業數字攝像機。該系列使用DALSA 獨有的雙線掃描傳感器(dual-line sensor),通過雙線彩色(biliner color)技術將線陣傳感器上的一條線交替感應R、B 分量信息,另一條線感應G 分量信息,然后以插值的方法得到每個像素的RGB 分量信息。該系列相機采用Camera Link串行接口,傳輸距離可達100 m。光源對于產生合理“均勻”的、無反射的直射光線以供CCD 相機使用至關重要。因此,本系統選擇FOSTEC燈,一種可調節的光源來滿足這一要求。圖像采集卡選用美國NI公司生產的PCI-1411圖像采集卡。該卡有兩路輸入RS-170/NTCS和CCIR/PAL模式,可以輸出同色、RGB、HSL格式的圖像,支持單幀和序列幀。
圖像處理單元主要由計算機組成。整套系統由計算機控制,通過可編程邏輯陣列(field programmable gate array,FPGA)[23]發送各種信息來控制電機與相機配合采集出紙幣序列號區域的完整圖像,將其輸入檢測算法并給出獲得檢測結果。
運動控制單元由兩個電機以及FPGA組成,分別控制著軸承的進入與軸承的旋轉,通過FPGA 給出觸發信號,精準控制圖像采集時間與觸發頻率。FPGA 采用Altera公司Cyclone 1V系列中的EP4CEl0資源,它具有10 320 個邏輯單元(LEs)、46 個M9K 存儲器模塊,每個模塊都具有9 kb的嵌入式SDRAM存儲器,并且可以根據需要配置成單端口、雙端口RAM以及嵌入式FIFO存儲器或者ROM;還具有8個PLL、10個全局時鐘網絡,可以滿足不同模塊的時鐘頻率。有23 個嵌入式18×18乘法器,可以實現DSP處理密集型應用。
機械結構單元包含外箱體、傳送帶、傳動輪和傳動軸,是檢測系統實現圖像采集的核心部件,決定該系統運行效率與檢測精度。傳送帶、傳動輪和傳動軸構成傳動機構,在電機的驅動下傳送帶和傳動輪將動力傳送給各個傳動軸,使得傳動機構穩定運轉配合相機完成紙幣序列號圖像的采集工作。
如圖1所示,與一般圖像不同,受到折疊、損壞或污損影響的紙幣序列號區域會產生扭曲變形和遮擋的問題,導致采集到的該區域圖像具有更復雜的表現形式,通常不會以水平的規則文本的形式出現。因此結合多尺度可變形注意力機制提出基于Transformer的MDATR方法,對多種情況下的紙幣序列號文本進行檢測識別,算法流程示意圖如圖3所示。首先,編碼器在輸入圖像上執行多尺度可變形注意力機制,并且通過引導生成器從特征圖中生成粗糙的邊界框。這些邊界框被編碼并添加到可學習的控制點查詢嵌入之上,以指導控制點的學習??刂泣c查詢通過位置解碼器和前饋網絡(feedforward network,FFN)[24]進行饋送,以預測序列號邊界框坐標。字符解碼器以位置解碼器的共享參考點作為多尺度交叉注意力機制的輸入,為相應的序列號文本預測字符。

圖3 MDATR算法流程示意圖Fig.3 Schematic diagram of flow of MDATR algorithm
編碼器的結構如圖3所示,輸入圖像首先通過骨干網絡減小通道維數,輸出特征圖。由于編碼器的輸入一般為序列形式,因此需要將得到的特征圖的空間維度降低為一維,進而得到低緯特征圖作為編碼器的輸入。編碼器中的每一層都由一個多尺度可變形自注意力機制模塊、一個前饋網絡以及相應的層歸一化組成。另外,由于Transformer 體系結構是空間不相關的,因此需要采用固定位置編碼[25-26]對其進行補充,這些位置編碼將被添加到每個注意力層的輸入中。
現階段文本識別任務中的一個首要問題是獲取到的文本圖像中普遍存在多尺度文本信息,這導致文本的檢測識別系統需要準確、有效地處理多尺度文本信息,在紙幣序列號的識別任務中也存在同樣的問題?,F階段的相關文獻中,大多數研究人員嘗試通過利用多尺度特征圖(multi-scale feature map)來克服這一障礙實現對小尺寸文本的準確識別。例如,在所提出的方法中采用特征金字塔網絡(feature pyramid networks,FPN)[27]有效識別多尺度文本信息,然而卻由于繁雜的中間處理過程增加了模型結構的復雜度。
在開發基于Transformer 的文本識別模型時同樣利用多尺度特征圖來應對這一問題,與先前的研究方法不同的是,常規的Transformer 結構中一般使用多頭注意力機制處理特征圖,多頭注意力機制可被定義為式(1)所示:
其中,q∈Ωq為具有表示特征zq∈?C的查詢元素,k∈Ωk為具有表示特征xk∈?C的鍵值元素,C為特征維數,Ωq和Ωk分別表示查詢元素集合和鍵值元素集合;h表示注意力頭,Wh和W′h為可學習權值,Ahqk為注意力權值。然而,常規的多頭注意力機制在處理特征圖的過程中,可能會查看特征圖中所有可能的空間位置,導致大量查詢和鍵值元素的產生,最終使得多頭注意力機制的計算復雜度升高。
為了應對常規多頭注意力機制處理特征圖中存在的問題,研究人員引入了可變形注意力機制,無需關注特征圖的所有空間位置,只需要關注參照點周圍的一組關鍵采樣點,可變形注意力機制可被定義為:
其中,k表示采樣個數,K表示采樣總個數,Δphqk和Ahqk分別表示第h個注意頭中第k個采樣點的采樣偏移量和注意力權重。可變形注意力機制通過為每個查詢只分配少量固定數量的鍵值,可以有效減輕收斂和特征空間分辨率的問題。
本文的研究中為了能夠高效利用系統所采集圖片中的多尺度特征信息,在編碼器設計中采用可變形注意力機制并進行擴展,引入多尺度可變形注意力機制模塊,其結構示意圖如圖4所示。

圖4 多尺度可變形注意力機制示意圖Fig.4 Illustration of multi-scale deformable attention
與一般的注意力機制不同點在于,該模塊能夠聚合多尺度特征,不需要對特征圖中H×W個點進行采樣,而是對檢測目標參照點周圍的L×K個點進行采樣,這在很大程度上既降低了計算成本還能夠充分利用特征圖中的多尺度信息,加速模型收斂。具體地,給定一組L層的多尺度特征圖,其中,為查詢q的參考點歸一化坐標,多尺度可變形注意力機制可表示為:
其中,h、l、k分別是注意力頭、輸入特征圖層數和采樣點的鍵值。Amlqk表示查詢q的注意力權重,針對K個采樣點進行歸一化。?l表示將歸一化坐標映射到第l層特征圖的比例,ΔPhlqk表示為查詢q生成適當的采樣偏移量,將它們二者相加以形成特征圖Fl的采樣位置。Wh和W′h是可訓練的類似于多頭注意力機制中的權重矩陣。
紙幣序列號識別任務中的文本邊界框控制點坐標和相應的字符預測可統一看作集合預測問題。即給定一張圖像G,系統需要輸出一組文本邊界框控制點坐標以及字符,定義為。其中g是每個文本的索引,表示文本的N個初始邊界框控制點坐標,表示文本的M個字符。為了在同一框架中實現預測,在本文所提出的模型中同時利用兩種適用于預測不同模態的解碼器來解決這一問題,兩個解碼器分別是用于文本邊界框位置檢測的位置解碼器和用于字符識別的字符解碼器。
2.2.1 位置解碼器
為了準確預測每個文本實例中的序列號邊界框控制點坐標,擴展傳統的Transformer 中的查詢為復合查詢。假設有Z個這樣的復合查詢,每個復合查詢中的各個查詢元素各自對應一個文本實例。其中的每個查詢元素又由子查詢組成,即:另一方面,為了能夠應對可能出現的同時識別多個序列號的任務需求,通過結構化的方式獲取到不同文本實例之間以及單個文本實例之間的不同子查詢之間的關系,所設計的位置解碼器中引入了分解自注意力機制[28],該機制示意圖如圖5 所示。分解自注意力機制首先在各查詢元素內部子查詢之間運行內部關聯自注意力機制,然后在各查詢元素之間運行相互關聯自注意力機制。內部關聯自注意力機制利用部分的上下文信息進行關系預測,例如,主題查詢和對象查詢分別是“人”和“車”有助于預測謂詞“駕駛”。相互關聯自注意力機制則是利用上下文信息,增強每個圖像的整體關系預測,這對于針對同一文本實例的多個交互檢測特別重要。

圖5 因式分解自注意力機制示意圖Fig.5 Illustration of factorized self-attention
初始控制點查詢被反饋到位置解碼器。經過多層解碼,由預測置信度的分類頭和輸出每個控制點坐標的2通道回歸頭得到最終控制點查詢預測結果。
這里預測的控制點可以是N個多邊形頂點,也可以是貝塞爾曲線的控制點。對于多邊形頂點,可以使用從左上角開始并按順時針順序移動的序列;對于貝塞爾控制點,可以使用伯恩斯坦多項式[29]構建參數曲線:
其中,伯恩斯坦多項式定義為:
對單個序列號文本可以使用兩條三次貝塞爾曲線,對應于文本的兩個可能彎曲的邊,隨后通過跨t采樣將貝塞爾曲線轉換回多邊形。
2.2.2 多邊形邊框檢測機制
紙幣序列號識別任務的集合預測問題通過解碼器部分進行數學建模,其貝葉斯推理過程為:P(Y|I)∝P(I|Y)P(Y),其中P(I|Y)通過交叉注意力機制獲取到查詢和輸入之間的關系,P(Y)則通過自注意力機制模擬Y的先驗配置。然而當Y很復雜,即文本呈現出不規則排列時,在復合查詢的情況下P(Y)很難學習。因此,為了避免這一情況,在模型中引入一種多邊形邊框檢測機制,通過檢測并使用文本實例的粗邊界框來指導系統進行文本多邊形邊界的檢測。這個過程利用與具體序列號圖像G相關的信息形成特定于輸入的先驗知識,有助于控制點坐標回歸的訓練。
多邊形邊框檢測機制如圖6 所示。由編碼器輸出的特征圖作為輸入傳輸到候選框生成器中,作為多邊形邊框檢測機制的核心,候選框生成器針對特征圖檢測出可能是文本的內容,進而輸出文本的粗邊界框坐標及其概率,并篩選出概率最高的前Z個框,其坐標表示為隨后由位置編碼模塊結合粗邊界框坐標進行編碼并將結果添加共享字符查詢嵌入輸入到位置解碼器,最終得到序列號文本的邊界框預測結果。

圖6 多邊形邊框檢測機制示意圖Fig.6 Illustration of polygon detection process
基于此,初始控制點查詢可進一步表示為:
其中,φ(α(g))作為粗邊界框的位置編碼結果,在單個序列號文本的N個子查詢之間共享,對序列號文本的整體位置和規模進行建模;α(g)作為因式分解自注意力機制的初始參考點;(b1,b2,…,bn)是控制點查詢嵌入,在Z個查詢中共享,對與特定邊界框位置無關的控制點之間的一般關系進行建模;在位置編碼模塊,候選粗邊界框經過正弦位置編碼φ(?),隨后經過線性化和層歸一化處理,結合共享控制點查詢嵌入輸入到位置解碼器,最終得到精確的多邊形邊界框。
2.2.3 字符解碼器
字符解碼器的設計思路類似于位置解碼器,其中位置解碼器的控制點查詢被字符查詢取代。初始字符查詢包括可學習的字符查詢嵌入和一維正弦位置編碼,并在不同的文本實例之間共享。具有相同索引的字符查詢和控制點查詢屬于同一個文本,因此多尺度可變形注意力機制的參考點是共享的,以確保從圖像中獲得相同的上下文特征信息。分類頭負責接收最終的字符查詢并在多個字符類中進行預測。
為了進一步驗證所提出的紙幣序列號檢測識別方法MDATR模型的有效性,通過所搭建的紙幣序列號檢測識別系統采集一定數量的人民幣序列號圖像,同時結合韓元和日元的紙幣序列號圖像數據組成本次實驗的數據集。
考慮到所設計的紙幣序列號檢測系統的可移植性以及實際應用中的場景復雜性,為更加全面地驗證所提出的方法的性能,實驗過程中所使用的人民幣、韓元和日元紙幣等9 組數據集中包括:扭曲變形、受到污染的紙幣序列號區域圖像,即不規則紙幣序列號圖像,相對平整的紙幣序列號區域圖像,即規則紙幣序列號圖像,以及應用場景中的紙幣序列號區域圖像。具體地,數據集A 至數據集D 為不規則排列或受污損的紙幣序列號圖像,數據集E至數據集H為規則排列的紙幣序列號圖像,數據集I為應用場景中的紙幣序列號圖像,該數據集圖像包括但不僅限于實際應用場景中的紙幣序列號文本呈現出的扭曲變形、旋轉、文本模糊、陰影遮擋以及大小不一等特點。圖7為每組數據集中典型圖像的示意圖。

圖7 紙幣序列號圖像數據集示意圖Fig.7 Illustration of image dataset of banknote serial numbers
在前四組數據集中:數據集A 包含面值為1 000 日元和5 000日元的紙幣,數據集B包含面值為2 000日元和10 000 日元的紙幣。數據集C 包含面值為1 元、5 元人民幣的紙幣,數據集D 包含面值為50 元人民幣的紙幣;在后四組數據集中:數據集E包含面值為1 000日元的紙幣,數據集F包含面值為2 000日元的紙幣,數據集G包含面值為10 000韓元的紙幣,數據集H包含面值為1 元和5 元人民幣的紙幣。數據集I 包含面值為1 元、5元和50元人民幣的紙幣。其中,數據集A中有6 860個訓練數據和1 000個測試數據;數據集B中有5 670個訓練數據和1 780個測試數據;數據集C中有5 100個訓練數據和1 900個測試數據;數據集D中有4 900個訓練數據和1 890 個測試數據。數據集E 中有5 600 個訓練數據和1 010個測試數據;數據集F中有5 500個訓練數據和1 880個測試數據;數據集G中有5 020個訓練數據和1 910 個測試數據;數據集H 中有5 200 個訓練數據和1 620 個測試數據;數據集I 中有2 009 個訓練數據和1 000個測試數據。
為了評價MDATR對紙幣序列號的識別性能,本文采用了幾個主流的評價基準來評估所提出識別方法中模型的性能,主要包含:精確率(Precision)、召回率(Recall)和F值(F-Measure)。這些評價指標定義如下:
其中,TP(true positive)表示預測正確的正類的數目,TN(true negative)是分割正確負類數目,FP(false positive)是指預測錯誤的正類數目,FN(false negative)表示預測錯誤的負類數目。
精確率(Precision)是指模型正確預測為正的占全部預測為正的比例。召回率(Recall)是識別正確的正例占總的正例的比重。F 值(F-Measure)是為了避免精確率(Precision)和召回率(Recall)出現相矛盾的情況而設計的綜合評價指標,即精確率(Precision)和召回率(Recall)的加權調和平均值。以上三個指標的數值越大代表預測效果越好。運算的速率方面采用了每秒的傳輸幀節數(frames per second,FPS)作為衡量指標。
二分匹配。由于模型輸出固定數量的預測結果,并且與文本實例的實際數量G不符,因此需要得到二者之間的最佳匹配來計算損失。具體地,需要得到函數σ使得匹配成本Cm最小,即:
其中,Y(g)是真值(ground truth),Y(σ(g))是匹配的預測結果。為了進一步提升處理效率,使用控制點坐標來指導字符解碼的學習。因此,匹配成本被定義為置信度和坐標偏差之和。對于第g個文本實例及其匹配的第σ(g)個查詢,其匹配成本函數定義為:
式(11)中的第二項是真值(ground truth)坐標和預測控制點坐標之間的L-1 距離。
式(10)中使匹配成本最小的問題可以利用匈牙利算法[31]有效地解決。使用相同的二分匹配的方法將候選框生成器中的候選框與作為控制點邊界框的真值(ground truth)進行匹配。
文本實例分類損失。采用焦點損失函數作為文本實例的分類損失。對于第g個查詢,損失函數定義為:
其中,Im( )
σ是映射函數σ的圖像。
控制點損失。L-1 距離損失用于控制點坐標回歸:
字符分類損失。將字符識別視為一個分類問題,其中每個類都分配了一個特定的字符。本文中使用交叉熵損失函數:
解碼器的損失函數包括上述三個損失:
邊界框中間監督損失。為了使多邊形邊界框檢測機制中的候選框預測更準確,在編碼器中引入了中間監督。采用前文中的二分匹配將預測出的候選框與文本框真值(ground truth)進行匹配,其映射函數表示為σ′,整體損失表示為:
系統的硬件處理器為Intel Core i9 9900X @3.5 GHz;內存為128 GB;顯卡為NVIDIA Geforce RTX 2080Ti 11 GB,操作系統為Windows 11 22H2。采用Python3.6編程語言以及深度學習開發框架Pytorch環境進行程序的編寫。在實驗過程中選用ResNet-50[33]作為骨干網絡。多尺度可變形Transformer 的參數設置:可變形注意力機制中H=8,采樣點K=4,編解碼器層數N=6。
MDATR在SynthText 150k、MLT 2017[34]和Total-Text[35]的混合數據集上進行了共計300 000 次迭代的預訓練。多邊形變體的基本學習率為1×10-4,并在第240 000次迭代時衰減0.1倍。對于用于預測參考點坐標的線性投影、多尺度可變形注意力機制和骨干網絡的采樣偏移,學習率按0.1 倍縮放。本文采用改進的自適應梯度法AdamW[36]作為模型優化器,其中β1=0.99,β2=0.999,權重衰減為10-4,復合查詢個數Q=10。最大文本長度M=15,多邊形控制點數N=50。損失函數的權重因子為λcl=2、λco=5、λch=4、λg=2。設置焦點損失函數中ε=0.25、γ=2.0。
3.5.1 不規則紙幣序列號識別
在四組不規則或受污損紙幣序列號數據集(數據集A 到數據集D)上進行測試,使用四個數據集和六種檢測識別模型進行性能評估和對比,實驗中選用的測試模型包括:ABCNet v2、TextNet[37]、CharNet[38]、Mask TextSpotter[39]以及PGNet[40]等模型。在實驗過程中每個模型均進行了多測試,并將測試結果平均值作為測試準確度進行匯總。實驗結果如表1所示,所提出的MDATR模型在數據集A 和數據集D 上的測試準確率分別為93.4%和92.2%,優于其他方法;在數據集B上的測試準確率與ABCNet v2模型的測試準確率相同為89.2%;在數據集C上的預測結果MDATR模型的準確率為91.2%,但相較于同一數據集下預測準確率最優的ABCNet v2模型僅降低了0.3%。

表1 不同模型的不規則紙幣序列號識別結果Table 1 Recognition results of different models on irregular banknote serial numbers
TextNet的檢測識別過程是通過生成四邊形文本區域,然后進行感興趣區域轉換,進而完成文本識別任務。盡管此方法可以識別不規則文本,但對于任意形狀的文本區域,其四邊形文本區域檢測效果并不佳;CharNet是在一次檢測任務中同時執行字符和文本檢測,但需要字符級注釋;Mask TextSpotter模型是基于Mask RCNN[41]構建的,該模型針對目標圖像執行文本和字符級別的分割,需要在獲得最終結果之前進行進一步分組;ABCNet v2為彎曲文本引入貝塞爾曲線,并開發了用于特征提取的貝塞爾-對齊方法。但是低階貝塞爾曲線在檢測相對嚴重彎曲或波浪形的文本邊框時存在局限性;PGNet是將多邊形文本邊界轉換為中心線,邊界偏移和方向偏移,并針對這些目標執行多任務學習。但在消除感興趣區域操作時,仍需要使用專門設計的多邊形恢復過程。
相較于上述模型,MDATR 模型使用了位置解碼器和字符解碼器的雙解碼器結構可同時進行文本框的定位和字符的識別,多尺度可變形注意力機制能更有效地提取圖像中文本的多尺度特征信息,多邊形邊界框檢測機制能夠準確地檢測出變形的文本邊界,模型的檢測精度更高。另一方面,由于文本邊界框控制點坐標的直接回歸,對紙幣序列號的檢測識別過程中不需要類似PGNet 模型和ABCNet v2 模型中采用的后處理步驟和感興趣區域的相關操作,提高計算效率。圖8為MDATR在不規則紙幣序列號數據集上的可視化檢測結果。

圖8 不規則或受污損紙幣序列號檢測結果示意圖Fig.8 Sketch of irregular text or defaced banknote serial number detection results
表2是在數據集A和數據集D上的詳細實驗結果。在紙幣序列號區域相對模糊且存在污漬遮擋的數據集A 上,MDATR 模型的測試結果中F 值指標為87.2%,相比于之前準確率最高的ABCNet v2 模型高出0.3%;在檢測的精確率上MDATR 相較ABCNet v2 模型高出3.7%,達到93.4%。在紙幣序列號文本邊界框相對更加扭曲變形的數據集D上,MDATR模型的優勢更加突出,F值相較于ABCNet v2模型提升了2.4%達到86.7%,而在精確率指標上提升更為明顯,相較于精確率最高的CharNet模型提升了6.1%。

表2 在數據集A和數據集D上的實驗結果Table 2 Experimental results on dataset A and dataset D
3.5.2 規則紙幣序列號識別
在規則紙幣序列號數據集(數據集E 至數據集H)共四個數據集上,使用包含本文提出模型在內的八種文本識別模型進行橫向的檢測識別性能評估和對比實驗。實驗過程中所選用的測試模型包括:ABCNet v2、TextNet、CharNet、Mask TextSpotter、TEAA[42]、Textboxes[43]、Text Percrptron[44]以及MDATR 模型。在該實驗過程中每個模型均進行了多次測試,實驗結果其平均值。實驗結果如表3 所示,圖9 為MDATR 模型在規則紙幣序列號數據集上的可視化檢測結果。

表3 不同模型的規則紙幣序列號識別結果Table 3 Recognition results of different models on regular banknote serial numbers
由表3 可知,在數據集F、數據集G 和數據集H 上,MDATR模型的測試準確率分別為92.6%、91.6%和91.7%,與其他測試模型對比實驗效果最優。TEAA 模型提出了新的文本對齊層以改進傳統的感興趣區域操作,但對于模糊文本和背景較為復雜的文本信息識別效果較差,因此在對比實驗中的識別準確率最低;Textboxes 模型基于VGG-16網絡對序列號文本進行快速定位,隨后采用RCNN識別文本框中的文字內容,應對大字符間距文本和多角度文本時檢測效果較差;Mask TextSpotter 模型采用區域候選網絡(region proposal network,RPN)進行文本的檢測和識別,但由于RPN的結構限制,模型不能處理方向密集或縱橫比過大的文本;Text Percrptron模型采用一種基于分割的文本檢測器和形狀變換模塊對文本區域進行檢測,使得模型的開發需要大量的中間環節。與上述模型不同的是,MDATR模型基于Transformer模型開發,不依賴于感興趣區域操作因此省去了大量中間開發環節,同時可變形注意力機制能夠克服文本模糊和復雜背景問題。本組實驗中在數據集E上MDATR模型的識別準確率相較于Text Percrptron模型降低了2.2%,然而在其余數據集的測試過程中,MDATR 模型的識別準確率分別提升了3.8%、1.1%和0.4%,體現了本文提出模型的優越性。
3.5.3 一般紙幣序列號識別
為驗證所提出模型應對復雜場景下紙幣序列號識別任務時的有效性,在一般紙幣序列號數據集上,使用包含本文提出模型在內的六種文本識別模型進行橫向的檢測識別性能評估及對比實驗。選用的測試模型包括:ABCNet v2、TUTS[17]、TextNet、Mask TextSpotter v3[45]、MSR[46]和SPRN[47]和模型。實驗過程中每個模型均開展了多次實驗,最終結果取均值,實驗結果如表4所示。

表4 不同模型的一般紙幣序列號識別結果Table 4 Recognition results of different models on general banknote serial numbers
由表4可知,本次實驗中MDATR模型的識別精確率為93.7%,F值為87.6%,實驗效果最優。Mask TextSpotter模型受限于候選區域網絡限制,不能有效識別多尺度特征信息,因此識別精度不佳,Mask TextSpotter v3 模型則是改進了區域候選網絡,結合硬感興趣區域掩碼操作克服了處理極高寬比或不規則形狀文本時的局限性,使得識別精確率達到90.6%;MSR模型利用多尺度形狀回歸網絡,提取并融合不同尺度的特征,對文本尺度變化具有很好的容忍度,識別精確率達到84.2%;SPRN模型利用區域定位網絡快速定位文本并估計文本尺度,隨后通過文本檢測器和后處理過程實現多尺度文本檢測,但模型設計復雜處理時間較長;TUTS 模型則是利用改進的感興趣區域操作來提取不規則文本區域中有用的多尺度特征信息,識別準確率達到87.6%,但感興趣區域操作也使得模型的計算復雜度依然較高。
MDATR 模型利用多尺度可變形注意力機制,通過減少采樣點個數降低模型計算量,同時提取并融合圖像的多尺度特征信息。與TUTS 模型相比,MDATR 模型的識別精確率提升了6.9%,F值提升了1.7%。
圖10為不同模型在一般紙幣序列號圖像數據集上的實驗結果示意圖。由圖10可知,Mask TextSpotter v3模型相對于Mask TextSpotter模型利用分段建議網絡提升了對不規則文本的識別精度,然而其在應對旋轉角度較大的文本和小尺寸文本識別時,檢測精確度較差;MSR模型使用了多尺度回歸網絡,用于融合多尺度特征信息,相比Mask TextSpotter v3模型能夠有效避免旋轉角度影響,但其針對于嚴重變形的多尺度文本或模糊的小尺寸文本識別準確率較差。TUTS模型為了更好地處理多尺度文本特征,引入了感興趣區域掩碼操作提取有用的多尺度特征信息,但增加了模型復雜度的同時在識別有陰影遮擋或是模糊文本時識別效果較差。

圖10 一般紙幣序列號檢測結果示意圖Fig.10 Diagram of banknote serial number detection results under complex scenario
與上述方法相比,提出的MDATR模型利用可變形注意力模塊精確提取小尺寸檢測目標,融合多尺度特征信息,并實現了更優的特征編碼以及特征融合。另外由于僅在參考點周圍取一定數量的采樣點,降低了采樣點個數,與常規注意力機制相比有效降低了模型復雜度,提升了計算效率;同時MDATR模型還將多尺度特征信息在雙解碼器中共享,結合多邊形邊框檢測模塊準確預測多邊形文本控制點位置以及相應的字符坐標。在紙幣序列號呈現出扭曲變形、文本模糊、陰影遮擋以及大小不一等特點時,MDATR 模型仍能夠相對準確地識別出紙幣序列號文本信息,在應對多尺度文本和小尺寸文本識別任務時,其優勢尤為明顯。
3.5.4 消融實驗
本文提出的MDATR 模型主要是針對紙幣序列號圖像數據集的特點進行文本識別。為了進一步驗證MDATR 模型中各個模塊的有效性和優越性,在一般紙幣序列號圖像數據集上開展了消融實驗。其中,選取的對比模型包括:Textboxes、Mask TextSpotter v3和CPN[48]。消融實驗結果如表5所示,圖11為消融實驗結果示意圖。

表5 消融實驗結果Table 5 Detection results of ablation experiments

圖11 消融實驗結果示意圖Fig.11 Diagram of ablation experiment results
多尺度可變形注意力模塊有效性驗證。為驗證該模塊的有效性,使用ResNet 最后階段的特征圖進行實驗。如表5 所示,CPN 模型利用CNN 網絡提取多尺度文本的空間特征,同時在模型主干中加入了可變形卷積,用以增強對于變形和長文本信息的適應性,其識別精確率、召回率和F值分別達到89.8%、82.7%和86.1%。相比之下,結合圖11可知,多尺度可變形注意力模塊能夠有效提取多尺度文本特征信息,針對目標文本周圍進行采樣以充分利用文本多尺度信息,對于嚴重扭曲變形的紙幣序列號文本識別效果良好,相較于常規的可變形卷積該模塊的變形準確性較高,檢測的精確度、召回率和F 值分別達到92.5%、79.1%和85.1%。在MDATR 模型中,多尺度可變形注意力模塊將進一步提升模型對紙幣序列號文本的識別效果。其中,文本識別精確率、召回率和F 值分別提高2.0%、4.6%和2.6%。由此可以進一步證明,多尺度可變形注意力模塊能夠有效應對紙幣序列號文本圖像識別中的扭曲文本信息,進而提升模型的識別準確率。
另一方面,為驗證采樣點個數對于多尺度可變形注意力模塊識別準確率的影響,本小節針對這一問題進行了實驗,實驗結果如表6所示。當沒有應用多尺度注意力時,采樣點數量K=1 時,多尺度可變形注意力模塊的作用類似于可變形卷積,此時的識別精確率、召回率和F 值較低,僅能達到83.6%、81.2%和82.4%;使用多尺度輸入代替單尺度輸入,結合多尺度可變形注意力,可以將識別精確率提升4.7%。

表6 不同采樣點個數下的實驗結果Table 6 Experimental results with different number of sampling points
當采樣點數量增加至K=4 時,可以進一步提高識別精確率至89.6%;此時引入多尺度可變形注意力,允許多尺度特征之間的跨特征信息交換,可以將識別精確率、召回率和F 值分別提高至92.9%、81.6%和86.9%。由此可以證明,采樣點個數會對多尺度可變形注意力模塊的識別準確性產生一定的影響,當采樣點個數K=4時,模型的實驗效果相對較好。
多邊形邊界框檢測機制有效性驗證。為證明該機制的有效性,將式(6)中的粗邊界框位置編碼結果替換為可學習嵌入向量進行消融實驗,以驗證該機制對于序列號文本的識別準確性是否存在影響,同時引入對比模型進一步驗證該機制的優越性。
由表5 可知,Textboxes 模型通過VGG-16 網絡和RCNN實現對多邊形文本的定位和識別,但其在處理多方向文本或陰影遮擋的文本時,檢測效果較差,因此在實驗過程中識別精確率最低,僅達到62.1%。Mask TextSpotter v3模型利用分段建議網絡檢測彎曲文本的文本,結合感興趣區域操作克服陰影遮擋的問題,將識別精確率、召回率和F 值分被提升至89.6%、78.8%和83.9%,然而分段建議網絡無法有效實現對于多尺度文本或多角度文本的檢測。
與上述模型不同的是,在MDATR模型中多邊形邊界框檢測機制主要是將編碼器得到的特征圖輸入到候選框生成器中,檢測出可能是文本的內容,進而輸出文本的粗邊界框坐標及概率,并篩選出概率最高的Z個粗邊界框,由正弦編碼φ(?)結合粗邊界框坐標進行編碼,并將編碼結果添加共享控制點查詢嵌入輸入到位置解碼器。同時融合編碼器提取的多尺度特征信息,以獲取多尺度文本和小尺寸文本的邊界框控制點坐標,進而確定最終序列號文本的邊界框,以提升對多邊形文本邊界框的定位準確率。采用多邊形邊框檢測機制后序列號的識別精確率至91.6%。
另一方面,在MDATR模型中結合多尺度可變性注意力模塊,多邊形邊界框檢測機制可以將序列號文本識別的準確率、召回率和F值分別提升0.9%、2.9%和2.1%,分別達到93.4%、81.4%和86.9%,進一步證明多邊形邊框檢測機制能夠提升模型應對多尺度序列號文本的識別準確率。圖11的可視化結果表明,Mask TextSpotter v3模型在應對模糊文本和小尺寸文本時識別效果不佳;而在MDATR模型中引入了多邊形邊框檢測機制后,模型針對于一般場景下的不規則紙幣序列號文本框的定位更加精準,這進一步證明,多邊形邊界框檢測機制能夠準確的定位出紙幣序列號文本的邊界框,幫助模型提升在實際場景中紙幣序列號圖像的識別準確性。
針對紙幣序列號由于污染、破損或折疊等情況而影響序列號檢測和識別的問題,設計一種紙幣序列號檢測識別系統,實現快速、準確、全面的紙幣序列號檢測和識別。該系統的主要特點在于:不同于現有的大多是紙幣序列號識別算法是基于字符分割實現的,該方法結合多尺度可變形注意力機制在Transformer的基礎上由一個編碼器和兩個解碼器構成的新框架,以并行處理的方式實現紙幣序列號的檢測識別,提升運算速率;針對紙幣序列號區域扭曲變形的問題,采用一種多邊形邊界框檢測機制,實現由邊界框引導的多邊形檢測,保證扭曲的紙幣序列號檢測精度;針對紙幣序列號可能存在的字符大小不一的問題,采用多尺度可變形注意力模塊,降低模型結構復雜度。
實驗結果表明,在面對不規則文本同時受到污染的紙幣序列號檢測識別任務時,MDATR 模型檢測精度達到93.4%;在應對復雜場景下的紙幣序列號文本識別任務時,MDATR模型相較于主流識別模型,將識別精確度提升了6.9%。與目前主流的文本檢測識別模型相比,該方法對紙幣序列號的檢測更準確高效,尤其是對于多尺度紙幣序列號文本而言識別效果良好。本文為紙幣的檢測和識別技術探索提出了一個可靠的研究思路與方案,具有良好的應用前景。