999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Faster R-CNN及數據增廣的滿文文檔印章檢測

2018-11-21 03:55:18盧海濤周建云鄭蕊蕊賀建軍
大連民族大學學報 2018年5期
關鍵詞:檢測方法

盧海濤,吳 磊,周建云,鄭蕊蕊,賀建軍

(大連民族大學 信息與通信工程學院 ,遼寧 大連116605)

滿文檔案是滿族社會歷史最真實、可靠的原始記錄。它真實反映了清入關前和清代的社會狀況,這其中蘊藏著豐富的歷史文化資源、知識信息資源和滿文宗教資源,是祖先留下的優秀民族文化遺產[1]。大部分滿文檔案都是單份、孤本或稀本,如果長時間、高頻率的使用必然會對檔案原件造成一定損害,為了使珍貴的滿文檔案能夠永久保存下去,對滿文古籍檔案的電子化是一種趨勢[2],即滿文檔案會以圖像的方式保存下來,因此對滿文檔案圖像的研究與利用迫在眉睫。

研究滿文檔案最重要的一部分是對文檔中的印章進行研究,印章可以反映文檔的作者或者歸屬等重要信息,滿文古籍中的印章也是鑒定該檔案的價值以及分析研究滿文檔案中內容的重要依據。因此,從滿文文檔圖像中自動檢測并識別印章相關信息,對于滿文文檔的研究分析與利用很有必要性。

國內學者們對印章的研究主要集中在商業印章的防偽研究以及古畫的印章定位識別研究等。在文獻[3]中,牟加俊等提出了一種中國古畫印章自動定位算法,該方法利用傳統的特征方法對印章進行定位。該方法的局限性是僅著重對紅色印章檢測較為有效。唐嘉等在文獻[4]中提出兩層定位模型,先利用人工構建印章淺層特征進行粗定位,再通過卷積神經網絡進行檢測。在第一步利用顏色等人工構建特征,并不適用于復印版古籍文檔中,此方法人工構建特征較繁瑣且將整個過程分倆步獨立進行,效率不高。

分析國內學者們對印章檢測相關文獻,總結出已有方法存在以下兩個問題:一是沒有專門針對古籍文檔(特別是滿文檔案)的印章區域自動檢測的研究,古籍文檔中通篇有大量文字出現,且印章中也會出現文字,這樣就大大增加了印章的準確檢測難度;二是大多使用傳統的人工構建特征方法,傳統方法效率不高,由于沒有挖掘印章的深層特征且對印章情況復雜現象處理不佳,沒有利用高性能的深度學習算法對印章檢測。

深度學習算法不僅可以自動提取出簡單的低層特征還可以提取一些人工無法構建的更深層次的特征,因此深度學習算法有好的準確率和高效性。滿文文檔的印章檢測的本質是目標檢測,而Faster R-CNN算法是一種現階段最成熟、應用最廣泛的目標檢測與識別的深度學框架[5]。深度學習算法的一個缺點是需要大量的數據才可達到可觀的結果,但由于滿文檔案數據采集存在現實的困難,因此研究對滿文印章數據可以自動擴充的方法很重要。

本文利用Faster R-CNN深度學習框架建立了滿文文檔的印章檢測模型,并為解決滿文印章數據少的問題而提出了一種滿文印章數據集自動擴充的方法,通過對印章進行旋轉、像素增強減弱等九種變換模擬真實文檔印章存在的現象,再通過將模擬的印章融合到原始滿文文檔中的方法擴充帶印章的滿文文檔數據。目的是提高Faster R-CNN對滿文文檔印章的檢測性能,并且為后續的滿文印章識別以及滿文文檔內容的研究做好準備。

1 Faster R-CNN算法描述

Girshick R等人在深度學習的熱潮下提出了一種基于深度學習模型的目標檢測與識別方法R-CNN[6],將整個目標檢測的任務分為候選區域提取與分類兩步,檢測性能較傳統目標檢測方法顯著提升。隨后又在R-CNN的基礎上提出Fast-RCNN[7],該算法中提出了RoIs策略,將候選區域映射到CNN特征圖上,將特征提取、分類和邊界回歸都整理成一個部分,提高了效率。

Xpart1=ConvNet(part1)(x,θpart1)∈Ru×v@r

(1)

(2)

Xpart2=ConvNet(part2)(Xpart1,θpart2),

(3)

Xpart3=ROI(part3)(Xpart2,RPx),

(4)

y=[RPx,Lablex]
=FC(Xpart3,θpart3,C,Refine(RPx))。

(5)

如公式(1)、(3)、(4)、(5)構成Fast R-CNN的網絡輸入輸出關系,將初步得到的特征圖Xpart1輸入特有卷積神經網絡得到輸出Xpart2特征圖,式(4)為將RPNet輸出的建議區域RPx通過ROI策略映射到Xpart2后得到Xpart3,式(5)為將對應的目標區域進行位置精修后通過全連接層預測輸出得到y,包括精修后的目標區域的位置RPx和類別Lablex[5]。本文使用的卷積神經網絡結構為VGG-16[9],RPNet網絡結構及參數設定見文獻[8]。

RPN的訓練過程是端到端的,即直接從輸入原始圖片到輸出結果,使用的優化方法是反向傳播和隨機梯度下降,損失函數是分類誤差和回歸誤差的聯合損失。Faster R-CNN以滿文文檔印章檢測為例的網絡結果圖如圖1。輸入為一張任意大小滿文文檔的圖像,輸出為檢測到滿文印章的圖像。

圖1 Faster rcnn用于印章檢測的網絡結構圖

2 數據增廣

2.1 原始數據集

《清代新疆滿文檔案匯編》系列叢書共計293冊,從中采集204張帶印章的正樣本,共500張不帶印章的文檔圖像。其中每張圖像中印章數量包含一個兩個以及大于兩個等情況,且印章存在交疊的情況;圖像中印章區域為尺寸不固定的矩形區域。采用人工標記印章區域的方法對數據集進行標注。將原始數據集的70%作為訓練集,30%作為測試集。

2.2 數據增廣方法

由于滿文古籍多為珍藏的書,特別是系列叢書,因此在數據采集過程存在很多困難,加上并不是每頁都帶有印章,一本檔案中僅幾頁帶有印章,且若采集大量原始圖像需要大量的人工標注,非常耗時的工作。為解決此問題提出滿文印章數據集的自動增廣方法。

本文采用擴充數據的方法是將原始訓練集扣取其中的印章區域,為保證印章的字樣特性不變性,可變的因素有印章大小、蓋印章的角度、由于墨跡導致的印章深淺等因素,選擇變化形式也很重要。本文將扣取印章進行變大、變小、左右鏡像、上下翻轉、旋轉90°、順時針隨機旋轉1~10°、逆時針隨機旋轉1~10°、像素點增強、像素點減弱九種變化。

(1)縮放變化。對印章區域圖像采用最近鄰插值法進行縮放,設原圖為m0×n0的矩陣X,縮放后為m1×n1的矩陣X1,(xsrc,ysrc)為原圖像X坐標點,(xdst,ydst)為目標圖像X1對應坐標點,由式(6)、(7)可由原圖像坐標點求得對應目標點,目標圖像點的像素值為對應原圖像的像素點。t為縮放倍數,t∈[0.5,1.5],當t∈[0.5,1)為圖像的縮小,t∈(1,1.5]為圖像的放大。

xsrc=xdstt,

(6)

ysrc=ydstt。

(7)

(2)鏡像變化。圖像鏡像變化也是一種重要的數據擴充方法,設原圖像某一像素點的坐標為(x0,y0),Width、Height分別為原圖像的寬與高。如下式(8)為圖像左右鏡像變換,其中(x1,y1)為經過左 右鏡像變化后的對應點坐標。式(9)為圖像上下鏡像變化,其中(x2,y2)為經過上下鏡像變化后的對應點坐標。

(x1,y1)=(Width-x0,y0),

(8)

(x2,y2)=(x0,Height-y0)。

(9)

(3)旋轉變化。由于蓋印章時會存在人為的傾斜現象,將印章進行旋轉變化模擬該現象。設原印章第i行第j列像素的原坐標為(x,y),根據式(10)、(11)可得到該點像素對應變化后的坐標為(x',y')。其中θ為旋轉角度,角度θ∈[-10,10],當θ∈[-10,0)為順時針旋轉,當θ∈(0,10]時為順時針變化。經旋轉變化,圖像大小會變化,超過原圖范圍就填為白色。原始圖像的像素坐標為整數,由于有浮點運算,變換后的目標圖像的坐標位置可能不是整數,使用文獻[10]方法處理。

x'=xcosθ-ysinθ。

(10)

y'=xsinθ+ycosθ

(11)

(4)點像素變化。點像素的變化分為增強與減弱,是在模擬印章由于人為用力大小以及墨跡深淺產生的效果。原圖像為矩陣M∈Rm×n,則點像素變化如下式(12) ,M1為變化后印章,k為變化系數,k的取值范圍[0.5,1.5],當k∈[0.5,1)為點像素減弱,模擬的是墨跡變淺;k∈(1,1.5]時為點像素增強,模擬墨跡變深的現象。

M1=kM。

(12)

設變化后的印章為m×n階矩陣Ib,其中第i行第j列處點的值bij(i≤m,j≤n);從完整滿文文檔圖像中隨機產生一個與印章大小相同的文檔區域Is,其中第i行第j列處點的值sij(i≤m,j≤n),則印章與相應文檔背景融合的圖像Im可以由矩陣Ib與矩陣Is求哈達瑪乘積[11](hadamard product)所得,即Im=IbIs其中表示hadamard product,mij=bij×sij。經過變換后的印章構成印章集,從印章集中隨機抽取n個(n<5)印章,再將抽取的印章進行與背景融合,將融合后的圖像再融合到文檔的原位置上。并且考慮真實檔案存在印章交疊的情況,因此在擴充數據時要越接近真實情況。通過本文擴充方法共生成4 800張擴充的滿文文檔印章圖像集,當n=2的數據擴充過程如圖2。

圖2 數據擴充過程圖

3 實驗與分析

實驗采取mAP(mean average precision)作為印章檢測性能的精度評價指標,計算公式如式(13)(14)所示。其中,P為查準率,在該實驗中表示檢測顯示的區域有多少是真正準確的印章區域;R為召回率,在該實驗中表示有多少真印章被檢測出來。AP即為RP曲線的面積值;N為測試集分類數,mAP為反映全局性能指標。

(13)

(14)

本次實驗將深度學習算法Faster R-CNN應用于滿文文檔數據集進行印章檢測,部分測試結果圖如圖3,可以看到對于圖3(a)中印章附于文字表面的情況可以檢測出印章的位置,對于圖3(a)及(b)中的淺墨跡印章,圖3(c)中的多印章交疊等情況都可以檢測出來,Faster R-CNN對于滿文文檔這樣的非場景圖像的目標檢測仍然是有效的。但會出現少許邊框不準確的情況。

為驗證本文的解決滿文文檔數據采集困難導致的數據少的問題而提出的數據增廣方法的有效性,進行對比實驗,實驗結果見表1,其中Data1為原始采集數據集,Data2為使用增廣方法擴充的數據。用Data1作為訓練集迭代5 000次訓練的模型對測試集測試,mAP為0.904。而用Data2作為訓練集迭代5 000次訓練的模型對測試集測試mAP提高到0.996。同樣在迭代10 000次的情況下,也是使用增廣方法的Data2訓練的模型效果將mAP從0.902 9提升到0.993。同時,分析結果,兩組數據都是在5 000次迭代達到的效果比10 000次迭代效果好,并且該實驗在Ubuntu系統GPU下每張圖片平均處理速度僅為0.33 s。

(a)檢測結果例1 (b)檢測結果例2 (c)檢測結果例3

表1 Faster R-CNN對測試集的mAP結果統計

為兩個模型效果對比圖如圖4,圖4(a)為未使用增廣方法測試結果,圖4(b)為使用增廣方法測試結果,圖4(a)(b)對比中可以看到兩個模型都定位到了印章的位置,(b)中定位印章的下邊比(a)更貼合,效果更好,說明本文提到的增廣滿文印章的方法對提升印章檢測效果是有效的。

(a)原始檢測結果 (b)增廣后的檢測結果

4 總 結

利用Faster R-CNN模型對滿文文檔中印章進行自動檢測。實驗表明,基于Faster R-CNN的方法對于淺墨跡的印章、多印章交疊以及帶有噪音的印章等都能進行很好的檢測。為了解決帶印章的滿文文檔數據收集較為困難的問題,從而提出了對數據進行自動擴充的方法,并通過對比實驗證明,通過數據增廣的方法提高了印章檢測的準確率。在未來的工作中,會在此基礎上繼續對滿文文檔中的印章進行識別。

猜你喜歡
檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
學習方法
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 日韩午夜伦| 国产第四页| 8090午夜无码专区| 天堂亚洲网| 中文字幕波多野不卡一区| 99热这里只有免费国产精品| 亚洲伊人天堂| 国产精品第一区| 无遮挡国产高潮视频免费观看| 亚洲综合中文字幕国产精品欧美 | V一区无码内射国产| 日韩天堂网| 日本精品一在线观看视频| 在线精品亚洲国产| 999国内精品久久免费视频| 欧美一区二区三区国产精品| 国产成人精品亚洲77美色| 精品国产福利在线| 国产在线观看人成激情视频| 成人免费午间影院在线观看| yjizz国产在线视频网| 国产美女无遮挡免费视频| 天天做天天爱夜夜爽毛片毛片| 国产打屁股免费区网站| 精品国产成人国产在线| 亚洲高清中文字幕在线看不卡| 亚洲欧美日韩中文字幕在线| 日本欧美视频在线观看| 97国内精品久久久久不卡| 成人毛片免费观看| 中国国产A一级毛片| 欧洲精品视频在线观看| 人人91人人澡人人妻人人爽| 国产一区三区二区中文在线| 最新无码专区超级碰碰碰| 国产视频一区二区在线观看| 亚洲国产成人久久精品软件| 欧美伦理一区| 国产欧美精品一区aⅴ影院| 国产原创第一页在线观看| 日韩欧美综合在线制服| 一区二区日韩国产精久久| 免费不卡视频| 国产美女久久久久不卡| 久青草网站| 国产精品永久免费嫩草研究院| 人妻丰满熟妇AV无码区| 欧美成人看片一区二区三区 | 五月婷婷综合在线视频| 国产精品成人久久| 精品一区二区三区水蜜桃| 精品国产网| 中文字幕伦视频| 国产69囗曝护士吞精在线视频 | 国产亚洲欧美日韩在线一区| 国产成人无码Av在线播放无广告 | 亚洲第一视频网站| 国产成人在线小视频| 又黄又湿又爽的视频| 中文字幕永久在线看| 91精品国产自产在线观看| 亚洲自偷自拍另类小说| 久久中文字幕不卡一二区| 国产人妖视频一区在线观看| 无遮挡国产高潮视频免费观看| 女人18毛片一级毛片在线 | h视频在线播放| 国产美女无遮挡免费视频| 欧美一区福利| 日韩高清中文字幕| 免费一极毛片| 亚洲综合天堂网| 亚洲首页国产精品丝袜| 国产精品浪潮Av| 色综合热无码热国产| 国产网站黄| 91免费在线看| 97se亚洲综合| 国产在线八区| 伊人激情综合网| 国产精品视频观看裸模| 国产成人精品高清在线|