劉海英 陳鵬舉 郭俊美 鄧立霞 孫濤 趙陽(yáng)



摘? 要:隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)及驗(yàn)證碼技術(shù)的快速發(fā)展,出現(xiàn)了更多復(fù)雜的驗(yàn)證碼生成辦法,如基于動(dòng)態(tài)圖像的驗(yàn)證碼系統(tǒng)。本案例針對(duì)給定系統(tǒng)的驗(yàn)證碼為研究對(duì)象,提出一種具有針對(duì)性的策略算法,對(duì)比于其它識(shí)別算法,本研究算法的識(shí)別速度、精確均占有一定優(yōu)勢(shì),具有一定的理論和實(shí)際意義。
關(guān)鍵詞:數(shù)字圖像處理;驗(yàn)證碼;識(shí)別
中圖分類號(hào):G640? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2096-000X(2020)27-0087-03
Abstract: With the continuous development of computer network technology and verification code technology, more complicated verification code generation methods have appeared, such as a verification image system based on dynamic images. This case proposes another targeted strategy for the verification code of a given system. Compared with other recognition algorithms, the recognition speed and accuracy of this research algorithm have certain advantages and have certain theoretical and practical significance.
Keywords: digital image processing; verification code; recognition
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)安全逐漸成為了人們關(guān)注的問(wèn)題,驗(yàn)證碼的重要性也日益凸顯。為了更好地防止惡意攻擊、保護(hù)網(wǎng)站安全,驗(yàn)證碼技術(shù)變得越來(lái)越復(fù)雜,這給驗(yàn)證碼技術(shù)帶來(lái)了很好的機(jī)遇,同時(shí)也帶了新的挑戰(zhàn)。數(shù)字圖像處理技術(shù)是利用計(jì)算機(jī)對(duì)數(shù)字圖像進(jìn)行分析與處理,協(xié)助人們理解和識(shí)別不同模式目標(biāo)和對(duì)象的技術(shù)。數(shù)字驗(yàn)證碼識(shí)別是光學(xué)字符識(shí)別(Optical Characters Recognition,OCR)的一種,是經(jīng)典模式識(shí)別研究對(duì)象中的一種[1]。
所謂驗(yàn)證碼是由系統(tǒng)隨機(jī)生成的一組字符(一般為數(shù)字或數(shù)字與字母的組合)圖片。驗(yàn)證碼圖片的使用是目前網(wǎng)上各種論壇類網(wǎng)站用以識(shí)別阻止自動(dòng)化程序惡意行為的人機(jī)區(qū)分技術(shù),其設(shè)計(jì)和實(shí)用安全性直接涉及到互聯(lián)網(wǎng)的安全使用,由于技術(shù)簡(jiǎn)單,易實(shí)施,傳輸數(shù)據(jù)小,因此被各網(wǎng)站特別是論壇性質(zhì)的網(wǎng)站廣泛使用來(lái)防止自動(dòng)化程序(如論壇自動(dòng)灌水機(jī))進(jìn)行大批量的惡意行為。
一、國(guó)內(nèi)外驗(yàn)證碼技術(shù)的發(fā)展現(xiàn)狀
驗(yàn)證碼識(shí)別和其他字符識(shí)別方法極為相似,因而可以借鑒現(xiàn)有的成熟的字符識(shí)別技術(shù),如系統(tǒng)、車牌識(shí)別等。但驗(yàn)證碼圖片其自身的特殊性使得對(duì)它的識(shí)別難于一般的光學(xué)字符識(shí)別。驗(yàn)證碼設(shè)計(jì)的目的本就是讓機(jī)器難以破解,因而通常的驗(yàn)證碼圖片干擾性強(qiáng),字符間有扭曲、變形、粘連,干擾信號(hào)變化相對(duì)單調(diào),識(shí)別較難,圖像較小。目前對(duì)無(wú)扭曲旋轉(zhuǎn)、有少量噪聲和無(wú)粘連字符的驗(yàn)證碼識(shí)別上已取得了較好的識(shí)別結(jié)果。而對(duì)于有彩色線噪聲,字符粘連、重疊、扭曲以及縮放等干擾的驗(yàn)證碼的識(shí)別效果尚不理想,對(duì)于此種驗(yàn)證碼的破解,屬于極端情況下的字符識(shí)別。
(一)國(guó)外驗(yàn)證碼的發(fā)展現(xiàn)狀
國(guó)外針對(duì)驗(yàn)證碼的分析識(shí)別技術(shù)也已經(jīng)是一個(gè)較為熱門(mén)的領(lǐng)域,關(guān)于驗(yàn)證碼識(shí)別的理論體系已日漸趨于完善。驗(yàn)證碼(CAPTCHA)最早是Carnegie Mellon大學(xué)的一個(gè)科研項(xiàng)目,Yahoo是其第一個(gè)用戶。2009年,美國(guó)Berkeley大學(xué)Chandavale等研究人員對(duì)Carnegie Mellon進(jìn)行識(shí)別研究[2]。2004年Gabriel Moy等提出了一種扭曲估計(jì)的算法破解的驗(yàn)證碼,有很高的識(shí)別率[3]。
(二)國(guó)內(nèi)驗(yàn)證碼的發(fā)展現(xiàn)狀
國(guó)內(nèi)驗(yàn)證碼識(shí)別技術(shù)起步也比較晚,研究驗(yàn)證碼識(shí)別較少,現(xiàn)有國(guó)內(nèi)的研究大都集中在數(shù)字或英文字符規(guī)范、無(wú)粘連和扭曲的驗(yàn)證碼。2010年,文獻(xiàn)[4]用最近鄰算法破解了個(gè)銀行網(wǎng)站的驗(yàn)證碼,識(shí)別率達(dá)到80%以上。同年,文獻(xiàn)[5]利用基于微軟辦公文檔圖像處理庫(kù)對(duì)網(wǎng)易、雅虎等驗(yàn)證碼進(jìn)行識(shí)別,但是對(duì)于受到干擾或者字符變形較大的驗(yàn)證碼識(shí)別率偏低。但截至目前,國(guó)內(nèi)驗(yàn)證碼算法基本在現(xiàn)有算法的基礎(chǔ)上改進(jìn)其他算法,算法的發(fā)展在理論上沒(méi)有大的發(fā)展和突破。
二、網(wǎng)絡(luò)驗(yàn)證碼級(jí)手寫(xiě)數(shù)字的識(shí)別
(一)簡(jiǎn)單數(shù)字驗(yàn)證碼識(shí)別
本節(jié)主要針對(duì)單純的數(shù)字驗(yàn)證碼進(jìn)行識(shí)別。單純數(shù)字驗(yàn)證碼的識(shí)別相對(duì)簡(jiǎn)單,因?yàn)閳D片中只有數(shù)字以及圖片可能受到噪聲的影響帶來(lái)的干擾,所以在載入圖片后需要涉及到的知識(shí)點(diǎn)為:圖像的去噪、分割和識(shí)別的過(guò)程。圖像受到噪聲影響過(guò)以后的圖片如圖1所示。
數(shù)字驗(yàn)證碼識(shí)別之前需要對(duì)圖像進(jìn)行去噪,為了減少噪聲的影響,對(duì)于彩色圖像而言,為了更適合計(jì)算機(jī)處理,系統(tǒng)將彩色圖像從RGB空間轉(zhuǎn)換到HSV空間,為了提高數(shù)字驗(yàn)證碼識(shí)別的準(zhǔn)確率,在執(zhí)行識(shí)別算法之前首先利用比較簡(jiǎn)單的閾值過(guò)濾法對(duì)圖像進(jìn)行椒鹽噪聲去除的簡(jiǎn)單處理,去噪效果如圖2所示。數(shù)字驗(yàn)證碼圖像去噪之后進(jìn)行下一步數(shù)字定位,找到圖片中的每一個(gè)數(shù)字并定位,如圖3。
在數(shù)字準(zhǔn)確定位后,進(jìn)行驗(yàn)證碼的歸一化操作,結(jié)果如圖4所示。通常情況下在處理信號(hào)和圖像的預(yù)處理時(shí),為了提高算法的收斂速度,需要對(duì)數(shù)字驗(yàn)證碼圖像進(jìn)行歸一化處理,以便達(dá)到無(wú)量綱處理和提高算法的執(zhí)行速度。
經(jīng)過(guò)簡(jiǎn)單處理后,數(shù)字驗(yàn)證碼識(shí)別結(jié)果如圖5左側(cè)識(shí)別結(jié)果所示。通過(guò)識(shí)別的結(jié)果可以看出,對(duì)于簡(jiǎn)單的數(shù)字驗(yàn)證碼識(shí)別的正確率較高。
(二)手寫(xiě)體數(shù)字的識(shí)別
相對(duì)于規(guī)范的數(shù)字驗(yàn)證碼,手寫(xiě)體的數(shù)字隨意性很大,比如筆畫(huà)的粗細(xì)、字體的大小、傾斜的角度等都很難控制并且各異性很強(qiáng)(如圖6),這些人為因素都會(huì)影響到后期識(shí)別的準(zhǔn)確率。本案例中重要圖像預(yù)處理知識(shí)點(diǎn)涉及到灰度轉(zhuǎn)換、歸一化、中值濾波、二值化以及圖像細(xì)化的操作處理等。
對(duì)手寫(xiě)體數(shù)字進(jìn)行前期的歸一化處理、中值濾波后在進(jìn)行圖像的細(xì)化操作,提取9個(gè)向量特征,然后與載入的標(biāo)準(zhǔn)數(shù)字?jǐn)?shù)據(jù)庫(kù)進(jìn)行對(duì)比,其中選用的是歐氏距離測(cè)度得到識(shí)別的結(jié)果,如圖7所示。本案例中采用了200組樣本圖像進(jìn)行特征提取,得到模板數(shù)據(jù)庫(kù),樣本量偏小,但是識(shí)別的準(zhǔn)確率較高。
三、結(jié)束語(yǔ)
本案例通過(guò)對(duì)規(guī)范性和手寫(xiě)體數(shù)字的數(shù)字的識(shí)別算法分貝進(jìn)行驗(yàn)證,規(guī)范性數(shù)字識(shí)別的準(zhǔn)確率可以達(dá)到100%,手寫(xiě)體數(shù)字因?yàn)槭艿降母鞣N因素的影響,其識(shí)別率僅為90%。
參考文獻(xiàn):
[1]王璐.驗(yàn)證碼識(shí)別技術(shù)研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2011.
[2]A.A.Chandavale, A.M. Sapkal, R.M. Jalnekar, Algorithm to Break CAPTCHA[C]. Second International Conference on Emerging Trends in Engineering and Technology, ICETET-09, 2009.
[3]Gabriel Moy, Nathan Jones, Curt Harkless, Randall Potter, Estimation Techniques in Solving Visula CAPTCHAs[C]. IEEE Conference on Computer Vision and Pattern Recognition(CVPR,04),2(23-28).
[4]Jisong Zhang, Xingfen Wang, Breaking Internet Banking CAPTCHA Based on Instance Leanring[C]. 2010 International Symposim on Computer Intelligence and Design,39-43.
[5]王曉波,王興芬.基于MODI的驗(yàn)證碼識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].北京信息科技大學(xué)學(xué)報(bào),2010(1):88-91.
[6]楊思發(fā).驗(yàn)證碼破解技術(shù)算法研究及實(shí)現(xiàn)[D].南京理工大學(xué),2013.
[7]王楓,陳小.CNN深度學(xué)習(xí)的驗(yàn)證碼識(shí)別及Android平臺(tái)移植[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用,2019(7):21-23.
[8]張錚,王順?lè)?,董?基于深度學(xué)習(xí)的驗(yàn)證碼識(shí)別[J].湖北工業(yè)大學(xué)學(xué)報(bào),2018,33(2):5-8.
[9]周文凱,韓芳,孔維健.基于Faster-RCNN的極驗(yàn)點(diǎn)選式驗(yàn)證碼識(shí)別[J].電子科技,2019,32(9):42-45.
[10]白培瑞,王金博,丁國(guó)梅.一種通用的基于圖像分割的驗(yàn)證碼識(shí)別方法[J].山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,37(3):106-113.
[11]南陽(yáng),白瑞林,李新.卷積神經(jīng)網(wǎng)絡(luò)在噴碼字符識(shí)別中的應(yīng)用[J].光電工程,2015,42(4):38-43.
[12]范曉杰,宣士斌,唐鳳,等.基于Dropout卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別[J].廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,23(1):76-82.
[13]潘翔,王恒.基于深度學(xué)習(xí)的車牌相似字符識(shí)別[J].計(jì)算機(jī)科學(xué),2017,44(S1):229-231.
[14]何福全,李偉烽,林培娜,等.驗(yàn)證碼的識(shí)別技術(shù)分析與研究[J].甘肅科技縱橫,2019,48(2):1-5.