999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種具有反饋機(jī)制的名片信息分類方法

2012-06-01 02:54:52
電子科技 2012年1期
關(guān)鍵詞:分類文本信息

金 鑫

(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇南京 210016)

日常商務(wù)活動(dòng)中,名片的使用率較高,手工錄入名片信息耗時(shí)費(fèi)力又容易出錯(cuò),因此利用手機(jī)和PDA對(duì)名片進(jìn)行自動(dòng)識(shí)別和存儲(chǔ)具有一定的實(shí)際應(yīng)用價(jià)值。理想的名片識(shí)別系統(tǒng)可分為4個(gè)模塊:圖像預(yù)處理模塊、版面分析模塊、字符識(shí)別模塊、信息分類模塊,完整流程如圖1 所示[1]。

圖1 流程圖

與技術(shù)相對(duì)成熟的預(yù)處理和字符識(shí)別環(huán)節(jié)相比,版面分析和識(shí)別后信息分類還有很多可以深入挖掘的地方。從圖1可以看出,信息分類的結(jié)果不能立刻作為最終結(jié)果導(dǎo)入數(shù)據(jù)庫(kù),因?yàn)榘婷娣治龌蜃址R(shí)別階段產(chǎn)生的錯(cuò)誤會(huì)帶到信息分類的環(huán)節(jié)。一個(gè)成熟的名片識(shí)別系統(tǒng),應(yīng)具有錯(cuò)誤反饋和自動(dòng)糾正的機(jī)制。一般情況下信息分類模塊發(fā)現(xiàn)的錯(cuò)誤會(huì)反推到上一層字符識(shí)別,然后針對(duì)某一文字塊進(jìn)行再識(shí)別和再分類處理。文中提出一種利用版面信息作為輔助決策的信息分類方面,并將信息分類后的出錯(cuò)處理進(jìn)一步反推到版面分析環(huán)節(jié)。實(shí)驗(yàn)表明,改進(jìn)后的方法能有效提高名片的識(shí)別率和信息分類正確率及系統(tǒng)的自動(dòng)糾錯(cuò)能力[2]。

1 常見(jiàn)名片信息分類算法簡(jiǎn)介

1.1 信息分類模塊介紹

名片圖像經(jīng)過(guò)預(yù)處理和版面分析后得到相對(duì)獨(dú)立的信息塊,如圖 2 所示[3]。

圖2 相對(duì)獨(dú)立的信息塊

字符識(shí)別模塊對(duì)文字塊切分出的單個(gè)字符進(jìn)行識(shí)別,但識(shí)別出的單個(gè)字符在未組織成有效信息之前是沒(méi)有意義的。名片識(shí)別的最終結(jié)果不是單個(gè)字符而是經(jīng)過(guò)正確分類后與基本信息項(xiàng)相對(duì)應(yīng)且具有語(yǔ)義的信息。信息分類模塊按照每條信息的屬性對(duì)其歸類和存儲(chǔ)。名片圖像經(jīng)過(guò)字符識(shí)別后,送入信息分類模塊的是一些文本及相關(guān)信息。它們除了包含識(shí)別出的字符信息外,一般還包括識(shí)別的置信度,文本外接矩形框的大小,每行文本在名片中的位置,這些輔助信息在信息分類的過(guò)程中可以起一定的參考作用。同時(shí),版面分析和字符識(shí)別階段產(chǎn)生的錯(cuò)誤會(huì)被帶入信息分類模塊,所以該模塊還應(yīng)該具備向上層反饋錯(cuò)誤,提供糾錯(cuò)信息的功能。提出的方法是如何在傳統(tǒng)基于語(yǔ)義理解的信息分類方法上利用版面分析信息作為輔助決策,并將這一步得到的分類結(jié)果反饋于版面分析和字符識(shí)別環(huán)節(jié),提高了識(shí)別率的同時(shí),增強(qiáng)系統(tǒng)的自動(dòng)糾錯(cuò)能力[4-5]。

1.2 常見(jiàn)名片信息分類方法和不足

在名片流行之初,版式單一,傳統(tǒng)的模板匹配算法配合少量關(guān)鍵詞的提取能夠滿足絕大部分名片信息分類的需求。但隨著名片版式的多樣化,模板匹配的方法不再適用。

目前比較流行的是基于語(yǔ)法模式識(shí)別的信息分類方法。從語(yǔ)法的角度來(lái)講,名片信息都是短語(yǔ),短語(yǔ)的骨架是一個(gè)或多個(gè)關(guān)鍵詞。對(duì)于屬性相同的信息項(xiàng),其關(guān)鍵詞都具有相同或類似的語(yǔ)義,這些關(guān)鍵詞構(gòu)成了一種語(yǔ)法模式。語(yǔ)法分析的目的就是抽取名片各個(gè)文字域的語(yǔ)法模式。

關(guān)鍵詞的提取一般使用最大正向匹配的方法,根據(jù)預(yù)定義的關(guān)鍵詞詞典對(duì)各個(gè)文字域查找。對(duì)關(guān)鍵詞的查找是按照候選鏈表進(jìn)行的,如表示Email的關(guān)鍵詞列表為{電子郵箱,E - mail,eMail,E - Mail,郵箱,@},找到關(guān)鍵詞后,根據(jù)語(yǔ)法規(guī)則對(duì)各個(gè)關(guān)鍵詞進(jìn)行篩選,確定最匹配的關(guān)鍵詞,并用它標(biāo)注對(duì)應(yīng)的文本。

在識(shí)別效果比較好的情況下,基于語(yǔ)法分析和關(guān)鍵詞庫(kù)的方法可以解決大部分文本內(nèi)容的分類問(wèn)題。但基于語(yǔ)法分析方法的顯著缺點(diǎn)是需要手工建造知識(shí)庫(kù),且封閉的規(guī)則不適應(yīng)靈活開(kāi)放的自然語(yǔ)言的變化。在處理內(nèi)容相對(duì)復(fù)雜的中文文本塊時(shí),分類效果不理想,而當(dāng)文本塊中出現(xiàn)識(shí)別錯(cuò)誤和版面錯(cuò)誤時(shí),其性能會(huì)嚴(yán)重下降。

2 利用版面信息輔助分類和錯(cuò)誤糾正

通過(guò)對(duì)200張實(shí)際名片圖像的統(tǒng)計(jì),以下幾種文本塊同時(shí)出現(xiàn)的幾率較大[6-8]:

(1)姓名文本和職務(wù)文本的上下,左右相鄰關(guān)系。

(2)被錯(cuò)誤切分的先導(dǎo)詞和內(nèi)容文本之間的左右相鄰關(guān)系。

(3)公司文本和上邊界之間的上下相鄰關(guān)系。

(4)郵編和地址的上下關(guān)系。

實(shí)驗(yàn)統(tǒng)計(jì)的信息子集有:姓名、職稱、單位、地址、電話、電子郵箱。經(jīng)過(guò)統(tǒng)計(jì)可以得到不同信息子集項(xiàng)之間位置轉(zhuǎn)移概率,可以用一階馬爾可夫過(guò)程近似描述。

因?yàn)樗腿胛谋痉诸惸K的文本信息除了文本的字符識(shí)別信息還有文本的位置和外接矩形框大小信息。通過(guò)迭代計(jì)算待分類的文本塊與信息子集項(xiàng)的統(tǒng)計(jì)位置信息得到一個(gè)相合度最高的分類及置信度,這是信息分類和錯(cuò)誤反饋的重要參考信息。

對(duì)最終文本分類的判斷,使用基于啟發(fā)式規(guī)則的隸屬度迭代決策機(jī)制。所謂隸屬度是指某文本塊對(duì)于某一信息項(xiàng)子集的隸屬程度。隸屬度的值在區(qū)間[0,1]內(nèi),若一個(gè)文本塊對(duì)某一信息項(xiàng)子集的隸屬度為0,則表示該文本塊肯定不屬于該信息項(xiàng)子集,同樣,若一個(gè)文本塊對(duì)某一信息項(xiàng)子集的隸屬度為1,則表示該文本塊肯定屬于該信息項(xiàng)子集。所以要為文本塊維持一個(gè)隸屬度數(shù)組。在進(jìn)行判斷之前認(rèn)為每個(gè)文本塊對(duì)每個(gè)信息項(xiàng)子集的隸屬度都為0,即隸屬度數(shù)組的每個(gè)成員的初值都為0。接下來(lái),采用一組啟發(fā)式規(guī)則增加或減小文本塊對(duì)于某一信息項(xiàng)子集的隸屬度。

按照規(guī)則的知識(shí)來(lái)源,可以將規(guī)則分為“自身規(guī)則”和“相鄰規(guī)則”。前者是根據(jù)文本塊自身的知識(shí)信息增加或減少對(duì)某一信息項(xiàng)的隸屬度。后者則是根據(jù)文本塊的屬性或某些知識(shí)信息增加或減少對(duì)某一信息項(xiàng)的隸屬度。文本塊中的關(guān)鍵詞屬于自身規(guī)則,在本文的的判別方法中,關(guān)鍵詞仍占有較大權(quán)重;而文本塊的相鄰規(guī)則體現(xiàn)了文本塊之間的“相互作用”,若已經(jīng)判定某一文本塊為姓名的隸屬度超過(guò)了一個(gè)較大的閾值,則處于同一列相鄰位置或同一行相鄰位置的文本塊對(duì)于“職稱”的隸屬度就會(huì)有相應(yīng)的增加。至此對(duì)于同一文本塊得到兩個(gè)隸屬度,一個(gè)由語(yǔ)法模式分析得到,一個(gè)由版面文本塊之間的位置關(guān)系得到,將這兩個(gè)隸屬度按權(quán)重歸一化到[0,1]區(qū)間,權(quán)值的選取要根據(jù)實(shí)驗(yàn)效果多次嘗試,文中按“自身規(guī)則”0.7,“相鄰規(guī)則”0.3的權(quán)重分配取得良好的效果。

按最大隸屬原則和閾值原則對(duì)文本塊的屬性作出判斷。假設(shè)文本塊X對(duì)于信息項(xiàng)子集的隸屬度為μi,如果μi滿足如下條件,則認(rèn)為X∈I:

(1)ui>uj,i≠j,1≤i≤n,1≤j≤n,其中n為信息項(xiàng)子集的總數(shù)。

(2)ui>uTh,uTh為預(yù)先設(shè)定的閾值。

按照上述判斷規(guī)則,如果一文本塊不能歸入任何一個(gè)信息項(xiàng)子集,則考慮在上層處理中出錯(cuò)。首考慮字符識(shí)別模塊的錯(cuò)誤,將無(wú)法正確分類的文本塊回送給字符識(shí)別模塊重新識(shí)別。新的識(shí)別結(jié)果如果還是不行,則進(jìn)一步考慮是否在版面分析模塊出錯(cuò)。因?yàn)榘婷娣治瞿K無(wú)法借助語(yǔ)義信息,所以可能出現(xiàn)如下錯(cuò)誤的劃分,如圖3所示。

圖3 錯(cuò)誤的劃分

此時(shí)會(huì)出現(xiàn)兩個(gè)文本塊無(wú)法被分類的情況,其中一個(gè)具有多個(gè)關(guān)鍵詞。所以在向版面劃分模塊反饋錯(cuò)誤信息時(shí),除了傳遞出錯(cuò)文本塊的標(biāo)識(shí)、大小和位置外,還要附上可能的錯(cuò)誤類型,如上例中的關(guān)鍵詞過(guò)多(TOO_MANY_KEYWORDS),版面分析模塊對(duì)這些錯(cuò)誤最可能的處理是,將該模塊和最相鄰的模塊考慮橫向切分。實(shí)驗(yàn)表明這種錯(cuò)誤反饋機(jī)制能有效提高名片識(shí)別系統(tǒng)的糾錯(cuò)能力,降低誤識(shí)別率和不能識(shí)別率。

3 名片信息分類模塊的最終結(jié)構(gòu)

在基于啟發(fā)式規(guī)則分類的基礎(chǔ)上,增加了版面信息輔助分類,建立如圖4所示的信息分類結(jié)構(gòu),提高了系名片識(shí)別統(tǒng)信息分類的性能。

圖4 信息分類結(jié)構(gòu)

4 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

為驗(yàn)證利用版面信息來(lái)幫助分類,并利用不能分類的信息用于糾錯(cuò)和再識(shí)別分類,選取100張實(shí)際名片,作了一個(gè)對(duì)比測(cè)試。

表1 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

測(cè)試中比較了是否有加版面信息和反饋機(jī)會(huì)對(duì)分類模塊最終性能的影響。可以看到,在顯示的幾個(gè)主要類別中,各項(xiàng)指標(biāo)都有不同程度的上升。無(wú)版面信息反饋機(jī)制的情況下分類正確率為96.8%,有版面信息反饋機(jī)制的情況下正確率為98.9%。

5 結(jié)束語(yǔ)

主要介紹了利用文本在名片圖像中的版面位置信息來(lái)輔助分類,并將出錯(cuò)的情況反饋于版面分析和字符識(shí)別過(guò)程的方法。試驗(yàn)表明這個(gè)新算法明顯提高了名片文本信息分類的準(zhǔn)確性。而且經(jīng)過(guò)這個(gè)分類處理后,名片文本變成了條目清晰的信息項(xiàng),為查詢檢索奠定了基礎(chǔ)。

[1]林曉帆,丁曉青,吳佑壽.名片自動(dòng)錄入系統(tǒng)的實(shí)現(xiàn)[J].數(shù)據(jù)采集與處理,1998,13(2):163 -167.

[2]徐銳義,吳 煒,何小海,等.中文商務(wù)名片版面分割研究[J].四川大學(xué)學(xué)報(bào),2008,45(2):331 -335.

[3]LIN Lin,CHEW Lim Tan.Text extraction from name cards with complex design[C].Proceeding of the 2005 Eight International Conference on Document Analysis and Recognition,2005:977 -980.

[4]KRISHNAMOORTHY M S,NAGY G,SETH S C,et al.Syntactic segmentation and labeling of digitized pages from technical journals[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(7):737 -747.

[5]LIN X,DING X,WU Y.Automatic input system for chinese business cards[C].Proc of 7th ICCPOL,HongKong,1997:277-280.

[6]劉昊.基于背景描述的中文版面分析方法的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),1999.

[7]田學(xué)東,郭寶蘭.基于組合特征的中文版面分析[J].中文信息學(xué)報(bào),1999,13(4):22 -28.

[8]張純,張濤,黃笑.中文商務(wù)名片識(shí)別系統(tǒng)的實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2000,14(2):22 -26.

猜你喜歡
分類文本信息
分類算一算
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
主站蜘蛛池模板: 日韩在线视频网| 伊人国产无码高清视频| 亚洲精品国产日韩无码AV永久免费网| a亚洲视频| 国产一级在线观看www色 | 亚洲精品综合一二三区在线| 在线色国产| 77777亚洲午夜久久多人| 喷潮白浆直流在线播放| www精品久久| 人人妻人人澡人人爽欧美一区| 被公侵犯人妻少妇一区二区三区| 免费看一级毛片波多结衣| 国产日韩精品欧美一区灰| 夜夜操狠狠操| 中文字幕va| 亚洲中文字幕23页在线| 丝袜高跟美脚国产1区| 国产h视频在线观看视频| 国产精品视频3p| 亚洲va在线观看| 亚洲成在人线av品善网好看| 91亚洲免费视频| 免费A级毛片无码无遮挡| 欧美日韩综合网| 国产成人精品男人的天堂 | 精品丝袜美腿国产一区| 欧美中文字幕在线视频 | 午夜电影在线观看国产1区| 日韩国产一区二区三区无码| 操美女免费网站| 怡红院美国分院一区二区| 97久久精品人人| 国产极品美女在线播放| 亚洲va欧美ⅴa国产va影院| 国产免费久久精品99re不卡| 欧美另类第一页| 欧美爱爱网| 91精品免费久久久| 在线免费看黄的网站| 日本91视频| 亚洲综合极品香蕉久久网| 素人激情视频福利| 亚洲一区二区三区中文字幕5566| 免费在线色| 久久精品国产一区二区小说| 六月婷婷综合| 日韩AV无码一区| 91亚瑟视频| 亚洲三级影院| 国产性生交xxxxx免费| 色综合热无码热国产| 成人精品视频一区二区在线| 天天摸天天操免费播放小视频| 18禁不卡免费网站| 国产三级国产精品国产普男人| 首页亚洲国产丝袜长腿综合| 精品国产aⅴ一区二区三区 | 精品国产免费第一区二区三区日韩| 日本一区二区不卡视频| 97精品国产高清久久久久蜜芽| 再看日本中文字幕在线观看| 亚洲日本一本dvd高清| 亚洲自偷自拍另类小说| 国产h视频免费观看| 欧美伦理一区| 高清不卡一区二区三区香蕉| 久久这里只有精品23| 女人毛片a级大学毛片免费| AV不卡国产在线观看| 国产欧美专区在线观看| 亚洲综合一区国产精品| 欧美精品1区| 国产福利拍拍拍| 精品视频福利| 91热爆在线| 欧美第二区| 在线观看av永久| 福利国产微拍广场一区视频在线| 亚洲精品黄| 国产午夜福利片在线观看| 成人免费网站在线观看|