999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文檔識別及其在藏文古籍識別中的應用探討

2017-02-24 22:41:43李振江
求知導刊 2016年35期

李振江

摘 要:文檔識別技術能自動識別文檔中的文本、圖片、表框等信息,為紙質文檔的全文數字化提供了便利。文章分析了文檔識別過程中預處理、版面分析、行字切分、特征提取以及分類的流程,對文檔識別技術的發展做了一個簡單的綜述,并結合藏文古籍識別的具體應用,對該技術在藏文古籍識別方面的應用難點進行了探討。

關鍵詞:文檔識別;版面分析;藏文古籍

中圖分類號:G273.3

文獻標識碼:A

一、引言

從20世紀90年代開始,文檔分析與識別吸引了越來越多的研究者,目前有多個專門的國際會議對該項工作進行研究。

例如,ICDAR(International Conference on Document Analysis and Recognition),ICFHR(International Conference on Frontiers in Handwriting Recognition),DAS(IAPR International Workshop on Document Analysis Systems)等,在相關領域的期刊(IEEE Transaction on Pattern Analysis and Machine Intelligence、Pattern Analysis and Applications、International Journal of Computer Vision、International Journal on Document Analysis and Recognition等)上也有大量文檔分析識別相關的論文出現,整個領域的研究工作處在一個快速發展的階段。

二、文檔識別流程

從文檔識別工作的流程步驟上來說,可以分為圖像預處理與版面分析、行字切分、特征提取與分類等模塊[1]。

1. 預處理與版面分析

預處理階段主要工作是去噪以及圖像的增強和修復,之后進行版面分析,將圖像分為文字區域以及非文字區域,獲取結構以便于重編和出版。文字區域需要進一步確定該區域的文字是屬于題目、正文、標注或者其他信息等;對于非文字區域,則要判別其是插圖、背景或者是噪音,并按照判別結果分別加以處理。在版面分析過程中,需要考慮的是不同類型區域特征選擇的問題和不同的分析方法及其效果評價。

2. 文本行字切分

對于完成了預處理以及版面分析后抽取的文字區域,需要進一步的檢測,將文本行以及單字進行分割。在古籍文檔中,文本大多為約束文本和非約束文本混合出現,其文本行往往是不一致的傾斜和彎曲,如何動態調整切分距離,自適應處理傾斜和彎曲文本是這一步需要考慮的問題。對于切分好的文本行,需要選擇合理的文字切分算法對單個字符進行分割。

3.特征提取與分類

基于統計的方法是模式識別的一種經典方法,目前在文檔分析識別上使用較為廣泛的方法有SVM方法、貝葉斯方法、隱馬爾可夫模型等,其關鍵在于統計同一種字符所特有的共有性質或者相對穩定的分類特征作為識別向量。這種向量應當具有穩定的二維平面特征、水平或者垂直直方圖特征等。在統計方法中,這個邊界是基于每個類的模式的概率分布的,這點必須預先知道或通過學習獲得。

三、文檔識別的發展

從文檔識別研究的文字類型上來說,由于文檔識別技術最初源于西方國家,因此拉丁文字符文檔識別發展最早,目前成果也最多。隨著其他國家地區科研水平的提高,越來越多的非拉丁字符識別技術有了長足發展。例如中文、日文、阿拉伯文、斯拉夫文、蒙古文、孟加拉文、藏文等。

從文檔識別研究的對象上來說,其源于OCR技術,最初的目標是識別特定字體的印刷字符,后來發展到多字體的混編的印刷文檔,隨后,手寫體文檔的識別成為一個研究的新內容。與此同時,研究對象的時間也不僅僅局限于現代文檔的識別研究,大量的古籍、歷史文檔、古代手稿、藝術作品成為新的研究對象。

四、藏文古籍識別

1.藏文古籍識別的意義

藏族擁有悠久輝煌的文化歷史,在我國,藏文古籍文檔規模宏大,其數量僅次于漢語古籍文檔。為了更好地保護和利用這些文檔資料,對其進行全文數字化是一個亟待完成的工作。目前國內外已有一些藏文數據庫建成使用,例如“尼泊爾-德國手稿文獻保存計劃”、藏文文獻輸入計劃、藏傳佛教資料信息中心等。然而現有的數據庫,大都是將藏文古籍文獻掃描成圖加以保存,不便于對其進行檢索以及深度開發利用,更好的手段是利用文檔識別方法,對其內容進行識別并轉換為內碼形式進行保存。

2. 藏文古籍字體

藏文自吞彌桑布札創制后經過千余年的實踐創新,字體發展到幾十種。從大的方面講,可歸納為烏金體與烏梅體兩大類。烏金體即有冠體,整體書寫效果整齊劃一。吐蕃時期王室發布的文告、執照以及碑文、鐘銘,特別是佛經寫卷幾乎都是用烏金體書寫的。依據后弘期刊印的藏文書籍“軟字精校精刻”的要求,其大都采用烏金體[2]。

3. 藏文識別現狀

目前,就國內外公開發表的文獻來看,鮮見藏文古籍文檔分析識別的相關研究工作。而脫機藏文字符識別工作已從最初的印刷體藏文識別開始向手寫藏文識別研究發展。其基本思路都是先通過對藏文字符的基本特征的研究,然后根據這些特征選擇設計相應的算法對字符進行切分,再做傾斜矯正、版面分析及歸一化處理。經過上述的處理后,得到一個較為理想的二值圖像,然后對這個處理后的二值圖像利用適合的算法進行識別。最后是對識別的結果用識別算法或上下文的關系來糾正誤識字和拒識字,提高識別率和適應性,降低系統的誤識率。研究思路都是從藏文字符的自身特征出發,運用各種已有的識別技術來進行特征提取、分類,進而識別。

五、藏文古籍識別應用

總的來說,藏文古籍識別的研究尚處于起步階段,其中大部分工作集中在現代藏文字符識別方面,而在藏文古籍文檔識別中,字符識別只是其中的一個模塊,且藏文古籍中梵音藏文字符占很大一部分;除了字符識別外,藏文古籍識別還在版面分析、文字切分等方面有大量工作等待完成。藏文古籍文檔識別研究中,還存在多方面的困難。

第一,藏文古籍文檔版面質量差,導致獲取的圖像中存在大量噪音,同時圖像的前景中還存在字符內容缺失、線條斷裂等其他質量退化問題。如何合理的去噪,且在去噪的同時修補損失區域是做好藏文古籍識別的前提條件。

第二,藏文古籍文檔版面復雜,文字、背景有多種顏色,常常在文中嵌圖,通常文字周圍都有邊框且橫豎排文字混編。必須做好版面分析工作,正確高效的將文檔中不同類型的元素一一區分。

第三,藏文古籍中使用的字符集異常龐大,包括基本藏文字符集中獨立成字的169個字符、擴充集A中1536個垂直預組合字符、擴充集B中5669個垂直預組合字符,排除這三種字符集中重復的字符,字符總數共計7240類。如何獲取這7240個類別的樣本數據,合理的設計分類器對這種稀疏樣本、高類別問題進行分類是必須要解決的問題。

參考文獻:

[1]Kai Chen,Mathias Seuret,Hao Wei,etal.Ground truth model, tool, and dataset for layout analysis of historical documents[J].Document Recognition and Retrieval XXII,2015(9402).

[2]先 巴.藏文古籍版本研究——以藏文古籍印本為中心[J].西藏研究,2016(3):99-110.

主站蜘蛛池模板: 日韩欧美成人高清在线观看| 一级看片免费视频| 爱做久久久久久| 欧美一道本| 欧美成人影院亚洲综合图| 狠狠综合久久久久综| 国产精品一区在线麻豆| 亚洲色图另类| 亚洲无码免费黄色网址| 日韩av电影一区二区三区四区| 国产综合另类小说色区色噜噜| 人妻丰满熟妇AV无码区| 制服无码网站| 国产高清又黄又嫩的免费视频网站| 99这里精品| 99久久精品免费观看国产| 色爽网免费视频| 精品亚洲欧美中文字幕在线看 | 欧美午夜视频在线| 在线播放精品一区二区啪视频| 国产区成人精品视频| 四虎亚洲精品| 扒开粉嫩的小缝隙喷白浆视频| 99人体免费视频| 国产精品视频观看裸模| 国产va免费精品观看| 97在线碰| 国产欧美亚洲精品第3页在线| 91年精品国产福利线观看久久 | 国产在线视频福利资源站| 中文字幕人成人乱码亚洲电影| 重口调教一区二区视频| 久久综合丝袜日本网| 人妻免费无码不卡视频| 国内精品小视频在线| 国产永久无码观看在线| 欧美日韩中文国产| 亚洲国模精品一区| 国产精鲁鲁网在线视频| 国产www网站| 久久a毛片| 热九九精品| 青青青伊人色综合久久| 精品综合久久久久久97超人该| 日本午夜影院| 精品伊人久久久久7777人| 国产sm重味一区二区三区| 亚洲欧美综合在线观看| 午夜精品区| 日韩精品无码免费专网站| 欧美亚洲一区二区三区在线| 亚洲天堂日本| 久无码久无码av无码| 911亚洲精品| 精品欧美一区二区三区久久久| 国产成人精品免费av| 国产一级毛片网站| 国产91视频免费| 亚洲日本一本dvd高清| 日日拍夜夜嗷嗷叫国产| 成人日韩视频| 一本色道久久88| 日韩中文精品亚洲第三区| 亚洲国产成人久久精品软件 | 美女国产在线| 亚洲国产亚综合在线区| aⅴ免费在线观看| 欧美午夜久久| 美女国产在线| 亚洲AV无码久久天堂| 亚洲成aⅴ人在线观看| 丁香综合在线| 亚洲高清无码久久久| 天天综合网在线| 亚洲Av激情网五月天| 中文字幕亚洲第一| 无码中文字幕精品推荐| 成年A级毛片| 久久这里只有精品8| 久久99这里精品8国产| 91无码人妻精品一区| 色综合久久无码网|