999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古文獻版本考究中的圖像文字自動比對方法設計與應用研究

2018-12-03 03:04:34周生龍張忠林
河南圖書館學刊 2018年9期

周生龍 張忠林

摘 要:古文獻版本比對研究是文獻研究的重要方向之一。為提高古文獻的研究效率,文章提出了在古文獻版本差異比對中的圖像文字自動比對方法,本方法的主要內容包括信息采集與分類、文獻圖像預處理、文字切分與存儲、文字比對與文獻差異標注等。作者采用本設計方法對現存文淵閣、文津閣、文溯閣《四庫全書》書前提要的圖像文字進行了自動比對研究,驗證了該方法的比對效果,以期為古文獻不同版本的比對研究提供借鑒。

中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2018)09-0072-03

關鍵詞:古文獻;版本差異;圖像處理;文字比對

1 背景

我國傳世的古籍汗牛充棟,而同一部書因編輯、傳抄、刻板、排版或裝訂形式的不同而產生不同的本子,這就使文獻產生了各種版本[1]。從不同版本研究文獻的內容及其存在的差異性上看,古文獻版本比對研究一直以來都是版本研究及文獻研究者們研究的重點之一,了解和研究書籍的版本差異和變化也是順利進行文獻研究的重要條件之一。隨著信息化技術的發展,中文古文獻的數字化建設在我國和日本取得了較快的發展[2-3]。由于文獻種類和版本繁多,利用信息技術手段輔助研究人員提高文獻比對研究效率,已成為文獻研究領域亟待解決的問題。

筆者通過對相關資料的查閱發現,目前國內外對這方面的研究甚少,筆者之前曾對現存文淵閣、文津閣、文溯閣(以下簡稱“三閣”)三種《四庫全書》提要圖片進行過相關研究,并設計出了《四庫全書》提要比對系統[4]。但因時間和經費等原因,當時的研究成果只能對“三閣”《四庫全書》提要圖片進行智能檢索,找到相關的提要圖片,而后要靠人力查找三種提要之間內容的不同,進而對其進行提要比對研究。2016年6月,《四庫全書》提要比對系統曾在湖南大學主辦的“中國四庫學高層論壇”會議分組討論時進行過演示,與會專家對該系統給予了一致肯定,同時也對該系統提出了寶貴的改進意見:建議《四庫全書》比對系統要進一步將提要圖片中的每個文字做到智能比對,并標記出異同。

筆者基于上述意見,設計出了一種對若干古文獻圖片中的文字進行自動比對的有效方法。

2 圖像文字自動比對的設計

筆者設計的圖像文字自動比對方法主要由四個部分組成,即信息采集與分類、文獻圖像預處理、文字切分與存儲、文字比對與文獻差異標注等。

2.1 信息采集與分類

信息采集即采集古文獻不同版本的文字圖像信息。通俗地講就是對文獻的原版進行掃描或拍照,獲得其圖像版,這樣可以讓研究者真實地看到古文獻的原貌,提高研究對象的準確性,但在信息采集過程中必須盡量減少光線等其他因素的影響。當信息采集完成后,再對圖像進行分類存儲。存儲結構應按照書目結構設計,確保準確、有序、快捷地存放。筆者以《四庫全書》為例,其下可按“三閣”建立三個不同的文件夾,每個文件夾下再按照部、類、屬、書名的順序逐級設計子文件夾,此后在書名文件夾下存放本書按頁編號命名的各頁圖像。存儲結構如圖1所示。

按照圖1存儲結構存儲的主要目的有三個:①圖像查找的快速有序。②方便文件的管理。③為圖像切分后的文字存儲提供依據。

2.2 圖像預處理

圖像預處理是對已采集到的古文獻不同版本的文字圖像進行處理,以消除噪點等對后續處理的影響因素。周進和吳欽章認為,圖像預處理的方法有多種[5],在本文中圖像預處理包括圖像灰度化、圖像二值化、圖像傾斜矯正、圖像噪點的去除等。其中,圖像的灰度化、圖像二值化、圖像傾斜矯正都是采用目前較為成熟的技術。但是,在圖像噪點的去除中橫豎格線的處理采用了“留全去不全”的方法。其主要內容是對于橫豎格線,如果該格線是一條完整的即它在長度上滿足足夠的距離且起始和結束位置都在指定的范圍內,則保留該格線,否則去掉該格線。

2.3 文字切分及存儲

文字切分采用分步切分方法實現。整個切分包括兩個步驟——列切分和字切分。列切分是對豎版文字進行列切分,字切分是對每一列文字進行切分。字切分又分粗切分和細切分。其中,粗切分應用于相離字(上下字之間有間隔)的切分;細切分應用于重疊、粘連字的切分。細切分的方法包括二分投影法和始末筆畫特征切分法兩種。文字切分的流程如圖2所示。單字的存儲采用跟蹤分類結構的方法,即在圖像的路徑下建立和圖像名稱相同的文件夾用以存儲該圖像的所有單字。

2.3.1 列切分。古文獻通常采用按列的書寫方式,列切分主要把一幅圖像按照書寫的規則分割成列。筆者設計的圖像文字自動比對方法是采用統計過濾的方法進行列切分。其主要內容:首先,利用計算機程序在X軸方向對文字圖像進行投影統計出每單位(像素)上的黑色像素的個數構成直方圖并找到最大值。其次,程序再對直方圖進行過濾,即所有小于閾值的位置的黑色像素個數設置為零,其余不變,其中閾值是動態變化的,閾值從零開始,最大為直方圖最大值的1/3。最后,計算機程序根據每一個閾值得到的過濾結果對圖像進行列切分,選取得到的列的寬度相對集中的一種切分結果作為最終的切分結果。

2.3.2 字切分。字切分是整個文字切分的核心,它是在列切分的基礎上進行的,旨在切分出列中所包含的所有文字,并以個體的形式出現。字切分包括粗切分和細切分。粗切分的主要目的是分割出每一列中的相離字。王江晴、曹衛認為,系統粗切分采用傳統的投影法[6],首先對每一列在Y軸上進行投影構成投影直方圖,然后在投影直方圖上找到黑色像素個數為零的Y軸位置作為切分點,最后再把錯誤切分的字進行合并,并統計出字的平均高度,如“呂”字會錯誤切分成兩個字,此時要對其進行合并。細切分是在粗切分的基礎上對字與字之間存在重疊及粘連情況的字串進行切分。筆者設計的圖像文字自動比對方法的細切分采用二分投影切分,并在此基礎上采用始末筆畫特征切分。①二分投影切分。二分投影切分的主要內容是將存在重疊、粘連的字串在X軸方向分為兩部分,并分別對字段的前半部分和后半部分做Y軸方向上的投影并構成投影數組。然后,在每一個投影數組中對每兩個字找到一個分割點或分割范圍,在查找分割點或分割范圍時采用從上到下的順序分析黑色像素的走勢,根據走勢在兩個投影數組內找到黑色像素變化的轉折點,從而定位字與字的分割點,對重疊、粘連字進行切分。②始末筆畫特征切分是對二分投影切分的一個補充,因二分投影中采用直線切分,會使有些筆畫的一部分被分割到與它相鄰的字的像素數組中。始末筆畫特征切分就是把錯誤分割的部分抓取出來并把它放在應該放的位置上。始末筆畫特征的提取是根據漢字的開始筆畫和結束筆畫進行的,其內容是:①讀取頂部第一行和底部第一行即最后一行的像素并記錄黑色像素的位置。②對相連的黑色像素進行合并,并記錄合并后的黑色像素點集的起始位置、結束位置和長度。③采用像素跟蹤法[7]跟蹤每一個黑色像素點集,得到每一個黑色像素點集對應的筆畫。④對每一個得到的筆畫根據其走向及走向上的長度判斷出筆畫的類型(橫、豎、撇、捺、點)。⑤根據漢字開始筆畫和結束筆畫的特點,判斷是屬于該字還是該字的上一個字或是下一個字。此外,對于同一個目錄下的多頁掃描圖像,按圖像編號順序切分,而后對經過切分后的單個文字圖像進行統一編號命名,存儲到對應的文件目錄中。

2.4 文字比對與文獻差異標注

文字識別自身存在的錯誤較多,加上古文獻文字的自身特點,本系統直接使用文字圖像相似性算法實現文字比對。因為此前切分后的比對對象已經分別存儲在各自文件目錄之下,所以系統就可將每一個文字圖像作為比對對象[8]。在比對過程中,首先,相關工作人員要對文字圖像進行歸一化處理,設置文字圖像相似度置信閾值。其次,相關工作人員采用雙重循環方法逐一對兩個文件目錄下的序列圖像進行相似度計算,并對計算結果與相似度置信閾值進行比較,并將滿足條件的位置信息記錄下來。最后,相關工作人員根據所記錄的位置信息,分別在兩幅原掃描圖像中進行背景標記,完成圖像版本差異比對結果的存儲和顯示。比對過程如圖3所示。

3 結語

筆者以古文獻版本比對研究為背景,提出了圖像文字自動比對的有效處理方法,包括圖像采集和分類、圖像預處理、文字切分及存儲、文字比對與差異標注等。其中,文字切分是整個信息化處理的核心環節。筆者通過采用圖像文字自動比對方法對“三閣”《四庫全書》的書前提要文字圖像進行實驗,發現本方法是可行且高效的。周生龍、吳相錦認為,圖像文字自動比對方法是對《四庫全書》書前提要比對系統的重大改進[9],可以完成不同版本的圖像文件的自動分割、圖元對比和差異標注,對利用計算機更高效、快速地自動提取古文獻文字差異等具有很大的幫助,可為古文獻版本差異研究提供更加有效快捷的技術支持。

參考文獻:

[1] 李慶文.同種文獻的版本與版次的區分[J].國家圖書館學刊,2012(1):48-51.

[2]曾偉忠.數字時代古籍目錄學的發展研究[J].圖書館學研究,2010(5):2-5.

[3] 毛建軍.日本中文古籍數字資源的建設[J].圖書館建設,2009(3):33-35.

[4][9] 周生龍,吳相錦.《四庫全書》書前提要比對系統設計[J].圖書館工作與研究,2015(6):26-28.

[5] 周進,吳欽章.數字視頻判讀中圖像預處理技術研究[J].光電工程,2006(10):141-144.

[6] 王江晴,曹衛.基于極小閾值和曲線擬合的垂直投影漢字切分[J].中南民族大學學報(自然科學版),2011(4):82-85.

[7] 高彥宇,楊揚.無約束手寫體漢字切分方法綜述[J].計算機工程,2004(5):144-146.

[8] 吳相錦,張忠林.古文獻文字圖像差異性比對方法研究[J].蘭州交通大學學報,2015(6):101-105.

(編校:馬懷云)

主站蜘蛛池模板: 免费一级毛片完整版在线看| www.精品视频| 先锋资源久久| 久久久久九九精品影院| 国产黄网永久免费| 国产麻豆精品在线观看| Aⅴ无码专区在线观看| 国产精品成人久久| 国产综合在线观看视频| 欧美三級片黃色三級片黃色1| 青青热久免费精品视频6| 亚洲最黄视频| 尤物在线观看乱码| 青青网在线国产| 国产呦视频免费视频在线观看 | 中文字幕人妻无码系列第三区| 亚洲福利视频一区二区| 亚洲日产2021三区在线| 香蕉伊思人视频| 亚洲一区二区三区国产精品| 国产精品任我爽爆在线播放6080| 精品国产自在在线在线观看| 四虎成人在线视频| 亚洲成在线观看| 欧美在线精品一区二区三区| 久久综合伊人77777| 在线精品自拍| 一本综合久久| 国产精品免费入口视频| 国产精品片在线观看手机版| 国产成人AV综合久久| 国产麻豆永久视频| 67194亚洲无码| 国产精品yjizz视频网一二区| 国产微拍精品| 成人国内精品久久久久影院| 亚洲床戏一区| 97人人做人人爽香蕉精品| 亚洲国产日韩在线观看| 亚洲欧洲日本在线| 日韩一区二区在线电影| 国产精品久久精品| 日韩美女福利视频| 亚洲最黄视频| 国产精品一区二区在线播放| 91人妻日韩人妻无码专区精品| 国产欧美日韩视频怡春院| 久久青草免费91观看| 日韩在线欧美在线| 无码网站免费观看| 国产精品成人观看视频国产| 国产迷奸在线看| 亚洲成A人V欧美综合| 日韩在线第三页| 国产综合欧美| 日日噜噜夜夜狠狠视频| 人妻中文久热无码丝袜| 性欧美精品xxxx| 日本久久网站| 中文字幕va| 伊人天堂网| 无码免费试看| 天天综合天天综合| 久久一本日韩精品中文字幕屁孩| 毛片网站在线播放| 亚洲精品无码不卡在线播放| 午夜国产精品视频| 国产91特黄特色A级毛片| www.91在线播放| 毛片久久久| 精品人妻一区无码视频| 亚洲精品成人福利在线电影| 全裸无码专区| 无码一区中文字幕| 亚洲天堂.com| 曰AV在线无码| 亚洲综合精品香蕉久久网| 日韩免费中文字幕| 国产精品区视频中文字幕| a级毛片免费网站| 亚洲视频影院| 久久中文字幕2021精品|