999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文期刊論文數據采集技術研究

2019-03-07 05:22:18李家辰張一凡曠遠有張雪海沈沂亭
電腦知識與技術 2019年35期

李家辰 張一凡 曠遠有 張雪海 沈沂亭

摘要:基于圖像處理和版面分割等技術,提出一種可快速檢索中文期刊論文得到題目、作者、摘要等結構化數據的方法。該方法可以對中文期刊論文的PDF文件或圖像文件進行分析處理,自動形成一些結構化的圖像塊數據,最終轉化為結構化的文字數據,以幫助用戶準確地獲取或檢索論文信息。實驗結果表明,本方法對中文期刊論文進行數據采集具有一定的有效性。

關鍵詞:圖像處理;版面分析;投影法;中文期刊

中圖分類號:TP317 文獻標識碼:A

文章編號:1009-3044(2019)35-0188-02

1 概述

隨著學術期刊與學術論文日趨增多,用戶在學術期刊中準確快速提取出論文基本信息的需求也日益增強。目前的論文多以圖像的形式儲存,而文字形式是人們檢索論文信息所需要的主要顯示類型。而將圖像信息轉化成文字信息常采用OCR技術。OCR是指通過掃描、拍照等光學輸入方式將印刷文字最終轉化為可編輯的數字化信息[1]。在OCR識別之前,通常需要對文字版面進行分析。

版面分割是對版面內的圖像、文本、表格等信息和位置關系所進行的自動分析、識別和理解的過程。最終是將圖像分成若干個不相關的區域。由于這關系到文字識別的準確性和正確的數據采集順序,版面分析在操作過程中是不可或缺的。本項目中選用的是邊緣檢測版面分析。基于邊緣檢測的分割方法試圖通過檢測不同區域的邊緣來解決問題,通常不同的區域之間的邊緣上灰度值的變化往往比較大,這是邊緣檢測方法得以實現的主要假設之一。[2]

因此,為獲得期刊論文基本信息,需要先將通常儲存的圖像信息依次進行灰度二值化,灰度直方圖生成,版面分析,再將得到的結構化圖像塊轉換為文字信息,最后將所得到的基本信息數據呈現給用戶。這樣便能夠更迅捷,更清晰地讀取并判斷出該論文是否為自己所需求的材料。僅需少量的人工步驟即可實現該效果,因此該方法更能滿足用戶對于信息檢索、判斷的需求。

2 論文基本信息的特征分析

2.1頁眉的檢測

頁眉是位于文章首頁上方,用直線分割的一片區域。一般地,在其中記錄了出版時間,出版社名稱,版號等信息。但相對于正文信息而言,頁眉頁腳具有獨立性。在基于OCR和版面分析的一些應用中,需將頁眉頁腳和主體分離并單獨處理。根據直線的所在位置和頁面的最上端劃出頁眉范圍,將整個版面一分為二。進一步根據灰度直方圖分別分割頁眉上的信息。

2.2論文題目、作者、關鍵詞等的特征分析

通常情況下,論文題目位于首頁的居中位置,是論文主題內容的體現,與之后的文章內容有明顯間隔,字號相對較大,可依據此來進行投影得到論文題目范圍之后進行文字識別。論文題目之后是作者,同樣借助投影得到行間距,劃分區域,進行文字識別,而在論文作者下的單位可以通過單位兩邊的括號作為特征標識來進行分割與處理。同理,關鍵詞、DOI號等論文信息也可以以此確定其內容。識別后的字符通過ASCALL碼值判斷可區別其中英文,進而得到結果。

3 論文信息提取的算法

基于對論文所需信息的特征分析,給出整個論文信息提取的算法及流程。

3.1論文信息提取的算法流程

傳入的PDF文件經過版面分析,得到論文有關信息的位置和屬性。對有效信息區進行二維坐標下的行投影,確定并統計、提取特征值,再根據統計得來的特征值,進行孤立行分析,并依據判定的孤立行,對文本進行區域的分割,進而得到版面分析的分割結果。[3]根據區域上下邊界尋找論文信息有關區域,通過分割線檢測及分析區域特征,以此判斷文本域為何種論文信息。判別算法流程如圖2。

3.2圖像處理

圖像處理需先將RGB轉灰度,再將圖片進行灰度二值化處理。灰度直方圖是基于二值化后的圖像生成的表示灰度值分布的直方圖。將每個像素點按照行或列的形式顯示為一張橫軸表示灰度值,縱軸為灰度出現次數的圖像稱為灰度直方圖。灰度直方圖直觀地顯示了文字在文章版面內的分布情況,在之后的版面分析中有了最直接的分析依據。

3.3投影法判別論文基本信息

將論文圖像轉灰后,灰度級范圍為[O,L-1]的數字圖像的直方圖是離散函數h(rk)=nk,其中rk是笫k級灰度值nk是圖像中灰度為rk的像素個數。在實踐中,經常用乘積MN表示的圖像像素的總數除它的每個分量來歸一化直方圖,通常M和N是圖像的行和列的維數。因此,歸一化后的直方圖由p(rk)=nk/MN給出,其中k=0,1,…,L-1[4]。在得到直方圖后,通過投影法得到每個所需區域的行高和行距。在這里舉例介紹論文題目、作者、關鍵詞的判別思路。

(1)論文題目區域的特征分析:

設LineHeight行高,PreSpace為當前塊前行距,NextSpace為當前塊后行距,isChinese與isEnglish的值可用來判斷行內文本是否為純英文。

● 單行論文題目判別:

通過大量的論文數據可知在得到論文投影數據后,論文題目通常情況下集中出現在都滿足以下的條件的塊中:

據此可以基本得到論文題目數據。

● 雙行論文題目判別:

論文題目會占用雙行,在這種情況下,不但滿足單行論文題目的限制條件,而且通常會有的特征出現,同上處理并與第一行標題合并可以得到雙行論文題目數據。得到論文題目文本后,將其在軟件界面上進行顯示與儲存。

(2)論文作者、關鍵詞等特征分析:

論文作者通常出現在論文題目下方,即滿足條件論文作者行為論文題目下的首個中文行,且其字高必小于標題字高,對應作者位置必低于其對應標題位置,論文作者該行的前行距Rect.PreSpace大于通常的行間距。在查找到所需數據后,將其后數據通過OCR識別,并且可以通過isChinese與isEnglish值判斷出論文作者的中英文形式,最終可將此塊數據歸類與儲存。

同樣,關鍵詞等論文數據的所在位置一般固定。通過遍歷論文首頁投影圖像,找到識別主體與論文正文之間的分割線,再查找到其確切位置,進行識別、獲取文本即可。

4 實驗結果

為了驗證該程序的有效性,我們收集大量論文來進行識別實驗,結果見表1:

5 結束語

本文提出一種分割論文并識別內容的方法,根據論文信息的特征提出了相關內容的約束條件,并通過大量測試驗證,該方法可以識別較多格式標準的中文論文,但對于部分排版更加靈活的中英文論文仍無法做到準確識別,此問題還有待后續解決。

參考文獻:

[1]李小鋒.基于非文本圖像優先的中文版面分析技術研究和應用[D].北京:北方工業大學,2010.

[2]許新征,丁世飛,史忠植,等.圖像分割的新理論和新方法[J].電子學報,2010,38(2A):76-82.

[3]王莉麗,陳曄,劉玲.基于投影輪廓分析的文本圖像版面分割算法研究[J].數字技術與應用,2017(3):164-165.

[4]Rafael C.Gonzalez Richard E.Woods.數字圖像處理[M].北京:電子工業出版社,2011:72-76.

【通聯編輯:唐一東】

收稿日期:2019-08-15

基金項目:本項目受北京市大學生科學研究與創業行動計劃資助

作者簡介:李家辰(2000-),男,河南濟源人,學生,本科,主要研究方向為圖像處理。

主站蜘蛛池模板: 日日碰狠狠添天天爽| 日韩视频福利| 日本不卡在线播放| 五月天福利视频| 美女毛片在线| 久久熟女AV| 都市激情亚洲综合久久| 国产一区二区三区在线观看免费| www.99在线观看| 日本午夜在线视频| 午夜天堂视频| 国产91视频观看| 久久伊人操| 久久久久九九精品影院| 精品免费在线视频| 一级片一区| 亚洲精品免费网站| 九月婷婷亚洲综合在线| 亚洲成年人片| 日本中文字幕久久网站| 久久久久久久久亚洲精品| 国产女人18毛片水真多1| 2021最新国产精品网站| 久久人与动人物A级毛片| A级毛片无码久久精品免费| a毛片在线免费观看| 国产免费怡红院视频| 毛片免费网址| 最新无码专区超级碰碰碰| 大香网伊人久久综合网2020| 91精品人妻一区二区| 免费毛片全部不收费的| 黄色国产在线| 国产一区二区三区夜色 | 亚洲人成影院在线观看| 国外欧美一区另类中文字幕| 特级aaaaaaaaa毛片免费视频| 欧美h在线观看| 欧美成一级| 久久久久久尹人网香蕉| 中文字幕在线一区二区在线| 亚洲欧美日韩久久精品| 国产精品对白刺激| 亚洲aaa视频| 欧美一级大片在线观看| 欧美午夜网| 日韩精品一区二区三区免费| a免费毛片在线播放| 中文字幕 日韩 欧美| 成人免费午夜视频| 狠狠综合久久| 国产拍在线| 伊人激情综合| 99re免费视频| 亚洲无码视频喷水| 毛片在线看网站| 91国内在线视频| 波多野结衣久久精品| 国产乱人免费视频| 亚洲成肉网| 国产免费高清无需播放器| 亚洲无线一二三四区男男| 国产va视频| 久久这里只有精品23| 日本www色视频| 欧美一区二区福利视频| 国产95在线 | 亚洲性网站| 成人综合在线观看| 青青操国产| 国产欧美又粗又猛又爽老| 中文纯内无码H| 91色在线观看| 91在线精品麻豆欧美在线| 国产高清精品在线91| 国产91高跟丝袜| 久久这里只有精品国产99| 欧美午夜视频在线| 直接黄91麻豆网站| 99激情网| 色视频久久| 亚洲精品中文字幕无乱码|