摘 要: 在文獻(xiàn)管理和研究中經(jīng)常會(huì)做關(guān)鍵詞提取的工作,通過(guò)人工的方式進(jìn)行提取過(guò)程繁雜,工程量極大,因此引入一種關(guān)鍵詞欲提取的方式,其過(guò)程主要采用以下三個(gè)步驟:先通過(guò)OCR系統(tǒng)對(duì)圖片進(jìn)行識(shí)別、排錯(cuò);再通過(guò)詞頻技術(shù),來(lái)提取詞頻及關(guān)聯(lián)性最高的關(guān)鍵詞,將其作為備選關(guān)鍵詞;然后通過(guò)人為閱讀的方式,按照一定的關(guān)鍵詞人工提取規(guī)則進(jìn)行關(guān)鍵詞的精確提取。結(jié)果表明,該方法取得了較好的效果。
關(guān)鍵詞: 關(guān)鍵詞提取; 撒拉; 詞頻; 引用度
中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2013)24?0005?03
Application of keyword extraction technology in Salar literature database
ZHAO Jian?fei, DUAN Xin?wen, AN Shou?chun
(Physics Department, Qinghai Normal University, Xinning 810008, China)
Abstract: The keyword extraction work is often done in the literature management. The artificial extraction may cause a complex process, and the work burden is heavy. A method of keyword pre?extraction is introduced, which is mainly divided into three steps: the image recognition and troubleshooting are conducted first by OCR system; the word frequency technology is used to extract the word frequency and highest relevance keywords as alternative keywords; and then through man?made reading manner, the accurate extraction of keywords is achieved in accordance with a certain keyword manual extraction rule.
Keywords: keyword extraction; Sarah; degree of word frequency; citation rate
0 引 言
隨著我國(guó)信息化建設(shè)的全面開(kāi)展,OCR文字識(shí)別技術(shù)誕生20余年來(lái),經(jīng)歷從實(shí)驗(yàn)室技術(shù)到產(chǎn)品的轉(zhuǎn)變,目前已經(jīng)進(jìn)入行業(yè)應(yīng)用的成熟階段。
文字這方面會(huì)涉及圖形識(shí)別學(xué)——光學(xué)字符識(shí)別(Optical Character Recognition,OCR),目前像漢王、紫光、微軟等都在這方面有專門的研究單位。OCR的步驟和過(guò)程算是集大成于一體,它會(huì)用到各種圖形學(xué)中的方法來(lái)獲得最高的正確率,OCR是不確定性科學(xué),百分之百的識(shí)別正確率似乎只會(huì)存在于理論上。文字識(shí)別一般包括提前預(yù)處理、文字特征提取、數(shù)據(jù)庫(kù)比對(duì)、后期處理等幾個(gè)部分。
首先是提取前預(yù)處理,這個(gè)過(guò)程是將掃描儀、數(shù)碼相機(jī)等工具將印刷品或手寫品輸入到電腦后,先采取一些通用的算法將這些得到的圖像特征化,譬如先進(jìn)行二值化或灰價(jià)化,圖像的去噪和正規(guī)化及可能需要的影像矯正,還會(huì)有圖文分析、字行間處理等,這個(gè)過(guò)程做的事可能最多最雜,但所用到的算法理論和技術(shù)方面都很成熟了。不過(guò)最后的文字的行間距處理就會(huì)有一些差異,有些軟件可能只會(huì)簡(jiǎn)單的將文字一個(gè)個(gè)提取出來(lái)了事,完全不管之前的印刷格式,這就是一個(gè)簡(jiǎn)單的字行間距處理的實(shí)現(xiàn)。復(fù)雜的可能會(huì)得到印刷品的排版信息。
然后是文字特征提取,這是OCR的關(guān)鍵部分,用何種方法提取會(huì)直接影響到最終正確率。這方面的論文和學(xué)術(shù)報(bào)告也最多,但主要方法一般有兩種:一是統(tǒng)計(jì)特征,如文字區(qū)域內(nèi)的黑白點(diǎn)數(shù)比,當(dāng)文字區(qū)分成好幾個(gè)區(qū)域時(shí),這一個(gè)個(gè)區(qū)域黑白點(diǎn)數(shù)比之聯(lián)合,就成了空間的一個(gè)數(shù)值向量,在比對(duì)時(shí),基本的數(shù)學(xué)理論就可以應(yīng)付了;另一類特征為結(jié)構(gòu)的特征,如文字影像矢量化后,取得字的筆劃端點(diǎn)、交點(diǎn)的數(shù)量及位置,或以筆劃為特征,配合相應(yīng)的比對(duì)方法比對(duì),一般的手寫輸入軟件的識(shí)別方法多為后者。
再就是數(shù)據(jù)庫(kù)對(duì)比,不論采用上面的哪種方法進(jìn)行的提取,都需要有一個(gè)對(duì)比數(shù)據(jù)庫(kù)進(jìn)行比對(duì),比如常用的比對(duì)方法有松弛比對(duì)法、歐式空間比對(duì)法、類神經(jīng)網(wǎng)絡(luò)比對(duì)等,這些方法也可以互補(bǔ)使用。
后期處理,這部分包括字詞處理和人工校正。最后的結(jié)果便可以輸出了。
1 關(guān)鍵詞提取[1]
1.1 文本預(yù)處理
(1)對(duì)于原始文檔,要求是中文(包括標(biāo)點(diǎn)符號(hào)),并且文檔的第一句(即第一個(gè)全角句號(hào)之前的內(nèi)容)應(yīng)該是文章的主標(biāo)題。如有副標(biāo)題,則空一行,并加入標(biāo)注。
(2)把文章分為如下幾大部分:標(biāo)題,副標(biāo)題,段首,段中,段尾,注釋(其中副標(biāo)題,注釋部分為非必須選項(xiàng))。各部分之間用一個(gè)空行分開(kāi)。標(biāo)題是第一句,副標(biāo)題第二句,緊接著第三句是段首,第四句是段尾,第五句屬段中,第六句為注釋。最后將文獻(xiàn)相應(yīng)內(nèi)容加入到指定位置。例如:
[標(biāo)題] 標(biāo)題內(nèi)容 [標(biāo)題]
[副標(biāo)題] 副標(biāo)題內(nèi)容 [副標(biāo)題]
[段首] 段首內(nèi)容 [段首]
[段中] 段中內(nèi)容 [段中]
[段尾] 段尾內(nèi)容 [段尾]
[注釋] 注釋內(nèi)容 [注釋]
1.2 算法部分
(1)頂點(diǎn)Vi的居間度bci定義
n是頂點(diǎn)的個(gè)數(shù),gmk是頂點(diǎn)m和k之間的最短路徑[2]的個(gè)數(shù),gmk(Vi)是頂點(diǎn)m和k之間的最短路徑中經(jīng)過(guò)頂點(diǎn)Vi的條數(shù)。在此以圖1為例進(jìn)行說(shuō)明。
圖1 頂點(diǎn)Vi的居間度
對(duì)于無(wú)向圖可以表示為Dijkstra算法可以找到單源節(jié)點(diǎn)的最短徑,但是只能找出一條,要想找到兩頂點(diǎn)之間的所有最短路徑只需對(duì)經(jīng)典Dijkstra[2]稍作修改。
在Dijkstra中運(yùn)用PairingHeap可以提高算法效率。分別指定不同的頂點(diǎn)作起點(diǎn)就可以找出圖中所有的最短路徑。使用一個(gè)全局?jǐn)?shù)組PairDependencyArray[num_of_vertex] 來(lái)保存各個(gè)節(jié)點(diǎn)的居間度,數(shù)組初始化為0,隨著新的最短路徑的發(fā)現(xiàn),數(shù)組元素不斷增加。比如運(yùn)行一次Dijkstra后發(fā)現(xiàn)了頂點(diǎn)V0到其他頂點(diǎn)之間的最短路徑,如表1所示。
表1 最短路徑
(2)通過(guò)一個(gè)圖的權(quán)值矩陣求每?jī)牲c(diǎn)間的最短路徑矩陣
從圖的帶權(quán)鄰接矩陣[4]A=[a(i,j)]n×n開(kāi)始,遞歸地進(jìn)行n次更新,即由矩陣D(0)=A,按一個(gè)公式,構(gòu)造出矩陣D(1);又用同樣的式由D(1)構(gòu)造出D(2);…;最后又用同樣的公式由D(n-1)構(gòu)造出矩陣D(n)。矩陣D(n)的第i行第j列元素便是i號(hào)頂點(diǎn)到j(luò)號(hào)頂點(diǎn)的最短路徑長(zhǎng)度,稱D(n)為圖的距離矩陣,同時(shí)還可引入一個(gè)后繼節(jié)點(diǎn)矩陣path來(lái)記錄兩點(diǎn)間的最短路徑。采用松弛[5]技術(shù),對(duì)在i和j之間的所有其他點(diǎn)進(jìn)行一次松弛,然后對(duì)各節(jié)點(diǎn)的居間度進(jìn)行賦值。提取結(jié)果如表2~表4所示。
表2 提取結(jié)果(一)
2 人工精確關(guān)鍵詞提取
在通讀全文的基礎(chǔ)上,關(guān)鍵詞人工提取的過(guò)程中應(yīng)遵循以下規(guī)則:
(1)整體提取原則。所謂整體提取原則是指提取者所提取的詞語(yǔ)必須包含整個(gè)語(yǔ)段的主旨,避免出現(xiàn)過(guò)寬或過(guò)窄的錯(cuò)誤。而這些涵蓋主要信息的關(guān)鍵詞有無(wú)或是否齊全。
(2)代入反饋提取原則。所謂代入反饋提取原則是指把已選出的關(guān)鍵詞帶入原文中,看是否與原文大意相符,要點(diǎn)是否齊全,是否字?jǐn)?shù)超限等。
表3 提取結(jié)果(二)
表4 提取結(jié)果(三)
(3)數(shù)量達(dá)標(biāo)提取原則。即對(duì)關(guān)鍵詞的提取有一定的數(shù)量要求,設(shè)置合適的上限和下限,提取關(guān)鍵詞的數(shù)量應(yīng)介于下限和上限之間。
(4)次序固定提取原則。關(guān)鍵詞的位置和次序不能顛倒混亂。
對(duì)一段文字,提取關(guān)鍵詞如表5所示。
表5 提取關(guān)鍵詞
3 結(jié) 語(yǔ)
通過(guò)本文中的引入方法對(duì)文獻(xiàn)關(guān)鍵詞提取,能讓復(fù)雜的關(guān)鍵詞提取工作簡(jiǎn)化并起到一定的作用。但也有不足,如提取速度較慢,對(duì)大篇幅文章在提取時(shí)需要匹配相應(yīng)的高性能計(jì)算機(jī)。隨著計(jì)算機(jī)技術(shù)進(jìn)步,這個(gè)問(wèn)題將逐步解決,下一步將對(duì)算法進(jìn)行改進(jìn),讓其提取的效率進(jìn)一步提升,提取的精確度更加精確。最后,經(jīng)過(guò)人工閱讀,提取結(jié)果比較理想,再與人工精確提取的關(guān)鍵詞與之匹配,其結(jié)果會(huì)大大改善。
參考文獻(xiàn)
[1] 王家鉞.通過(guò)句法位置提取中文關(guān)鍵詞的實(shí)驗(yàn)研究[M].蘇州:蘇州大學(xué)出版社,2011.
[2] 布切爾.信息檢索:實(shí)現(xiàn)和評(píng)價(jià)搜索引擎[M].北京:機(jī)械工業(yè)出版社,2012.
[3] 毛國(guó)君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.
[4] 嚴(yán)蔚敏.數(shù)據(jù)結(jié)構(gòu)(C語(yǔ)言版)[M].北京:清華大學(xué)出版社,2011.
[5] 佚名.關(guān)鍵詞提取算法[EB/OL].[2008?05?12].http://www.kuqin.com/searchengine/20080512/8367.html.
[6] 周牒嵐,陳琳,向華.數(shù)據(jù)挖掘算法研究[J].現(xiàn)代電子技術(shù),2011,34(20):75?78.