999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關(guān)鍵詞提取技術(shù)在撒拉族文獻(xiàn)數(shù)據(jù)庫(kù)的應(yīng)用

2013-04-12 00:00:00趙建飛段新安守春
現(xiàn)代電子技術(shù) 2013年24期

摘 要: 在文獻(xiàn)管理和研究中經(jīng)常會(huì)做關(guān)鍵詞提取的工作,通過(guò)人工的方式進(jìn)行提取過(guò)程繁雜,工程量極大,因此引入一種關(guān)鍵詞欲提取的方式,其過(guò)程主要采用以下三個(gè)步驟:先通過(guò)OCR系統(tǒng)對(duì)圖片進(jìn)行識(shí)別、排錯(cuò);再通過(guò)詞頻技術(shù),來(lái)提取詞頻及關(guān)聯(lián)性最高的關(guān)鍵詞,將其作為備選關(guān)鍵詞;然后通過(guò)人為閱讀的方式,按照一定的關(guān)鍵詞人工提取規(guī)則進(jìn)行關(guān)鍵詞的精確提取。結(jié)果表明,該方法取得了較好的效果。

關(guān)鍵詞: 關(guān)鍵詞提取; 撒拉; 詞頻; 引用度

中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2013)24?0005?03

Application of keyword extraction technology in Salar literature database

ZHAO Jian?fei, DUAN Xin?wen, AN Shou?chun

(Physics Department, Qinghai Normal University, Xinning 810008, China)

Abstract: The keyword extraction work is often done in the literature management. The artificial extraction may cause a complex process, and the work burden is heavy. A method of keyword pre?extraction is introduced, which is mainly divided into three steps: the image recognition and troubleshooting are conducted first by OCR system; the word frequency technology is used to extract the word frequency and highest relevance keywords as alternative keywords; and then through man?made reading manner, the accurate extraction of keywords is achieved in accordance with a certain keyword manual extraction rule.

Keywords: keyword extraction; Sarah; degree of word frequency; citation rate

0 引 言

隨著我國(guó)信息化建設(shè)的全面開(kāi)展,OCR文字識(shí)別技術(shù)誕生20余年來(lái),經(jīng)歷從實(shí)驗(yàn)室技術(shù)到產(chǎn)品的轉(zhuǎn)變,目前已經(jīng)進(jìn)入行業(yè)應(yīng)用的成熟階段。

文字這方面會(huì)涉及圖形識(shí)別學(xué)——光學(xué)字符識(shí)別(Optical Character Recognition,OCR),目前像漢王、紫光、微軟等都在這方面有專門的研究單位。OCR的步驟和過(guò)程算是集大成于一體,它會(huì)用到各種圖形學(xué)中的方法來(lái)獲得最高的正確率,OCR是不確定性科學(xué),百分之百的識(shí)別正確率似乎只會(huì)存在于理論上。文字識(shí)別一般包括提前預(yù)處理、文字特征提取、數(shù)據(jù)庫(kù)比對(duì)、后期處理等幾個(gè)部分。

首先是提取前預(yù)處理,這個(gè)過(guò)程是將掃描儀、數(shù)碼相機(jī)等工具將印刷品或手寫品輸入到電腦后,先采取一些通用的算法將這些得到的圖像特征化,譬如先進(jìn)行二值化或灰價(jià)化,圖像的去噪和正規(guī)化及可能需要的影像矯正,還會(huì)有圖文分析、字行間處理等,這個(gè)過(guò)程做的事可能最多最雜,但所用到的算法理論和技術(shù)方面都很成熟了。不過(guò)最后的文字的行間距處理就會(huì)有一些差異,有些軟件可能只會(huì)簡(jiǎn)單的將文字一個(gè)個(gè)提取出來(lái)了事,完全不管之前的印刷格式,這就是一個(gè)簡(jiǎn)單的字行間距處理的實(shí)現(xiàn)。復(fù)雜的可能會(huì)得到印刷品的排版信息。

然后是文字特征提取,這是OCR的關(guān)鍵部分,用何種方法提取會(huì)直接影響到最終正確率。這方面的論文和學(xué)術(shù)報(bào)告也最多,但主要方法一般有兩種:一是統(tǒng)計(jì)特征,如文字區(qū)域內(nèi)的黑白點(diǎn)數(shù)比,當(dāng)文字區(qū)分成好幾個(gè)區(qū)域時(shí),這一個(gè)個(gè)區(qū)域黑白點(diǎn)數(shù)比之聯(lián)合,就成了空間的一個(gè)數(shù)值向量,在比對(duì)時(shí),基本的數(shù)學(xué)理論就可以應(yīng)付了;另一類特征為結(jié)構(gòu)的特征,如文字影像矢量化后,取得字的筆劃端點(diǎn)、交點(diǎn)的數(shù)量及位置,或以筆劃為特征,配合相應(yīng)的比對(duì)方法比對(duì),一般的手寫輸入軟件的識(shí)別方法多為后者。

再就是數(shù)據(jù)庫(kù)對(duì)比,不論采用上面的哪種方法進(jìn)行的提取,都需要有一個(gè)對(duì)比數(shù)據(jù)庫(kù)進(jìn)行比對(duì),比如常用的比對(duì)方法有松弛比對(duì)法、歐式空間比對(duì)法、類神經(jīng)網(wǎng)絡(luò)比對(duì)等,這些方法也可以互補(bǔ)使用。

后期處理,這部分包括字詞處理和人工校正。最后的結(jié)果便可以輸出了。

1 關(guān)鍵詞提取[1]

1.1 文本預(yù)處理

(1)對(duì)于原始文檔,要求是中文(包括標(biāo)點(diǎn)符號(hào)),并且文檔的第一句(即第一個(gè)全角句號(hào)之前的內(nèi)容)應(yīng)該是文章的主標(biāo)題。如有副標(biāo)題,則空一行,并加入標(biāo)注。

(2)把文章分為如下幾大部分:標(biāo)題,副標(biāo)題,段首,段中,段尾,注釋(其中副標(biāo)題,注釋部分為非必須選項(xiàng))。各部分之間用一個(gè)空行分開(kāi)。標(biāo)題是第一句,副標(biāo)題第二句,緊接著第三句是段首,第四句是段尾,第五句屬段中,第六句為注釋。最后將文獻(xiàn)相應(yīng)內(nèi)容加入到指定位置。例如:

[標(biāo)題] 標(biāo)題內(nèi)容 [標(biāo)題]

[副標(biāo)題] 副標(biāo)題內(nèi)容 [副標(biāo)題]

[段首] 段首內(nèi)容 [段首]

[段中] 段中內(nèi)容 [段中]

[段尾] 段尾內(nèi)容 [段尾]

[注釋] 注釋內(nèi)容 [注釋]

1.2 算法部分

(1)頂點(diǎn)Vi的居間度bci定義

n是頂點(diǎn)的個(gè)數(shù),gmk是頂點(diǎn)m和k之間的最短路徑[2]的個(gè)數(shù),gmk(Vi)是頂點(diǎn)m和k之間的最短路徑中經(jīng)過(guò)頂點(diǎn)Vi的條數(shù)。在此以圖1為例進(jìn)行說(shuō)明。

圖1 頂點(diǎn)Vi的居間度

對(duì)于無(wú)向圖可以表示為Dijkstra算法可以找到單源節(jié)點(diǎn)的最短徑,但是只能找出一條,要想找到兩頂點(diǎn)之間的所有最短路徑只需對(duì)經(jīng)典Dijkstra[2]稍作修改。

在Dijkstra中運(yùn)用PairingHeap可以提高算法效率。分別指定不同的頂點(diǎn)作起點(diǎn)就可以找出圖中所有的最短路徑。使用一個(gè)全局?jǐn)?shù)組PairDependencyArray[num_of_vertex] 來(lái)保存各個(gè)節(jié)點(diǎn)的居間度,數(shù)組初始化為0,隨著新的最短路徑的發(fā)現(xiàn),數(shù)組元素不斷增加。比如運(yùn)行一次Dijkstra后發(fā)現(xiàn)了頂點(diǎn)V0到其他頂點(diǎn)之間的最短路徑,如表1所示。

表1 最短路徑

(2)通過(guò)一個(gè)圖的權(quán)值矩陣求每?jī)牲c(diǎn)間的最短路徑矩陣

從圖的帶權(quán)鄰接矩陣[4]A=[a(i,j)]n×n開(kāi)始,遞歸地進(jìn)行n次更新,即由矩陣D(0)=A,按一個(gè)公式,構(gòu)造出矩陣D(1);又用同樣的式由D(1)構(gòu)造出D(2);…;最后又用同樣的公式由D(n-1)構(gòu)造出矩陣D(n)。矩陣D(n)的第i行第j列元素便是i號(hào)頂點(diǎn)到j(luò)號(hào)頂點(diǎn)的最短路徑長(zhǎng)度,稱D(n)為圖的距離矩陣,同時(shí)還可引入一個(gè)后繼節(jié)點(diǎn)矩陣path來(lái)記錄兩點(diǎn)間的最短路徑。采用松弛[5]技術(shù),對(duì)在i和j之間的所有其他點(diǎn)進(jìn)行一次松弛,然后對(duì)各節(jié)點(diǎn)的居間度進(jìn)行賦值。提取結(jié)果如表2~表4所示。

表2 提取結(jié)果(一)

2 人工精確關(guān)鍵詞提取

在通讀全文的基礎(chǔ)上,關(guān)鍵詞人工提取的過(guò)程中應(yīng)遵循以下規(guī)則:

(1)整體提取原則。所謂整體提取原則是指提取者所提取的詞語(yǔ)必須包含整個(gè)語(yǔ)段的主旨,避免出現(xiàn)過(guò)寬或過(guò)窄的錯(cuò)誤。而這些涵蓋主要信息的關(guān)鍵詞有無(wú)或是否齊全。

(2)代入反饋提取原則。所謂代入反饋提取原則是指把已選出的關(guān)鍵詞帶入原文中,看是否與原文大意相符,要點(diǎn)是否齊全,是否字?jǐn)?shù)超限等。

表3 提取結(jié)果(二)

表4 提取結(jié)果(三)

(3)數(shù)量達(dá)標(biāo)提取原則。即對(duì)關(guān)鍵詞的提取有一定的數(shù)量要求,設(shè)置合適的上限和下限,提取關(guān)鍵詞的數(shù)量應(yīng)介于下限和上限之間。

(4)次序固定提取原則。關(guān)鍵詞的位置和次序不能顛倒混亂。

對(duì)一段文字,提取關(guān)鍵詞如表5所示。

表5 提取關(guān)鍵詞

3 結(jié) 語(yǔ)

通過(guò)本文中的引入方法對(duì)文獻(xiàn)關(guān)鍵詞提取,能讓復(fù)雜的關(guān)鍵詞提取工作簡(jiǎn)化并起到一定的作用。但也有不足,如提取速度較慢,對(duì)大篇幅文章在提取時(shí)需要匹配相應(yīng)的高性能計(jì)算機(jī)。隨著計(jì)算機(jī)技術(shù)進(jìn)步,這個(gè)問(wèn)題將逐步解決,下一步將對(duì)算法進(jìn)行改進(jìn),讓其提取的效率進(jìn)一步提升,提取的精確度更加精確。最后,經(jīng)過(guò)人工閱讀,提取結(jié)果比較理想,再與人工精確提取的關(guān)鍵詞與之匹配,其結(jié)果會(huì)大大改善。

參考文獻(xiàn)

[1] 王家鉞.通過(guò)句法位置提取中文關(guān)鍵詞的實(shí)驗(yàn)研究[M].蘇州:蘇州大學(xué)出版社,2011.

[2] 布切爾.信息檢索:實(shí)現(xiàn)和評(píng)價(jià)搜索引擎[M].北京:機(jī)械工業(yè)出版社,2012.

[3] 毛國(guó)君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.

[4] 嚴(yán)蔚敏.數(shù)據(jù)結(jié)構(gòu)(C語(yǔ)言版)[M].北京:清華大學(xué)出版社,2011.

[5] 佚名.關(guān)鍵詞提取算法[EB/OL].[2008?05?12].http://www.kuqin.com/searchengine/20080512/8367.html.

[6] 周牒嵐,陳琳,向華.數(shù)據(jù)挖掘算法研究[J].現(xiàn)代電子技術(shù),2011,34(20):75?78.

主站蜘蛛池模板: 91在线播放免费不卡无毒| 狠狠色综合久久狠狠色综合| 91精品啪在线观看国产| 久久精品最新免费国产成人| av一区二区无码在线| 午夜老司机永久免费看片| 成年av福利永久免费观看| 91青青草视频在线观看的| 97综合久久| 全裸无码专区| 日韩精品欧美国产在线| 精品免费在线视频| 伊人蕉久影院| 色偷偷av男人的天堂不卡| 99精品视频在线观看免费播放| 国内精品伊人久久久久7777人| 2020国产在线视精品在| 欧美成a人片在线观看| 久久77777| 精品亚洲麻豆1区2区3区| 亚洲美女一级毛片| 国产Av无码精品色午夜| 亚洲精品无码AV电影在线播放| 57pao国产成视频免费播放| 国产一级无码不卡视频| 亚洲精品久综合蜜| 欧美综合成人| 久热中文字幕在线观看| 91精品福利自产拍在线观看| 色呦呦手机在线精品| 欧美人人干| 2021国产精品自拍| 亚洲综合色婷婷| 久久综合国产乱子免费| 国产乱人伦AV在线A| 免费在线国产一区二区三区精品| 国产精品播放| 亚洲一区毛片| 日韩一级二级三级| 男女精品视频| 亚洲91在线精品| 亚洲日韩每日更新| 免费在线成人网| 久久性视频| 久久精品娱乐亚洲领先| 热热久久狠狠偷偷色男同| 欧美成人一区午夜福利在线| 亚洲婷婷丁香| 国产极品美女在线观看| 极品私人尤物在线精品首页| 亚洲欧洲国产成人综合不卡| 欧美 国产 人人视频| 先锋资源久久| 中国黄色一级视频| 亚洲视频a| 欧洲欧美人成免费全部视频| 热99re99首页精品亚洲五月天| 欧美激情网址| 国产欧美视频在线观看| 亚洲伊人久久精品影院| 欧美www在线观看| 国产乱码精品一区二区三区中文| 欧美日韩动态图| 天天爽免费视频| 亚洲成人免费看| 在线色综合| 国产呦视频免费视频在线观看| a级毛片在线免费| 青青草欧美| 亚洲免费黄色网| 国产午夜一级淫片| 99久久精品国产麻豆婷婷| 狠狠色综合网| 国产成人一二三| 欧美成人在线免费| 玖玖免费视频在线观看| 亚洲日韩在线满18点击进入| 国产一区二区三区夜色| 国产第八页| 国产97视频在线| 成人精品在线观看| 亚洲国产成人在线|