湖北工業(yè)大學 葉曉龍
中文分詞關鍵技術研究
湖北工業(yè)大學 葉曉龍
中文信息處理對于人們?nèi)粘I钪蝎@取信息起著舉足輕重的作用,是信息檢索和搜索引擎必不可少的基礎性工作?,F(xiàn)有的中文分詞方法有很多,它們以字符串匹配、統(tǒng)計模型、理解、路徑以及語義等為基礎,并輔以分詞詞典和規(guī)則庫,能夠在一定程度上對中文信息進行切分。分詞結果一般符合邏輯,符合日常生活中語言表達規(guī)范。因此,能很好被人們所理解運用,但由于漢語本身的特殊性和復雜性,中文分詞面臨許多難點,目前的中文分詞技術普遍存在歧義詞處理和未登錄詞(新詞)識別2個難點。因此,一個性能良好的中文分詞方法不但需要具備高效的分詞算法和詞典機制,而且要準確識別歧義詞和未登錄詞。本文對搜索引擎的中文分詞技術進行研究,具有一定的理論價值和實際意義。
中文分詞;關鍵技術;研究
Internet,中文正式譯名為因特網(wǎng),又叫做國際互聯(lián)網(wǎng)。它是由那些使用公用語言互相通信的計算機連接而成的全球網(wǎng)絡。一旦你連接到它的任何一個節(jié)點上,就意味著您的計算機已經(jīng)連入Internet網(wǎng)上了。目前Internet的用戶已經(jīng)遍及全球,有超過幾億人在使用Internet,并且它的用戶數(shù)還在以等比級數(shù)上升。它是一個全球性的巨大的計算機網(wǎng)絡體系,它把全球數(shù)萬個計算機網(wǎng)絡,數(shù)億臺主機連接起來,包含了難以計數(shù)的信息資源,向全世界提供信息服務。它的出現(xiàn),是世界由工業(yè)化走向信息化的必然和象征。Internet構成了當今信息社會的基礎結構。因特網(wǎng)(Internet)是一組全球信息資源的總匯。因特網(wǎng)最高層域名分為機構性域名和地理性域名兩大類,目前主要有14種機構性域名。1995年10月24日,“聯(lián)合網(wǎng)絡委員會”通過了一項有關決議:將“互聯(lián)網(wǎng)”定義為全球性的信息系統(tǒng)。通過全球性的唯一的地址邏輯地鏈接在一起。這個地址是在互聯(lián)網(wǎng)協(xié)議(IP)或傳輸控制協(xié)議和Internet協(xié)議(TCP/IP協(xié)議),或其他繼承人的協(xié)議或互聯(lián)網(wǎng)協(xié)議(IP)進行通信兼容的基礎上的其他協(xié)議。讓公共用戶或者私人用戶使用高水平的服務。這項服務是在上述通信及相關基礎設施。實際上由于互聯(lián)網(wǎng)是劃時代的,它不是為某一種需求設計的,而是一種可以接受任何新的需求的總的基礎結構。你也可以從社會、政治、文化、經(jīng)濟、軍事等各個層面去解釋理解其意義和價值?;蛘哒fInternet是一項正在向縱深發(fā)展的技術,是人類進入網(wǎng)絡文明階段或信息社會的標志。
近十幾年來,人們使用它的生產(chǎn)和數(shù)據(jù)收集能力大大提高,如數(shù)百數(shù)千數(shù)據(jù)庫企業(yè)管理、政府機關、科研和工程開發(fā)等,而且這種趨勢將繼續(xù)發(fā)展。因此,提出了一個新的挑戰(zhàn):它被稱為信息爆炸、信息超載的時代,幾乎每個人都需要面對的問題。怎樣才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,變得越發(fā)的重要。要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務決策和戰(zhàn)略發(fā)展服務才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)DMKD技術應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。
正向最大化匹配就是按照從左到右的順序最大化的匹配詞組,這個是中文分詞中最常見的一種分詞方式。當在百度中輸入“如何徹底消滅家里的蟑螂”,在搜索結果中,首先匹配的是文本框中輸入的詞或詞組,可以看出選擇關鍵詞是多么重要。
正向最大匹配算法:從左到右將待分詞文本中的幾個連續(xù)字符與詞表匹配,如果匹配上,則切分出一個詞。但這里有一個問題:要做到最大匹配,并不是第一次匹配到就可以進行切分的,切分組合有很多,我們需要尋找最合適的組合。我們來舉個例子:待分詞文本: content[]={“中”,“華”,“民”,“族”,“從”,“此”,“站”,“起”,“來”,“了”,“?!眪
詞表:dict[]={“中華”,“中華民族”,“從此”,“站起來”}
(1)從content[1]開始,當掃描到content[2]的時候,發(fā)現(xiàn)“中華”已經(jīng)在詞表dict[]中了。可是還是不能切分得出結果,因為我們不知道后面的詞語能不能組成更長的詞(最大匹配)。
(2)繼續(xù)掃描content[3],發(fā)現(xiàn)“中華民”并不是dict[]中的詞,但是我們還不能確定是否前面找到的"中華"已經(jīng)是最大的詞了。因為“中華民”是dict[2]的前綴。
(3)掃描content[4],發(fā)現(xiàn)“中華民族”是dict[]中的詞。繼續(xù)掃描下去。
(4)當掃描content[4]的時候,發(fā)現(xiàn)“中華民族從”并不是詞表中的詞,也不是詞的前綴。因此可以切分出前面最大的詞——“中華民族”。
由此可見,最大匹配出的詞必須保證下一個掃描不是詞表中的詞或詞的前綴才可以結束。
本文對中文分詞停留于一個簡單的應用層面上,只能運用這些算法進行簡單的對比并且進行實現(xiàn),以及將現(xiàn)有的分詞算法嵌入到Lucene搜索引擎,但是本文提出一個改進的分詞系統(tǒng)設計想法。希望在以后的學習過程中,能完善自己的想法,并且能夠實現(xiàn)該改進的中文分詞算法。
[1]Chang Jyun-Shen,C.-D.Chenand Shun-De Chen"Chinese Word Segmentation through constraint satisfactionand statistical optimization",Proc.of ROCLING IV,ROCLING,Taipei,pp 147-165.
[2]Richard Sproat,Chilin Shih,William Gale and Nancy Chang(1996),"A Stochastic Finite-State WordSegmentationAlgorithm for Chinese",Computational Linguistics,Vol 22,Number 3,1996.
[3]Jian-Cheng Dai and Hsi-Jian Lee,"Paring with Tag Information in a probabilistic generalized LR parser"(1994),InternationalConferenceon Chinese Computing,Singapore,pp33-39.
[4]Chang,Jyun-Shen,Shun-De Chen,Ying Zhen,Xian-Zhong Liu and Shu-Jin Ke(1992),"Large-corpus-based methods for Chinese personal name recognition",Journal of Chinese Information Processing,6(3):7-15.
2017-10-10)