999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文搜索引擎中的中文分詞應(yīng)用

2013-02-01 08:58:02朱莉莉
中國教育技術(shù)裝備 2013年3期
關(guān)鍵詞:搜索引擎

朱莉莉

摘 要 網(wǎng)絡(luò)信息的急劇增長給人們搜索信息帶來一定的困難,搜索引擎的出現(xiàn)及時地解決了這個問題。而在搜索引擎中核心的部分之一是中文分詞算法,它在一定程度上影響著檢索的速度。簡單介紹中文分詞的重要性、方法以及現(xiàn)在存在的問題,對中文分詞的進(jìn)一步發(fā)展提供一定的依據(jù),推動搜索引擎發(fā)揮越來越強(qiáng)大的作用。

關(guān)鍵詞 搜索引擎;中文分詞;網(wǎng)絡(luò)信息

中圖分類號:TP393.01 文獻(xiàn)標(biāo)識碼:B 文章編號:1671-489X(2013)03-0067-02

Chinese Search Engine in Chinese Word Segmentation Application//Zhu Lili

Abstract The rapid increase of network information search information for people to bring certain difficulty. Search engine solute to the problem timely. The search engine is one of the core of the Chinese word segmentation algorithm. To a certain extent it affects the speed of retrieval. This paper focuses on the simple introduction about Chinese word importance, methods and the problems. To provide further development for the Chinese word segmentation. Allows search engines to play an increasingly strong role.

Key words search engine; Chinese word segmentation; network information

1 引言

隨著科技時代的發(fā)展,網(wǎng)絡(luò)越來越成為人們生活中的重要部分,特別是網(wǎng)絡(luò)信息的急劇增長使人們獲取信息的方式發(fā)生了極大的改變。相比于以前翻閱紙質(zhì)書籍,現(xiàn)在的人們更喜歡在網(wǎng)絡(luò)上尋找自己想要的信息,這不僅可以極大地提高搜索信息的效率,而且可以增加搜索信息的廣度和深度。基于此,搜索引擎便應(yīng)運(yùn)而生,搜索引擎可以讓人們在海量的信息中更快地搜索到自己想要的資源。而搜索引擎在面向用戶接口這個層面上,比較重要的技術(shù)是中文分詞技術(shù),所以本文先簡要地介紹一下搜索引擎,在此基礎(chǔ)上進(jìn)一步闡述中文分詞技術(shù)在搜索引擎中的重要作用以及相應(yīng)的應(yīng)用。

2 搜索引擎

面對海量的網(wǎng)絡(luò)信息,搜索引擎的出現(xiàn)給人們查找自己想要的資源帶來了極大的便利。搜索引擎是一種在網(wǎng)絡(luò)上應(yīng)用的軟件系統(tǒng),它有自己的檢索數(shù)據(jù)庫,這個也是系統(tǒng)的核心部分,檢索數(shù)據(jù)庫的形成是先通過在Web上自行收集的大量的信息,然后對這些信息進(jìn)行相應(yīng)的處理,以便能夠形成可以用于檢索的數(shù)據(jù)庫。從用戶的角度來看,這個軟件系統(tǒng)提供給了用戶一個可以用于檢索的界面,用戶從這個界面中輸入自己想要查詢的內(nèi)容,系統(tǒng)會根據(jù)用戶輸入要求,提供給相應(yīng)的檢索結(jié)果。搜索引擎的原理可以簡單描述為三步:從網(wǎng)絡(luò)上收集相應(yīng)的網(wǎng)頁——建立相應(yīng)的索引數(shù)據(jù)庫——在索引數(shù)據(jù)庫中進(jìn)行相應(yīng)的檢索。

搜索引擎的出現(xiàn)為網(wǎng)絡(luò)信息的發(fā)展提供了很大的發(fā)展空間,由于搜索引擎的技術(shù)首先是在國外發(fā)展的,所以對于英文信息的搜索引擎技術(shù)現(xiàn)在來說已經(jīng)是比較成熟的了,而對于中文信息的處理的搜索引擎相比較來說就沒有那么完善。一方面來說是因為搜索引擎在中國出現(xiàn)得比較晚,加之中文的復(fù)雜性等原因,中文搜索引擎還需要進(jìn)一步地發(fā)展完善。下面就對在中文搜索引擎中所用到的中文分詞進(jìn)行簡要的介紹。

3 搜索引擎中的中文分詞

3.1 中文分詞的重要性

隨著科技社會的快速發(fā)展,網(wǎng)絡(luò)信息也越來越發(fā)揮著重要的作用,信息量也是愈加的豐富,在給人們帶來便利的同時也帶來了一些困擾,如何能夠在浩海如煙的信息中快速地搜索到自己想要的信息?搜索引擎的出現(xiàn)及時解決了這個問題,如比較熟悉的百度、谷歌等網(wǎng)站都已經(jīng)將搜索引擎做到了極致,使人們能夠快速搜索到自己想要的資源。搜索引擎一般是以詞為基本單位進(jìn)行相應(yīng)的檢索,這樣就要求將輸入的中文句子切分成相應(yīng)的詞語,這就涉及到其中比較重要的技術(shù)——中文分詞技術(shù),它是機(jī)器翻譯、信息檢索的重要基礎(chǔ)。

中文分詞是什么呢?先來了解一下分詞。分詞就是將詞語從一整個句子中劃分出來,這個過程稱之為分詞。學(xué)習(xí)過英語的人都了解,英語詞與詞之間的間隔是以空格來分割的,計算機(jī)能夠識別這樣的每一個單詞。而中文不是,中文只有一句話或是一個段落才會用相應(yīng)的分割,而分割符一般也有好多種,這樣就給計算機(jī)的識別帶來了一定的困難。中文分詞就是將輸入的、計算機(jī)不能夠直接理解的一些字符串轉(zhuǎn)換成計算機(jī)能夠理解并處理的詞序列,以便為下一步的語義分析模塊提供分析的基礎(chǔ)。

3.2 中文分詞算法

1)基于詞典的分詞算法。基于詞典的分詞算法也稱之為字符串匹配的分詞方法或是機(jī)械分詞法,它是將待匹配的字符串和已建立好的詞典中的字符串進(jìn)行匹配,若在詞典中找到該字符串,說明匹配成功,則計算機(jī)就識別該字符串。按照在匹配過程中查找的順序不同,可以分為正向匹配方法和逆向匹配方法;按照長度不同進(jìn)行優(yōu)先匹配的情況來分的話,可以分為最長匹配方法和最短匹配方法。這種分詞方法是最簡單的一種分詞方法,相對來說分析效率比較高,但由于中文漢字結(jié)構(gòu)的復(fù)雜性以及新詞語的不斷涌現(xiàn),使得這種分詞方法不能很好地解決一詞多義以及未登錄詞的問題。

2)基于理解的分詞算法。基于理解的分詞算法的基本思想是讓計算機(jī)模擬人類大腦對于詞語和語義的理解,以便能夠達(dá)到識別中文詞語的效果。比較重要的部分是調(diào)度系統(tǒng),在這部分的協(xié)調(diào)之下,計算機(jī)能夠更好地識別相應(yīng)的詞、句子,并根據(jù)它們的句法和語義信息來消除分詞過程中的歧義現(xiàn)象。但由于漢字知識信息的復(fù)雜性,讓所有的漢字都能夠組成機(jī)器所能夠理解的形式是一項比較巨大的工程,所以這種分詞方法還是處于試驗階段。

3)基于統(tǒng)計的分詞方法。基于統(tǒng)計的分詞方法是基于人們對于中文詞語的直覺。詞語是由穩(wěn)定的字組成的,一般來說相鄰的兩個字在一塊兒出現(xiàn)的頻率越高,組成一個詞的可能性就越高。該種分詞方法就是利用計算字與字之間出現(xiàn)的頻率來判斷是否能夠組成相應(yīng)的詞語。而統(tǒng)計頻率的方法一般是用大量的文本進(jìn)行訓(xùn)練,然后判斷它們是否能夠組成詞語,當(dāng)它們共現(xiàn)頻率達(dá)到一定值的時候,就說明能夠組成詞語。這種分詞方法只是對訓(xùn)練文本中相鄰的字進(jìn)行頻率統(tǒng)計,所以不需要與詞典進(jìn)行匹配,所以檢索效率相對來說比較高。

這三種分詞方法各有利弊,在應(yīng)用到系統(tǒng)時可以根據(jù)相應(yīng)的情況進(jìn)行選擇,比較成熟的系統(tǒng)一般是將幾種分詞方法聯(lián)合起來使用。

3.3 中文分詞發(fā)展中的難點

雖然中文分詞算法的研究已取得一些成果,已經(jīng)有一些比較系統(tǒng)的分詞標(biāo)準(zhǔn), 但不可避免地也會存在一些問題,主要是有以下幾方面的困擾。

首先是分詞速度和分詞精度是一個難題。現(xiàn)在的中文分詞算法在這兩方面做得還不夠好,使得系統(tǒng)的運(yùn)行速度以及檢索結(jié)果都未到達(dá)到理想的狀態(tài)。

其次是詞義歧義的問題。一般是指一句話或一個詞有兩種或更多種的意思,使計算機(jī)搞不清楚到底是什么意思,這樣顯然會給系統(tǒng)的檢索精度帶來一定的影響。歧義的處理是中文分詞的一大困難,主要因為歧義有很多種類,不同種類的歧義問題需要不同的解決方案。

還有一種問題是識別未登錄詞。未登錄詞一般是指出現(xiàn)的新詞,還沒收錄在詞典中,這樣就匹配不到相應(yīng)的字符串。這種詞一般是人名、地名或者是隨著時代的發(fā)展出現(xiàn)的一些新詞。把這些詞及時收錄到自己的字典當(dāng)中是一項比較復(fù)雜的工程,因此也是中文分詞亟待解決的問題。

4 結(jié)束語

隨著科學(xué)技術(shù)的發(fā)展,越來越多的領(lǐng)域會涉及中文分詞算法的應(yīng)用,如何能夠快速、準(zhǔn)確地檢索到自己想要的資源,這有待于中文分詞算法的進(jìn)一步改進(jìn)。雖然在搜索引擎中中文分詞算法的研究取得了一定的成果,但還有上文中的一些難點沒有突破,這需要進(jìn)一步研究,除了要在改善3種主要的分詞算法上下功夫,還需要將多種方法結(jié)合起來使用,以便取得更好的分詞效果。相信隨著科學(xué)技術(shù)的進(jìn)一步發(fā)展,以及各類專家的不懈努力,在不久的將來,中文分詞算法會取得長足的進(jìn)步,這樣搜索引擎就會發(fā)揮越來越強(qiáng)大的作用。

參考文獻(xiàn)

[1]龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術(shù),2009(10):2605-2607.

[2]劉件,魏程.中文分詞算法研究田[J].微計算機(jī)應(yīng)用,2008,29(8):11-16.

[3]劉紅芝.中文分詞技術(shù)的研究[J].電腦開發(fā)與應(yīng)用,2010,2(3):173-175.

猜你喜歡
搜索引擎
Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統(tǒng)的設(shè)計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 亚洲三级网站| 久久久久久高潮白浆| 久久精品这里只有精99品| 亚洲男女天堂| 欧美午夜在线观看| 久久中文电影| 99视频在线精品免费观看6| 91亚洲精品第一| 亚洲av中文无码乱人伦在线r| 久久国产精品电影| 国产91特黄特色A级毛片| 99久久人妻精品免费二区| 日本91视频| 九色91在线视频| 国产男人天堂| 91免费国产高清观看| 美女国产在线| 不卡午夜视频| 欧美丝袜高跟鞋一区二区| 国产成人精品高清不卡在线| 国产自产视频一区二区三区| 99在线免费播放| 国产一级二级在线观看| 91亚洲影院| 精品久久人人爽人人玩人人妻| 国产喷水视频| 亚洲精品国产精品乱码不卞| 欧美性爱精品一区二区三区 | 欧美日韩动态图| 伊人久久综在合线亚洲2019| 亚洲人成网7777777国产| 日韩精品免费一线在线观看| av无码一区二区三区在线| 狠狠亚洲五月天| 波多野结衣国产精品| 久久网综合| 性色在线视频精品| 日韩黄色大片免费看| 玖玖精品在线| 亚洲人成色77777在线观看| 日韩精品一区二区深田咏美| 色妞www精品视频一级下载| 亚洲人成网线在线播放va| 国产v精品成人免费视频71pao| 2020亚洲精品无码| 欧美日韩一区二区在线免费观看| 麻豆国产精品| 日韩小视频在线观看| 国产成人无码综合亚洲日韩不卡| 一本大道香蕉中文日本不卡高清二区| 久久女人网| 欧美日本在线一区二区三区| 国产成人精品无码一区二| 婷五月综合| 国产激情无码一区二区免费| 91精品国产自产91精品资源| 高清色本在线www| 在线观看国产精品第一区免费| 国产一区成人| 九色在线观看视频| 91精品国产麻豆国产自产在线| 99视频精品在线观看| 免费欧美一级| 国产在线精彩视频二区| 国产精品浪潮Av| 2048国产精品原创综合在线| 亚洲一区国色天香| 在线高清亚洲精品二区| 无遮挡一级毛片呦女视频| 国产成人亚洲综合A∨在线播放| 亚洲欧洲一区二区三区| 精品国产免费第一区二区三区日韩| 成人福利在线视频| 青青热久免费精品视频6| 亚洲一区无码在线| 1024你懂的国产精品| 久久久久久久久久国产精品| 久草网视频在线| 国产人成乱码视频免费观看| 精品视频一区二区三区在线播| 一级毛片在线播放免费| 欧美日本在线观看|