999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文信息處理中自動分詞技術(shù)的研究與展望

2015-05-30 15:14:38郭淑妮
科技創(chuàng)新與應(yīng)用 2015年25期
關(guān)鍵詞:研究

摘 要:當(dāng)前人們在工作和學(xué)習(xí)中需使用中文信息處理技術(shù)獲取自己需要的資源,基于人們需求不斷增加,必須提升人們搜索資源的效率,提升中文信息處理相關(guān)技術(shù),讓中文信息處理與時俱進,滿足人們實際需求。中文信息處理包含多種關(guān)鍵技術(shù),為提高信息處理能力必須多種技術(shù)同時發(fā)揮作用。中文信息處理自動分詞技術(shù)是信息處理技術(shù)瓶頸,文章就文信息處理自動分詞技術(shù)展開研究。

關(guān)鍵詞:中文信息處理技術(shù);自動分詞技術(shù);研究

21實際是電子信息時代,計算機在人們生活中占據(jù)重要地位。中文是我國第一語言,中文信息化處理在計算機中應(yīng)用能夠有效滿足人們對信息的需求。中文信息處理主要對中文進行轉(zhuǎn)換、傳輸、存貯、分析等加工目前我國雖然在中文信息處理方面取得一定進步,但某些關(guān)鍵技術(shù)仍舊有待完善,自動分詞技術(shù)就是其中之一。

1 自動分詞技術(shù)的研究現(xiàn)狀及面臨的困難

隨著人們對中文信息處理技術(shù)要求不斷提升,中文信息處理自動分詞技術(shù)已經(jīng)成為影響信息處理的關(guān)鍵技術(shù)之一。因此,必須對自動分詞技術(shù)深入研究,分析其現(xiàn)狀及存在的問題。

自動分詞技術(shù)研究目前已經(jīng)取得一定成效,一些比較實用的自動分詞技術(shù)已經(jīng)被應(yīng)用,這些分詞技術(shù)在精確度以及分詞速度上已經(jīng)能夠滿足人們一些基本需求,但在一些特殊需求上仍需要進一步提升精確度和分詞速度,當(dāng)前自動分詞技術(shù)面臨的問題主要有以下三點:

(1)中文一些詞語概念難以界定,很多詞語具有多重意思;(2)未登錄詞的識別;(3)歧義切分字段的處理。

我國上世紀(jì)90年代制定的《現(xiàn)代漢語分詞規(guī)范》中明確規(guī)定了一些分詞原則,與分析相關(guān)操作可根據(jù)該規(guī)范展開。進行分詞前需制定標(biāo)準(zhǔn)化、實例化的分詞詞表,并在實踐中不斷進行修改完善,該詞表制作存在一定難度。

我國詞典雖然處于不斷完善過程中,但其必然存在最大容量,而中文內(nèi)涵是無限的。因此,必然有一些詞匯沒有被收錄到詞典中,尤其是一些新產(chǎn)生的詞匯在詞典更新前往往無法從詞典中搜索到。因此,必須建立標(biāo)準(zhǔn)化分詞詞表并不斷進行完善,持續(xù)改進。

漢語難以實現(xiàn)自動分詞功能,究其原因是漢語語義多樣性引起的,不同中文從不同角度理解便可得出不同結(jié)論,且傳統(tǒng)中文信息傳遞主要以書寫為主。因此,無論如何分詞都難以消除中文分詞歧義。中文信息處理中自動分詞技術(shù)已經(jīng)成為自動分詞技術(shù)實際運用的最大障礙,相關(guān)專家學(xué)者必須針對該問題結(jié)合當(dāng)前先進算法提升自動分詞技術(shù),解決歧義切分字段的處理。

2 歧義字段的定義及分類

中文句子經(jīng)常會出現(xiàn)多種切分出現(xiàn)多種語義的狀況。中文處理信息技術(shù)匯總將這種狀況稱之為歧義字段,一般可將其分為交集型歧義字段、覆蓋型歧義字段、多義型或組合型。

交集型歧義字段:舉例來說,假設(shè)A、B、C分別代表字串,該字串由一個或多個子串組成,即其中A、B、C可自由分割,此時若出現(xiàn)字段中A、B、C均為分詞表中對應(yīng)的詞,則將其稱之為交集型歧義字段。例如對于“美國會”這一交集型歧義字段,可將其且分為“美/國會”以及“美國/會”兩種結(jié)果。調(diào)查表明,中文信息處理中交集型歧義字段在歧義字段中占據(jù)比例約為85%,解決交集型歧義字段問題是中文信息處理重中之重。

覆蓋型歧義字段:若A、B代表一個或多個子串組成的字段,將其分段為A、B、AB等均為分詞表中的詞。此時AB則被稱為覆蓋型歧義字段,例如“把手”可分為“把/手”,均可獨立作為分詞,“十/分”也是覆蓋型歧義字段。一般情況下覆蓋型歧義字段在中文信息處理中遇到幾率不高,一旦出現(xiàn)便會造成中文信息處理故障,因此需慎重對待。

3 中文自動分詞算法分類

3.1 基于機械匹配的中文自動分詞算法

機械匹配算法基本思想是先建立詞庫,將所有可能出現(xiàn)的詞納入其中,如需處理給定漢字串S,則按照某種特定分詞原則將其與詞庫中某些分詞相匹配。如果S中分割的子串本身是詞則繼續(xù)對其進行分割,直至最后剩余部分為空;如果S中分割的子串本身不是詞則取S子串進行匹配。機械匹配算法僅依靠分詞進行匹配,因此在系統(tǒng)實現(xiàn)上以及操作上較為簡單,針對某些基本中文信息處理有一定成效,目前已經(jīng)得到廣泛應(yīng)用。

根據(jù)每次匹配時優(yōu)先考慮長詞還是短詞可將機械匹配算法分為最大匹配法和最小瓶匹配法;根據(jù)分割匹配漢字串是是正向還是反向又可將其分為正向匹配法和反向匹配法。

3.2 基于統(tǒng)計語言模型的中文自動分詞算法

隨著網(wǎng)絡(luò)時代到來,越來越多學(xué)者都認識到網(wǎng)絡(luò)電子文本是重要自動分詞資源,利用相關(guān)手段在電子資源庫中直接獲取需要的知識在未來必將成為自動分詞重要組成部分,基于統(tǒng)計語言模型的中文自動算法在這樣的環(huán)境下誕生了。

基于統(tǒng)計語言模型分詞算法基本思想是對分詞在中文漢字相鄰位置出現(xiàn)概率的可信度進行統(tǒng)計,將相關(guān)統(tǒng)計信息作為分析依據(jù)。

4 自動分詞技術(shù)展望——人工智能技術(shù)的中文自動分詞方法

人工智能技術(shù)就是利用智能系統(tǒng)具備的神經(jīng)網(wǎng)路以及專家系統(tǒng)進行中文信息處理自動分詞功能,以實現(xiàn)中文信息處理自動化。該種算法的主要思想是利用智能系統(tǒng)模仿進行語言識別。

神經(jīng)網(wǎng)絡(luò)分詞算法是模擬人腦進行分詞處理以及數(shù)值據(jù)算的一種智能算法,該算法主要將知識隱式方法輸入神經(jīng)網(wǎng)絡(luò)并存儲,通過系統(tǒng)自學(xué)及訓(xùn)練修改的方式達到有效分詞效果。專家系統(tǒng)分詞算法主要指從模擬人腦出發(fā)將知識分詞看做推理過程,將漢字串按照語法、語義、句法等從結(jié)構(gòu)上分離開來。

5 結(jié)束語

中文信息處理技術(shù)在過去一段時間獲得長足發(fā)展,已經(jīng)能夠滿足人們對中文信息處理基本需求,從長遠角度來看為更進一步促進中文信息發(fā)展必須度仍舊存在的問題進行深入分析探討,中文信息處理自動分詞技術(shù)是其中關(guān)鍵一環(huán)。因此,必須對其展開深入研究,使其適應(yīng)時代發(fā)展需求。

參考文獻

[1]賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望[J].計算機工程與應(yīng)用,2012(5):56-59.

[2]梁南元.書面漢語自動分詞系統(tǒng)[J].語言文字應(yīng)用.2011(3):98.

作者簡介:郭淑妮(1981,12-),女,山東威海人,碩士研究生,內(nèi)蒙古民族大學(xué)計算機科學(xué)與技術(shù)學(xué)院,研究方向:中文信息處理,語音識別。

猜你喜歡
研究
FMS與YBT相關(guān)性的實證研究
2020年國內(nèi)翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關(guān)于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統(tǒng)研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側(cè)面碰撞假人損傷研究
關(guān)于反傾銷會計研究的思考
焊接膜層脫落的攻關(guān)研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 国产亚洲精品资源在线26u| 91精品人妻互换| 亚洲成在人线av品善网好看| 亚洲区一区| 综合人妻久久一区二区精品| 一区二区三区高清视频国产女人| 亚洲国产第一区二区香蕉| 91精品国产麻豆国产自产在线| 亚洲天堂日韩av电影| 国产白浆一区二区三区视频在线| 狠狠色丁香婷婷综合| 免费Aⅴ片在线观看蜜芽Tⅴ| 久久国产免费观看| 欧洲免费精品视频在线| 国产噜噜噜视频在线观看| 69综合网| jizz国产视频| 欧美精品亚洲二区| 免费无码AV片在线观看中文| 国产剧情伊人| 亚洲侵犯无码网址在线观看| 久久久受www免费人成| 四虎永久免费在线| 日本一本正道综合久久dvd| 国产精品美女自慰喷水| 成人韩免费网站| www.日韩三级| 色婷婷色丁香| 中文字幕人妻无码系列第三区| 日韩欧美中文字幕一本| 日韩精品专区免费无码aⅴ| 日韩在线影院| 日韩欧美91| 日韩国产无码一区| 中文字幕资源站| 99精品在线视频观看| 欧美一级专区免费大片| 国产网友愉拍精品视频| 中国毛片网| 国产自产视频一区二区三区| 国产精品深爱在线| 视频国产精品丝袜第一页| 人妻丰满熟妇啪啪| 美女国产在线| 亚洲午夜18| 91蜜芽尤物福利在线观看| 国产成人夜色91| 日韩毛片在线播放| 91热爆在线| 亚洲人成网18禁| 天天操天天噜| 综合网天天| 色噜噜综合网| 国产微拍精品| 国产精品一区不卡| 无码国内精品人妻少妇蜜桃视频| 欧美日本激情| 久久精品中文字幕少妇| 精品国产99久久| 色老头综合网| 97精品伊人久久大香线蕉| 又爽又大又黄a级毛片在线视频 | 欧美激情伊人| 影音先锋丝袜制服| 国产欧美日本在线观看| 国产成人禁片在线观看| 国产精品亚洲va在线观看| 无码视频国产精品一区二区 | 国产美女无遮挡免费视频网站 | 欧美高清国产| 一区二区三区国产精品视频| 欧美精品黑人粗大| 日韩AV手机在线观看蜜芽| 国产欧美视频一区二区三区| 国产99在线| 2022国产91精品久久久久久| 日韩国产高清无码| 亚洲欧美日本国产专区一区| 国产精品一区在线麻豆| 国产精品网曝门免费视频| 午夜精品久久久久久久99热下载 | 好吊色妇女免费视频免费|