999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

DGP系統(tǒng)中分詞技術(shù)的實(shí)現(xiàn)

2013-09-17 12:30:26張麗春周新志
通信技術(shù) 2013年1期
關(guān)鍵詞:方法系統(tǒng)

張麗春, 周新志

(四川大學(xué) 電子信息學(xué)院,四川 成都 610064)

0 引言

DGP就是《氣田地面工程設(shè)計(jì)規(guī)定》體系(DGP,Code for Design of Gasfield Group Project),DGP 要實(shí)現(xiàn)的功能是將各類繁多數(shù)量龐大的相關(guān)文件數(shù)據(jù)進(jìn)行統(tǒng)一的管理,以方便用戶查找和下載打印,便于實(shí)現(xiàn)知識共享,實(shí)現(xiàn)對氣田地面工程的設(shè)計(jì)技術(shù)標(biāo)準(zhǔn)和工作標(biāo)準(zhǔn)進(jìn)行系統(tǒng)地管理。因?yàn)橄駡D書館查閱的方式已經(jīng)達(dá)不到方便快捷的查詢與使用,必須要建立一個(gè)像 DGP一樣的能夠提供便捷的服務(wù)來滿足用戶的需要。DGP需要完成搜索與管理功能,具體表現(xiàn)在需要實(shí)現(xiàn)用戶登陸系統(tǒng),文件搜索、瀏覽、下載、打印,文件上傳、刪除、更新,文件的管理,系統(tǒng)的管理等功能[1]。要實(shí)現(xiàn)這些功能需要用到很多的技術(shù),其中非常關(guān)鍵的一項(xiàng)技術(shù),也是影響 DGP系統(tǒng)性能至關(guān)重要的一項(xiàng)技術(shù)就是分詞技術(shù)。

分詞技術(shù)是搜索引擎針對用戶提交查詢的關(guān)鍵串進(jìn)行的查詢處理,后根據(jù)用戶的關(guān)鍵串用各種匹配方法進(jìn)行的一種技術(shù),是一個(gè)搜索引擎好壞的關(guān)鍵[2]。中文分詞技術(shù),指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞,也就是將連續(xù)的字序列按照一定的規(guī)則重新組合成詞序列的過程。因?yàn)橹形牡脑~沒有一個(gè)形式上的分界符,而英文有空格作為單詞之間的分界符,所以中文比英文的要更復(fù)雜、更困難[3]。

現(xiàn)有的分詞技術(shù)有三大類:基于詞頻度統(tǒng)計(jì)的分詞方法、基于字典詞庫匹配分詞方法、基于知識理解的分詞方法。三種分詞技術(shù)分別有各自的特點(diǎn):統(tǒng)計(jì)分詞方法的優(yōu)點(diǎn)在于可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來,但是分詞速度太慢了;基于字典詞庫匹配分詞方法速度比較快,但對詞典的依賴性較大,且不能根據(jù)文檔上下文的語義特征來切分詞語,在實(shí)際使用時(shí),難免會(huì)造成一些分詞錯(cuò)誤,為了提高系統(tǒng)分詞的準(zhǔn)確度,可以采用正向最大匹配法和逆向最大匹配法相結(jié)合的分詞方案,即雙向匹配法;基于知識理解的分詞方法的分詞效率應(yīng)該是最好的,但是目前還處于完善階段[4]。

在此,綜合現(xiàn)有的分詞技術(shù)的優(yōu)缺點(diǎn),確定將最大匹配法進(jìn)行改進(jìn)之后運(yùn)用于DGP系統(tǒng)之中,并討論最大匹配法在DGP系統(tǒng)里的實(shí)現(xiàn)問題。

1 最大匹配法的思路及改進(jìn)

最大匹配法是需要建立一個(gè)“充分大”的機(jī)器詞典,也就是建立一個(gè)關(guān)鍵詞庫[5],其中包含所有可能出現(xiàn)的詞,將需要分詞的字符串按照一定的方法與詞典中的詞條進(jìn)行逐條匹配,直到找出匹配的詞則匹配成功[6]。這類方法簡單、分詞效率高。

最大匹配法的特點(diǎn)就是從最長的詞開始匹配,可以提高查詢的速度,提高工作效率。最大匹配法又分為正向最大匹配法和逆向最大匹配法。正向最大匹配法的基本思路如下:

2)從詞典中查找最大長度匹配詞的值M=MAX_Length,“窗口”的起始位置為待匹配句子的第一個(gè)字,記為j=0。

3)當(dāng)n j- 大于等于M且M大于等于1時(shí),則從j的位置開始向后截取長度為M的子串進(jìn)行匹配,若匹配不成功則進(jìn)入步驟 4,若匹配成功則進(jìn)入步驟5;當(dāng)n j- 小于M且M大于等于1時(shí),進(jìn)入步驟6;當(dāng)M小于1時(shí),進(jìn)入步驟7。

4) 1j j= + ,進(jìn)入步驟3。

5)將匹配成功的分詞取出,j jM= + ,進(jìn)入步驟3。

6)M值減1, j=0,進(jìn)入步驟3。

7)匹配結(jié)束[7]。

用流程圖來描述如圖1所示。

逆向最大匹配法與正向最大匹配法相差無幾,只是逆向最大匹配法是從詞串的最后一個(gè)字開始取i個(gè)字與詞典作匹配而已。

在正向和逆向最大匹配法中,都是運(yùn)用了“窗口”的思想。首先選取了最大長度M,確定窗口的大小,從最前端的第一個(gè)字開始依次往向挪動(dòng)“窗口”截詞與詞典中的詞進(jìn)行匹配。如果匹配成功,那么將詞典中匹配的關(guān)鍵詞取出,繼續(xù)向后匹配,如果整個(gè)句子都沒匹配成功,那么將M的值減一,即是將窗口的大小減小一個(gè)字,依照之前的方法進(jìn)行挨個(gè)匹配,直到將待匹配的句子全部與詞典中的詞匹配并截取出來,整個(gè)匹配任務(wù)便完成了[8]。

圖1 正向最大匹配法流程

舉例看一下最大匹配法的分詞效果:

假使有句子 A:“有意見分歧”,B:“天然氣管理部門”,使用正向和逆向最大匹配法對其進(jìn)行切分,分別得到“有意、見、分歧”,“天然氣、管理部門”和“有、意見、分歧”,“天然氣、管理部門”。從語義上來看,可以看到句子 A使用逆向最大匹配法分詞是正確的,句子B兩種方法得到的結(jié)果是一樣的,都是正確的。因此,為了提高分詞的準(zhǔn)確性,應(yīng)該考慮將正向、逆向最大匹配法結(jié)合的方式進(jìn)行分詞。在具體分詞的時(shí)候,如果兩種分詞方法得到的匹配結(jié)果相同,則認(rèn)為分詞正確,否則,按最小集處理。使用雙向最大匹配法可以大大提高分詞的準(zhǔn)確率。

但是雙向最大匹配法也給分詞帶來了一些難題,因?yàn)閺臅r(shí)間效率上來講,雙向最大匹配法肯定要比單向的匹配法效率要低些,但是為了準(zhǔn)確率,必須犧牲一點(diǎn)時(shí)間效率。在這樣的情況下,考慮到可以從另外的地方進(jìn)行改進(jìn),為DGP系統(tǒng)搜索節(jié)約出一部分的時(shí)間。因?yàn)樽畲笃ヅ浞ㄓ幸粋€(gè)特點(diǎn)是“長詞優(yōu)先”[9],而在分詞的時(shí)候,是將切分的句子與詞典中的詞一一匹配的,那么可以考慮將詞典里的詞按相同長度的詞分成一個(gè)詞塊,在分詞匹配的時(shí)候,根據(jù)待匹配的詞的長度,也就是M值,確定目前應(yīng)與哪個(gè)長度的詞塊里的詞進(jìn)行匹配。這樣就避免與不同詞長度的詞塊匹配浪費(fèi)很多時(shí)間,達(dá)到了提高搜索效率的目的。

2 雙向匹配法在DGP系統(tǒng)中的運(yùn)用效果

DGP系統(tǒng)中的文件主要是一些標(biāo)準(zhǔn)規(guī)范、技術(shù)規(guī)格書、參考資料等等,內(nèi)容十分豐富。在這里可以看一下雙向匹配法在DGP系統(tǒng)中的運(yùn)用效果。

如圖2、圖3所示,在DGP系統(tǒng)中只要輸入關(guān)鍵字就能查出所有的相關(guān)的標(biāo)準(zhǔn)文獻(xiàn),并沒有其它無關(guān)的信息出現(xiàn),說明雙向匹配法讓DGP系統(tǒng)搜索的準(zhǔn)確率大大高,而且在實(shí)際操作的時(shí)候,反應(yīng)速度是很快的,完全能夠滿足用戶的實(shí)際需要。這說明,在DGP系統(tǒng)中,運(yùn)用雙向匹配法能夠很好地達(dá)到高效查找資料的目的,并提高搜索準(zhǔn)確率,使得DGP系統(tǒng)得到優(yōu)化。

圖2 雙向匹配法在DGP系統(tǒng)中的運(yùn)用圖例(1)

圖3 雙向匹配法在DGP系統(tǒng)中的運(yùn)用圖例(2)

3 結(jié)語

通過對分詞技術(shù)的分析,并且根據(jù)DGP系統(tǒng)的分詞需要,分析出使用雙向最大匹配法是最適合DGP系統(tǒng)的分詞方法。并了解到雙向最大匹配法在分詞的時(shí)候的難點(diǎn)是:在進(jìn)行分詞時(shí)會(huì)在一定程度上會(huì)使 DGP的分詞效率稍微有點(diǎn)降低,使搜索變慢,在這樣的情況下,提出對詞典進(jìn)行適當(dāng)?shù)卣?,將詞典內(nèi)的詞按詞長分塊,以提高DGP系統(tǒng)分詞效率,為搜索節(jié)約了時(shí)間,并且提高了搜索的準(zhǔn)確率,達(dá)到了優(yōu)化DGP系統(tǒng)的目的。

[1] 趙詩陽.DGP系統(tǒng)中基于庫的垂直檢索技術(shù)的優(yōu)化[D].四川:四川大學(xué),2011.

[2] 黃春毅.一種自適應(yīng)搜索引擎的構(gòu)建研究[J].情報(bào)檢索,2006(02):163-164.

[3] 羅小虎.基于蟻群算法的漢語自動(dòng)分詞的研究與實(shí)現(xiàn)[D].江蘇:蘇州大學(xué),2004.

[4] 向暉,郭一平,王亮.基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2006(08):46-50.

[5] 吳瑞,周雪廣.網(wǎng)上不良信息過濾系統(tǒng)研究[J].信息安全與通信保密,2005(08):104-106.

[6] 王科,高常波,翟雪峰,等.漢語分詞的主要技術(shù)及其應(yīng)用展望[J].通信技術(shù),2003(06):12-15.

[7] 鄒松.垂直搜索引擎中文分詞技術(shù)的算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(02):131-133,137.

[8] 郭輝,蘇中義,王文,等.一種改進(jìn)的 MM分詞算法[J].微型電腦應(yīng)用,2002,18(01):13-15.

[9] 田占霄,韓憲忠,王克儉.一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞沒消歧策略[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2009,32(04):100-102,107.

[10] 李航宇.有限域上的圓錐曲線的數(shù)乘運(yùn)算(英文)[J].信息安全與通信保密,2007(08):64-65,69.

[11] 杜虎強(qiáng),梁衛(wèi)星,周杰.AKF與EFRLS在動(dòng)態(tài)目標(biāo)跟蹤性能上的比較[J].通信技術(shù),2009,42(11):208-210.

猜你喜歡
方法系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
學(xué)習(xí)方法
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 国产欧美综合在线观看第七页| 亚洲永久视频| 国产精品久线在线观看| 无码aⅴ精品一区二区三区| 日韩中文无码av超清| 香蕉久久国产精品免| 这里只有精品国产| 欧美在线视频不卡第一页| 久久精品国产一区二区小说| 国产精品一区在线麻豆| 中文无码毛片又爽又刺激| 99这里只有精品在线| 欧美成人看片一区二区三区 | 丁香婷婷激情综合激情| 中文字幕欧美日韩高清| 国产黄色片在线看| 国产综合色在线视频播放线视| 久无码久无码av无码| 久久精品一卡日本电影| 久久这里只精品热免费99| 99这里只有精品免费视频| 性喷潮久久久久久久久| 青草视频在线观看国产| 午夜日b视频| 在线观看无码av五月花| 99热6这里只有精品| 无码视频国产精品一区二区| 白浆免费视频国产精品视频| 午夜欧美理论2019理论| 高清视频一区| 青青草原国产精品啪啪视频| 99福利视频导航| 黄色在线不卡| 天天视频在线91频| 99视频免费观看| 久久综合干| 国产亚洲精品精品精品| 91丨九色丨首页在线播放| 日本高清有码人妻| 国产成人欧美| 99精品久久精品| 国产一区二区三区精品欧美日韩| 日本亚洲国产一区二区三区| 丁香五月婷婷激情基地| 亚洲欧洲日本在线| 在线观看国产小视频| 又爽又大又黄a级毛片在线视频| 色综合中文字幕| 亚洲国产精品不卡在线| 99视频在线观看免费| 免费人成网站在线观看欧美| 丁香五月激情图片| 国产精品免费福利久久播放| 国产日韩av在线播放| 国产成人一区在线播放| 5555国产在线观看| 午夜在线不卡| 日韩专区欧美| 97青草最新免费精品视频| 精品超清无码视频在线观看| 视频二区亚洲精品| 成人欧美在线观看| 亚洲国产成人在线| 亚洲狼网站狼狼鲁亚洲下载| 九九香蕉视频| 免费观看无遮挡www的小视频| 色综合成人| 99re这里只有国产中文精品国产精品| 亚洲综合国产一区二区三区| 在线国产毛片手机小视频| 国产丝袜一区二区三区视频免下载| 好吊妞欧美视频免费| 全午夜免费一级毛片| 国产在线观看人成激情视频| 日韩国产 在线| 国产成人8x视频一区二区| 91成人在线观看| 日韩精品无码不卡无码| 国产大片黄在线观看| 欧美日韩一区二区三| 精品久久久久久久久久久| 国产欧美在线观看精品一区污|