999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談基于WEB下的中文分詞算法

2013-01-01 00:00:00姚峰
無線互聯科技 2013年4期

摘 要:基于互聯網信息平臺下,對如何快速準確的進行中文分詞進行研究。主要對基于WEB環境下的中文分詞建立模型,快速中文分詞,自動中文分詞進行全面的闡述。

關鍵詞:分詞算法;最短匹配

1 分詞算法的分詞實現

1.1 基礎想法

通過自定義或已有詞典的自動查詢,將字符中所以字符以詞語的形式進行分割,形成若干個小的詞語搜索項。然后再采用層和相鄰法來獲取到最后的切分詞項結果。相鄰法其實就是最短路徑法,以最少的詞在一定的長度內,運算匹配次數最少,也可以說是為指定路徑長度的條件下,經過的詞項頂點數很多。中文分詞算法正是基于這樣的思路。下面我將系統的介紹中文分詞算法的原理方法。

1.2 基于模法

設字符串為總長度為S,字符串中單個字符為B。S=B1 B2 ……Bn。其中需要進行切分的字符串中B,B下面的數字(1,2, ….n)是單個的字符,n≥1。去處所有無意義單字如:的,嗎,吧等等,對整個字符串建立字符索引項。所有字符項組成一個類的集合,根據字典字符相似度和最少路徑法進行快速循環匹配。中文分詞流程如下圖:

2 快速中文分詞

2.1 分詞快速查找法

在分詞快速查找法中分為字頻相似字典快速查找和內存二進制簇節點查找。其中,分詞相似快速查找是將錄入字符串分解成詞或短語。再根據詞或短詞的相似程度對比字典快速分類的方法。內存二進制簇方法是直接針對物理計算機內存的二進制碼和簇的結構進行于或運算比對進行分類的方法。

2.2 相鄰相匹配法

相鄰相匹法又稱最小路徑法。設未知字符串為S=B1 B2 ……Bn。(n為字符個數),根據B1可以計算出相對的索引值L,以B1詞為簇中首個關鍵指針,Pwci為指示未知字符串中的距離指針,Pwci→Pwin,第二次重新指向字符串S再次比對分類。如果有某個字符(Bn)為字符串(S)的前綴,那么字符串(S)就可以被匹配。這樣經過循環得到最后的分詞結果。

3 中文自動分詞中的黃金分詞三法

3.1 中文字符串匹配法

這是基于中文的字符串匹配的一種方法。這種方法又叫做機械式分詞法,其原則是按照一定的算法將等待分析的漢字串與一個\"非常大的\"機器詞典中的詞條進行有規律的匹配,如果在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照計算機掃描方法的區別,可以把字符串匹配的方式分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合的方法,又可以分為單純分詞方法和分詞與標注相結合的一體化法。

3.2 基于理解的分詞方法

這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想理念就是在分詞的同時進行句法和語義分析,利用句法信息和語義信息來處理計算機理解的歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。

3.3 基于統計的分詞方法

從形式表面上看,名子是比較穩定的字和詞語之間的組合,所以在上下文中,相鄰的字或詞語同時在一段或一篇文章中出現的次數越多,就越有可能構成一個詞。因此字、詞以及語句相鄰共同出現的頻率或概率能夠較好地反映成詞或句的可信度。可以對語句語料中相鄰共現的各個字或詞的組合的頻度進行統計計算,計算它們的互助出現信息。定義兩個字或詞的相互出現信息,計算兩個漢字Q、Z的相鄰共現的概率。相互出現信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個數值時,便可認為此單個漢字的組合可能構成了一個詞組。這種方法只需對語句語料中的單個漢字的組合的頻度進行統計計算,根本不需要用到切分詞典,所以又叫做無詞典分詞法或統計取詞方法。但是這種方法也有一定的弊端和局限性,會經常的抽出一些共同出現頻度較高、但是并不是中文詞的常用字組,例如:“等等”、“之一”、“有的”、“其他的”、“我的”、“許多的”等等,并且對常用詞的識別精度不是很好,時空開銷比較大。

[參考文獻]

[1]趙曾貽,陳天娥,朱蘭.一種基于語詞的分詞方法[J].蘇州大學學報, 2002,18(3):44-48.

主站蜘蛛池模板: 四虎国产精品永久一区| 国产激情无码一区二区APP| 中文字幕天无码久久精品视频免费 | 亚洲天堂日本| 欧洲日本亚洲中文字幕| 91在线中文| 97久久精品人人| 精品无码国产一区二区三区AV| 国产在线小视频| 波多野结衣久久精品| 国产欧美自拍视频| 亚洲另类国产欧美一区二区| 亚洲不卡网| 亚洲一级毛片在线播放| 免费日韩在线视频| 国产凹凸视频在线观看| 午夜老司机永久免费看片| 91久久国产成人免费观看| 国产综合亚洲欧洲区精品无码| 香蕉视频在线观看www| 福利一区在线| 精品色综合| 国产精品va免费视频| 精品国产乱码久久久久久一区二区| 亚洲欧美日韩中文字幕在线一区| 欧日韩在线不卡视频| 国产一区二区三区日韩精品 | 自拍偷拍欧美日韩| 日韩色图在线观看| 国产资源免费观看| 丰满的少妇人妻无码区| 国产成人无码AV在线播放动漫| 国产超碰在线观看| 五月激情综合网| 2021最新国产精品网站| 亚洲无码四虎黄色网站| 国产精品免费露脸视频| 又粗又大又爽又紧免费视频| 中文字幕亚洲无线码一区女同| 欧美精品一区在线看| 午夜精品国产自在| 玖玖免费视频在线观看| 毛片在线看网站| 亚洲人成成无码网WWW| 久久国产亚洲欧美日韩精品| 国产免费高清无需播放器| 欧美国产在线看| 欧美va亚洲va香蕉在线| 亚洲精品成人片在线播放| 中文字幕无码制服中字| 日本91视频| 欧美色视频日本| P尤物久久99国产综合精品| 欧美97欧美综合色伦图| 国产精品主播| 72种姿势欧美久久久大黄蕉| 久久96热在精品国产高清| a毛片免费在线观看| 久久99蜜桃精品久久久久小说| 久久久久国色AV免费观看性色| 国产特级毛片| 日本高清有码人妻| 一级成人a做片免费| 国产一级精品毛片基地| 最新国产你懂的在线网址| 亚洲AⅤ无码日韩AV无码网站| 成人另类稀缺在线观看| 一级毛片视频免费| 国产人人射| 国产在线精彩视频二区| 国产精品永久不卡免费视频| 欧美日韩免费| 亚洲中文在线视频| 日韩久草视频| 国产午夜无码片在线观看网站| 国产精品视频猛进猛出| 又粗又大又爽又紧免费视频| 中文字幕欧美日韩高清| 91精品啪在线观看国产60岁 | 伊人激情综合网| 国产精品短篇二区| 国产精品女主播|