999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最小費用最大流的中文分詞算法模型

2014-12-03 10:10:12馬凌霄
科技資訊 2014年26期

馬凌霄

摘 要:中文自動分詞不僅是中文信息處理的基礎性工作而且對后續句法分析、語義分析等中文信息處理流程有著很大的影響。本文基于最小費用最大流,提出一個具有拓展性的中文分詞算法模型,實驗證明了本算法能夠準確地對輸入文字串進行切分。

關鍵詞:中文分詞 最小費用最大流 字符串匹配 中文信息處理

中圖分類號:TP319 文獻標識碼:A 文章編號:1672-3791(2014)09(b)-0219-01

隨著人工智能的快速發展,中文信息處理已經在搜索引擎、Web文本挖掘、自動文摘、文本校對等領域發揮越來越重要的作用。中文自動分詞不僅是中文信息處理的一項基礎性工作而且是嚴重制約中文信息處理發展的瓶頸之一。本文致力于中文自動分詞算法的研究,基于最小費用最大流的原理提出一個具有拓展性的中文分詞算法模型。

1 中文自動分詞算法簡述

中文分詞的基本方法是基于已有詞典庫或者規則庫,針對輸入文字的字符串做分詞、過濾處理,輸出最優切分的中文單詞[1]。

中文分詞算法主要分為以下四類[1-3]:

(1)基于字符串匹配的分詞方法:按照一定的字符串匹配策略,將輸入文字的字符串與詞典庫中的詞條進行匹配,若匹配成功,則進行切分。主要算法有:最大匹配法、逆向最大匹配法、最佳匹配法、逐詞遍歷法等。

(2)基于規則的分詞方法:將基于字符串匹配的分詞算法與分詞規則庫結合,采用不同的策略對輸入語句進行切分,切分一致的部分判定為切分正確,不一致的部分為歧義字段。

(3)基于統計的分詞方法:采用多種切分策略對輸入字符串進行切分,根據分詞詞典匹配出所有可能的切分情況并計算切分的概率,求出概率最大的切分策略作為切分結果。

(4)基于理解的分詞方法:在分詞的過程中,不僅進行字符串的切分,而且進行句法分析、語義分析,利用句法和語義信息處理切分歧義。目前此方法尚處于試驗階段。

本文提出的基于最小費用最大流的中文分詞算法模型即為基于字符串匹配的分詞方法,而且此分詞算法模型可以拓展為基于統計的分詞方法。

2 基于最小費用最大流的中文分詞算法模型

2.1 最小費用最大流

最小費用最大流問題的定義如下:設是一個有向圖,為起點(源點),為終點(匯點),其中每一條邊均有一個非負容量、一個費用和一個不大于容量的流量,問怎樣制定運輸方案使得從到的流量最大且總費用最小?

最小費用最大流問題的求解途徑有兩種[4]:(1)保持網絡中的可行流是最大流,逐步調整使得總費用逐步減小,最終得到最大流量的最小費用流;(2)保持網絡中的可行流是最小費用流,逐步調整使得流量逐步增大,最終得到最小費用的最大流。顯然第二種途徑與已知最大流問題的求解算法相近,并可以將問題轉化為一個求從點到點的最短路徑問題:不斷以費用為權值,使用最短路徑算法,尋找一條從點到點的最小費用增廣路,直至找不到從點到點的增廣路。

2.2 中文分詞算法模型

基于上述最小費用最大流模型,下面給出基于最小費用最大流的中文分詞算法模型。

(1)將輸入文字串進行全切分。

①刪去輸入文字串的空格、回車等非中文字符。

②將得到的字符串對切分大小從1到7進行反復切分,并在詞典庫中查找切分結果:找到,則在詞表增加一條記錄;沒找到,則忽略此次切分結果。

(2)基于全切分的結果建圖。

①遍歷全切分結果詞表:對詞表每一條記錄添加一個頂點。如果詞表兩個記錄,是相鄰的,則建立一條從到的有向邊,容量,費用,流量。

②將源點與字符串第一個詞對應的頂點建立一條從到的有向邊,容量,費用,流量。

③將字符串最后一個詞對應的頂點與匯點與建立一條從到的有向邊,容量,費用,流量。

(3)求解此最小費用最大流問題。

①在只允許通過容量-流量>0的邊的限制下,以費用為權值,使用SPFA算法[5]求從源點到匯點的一條最短路徑,即最小費用增廣路。

②對于(a)中求得的路徑,令路徑上的每一條邊的流量=容量。

③重復(a)(b)過程,直至無法找到從源點到匯點的最短路徑。

(4)從源點遍歷整個圖,對于任意一條有向邊,如果流量,輸出頂點和對應的中文單詞。即可得到中文分詞結果。

2.3 模型拓展

在上述分詞算法模型的基礎上,通過改變邊的費用權值,可以將算法拓展為基于統計的分詞方法。下面給出一種拓展方法[3]。

(1)設詞典包括個詞條,則為這個詞條建立的馬爾科夫一階轉移矩陣,其中

(2)建立從到的有向邊時,令費用。

這樣我們就得到一個基于統計方法的最小費用最大流中文分詞算法。

3 算法分析與實驗

3.1 算法的時間復雜度分析

設輸入字符串長度為,每次查詢詞典庫的時間復雜度為,則對字符串進行全切分的時間復雜度為;設有向圖的頂點個數為,邊的個數為,尋找最小費用增廣路的次數為,則每次求解從源點到匯點的最短路徑的時間復雜度為[5],求解最小費用最大流問題的時間復雜度為。綜合上述兩個步驟的時間復雜度,中文分詞算法總時間復雜度為。

3.2 實驗

為了驗證本文提出的中文分詞算法的準確性,本文使用教育部語言文字應用研究所《現代漢語語料庫詞頻表》[6]作為詞典庫,對50篇新聞文章進行中文分詞,分詞正確率達到96.81%,說明了此分詞算法具有很高的準確性。

4 結語

本文提出的基于最小費用最大流的中文分詞算法模型不僅能準確地切分輸入字符串,而且可以通過改變費用權值拓展算法考慮的切分標準來提高切分準確度,具有很好的拓展性。

參考文獻

[1] 龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術,2009,5(10): 2605-2607.

[2] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.

[3] 宋繼華,楊爾弘,王強軍.中文信息處理教程[M].北京:高等教育出版社,2011.

[4] Orlin,J.B.A faster strongly polynomial minimum cost flow algorithm [J].Operations research,1993:41(2),338-350.

[5] 段凡丁.關于最短路徑的SPFA快速算法[J].西南交通大學學報,1994,29(2):207-212.

[6] 教育部語言文字應用研究所.現代漢語語料庫詞頻表[EB/OL].(2014-07-16) [2014-08-05].http://www.cncorpus.org/resources.aspx.endprint

摘 要:中文自動分詞不僅是中文信息處理的基礎性工作而且對后續句法分析、語義分析等中文信息處理流程有著很大的影響。本文基于最小費用最大流,提出一個具有拓展性的中文分詞算法模型,實驗證明了本算法能夠準確地對輸入文字串進行切分。

關鍵詞:中文分詞 最小費用最大流 字符串匹配 中文信息處理

中圖分類號:TP319 文獻標識碼:A 文章編號:1672-3791(2014)09(b)-0219-01

隨著人工智能的快速發展,中文信息處理已經在搜索引擎、Web文本挖掘、自動文摘、文本校對等領域發揮越來越重要的作用。中文自動分詞不僅是中文信息處理的一項基礎性工作而且是嚴重制約中文信息處理發展的瓶頸之一。本文致力于中文自動分詞算法的研究,基于最小費用最大流的原理提出一個具有拓展性的中文分詞算法模型。

1 中文自動分詞算法簡述

中文分詞的基本方法是基于已有詞典庫或者規則庫,針對輸入文字的字符串做分詞、過濾處理,輸出最優切分的中文單詞[1]。

中文分詞算法主要分為以下四類[1-3]:

(1)基于字符串匹配的分詞方法:按照一定的字符串匹配策略,將輸入文字的字符串與詞典庫中的詞條進行匹配,若匹配成功,則進行切分。主要算法有:最大匹配法、逆向最大匹配法、最佳匹配法、逐詞遍歷法等。

(2)基于規則的分詞方法:將基于字符串匹配的分詞算法與分詞規則庫結合,采用不同的策略對輸入語句進行切分,切分一致的部分判定為切分正確,不一致的部分為歧義字段。

(3)基于統計的分詞方法:采用多種切分策略對輸入字符串進行切分,根據分詞詞典匹配出所有可能的切分情況并計算切分的概率,求出概率最大的切分策略作為切分結果。

(4)基于理解的分詞方法:在分詞的過程中,不僅進行字符串的切分,而且進行句法分析、語義分析,利用句法和語義信息處理切分歧義。目前此方法尚處于試驗階段。

本文提出的基于最小費用最大流的中文分詞算法模型即為基于字符串匹配的分詞方法,而且此分詞算法模型可以拓展為基于統計的分詞方法。

2 基于最小費用最大流的中文分詞算法模型

2.1 最小費用最大流

最小費用最大流問題的定義如下:設是一個有向圖,為起點(源點),為終點(匯點),其中每一條邊均有一個非負容量、一個費用和一個不大于容量的流量,問怎樣制定運輸方案使得從到的流量最大且總費用最小?

最小費用最大流問題的求解途徑有兩種[4]:(1)保持網絡中的可行流是最大流,逐步調整使得總費用逐步減小,最終得到最大流量的最小費用流;(2)保持網絡中的可行流是最小費用流,逐步調整使得流量逐步增大,最終得到最小費用的最大流。顯然第二種途徑與已知最大流問題的求解算法相近,并可以將問題轉化為一個求從點到點的最短路徑問題:不斷以費用為權值,使用最短路徑算法,尋找一條從點到點的最小費用增廣路,直至找不到從點到點的增廣路。

2.2 中文分詞算法模型

基于上述最小費用最大流模型,下面給出基于最小費用最大流的中文分詞算法模型。

(1)將輸入文字串進行全切分。

①刪去輸入文字串的空格、回車等非中文字符。

②將得到的字符串對切分大小從1到7進行反復切分,并在詞典庫中查找切分結果:找到,則在詞表增加一條記錄;沒找到,則忽略此次切分結果。

(2)基于全切分的結果建圖。

①遍歷全切分結果詞表:對詞表每一條記錄添加一個頂點。如果詞表兩個記錄,是相鄰的,則建立一條從到的有向邊,容量,費用,流量。

②將源點與字符串第一個詞對應的頂點建立一條從到的有向邊,容量,費用,流量。

③將字符串最后一個詞對應的頂點與匯點與建立一條從到的有向邊,容量,費用,流量。

(3)求解此最小費用最大流問題。

①在只允許通過容量-流量>0的邊的限制下,以費用為權值,使用SPFA算法[5]求從源點到匯點的一條最短路徑,即最小費用增廣路。

②對于(a)中求得的路徑,令路徑上的每一條邊的流量=容量。

③重復(a)(b)過程,直至無法找到從源點到匯點的最短路徑。

(4)從源點遍歷整個圖,對于任意一條有向邊,如果流量,輸出頂點和對應的中文單詞。即可得到中文分詞結果。

2.3 模型拓展

在上述分詞算法模型的基礎上,通過改變邊的費用權值,可以將算法拓展為基于統計的分詞方法。下面給出一種拓展方法[3]。

(1)設詞典包括個詞條,則為這個詞條建立的馬爾科夫一階轉移矩陣,其中

(2)建立從到的有向邊時,令費用。

這樣我們就得到一個基于統計方法的最小費用最大流中文分詞算法。

3 算法分析與實驗

3.1 算法的時間復雜度分析

設輸入字符串長度為,每次查詢詞典庫的時間復雜度為,則對字符串進行全切分的時間復雜度為;設有向圖的頂點個數為,邊的個數為,尋找最小費用增廣路的次數為,則每次求解從源點到匯點的最短路徑的時間復雜度為[5],求解最小費用最大流問題的時間復雜度為。綜合上述兩個步驟的時間復雜度,中文分詞算法總時間復雜度為。

3.2 實驗

為了驗證本文提出的中文分詞算法的準確性,本文使用教育部語言文字應用研究所《現代漢語語料庫詞頻表》[6]作為詞典庫,對50篇新聞文章進行中文分詞,分詞正確率達到96.81%,說明了此分詞算法具有很高的準確性。

4 結語

本文提出的基于最小費用最大流的中文分詞算法模型不僅能準確地切分輸入字符串,而且可以通過改變費用權值拓展算法考慮的切分標準來提高切分準確度,具有很好的拓展性。

參考文獻

[1] 龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術,2009,5(10): 2605-2607.

[2] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.

[3] 宋繼華,楊爾弘,王強軍.中文信息處理教程[M].北京:高等教育出版社,2011.

[4] Orlin,J.B.A faster strongly polynomial minimum cost flow algorithm [J].Operations research,1993:41(2),338-350.

[5] 段凡丁.關于最短路徑的SPFA快速算法[J].西南交通大學學報,1994,29(2):207-212.

[6] 教育部語言文字應用研究所.現代漢語語料庫詞頻表[EB/OL].(2014-07-16) [2014-08-05].http://www.cncorpus.org/resources.aspx.endprint

摘 要:中文自動分詞不僅是中文信息處理的基礎性工作而且對后續句法分析、語義分析等中文信息處理流程有著很大的影響。本文基于最小費用最大流,提出一個具有拓展性的中文分詞算法模型,實驗證明了本算法能夠準確地對輸入文字串進行切分。

關鍵詞:中文分詞 最小費用最大流 字符串匹配 中文信息處理

中圖分類號:TP319 文獻標識碼:A 文章編號:1672-3791(2014)09(b)-0219-01

隨著人工智能的快速發展,中文信息處理已經在搜索引擎、Web文本挖掘、自動文摘、文本校對等領域發揮越來越重要的作用。中文自動分詞不僅是中文信息處理的一項基礎性工作而且是嚴重制約中文信息處理發展的瓶頸之一。本文致力于中文自動分詞算法的研究,基于最小費用最大流的原理提出一個具有拓展性的中文分詞算法模型。

1 中文自動分詞算法簡述

中文分詞的基本方法是基于已有詞典庫或者規則庫,針對輸入文字的字符串做分詞、過濾處理,輸出最優切分的中文單詞[1]。

中文分詞算法主要分為以下四類[1-3]:

(1)基于字符串匹配的分詞方法:按照一定的字符串匹配策略,將輸入文字的字符串與詞典庫中的詞條進行匹配,若匹配成功,則進行切分。主要算法有:最大匹配法、逆向最大匹配法、最佳匹配法、逐詞遍歷法等。

(2)基于規則的分詞方法:將基于字符串匹配的分詞算法與分詞規則庫結合,采用不同的策略對輸入語句進行切分,切分一致的部分判定為切分正確,不一致的部分為歧義字段。

(3)基于統計的分詞方法:采用多種切分策略對輸入字符串進行切分,根據分詞詞典匹配出所有可能的切分情況并計算切分的概率,求出概率最大的切分策略作為切分結果。

(4)基于理解的分詞方法:在分詞的過程中,不僅進行字符串的切分,而且進行句法分析、語義分析,利用句法和語義信息處理切分歧義。目前此方法尚處于試驗階段。

本文提出的基于最小費用最大流的中文分詞算法模型即為基于字符串匹配的分詞方法,而且此分詞算法模型可以拓展為基于統計的分詞方法。

2 基于最小費用最大流的中文分詞算法模型

2.1 最小費用最大流

最小費用最大流問題的定義如下:設是一個有向圖,為起點(源點),為終點(匯點),其中每一條邊均有一個非負容量、一個費用和一個不大于容量的流量,問怎樣制定運輸方案使得從到的流量最大且總費用最小?

最小費用最大流問題的求解途徑有兩種[4]:(1)保持網絡中的可行流是最大流,逐步調整使得總費用逐步減小,最終得到最大流量的最小費用流;(2)保持網絡中的可行流是最小費用流,逐步調整使得流量逐步增大,最終得到最小費用的最大流。顯然第二種途徑與已知最大流問題的求解算法相近,并可以將問題轉化為一個求從點到點的最短路徑問題:不斷以費用為權值,使用最短路徑算法,尋找一條從點到點的最小費用增廣路,直至找不到從點到點的增廣路。

2.2 中文分詞算法模型

基于上述最小費用最大流模型,下面給出基于最小費用最大流的中文分詞算法模型。

(1)將輸入文字串進行全切分。

①刪去輸入文字串的空格、回車等非中文字符。

②將得到的字符串對切分大小從1到7進行反復切分,并在詞典庫中查找切分結果:找到,則在詞表增加一條記錄;沒找到,則忽略此次切分結果。

(2)基于全切分的結果建圖。

①遍歷全切分結果詞表:對詞表每一條記錄添加一個頂點。如果詞表兩個記錄,是相鄰的,則建立一條從到的有向邊,容量,費用,流量。

②將源點與字符串第一個詞對應的頂點建立一條從到的有向邊,容量,費用,流量。

③將字符串最后一個詞對應的頂點與匯點與建立一條從到的有向邊,容量,費用,流量。

(3)求解此最小費用最大流問題。

①在只允許通過容量-流量>0的邊的限制下,以費用為權值,使用SPFA算法[5]求從源點到匯點的一條最短路徑,即最小費用增廣路。

②對于(a)中求得的路徑,令路徑上的每一條邊的流量=容量。

③重復(a)(b)過程,直至無法找到從源點到匯點的最短路徑。

(4)從源點遍歷整個圖,對于任意一條有向邊,如果流量,輸出頂點和對應的中文單詞。即可得到中文分詞結果。

2.3 模型拓展

在上述分詞算法模型的基礎上,通過改變邊的費用權值,可以將算法拓展為基于統計的分詞方法。下面給出一種拓展方法[3]。

(1)設詞典包括個詞條,則為這個詞條建立的馬爾科夫一階轉移矩陣,其中

(2)建立從到的有向邊時,令費用。

這樣我們就得到一個基于統計方法的最小費用最大流中文分詞算法。

3 算法分析與實驗

3.1 算法的時間復雜度分析

設輸入字符串長度為,每次查詢詞典庫的時間復雜度為,則對字符串進行全切分的時間復雜度為;設有向圖的頂點個數為,邊的個數為,尋找最小費用增廣路的次數為,則每次求解從源點到匯點的最短路徑的時間復雜度為[5],求解最小費用最大流問題的時間復雜度為。綜合上述兩個步驟的時間復雜度,中文分詞算法總時間復雜度為。

3.2 實驗

為了驗證本文提出的中文分詞算法的準確性,本文使用教育部語言文字應用研究所《現代漢語語料庫詞頻表》[6]作為詞典庫,對50篇新聞文章進行中文分詞,分詞正確率達到96.81%,說明了此分詞算法具有很高的準確性。

4 結語

本文提出的基于最小費用最大流的中文分詞算法模型不僅能準確地切分輸入字符串,而且可以通過改變費用權值拓展算法考慮的切分標準來提高切分準確度,具有很好的拓展性。

參考文獻

[1] 龍樹全,趙正文,唐華.中文分詞算法概述[J].電腦知識與技術,2009,5(10): 2605-2607.

[2] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.

[3] 宋繼華,楊爾弘,王強軍.中文信息處理教程[M].北京:高等教育出版社,2011.

[4] Orlin,J.B.A faster strongly polynomial minimum cost flow algorithm [J].Operations research,1993:41(2),338-350.

[5] 段凡丁.關于最短路徑的SPFA快速算法[J].西南交通大學學報,1994,29(2):207-212.

[6] 教育部語言文字應用研究所.現代漢語語料庫詞頻表[EB/OL].(2014-07-16) [2014-08-05].http://www.cncorpus.org/resources.aspx.endprint

主站蜘蛛池模板: 欧美三级不卡在线观看视频| 色综合中文| 成年看免费观看视频拍拍| 特级毛片免费视频| 在线欧美a| 日本91视频| 成人国产一区二区三区| 最新国产午夜精品视频成人| 中文字幕乱码二三区免费| 制服丝袜一区| 最新亚洲人成无码网站欣赏网| 欧美日本在线一区二区三区| 久久中文无码精品| 青青草原国产av福利网站| 亚洲精品va| 欧美日韩中文国产| 中文无码精品a∨在线观看| 中文国产成人精品久久| 亚洲精品国产精品乱码不卞| 亚洲天堂2014| 农村乱人伦一区二区| 亚洲最猛黑人xxxx黑人猛交| 欧美精品啪啪一区二区三区| 久久伊人色| 黄片在线永久| 久久这里只精品国产99热8| 国产第一页免费浮力影院| 538精品在线观看| 波多野结衣爽到高潮漏水大喷| 一级成人欧美一区在线观看| 永久免费AⅤ无码网站在线观看| 国产成人在线小视频| 国产精品嫩草影院视频| 国产真实乱人视频| 免费人成视频在线观看网站| 亚洲精品第五页| 另类综合视频| 久操线在视频在线观看| 欧美国产综合色视频| a毛片免费在线观看| 亚洲欧美色中文字幕| 99国产精品免费观看视频| 真人免费一级毛片一区二区| 亚洲91精品视频| 熟女视频91| 欧美日韩成人| 五月婷婷综合网| 97国产在线观看| 国产第一福利影院| 在线99视频| 国产丰满大乳无码免费播放| 精品免费在线视频| 国产91丝袜| 精品国产美女福到在线不卡f| 国产主播在线一区| 拍国产真实乱人偷精品| 欧美www在线观看| 欧美成人精品在线| 国产va免费精品| 91在线免费公开视频| 亚洲男人天堂2020| 久久久久久高潮白浆| 日韩免费毛片| 欧美三级视频网站| 日韩国产综合精选| 久久精品嫩草研究院| 911亚洲精品| 色成人综合| 毛片网站观看| 黄色一级视频欧美| 丰满人妻中出白浆| 国产96在线 | 91美女视频在线| 大学生久久香蕉国产线观看| 亚洲狼网站狼狼鲁亚洲下载| 欧美国产另类| 制服丝袜一区| 5388国产亚洲欧美在线观看| 久久性妇女精品免费| 国产精品真实对白精彩久久| 99视频有精品视频免费观看| 国产男女XX00免费观看|