999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的基于最大概率路徑的中文分詞*

2022-04-07 03:43:02
計算機與數字工程 2022年3期
關鍵詞:文本方法

劉 洋 余 甜 丁 藝

(西安郵電大學計算機學院 西安 710121)

1 引言

隨著自然語言處理[1]以及人工智能[2]的飛速發展,越來越多的人們希望計算機可以代替人類的工作。如果想讓計算機“聽懂”人類的語言,計算機就需要對文本和詞語進行分析,那么中文分詞就成為了最重要的一部分。中文分詞的任務是將整個句子在不改變語義的前提下切分成一個個單詞。例如,可以將“失敗是成功之母”切分為“失敗/是/成功/之/母”。不同于英文的是,英文可以用空格符自然的將一句話切分成一個個單詞,而中文并沒有這樣自然的符號。因此,在文本分析,信息匹配,計算文本相似度等自然語言處理的范疇上,中文分詞是必不可少的一部分。

為了提高中文分詞的速度,本文提出了一種新的求解最大概率路徑的方法,將這種方法應用至中文分詞,并將基于該方法的中文分詞與JIEBA[3]中文分詞分別進行實驗,在搜狗新聞數據集下經過實驗驗證,與JIEBA 中文分詞相比,該方法可以在保證良好的分詞效果的基礎上提高分詞速度。

2 中文分詞的發展

中文分詞一直都是自然語言處理中十分重要的部分。由于二義性,歧義以及一些問題,中文分詞一直都是人們討論的熱門話題[4~5]。

最早的中文分詞是在20世紀80年代由梁南元教授提出的一種基于“查字典”的方式。同時,也開發出了第一個分詞系統。基于查字典的方式是將句子與詞典中的詞條進行匹配[6]。若碰到復合詞時,就選擇最長的詞條進行匹配。若句子中的內容未出現在詞典中時,則進行單字分割。但這種方法的局限性是并不能解決二義性的問題。

接著,哈爾濱大學的王曉龍[7]博士嘗試將查字典的方式理論化,于是提出了一種最短單詞分割的理論,但二義性的問題仍然存在。

1990年,清華大學的郭進[8]博士提出了一種統計語言模型,成功地解決了詞語二義性的問題并且降低了分詞的錯誤率。

2002 年以年,基于字典的方式一直是中文分詞的主流。直到2002年,在第一屆SIGHAN會議上出現了一篇基于字標注的中文分詞的文章[9]。Xue提出了基于最大熵馬爾科夫模型的中文分詞算法[10]。中文分詞被認為是為字符序列進行標注的任務[11]。在2004 年,Peng[12]使用條件隨機場模型解決了序列標注的問題。隨后,基于詞性標注的分詞成為熱門話題。

2010 年,文獻[13]提出了一種基于互信息的最大熵分割算法。該算法通過查找每個可能的單詞及其對應的頻率來工作。然后,計算這些詞的條件概率。最后,選擇概率最大的單詞。然而,切分的準確性受到訓練語料庫的影響。

2015 年,彭嘗試對中國文本中的人格特征進行分類。他們收集了一組以中文為主要書面語言的Facebook 用戶的帖子和個性評分數據,使用JIEBA分詞工具來進行文本分割。

在中國古代醫學領域,由于中醫注釋數據的缺乏,李思等選取了十種類型、三十本中國古代醫學典籍建立了注釋語料庫,并在2018 年使用膠囊網絡實現了中國古代醫學典籍的中文分詞。實驗結果表明,該方法能有效地提高古代醫學文本的分詞性能[14]。

2019 年,昆明大學邵教授[15]研究了冶金領域的漢語分詞。目前的分詞方法多為基于規則的分詞方法和傳統的機器學習方法。

分詞作為一項基礎技術,在自然語言處理中發揮了重要作用,尤其是對于那些沒有明確分隔符的語言,如漢語、韓語、日語等[16]。本文所提出的基于最大概率路徑的中文分詞屬于序列標注的范疇,目前也屬于較為主流的方法。

3 JIEBA中文分詞的原理

JIEBA分詞算法如下。

基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG)[17]。

采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合。

對于未登錄詞,采用了基于漢字成詞能力的HMM 模型,使用了Viterbi 算法。

JIEBA支持的三種分詞模式:

1)精確模式,試圖將句子最精確地切開,適合文本分析[18];

2)全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;

3)搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。

paddle模式,利用PaddlePaddle深度學習框架,訓練序列標注(雙向GRU)網絡模型實現分詞。同時支持詞性標注。

4 改進的最大概率路徑算法

求解最大概率路徑算法就是尋找概率最大的路徑。將最大概率路徑算法應用至中文分詞,過程如下。

對于一個有要進行分詞的句子,第一個任務是DAG 的獲取,然后用DP 算法計算有向無環圖的最大概率路徑。DP 算法之所以可以用來求解最大概率路徑,是因為滿足重復子問題和最優子結構這兩個條件。

在求解最大概率路徑部分時,通常采用的詞頻總和是詞典中所有單詞的詞頻相加,是一個很大的數。當我們計算頻率時,由于詞頻總和過大,用作分母時,會出現下溢問題。同時,利用復雜的對數運算來解決最大概率路徑會引起時間浪費問題。針對以上兩大不足,本文改進了求解最大概率路徑的問題。

該方法減小了詞頻總和數值的大小。新方法的詞頻總和摒棄了詞典中所有詞語的總和,新方法詞頻總和只需要計算中文文本中出現的詞,這樣便使詞頻總和的數值見笑了,避免了溢出問題。

該方法采用簡單的除法計算,通過減少計算的消耗來提高分詞速度。

新方法的偽指令如下所示:

input:self,sentence,DAG,route

output:route

Step1:N ← the length of sentence,total ←0,

route[N]←(0,0)

Step2:for a ←N-1,N-2,……-1 do

for b ←DAG[a]

Total+=self.FREQ.get(sentence[a:b+1]or 1)

Step3:for idx ←N-1,N-2,……-1 do

for x ←DAG[idx]

route[idx]=max(((self.FREQ.get(sentence[idx:x+1])or 1)/total+route[x+1][0],x)for x in DAG[idx])

該偽指令是一種新的求解最大概率路徑的方法,sentence表示待分詞的句子,N表示待分詞文本的長度,route[N] 是存儲每個被分單詞的結束位置和概率的空間,total表示所有分割單詞頻率的總和,DAG是前一步生成的有向無環圖。

5 實驗結果與結論

本文將新的求解最大概率路徑方法與JIEBA分詞進行對比。使用搜狗新聞數據集對8 組不同的新聞數據進行5 次分詞實驗,每組新聞數據包含1190 篇不同的新聞文章。對比新方法和JIEBA 分詞的運行時間,得到以下結果。

C000008 數據集分詞5 次的比較結果如表1 所示。

表1 C000008組數據運行時間對比表

C000010 數據集分詞5 次的比較結果如表2 所示。

表2 C000010組數據運行時間對比表

C000013 數據集分詞5 次的比較結果如表3 所示。

表3 C000013組數據運行時間對比表

C000016 數據集分詞5 次的比較結果如表4 所示。

表4 C000016組數據運行時間對比表

C000020 數據集分詞5 次的比較結果如表5 所示。

表5 C000020組數據運行時間對比表

C000022 數據集分詞5 次的比較結果如表6 所示。

表6 C000022組數據運行時間對比表

C000023 數據集分詞5 次的比較結果如表7 所示。

表7 C000023組數據運行時間對比表

C000024 數據集分詞5 次的比較結果如表8 所示。

表8 C000024組數據運行時間對比表

為了更清楚地對比新方法與JIEBA 分詞的運行時間,對以上幾組數據進行Matlab 仿真實驗,結果如圖8所示。

圖1 實驗Matlab仿真對比圖

根據8 組新聞數據進行分詞實驗,可以計算出每組數據的平均運行速度。根據表中的數據得到,新方法的分詞運行時間比JIEBA 分詞的運行時間明顯減少。同時,也可以計算出每組數據的平均運行時間減少率,也就是提升的平均運行速率。計算公式如下:

如式(1)所示,AVG[i]表示第i組數據的平均提高速率,Runningtime[i]表示第i組數據使用新方法進行中文分詞的運行時間,RunningtimeJIEBA[i]表示第i組數據使用JIEBA 進行中文分詞的運行時間。計算結果如表9所示。

表9 8組數據平均運行速率提升表

從以上分析可以看出,使用2018 年搜狗新聞數據集進行分詞實驗后,分詞的平均速度有著顯著的提高。為了保證新方法的中文分詞的效果,本文對各數據的準確率(P)、召回率(R)和F 值(F1)進行計算,利用這三個指標來評價改進后的中文分詞的性能。

準確性是將檢索到的相關文檔劃分為所有檢索到的文檔的比率。它指的是對一個對象所表達的描述的正確程度,用來反映該對象的正確答案。召回率是文檔庫中檢索到的相關文檔數量與相關文檔總數的比率。兩個值都在0~1 之間。值越接近1,則準確率或召回率越高。F 值為平均準確率和召回率。將JIEBA 中文分詞的結果作為原始文檔,將新方法的中文分詞結果作為測試文檔,通過計算以上三個指標,就可以判斷出新方法的中文分詞性能是否良好。三種指標的計算公式如下:

其中,FN 表示False Negative,被判定為負樣本,但事實上是正樣本。FP表示False Positive,被判定為正樣本,但事實上是負樣本。TN 表示True Negative,被判定為負樣本,事實上也是負樣本。TP 表示True Positive,被判定為正樣本,事實上也是正樣本。

計算以上8 組數據的準確率、召回率和F 值。結果如表10所示。

表10 8組數據的分詞性能指標表

根據表中數據,準確率、找回率和F 值均大于95%,說明與已有的JIEBA 中文分詞相比,新方法的中文分詞效果良好并且可以減少中文分詞運行時間,提升中文分詞速率。

6 結語

總地來說,中文分詞也存在一些缺點,分割結果并不總是正確的,本文旨在提高分詞的運行速度。在以后的工作中,主要有以下兩點展望:

1)目前比較流行的中文分詞方法還有基于神經網絡的分詞方法,下一步將投入研究基于神經網絡的分詞,通過引入注意力機制[19]提升分詞的精度。

2)新研發出的BERT 模型[20]以及膠囊模型[21],可以進行深入研究,使之更好地應用至中文分詞,來提升中文分詞的精度。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲αv毛片| 久久精品只有这里有| 福利在线免费视频| 97亚洲色综久久精品| 片在线无码观看| 欧美特级AAAAAA视频免费观看| 人妻精品久久无码区| 国产精品天干天干在线观看| 男女性午夜福利网站| 青青青国产视频手机| 91青青草视频在线观看的| av天堂最新版在线| 亚洲资源站av无码网址| 中文字幕在线一区二区在线| 青青草一区| 亚洲制服中文字幕一区二区| 成人国产精品视频频| 日韩麻豆小视频| 国产激情在线视频| 色综合狠狠操| 综合色在线| a级毛片免费网站| 高清国产va日韩亚洲免费午夜电影| 国产麻豆精品手机在线观看| 狠狠色婷婷丁香综合久久韩国| 91在线国内在线播放老师 | 无码专区第一页| 无码网站免费观看| 首页亚洲国产丝袜长腿综合| 国产AV毛片| 国产黄色视频综合| 中文字幕 欧美日韩| 一本一本大道香蕉久在线播放| 日韩专区欧美| 免费一级全黄少妇性色生活片| 久久性视频| 黄色网址免费在线| 国产精品密蕾丝视频| 91在线播放国产| AV天堂资源福利在线观看| 不卡国产视频第一页| 国产日韩精品欧美一区灰| 真实国产乱子伦视频| 97一区二区在线播放| 国产波多野结衣中文在线播放| 最近最新中文字幕在线第一页| 欧美啪啪网| 亚洲黄色视频在线观看一区| 日本黄色a视频| 中国精品久久| 婷婷中文在线| 国产综合无码一区二区色蜜蜜| 在线日本国产成人免费的| 亚洲人成影院午夜网站| 国产日韩欧美视频| 三级欧美在线| 欧美区一区二区三| 国产毛片网站| 亚洲欧美日韩色图| 色婷婷成人网| 精品自窥自偷在线看| 一级毛片免费观看久| 中文字幕 91| 99re免费视频| 国产色网站| 精品国产99久久| 国产玖玖玖精品视频| 四虎永久免费在线| 亚洲资源在线视频| 亚洲成人一区二区三区| 国产另类乱子伦精品免费女| 91精品人妻一区二区| 色婷婷综合激情视频免费看| 中文字幕亚洲专区第19页| 又黄又湿又爽的视频| 亚洲国内精品自在自线官| 黄色网页在线播放| 国内a级毛片| 午夜无码一区二区三区在线app| 欧美激情第一欧美在线| 99视频全部免费| 四虎免费视频网站|