999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息改進算法的新詞發現對中文分詞系統改進

2016-10-12 08:28:49杜麗萍李曉戈于根劉春麗劉睿
北京大學學報(自然科學版) 2016年1期
關鍵詞:實驗方法系統

杜麗萍 李曉戈 于根 劉春麗 劉睿

?

基于互信息改進算法的新詞發現對中文分詞系統改進

杜麗萍 李曉戈?于根 劉春麗 劉睿

西安郵電大學, 西安710121; ?通信作者, E-mail: lixg@xupt.edu.cn

提出一種非監督的新詞識別方法。該方法利用互信息(PMI)的改進算法——PMI算法與少量基本規則相結合, 從大規模語料中自動識別2~元網絡新詞(為發現的新詞最大長度, 可以根據需要指定)。基于257 MB的百度貼吧語料實驗, 當PMI方法的參數為10時, 結果精度達到97.39%, 比PMI方法提高28.79%, 實驗結果表明, 該新詞發現方法能夠有效地從大規模網絡語料中發現新詞。將新詞發現結果編纂成用戶詞典, 加載到漢語詞法分析系統ICTCLAS中, 基于10KB的百度貼吧語料實驗, 比加載用戶詞典前的分詞結果準確率、召回率和值分別提高7.93%, 3.73%和5.91%。實驗表明, 通過進行新詞發現能有效改善分詞系統對網絡文本的處理效果。

新詞識別; 未登錄詞; 互信息; PMI改進算法; 中文分詞

隨著信息時代的發展與科學技術的進步, 大量網絡新詞不斷涌現, 使得分詞結果中存在大量的“散串”, 嚴重影響分詞系統處理網絡文本的效果, 新詞識別已經成為提高分詞效果的瓶頸[1]。

對于網絡上出現的新詞匯, 例如近日在網上熱傳的“APEC藍”、“Duang”、“一帶一路”、“單腎貴族”和“花樣作死”等詞語, 一般的識別方法是基于大規模語料庫, 由機器根據某個統計量自動抽取出候選新詞, 再由人工篩選出正確的新詞[2]。Pecina等[3]采用55種不同的統計量進行2元詞匯識別實驗, 結果表明, PMI算法是最好的衡量詞匯相關度的算法之一。通常情況下, PMI方法能夠很好地反映字串之間的結合強度, 但缺點是過高地估計低頻且總是相鄰出現的字串間的結合強度[3–4]。例如, “啰”和“嗦”、“蝙”和“蝠”等在語料庫中低頻且總是相鄰出現, 這些字串的PMI值非常高, 包含這些低頻字串的垃圾串的PMI值也非常高, 例如“很啰”和“嗦”、“的蝙”和“蝠”等。針對此問題, 研究者將PMI方法與其他方法相結合進行新詞發現研究。文獻[5–7]均采用PMI方法與log-likelyhood方法相結合進行新詞識別。梁穎紅等[8]利用PMI方法衡量字串間的結合強度, 結合NC-value方法融入詞語上下文信息來提高3個字以上長新詞的抽取精度。何婷婷等[9]采用互信息方法F-MI抽取結構簡單的質詞。孫繼鵬等[10]提出一種語言文法信息與互信息相結合的新詞識別方法。Pazienza等[11]提出使用PMI2和PMI3的方法改進PMI方法來識別新詞。Bouma[12]通過向PMI方法中引進個聯合概率因子, 改善PMI方法的缺點, 這種改進的PMI方法稱為PMI方法。杜麗萍等[13]通過抽象語料庫中低頻且總是相鄰出現字串的數學特征, 從理論上證明, 當向PMI方法中引進3個及以上的聯合概率因子時, PMI方法能夠克服PMI方法的缺點。

目前, 常用的分詞方法主要有3種: 基于詞表的分詞方法、基于統計模型的分詞方法和基于統計方法與規則方法相結合的分詞方法[2]。3種方法均有優點, 但也存在不足: 基于詞表的分詞方法效率高, 但對新詞的識別能力不足[14]; 基于規則的方法很難涵蓋所有的語言現象[2], 尤其對網絡語料的處理能力非常有限; 基于統計模型的分詞方法重點在于解決自動分詞的歧義分詞問題, 但需要人工標注訓練語料, 且受訓練語料領域的限制。ICTCLAS(In- stitute of Computing Technology, Chinese Lexical Analysis System)是基于隱馬爾科夫統計模型(HMM, Hidden MarKov Model)進行分詞的廣受好評的中文分詞系統, ICTCLAS2002版在國內973評測中綜合第一名, 經過15年打造, ICTCLAS2015版又增加了新詞自動識別功能。

本文在杜麗萍等[13]的定理1和定理2基礎上, 采用非監督的基于PMI與少量的基本規則相結合的方法, 從大規模網絡語料中自動識別新詞, 并對ICTCLAS2002版分詞系統進行改進, 對比改進后的ICTCLAS2002分詞系統與ICTCLAS2002和ICTCLAS2015版的分詞效果。

1 分詞系統改進

1.1 改進分詞系統框架

分詞系統改進主要分為兩個階段: 1)基于大規模語料庫進行新詞發現; 2)用新詞發現結果編纂用戶詞典, 加載到分詞系統中。圖1為改進的分詞系統的流程。

1.2 基于PMI改進方法的新詞發現

定義1 PMI算法[12]定義如下:

其中,()和()分別表示字串和的概率,(,)表示字串和的聯合概率, PMI(,)表示字串和的相關度, 也稱PMI值。特殊地, 當=1時, PMI方法即PMI方法。

新詞發現過程主要分為4個階段: 1)確定2元待擴展種子; 2)將2元待擴展種子擴展至2~元; 3)過濾候選新詞; 4)人工判定。算法的步驟如下。

步驟1 從4元字串中確定出2元的待擴展種子。對于每一個4元字串, 計算中間兩元字串和前兩元字串的PMI值之和的平均值以及中間兩元字串和后兩元字串的PMI值之和的平均值mean2。計算公式如下:

1)如果PMI(w-1,w, …,w+t-1)>PMI(w, …,w+t-1), 則認為把字串擴展成的概率大于擴展成的概率, 故向前擴展。計算+PMI(w, …,w,w+1, ...,w+t-1)), 其中或。如果滿足

,

步驟6 人工判定。

2 實驗及結果分析

2.1 實驗數據

1)257 MB(約1000萬字)百度貼吧語料, 用于網絡新詞發現。

2)停用詞典: 包含702個停用詞(選自哈爾濱工業大學停用詞表), 用于過濾候選新詞結果中的垃圾串。

3)ICTCLAS核心詞典: 共收集79836個詞語, 是目前比較規范的詞典之一, 用于過濾候選新詞結果中的核心詞匯, 以便得到新詞。

4)10 KB百度貼吧語料, 用于測試分詞系統改進的效果。

2.2 新詞實驗及結果

黃昌寧等[15]指出, 99%以上的詞長都在五字及五字以下,故本實驗設定抽取的最大詞長等于5。

由于難以統計257 MB百度貼吧語料中的全部新詞, 所以只采用準確率作為衡量新詞發現方法的評測標準。準確率計算公式為

在PMI方法的參數取1~10之間10個正整數值時, 分別進行實驗, 圖2描述隨著值變化的準確率變化趨勢。

表1列舉PMI方法的參數取1~10之間10個正整數值時, 新詞結果的前20條。

表1 前20條實驗結果

2.3 改進分詞系統實驗及結果

實驗設計如下。實驗一: 基于ICTCLAS2002版分詞系統進行實驗; 實驗二: 基于ICTCLAS2015版分詞系統進行實驗; 實驗三: 加載用戶詞典到ICTCLAS2002版分詞系統中進行實驗。采用準確率、召回率和值3個指標來衡量分詞系統的性能, 計算公式如下:

針對10 KB百度貼吧測試語料進行上述實驗, 實驗結果如表2所示, “切分出總詞數”表示分詞系統切分出的字串總數目, “識別新詞數目”表示分詞結果中包含的正確的新詞數目。

表2 實驗結果

表3列舉10 KB百度貼吧語料中3個例句分別在實驗一、實驗二和實驗三中的結果。

表3 實驗結果舉例

例1 讓我這個菜鳥都有點情何以堪啊!

例2 這個鏡頭在變形金剛剛出來時候不是就被噴了么?

例3 小正太, 你好。

2.4 結果分析

從圖2可以看出, 準確率隨值增大而增大且逐漸趨于100%。時的準確率比時提高13.6%,=10時的準確率比=1時提高28.79%。因此, 當PMI方法的參數時, PMI方法能明顯改善新詞識別的效果。

由表1看出, 當PMI方法的參數時, 新詞識別結果與和時差異較大。在和的結果中, 排名在前的字串中均包含低頻的字或詞, 例如垃圾串“晦澀難”、“非貪婪”、“徽太尉”、“吧頭銜”中分別包含“晦澀”、“婪”、“徽”、“銜”等低頻字串, 且這些字串的搭配詞語固定。該現象反映出PMI方法和PMI2方法對低頻共現字串敏感的缺點。在的結果中, 均沒有出現低頻共現字串, 說明時PMI方法克服了PMI方法的缺點, PMI方法能有效識別新詞。

從表2可以看出, 相對ICTCLAS2002加載用戶詞典前, ICTCLAS2002加載用戶詞典后分詞系統識別出的新詞數目增加149個, 準確率、召回率和值也分別提高7.93%, 3.37%和5.91%。結果表明, 增加用戶詞典后, ICTCLAS2002分詞系統處理網絡語料的效果有明顯改善。相對ICTCLAS2015分詞系統, ICTCLAS2002加載用戶詞典后分詞系統識別出的新詞數目增加了124個, 準確率、召回率和值也分別提高6.7%, 3.1%和4.96%。

表3中, 針對例1, ICTCLAS 2002和ICTCLAS2015分詞系統均把新詞“菜鳥”切分為“菜/ 鳥”; ICTCLAS2002加載用戶詞典(詞典中包含新詞“菜鳥”)后, 分詞系統把新詞“菜鳥”切分為一個詞。針對例2, ICTCLAS2002分詞系統把新詞“變形金剛”切分為“變形/ 金剛”; ICTCLAS2015分詞系統分詞把“變形金”切分為一個詞, 把“變形金剛”中的“剛”和它后面的“剛”結合起來切分為“剛剛”; ICTCLAS2002加載用戶詞典(詞典中包含新詞“變形金剛”)后, 分詞系統把新詞“變形金剛”切分為一個詞。針對例3, ICTCLAS2002分詞系統把新詞“小正太”切分為“小/ 正/ 太”; ICTCLAS2015和ICTCLAS2002加載用戶詞典(詞典中包含新詞“小正太”)后分詞系統把新詞“小正太”切分為一個詞。從10 KB百度貼吧測試語料的分詞結果來看, 主要有3種情況: 1) ICTCLAS2002和ICTCLAS2015分詞系統在遇到新詞時, 大多情況下均是將新詞切分為多個“散串”, 如例1, ICTCLAS2002加載包含這些新詞的用戶詞典之后, 這些新詞均能被正確切分; 2) ICTCLAS2015分詞系統自動識別出新詞不正確, 導致句子中其他詞的分詞結果不正確, 如例2中把“變形金”當做一個詞, 導致“變形金剛”后面的“剛”和“變形金剛”中的“剛”結合起來切分為“剛剛”; 3)在ICTCLAS2002把新詞切分為多個“散串”時, ICTCLAS2015和ICTCLAS2002加載用戶詞典后的分詞系統正確切分出新詞, 如例3。結果表明, 通過加載用戶詞典改進分詞系統是一種可靠有效的 方法。

3 結語

本文基于257 MB百度貼吧語料, 驗證了PMI方法的參數取值大于等于3時, 能夠克服PMI方法的缺點, 并通過調整新詞發現算法中的參數來提高長度大于2元的新詞識別率。最后, 驗證了基于加載用戶詞典來改進分詞系統是有效可行的方法。下一步工作是研究PMI方法的參數取值與語料庫規模、語料特征等因素的關系, 找出一種自適應地確定參數值的方法, 提高新詞識別效果, 進一步增強分詞系統處理Web文本的能力。

[1]張海軍, 史樹敏, 朱朝勇, 等. 中文新詞識別技術綜述. 計算機科學, 2010, 37(3): 6–12

[2]宗成慶. 統計自然語言處理. 北京: 清華大學出版社, 2008: 103–146

[3]Pecina P, Schlesinger P. Combining association measures for collocation extraction // Proceeding Soft of the 21th International Conference on Compu-tational Linguisticsand 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL2006). Sydney, 2006: 651–658

[4]劉華. 一種快速獲取領域新詞語的新方法. 中文信息學報, 2006, 20(5): 17–23

[5]劉建舟, 何婷婷, 駱昌日. 基于語料庫和網絡的新詞自動識別. 計算機應用, 2004, 24 (7): 132–134

[6]韓艷, 林煜熙, 姚建明. 基于統計信息的未登錄詞的擴展識別方法. 中文信息學報, 2009, 23(3): 24–30

[7]Patrick P, Lin D K. A statistical corpus-based term extractor // Stroulia E, Matwin S. lecture notes in artificial intelligence. London, 2001: 36–46

[8]梁穎紅, 張文靜, 周德福. 基于混合策略的高精度長術語自動抽取. 中文信息學報, 2009, 23(6): 26–30

[9]何婷婷, 張勇. 基于質子串分解的中文術語自動抽取. 計算機工程, 2006, 32(23): 188–190

[10]孫繼鵬, 賈民, 劉增寶. 一種面向文本的概念抽取方法研究. 計算機應用與軟件, 2009, 26(9): 28–30

[11]Pazienza M T, Pennnacchiotti M, Zanzotto F M. Terminology extraction: an analysis of linguistic and statistical approaches. Berlin: Springer-Verlag, 2005: 255–279

[12]Bouma G. Normalized (pointwise) mutual information in collocation extraction // Proc Boennial GSCL Conference 2009, Meaning: Processing Texts Automatically. Tubingen, 2009: 31–40

[13]杜麗萍, 李曉戈, 周元哲, 等. 互信息改進方法在術語抽取中的應用. 計算機應用, 2015, 35(4): 996–1000, 1005

[14]莫建文, 鄭陽, 首照宇, 等. 改進的基于詞典的中文分詞方法. 計算機工程與設計, 2013, 34(5): 1802–1807

[15]黃昌寧, 趙海. 中文分詞十年回顧. 中文信息學報, 2007, 21(3): 8–19

New Word Detection Based on an Improved PMI Algorithm for Enhancing Segmentation System

DU Liping, LI Xiaoge?, YU Gen, LIU Chunli, LIU Rui

School of Computer Science and Technology, Xi’an University of Posts and Telecommunications, Xi’an 710121; ? Corresponding author, E-mail: lixg@xupt.edu.cn

This paper presents an unsupervised method to identify internet new words from the large scale web corpus, which combines with an improved Point-wise Mutual Information (PMI), PMIalgorithm, and some basic rules. This method can recognize internet new words with length from 2 to(is any number as needed). Experimented based on 257 MB Baidu Tieba corpus, the precision of proposed system achieves 97.39% when the parameter value of PMIalgorithm is equal to 10, and the precision increases 28.79%, compared to PMI method. The results show that proposed system is significant and efficient for detecting new word from the large scale web corpus. Compiling the results of new word discovery into user dictionary and then loading the user dictionary into ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System), experimented with 10 KB Baidu Tieba corpus, the precision, the recall and-measure were promoted 7.93%, 3.73% and 5.91% respectively, compared with ICTCLAS. The result show that new word discovery could improve the performance of segmentation for web corpus significantly.

new word recognition; unknown word; PMI; improved PMI algorithm; Chinese word segmentation

10.13209/j.0479-8023.2016.024

TP391

2015-06-07;

2015-09-14; 網絡出版日期: 2015-09-29

國家自然科學基金(61373116)、陜西省普通高等學校重點學科專項資金(112-1602)和西安郵電大學研究生創新基金(ZL2013-31)資助

猜你喜歡
實驗方法系統
記一次有趣的實驗
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
做個怪怪長實驗
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 欧美日本激情| 2021精品国产自在现线看| 国产精品嫩草影院av| 91精品国产一区自在线拍| 国产一区二区三区免费观看| 国产麻豆福利av在线播放| 国产网站免费| 国产成人区在线观看视频| 国产日韩精品欧美一区喷| 手机在线看片不卡中文字幕| 国产日韩欧美成人| 97se亚洲综合在线天天| 在线日韩日本国产亚洲| 国产美女自慰在线观看| 久久大香伊蕉在人线观看热2| 精品无码国产自产野外拍在线| 无遮挡国产高潮视频免费观看| 精品无码一区二区三区电影| 欧美激情二区三区| 国产精品网址你懂的| 免费啪啪网址| 伊人久久青草青青综合| 欧日韩在线不卡视频| 亚洲男人的天堂网| 亚洲中字无码AV电影在线观看| 麻豆国产原创视频在线播放| 中文成人在线视频| 女高中生自慰污污网站| 人妻丰满熟妇αv无码| 啊嗯不日本网站| 亚洲欧美成人在线视频| 国产在线专区| 欧美日韩一区二区在线播放| 波多野结衣无码视频在线观看| 亚洲综合色婷婷中文字幕| 欧美日韩专区| 色综合网址| 国内精品久久人妻无码大片高| 国产玖玖玖精品视频| av色爱 天堂网| 亚洲av综合网| 国产av色站网站| 精品国产污污免费网站| 亚洲精品777| 国产亚洲视频中文字幕视频| 日本道综合一本久久久88| 黄色一级视频欧美| 国产精品女在线观看| 在线播放国产99re| 欧美自拍另类欧美综合图区| 欧美a√在线| 国产美女一级毛片| 午夜欧美理论2019理论| 91福利免费视频| 国产日韩精品欧美一区灰| 幺女国产一级毛片| 久久国产V一级毛多内射| 色吊丝av中文字幕| 中文字幕在线不卡视频| a级毛片免费看| 国产美女视频黄a视频全免费网站| 欧美成一级| 免费在线色| 日韩国产高清无码| 国产91九色在线播放| a毛片免费观看| 亚洲另类色| 亚洲女同欧美在线| 色婷婷亚洲综合五月| 毛片久久网站小视频| 色综合日本| 国产精品欧美激情| 香蕉久人久人青草青草| 这里只有精品在线播放| 伊人久久婷婷五月综合97色| a亚洲视频| 日韩精品无码免费专网站| 一级毛片中文字幕| 熟妇无码人妻| 伊人激情综合| 日韩久草视频| 综合网久久|