999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于新詞發現與詞典信息的古籍文本分詞研究

2019-06-09 10:36:01李筱瑜
軟件導刊 2019年4期

李筱瑜

摘 要:現代漢語分詞雖已取得較大進展,但是古籍文本分詞由于受到古代漢語詞匯特征、語義、語法等限制,始終沒有形成一種行之有效的方法。通過互信息與鄰接熵的新詞發現方法從《漢書》中尋找未登錄詞,結合古代漢語詞匯表、古代人名詞表和古代地名表構建古籍文本分詞詞典,以此為基礎,使用pyNLPIR對《漢書》進行分詞操作。實驗結果顯示,新詞發現方法可以在一定程度上完善古籍文本分詞所需的用戶詞典全面性,但是對3字以上的詞語識別效果較差。實驗證明使用新詞發現結合詞典信息的方法對古籍文本進行分詞能夠有效提高古代漢語分詞準確度。

關鍵詞:古籍文本;分詞;互信息;鄰接熵;新詞發現

DOI:10. 11907/rjdk. 182867

中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)004-0060-04

0 引言

隨著人文計算的發展,針對文本進行深入分析并從中挖掘相應知識與內涵逐步成為新的研究趨勢,但目前漢語人文計算主要集中于現當代文本上,古籍文本計算相對較少[1]。對于以意合為主要特點的漢語來說,詞頻與共現分析是重要的文本挖掘研究方法,因此對古籍文本內容進行人文計算及可視化分析過程中,分詞是古籍文本分析和挖掘的基礎。古代漢語經歷了一個從單音節詞向雙音節及多音節詞演化的長期過程[2]。古代漢語在詞匯和語法等方面與現代漢語表現不同,雖然現代漢語自然語言處理技術已經取得了長足進展,然而這些成果主要針對現代漢語,現代漢語分詞研究成果不能直接應用于古代漢語研究。

國內學者對古籍文本分詞進行了諸多研究。嚴順[3]在總結前人研究的基礎上,對構建古文獻語料庫會遇到的古籍文本分詞和詞性標注等問題進行闡釋,并提出了建設性見解;曹艷等[4]將常用于處理現代文本的N元組法移植到古籍文本中進行實義詞提取,并從古籍文本《齊民要術》中提取3 000多個普通詞語和專有名詞;歐陽劍[5]根據古代漢語詞匯發展特點、斷代詞典及詞匯專書研究現狀,將古籍文本切分為4個時段,采用分段疊加的方式構建詞庫,按古籍文本的年代分別調用相應詞庫,取得了較好的古籍文本分詞效果;王曉玉等[6]運用CRFs和詞典相結合的方法,以中古時期的史書、佛經、小說類語料訓練古籍文本分詞模型,消除了古代漢語人工分詞結果不一致的問題;華振紅[7]根據中古漢語基本特點,結合現有語料庫建設經驗,闡述了中古漢語語料庫選取語料的若干原則,討論了建立中古漢語語料庫分詞規范、分詞詞表的可行性,并初步構建了按照中古漢語分詞規范進行信息處理的整體框架;宋彥等[8]借助機器學習中的學習算法,將基于字的條件隨機場模型和基于詞的Bi-gram語言模型結合,提出一種聯合解碼的中文分詞方法,在一定程度上提高了分詞準確度。

但以上研究并未在基于詞典的古漢語分詞方面提出一種快速建立古漢語詞庫的有效方法。因此本文提出一種基于新詞發現與詞典信息的古籍文本分詞方法。首先,運用互信息和鄰接熵的新詞發現方法,對古籍文本進行處理,識別出未登錄詞、過濾掉停用詞和錯誤的詞;其次,將識別出的未登錄詞表與古代漢語詞匯表、古代人名詞表、古代地名表結合并構建古籍文本詞典;最后,將古籍文本詞典作為用戶詞典,使用中科院分詞系統pyNLPIR對古籍文本進行分詞,并檢驗分詞準確度。該研究結果可直接服務于古籍文本語料庫建設。

1 新詞發現

根據劉偉童等 [9]的研究,將新詞發現方法歸納為3種:基于規則、基于統計與基于統計與規則相結合的新詞發現方法。基于規則的新詞發現方法指利用詞性特征、語言學構詞規則等發現新詞,新詞發現準確率比較高,但是可擴展性、靈活性較差,而且消耗大量資源[10];基于統計的新詞發現方法指通過大量實驗語料計算詞語詞頻、成詞概率、左右鄰接熵、鄰接變化數等統計特征識別新詞,基于統計的方法較為靈活,不受領域限制,易擴展且可移植性較好,但存在數據稀疏和準確率較低的缺點[11];基于規則與統計相結合的新詞發現方法則融合上述兩種方法優點,從而可提高新詞發現的準確率和效率[12]。本文在未切詞的實驗語料中從左到右進行逐字擴展,利用互信息、左右鄰接熵等統計特征和刪除候選詞的首尾停用詞、過濾舊詞等規則實現新詞發現。

1.1 互信息

詞語是詞和語的合稱,是一個可以單獨存在的語言單元,詞語各個字之間存在一定相關性。字之間或詞與字之間相關性越大,則字之間或詞與字成詞的概率越大?;バ畔⒖梢杂嬎銉蓚€物體相互依賴的程度,互信息值越大,代表兩個物體依賴程度越大,因此新字符串內部成詞概率可通過互信息計算獲取[13]。二元互信息指兩個事件相關性的數量,見公式(1)。

1.2 鄰接熵

信息熵是信息期望值,用來描述信息不確定度。一般來講,信息熵越大說明變量包含的信息越大,變量不確定性也越大[15]。實驗結果表明,集合信息混亂程度越高,包含的信息量越少。消除外界不確定性的方法是引入信息,如果沒有外部信息則無法排除不確定性,在自然語言處理過程中,信息處理過程是一個消除不確定性的過程。

在新詞發現過程中,需要計算一對詞之間左、右信息熵,因為熵表示不確定性,所以熵值越大說明詞越新,與它相鄰的字或詞種類越多,其邊界越明顯。以左信息熵為例,一個新候選詞的左信息熵為該候選詞與其左邊所有種類相鄰字結合的信息熵之和,與候選詞左邊相鄰字的種類越多,則候選詞左信息熵越大,候選詞左邊與其它類別的字邊界越明顯;相反,與候選詞左邊相鄰字的種類越少,則候選詞左信息熵越小,候選詞左邊成為一個詞左邊界的可能性也越小,此時需對候選詞向左擴充字符,直到左邊界確定為止[16]。候選詞左信息熵計算公式見式(5)。

2 古籍文本分詞

古籍文本分詞是進行古籍文本知識挖掘及知識計算的基礎,目前用于古籍文本分詞的方法主要有兩種:一種是基于詞典的分詞方法,另一種是基于統計和機器學習的分詞方法[17]。基于詞典的分詞方法需要語言學家通過人工篩選標注出古代漢語詞匯,構建古代漢語領域詞典,然后將待分詞的古籍文本與詞典中的詞進行對比,從而達到分詞目的。其優點是分詞準確率較高、程序簡單,但缺點也很明顯,構建的詞典具有領域局限性;古代漢語還有朝代局限性,即不同朝代的漢語詞匯表達不同,因此需要重新構建詞典?;诮y計和機器學習的分詞方法利用人工標注的古籍文本語料訓練語言模型、語言模型學習語料庫中詞的構成方式及語法語義信息,從而實現古籍文本自動分詞[18-20]。

由于鮮有古籍文本分詞所需的詞庫、訓練語料及語法規則,所以本文基于字符串匹配進行古籍文本分詞。采用該方法的首要任務是構建古漢語詞庫,根據實際需要,本文依據《漢語大詞典》[21],過濾掉現代漢語詞匯以構建古代漢語詞匯表,根據中國歷代人物資料庫構建歷代人物詞表,依據古今地名對照表梳理出古代地名表。整合古代漢語詞匯表、歷代人物詞表、古代地名表,初步構建古籍文本分詞詞典。

為進一步擴充古籍文本分詞詞典,提高古籍文本分詞準確率,本文基于互信息與鄰接熵的新詞發現方法從《漢書》中抽取未登錄的新詞添加到詞典中,使用自定義的古籍文本分詞詞典對《漢書》進行分詞,分詞流程見圖1。

3 實驗結果及分析

本文實驗選用中國第一部紀傳體斷代史《漢書》,約???? 1 267 776個漢字。將文本轉換為TXT格式,利用正則表達式過濾文本標點符號及特殊符號,結合哈爾濱工業大學停用詞表與古代序詞表作為古漢語分詞停用詞表。

采用Python3.6實現互信息與鄰接熵算法,對《漢書》進行處理以發現未登錄的新詞,使用中科院提供的pyNLPIR[22]作為分詞工具。

對利用基于互信息與鄰接熵的新詞方法發現的實驗結果,采用準確率(Precision)、召回率(Recall)和F值(F-measure)作為評價指標,其計算公式為:

對《漢書》進行處理之后,將計算獲取的互信息[MI(w1?wn)]、左鄰接熵[Hleft(W)]、右鄰接熵[Hright(W)]進行求和得到綜合評分,對綜合評分排序,取topN作為新發現詞。通過互信息與鄰接熵的新詞發現方法,將《漢書》中發現的新詞按評分從高到低排列后,選取top10進行展示,如表1所示。

新詞發現的準確率、召回率和F值如表2所示。

結合表1、表2可以發現,通過基于互信息與鄰接熵的新詞發現方法在《漢書》中識別出的新詞,雖然能夠選用的不多,準確率、召回率和F值普遍不高,但該方法可以增加自建詞典詞語全面性,在一定程度上提高古籍文本基于詞典分詞的準確性。

4 結語

本文運用互信息與鄰接熵的新詞發現方法對《漢書》進行了新詞抽取,并結合古代漢語詞匯表、古代人物詞表、古代地名表構建了古籍文本詞典,使用pyNLPIR分詞工具對《漢書》進行分詞實驗。新詞發現方法在創建用戶詞典過程中可提供一些新的詞語,為基于詞典的古籍文本分詞提供了一種可行的思路。同時本文還有許多不足,如新詞發現準確率、召回率并不高,這與新詞發現算法在古籍文本中的參數設定有關,還需進一步研究,提高新詞準確率,從而構建更完整的古籍文本分詞詞典,提高古籍文本分詞準確度。

參考文獻:

[1] 趙生輝,朱學芳. 我國高校數字人文中心建設初探[J]. 圖書情報工作,2014,58(6):64-69.

[2] 董秀芳. 詞匯化:漢語雙音詞的衍生和發展(修訂本)[M]. 北京:商務印書館,2011.

[3] 嚴順. 先秦文獻的語料庫構建探究[J]. 江蘇科技信息, 2016(12):32-33.

[4] 曹艷,侯漢清. 古籍文本抽詞研究[J]. 圖書情報工作,2008,52(1):132-135.

[5] 歐陽劍. 面向數字人文研究的大規模古籍文本可視化分析與挖掘[J]. 中國圖書館學報,2016(2):66-80.

[6] 王曉玉,李斌. 基于CRFs和詞典信息的中古漢語自動分詞[J]. 數據分析與知識發現,2017,1(5):62-70.

[7] 化振紅. 深加工中古漢語語料庫建設的若干問題[J]. 西南大學學報:社會科學版,2014,40(3):136-142.

[8] 宋彥,蔡東風,張桂平,等. 一種基于字詞聯合解碼的中文分詞方法[J]. 軟件學報,2009,20(9):2366-2375.

[9] 劉偉童,劉培玉,劉文鋒,等. 基于互信息和鄰接熵的新詞發現算法[J/OL]. 計算機應用研究:1-6.2018-01-10, http://www.arocmag.com/article/02-2019-05-017.html.

[10] 李明. 針對特定領域的中文新詞發現技術研究[D]. 南京:南京航空航天大學,2012.

[11] 李文坤,張仰森,陳若愚. 基于詞內部結合度和邊界自由度的新詞發現[J]. 計算機應用研究,2015, 32(8):2302-2304.

[12] 夭榮朋,許國艷,宋健. 基于改進互信息和鄰接熵的微博新詞發現方法[J]. 計算機應用,2016, 36(10):2772-2776.

[13] 杜麗萍,李曉戈,于根,等. 基于互信息改進算法的新詞發現對中文分詞系統改進[J]. 北京大學學報:自然科學版,2016, 52(1):35-40.

[14] YE Y,WU Q,LI Y,et al. Unknown Chinese word extraction based on variety of overlapping strings[J]. Information Processing & Management, 2013, 49(2):497-512.

[15] 王鋒,劉吉超,魏巍. 基于信息熵的半監督特征選擇算法[J]. 計算機科學,2018,45(11A):427-430.

[16] 王欣. 一種基于多字互信息與鄰接熵的改進新詞合成算法[J]. 現代計算機,2018(4):7-11.

[17] 梁社會,陳小荷. 先秦文獻《孟子》自動分詞方法研究[J]. 南京師范大學文學院學報, 2013(3):175-182.

[18] 段磊,韓芳,宋繼華. 古漢語雙字詞自動獲取方法的比較與分析[J]. 中文信息學報,2012, 26(4):34-43.

[19] 石民,李斌,陳小荷. 基于CRF的先秦漢語分詞標注一體化研究[J]. 中文信息學報,2010, 24(2):39-46.

[20] 黃水清,王東波,何琳. 以《漢學引得叢刊》為領域詞表的先秦典籍自動分詞探討[J]. 圖書情報工作, 2015(11):127-133.

[21] 《漢語大詞典》編寫委員會. 漢語大詞典[M]. 北京:商務印書館, 2003.

[22] 張華平. 漢語分詞系統[EB/OL]. http://www.nlpir.org/.

(責任編輯:江 艷)

主站蜘蛛池模板: 国产视频久久久久| 亚洲免费人成影院| 91系列在线观看| 亚洲精品视频免费观看| 亚洲欧美自拍中文| 国产高清不卡| 国产精品网址你懂的| 国产成人久视频免费| 亚洲成人播放| 婷婷色一二三区波多野衣| 日韩小视频在线播放| 欧洲高清无码在线| 日韩中文无码av超清| 四虎在线观看视频高清无码| JIZZ亚洲国产| 日韩精品毛片| 亚洲无码在线午夜电影| 精品视频福利| 人妻丝袜无码视频| 久久国产精品夜色| 亚洲欧美在线精品一区二区| 亚洲免费三区| 国产无套粉嫩白浆| 国产精品亚洲一区二区三区z| 尤物亚洲最大AV无码网站| www.国产福利| 欧美中日韩在线| 午夜激情婷婷| 亚洲精品视频免费看| 中文字幕免费在线视频| 国产成人成人一区二区| 国产jizz| 欧美综合成人| 激情六月丁香婷婷四房播| 日本伊人色综合网| 国产真实二区一区在线亚洲| 国产精品久线在线观看| 国产真实二区一区在线亚洲| 91精品国产福利| 国产白浆视频| 欧美一级在线播放| 高清久久精品亚洲日韩Av| 午夜福利在线观看成人| 色综合久久综合网| av天堂最新版在线| 中文字幕资源站| 久久成人国产精品免费软件| 欧美在线三级| 一级黄色片网| 欧美精品啪啪| 欧美成人综合在线| 亚洲午夜片| 色偷偷av男人的天堂不卡| 在线国产毛片| 久久久久九九精品影院| 成人另类稀缺在线观看| 国产精品19p| 国产欧美日韩免费| 亚洲综合片| 亚洲人成网站18禁动漫无码| 日本色综合网| 欧美午夜网| 欧美成人午夜在线全部免费| 国产精品无码AⅤ在线观看播放| 久久精品午夜视频| 精品视频一区二区观看| 亚洲人成网站在线播放2019| 国产成人超碰无码| 香蕉精品在线| 国产精品手机视频| 操国产美女| 色综合中文| 97se亚洲| 亚洲一区二区日韩欧美gif| 女人av社区男人的天堂| 成人中文在线| 亚洲精品日产精品乱码不卡| 97青草最新免费精品视频| 亚洲熟女中文字幕男人总站| 亚洲激情99| 91精品久久久无码中文字幕vr| 无码AV日韩一二三区|