999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

領域文本信息抽取中的短語相似度計算方法

2017-06-20 23:44:29沈潔彭敦陸
軟件導刊 2017年4期
關鍵詞:語義文本

沈潔+彭敦陸

摘要:隨著信息化的深入發展,各應用領域積累了大量采用半結構化方式記錄的文本數據。為了快速有效地從大規模面向領域的半結構化文本中抽取有用信息,信息抽取技術應運而生。文本信息抽取的核心算法之一是計算詞或短語的相似度,針對面向領域的半結構化文本中的中文短語相似度計算,先采用模式匹配算法從原始半結構化文本中抽取中文短語,然后結合領域語義依存關系,對基于公共子串的短語相似度計算方法進行改進,以此提高短語相似度計算的可靠性。實驗結果表明,所提算法具有較好的計算效果。關鍵詞:領域半結構化文本;公共子串;依存關系(DOI)DOI:10.11907/rjdk.162708中圖分類號:TP301文獻標識碼:A(文章編號)文章編號:16727800(2017)0040006030 引言 在信息爆炸的今天,各大領域都產生了大規模的半結構化文本。在醫療領域,產生了大量的電子病歷文本[1];在司法領域,產生了大量的審判案件法律文書。對領域文本進行高效地信息抽取,是實現文本數據結構化和領域數據分析的基礎,而短語相似度計算又是進行正確信息抽取的前提。 通常,由于缺乏背景知識,直接從面向領域的半結構文本中抽取的短語不夠準確,難以與領域知識相對應。一種可能的方法是從領域知識庫中查找與抽取短語相似的短語來提高信息抽取的準確性。由此,需要高效地計算從文本中抽取出的短語與領域知識庫中的短語相似度。迄今為止,短語相似度的計算已應用于諸多方面,例如文本聚類[2]、文本檢索[3]和機器翻譯[4]等。 在司法領域,為了對大量案件進行有效的數據分析,首先需要對審判案件的法律文書進行信息抽取,形成結構化數據。在針對法律文書(如判決書)抽取的大量數據項中,有一類數據項是由一組連續詞語組成的短語,例如,針對“案由”這個數據項,在判決書中可能會抽取到“販賣毒品罪”,而這一短語在面向司法領域的知識庫(取自我國《刑法》)中的對應短語是“走私、販賣、運輸、制造毒品罪”,兩者之間不完全相同,但相比其它短語則更加相似。研發出高效計算文本中抽取出的短語與領域知識庫中短語的相似度計算方法,有助于提高領域信息抽取的準確度和抽取效率。1 準備工作1.1 面向領域的中文短語抽取〖ST〗〖WT〗 與領域相關的中文短語抽取是面向領域的半結構化文本信息抽取的重要任務之一。抽取出的短語以結構化的形式進行存儲,為后期的數據分析服務。在短語抽取中,先使用基于模式匹配的結構化信息抽取方法[5],從面向領域的半結構化文本中抽取中文短語。 下面以實現來說明該算法的執行過程。例如,對短語“指控被告人王某犯販賣毒品罪一案”,首先進行分詞,然后選取案件案由的抽取模式(見圖1)對分詞序列進行模式匹配得到目標短語。其中,keyword、itemword、objphrase分別表示關鍵詞、普通詞和目標短語。通過增加關鍵詞同義詞的方式對案件案由的抽取模式進行優化,這樣該算法就可以克服傳統模式的不足,準確地匹配包括同義詞在內的短語表達。< pattern keyword ="指控" pos ="v" >< keyword-synonym >< synonym name ="控告" pos ="v" / >< / keyword-synonym >< Cluster id ="1" >< patternStr >< pattern id ="1" value =" \\s keyword/v 被告人/n itemword/nr 犯/v objphrase/n 一/m 案/ng \\b" >< / patternStr >< / Cluster >< / pattern >1.2 構建領域知識庫 法律文書由司法相關工作人員人工進行書寫,書寫過程中會出現書寫不規范的情況。例如使用上節闡述的算法從法律文書中抽取的案件案由為“販賣毒品罪”,而這一短語在面向司法領域的知識庫(取自我國《刑法》)中的對應短語是“走私、販賣、運輸、制造毒品罪”。所以需要構建領域知識庫,從知識庫中選取與抽取短語相似程度最高的短語作為最后的使用短語,這樣可以使抽取結果更加專業化。 本文采用主成分分析算法過濾法律文書中的噪聲信息,然后通過深度學習算法抽取領域特征詞和領域特征短語,構建領域知識庫。司法領域的審判案件法律文書中有很多法律方面的知識,例如,審判案件類型、案件案由、結案方式等,其中案由又分為刑事案件案由、民事案件案由和行政案件案由,刑事案件案由如表1所示。3類案件在知識庫中共1 470條具體的案由數據。領域知識庫中的專業知識蘊含了該領域寶貴的信息,對于提高信息抽取的準確性和有效性有巨大幫助。2 短語相似度應用實驗 2.1 基于公共子串的短語相似度計算 基于編輯距離的短語相似度計算方法,沒有考慮字符與字符之間的連續性。例如“販賣毒品罪”通過編輯距離計算得到的相似短語是“非法買賣制毒物品罪”,而實際上“販賣毒品罪”相似的司法領域短語是“走私、販賣、運輸、制造毒品罪”。短語“販賣毒品罪”與短語“非法買賣制毒物品罪”相同的字符為“賣”、“毒”、“品罪”,而短語“販賣毒品罪”與短語“走私、販賣、運輸、制造毒品罪”相同的字符為“販賣”、“毒品罪”,由此可以看出短語與短語的相同字符越連續,越具有語義含義。為了解決相同字符不連續導致相似短語選取錯誤的情況,本文提出基于公共子串的短語相似度計算方法(Common Substring,CS)。 定義1 子串:字符串S中任意個數的連續字符所組成的子序列稱為該字符串的子串。 定義2 公共子串:如果字符串C既是字符串S的子串又是字符串T的子串,則字符串C是字符串S和字符串T的一個公共子串。 定義3 最長公共子串:指字符串S和T的公共子串中長度最長的一個公共子串D。 動態規劃算法是解決最長公共子串[6]問題的經典算法,通過式(1)可以計算出原始短語和目標短語的最長公共子串,進而可以得到不包含重復字符的公共子串(包含空字符串)。原始短語S和目標短語T的公共子串(不包含重復字符)個數為k,公共子串集合按長度從大到小排序,可以通過式(2)計算基于公共子串的短語相似度。其中,|Vm|表示公共子串的字符個數,|S|表示原始短語的字符個數。 通過基于公共子串的短語相似度計算方法給連續的字符賦予更高的權重,可以解決通過編輯距離計算短語相似度時,字符不連續情況導致的相似短語選取錯誤的情況,從而提高算法的準確度。2.2 結合領域語義依存關系的短語相似度計算 在上節提出的短語相似度計算方法考慮了連續字符的重要性,通過賦予連續字符更高的權重增加了連續字符的重要程度,但是沒有考慮短語中詞語與詞語之間的依存關系(Dependency Relationship,DR)。例如短語“制造、販賣毒品罪”中包含動賓關系,強調的是賓語“毒品”,而上節中提出的算法給連續字符“制造販賣”賦予了更高的權重,而忽略了賓語“毒品”的重要性。通過分析司法領域知識庫中的短語,可以發現知識庫中的短語都是名詞性短語,主要包括3種關系:主謂關系、動賓關系和定中關系。在司法領域,對于主謂關系,主語依存于謂語動詞,多數在語義上強調的是主語;對于動賓關系,賓語依存于動詞,強調的是賓語;對于定中關系,定語依存于中心詞(名詞),強調的是定語。通過分析領域短語中詞語與詞語之間的語義依存關系,可以發現短語的主語、賓語和定語是短語的語義重心,應該給語義重心賦予更高的權重,更好地體現領域的特征。 在計算短語相似度時,考慮短語語義重心可以使選取相似短語的結果更加準確,在此提出結合領域語義依存關系的公共子串短語相似度計算方法(DR-CS)。為了找到短語的語義重心,需要對短語進行依存句法分析。本文通過語言技術平臺(LTP)[7]得到短語中的主謂關系、動賓關系和定中關系,進而得到句子的主語、賓語和定語。如圖1所示,SBV表示主謂關系,VOB表示動賓關系,ATT表示定中關系。對目標短語中的主語、賓語和定語分別賦予權重,并結合上節中提出的算法計算短語相似度,可以體現短語的語義重心,提高短語相似度計算的準確度。主語、賓語和定語的權重如式(3)所示,其中WG分別表示主語、賓語和定語的權重之和,λ1、λ2、λ3表示權重的系數,需要通過實驗進行調整,|Gsub|、|Gobj|、|Gatt|分別表示主語、賓語和定語的字符個數。將主語、賓語和定語的權重與基于公共子串的短語相似度計算方法相結合得到式(4)。 結合領域語義依存關系的公共子串短語相似度計算方法不僅考慮了字符與字符之間的連續性,還考慮了領域依存關系,增加了領域詞語的重要程度,體現了短語的語義重心,提高了相似短語查找的準確性和有效性。2.3 實驗方法實驗數據來自江蘇省全省人民法院在2014年1月-2014年12月公開審判案件的裁判文書 ,包括4 000篇刑事案件裁判文書、4 000篇民事案件裁判文書和4 000篇行政案件裁判文書,總共12 000篇文檔。 實驗采用對比的方法,驗證本文提出算法的準確性和有效性。結合司法領域知識庫中的刑事、民事和行政案件案由,計算抽取短語與案件案由列表中短語的相似度。將結合領域語義依存關系的公共子串短語相似度計算結果與基于編輯距離的短語相似度計算方法和基于公共子串的短語相似度計算方法的計算結果進行對比,驗證結合領域語義依存關系的短語相似度計算方法的有效性。〖JP+2〗表2展示了3種方法的短語相似度計算結果。原始短語就是抽取短語,目標短語是知識庫中的短語。第3、4、5列分別表示基于編輯距離的短語相似度計算方法、基于公共子串的短語相似度計算方法和結合領域語義依存關系的公共子串短語相似度計算方法的計算結果。對于基于編輯距離的短語相似度計算方法,選取編輯距離最小的目標短語作為原始短語的相似短語,而對于基于公共子串的短語相似度計算方法和結合領域語義依存關系的短語相似度計算方法,應該選取相似度值最大的目標短語作為原始短語的相似短語。從表2可以看出,結合領域語義依存關系的短語相似度計算方法具有更好的區分度。2.4 實驗結果與分析 本文對12 000篇審判案件裁判文書的案件案由進行了人工標注,通過對比3種算法的結果和人工標注的結果來驗證算法的準確性和有效性。 實驗過程中,對權重系數進行調整,當λ1=0.8,λ2=0.6,λ3=0.3時,結合領域語義依存關系的短語相似度計算方法得到較好結果。實驗使用準確率來評估算法在不同規模下的準確性和有效性。通過對比結合領域語義依存關系的短語相似度計算方法與基于編輯距離的短語相似度計算方法和基于公共子串的短語相似度計算方法的計算結果,可以驗證結合領域語義依存關系的短語相似度計算方法具有更好的效果。從實驗結果(見圖1)可知,橫坐標表示實驗所用數據集的大小,縱坐標表示ED、CS和DR-CS算法在相應數據集上準確率的大小。另外,從圖中還可以看到,在不同規模的數據集下,結合領域語義依存關系的公共子串短語相似度計算方法的準確性比其它兩種算法的準確性要高,準確率維持在90%左右。3 結語隨著互聯網的發展,電子化辦公方式越來越普及,各領域都產生了大量文本數據,如何從大規模面向領域的半結構化文本中挖掘有價值的信息是研究者所關注的。有效地信息抽取對后期的數據挖掘和分析效果會生產較大影響。本文從面向領域的半結構化文本出發,先采用模式匹配算法抽取的中文短語,運用結合領域語義依存關系的公共子串短語相似度計算方法計算抽取短語與領域知識庫中短語的相似度,查找出領域知識庫中與抽取短語最相似的短語作為結果保存到結果數據中,保證了抽取的信息更加符合領域實際情況。實驗結果展示了所提算法具有較好的計算效果。如何在分布式環境下對大規模面向領域的文本信息抽取技術及文本數據挖掘算法進行探索,則是下一步研究的重點。endprint

參考文獻:[1]KREUZTHALER M,SCHULZ S,BERGHOLD A.Secondary use of electronic health records for building cohort studies through topdown information extraction[J].Journal of biomedical informatics,2015(53):188195.

[2][CHO Y H,PARK S H,LEE S K.Phraserank for document clustering:reweighting the weight of phrase[C].Proceedings of the 2nd International Conference on Interaction Sciences:Information Technology,Culture and Human,2009:168174.

[3][PASCA M. Asking what no one has asked before:using phrase similarities to generate synthetic web search queries\[C].Proceedings of the 20th ACM International Conference on Information and Knowledge Management,2011: 13471352.

[4][ZENS R,OCH F J,NEY H.Phrasebased statistical machine translation[C].Annual Conference on Artificial Intelligence.Springer Berlin Heidelberg,2002:1832.

[5][邵堃,楊春磊,錢立賓,等.基于模式匹配的結構化信息抽取[J].模式識別與人工智能,2014,27(8):758768.

[6][DEOROWICZ S,GRABOWSKI S.Efficient algorithms for the longest common subsequence in klength substrings\[J]. Information Processing Letters,2014,114(11):634638.[7][W CHE,Z LI,T LIU.Ltp:a Chinese language technology platform[C].Beijing:in Coling 2010:Demonstrations,2010:1316.(責任編輯:孫娟)

猜你喜歡
語義文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 欧美一区二区三区国产精品| 99精品久久精品| m男亚洲一区中文字幕| 亚洲第一精品福利| 国产人人射| 看你懂的巨臀中文字幕一区二区| 国产伦片中文免费观看| 又爽又大又黄a级毛片在线视频| 国产jizzjizz视频| 91在线中文| 天天摸夜夜操| 国产91丝袜在线播放动漫| 亚洲天堂视频在线免费观看| 在线欧美日韩国产| 国产美女精品在线| 老司机午夜精品网站在线观看| 无码免费视频| 久久性妇女精品免费| 国产福利在线免费观看| 国产午夜不卡| 日本三级精品| 欧美一级专区免费大片| 国产9191精品免费观看| 亚洲区第一页| 欧美亚洲一二三区| 国产精品深爱在线| 色网在线视频| 一边摸一边做爽的视频17国产| 不卡无码h在线观看| 色爽网免费视频| 日韩精品成人网页视频在线| 熟妇丰满人妻| 好吊色妇女免费视频免费| 婷婷六月综合网| 狠狠色婷婷丁香综合久久韩国| 欧美午夜视频在线| 无码一区18禁| 中文字幕欧美成人免费| 国产精品久久久久无码网站| 午夜国产大片免费观看| 九色视频最新网址| 免费jjzz在在线播放国产| 人妻熟妇日韩AV在线播放| 国产国语一级毛片| 波多野结衣中文字幕一区| 久久一日本道色综合久久| 亚洲人在线| 精品第一国产综合精品Aⅴ| 成年人福利视频| 免费看a毛片| 欧美成人精品高清在线下载| 91视频国产高清| 国产区免费| 国产91线观看| 亚洲人成色在线观看| 人妻丰满熟妇av五码区| 一本大道香蕉久中文在线播放| 在线观看精品国产入口| 国产成人精品日本亚洲| 免费毛片视频| 亚洲 成人国产| 中国成人在线视频| 亚洲一区二区三区麻豆| 国产精品福利导航| 91尤物国产尤物福利在线| 国产丝袜第一页| 99无码中文字幕视频| 欧美激情视频二区| 综合亚洲网| 四虎国产精品永久一区| 久久精品亚洲热综合一区二区| 国产精品视频猛进猛出| 成人午夜精品一级毛片| 黄色成年视频| 福利一区三区| 欧美日韩专区| 国产成人亚洲无码淙合青草| 黄色三级网站免费| 久久精品国产精品国产一区| 亚洲欧州色色免费AV| 亚洲日韩精品欧美中文字幕 | 日本人妻一区二区三区不卡影院 |