999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

弱監督軍事實體關系識別

2018-01-18 07:10:54李煜甫黃蔚胡國超
電子設計工程 2018年1期
關鍵詞:文本模型

李煜甫,黃蔚,胡國超

(華北計算技術研究所北京100083)

隨著信息指揮系統的廣泛應用,軍事文本的撰寫、傳遞、審閱、管理、批閱、展示等各個環節已經基本實現了電子化,極大地提高了指揮的效率。但是,現有系統無法對記述式的軍事文本進行深層的語義解析,極大地限制了信息指揮系統決策功能的發揮。通過識別軍事文本中的軍事命名實體,并抽取其相互關系,自動解析信息指揮系統中軍事文本的語義,從而構建軍事知識庫,輔助指揮人員進行更有效的決策。

目前國內的實體關系識別研究方向主要集中在有監督[1]和弱監督機器學習上[2]。有監督關系識別[3]中,肜博輝等在2017年提出一種基于多通道卷積神經網絡模型[4]。甘麗新等在2016年提出依存句法關系進行組合獲取關系特征和句法依賴動詞特征,再使用SVM進行關系抽取[5]。弱監督關系抽取[6]中,賈真等在2015年提出一種基于自擴展和樸素貝葉斯的句子分類器,然后利用條件隨機場模型訓練關系抽取器[7]。張春云等在2015年提出一種語義最短依存路徑模式的bootstrapping模型,用觸發詞[8]的模式識別實體關系[9]。

由于軍事文本自身特殊性,不能依據大量人工進行標注,這就極大地限制了使用傳統有監督機器學習和深度學習的方法對軍事文本中命名實體關系識別研究。且現有實體關系特征詞提取方式較為單一,僅僅將實體前后若干詞作為特征詞。并不能依據海量文本提取出目標實體對之間的潛在特征信息。于是,本文提出一種基于Word2vec和FPGrowth相結合的弱監督軍事實體關系識別技術。通過自擴展技術進行關系詞擴充,使用FPGrowth方法挖掘實體關系的潛在特征詞,并用Word2vec模型表征關鍵詞與特征詞之間的關系。最后提出一種淺層關系矩陣對實體關系進行分類。

1 關系識別準備工作

1.1 設計框架

軍事文本有著行文標準,措辭嚴謹,語義二義性少的特點。對與實體關系的描述中不會存在著正反相差特別大的詞語。由于本文主要處理的實體是人員,艦船,飛機,機構等。故提出3種實體關系:“敵對”,“協同”和“伴隨”。

基于上述特點,文中提出一種基于word2vec和FPGrowth的弱監督軍事實體關系識別方法。具體流程分為獲取軍事文本數據、數據預處理、訓練word2vec、初始關系種子詞選擇、找出關系特征詞、判斷實體關系、擴充關系種子詞。其中,關系特征詞是用來進行關系識別的特征詞,關系種子詞是用來判斷特征詞的分類情況。方法流程圖如圖1所示。

圖1 方法流程圖

1.2 種子詞選擇

Word2vec模型[10]是一種能夠將詞表征為詞向量的高效模型。通過訓練后可以將詞語映射成一個K維的實數向量,最主要的是能夠通過詞語之間的距離(一般使用余弦距離)來判斷它們在語義層面的相近程度。因此,文中使用word2vec模型訓練出來的詞向量進行語義層面的分析。

對于word2vec模型中任意兩個詞向量,一般來說只要余弦距離大于0.5,就可以認為這兩個詞有一定關系。若大于0.6,這兩個詞就是近義詞。若大于0.7,這兩個詞就是同義詞。

本文提出的方法支持自定義多種關系。由于本文主要處理的實體是人員,艦船,飛機,機構等。故提出 3 種實體關系[11]:“敵對”,“協同”和“伴隨”。“敵對”關系是不同派系之間因為立場的不同而產生的關系;“協同”關系是同級別之間的相同立場的關系;而“伴隨”關系是上下級之間關系。其他的關系都是在此3種關系之下延伸出的子關系,例如:“A飛機”是隸屬于“B艦船”,它們之間是隸屬關系,也是伴隨關系。“A人員”是“B艦船”的指揮長,它們之間是指揮關系,也屬于伴隨關系。故給軍事實體設定敵對、協同和伴隨著3種關系。

敵對關系中:以“對立”作為起始種子詞,通過word2vec模型化為向量后余弦距離最近的10個詞分別是:“還擊”,“沖突”,“敵對”,“打擊”,“矛盾”,“對立”,“制衡”,“孤立”,“對抗”,“抵抗”等。將這十個詞作為敵對關系的初始種子詞。

協同關系:以“與”作為起始種子詞,通過word2vec模型化為向量后余弦距離最近的10個詞分別是:“與”,“同時”,“及其”,“、”,“及”,“和”,“以及”,“一起”,“共同”,“攜手”等。將這 10 個詞作為協同關系的初始種子詞。

伴隨關系:以“指揮”作為起始種子詞,通過word2vec模型化為向量后余弦距離最近的10個詞分別是:“指揮”,“調度”,“指令”,“調集”,“協同作戰”,“護送”,“巡防”,“命令”,“調遣”,“救援”等。將這 10個詞作為伴隨關系的初始種子詞。

1.3 關系特征詞提取

頻繁項集發掘算法[12]用于發掘多個集合中經常出現在同一個集合中的頻繁項。對于實體關系對來說,可以用找出符合條件的最大頻繁項作為此實體對間的關系特征詞。從而能將僅僅依靠句子級別的實體關系識別轉化為依靠多文章、多特征的關系識別[13]。

首先對一篇文章來說。先找出其中含有的所有實體。再找出其中實體與實體之間可能包含關系的短語,對其中的短語進行分詞和去停用詞處理,得到多個(實體A,實體B,實體特征詞)三元組。

以“A艦船對位于太平洋的B艦船進行了警告。”為例:找出其中的實體A艦船,B艦船。接著根據實體將句子進行短語劃分。將實體A之后,實體B之前的特征短語劃分到當前實體下,并對特征短語進行去分詞與去停用詞,如圖2所示。

圖2 實體關系候選詞

此句構成3元組(A艦船,B艦船,{對,位于,太平洋,進行,警告})。此三元組分別表示實體A,實體B,以及實體之間特征詞。

通過得到的初始三元組,找出其中實體對一致的三元組,使用FPGrowth算法找出其中的潛在特征詞。以“A艦船對位于太平洋的B艦船進行了警告。”和“A艦船對B艦船進行了警告和驅趕。”為例。可以得到兩個三元組:

(A艦船,B艦船,{對,位于,太平洋,進行,警告})

(A艦船,B艦船,{對,進行,警告,驅趕})

此時符合支持率的最大頻繁項是{對,進行,警告}。可以組成一個三元組(A艦船,B艦船,{警告,對,進行})。可以看出,三元組中的第三項就是此實體對間的關系詞集合,也就是A艦船與B艦船之間的關系特征詞。

2 軍事實體關系識別

2.1 構建關系矩陣

找出軍事實體三元組后,就可以進行實體關系識別。文中提出了一種非傳統機器學習的分類方法,通過計算得到一個關系分類矩陣,然后通過判斷矩陣中最大項來進行種子詞擴充和關系識別。

對于三元組中關系集合的每個詞語,可以看成一個K維的向量。用αi來表示第i個詞語的詞向量。而對于“敵對”關系,可以用矩陣表示,其中βj表示敵對簇中第j個詞語的詞向量。然后計算αi與矩陣每一列的余弦角。也就是:

可以得到一個表示詞αi與關系簇的關系向量,用[μi1,μi2,…,μik]表示。對于實體與實體之間的多個詞語求與此關系簇之間的平均余弦距離,得到向量,其中,n是實體對間詞語的個數。并且其中的每一項的平均值μˉi=(μi1+μi2+…μik)k,表示實體對間第i詞語對該關系簇的平均余弦距離(0~1之間)。

當已知向量μ,η和θ。首先要先找到此實體與實體間的所有關系詞中最能代表此關系的詞。此時需要對向量μ,η和θ做加法,得到一個新的向量δ=μ+η+θ。分別用μ,η和θ除以δ對應列。即:

找出矩陣M中值最大的一項,以ηiδi為例:ηiδi對應的列,也就是第i列所對應的詞,就是此實體對關系詞中最能表示關系的詞,且其對應的行,也就是對應的η,即“協同”關系。

找出向量η對應的ηi,若ηi的值大于0.5,則將ηi對應的詞wi添加到“協同”關系種子備選詞中。進一步判斷是否將此關系詞加入到“協同”種子中。

對于實體關系的程度,可以依據可靠度可以判斷實體關系的程度。對于實體關系的可靠度,用最終選取的關系詞對應的來表示。

2.2 種子關系詞擴充

Bootstrapping是一種自擴展技術[14],通過少量標注信息[15],不斷得到新的信息[16]。首先,選出不同關系的關系種子詞各十個。然后依據關系種子詞來進行軍事實體對間關系判別。

對于這些種子備選詞,計算其中的熵。用關系詞αk與“敵對”關系的關系向量[μk1,μk2,…,μkn]為例。

其中:

若Entropy(W)的值大于等于0.9*log2n,則將此詞語添加到當前關系種子詞中。因為n個情況的最大熵[17]就是log2n,如果當前加入的這個詞的信息熵不小于0.9倍的最大熵,則說明這個關系詞不會使此關系種子偏差過大。

3 實驗及分析

選取30萬篇軍事文本。通過分詞器對30萬篇軍事文章進行分詞,然后寫入到一個文檔中。文檔中的每一行就是一篇已經分好詞的文章,詞與詞之間以空格隔開。最后通過word2vec模型對此處理好的文檔進行計算。將詞向量模型維度設為256,窗口大小設為5,迭代次數設為10次。訓練好的word2vec模型可以得到一個有202 196個詞和202 196個256維的詞向量文本。

雖然本文提出的方法支持自定義多種關系。但是由于本文主要處理的實體是人員,艦船,飛機,機構等。故提出3種實體關系[5“]:敵對”“,協同”和“伴隨”。

表1 關系種子詞

對表1中提出的30個不同關系種子詞的詞向量通過PCA降維,可以得到一個2*30的矩陣,通過可視化可以看出這30個詞的分布情況。

圖3 訓練前的種子詞分布情況

如圖3所示,其中圓形的點是協同關系詞,正方形點是伴隨關系詞,星形的點是敵對關系詞。可以看出,這三種關系的關系詞很清晰的劃分成了3個簇[7]。

圖4 訓練后的種子詞分布情況

通過本文提出的方法對1 000篇軍事文本進行測試,可以得到3個被擴充的種子詞簇。對這些種子詞進行可視化。通過PCA算法將種子詞的維度降到3維,如圖4所示。可以看出其中分成了3個簇。其中十字的點是敵對種子簇,圓形的點是協同種子簇,星形的點是伴隨種子簇。

表2 word2vec模型訓練語料對關系識別的影響

由表2數據來看,通過Word2vec模型與Bootstrapping和FPGrowth方法進行實體關系識別。其中對Word2vec模型訓練有兩種方式,一種是通過30萬篇各類別文章進行訓練,最終得到的關系識別準確率為85.3%,一種是通過30萬篇軍事文本進行的訓練,得到的準確率為92.1%。

雖然通過各類型的文本進行訓練的word2vec模型具有一定的泛化能力,但是對于軍事領域的實體關系識別,選擇帶有針對性的軍事文本訓練的模型效果更為理想。

表3 頻繁項集詞語選擇對關系識別的影響

由表3數據來看,通過Word2vec模型與Bootstrapping和FPGrowth方法進行實體關系識別。其中對FPGrowth的頻繁項的提取有3種方法,一種是提取實體與實體之間的詞與作為一個集合,最終得到的準確率為90.2%,效果相對較差。一種是提取實體之間的詞與實體之后的所有詞語作為一個集合,最終得到的準確率為92.1%,效果最好。一種是選取全句中所有詞語作為一個集合,最終得到的準確率為91.9%,效果也不錯。可以看出,選擇實體間詞語和實體后詞語作為頻繁項集中一項進行特征詞提取效果最好,但是與其他方法相差不大。

表4 實體關系識別評價表

由表4數據來看,通過牟晉娟提出的BootStrapping與SVM方法的F值為82%。通過BootStrapping與KNN的識別方法F值為78.6%。BootStrapping與SVM的識別方法F值為82.0%。文本提出的通過BootStrapping與FPGrowth識別方法的F值為89.2%。

可以看出,通過一次FPGrowth方法可以準確表征出軍事實體之間關系特征詞,并且由于軍事文本的表述嚴謹,措詞嚴格,語義二義性少。依據關系分類矩陣進行判斷,能極大地提高實體關系識別的準確率。

表5 與卷積神經網絡進行比較

由表5可以看出,本文提出的方法與肜博輝等提出的多通道卷積模型進行對比。若不進行FPGrowth提取特征詞,單純的依靠實體前后個兩個詞進行卷積的效果并不是很理想。通過卷積神經網絡和FPGrowth進行的實體關系識別,與本文提出的方法準確率相差不大,但是卻需要大量人手進行標注。而本文提出的弱監督軍事實體關系識別并不需要手工標注,只需要給出少量的初始種子詞即可。這種方式可以應用于許多沒有標注語料的新領域中。

4 結束語

文中提出一種基于word2vec和FPGrowth的弱監督實體關系識別技術。通過自擴展技術進行關系詞擴充,使用word2vec模型表征關鍵詞與特征詞之間的關系,并用FPGrowth方法對實體關系進行潛在特征詞抽取。最后依據關系分類矩陣對實體對關系進行分類。其中,改變了實體關系特征詞提取的方式,由取出實體前后若干詞作為特征詞改為依靠FPGrowth提取最大頻繁項作為特征詞;還有就是能夠處理自定義的多種關系,不僅僅限于本文提出的“協同”,“伴隨”,“敵對”。最終通過與同類弱監督和深度學習之間的對比實驗可以看出,文中提出的方法有效。

[1]周亦,周明全,王學松,等.大數據環境下歷史人物知識圖譜構建與實現[J].系統仿真學報,2016,28(10):2560-2566.

[2]Surdeanu M,Tibshirani J,Nallapati R ,et al.Multi-instancemulti-lable learning for relation extraction[C]//Proc of the EMNLP 2012//Stoudsburg,PA:ACL,2012:455-465.

[3]Li L,Jin L,Jiang Z,et al.Biomedical named entity recognition based on extended Recurrent Neural Networks[C]// IEEE International Conference on Bioinformatics and Biomedicine.IEEE,2015:649-652.

[4]肜博輝,付琨,黃宇,等.基于多通道卷積神經網的實體關系抽取[J].計算機應用研究,2017(3):689-692.

[5]甘麗新,萬常選,劉德喜,等.基于句法語義特征的中文實體關系抽取[J].計算機研究與發展,2016,53(2):284-302.

[6]秦兵,劉安安,劉挺.無指導的中文開放式實體關系抽取[J].計算機研究與發展,2015,52(5):1029-1035.

[7]賈真,何大可,楊燕,等.基于弱監督學習的中文網絡百科關系抽取[J].智能系統學報,2015(1):113-119.

[8]牟晉娟,包宏.中文實體關系識別研究[J].計算機工程與設計,2009,30(15):3587-3590.

[9]段利國,徐慶,李愛萍,等.實體詞語義信息對中文實體關系抽取的作用研究[J].計算機應用研究,2017,34(1):141-146.

[10]Zhang D,Xu H,Su Z,et al.Chinese comments sentiment classification based on word2vec and SVM perf[J].Expert Systems with Applications,2015,42(4):1857-1863.

[11]劉華偉.基于神經網絡的物聯網實體信息交互關系識別[J].電腦知識與技術,2017,13(4):175-177.

[12]J.Suresh1 P R C T.Generating associations rule mining using,Apriori and FPGrowth Algorithms[J].International Journal of Computer Trends&Technology,2013,4(4):887-892.

[13]楊宇飛,戴齊,賈真,等.基于弱監督的屬性關系識別方法[J].計算機應用,2014,34(1):64-68.

[14]張奇,金培權,岳麗華.基于CRF的網頁動態關系抽取研究[J].中國科學技術大學學報,2010,40(11):1197-1202.

[15]張素香,李蕾,秦穎,等.基于Boot Strapping的中文實體關系自動生成[J].微電子學與計算機,2006,23(12):15-18.

[16]段宇鋒,朱雯晶,陳巧,等.樸素貝葉斯算法與Bootstrapping方法相結合的中文物種描述文本語義標注研究[J].現代圖書情報技術,2014,30(5):83-89.

[17]王風娥,譚紅葉,錢揖麗.基于最大熵的句內時間關系識別[J].計算機工程,2012,38(4):37-39.

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 澳门av无码| 久久夜色精品| 毛片网站观看| 茄子视频毛片免费观看| 国产女同自拍视频| 亚洲欧美国产视频| 国产免费怡红院视频| 亚洲国产欧洲精品路线久久| 欧美不卡在线视频| www.99精品视频在线播放| 中文无码精品A∨在线观看不卡| 成人国产三级在线播放| 亚洲国产中文在线二区三区免| 97在线视频免费观看| 欧美一区中文字幕| 18禁影院亚洲专区| 精品国产成人高清在线| а∨天堂一区中文字幕| 久久男人资源站| 亚洲AV无码不卡无码 | 国产成年女人特黄特色毛片免| 国产在线自揄拍揄视频网站| 夜色爽爽影院18禁妓女影院| 高清国产va日韩亚洲免费午夜电影| 青青草国产精品久久久久| 狠狠做深爱婷婷综合一区| 国产亚洲现在一区二区中文| 中文字幕精品一区二区三区视频| 国产第一页亚洲| 亚洲天堂网在线播放| 一区二区三区四区在线| 天堂亚洲网| 欧美精品v| 免费在线国产一区二区三区精品| 亚洲中文精品人人永久免费| 99久久精品久久久久久婷婷| 国产福利小视频在线播放观看| 国产日韩欧美一区二区三区在线| 97青草最新免费精品视频| 色综合激情网| 亚洲乱伦视频| 欧美精品黑人粗大| 亚洲欧美自拍一区| 九九热视频在线免费观看| 色综合天天综合中文网| 亚洲一区二区三区中文字幕5566| 九色在线视频导航91| 国产精品成人一区二区不卡| 婷婷综合在线观看丁香| 中文字幕人成乱码熟女免费| 色播五月婷婷| 麻豆精品国产自产在线| 欧美www在线观看| 伊人国产无码高清视频| 伊人激情久久综合中文字幕| 成人一级黄色毛片| 国产手机在线观看| 园内精品自拍视频在线播放| 亚洲欧美日韩成人在线| 丝袜亚洲综合| 日韩人妻无码制服丝袜视频| 不卡色老大久久综合网| 亚洲国产理论片在线播放| 亚洲美女一区二区三区| 欧美高清日韩| 亚洲精品不卡午夜精品| 国产高潮流白浆视频| 国产精品三级专区| 国产乱人免费视频| 女人18一级毛片免费观看| 99久久99这里只有免费的精品| 欧美久久网| 精品久久综合1区2区3区激情| 亚洲男人的天堂久久香蕉网| 国产h视频在线观看视频| 日本成人在线不卡视频| 嫩草影院在线观看精品视频| 日韩国产亚洲一区二区在线观看| 国产精品乱偷免费视频| 亚洲中久无码永久在线观看软件| 亚洲va欧美va国产综合下载| 国产在线拍偷自揄拍精品|