999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向涉恐領域的知識圖譜構建方法*

2019-09-17 00:39:58廖浚斌何小海王正勇卿粼波
網絡安全與數據管理 2019年9期
關鍵詞:信息

廖浚斌,周 欣,2,何小海,王正勇,卿粼波

(1.四川大學 電子信息學院,四川 成都 610065;2.中國信息安全測評中心,北京 100085)

0 引言

目前,世界處于網絡時代,各領域的信息呈爆炸式增長。涉恐信息零散地分布在海量的數據中[1],包括涉恐分子信息、涉恐組織信息、涉恐事件信息以及反恐策略等信息。如果能夠有效地獲取、組織及利用這些信息,將對各個國家在反恐、防恐工作中起到重要的促進作用。為了幫助相關人員對多元化的涉恐信息進行更好的分析及表達,需要建立一個基于涉恐領域的知識圖譜。涉恐領域知識圖譜的建立可以將海量的涉恐信息整合成結構化的有意義的知識,極大程度地方便了安全人員對涉恐人員及組織的分析[2]。

1 涉恐領域知識圖譜實現流程

涉恐領域知識圖譜技術路線如圖1所示。具體流程為:(1)數據獲取,使用分布式爬蟲技術采集互聯網上已存在的非結構化數據和半結構化數據;(2)信息抽取,對于半結構化數據,需要根據其數據結構特征提取出人物、組織等實體和實體間的關系信息,對非結構化數據需要進行信息抽取,如采用實體識別[3-4]、關系抽取以及屬性抽取等技術,最終使數據通過三元組的方式進行鏈接;(3)實體對齊,借助構建的涉恐領域本體庫來輔助判斷數據中任意兩個實體是否指向真實世界同一對象,消除異構數據中的實體沖突、實體間指向不明等實體間的指向二義性問題[5];(4)通過構建的本體庫對數據進行推理補充,進一步完善數據,最終形成涉恐領域的知識圖譜。

1.1 數據采集

本知識圖譜主要從互聯網數據中獲取與恐怖主義相關的人物與組織信息,這些信息主要以兩種形式存在:半結構化的形式和非結構化的形式。第一類數據主要是各種社交媒體數據,如維基百科、FaceBook、Twitter等。第二類數據來源主要以政府網站、新聞媒體網站以及各研究機構的公開網站為主,該類型網站的數據往往以非結構化的文本形式存在。針對以上兩類信息,考慮到其信息量的巨大,本文采用分布式爬蟲進行數據的采集。分布式爬蟲架構如圖2所示。

圖1 涉恐領域知識圖譜實現流程

圖2 分布式爬蟲架構

分布式爬蟲由三部分組成:(1)集中的統一資源定位符(Uniform Resource Locator,URL)調度管理和分配,即URL倉庫;(2)爬蟲節點;(3)數據存儲。URL倉庫負責對URL隊列進行管理并將URL分配給各爬蟲節點;爬蟲節點由多個子節點構成,每個子節點負責獲取和解析不同網站的數據,最終將爬取的數據存儲到數據庫中。

1.2 實體關系抽取

實體關系抽取是指從文本信息中提取出實體之間隱含關系的方法,是實現知識圖譜的關鍵技術之一[6]。本文在構建涉恐領域知識圖譜時應用BI-GRU+Att模型完成了文本信息中實體的關系抽取任務,模型結構如圖3所示。

圖3 BI-GRU+Attention模型

其中,門控循環單元(GRU)網絡是循環神經網絡的一種變體[7],可以有效地克服循環神經網絡無法很好處理遠距離依賴的問題;而注意力機制可以增大關鍵詞的注意力權重,使得神經網絡更關注與關鍵詞相關的上下文信息[8]。

1.3 涉恐領域本體庫構建

本體是對特定領域中的概念及其相互關系的形式化表達,是同一領域不同主體進行交流、連通的基礎[8-10],其相鄰層節點之間具有嚴格的從屬關系。在知識圖譜中,本體庫是用于管理知識圖譜的模式層,用于描述概念層次體系,是知識圖譜中知識的概念模板。通過本體庫形成的知識圖譜層次結構分明、冗余度小[11]。本文使用Protege本體庫構建工具進行涉恐領域本體庫的構建,Protege軟件是語義網中本體構建的核心開發工具。

2 涉恐領域知識圖譜實現

本節將主要對數據爬取、實體的關系抽取和本體庫構建的實驗進行說明。

2.1 數據爬取

本文使用的涉恐領域的人物及組織信息主要從維基百科網站進行爬取,另外通過對反恐怖主義信息網、環球網等網站的爬取獲取更多的信息。總計獲取人物實例數據1 000條,組織實例數據200條。爬取的人物實例之一如表1所示,組織實例之一如表2所示。

表1 人物信息

表2 組織信息

2.2 關系抽取

本文使用BI-GRU+Att模型對隱含在涉恐人物和組織數據中的關系進行抽取,結果如表3所示。

表3 本文應用模型評價

從表3可以看出,本文針對涉恐信息的關系抽取方法由于網絡結構簡單,且使用字符級向量作為輸入,所以得到了較高的準確率。因此可以證明本文針對涉恐信息的關系抽取任務使用的關系抽取模型有一定的效果,但還有一定的提升空間。表4為人物關系抽取的實例展示,表5為組織關系抽取的實例展示。

表4 人物關系實例

表5 組織關系實例

從表4、表5可以得知,本文模型可以較好地從文本中抽取出實體間隱含的關系。

2.3 本體庫的構建

本文構建的人物本體庫與組織本體庫的類同屬于超類“Thing”,統稱為涉恐領域本體庫的類,本體庫的類結構如圖4所示。

圖4 類層次結構圖

其中人物庫的類包括人物類(People)和地點類(Location),而組織庫的類包括組織類(organization)、事件類(Event)和地點類(Location)。

2.4 涉恐領域知識圖譜可視化

本文通過使用非關系型圖數據庫Neo4j將通過上述流程所得的信息轉換為圖數據庫。圖5為知識圖譜部分節點的可視化展示。圖中展示的是與國家民主聯盟組織節點相關的節點。

圖5 知識圖譜可視化

3 結論

本文首先使用了分布式爬蟲技術從互聯網中爬取涉恐領域的人物與組織數據,然后利用BI-GRU+Att模型等技術實現對信息的抽取,并構建了涉恐領域的本體庫,最終實現涉恐領域的知識圖譜以及使知識圖譜可視化。因為本文的研究重點集中于特定領域的知識圖譜實現,而針對基于知識圖譜的應用的研究尚處于初級階段,所以在未來的工作中將進一步研究基于知識圖譜的問答等應用領域,以便更好地滿足涉恐領域的需求。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 不卡无码网| 亚洲人成色77777在线观看| 天堂岛国av无码免费无禁网站| 国产在线自乱拍播放| 香蕉国产精品视频| 激情综合婷婷丁香五月尤物| 国产产在线精品亚洲aavv| 亚洲欧洲日产国码无码av喷潮| 欧美一级爱操视频| 国产成人一区| 视频国产精品丝袜第一页| 国产理论一区| 欧美特黄一免在线观看| 99re热精品视频中文字幕不卡| 欧美日韩一区二区在线播放| 日本成人不卡视频| 欧美性精品| 国产成人精品一区二区秒拍1o| 亚洲精品欧美重口| 免费观看成人久久网免费观看| 亚洲国产综合自在线另类| 亚洲一区二区约美女探花| 免费人成视网站在线不卡| 色网站在线视频| 亚洲日韩Av中文字幕无码| 一本一本大道香蕉久在线播放| 日本黄色不卡视频| 中文字幕亚洲电影| 亚洲视屏在线观看| 国产成人亚洲无吗淙合青草| 九色视频在线免费观看| 成年人国产网站| 国产无遮挡猛进猛出免费软件| 欧美亚洲一二三区| 99热国产这里只有精品无卡顿"| 99久久精品视香蕉蕉| 国产成人久久综合777777麻豆| 亚洲伦理一区二区| 99精品免费欧美成人小视频| 乱色熟女综合一区二区| 日本在线免费网站| 国产91熟女高潮一区二区| 好吊色妇女免费视频免费| 亚洲首页国产精品丝袜| 91久久偷偷做嫩草影院| 国产丝袜无码精品| 亚洲女人在线| 久久精品国产电影| 人妻中文字幕无码久久一区| 精品国产免费观看一区| 91麻豆国产精品91久久久| 国产精品自拍合集| 欧美在线伊人| 欧美视频在线播放观看免费福利资源| 精品无码国产自产野外拍在线| 国产成人三级在线观看视频| 国产不卡一级毛片视频| 又爽又大又光又色的午夜视频| 久久婷婷色综合老司机| 99久久精品视香蕉蕉| 久久久久人妻精品一区三寸蜜桃| 国产精品观看视频免费完整版| 国产精品综合色区在线观看| 久久久久中文字幕精品视频| 久久伊人操| 乱码国产乱码精品精在线播放| 亚洲欧洲日韩综合| 亚洲六月丁香六月婷婷蜜芽| 呦女精品网站| 久久无码免费束人妻| 国产主播在线一区| 国禁国产you女视频网站| 性欧美久久| 亚洲精选高清无码| 热99精品视频| 毛片一级在线| 内射人妻无套中出无码| 国产精品夜夜嗨视频免费视频| 日韩精品一区二区三区中文无码| 久久这里只精品国产99热8| 99视频精品全国免费品| 国产乱人伦AV在线A|