999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于新聞流的信息安全事件發現

2016-02-09 01:29:26徐建忠
信息安全研究 2016年12期
關鍵詞:信息方法

徐建忠 朱 俊 趙 瑞 張 亮

1(杭州世平信息科技有限公司 杭州 310012)2(西昌衛星發射中心 海南文昌 571300)3(裝甲兵工程學院 北京 100072)

基于新聞流的信息安全事件發現

徐建忠1朱 俊2趙 瑞3張 亮1

1(杭州世平信息科技有限公司 杭州 310012)2(西昌衛星發射中心 海南文昌 571300)3(裝甲兵工程學院 北京 100072)

(xujz@shipinginfo.com)

隨著互聯網的廣泛普及,人們可以更方便地從網絡上獲取信息,甚至隨時隨地都可以通過網絡同外界進行交互.方便獲取信息的同時也帶了諸如信息泄露、賬戶密碼失竊等安全問題,因此信息安全越來越受到大眾的關注.網絡新聞作為時下的主流媒體之一,其中包含了大量人們關注的問題,包括近期發生的各種信息安全事件等.然而,這些信息往往淹沒在海量的網絡文檔中,大眾難以快速了解近期國內外發生的關于信息安全的大事件.因此,建立一種自動發現梳理信息安全事件的方法具有一定的現實意義.將單個句子作為表述“信息安全事件”的單元,應用機器學習算法判斷句子中是否包含“信息安全事件”相關信息,從新聞文檔中抽取出包含“信息安全事件”內容的句子作為所需要的結果.通過人工構建訓練數據集、句子特征設計和支持向量機(support vector machine, SVM)模型訓練,建立了一種自動從新聞文檔中抽取“信息安全事件”相關句子的方法.實驗結果表明,該方法在信息安全事件的發現方面有著較高的準確率和召回率,驗證了所提方法的有效性.

信息安全;安全事件;支持向量機;特征設計;事件抽取

互聯網的廣泛普及極大地方便了人們的工作和生活,讓人們幾乎隨時隨地都能獲取各種信息,同時也引發人們對于信息安全的擔憂.新聞中報道的信息安全問題事件,例如信息泄露、黑客攻擊等很容易吸引大眾的注意,并引起廣泛關注.然而,信息安全相關內容往往淹沒在海量的網絡文檔中,讓大眾難以快速了解近期發生的信息安全相關內容.因此,對網絡文檔進行信息挖掘和抽取,從中自動獲取信息安全事件,讓讀者快速定位感興趣的安全事件,已成為當前信息安全領域研究的一個重要組成部分.

1 相關工作

信息安全作為當前一個研究熱點,包含諸多方面的研究進展.如:陳訓遜等人[1]針對以傳輸特定信息為目的的信息滲透的檢測技術研究;Fang等人[2]針對網絡信息內容安全的控制模型及評估框架研究;萬源[3]基于文本內容的事件分類技術以及通過對多媒體內容的識別發現其中隱藏的安全事件;等等.信息安全事件抽取以事件抽取技術為基礎,國內外學者在事件抽取領域取得了很多研究成果.

事件抽取的本質是把含有事件信息的非結構化文本轉換成結構化的文檔,其在自動文摘、自動問答、信息檢索等領域有著比較廣泛的應用.Hai等人[4]將最大熵分類算法應用于事件抽取研究中,用于識別事件的元素,取得了比較不錯的提取效果.David[5]將MegaM和Timbl兩種機器學習方法分別應用于事件抽取中事件類別識別和事件元素識別2個方面, 在 ACE英文語料上均取得了不錯的效果.

另外,在社交媒體中信息抽取和事件識別技術的應用也十分廣泛[6].Benson等人[7]利用長距離監督方法訓練了位置信息的提取器,用于識別紐約市中通過Twitter發布自身信息的藝術家及其住址.Ritter等人[8]提出了一種從Twitter中抽取信息安全事件的弱監督方法.

本文針對安全事件發現這一問題,應用基于機器學習算法的事件抽取技術,通過對新聞文本中的信息進行分析,從中自動獲取安全相關事件,以幫助讀者快速了解近期發生的安全相關事件.實驗結果表明,本文提出的方法從新聞流中進行安全事件發現取得了良好的效果.

2 方 法

新聞中的安全事件基本上在單個句子中就可以進行完整表述,因此,本文將新聞進行句子切分,然后針對單個句子進行分析,判斷該句子是否為表述安全事件的句子.通過機器學習方法,可將新聞中安全事件發現問題轉換成單個句子的二分類問題,即分類為正例的句子,就是所需要的安全事件信息.具體方法路線如圖1所示.

圖1 新聞安全事件發現方法路線

首先,從“百度新聞”中獲取新聞文本,進行句子切分(sentence split),并進行人工閱讀標注(包含安全事件信息的句子標注為正例,不包含安全事件信息的句子標注為反例),構建訓練數據集;然后,根據包含安全事件信息句子的特點,設計特征向量,將文本句子進行向量化;接著,選取適當的機器學習算法完成模型訓練;最后,通過交叉驗證,評價方法的有效性.

2.1 訓練數據構建

構建訓練數據集是基于機器學習方法的基礎,本文通過人工閱讀新聞材料,標注完成訓練數據集的構建.首先,從“百度新聞”中搜索抓取800篇“安全”相關新聞文檔正文,采用IKanalyzer工具包中的分句模塊將新聞切分成單個句子.然后,通過人工閱讀新聞句子,將包含安全事件的句子標注為正例(用數字1表示),不包含安全事件的句子標注為反例(用數字0表示).人工標注結果如表1所示:

表1 人工標注結果統計

由表1可知,人工標注的正例遠遠少于反例,直接將標注結果用于模型訓練會造成訓練數據的不平衡.因此,我們參考了一種平衡訓練數據的方法[9],隨機從反例中選取出與正例數目相當的句子,讓訓練數據集中的正例和反例樣本基本平衡,具體數目如表2所示:

表2 訓練數據集正例與反例數目

2.2 特征設計

設計合適的特征將待分類的句子表示成向量,對模型的效果有重要影響.針對本文的任務,通過對正例與反例的句子進行分析,設計了如下5維特征(如表3所示):

1) 時間標示

表述安全事件的句子往往會在句子中表述時間,例如“當地時間3月25日,美國司法部總檢察長Loretta E. Lynch指控稱,7名伊朗黑客曾對美國企業、主要金融機構發動DDoS攻擊,并入侵了紐約鮑曼水壩的計算機控制系統.”時間標示是表征事件的一個重要特征.本文通過模式進行時間標示的識別,如果句子中出現形如“[XXXX年]XX月XX日”的模式,則將該維特征設置為1,反之設置為0.

2) 命名實體

新聞中的安全事件在表述“某地方或某公司發生安全相關事件”時,一般會涉及到人名、地名、機構名等命名實體.例如,“黑客組織有聯系的黑客對美國國家航空航天局(NASA)進行了攻擊”.因此,命名實體是識別安全事件的重要特征.本文采用StanfordNLP工具包中的命名實體識別(NER)工具[10],將句子中是否識別出人名、地名或機構名作為一維特征.如果句子中識別出命名實體,則將改維特征表示為1,反之表示為0.

3) “信息安全”相關關鍵詞

表述信息安全事件的句子中一般會包含“信息安全”相關的詞語,例如“賬戶被盜”、“DoDS攻擊”、“信息泄露”、“黑客”等.本文以“維基詞條”為基礎,通過搜索“維基詞條知識圖譜”中“信息安全”相關詞條,構成關鍵詞詞表.若句子中出現詞表中的關鍵詞,則該維特征表示為1.

4) 句子長度

句子長度(字數)作為句子本身屬性,可以輔助判斷信息安全事件.因為句子在表述信息安全事件時,需要說明的“時、地、人、事”等信息相對較多,句子一般需要更多的詞語進行描述,所以將句子的長度(字數)作為一維特征.

5) 句子位置

新聞寫作中重要的信息一般會放在文章的開頭部分,如果一篇新聞文章主要是描述“信息安全”相關問題,難么在文章的前面部分很可能涉及到“信息安全事件”.因此,將句子在文中的位置作為特征可以輔助判別該句是否包含“信息安全事件”.假設文本的總句數為N,以新聞正文第1句編號為1,第2句為2,以此類推.那么第n句在新聞中的位置可以表示成nN.

表3 特征設計說明

2.3 模型選擇

機器學習算法包括很多:貝葉斯概率模型、決策樹、最近鄰、人工神經網、回歸模型和支持向量機等等.樸素貝葉斯算法[11]通過計算向量被分類到2個類別中的概率值,從而決定分類結果.支持向量機(support vector machine, SVM)是一種基于統計學習理論的模式識別方法,Vapnik于1995年提出[12],該算法在分類領域有著廣泛的應用.鑒于樸素貝葉斯算法和SVM算法在諸多領域有著良好的應用效果,針對本文的實際問題,比較了樸素貝葉斯模型(Na?ve Bayes)和支持向量機算法(SVM)2種算法在“信息安全事件發現”中的效果,選擇二者中效果更好的算法作為最終模型.

3 結 果

本文選取了準確率(Precision)、召回率(Recall)和F值3個指標作為評價標準,其表達式為:

其中,TPc表示真正例(正確分類成c類的句子數)、FPc表示假正例(錯誤分類成c類的句子數)、FNc表示假反例(屬于c類但分類器并沒將其分到c類的句子數).

3.1 模型效果比較

為了選擇合適的分類模型,本文采用了5倍交叉驗證的方法,即重復5次實驗,每次隨機選擇訓練數據集的15作為測試集,其余作為訓練數據,將5次的平均交叉驗證識別準確率和召回率作為結果.同時,本文在實際中采用了WEKA[13]和libSVM[14]的分類器實現,比較了樸素貝葉斯和SVM模型2種算法的優劣,實驗結果如表4所示:

表4 “信息安全事件”發現實驗結果 %

對于SVM分類器,本文采取了高斯徑向函數作為核函數,優化其C和γ兩個參數可以進一步提高性能.比較C和γ在各種不同取值下的準確率,當C=2,γ=0.125時,分類準確率最高達到81.3%.因此在實際模型構建中采用了SVM算法.

3.2 安全事件發現性能比較分析

為了進一步驗證本文所提方法在“信息安全事件”發現中的有效性,將本文方法同Ritter等人[8]提出的從Twitter中抽取信息安全事件的方法進行了比較.

首先,通過人工標注的方式從新聞句子流中標注100句正例和100句反例作為測試數據集.然后,比較本文方法與Ritter等人提出方法在測試數據集上的效果,結果如表5所示:

表5 對比實驗結果 %

從表5可以看出,本文提出的方法在新聞流信息安全事件發現中的效果優于Ritter的信息安全事件抽取方法.初步分析其原因在于,Ritter的方法主要針對的是Twitter文本,Twitter文本與新聞文本相比,文本更短,寫作更為自由,因此包含有更高的噪音數據.而本文提出的方法根據新聞的寫作特點設計特征,在數據分析處理上更有針對性,因此在新聞流安全事件發現中取得了更為良好的效果.

4 結 論

本文將新聞流中信息安全事件發現問題轉換成對單個句子的分類問題進行處理.通過構建訓練數據集、設計特征向量,訓練SVM模型實現了對新聞流中“信息安全事件”的自動識別和抽取.實驗結果表明,本文提出的方法與已有相關方法相比在準確率和召回率方面都能取得不錯的效果,驗證了設計的特征和模型的有效性,具備一定的應用前景.

[1]陳訓遜, 方濱興, 胡銘曾, 等. 一個網絡信息內容安全的新領域——網絡信息滲透檢測技術[J]. 通信學報, 2004, 25(7): 185-191

[2]Fang B X, Guo Y C, Zhou Y. Information content security on the Internet: The control model and its evaluation[J]. Science China: Information Sciences, 2010, 53(1): 30-49

[3]萬源. 基于語義統計分析的網絡輿情挖掘技術研究[D]. 武漢: 武漢理工大學, 2012

[4]Hai L, Hwee T. A maximum entropy approach to information extraction from semi-structured and free text[C] //Proc of the 18th National Conf on Artificial Intelligence. Berlin: Springer, 2002: 786-791

[5]David A. The stages of event extraction[C] // Proc of the Workshop on Annotations and Reasoning about Time and Events. Berlin: Springer, 2006: 1-8

[6]Guo W, Li H, Ji H. Linking tweets to news: A framework to enrich short text data in social media[C] //Proc of the 51st Annual Meeting of the Association for Computational Linguistics. Berlin: Springer, 2013: 239-249

[7]Benson E, Haghighi A, Barzilay R. Event discovery in social media feeds[C] //Proc of the 49th Annual Meeting of the Association for Computational Linguistics. Piscataway, NJ: IEEE, 2011: 87-97

[8]Ritter A, Wright E, Casey W H, et al. Weakly supervised extraction of computer security events from twitter[C] //Proc of the 24th Int Conf on World Wide Web (WWW’15). New York: ACM, 2015: 896-905

[9]Huang C, Tian Y, Zhou Z. Keyphrase extraction using semantic networks structure analysis [C]//Proc of the 6th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2006: 275-284

[10]Jenny R, Trond G, Christopher M. Incorporating non-local information into information extraction systems by gibbs sampling[EB/OL]. (2005-09-28) [2016-03-12]. http://nlp.stanford.edu/~manning/papers/gibbscrf3.pdf

[11]Chickering D, Heckerman D, Meek C. A Bayesian approach for learning Bayesian networks with local structure[C] //Proc of the 13th Conf on Uncertainty in Artificial Intelligence. Los Angeles: Morgan Kaufmann, 1997: 80-89

[12]Schutze H, Hull D, Pedersen J. A comparison of classifiers and document representations for the routing problem[C] //Proc of the 18th ACM Int Conf on Research and Development in Information Retrieval. New York: ACM, 1995: 229-237

[13]Holmes G, Donkin A, Witten I H. WEKA: A machine learning workbench[C] //Proc of the 2nd Australia and New Zealand Conf on Intelligent Information Systems. Piscataway, NJ: IEEE, 1994: 357-361

[14]Chang C C, Lin C J. LIBSVM: A library for support vector machines [J]. ACM Trans on Intelligent Systems Technology, 2011, 2(3): 27-29

徐建忠

本科,工程師,主要研究方向為網絡與信息安全.

xujz@shipinginfo.com

朱 俊

碩士,工程師,主要研究方向為數據挖掘、信息處理.

cqzhujun@126.com

趙 瑞

本科,助理館員,主要研究方向為圖書情報.

413383664@qq.com

張 亮

碩士,工程師,主要研究方向為網絡與信息安全.

zhangl@shipinginfo.com

Information Security Events Discovery Based on News Flow

Xu Jianzhong1, Zhu Jun2, Zhao Rui3, and Zhang Liang1

1(HangzhouShipingInformation&TechnologyCo,Ltd,Hangzhou310012)2(XichangSatelliteLaunchCenter,Wenchang,Hainan751300)3(AcdemyofArmoredForcesEngineering,Beijing100072)

With the popularity of the Internet, people can more easily obtain information from the network and interact with the outside world via the Web in anytime or anywhere. With the access to information easily, security issues come out, such as information disclosure, account passwords stolen and so on, which rise more and more public concern on information security. Nowadays Web news is one of main social media, which contains a large number of public concerning issues, such as information security events. However, security information is often buried in the mass of Web documents, making it inconvenient to quickly obtain recent information security events for readers. Therefore, establishing a method to automatic extracting information security events is significant. In this paper, we regard single sentence as “information security” unit, applying machine learning algorithm to determine whether a sentence containing “information security events” or not. Sentences containing “information security events” are extracted from news documents as the desired results. Via manual training data construction, sentence feature designing and support vector machine (SVM) model training, we propose an automatic method to extract “information security” related sentences from news documents. Experiment result show that, the method discussed in this paper get high precision and recall in information security events discovery, which verify the effectiveness of proposed method.

information security; security events; support vector machine (SVM); feature design; events extraction

2016-10-14

TP309

猜你喜歡
信息方法
學習方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 九色最新网址| 伊人久久精品亚洲午夜| 亚洲欧美精品日韩欧美| 国产69囗曝护士吞精在线视频 | 欧美综合成人| 精品国产免费第一区二区三区日韩 | 午夜福利在线观看入口| 亚洲国产精品无码AV| 精品视频一区在线观看| 毛片最新网址| 91麻豆精品国产91久久久久| 青草娱乐极品免费视频| 欧美三级视频在线播放| 国产一区二区福利| 国产成人精品亚洲77美色| 日本精品一在线观看视频| 2020国产精品视频| 欧美在线三级| h视频在线观看网站| 成人午夜视频网站| 国产成人高清亚洲一区久久| 亚洲高清无码久久久| 日韩在线视频网站| 免费看美女毛片| 97视频免费在线观看| 国产黄色免费看| 欧美亚洲综合免费精品高清在线观看| 精品国产网站| 又粗又大又爽又紧免费视频| 色综合久久无码网| 国产黄色片在线看| 狠狠色噜噜狠狠狠狠奇米777| 日本午夜影院| 亚洲天堂精品在线| 国产欧美日韩va| 色精品视频| 97视频精品全国在线观看| 成人在线天堂| 无码电影在线观看| 亚洲,国产,日韩,综合一区| 天天综合色网| 日本高清在线看免费观看| 亚洲无限乱码一二三四区| 精品亚洲国产成人AV| 香蕉蕉亚亚洲aav综合| 亚洲国产成熟视频在线多多| 国产精品亚洲一区二区在线观看| 男女性午夜福利网站| 色天堂无毒不卡| 国产成人无码综合亚洲日韩不卡| 日日拍夜夜操| 国产福利影院在线观看| 国产精品福利在线观看无码卡| 欧美日韩另类在线| 国产日韩欧美在线播放| 欧美啪啪一区| 一级毛片高清| 久久综合色天堂av| 成人午夜网址| 天天躁日日躁狠狠躁中文字幕| 国产18在线播放| 亚洲欧美另类视频| 欧美日本激情| 欧美精品啪啪一区二区三区| 国产微拍精品| 天堂成人在线视频| 97se亚洲综合在线| av免费在线观看美女叉开腿| 久草视频精品| 99久久精品免费看国产免费软件| 国产精品无码AV中文| 国产在线观看成人91| 色综合久久88色综合天天提莫| 九九热精品视频在线| 国产麻豆福利av在线播放| 亚洲αv毛片| 国产精品视频久| 国产成人啪视频一区二区三区| 欧美成人在线免费| 无码内射在线| 91小视频版在线观看www| 亚洲精品无码高潮喷水A|