999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于部件CNN的網絡安全命名實體識別方法*

2020-03-04 05:12:48秦永彬陳艷平
計算機與數字工程 2020年1期
關鍵詞:語義網絡安全特征

魏 笑 秦永彬,2 陳艷平,2

(1.貴州大學計算機科學與技術學院 貴陽 550025)(2.貴州大學貴州省公共大數據重點實驗室 貴陽 550025)

1 引言

在網絡安全方面,研究者們常采用流量控制、內容解析監控的網絡監測系統及時阻止內部計算機的敏感信息泄露。而網絡攻擊的形式具有復雜多變性,現有網絡監測系統無法保證及時監測和預警這些動態變化的攻擊類型。部分研究者提出采用知識圖譜技術構建網絡安全知識圖譜。網絡安全命名實體識別是網絡安全知識圖譜構建的基礎。

國外英文網絡安全領域命名實體識別技術的研究已經發展多年,研究者們提供了許多性能優良的工具和系統。Mulwad等[1]利用標準命名實體識別工具OpenCalais抽取網絡安全相關網頁文本中的組織機構、軟件,并采用支持向量機(Support Vector Machine,SVM)抽取計算機漏洞相關概念;Joshi等[2]使用CRF識別英文網絡安全公告和相關博客中的軟件、硬件、文件等網絡安全實體;Lal等[3]采用基于Stanford NER的條件隨機場模型識別來自各種數據源的安全相關術語來解決處理非結構化文本,識別英文網絡安全實體;Bridges等[4]利用國家漏洞數據庫(NVD),對英文非結構化的安全信息文本進行自動化的網絡安全實體標注,并采用最大熵模型識別網絡安全實體中的軟件、漏洞編號和相關術語;Mittal等[5]對推特(Twitter)中的網絡安全漏洞、受影響的軟件、硬件和組織機構等網絡安全實體進行識別。在網絡安全實體識別問題中,國外技術逐漸成熟,推動了網絡安全領域實體抽取的發展。

目前,通用領域的命名實體識別方法已經非常成熟。在通用領域中,常用的機器學習方法有條件隨機場[6~7]、隱馬爾可夫[8]、最大熵[9]等。除此之外,很多研究者采用整體性能優于傳統機器學習的深度神經網絡來進行命名實體識別,緩解了構建特征過程中的人為因素。神經網絡模型通過大規模無標注文本數據自主學習特征,可以抽取高階抽象的特征支撐命名實體識別。Liu等[10]提出一種多任務處理的增強序列標注模型。在CoNLL03 NER、CoNLL00 chunking、WSJ多個數據集上實驗,實現字符級別的語言模型(Language Model,LM)。通過與預訓練的字向量結合,并使用Bi-LSTM和CRF網絡進行序列標注任務,該模型取得了較好的效果。Peters等[11]提出一種帶有雙向語言模型的半監督序列標注模型。在字級別的Bi-RNN網絡中加入預訓練的詞級別的Bi-LM,二者直接拼接成新的詞向量。然后經過Bi-RNN和CRF網絡進行識別,該模型也取得了不錯的效果。Dong等[12]提出一種基于部件和字向量的LSTM-CRF模型。通過將漢字拆分成部件,然后使用Bi-LSTM得到部件級別的字向量。最后經過LSTM和CRF網絡進行識別。通過調整網絡參數,得到性能較高的中文命名實體識別結果。Chiu等[13]選用CNN抽取字符特征,然后與詞向量結合作為LSTM-CRF的輸入進行英文命名實體識別,取得了很好的模型識別效果。

雖然通用領域和英文網絡安全領域的命名實體識別方法已取得了較好的識別性能,但中文網絡安全文本相較于普通的自由文本和英文網絡安全文本有較強的特殊性、專業性和差異性,中文網絡安全命名實體識別仍然有待研究。

因此,針對網絡安全實體中英文混合、部分實體為縮略詞的問題,考慮到基于字級別的命名實體識別方法中的字向量無法表征網絡安全實體的復雜語義特征。中文漢字部件具有“表音”和“表意”雙層含義,英文字母具有“語素”和“詞綴”雙層語義,部件向量具有中英文詞語隱含的語義信息。因此,中文部件和英文字母在一定程度能夠增強網絡安全實體的語義信息。本文提出一種基于部件CNN的網絡安全命名實體識別方法,利用部件CNN抽取詞語部件特征中的關鍵語義特征,豐富字詞級別的語義信息,并引入LSTM-CRF確保抽取字向量和部件特征中的抽象信息,同時獲取標簽之間的關聯信息,以便于更加精準地識別文本中的網絡安全命名實體。

2 基于部件CNN的網絡安全相關命名實體識別方法

本文提出一種基于部件CNN的網絡安全命名實體識別方法(Network Security Named Entity Recognition Method on Component-Based CNN,CCNS-NER),該模型架構為 C-CNN-BiLSTM-CRF。在每個句子中,每一個字的標注為 y=(y1,…,yn)。模型的字符輸入表示為 x=(x1,x2,…,xn)。其中 xi代表第i個字。其對應的部件的輸入表示為c=(c1,1,c1,2,…,c2,1,ci,j,…,cn,l)。其中 ci,j表示第i個字xi的第j個部件。符號說明如表1所示。

在C-CNN-BiLSTM-CRF模型架構中,本文首先通過大量未標注網絡安全數據集,使用word2vec的CBOW模型訓練基于字級別的字向量表示。然后,根據中文漢字和英文詞語的部件有“表音”、“表意”的特點,選用CNN模型抽取部件語義特征,實現部件的語義自動抽取。

圖1 C-CNN-BiLSTM-CRF網絡架構圖

表1 符號說明表

該特征表示為部件向量。最后,通過預訓練的字向量與部件向量拼接,形成聯合字級別的特征向量,作為LSTM-CRF網絡模型的輸入。該層的輸出為當前序列的識別結果。接下來,本文按照自底向上的順序詳細介紹C-CNN-BiLSTM-CRF神經網絡架構。

2.1 字符級層

本文使用大量未標注的網絡安全文本數據進行訓練網絡安全領域字向量,并應用預訓練的字向量到網絡安全命名實體識別任務。針對網絡安全網頁文本干擾信息較多的問題,去除文本中不需要的標記,去除噪音,提取正文文本。經處理,本文獲得了11726條未標記的數據作為預訓練的語料庫。字符向量的預訓練采用gensim[14]中word2vec的python版本實現。為了更快地獲得字符向量,本文采用速度相較于Skip gram更快的CBOW模型進行預訓練,并設置字向量的維度為100。預訓練的字向量記為xi,字向量表示為x={xi|xi∈?m,i=1,2,…,n},m為字向量的維度。

2.2 C-CNN層

CC-NS-NER方法的框架C-CNN-BiLSTM-CRF中的C-CNN層用來抽取部件特征。卷積神經網絡中的卷積層能夠自動學習數據在各個層次的特征,池化層可以選擇其中的顯著特征。

網絡安全文本中的網絡安全命名實體存在中英文混合、單詞縮寫等問題,僅基于字的命名實體識別方法難以充分表征字或詞的語義信息。因此,本文考慮中英文更細粒度的部件語義捕捉字或詞的語義特征。中文漢字與英文有較大差異,英文最小單元為字符,而中文漢字的最小單元是部件。英文詞語及字母歷經語義演變,詞語與字母、詞語內字母與字母之間具有特定的語義特征信息。漢字是一種象形文字,其形旁和聲旁部首是根據外物的特征和含義演化而來的。其中,形旁可以獲得漢字的內部語義信息。因此,本文提出利用CNN抽取部件特征。其中由卷積層和池化層自動提取出部件中的語義信息。

部件級CNN層的網絡結構如圖2所示,主要組成部分為部件向量層、卷積層和池化層。

部件向量層將一個漢字拆分為一個或多個部件,將一個英文單詞拆分為一個或多個字母,并根據隨機初始化的部件向量表查找對應的部件向量,部件向量并隨著模型訓練而不斷更新。針對漢字和英文詞語部件長度不等的情況,采取補充占位符的方法。由漢字部件字典和英文詞匯表可知部件長度,設定部件最大長度max_comp_len為20,并以此為準在部件右端填充占位符或截斷。

卷積層使用不同數量的過濾器和不同大小的卷積窗口進行卷積運算,每個卷積窗口有一個權重W矩陣稱為卷積核。卷積層使用的卷積核的大小為T=[kernel_size,input_dim],其中 kernel_size為卷積窗口大小,input_dim為部件向量隨機初始化維度50。卷積核的權重矩陣值,初始值采用隨機生成,通過訓練進行變化。卷積層通過卷積操作,提取多個部件之間的局部特征,并采用ReLU為激活函數優化神經元的稀疏性。卷積層的部件局部特征可表示為

其中:V為權值矩陣,c是部件向量矩陣,初始值采用隨機生成,后經卷積核計算得到訓練的部件向量矩陣,b為偏置,f為ReLU非線性激活函數。卷積層每一個輸出神經元通過卷積核計算得來,表示相鄰多個部件的語義特征,形成部件特征映射矩陣。整層神經元通過卷積核可以提取到單個漢字部件序列多個相鄰部件的特征,生成傳遞給下一層的特征映射矩陣G。

池化層通過Max Pooling操作抽取出卷積層多個相鄰部件特征中最具有明顯特征的部分表征一個漢字或英文詞語的多個部件的特征信息c,后文稱之為聯合部件特征。池化后的聯合部件特征矩陣行的維度和字符級別輸入矩陣X相同,每一行對應一個聯合部件特征向量,表示多個部件之間的特征信息。

這樣,部件特征經過卷積核池化操作,得到一個包含部件位置信息和語義關系的聯合部件特征向量c。

圖2 部件級CNN層網絡結構圖

2.3 Bi-LSTM字符級聯合層

在本文的模型架構中,采用Bi-LSTM網絡獲取單個字在字符級別上前向后向兩個方向上的信息。正如圖1所示,每個字的字向量xi和部件特征ci連接,組合Bi-LSTM網絡的輸入為vi=[xi⊕ci]。選用字符級LSTM[15]網絡來處理字符級輸入訓練漢字特征,以獲得當前漢字在整個語句中的隱含語義信息,預測下個位置處的漢字。雙向字符特征向量序列為列向量拼接后的ht∈?2*l;最后對隱藏層特征向量序列采用tanh激活函數做激活處理,從而得到隱藏層的輸出結果:zt=tanh(Whht+bz)。其中隱藏層字符特征向量ht對應的權重為 Wh∈?l×2l,ht的偏置向量為bz∈?l,zt為雙向LSTM的序列預測輸出結果,l表示隱藏層維度。

2.4 CRF序列標注層

為了獲取真實情況下標簽序列的最大合理性即最大概率序列預測結果,提高網絡安全命名實體識別結果的準確性,相關研究中采用CRF模型解碼序列標簽,獲取標簽之間的關聯信息,確保獲取最大概率的全局最優標注序列。

具體地,設輸入序列表示為 X=(w1,w2,…,wn),其中 wi=(xi,ci)表示第i個字的輸入向量,輸出序列表示為 y^=(y^1,y^2,…,y^n)。單個字的訓練實例可以表示為 (xi,ri,yi),經過字級別的LSTM后得到的輸出結果表示為 zi=(zi,1,zi,2,…,zi,m) ,m 表示類別數。CRF模型可以根據wi或z學習出所有可能的輸出序列標簽。給定一個序列X,標簽序列y^的可能性如下式:

在訓練中,本文采用預測值和真實值的最小化負對數似然作為優化目標:

在解碼和測試中,本文通過最大化似然獲得概率最大的序列:

3 實驗及結果分析

3.1 數據集

本文實驗語料來源于網絡安全技術網站Free-Buf網頁結果,根據要提取的網絡安全信息的需要進行類別標簽設計,主要包括組織機構名、軟件及應用程序名、操作系統名、域名、統一資源定位符、漏洞名稱、漏洞編號、相關專業術語等。本文采用BIO格式,添加類別標簽后綴。網絡安全語料實體類別及數量統計信息如表3所示。

3.2 實驗設置

1)子字符組件

為了拆分漢字部件以訓練得到漢字部件級的特征向量,本文從漢程網HTTPCN中檢索中文字符的部件和字根信息。共獲得了20,879個字符,13,253個部件和218個字根。其中7,744個字符具有多個部件,214個字符與它們自身的字根相等。英文詞語部件為字母,隨機初始化字母向量構成英文部件向量表,共26個英文部件向量。

表3 網絡安全語料實體類別及數量統計表

2)參數設置

在初始化時,設置字向量維度為100維,設置部件向量的維度為50維,并隨機初始化其它參數。語句參數初始化時,語句長度為100。設置漢字中的部件長度為20,并采用pad_sequences的方法對語句和部件序列預處理,低于閾值的語句和部件補足長度,高于閾值的語句和部件作截斷處理。

本文應用Adam作為模型的優化器,并設置學習率為0.001,batch size為64,epochs為100。為了防止過擬合,設置丟失率為0.5。

3.3 卷積核參數調整實驗

經過調整模型中神經網絡的維度,設置部件向量初始化維度為50。經過調整模型中神經網絡的卷積核大小,設置部件CNN的卷積核數量為50,150,調整窗口大小為 3、4、5、7。字符級聯合層LSTM隱藏層維度與其輸入維度相同,模型網絡參數如表4所示。本文以P、R、F1值為評價指標,對比結果如表5所示。

表4 模型網絡參數表

通過實驗結果表5可以看出,部件CNN的卷積核數量固定為50、150時,模型F1值隨著窗口的增大,呈現增高趨勢,在窗口大小為7時模型性能最優增高至最高。由表5可知,本文模型在網絡安全數據集上,模型卷積核數量為150,窗口大小為7時性能最優,性能指標中準確率達到了72.00%,召回率達到了67.41%,F1值達到了69.63%。經過分析,我們發現產生這樣結果的原因是網絡安全實體中的有效實體的英文部件長度均保持在7左右的字節長度,且中文漢字的最大部件長度為9,而大多漢字的部件不足9個。因此,結合中英文的部件長度,模型在窗口為7時性能最優。

表5 卷積核參數對CCBC模型的F1的影響結果表

3.4 方法性能對比實驗

為了驗證模型的性能,本章節在網絡安全數據集上,將本文的基于部件CNN的網絡安全命名實體識別方法CC-NS-NER與現有的一些方法進行對比。本節中提到的所有實驗數據均以自動標注的結果為基準,以提供對模型性能真實客觀的評價依據。實驗結果如表6、圖3所示。

表6 CC-NS-NER模型與其他模型的指標對比表

圖3 CC-NS-NER模型與其他模型8類的F1值對比圖

通過表6、圖3的實驗結果可以看出,在網絡安全數據集上,本文的CC-NS-NER算法相較于當前主流的深度學習方法在整體P、R、F1值上均有所提高。模型最優性能達到了69.63%,相比BiL-STM-CRF模型F1值提高了7.37%,相比GRU-BiLSTM-CRF模型F1值提高了2.54%。且各類別相較于其他兩個對比模型,較難識別的組織結構ORG和軟件名稱SOF均有提升,并且漏洞名稱VN和相關術語RT達到性能最優為63.45%和72.84%。由于網絡安全文本中,網絡安全相關專業術語實體是文本中出現較多的實體,其次是軟件名稱實體。網絡安全相關術語實體識別的效果較高,而軟件名稱安全實體的識別效果則較低,分析其構成可知,軟件名稱安全實體中常包括軟件應用和軟件應用組件程序等實體,構成較為復雜,并且大多軟件名稱與其開發團隊的組織結構名稱表述一致,軟件名稱更新速度較快。因此,難以抽取實體間共有特征以識別軟件名稱安全實體。而文本中出現數量較少的實體則是域名DN、統一資源定位符URL實體和漏洞編號VI實體,雖然同樣訓練樣本少,但其命名具有一定的規律性可言,因此,可以較為準確地識別,識別率最高。

4 結語

本文提出了一種基于部件CNN的網絡安全命名實體識別方法。在該方法中,利用中文漢字部件具有“表音”和“表義”的雙層含義,英文字母具有“語素”和“詞綴”的雙層含義(中文漢字部件與英文字母統稱為部件)。在部件CNN的作用下抽取中英文部件的隱含語義信息,增強了網絡安全實體的語義特征。相較于傳統命名實體識別方法,對域名、統一資源定位符和漏洞編號三類規則性網絡安全實體具有較好的實體識別效果。然而,網絡安全命名實體識別任務中,存在部分實體具有修飾詞語、由兩個或多個實體組合的網絡安全命名實體問題,更精準識別網絡安全文本中的網絡安全命名實體,是下一步的研究方向。

猜你喜歡
語義網絡安全特征
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
網絡安全
網絡安全人才培養應“實戰化”
上網時如何注意網絡安全?
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
我國擬制定網絡安全法
聲屏世界(2015年7期)2015-02-28 15:20:13
認知范疇模糊與語義模糊
主站蜘蛛池模板: 丁香五月婷婷激情基地| 久久久久无码国产精品不卡| 国产伦片中文免费观看| 区国产精品搜索视频| 97精品伊人久久大香线蕉| 2018日日摸夜夜添狠狠躁| 日本道综合一本久久久88| 大香网伊人久久综合网2020| 超清无码一区二区三区| 中文字幕无码制服中字| 国产精品第页| 精品久久蜜桃| 中文字幕乱码二三区免费| igao国产精品| 国产高清在线丝袜精品一区| 国产午夜福利亚洲第一| 日本欧美午夜| 999国内精品久久免费视频| 日韩经典精品无码一区二区| 亚洲人成在线精品| 亚洲精品自产拍在线观看APP| 毛片免费试看| 欧美yw精品日本国产精品| 激情爆乳一区二区| 三级欧美在线| 久久精品国产91久久综合麻豆自制| 啪啪啪亚洲无码| 亚洲欧美激情另类| 国产噜噜噜视频在线观看| 狠狠做深爱婷婷综合一区| 麻豆精品在线| 中文字幕亚洲精品2页| 国产va在线观看| 99re精彩视频| 91无码人妻精品一区| 亚洲an第二区国产精品| 免费一级无码在线网站| 久久五月视频| 欧美啪啪精品| 亚洲永久免费网站| 欧美在线黄| 99久久精品免费看国产电影| 黄色片中文字幕| 不卡国产视频第一页| 国产日韩精品欧美一区灰| 精品国产电影久久九九| 久久香蕉欧美精品| 美女无遮挡免费网站| 色吊丝av中文字幕| 中国特黄美女一级视频| 亚洲日韩AV无码一区二区三区人 | 99这里只有精品免费视频| 亚洲码在线中文在线观看| 青青草欧美| 黄色污网站在线观看| 国内精品一区二区在线观看| 国产在线观看91精品| 18禁黄无遮挡免费动漫网站| 草草影院国产第一页| 日韩在线第三页| 国产91全国探花系列在线播放| 麻豆精品视频在线原创| 动漫精品啪啪一区二区三区| 国产嫩草在线观看| 国产91特黄特色A级毛片| 丁香五月亚洲综合在线 | 日韩不卡高清视频| 色妺妺在线视频喷水| 九九热在线视频| 99热国产这里只有精品无卡顿"| 亚洲中文字幕av无码区| 欧美成人午夜视频| a级毛片免费看| 中文字幕有乳无码| 日本三级黄在线观看| 51国产偷自视频区视频手机观看| 性色生活片在线观看| 爱爱影院18禁免费| 午夜a视频| 精品伊人久久久香线蕉| 热久久综合这里只有精品电影| 久久大香香蕉国产免费网站|