999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN 和BiGRU-attention 的互聯網敏感實體識別方法

2020-04-13 01:26:02張建權
網絡安全技術與應用 2020年4期
關鍵詞:特征模型

◆張建權

(貴州省銅仁市公安局 貴州 554300)

1 引言

隨著網絡信息服務范圍逐步擴大,涵蓋金融、醫療、出行、環保等各方面,互聯網絡呈現出明顯的智慧化與精細化特征,加上網絡環境缺乏有效的監管措施,許多現實中的敏感行為會發生在網絡中。敏感實體識別是命名實體識別(NER)中的一種特定領域實體識別[1]。其主要任務是識別互聯網文本數據中不同類型的敏感實體,如用戶、木馬、黑客和漏洞等。

敏感實體識別主要是對互聯網領域中的專業詞匯進行識別和分類,相比一般的NER 范圍更小,識別精度性需求更高,識別復雜度也更高。近年來,深度學習方法各個領域取得了良好的效果。與機器學習方法或基于規則的方法相比,深度學習方法具有更強的泛化能力和對人工特征的低依賴性。

卷積神經網絡[2]與循環神經網絡[3](RNN)是命名實體識別領域運用最廣泛的深度學習方法。卷積神經網絡(CNN)通過“端到端”學習,能夠很好地實現對數據樣本特征的學習與表示。而循環神經網絡多用于處理序列數據,且依據實際應用需求,為了能夠記憶更長的數據序列,循環神經網絡經逐步演變為長短時記憶網絡(LSTM)[4]、雙向長短時記憶網絡(BiLSTM)[5]。目前,LSTM 在NER 中已取得了巨大的成功。而雙向LSTM(BiLSTM)相比單向的LSTM 模型可以有效地分析來自前后文的大量上下文信息。BiGRU[6]作為BiLSTM 的優化結構,在保持了原有的效果同時又使得結構更加簡單。利用卷積神經網絡(CNN)可以將每個單詞的字符信息編碼成其字符表示,可以有效提取數據集上的字符特征。

盡管神經網絡在一般NER 領域中表現良好,但在互聯網領域中,由于互聯網敏感實體本身的特性,簡單地使用BiGRU 進行互聯網敏感實體識別仍然存在許多問題。目前,針對互聯網敏感實體的識別具有許多問題:敏感實體的類型多種多樣,再考慮到大量用戶的創造性,幾乎每天都會有新生的詞、漏洞或“舊詞新意”作為新的敏感實體誕生;如上所述的“舊詞新意”,在不同的場景下,互聯網敏感實體存在同一名稱的敏感實體之間的界限不明確;網絡環境的多元化,導致互聯網敏感實體有很多都同時包含有中文和英文乃至各類標點符號。敏感實體之間也存在大量諸如小群體間約定俗成的代稱、縮寫等問題,難以識別。

為了解決上述問題,本文提出了一種帶有特征模板的CNN-BiGRU-attention-CRF 模型,將深度學習算法與人工選擇的特征模板相結合,在結構更簡化的同時,獲得比現有模型更好的性能。

2 模型架構

本文的模型中包含了特征模板、CNN、BiGRU 和條件隨機場等幾個部分。由于互聯網敏感實體更新速度快、命名機制變化快的特點,本文在模型中引入了人工特征模板來輔助模型正確判別是否為互聯網敏感實體。又由于大量縮寫、符號化的語言的存在,單純采用token 級的字符串進行識別效果較差,因此本文采用的CNN 來提取對象字符的特征[7],以更細顆粒的特征對原有模板進行優化,再使用結構更簡單的BiGRU 模型對這些上下文字符的特征進行分析。在最后,本文將人工特征模板[8-9]判斷的結果與機器的結果相結合,使得本文模型對互聯網敏感實體的識別性能更高。

2.1 CNN 提取字符特征

CNN 是深度學習技術中最具代表性的神經網絡結構之一,已成為許多學科的研究熱點之一。互聯網敏感實體是中英文混合體。對于互聯網數據中的英文實體,利用CNN 提取敏感實體的字符特征。CNN 主要用于處理英文、拼音等字母組成的實體,相比于token 級,它們由更細粒度的字母組成。這些字母具有許多隱藏的特征,如聲韻母、前后綴等[10]。因此,本文采用CNN來提取敏感實體的字符特征,以區分字符的大小寫、字符類型、字符本身的含義等。

2.2 BiGRU-attention-CRF 提取上下文字符序列特征

圖1 BiGRU 結構模型圖

2.3 特征模板

特征模板是針對需要應用的場景而設計的,它需要綜合考慮目標數據本身的特性,在本文中是互聯網領域中的敏感實體。互聯網敏感實體本身的組成的規律性難以尋找,如果僅僅依靠實體本身的結構和句子的構成,很難取得令人滿意的結果。本文通過特征模板(FT)將單詞的局部上下文信息添加到模型中。考慮到互聯網數據中存在中英文混合的特點,本文提取了當前單詞的上下文特征作為特征模板[14-15]。

2.4 本文的模型

在英文的命名實體識別中,很多情況下盡管文本的語言是英語,但它們往往都有特有的詞匯、縮寫和標點符號。在不同語言環境下,有著如專業詞匯、文學作品或游戲內的自定義,乃至用戶間約定俗成的稱呼,甚至還有挑戰傳統的token 定義的表情符號。雖然本文主要針對的是中文環境下的互聯網命名實體,但由于拼音縮寫、顏文字等的存在,使用token 字符串進行分析依舊不夠。如上所述,使用標準token 化假設的解決方案往往在包羅萬象的網絡命名實體中取得預期的目標。但是由于網絡發展的日新月異,每天都有大量的新生詞匯出現在網絡中,其所屬領域也是各異,同一個詞用于不同領域也有不同的含義。構建一個適用于網絡命名實體的token 化器不但需要非常多的時間和金錢,單單從其工程量而言也是浩如煙海,不切實際。因此,在互聯網敏感命名實體識別中,使用字符級別的模型更加合理。通常而言,對于敏感實體并不關心整個詞匯庫的token 化或語義。而是關心能否在這些文本中找到需要的信息。互聯網敏感實體是中英文混合體,因此對于互聯網數據中的英文實體,本文利用CNN 提取敏感實體的字符特征。

雖然在處理字符特征時,每個字符本身沒有特殊含義,但當幾個連續字符作為一個序列,比如某些特定的前綴和后綴就會對命名實體識別產生巨大推動作用。對于由n個字符序列組成的輸入序列 X =( x1, x2,… ,xn)。為了解決由于字長不同而導致的字符向量矩陣大小不一的問題,以最長的字符的長度l 為基準。每個字符序列表示為 x =(

c1, c2,… ,cl),由l 個字符組成,對長度不足l 的,在字長的左右兩端填充占位符。通過查表,將每個序列x 轉換成相應的字符向量,形成d×l的序列的字符向量矩陣。其中d是序列中字符的向量的長度。在提取字符特征向量的卷積運算中,在每m個字符之間加入一個卷積層,通過激活函數得到一個輸出特征映射,每個輸出映射可以是多個輸入映射卷積值的組合。之后,在輸出特征映射上進行最大池化操作,并將平均值或最大值作為與濾波器相對應的特征wi。最后,連接所有特征映射來獲得字符序列w的表示:

CNN 雖然可以深層次地提取到字符集的特征,然而卻缺乏對句子體系特征的表示,因此本文采用了BiGRU 對這一缺陷進行彌補。同時,BiGRU 所缺乏的提取深層次特征的能力也得到了來自CNN 的補充。

為了克服RNN 無法很好處理遠距離依賴、梯度消失及梯度彌散的問題,人們提出了LSTM 模型。而GRU 則是LSTM 的一個變體,GRU 不但對于RNN 中的梯度消失有很大幫助,還將遺忘門和輸入門合并成一個更新門,結構更加簡單,所需參數更少,減小了模型時間代價。

通過BiGRU 網絡對安全命名實體進行特征提取,再與條件隨機場結合,從而得到整體網絡模型,再使用BiGRU-CRF 整體網絡模型對語料進行訓練和測試,最終得到良好的識別結果。設x為 含 有n個 字 符 的 句 子X= (x1,x2,… ,xn), 用Y= (y1,y2, … ,yn)表示句子長度為n的標注序列,對于長度為n的句子的評分為:

式中:score1表示每個位置的評分。Pi表示通過BiGRU 網絡訓練得到的特征矩陣,A表示的是標簽之間的轉移得分,即在為一個位置進行標注時利用的是已標注的信息標簽。由公式可知,整個序列每個位置的評分由兩部分組成,分別是由神經網絡訓練得到的特征矩陣和CRF 的轉移矩陣。然后利用Softmax 函數進行歸一化后的概率:

在模型預測過程中,給定輸入序列x,使用維特比算法來求解最優路徑,即對觀測序列進行標注,最高概率y如下所示,其中y′表示給定的條件特征:

本文中同時在每個單通道CNN-BiGRU 復合網絡中引入了attention 機制,有效提高分類效果。首先生成敏感命名實體的注意力權重vt,通過softmax 函數生成概率向量pt,最后將生成的注意力權重分配給對應的隱層狀態語義編碼ht,最后生成權重分配后的新向量at:

考慮到互聯網命名實體的特殊性,僅采用深度學習的方法很難在效果上取得巨大的突破,因此,本文在互聯網命名實體識別中加入了人工的模板特征進行輔助,從另一個方向性顯著提高模型的性能。由于人工特征模板是對深度學習的補充,而CNN 每段處理的文字是定長的,因此在此處本文也將文本分為定長的分段進行分析。本文定義了一組二進制的特征函數f k(yi,yi+1),其中yi代表當前標記,yi+1代表下一個標記,l 代表每段長度。通常,特征函數的值為1 或0,即滿足特征條件時,該值為1;否則,該值為0。令:

f k(y)表示分段內所有位置的特征函數之和。再為每段文字的特征函數分配一個權重λk,并使用 λ表示這些權重向量:

再令 F(y,w)表示全局的特征向量:

如果其中一個特征函數被激活,那么它的權重 λ將被累加到score2中,即:

本文中,CNN 從字符特征中提取固定長度的特征向量,再將這些特征向量輸入到BiGRU 層。在給定為中英文混合互聯網語料庫數據的情況下,人工制作特征模板,從輸入序列中提取基于上下文的特征,然后通過查表,將輸入序列轉換成相應的字符向量。對于輸入序列,字符特征由CNN 層計算,字符嵌入作為輸入,然后將字符特征向量輸入到BiGRU 層中提取信息特征。最后,將信息特征與基于上下文的特征連接起來,輸入CRF 層對每個字符進行標記,以獲得最佳的標簽序列。當計算與t時刻的字符對應的score時,將特征模板中字符特征的score與原本score相加:

利用BiGRU 學習CNN 所提供的字符特征,加強字符特征之間上下聯系,獲取句子體系的特征。再輔以人工特征得到最終得分,明顯的,分數越高,預測精度越高。將特征模板與模型相結合,本文最終的模型架構如圖2 所示:

圖2 本文模型架構

3 模型訓練

3.1 訓練過程

本文建立敏感實體識別模型中 CNN-BiGRU-attention-CRF部分訓練過程如下:首先,將每段語料分割成長度相同的序列分別訓練,不足長度的補占位符。初始化模型的參數,然后通過CNN 模型提取字符特征。在此基礎上,分別對BiGRU-attention模型進行前向和后向傳遞提取特征,并通過運行CRF 模型計算模型的輸出狀態。

3.2 參數初始化

本文模型需要設置大量的參數,這些參數的選擇非常重要,因此在設置初始的參數后選擇讓機器自適應。模型設置的參數如表1 所示。

表1 參數設置

4 實驗設置

4.1 語料庫和注釋模式

到目前為止,互聯網敏感實體領域還沒有完整的語料庫。因此,語料庫為本文自行構建,包括一個自動標注的部分和一個手動標注的部分。在本研究中,本文主要識別人名、位置、組織、軟件、網絡相關術語和漏洞ID 等六種類型的敏感實體。

首先進行中文分詞,然后通過匹配人名數據庫、位置數據庫、漏洞id 數據庫和網絡相關術語數據庫,自動標注分詞后的數據。然后根據標注的分詞數據的字符用代碼進行標記,對組織和軟件進行手動注釋。

4.2 評估參數

本文主要選取了精確率(P)、召回率(R)、F值和準確率(A)來評估本文的敏感實體識別模型的識別效果,具體如下:

4.3 實驗結果分析

為了驗證本文敏感實體識別模型的性能,論文使用同一語料,同一環境配置的條件下,主要使用LSTM-CRF、BiLSTM-CRF、CNN-BiLSTM-CRF[16]和本文的方法分別對人名、位置、組織、軟件、網絡相關術語和漏洞ID 等安全命名實體識別進行實驗,采用準確率、召回率和F值、準確度進行評估。

對于所有語料綜合分析,得到表2 中不同神經網絡模型的實驗數據:

表2 不同模型的實驗結果比較

從表2 中實驗結果可以看出,在已有的模型中,LSTM-CRF結合了CRF 和LSTM 的優點,利用LSTM 識別復雜的敏感實體,同時CRF 可以充分利用相鄰標簽之間的關系。BiLSTM-CRF 的表現略優于LSTM-CRF,CNN-BiLSTM-CRF 的性能優于其他模型,F值更高,驗證了CNN 提取特征的有效性。本文提出的將特征模板與CNN-BiGRU-CRF 本文的模型的性能無論從準確率、精確率還是F值來看,均優于其他模型。其準確度、準確度和F值均所有模型中最高的。

而面對互聯網敏感實體領域中不同的命名實體,以上的幾種模型的F值性能如表3 所示:

表3 不同模型在識別人名、位置、組織、軟件、網絡相關術語和漏洞ID 的F 值

從表3 中可以看出,本文的模型在識別位置、軟件和網絡相關術語方面具有更好的性能。對于中英文混雜較多的互聯網敏感實體,本文模型使用 CNN 提取英文部分的特征,使用BiLSTM-attenton-crf 提取全局特征,使用人工預訓練的特征模板提取局部上下文特征,兩相結合大大提高了模型的性能。

5 結論

互聯網敏感實體是一種與傳統命名實體特征差異很大的命名實體。在網絡環境下,其數量海量化、中英文混雜、符號語言、小團體適用化導致了其以一般命名實體識別的方法進行分析準確度很差。本文針對互聯網敏感實體這些特性提出了一種基于深度學習和人工特征的針對互聯網敏感實體的識別方法。在對字符串分析之前,先通過CNN 提取每一個字符的特征,這樣有利于分析互聯網敏感實體中大量存在的英文縮寫、符號語言等實例。之后在傳統深度學習中引入了BiGRU-attention-CRF 框架,可以分析當前字符與整體上下文關系。此外,GRU 的結構相比于傳統LSTM 除了在處理能力上更好之外,簡化了LSTM 的結構,使得模型的實際體量更小。字符向量經過CRF 分析后,與人工的預處理過的特征模板相結合,使得人工的模板矯正了深度學習結果的一些偏差,讓本文的最終結果更接近于實際。

從結果中可以看出,對于個人、組織名稱、和漏洞這些中英文混雜較少,或者幾乎由純粹的中文或英文組成的實體,本文的方法在與多種傳統的方法的對比中雖然不是最優,但效果仍舊較好。但對于軟件、網絡相關術語、位置等縮寫較多、中英文混雜的網絡實體,本文提出的方法在效果上相比其他方法在識別效果上優越很多。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久精品欧美一区二区| 亚洲精品自在线拍| 亚洲国产系列| 国产国拍精品视频免费看| 91精品视频网站| 国产又黄又硬又粗| 午夜丁香婷婷| 麻豆精品在线播放| 蜜臀AV在线播放| 欧美午夜视频| 色哟哟精品无码网站在线播放视频| 国产丝袜无码精品| 国产精品无码在线看| 澳门av无码| 国产精品视频猛进猛出| 四虎亚洲国产成人久久精品| 99人体免费视频| 亚洲一区二区视频在线观看| 亚洲经典在线中文字幕| 欧美亚洲香蕉| 国产精品久久国产精麻豆99网站| 国产精品女主播| 国产精品毛片一区| 久久国产精品77777| 亚亚洲乱码一二三四区| 91在线高清视频| 欧美亚洲一区二区三区导航 | 欧美三级日韩三级| 女人18毛片一级毛片在线 | 91丝袜美腿高跟国产极品老师| 国产哺乳奶水91在线播放| 日本三级黄在线观看| 欧美狠狠干| 久久精品中文无码资源站| 欧美日韩专区| 日韩资源站| 狠狠做深爱婷婷综合一区| 国产手机在线观看| 国产在线视频导航| 色哟哟国产精品| 欧美日本一区二区三区免费| 国产主播福利在线观看| 一级毛片免费观看不卡视频| 久久国产亚洲偷自| 国产chinese男男gay视频网| 欧美激情,国产精品| 99成人在线观看| 97se亚洲综合在线天天| 超清人妻系列无码专区| аⅴ资源中文在线天堂| 国产成人h在线观看网站站| 久久无码av三级| 亚洲第一区在线| 青青草国产一区二区三区| 成人日韩欧美| 日韩欧美国产三级| 久久精品娱乐亚洲领先| 美女国产在线| 最新国产你懂的在线网址| 免费毛片视频| 中文成人在线| AV在线天堂进入| 国产sm重味一区二区三区| 爆操波多野结衣| 色偷偷综合网| 亚洲男人的天堂久久香蕉| 日韩不卡免费视频| 福利在线不卡一区| 亚洲午夜福利在线| 久久国产精品娇妻素人| 欧美视频免费一区二区三区| 久久午夜夜伦鲁鲁片无码免费| 久久久91人妻无码精品蜜桃HD| 亚洲中文字幕久久精品无码一区| 欧亚日韩Av| 国产精品无码一区二区桃花视频| 国产v精品成人免费视频71pao| 国产精品手机在线播放| 天天躁夜夜躁狠狠躁图片| 国产精品亚洲综合久久小说| 国产玖玖视频| 日韩精品亚洲精品第一页|