999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合觸發事件及詞性分析的敏感信息識別方法

2020-10-19 04:40:56王永利周子韜張才俊
計算機工程與應用 2020年20期
關鍵詞:文本信息

劉 聰,王永利,周子韜,猶 鋒,張才俊

1.南京理工大學 計算機科學與工程學院,南京 210094

2.南瑞集團有限公司/國網電力科學研究院有限公司,江蘇瑞中數據股份有限公司,南京 210094

3.國家電網有限公司客戶服務中心,南京 210094

1 引言

近年來,我國境內暴力恐怖襲擊事件的發生頻率有所上升,嚴重影響了社會秩序和人民生活。

目前敏感信息的識別主要包括了文本、圖像、音頻、視頻等文件格式中敏感信息的識別,其中,應用較為廣泛的是文本中敏感信息的識別。傳統敏感信息的識別主要是實現諸如人名、地名、機構名等命名實體的識別,或者是通過詞典匹配實現敏感信息的識別。然而傳統敏感信息識別方法忽略了上下文語境和關鍵詞詞性給敏感信息的識別帶來的影響,例如:實例1“李明準備國慶期間去天安門旅游”和實例2“李明準備國慶期間去天安門安置炸彈”,傳統敏感信息識別方法將“天安門”定義為敏感詞,最終識別所得的結果為兩個實例都是敏感信息。然而結合上下文語境而言,實例1并不是敏感信息,傳統敏感信息識別方法出現了誤報,將非敏感信息識別為敏感信息。在敏感信息識別過程中,結果的誤報和漏報對敏感信息識別的精確度都造成了一定的損傷。此外,文本中往往存在許多與敏感信息識別結果不相關的文本信息,傳統的敏感信息識別方法將與識別結果不相關的信息納入識別范圍,不僅占用了大量的空間,還降低了敏感信息識別的性能。

1.1 文本表示技術

文本的表示可以分為對詞語的表示以及對文本的表示,詞語的表示通常分為兩種:One-hot 表示、詞向量表示。One-hot 表示是基于規則、統計學習模型中最常見的詞語表示方法[1],但是One-hot表示方法得到的詞向量十分稀疏,向量維度過高,可能導致維數災難。詞袋模型(Bag of Words,BOW)是一種向量空間模型,在該模型中,文本被視為無序的詞匯集合[2]。詞袋模型僅僅記錄每個單詞在文檔中出現的頻率,且不會考慮單詞出現的順序,因而忽略了語法和詞匯之間的順序關系。向量空間模型(Vector Space Model,VSM)是一種將文本表示為向量的代數模型[3],該模型的向量空間上的相似度可以表示語義的相似度,然而該模型忽略了詞語的位置關系。通過上述文獻可以得知,在傳統的文本表示方法中,特征工程至關重要。神經網絡語言模型(Neural Network Language Model,NNLM)是神經網絡語言模型的經典之作[4],該模型訓練得到的詞向量滿足“上下文相似時,詞向量也相似”的特性,其缺點在于參數規模大,算法的時間復雜度高。文獻[5]提出了Glove(Global Vectors for Word Representation)模型,該模型通過把一個單詞表達成一個實數組成的向量,捕捉單詞之間的語義特性,但是該模型在訓練過程中需要使用全局信息,耗費大量內存。Mikolov 等人[6]提出了CBOW 和Skip-gram 兩種模型進行詞語的分布式表示,這就是Word2vec的原理。這兩種模型通過減少訓練過程中所需要的參數,從而避免過擬合,在保證詞向量質量的同時,提升了訓練效率,節省了內存空間。受文獻[1-6]的啟發,為了有效捕獲單詞之間的語義特性,保留待識別文本的完備性,同時避免詞向量的訓練過程過于復雜,本文基于Word2vec表示方法進行文本的向量化表示。

1.2 文本相似度計算

針對文本相似度的計算,文獻[7]提出了N-gram相似度識別方法,N-gram是給定文本序列的前n項子序列,通過計算每一個單詞的N-gram值來計算單詞之間的相似度。但是該方法忽略了文本的上下文信息,不能反映文本潛在語義。文獻[8]提出了一種考慮語義和詞序的句子相似度計算方法,該方法通過計算兩個句子的語義相似度和詞序相似度,最后加權得到兩個句子的最終相似度。文獻[9]提出了一種基于VSM的文本相似度計算方法,并以加權的方式對傳統的TF-IDF 算法的權重計算方法進行改進。文獻[10]基于改進型VSM 結合余弦相似度的文本相似度計算方法和HowNet文本相似度計算方法,實現了基于改進型VSM-HowNet融合相似度算法。文獻[11]提出了一種漢明距離的文本相似度計算方法,通過把文本表示0/1 向量,并計算編輯距離,最終得到文本的相似度。文獻[12]綜合TF-IDF 算法以及HowNet 的語義信息,利用漢明距離實現了文本相似度的計算。文獻[13]通過考慮單詞之間的語義關系,使用語義資源來減少維度,使用反向索引過濾出候選文檔集,最終提出一種基于語義向量空間模型的文本相似性計算方法VSI-Cilin。文獻[14]建立了基于神經網絡的詞向量模型,對搜狐、世界新聞等中文語料庫進行訓練,提出了一種利用詞向量的計算文本語義相似度的方法。文獻[15]提出了一種基于詞向量的微博事件跟蹤方法,利用詞向量計算出詞與詞之間的語義相似度,提高了微博之間語義相似度的準確性。

針對傳統文本相似度方法識別效率較低的問題,本文提出對文本進行敏感觸發事件抽取,并根據敏感觸發事件中關鍵詞的詞性對文本相似度識別算法進行改進,最終識別文本中的暴恐敏感信息。本文所做的貢獻如下:(1)定義詞性選擇、敏感觸發事件抽取的概念,在中文文本中通過敏感觸發事件的抽取,獲得詞匯層面和句子層面的事件特征;(2)結合敏感觸發事件的特征改進文本余弦相似度算法,降低敏感信息識別過程中出現的誤報率、漏報率,提高敏感信息識別的性能。

2 敏感信息識別模型

傳統的敏感信息識別方法忽略了詞性、文本語境框架以及詞序等對識別精確度造成的影響。此外,對文本中所有內容進行識別需要耗費大量的時間、空間。針對上述問題,針對暴恐敏感信息,本文提出將文本中的動詞、名詞構成的詞性序列作為敏感觸發事件,將詞性序列中待識別的詞語定義為關鍵詞。結合敏感觸發事件中詞性序列的種類以及關鍵詞的詞性改進文本相似度算法,最終實現準確且高效地識別暴恐敏感信息。

暴恐敏感信息識別的流程如圖1所示,主要有兩個階段,暴恐敏感詞典構建階段和暴恐敏感信息識別階段。暴恐敏感詞典構建階段主要步驟包括擴充語料庫,分詞處理,將文本訓練成詞向量,構建暴恐敏感詞典。暴恐敏感信息識別階段主要由兩個部分構成:構建敏感觸發事件,結合詞性改進文本相似度算法。

圖1 敏感信息識別流程圖

2.1 文本預處理

在中文文本敏感信息識別過程中,對文本的預處理是必要階段。文本預處理操作包括:對文本進行分詞、去停用詞、詞性標注、詞性選擇等。整個文本預處理的流程如圖2所示。

圖2 文本預處理流程

在文本預處理過程中,首先對文本進行分詞處理,然后根據停用詞表去掉分詞結果中的停用詞。在去除分詞結果的停用詞之后,進行詞性標注和詞性選擇,選擇出文本識別所需的關鍵詞。

定義1(詞性選擇)為了通過詞性篩選提取詞匯層面和句子層面的事件特征,定義詞性選擇為通過關鍵詞的詞性對關鍵詞進行篩選,最終得到構建敏感觸發事件的關鍵詞。

中文文本由九種基本短語組成:名詞短語np、動詞短語vp、形容詞短語ap、副詞短語dp、數詞短語mp、區別詞短語bp、地點短語sp、時間短語tp、準數詞短語mbar。其中,地點短語sp、時間短語tp 可作為是名詞短語np 的子類,而名詞短語np、動詞短語vp、形容詞短語ap、副詞短語dp 是中文文本中四類最常見的短語。區別詞短語bp可視為形容詞短語ap的子類,數詞短語mp描述了漢語中比較特殊的名量、動量、時量和指量結構,準數詞短語mbar的設定是為了解決目前的數詞切分規范與句法分析的銜接問題。在上述的基本短語中,名詞短語和動詞短語對暴恐敏感信息的識別十分重要,為了提高敏感信息識別的精確度和效率,通過磁性選擇進行敏感觸發事件的抽取。

2.2 敏感觸發事件抽取

在完成文本預處理操作之后,將預處理所得到詞性序列用于敏感觸發事件抽取。

定義2(敏感觸發事件抽取)敏感觸發事件(Sensitive Trigger Event,STE)是指在敏感信息識別過程中,判斷文本是否是敏感信息的決定性事件。敏感觸發事件抽取(Sensitive Trigger Event Extraction,STEE)通過抽取出詞匯層面和句子層面的事件特征,最終獲取文本的敏感觸發事件。

采用確定有窮自動機(Daterministic Finite Automata,DFA)表示敏感觸發事件的抽取過程,STEE可表示為一個抽象的計算模型:E=(W,Σ,f,S,Z),其中,W表示敏感觸發事件的狀態集合,即經過文本預處理獲得的文本內容;Σ表示經過預處理后關鍵詞詞性的輸入集合;f表示敏感觸發事件的抽取函數,是W×Σ→W上的映射,如f(wi,a)=wj(wi∈W,wj∈W),即當前狀態為wi,當輸入的關鍵詞的詞性為a時,則會轉移到狀態wj;S∈W表示初始狀態集合,包括動詞狀態、名詞狀態兩種;Z是終態集合,即敏感觸發事件的兩種類型:名動詞詞性序列、動名詞詞性序列。

針對文本中反恐、暴亂等敏感信息的識別,將敏感觸發事件分為兩種:動名詞詞性序列和名動詞詞性序列。將分類規則定義如下。

定義3(敏感觸發事件分類規則)詞性序列以動詞開始,之后由名詞、動詞構成的詞性序列稱為動名詞詞性序列;以名詞開始,之后由動詞、名詞構成的詞性序列稱為名動詞詞性序列。

將動名詞詞性序列表示為X=v(n*|v*|(n|v)*|ε),動名詞詞性序列觸發事件可能出現以下幾種情況:

(1)動名詞詞性序列中的動詞是敏感詞,則該詞性序列中動詞作為敏感信息的觸發事件,包含該動詞的文本則為敏感信息。例如“放火”“殺人”“砍殺”“開槍”等。

(2)動名詞詞性序列中的動詞不是敏感詞,則有以下幾種情況:

①若不存在敏感名詞,則該文本不為敏感信息。例如“買蘋果”。

②若存在敏感名詞,且敏感名詞之后沒有動詞,則該文本為敏感信息。例如“扔炸彈”。

③若存在敏感名詞,且敏感名詞之后存在動詞,則該文本不為敏感信息。例如“去天安門旅游”。

動名詞詞性序列模板如表1所示。

表1 動名詞詞性序列模板

將名動詞詞性序列表示為X=n(n*|v*|(n|v)*|ε),名動詞詞性序列和動名詞詞性序列存在區別,名動詞詞性序列中可能出現以下幾種情況:

(1)名動詞詞性序列中只有名詞,文本的敏感性由名詞的敏感性決定。若名詞中含有敏感詞,則文本為敏感信息;若名詞中不含敏感詞,則文本不為敏感信息。例如“槍支彈藥”“本·拉登、李明”“香蕉蘋果”。

(2)名動詞詞性序列中含有一個或者多個名詞、動詞,則有以下幾種情況:

①若動詞中含有敏感詞,則該詞性序列為敏感信息。例如“李明要殺人”。

②若動詞中不含有敏感詞,且名詞中含有敏感詞,則該文本為敏感信息,例如“本拉登坐飛機”。

③若動詞中不含敏感詞,且名詞中也不含有敏感詞,則該文本不為敏感信息,例如“李明坐飛機”。

名動詞詞性序列模板如表2所示。

表2 名動詞詞性序列模板

在網絡文本中,暴力、反恐信息主要是由名詞和動詞所構成的短文本。

通過敏感觸發事件的抽取,提取出詞匯層面和句子層面的事件特征,抽取敏感觸發事件的目的是獲得對敏感信息識別貢獻較大的信息。敏感觸發事件的抽取不僅保留了文本語義的完備性,還減少了因忽略上下文語境而造成的識別結果的誤報、漏報等,降低了無關信息對敏感信息識別性能的影響。

2.3 結合詞性改進文本相似度計算算法

在實現敏感觸發事件的抽取之后,通過計算敏感觸發事件與暴恐敏感詞典之間的文本相似度實現敏感信息的識別。

在傳統的文本相似度算法中,不同詞性的關鍵詞權值都一樣,然而關鍵詞的不同詞性對敏感信息識別的貢獻度是不同的。因為名詞、動詞在暴恐敏感信息識別的過程中貢獻度不同,所以應當具有不同的權值。因此本文提出一種結合敏感觸發事件中關鍵詞詞性的文本相似度算法(Text Similarity Algorithm Combining Part of Speech,STEAP),該算法有助于提高文本相似度計算的準確性,從而提高敏感信息識別的準確性。結合敏感觸發事件中詞性信息的改進后文本相似度(敏感度)計算公式如下:

式中,n為待識別文本中提取出來的詞性序列的關鍵詞個數,γ為權重系數,且滿足條件α,β,δ,μ∈(0,1);C(wi)為敏感詞wi的詞向量,C(wj)為待識別文本中關鍵詞wj的詞向量,cosθij為敏感詞wi和關鍵詞wj的詞向量相似度,計算公式為:

結合敏感觸發事件中關鍵詞詞性的文本相似度算法偽代碼如下所示:

在STEAP 算法中,輸入內容為待識別的文本。該算法首先利用Word2vec 模型對語料進行訓練,然后構建暴恐敏感詞典d1=(w1,w2,…,wm),并用詞向量C(wi)表示暴恐敏感詞典中的各個敏感詞。隨后構建敏感觸發事件d2=(w1,w2,…,wn),利用STEW 算法為敏感觸發事件中的關鍵詞分配權重,用詞向量C(wj)表示敏感觸發事件。然后利用WTW算法計算詞向量C(wi)和詞向量C(wj)的相似度。最后利用公式(1)計算敏感度,獲得待識別文本的敏感度。

敏感觸發事件中關鍵詞權重計算算法的偽代碼如下所示:

在STEW算法中,輸入是敏感觸發事件d2,根據定義3 對敏感觸發事件d2進行分類,根據d2的種類以及關鍵詞的類型為敏感觸發事件中關鍵詞分配權重,權重的分配規則如公式(2)所示。

敏感觸發事件和暴恐詞典中敏感詞的相似度計算算法偽代碼如下所示:

WTW算法中,輸入詞向量C(wi)、C(wj),首先計算關鍵詞與敏感詞典中各敏感詞的相似度,然后取最大值,然后利用公式(1)計算敏感度。

根據STEW算法,敏感觸發事件中關鍵詞的權重的計算時間復雜度為O(n),根據WTW 算法,敏感觸發事件和暴恐敏感詞典中關鍵詞的相似度的計算時間復雜度為O(n×m)。因為暴恐敏感詞典中關鍵詞個數遠大于1,所以STEAP算法的時間復雜度為O(n×m),其中n表示敏感觸發事件中詞語的數量,m表示敏感詞典中詞語的數量。

3 實驗結果與分析

3.1 構建暴恐敏感詞典

為了使敏感信息的識別更加準確,需要盡可能完善暴恐敏感詞典。在構建暴恐敏感詞典的過程中,將人民網、臺灣品聰網站、新浪微博的相關報道以及相關的評論作為本文數據的來源,在通過爬蟲技術獲得數據以后,根據近20年發生的暴恐事件進行文本的篩選,將暴恐事件集中的部分地區、民族、背后勢力、使用武器等作為篩選因素,最終得到有效語料58 000條。

將獲取的有效語料對Wiki 語料庫進行擴充,然后進行文本預處理,再利用Word2vec 對擴充后的語料進行訓練,用以完善暴恐敏感詞典。敏感詞是指能夠用來判斷文本是否含有敏感信息的詞語。針對暴恐事件,暴恐敏感詞典主要由人名、地名、機構名,暴恐事件中出現的武器、民族、動詞等,以及網絡中相關的隱晦表達詞、網絡用語等構成。

本文從爬取的語料中選取70%的數據用于敏感詞典的構建,剩下的30%的數據用于敏感詞典的測試和完善。首先將常見的敏感詞添加到敏感詞典,然后根據同義詞詞林對自定義的敏感詞詞典進行同義詞擴展,再通過Word2vec 對語料進行訓練得到對應的詞向量,然后通過余弦相似度計算獲得與敏感詞相似度最高的前10個數據的信息,添加到敏感詞典中。利用Word2vec 訓練時對應的參數為:特征向量的維度size為300,上下文的窗口 window 為 10,訓練并行數 worker 為 4,參數sg=0,表示選擇CBOW 算法,為防止漏檢一些出現頻率極低的敏感詞,將min_count的值設置為0。最終得到的暴恐敏感詞典中一共含有敏感詞8 267 個,其中名詞5 105個,動詞3 162個。

3.2 STEAP算法敏感閾值的確定

實現暴恐敏感信息的識別,除了構建并完善暴恐敏感詞典之外,還有STEAP 算法敏感閾值的確定。敏感閾值是能最精確識別出敏感信息時的文本相似度,將相似度0.50作為敏感閾值的底部初始值,取長度0.05為間隔單位,每次實驗增加一個間隔單位。將每次的值設定為待選閾值,通過計算該閾值條件下實驗的準確率(precision)、召回率(recall)和F1 值三個指標對STEAP算法的敏感閾值進行確定,統計計算后取精確度最高的待選閾值為最終實際使用閾值。實驗結果如圖3所示。

圖3 通過實驗獲得最佳閾值

由實驗結果可知,敏感信息識別的精確率、召回率隨著閾值的改變呈現不同的變化趨勢。就精確率而言,當閾值小于0.85 時,精確率呈遞增趨勢;當閾值大于0.85時,精確率呈遞減趨勢;所以當閾值為0.85時,敏感信息識別的精確率最高,為87%。就召回率而言,當閾值小于0.80時,召回率呈上升趨勢;當閾值大于0.80時,召回率呈下降趨勢。本文將F1值作為最佳閾值選擇的最終指標,經過多次反復實驗得知,當閾值為0.80時,所得F1 值最大,為0.862 1,對應的識別精確率為86.36%,所以最終STEAP算法的敏感閾值為0.80。

3.3 對比實驗

為了測試STEAP 算法識別敏感信息方面的性能,文本在17 400條文本測試集上進行多次實驗,將本文提出的方法與其他幾種方法在敏感信息識別的精確率和召回率上進行對比,實驗結果如圖4所示。這幾種方法分別為:字典法、基于Word2vec 的余弦相似度算法(記為余弦相似度算法)、基于TF-IDF 的余弦相似度算法(記為TF-IDF算法)。

圖4 敏感信息識別實驗結果

從圖4中可以看出,字典法在敏感信息識別實驗中精確率和召回率最低,該方法過多依賴于所構建的敏感詞典的大小。基于Word2vec的余弦相似度算法與基于TF-IDF的余弦相似度算法識別的精確率和召回率均比字典法高出了許多,這說明余弦相似度算法在文本的相似度識別方面具有較好的效果。STEAP 算法對基于Word2vec 的余弦相似度算法進行改進,通過識別文本中由名詞、動詞構建詞性序列來識別文本中的暴恐數據,最終識別的精確率和召回率都高于前三種算法。

4 結語

本文提出一種結合詞性的文本相似度算法STEAP。該方法首先通過詞性選擇對文本進行過濾篩選,然后針對文本中的暴恐敏感信息構建以名詞、動詞為主的詞性序列,將其作為敏感觸發事件。最后結合詞性序列對基于Word2vec 的余弦相似度算法進行改進,得到STEAP算法。

實驗結果表明本文提出的STEAP算法與傳統的敏感信息識別方法相比,最終識別的精確率和召回率都更高,并且對于敏感信息的識別更加有效,降低敏感信息識別過程中出現的誤報率、漏報率,提高敏感信息識別的性能。

在接下來的研究中,為了更加精確地識別出文本中的敏感信息,將利用深度學習方法研究基于情感分析的敏感信息識別方法。

猜你喜歡
文本信息
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产一区二区视频在线| 国产又粗又猛又爽视频| 日韩黄色大片免费看| 国产福利小视频在线播放观看| 美女一级免费毛片| 青草精品视频| 红杏AV在线无码| 99热这里只有精品5| 丁香婷婷激情网| 国产精品亚洲αv天堂无码| 国外欧美一区另类中文字幕| 香蕉视频在线观看www| 国产精品主播| 18禁影院亚洲专区| 久久成人国产精品免费软件| 国产精品九九视频| 日本爱爱精品一区二区| 国产农村1级毛片| 亚洲一区精品视频在线| 亚洲午夜国产精品无卡| 天天爽免费视频| 午夜国产精品视频黄| 欧美区一区二区三| 亚洲色大成网站www国产| 色综合a怡红院怡红院首页| 狠狠色丁婷婷综合久久| 久996视频精品免费观看| 欧美三級片黃色三級片黃色1| 青青热久免费精品视频6| 国产精品林美惠子在线观看| 久久香蕉国产线看观| 亚洲日韩精品无码专区| 一本久道热中字伊人| 性欧美精品xxxx| 日韩欧美国产精品| 欧美成人免费一区在线播放| 国产成人精品男人的天堂下载 | 国产91成人| 成人无码一区二区三区视频在线观看 | 成人国产精品一级毛片天堂 | 久久精品一卡日本电影| 操国产美女| 青青青国产免费线在| 国产精品美人久久久久久AV| 激情五月婷婷综合网| 国国产a国产片免费麻豆| 国产天天射| 秋霞午夜国产精品成人片| 岛国精品一区免费视频在线观看 | 久热re国产手机在线观看| 精品视频一区二区三区在线播| 88av在线| 国产日韩精品欧美一区灰| 19国产精品麻豆免费观看| 国产91特黄特色A级毛片| 亚洲三级色| 欧美综合激情| 国产91精品最新在线播放| 成人毛片免费在线观看| 亚洲大学生视频在线播放 | 少妇极品熟妇人妻专区视频| 欧美日韩一区二区在线播放| 亚洲综合精品香蕉久久网| 狠狠做深爱婷婷综合一区| 久久99精品久久久久久不卡| 福利片91| 亚洲欧美日韩色图| 国产凹凸一区在线观看视频| 国产成年无码AⅤ片在线| 久久综合AV免费观看| 国产永久在线视频| 久久久久人妻一区精品色奶水| 亚洲国产精品无码久久一线| 最新精品久久精品| 国产亚卅精品无码| 国产福利微拍精品一区二区| 国产精品所毛片视频| 色视频国产| 国产杨幂丝袜av在线播放| 色综合五月| 综1合AV在线播放| 九色视频在线免费观看|