








摘 要:針對現有方法對非結構文本中結構復雜的敏感個人信息實體無法有效識別的問題,提出一種基于內容和上下文的敏感個人信息實體識別方法。一方面,利用規則匹配檢測具有可預測模式的敏感實體類型;另一方面,構建了一個基于詞對關系分類架構(ELECTRA-W2NER,EW2NER)的實體關系分類識別模型,以檢測模式復雜的敏感實體類型。EW2NER 使用最新的ELECTRA(Efficiently Learningan EncoderthatClassifies TokenReplacementsAccurately)模型實現詞嵌入,并采取實體關系分類架構統一提取扁平型和重疊型的敏感個人信息實體。該模型在中文敏感數據集上取得了97.05% 的F1值,優于ExSense(Extractsensitiveinformationfromunstructureddata)模型。
關鍵詞:敏感信息檢測;命名實體識別;模式匹配;深度學習
中圖分類號:TP391.1 文獻標志碼:A
0 引言(Introduction)
近年來,隨著社交應用的迅猛發展,處理敏感個人信息的社交應用也呈現指數增長趨勢。通過平臺中的個人評論內容或生活分享信息(如博客文章、社交媒體動態等),可以直接或間接確認個人身份。個人身份信息泄漏問題會給用戶和服務管理者帶來法律糾紛與經濟損失。事實上,近年來發生的數據泄露所帶來的平均經濟損失持續攀升[1],凸顯出保護個人信息的重要性和緊迫性。
目前,敏感個人信息識別研究主要聚焦于兩個核心領域:一是基于數據內容規則的識別方法,二是基于上下文語義的命名實體識別方法。然而,現有基于上下文的敏感實體識別方法對于重疊和非連續型實體無法有效統一識別。綜合上述問題,本文根據OHM[2]歸納的敏感信息定義,將敏感個人信息實體類型分為復雜和可預測兩種數據模式,并提出了基于內容和上下文的敏感個人信息實體識別方法(ContentandContextualSensitive PersonalInformation Entity Recognition Method,CCSPIER)進行敏感信息檢測,具體表述如下:①基于數據內容的正則匹配方法檢測具有可預測模式的敏感信息實體,例如身份證號碼、手機號碼等;②基于上下文語義特征提出一個名為ELECTRA-W2NER(EW2NER)的實體關系分類模型,統一識別扁平、重疊和非連續且模式復雜的敏感實體。
1 相關工作(Relatedwork)
對于敏感信息識別,早期使用基于數據內容特征的識別技術,主要使用關鍵詞字典構造和規則模式匹配等方法對敏感信息進行識別。SHAPIRA等[3]提出了一種數據指紋識別方法,該方法從核心機密內容中提取指紋,同時忽略了文檔的非相關部分,提高了機密內容改寫的魯棒性。SHU等[4]提出了一種序列比對技術用于檢測復雜的數據泄漏模式,該算法旨在檢測長而不準確的敏感數據模式。
基于深度學習的方法是當前敏感信息識別領域的主要方法。李姝等[5]提出一個融合敏感關鍵詞特征的分層BERT(BidirectionalEncoderRepresentationsfromTransformers)模型,通過將敏感關鍵詞特征融合到BERT的輸入中,在互聯網新聞數據集上取得非常好的效果。GUO等[6]提出了ExSense框架,該框架使用正則匹配和BERT-BiLSTM-Attention模型來識別英文數據中的敏感信息實體。該模型引入了注意力機制,使得LSTM輸出的詞表示向量更好地結合了上下文語義。鄭旭如[7]針對英文數據集i2b2提出charCNN-BERT-CRF模型,通過加入charCNN(Character-levelConvolutionalNeuralNetwork)抽取英文縮寫單詞形態特征,再與單詞上下文語義特征向量拼接作為詞最終語義特征,經實驗表明,該方法有效緩解了因英文單詞構詞法而引起的問題。許成[8]提出的基于ELMo(Embeddingsfrom Language Models)與FLAT(Flat-LatticeTransformer)的BiGRU-Flat命名實體識別模型在網絡敏感信息主題檢測任務中效果突出。
2 敏感信息識別方法(Sensitiveinformationidentificationmethods)
本文提出的基于內容和上下文的敏感個人信息實體識別方法(CCSPIER)的總體架構如圖1所示。
CCSPIER方法的敏感實體識別功能由兩個部分組成:基于數據內容的正則匹配方法,用于檢測具有可預測模式的敏感信息實體;基于上下文語義的敏感實體關系分類識別模型,用于檢測模式復雜的敏感信息實體。
2.1 基于數據內容的正則匹配方法
對于具有可預測模式的敏感個人數據,本文采用基于規則匹配的方法進行識別,實體類型與正則表達式如表1所示。
2.2 基于上下文語義的EW2NER模型識別方法
對于模式復雜的敏感實體類型,根據實體內部數據的連續情況可分為扁平實體、重疊實體與非連續實體3種實體類型[9]。例如,“健康狀況”類型的“癥狀”子類型中可能會出現重疊實體和非連續實體,例句如“我的頸椎和腰很痛”中“頸椎痛”和“腰痛”兩個非連續的命名實體出現重疊情況。
為對上述復雜命名實體類型進行統一識別,本文采用一種名為W2NER[10]的關系分類架構,將命名實體識別看作單詞之間的關系分類問題,設計并實現了一個基于實體關系分類的敏感實體識別模型,命名為ELECTRA-W2NER(EW2NER),其模型總體架構如圖2所示。
2.2.1 詞嵌入層
輸入序列為X={x1,x2,…,xn},經過ELECTRA模型學習后,得到包含上下文語義特征的詞嵌入表示向量,具體如公式(1)所示:
E=ELECTRA(X)=[e1,e2,…,en] (1)
其中:E∈Rn×d 為ELECTRA模型輸出的詞嵌入表示向量,n為token長度,d 為ELECTRA模型輸出的隱藏向量維度。
詞嵌入表示向量E 經過BiLSTM 編碼后,分別由前向LSTM與后向LSTM輸出拼接得到特征向量H,分別如公式(2)至公式(5)所示:
其中:→ht與←ht為前向LSTM 和后向LSTM 的輸出向量,et為向量E 中第t個詞向量,⊕為向量拼接操作。
使用多頭自注意力機制對特征向量H 根據任務情況進行自適應調整,增強敏感信息相關語義特征的關注度,提高向量的語義表征能力,具體如公式(6)所示:
Eatt=Multihead(H,H,H) (6)
其中,Eatt∈Rn×dh 為詞嵌入層最終輸出的詞嵌入表示向量,dh為向量的隱藏維度。
2.2.2 卷積層
本研究使用的卷積層包含3種模塊:條件層歸一化模塊用于生成詞嵌入表示的詞對關系網格表示;BERT嵌入樣式網格表示構建模塊用于豐富詞對關系網格表示的隱含特征信息;多粒度膨脹卷積模塊用于提取不同距離詞對之間的交互表示。
(1)條件層歸一化
根據W2NER關于詞對關系網格的定義,詞對關系網格表示向量為三維矩陣V∈Rn×n×dh ,Vij=(xi,xj)∈Rdh 是關于網格行中詞xi隱藏表示hi與網格列中詞xj 隱藏表示hj 的詞對向量。通過條件層歸一化公式(7)至公式(10)計算詞對關系表示Vij:
其中:hi作為條件用于條件層歸一化中用于生成增益γij和偏置βij,μ 和σ 分別是hi的平均值和標準差,hjk 表示hj的第k 維,☉表示逐位相乘操作,W 與b 為可訓練參數矩陣。
(2)BERT嵌入樣式網格表示構建
為使模型更全面地捕獲序列中的語義信息以及理解任務需求,本模塊采用類似BERT模型的3種嵌入向量豐富詞對關系網格表示:表示詞對關系信息的WordEmbedding、表示每對詞之間的相對位置信息的DistanceEmbedding及表示用于區分網格中下三角區域和上三角區域的區域劃分信息的RegionEmbedding。將3種嵌入向量進行向量拼接,并使用多層感知機進行特征降維,得到最終帶有相對位置信息與區域信息的詞對關系網格表示向量C,具體如公式(11)所示:
C=MLP([V;Ed ;Et]) (11)
其中:C∈Rn×n×dC ,dC =dh +dd +dt為復合嵌入表示向量的隱藏維度。
(3)多粒度膨脹卷積
本模塊采用多個不同膨脹率(dilated)的二維卷積核在詞對關系網格表示向量中進行卷積操作,用于捕獲不同距離詞對之間的交互表示,具體如公式(12)所示:
Ql=σ(DConvi(C)) (12)
其中:Convi代表膨脹率為l 的膨脹卷積操作,Ql∈Rn×n×dC 表示膨脹率為l 的膨脹卷積輸出,σ 是GELU激活函數。經過多粒度膨脹卷積模塊可以得到最終的詞對關系網格表示Q =[Q1;Q2;Q3]∈Rn×n×3dl,為卷積輸出向量的隱藏維度。
2.2.3 聯合預測層
文獻[10]的研究表明,MLP(MultilayerPerceptron)預測器與雙仿射預測器配合使用,可以增強關系分類效果。因此,在小節分別單獨使兩種預測器計算詞對的關系分布,之后將兩個關系分布結果相加作為最終的預測結果。
(1)雙仿射預測器
在得到詞嵌入層輸出的詞表示向量H 后,將兩個E 看作實體關系分類中的頭部信息xi與尾部信息xj,分別使用兩個多層感知機計算得到頭部隱藏向量,分別表示si 與ej;之后使用一個Biaffine公式計算詞對(xi,xj)的實體關系分類預測結果y'ij,具體如公式(13)至公式(15)所示:
si=MLP(hi) (13)
ej=MLP(hj) (14)
y'ij=siTUej+W[si;ej]+b (15)
其中:siT為si的轉置,U、W 和b都是模型中的訓練參數,[;]為拼接操作。
(2)多層感知機
對網格表示Q 直接使用多層感知機計算詞對(xi,xj)的實體關系分類預測結果y″ij,具體如公式(16)所示:
y″ij=MLP(Qij) (16)
其中,Qij表示詞對(xi,xj)特征向量。
將雙仿射預測器得到的y'ij和多層感知機預測器得到的y″ij相加,得到最終實體關系分類預測結果yij,具體如公式(17)所示:
yij=Softmax(y'ij+y″ij) (17)
3 實驗(Experiment)
3.1 數據集
為評估本文提出的EW2NER模型在識別扁平敏感個人信息實體方面的性能,本小節使用公開數據集Resume[11]進行測試。Resume數據集是從中國股市上市公司的高級管理人員簡歷中收集得到的,共包含了1027份簡歷樣本。其中,實體內容均屬于模式復雜的敏感個人信息實體類型,與本文的研究目標高度契合。Resume數據集的標注實體共有人名、國籍、地名、民族、專業、教育背景、組織名和職稱8種類別。在實體數量的分布上,訓練集包含了13438個實體,驗證集則包含了1497個實體,而測試集則包含了1630個實體。
同時,為了評估本文提出的EW2NER模型對重疊型實體的識別效果,本小節使用CMeEE-v2(ChineseMedicalEntityExtractionEvaluationDatasetversion2)[12]數據集,該數據集由臨床病例、入院記錄、檢驗報告等醫學非結構化文本構成,命名實體共劃分為九大類,包括疾病、臨床表現、藥物、醫療設備、醫療程序、身體、醫學檢驗項目、微生物類及科室。其中,任一類實體中都有可能嵌套其他類型的實體。其中,疾病、臨床表現、藥物等實體類型隸屬于“健康狀況”敏感個人信息實體類型。CMeEE-v2數據集的語句量分布如下:訓練集包含了14965條語句,驗證集包含了2493條語句,測試集包含了2493條語句。
3.2 實驗評價指標
實驗的評價指標包括查準率(P)、召回率(R)和F1值(F1)3個。這些指標用于衡量分類模型的性能。具體定義如下:真正例(TP)是指將正例預測為正例,假反例(FN)是指將正例預測為反例,假正例(FP)是指將反例預測為正例,真反例(TN)是指將反例預測為反例。查準率、召回率及F1值的計算公式如公式(18)至公式(20)所示:
P=TP/(TP+FP) (18)
R=TP/(TP+FN) (19)
F1=(2×P×R)/(P+R) (20)
3.3 實驗參數設置
實驗使用到的ELECTRA模型和BERT模型均為哈工大訊飛聯合實驗室(HFL)提供的中文預訓練模型,分別為chinese-electra-180g-base-discriminator與chinese_wwm_L-12_H-768_A-12預訓練模型,兩種模型的網絡結構均為12層、隱藏維度均為768。
3.4 實驗結果與分析
3.4.1 扁平型實體識別性能對比實驗
為了評估EW2NER模型對扁平型敏感個人信息實體的識別性能,本文選擇BERT-Biaffine、BERT-BiLSTM-Attention、ELECTRA-BiLSTM-CRF、FLAT 以及W2NER 對照模型與EW2NER模型在Resume數據集上進行對比實驗。Resume數據集中各模型實驗結果對比如表2所示。
從表2中的實驗結果可知,EW2NER模型相較于其他對照模型,在查準率、召回率和F1值上均為最好且F1值達到了97.05%,說明EW2NER模型能夠有效捕獲并理解非結構化文本中的敏感個人信息相關語義特征,并且經過ELECTRA模型得到的詞嵌入表示內含更豐富的語義特征,有效提高了模型對復雜實體類型的識別性能。同時,可以看出命名實體關系抽取識別模型(W2NER和EW2NER)的各項性能指標均優于序列標注識別模型(表2中的前4種模型)的相關指示,說明與序列標注式模型相比,實體關系抽取式命名實體識別模型更適用于本文研究的敏感個人實體識別任務。
3.4.2 重疊型實體識別性能對比實驗
為評估EW2NER模型對于重疊型實體的識別性能,與目前主流的3種可識別重疊型實體的模型進行對比實驗。CMeEE-v2數據集中各模型實驗結果對比如表3所示。
分析表3中的實驗結果可知,在CMeEE-v2數據集中,本文提出的EW2NER模型的召回率略低于W2NER模型的召回率,但查準率與F1值均高于其他對照模型的對應指標,說明文本提出的EW2NER模型能有效地識別出非結構化文本中的重疊型敏感個人信息實體。
3.4.3 單一方法與混合方法性能對比實驗
本實驗的主要目的是評估CCSPIER混合識別方法(結合正則匹配和EW2NER的識別方法)相較于單獨使用EW2NER的識別方法,在敏感實體識別任務上是否具有優勢。本文基于Resume數據集,根據表1中整理的正則表達式,為每一種模式可預測的敏感個人信息實體各生成400個符合規則與不符合規則的偽數據,共計4800個新實體數據,在不破壞原數據集語義的情況下分散插入語句中。對于單獨使用EW2NER的識別方法,所有實體都統一標記為敏感實體(包括基于規則匹配的敏感個人信息實體)用于模型訓練學習。表4為單一方法與混合識別方法實驗結果對比。
根據表4中的實驗結果可以看出,CCSPIER混合識別方法的各項性能評估指標均高于單獨使用EW2NER的識別方法的相關指標。相較于單獨使用EW2NER的識別方法,本文提出的CCSPIER混合識別方法能更有效地識別非結構化文本中的敏感信息實體。
4 結論(Conclusion)
本文深入探索了敏感個人信息實體的識別問題,根據數據模式特征將其精細劃分為可預測模式與復雜模式兩大類,并提出了一種基于內容和上下文的敏感實體混合識別方法(CCSPIER)。CCSPIER結合基于內容的正則匹配方法,實現對具有可預測模式的敏感實體類型的檢測;利用基于上下文特征的EW2NER實體關系分類模型檢測實體結構復雜的敏感實體類型。為了驗證EW2NER模型的有效性,分別進行了扁平型與重疊型敏感實體的識別比較實驗,結果顯示該模型能有效統一識別各種結構的敏感實體。此外,對敏感實體數據集的實驗表明,CCSPIER混合識別方法相較于單獨使用EW2NER的識別方法更有效,達到了97.09%的F1值。綜上所述,本文提出的CCSPIER混合識別方法可以從非結構化數據中有效提取敏感信息實體。
參考文獻(References)
[1]IBM.2023年數據泄露成本報告[EB/OL].(2023-12-29)[2024-04-09].https:∥www.ibm.com/cn-zh/reports/databreach.
[2]OHMP.Sensitiveinformation[J].Southerncalifornialawreview,2015,88(5):1125-1196.
[3]SHAPIRAY,SHAPIRAB,SHABTAIA.Content-baseddataleakagedetectionusingextendedfingerprinting[DB/OL].(2013-02-08)[2024-04-14].https:∥arxiv.org/abs/1302.2028.
[4]SHUXK,ZHANGJ,YAODD,etal.Fastdetectionoftransformeddataleaks[J].IEEEtransactionsoninformationforensicsandsecurity,2016,11(3):528-542.
[5]李姝,張祥祥,于碧輝,等.互聯網新聞敏感信息識別方法的研究[J].小型微型計算機系統,2021,42(4):685-689.
[6]GUOYY,LIUJY,TANG W W,etal.Exsense:extractsensitiveinformationfromunstructureddata[J].Computersamp;security,2021,102:102156.
[7]鄭旭如.基于深度學習的數據脫敏研究[D].哈爾濱:哈爾濱工業大學,2020.
[8]許成.面向網絡敏感信息的主題檢測和情感分析研究與實現[D].上海:東華大學,2021.
[9]HUZT,HOU W,LIU X X.Deeplearningfornamedentityrecognition:asurvey[J].Neuralcomputingandapplications,2024,36(16):8995-9022.
[10]LIJY,FEIH,LIUJ,etal.Unifiednamedentityrecognitionasword-wordrelationclassification[J/OL].(2021-12-19)[2024-04-14].https:∥arxiv.org/abs/2112.10070.
[11]ZHANGY,YANGJ.ChineseNERusinglatticeLSTM[J/OL].(2018-05-05)[2024-04-14].https:∥arxiv.org/abs/1805.02023.
[12]ZANHY,LIWX,ZHANGKL,etal.Buildingapediatricmedicalcorpus:wordsegmentationandnamedentityannotation[M]∥ Lecture Notesin Computer Science.Cham:SpringerInternationalPublishing,2021:652-664.
作者簡介:
郭 群(1998-),男(漢族),臨沂,碩士生。研究領域:智能信息處理。
張華熊(1971-),男(漢族),金華,教授,博士。研究領域:智能信息處理。
王 波(1982-),男(漢族),鐘祥,高級工程師,學士。研究領域:大數據和行業人工智能,軟件工程。
王心怡(1990-),女(漢族),威海,學士。研究領域:大數據,信息研究。
基金項目:浙江省科技廳“尖兵”“領雁”研發攻關計劃項目(2024C01019,2022C01220)