陳楠 田立勤 毋澤南 張藝 武文星



摘 要:隨著網絡信息安全技術的不斷發展,行為認證已成為身份驗證研究的重要內容之一。針對傳統用戶行為認證方法中由于行為信息量過多而導致的認證時間過長問題,提出了一種基于三支決策的用戶訪問行為認證方法。該方法首先通過三支決策對獲取的部分行為特征進行預先認證,將待檢測用戶認定為合法用戶、延遲決策用戶和非法用戶三個類別,再通過二支決策方法對繼續獲取行為特征的延遲決策用戶進行進一步認證,在提高認證實時性的同時,克服了認證過程中由于特征不足而導致的不確定性問題,從而保證行為認證結果的準確性。實驗結果表明,該方法能夠取得較好的認證效果并有效降低認證時間。
關鍵詞:訪問行為;行為特征;三支決策;用戶行為認證;訪問信息安全
中圖分類號:TP309 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2021.02.001
本文著錄格式:陳楠,田立勤,毋澤南,等.基于三支決策的用戶訪問行為認證方法研究[J].軟件,2021,42(02):001-005+027
Research on User Access Behavior Authentication Method Based on Three Decisions
CHEN Nan1, TIAN Liqin1,2, WU Zenan2, ZHANG Yi1, WU Wenxing1
(1.School of Computer, North China Institute of Science and Technology, Beijing? 065201;
2.School of Computer, Qinghai Normal University, Xining? Qinghai? 810000)
【Abstract】:With the continuous development of network information security technology, behavior authentication has become one of the important contents of identity verification research. Aiming at the problem of too long authentication time due to the excessive amount of behavior information in traditional user behavior authentication methods, a user access behavior authentication method based on three decisions is proposed. This method first pre-authenticates some of the acquired behavior characteristics through three decision-making methods, and recognizes the users to be detected as legitimate users, delayed decision-making users, and illegal users, and then uses two decision-making methods to determine the delayed decision to continue acquiring behavior characteristics. The user performs further authentication, which not only improves the real-time of authentication, but also overcomes the uncertainty problem caused by insufficient features in the authentication process, thereby ensuring the accuracy of the behavior authentication result. Experimental results show that this method can achieve better certification results and effectively reduce certification time.
【Key words】:access behavior;behavior characteristics;three decision-making;user behavior authentication; access information security
0引言
隨著互聯網信息技術的快速發展,電子商務、互聯網金融和工業信息化等各個領域都獲得了前所未有的創新力和推動力。人們在享受互聯網技術帶來便利的同時,網絡應用和服務信息訪問的安全問題也變得日益嚴峻[1-3]。
身份認證是保障網絡信息安全服務的基礎,現行主流的身份認證手段包括基于密鑰的身份認證和基于生物學特征的身份認證,但傳統的靜態身份認證方法無法保障企業或個人因信息泄露而導致的敏感數據丟失和惡意利用的問題[4]。在用戶進行身份信息驗證后,增加對用戶行為的認證,使得認證更加完善[5-6]。文獻[7]提出一種結合專題分析和有向圖分析的自由文本按鍵行為特征分析方法,以解決自由文本按鍵時的動態性問題,并構建神經網絡模型對惡意用戶行為進行認證。文獻[8]提出一種基于用戶鼠標行為的身份認證方法,采用層次劃分法對用戶的鼠標行為特征進行劃分,并利用隨機森林分類決策模型對用戶的鼠標行為進行認證,解決用戶行為數據中存在的過擬合和噪聲問題。文獻[9]構建了一種基于封閉集的樸素貝葉斯分類模型,對Web導航連接日志數據集中的用戶行為進行認證,對訪問用戶的合法身份進行有效驗證。
目前基于行為認證的研究主要是通過二支決策思想對用戶行為信息進行認證,二支決策通常需要獲取用戶的完整行為信息,若要在較短的時間內對用戶行為進行認證,則需減少用戶行為數據的收集,但較少的行為信息不能夠全面的描述用戶行為習慣,并且會導致最終認證結果的準確率降低。對此,本文提出一種基于三支決策的用戶訪問行為認證方法,利用三支決策對先獲取的用戶行為狀態認證集進行預先認證,并結合二支決策對后續獲取的完整行為認證集信息進行最終認證,保障了行為認證的實時性和準確性。
1相關工作
1.1 用戶行為認證
在對用戶行為進行認證時,將用戶與服務提供者在交互過程中所獲取的實時行為證據提交給相應的行為認證服務器,服務器根據提交的行為證據與存儲在數據庫中的歷史行為證據信息進行認證,根據認證結果確定用戶訪問行為的合法性。服務提供者在用戶請求服務時首先獲取訪問用戶的部分行為證據信息,如訪問時間、用戶終端IP地址和操作系統等信息。然后將行為信息提交到行為認證服務器與歷史行為證據信息進行預先認證,服務提供者為通過預先認證的用戶提供訪問服務,并繼續獲取實時行為證據對用戶行為進行進一步認證。
1.2 三支決策
三支決策(Three-Way Decision,3WD)思想源自于解決分類問題的決策粗糙集(DTRS)理論,是由Yao[10]等提出用于處理不完整、不精確信息的決策分析理論。在人們實際決策當中,對信息了解不夠全面和證據掌握不足的事物,往往需要做進一步決策,通過延遲決策可以避免分類信息不足時盲目決策所造成的風險。三支決策的基本思想是將論域集劃分為三個兩兩互不相交的區域,即正域POS(X)、邊界域BND(X)和負域NEG(X),并對不同的區域采取不同的決策處理[11]。
根據概率粗糙集[12-13]理論,假定論域為U,令Pr(X|x)表示任何一個對象在屬于x的條件下屬于狀態X的評估函數,x所對應的狀態集合可以表示為,X和分別表示為屬于X和不屬于X。給定一對閾值,其中,假設集合中值為接受狀態和拒絕狀態分別由和所確定,那么概率正、負和邊界域可定義為:
(1)
根據以上論域集合的劃分[14],若對象在屬于x的條件下關于狀態集合X的條件概率大于閾值α,此時的對象被劃分到正域POS(X),即采取接受策略;若對象在屬于x的條件下關于狀態集合X的條件概率小于閾值β,此時的對象被劃分到負域NEG(X),即采取拒絕策略;若對象在屬于x的條件下關于狀態集合X的條件概率介于α和β之間,此時的對象被劃分到邊界域BND(X),即采取延遲決策,所對應的三支決策模型如圖1所示。
1.3邏輯回歸
由邏輯回歸[15](Logistic Regression,LR)主要是用于描述給定的一組訓練樣本對象x與具有二分類性質的分類標簽之間的一種最佳映射關系的統計方法。定義數據集,,,,輸入向量特征為,分類標簽為y,這里X和用0和1表示,通過sigmod函數將任意輸入映射到[0,1]區間范圍內,sigmod函數形式如下:
(2)
式中z表示為特征向量的線性回歸模型:
(3)
其中θ為各學習特征的回歸系數,再將線性回歸得到值映射到sigmod函數中,實現特征向量與該樣本分類結果的條件概率相關聯,公式如下:
(4)
2基于三支決策的用戶行為認證
2.1 二支決策行為認證
二支決策定義:在給定信息量的情況下,對當前對象的行為狀態進行決策判斷,并根據決策結果采取接受或拒絕兩種決策行動。
用戶分類算法是認證決策模塊的核心,現有的用戶行為認證方法都是二支分類行為認證,該方法對認證源信息進行計算,將一次計算的結果作為劃分用戶訪問行為合法性的依據。假定給定一組用戶行為特征進行行為認證,通常采用分類器計算當前用戶的分類條件概率,行為認證的條件概率表示公式如下:
(5)
基于二支決策的行為認證系統通過二支決策分類器對獲取的用戶訪問行為特征進行認證,對認證為合法的用戶采取接受策略,對認證為非法的用戶采取拒絕策略,具體的認證決策模型如圖2所示。
二支決策行為認證系統包括五個模塊:數據采集模塊、數據預處理模塊、特征提取模塊、分類與認證模塊。該系統主要包含兩個階段,行為認證分類器的構建階段和行為認證階段。在行為認證分類器的構建階段,對采集到的訓練數據進行預處理,獲得能夠描述用戶訪問行為的數據,并對行為數據進行特征提取,得到訪問行為特征x1,x2,…,xn,再將提取的行為特征用于訓練用戶行為二支決策分類器。在行為認證階段,數據采集模塊自動采集用戶的實時訪問行為數據,進過數據預處理,特征提取模塊將獲得的行為數據進行處理計算得到用戶的訪問行為特征x1,x2,…,xn,最后將待檢測的行為特征送入已經訓練好的用戶行為二支決策分類器中來認證當前用戶是否為合法用戶。若當前用戶行為認證為非法,則系統會采取拒絕策略;若用戶行為認證為合法,則系統采取接受策略。該方法通過一次認證確定用戶行為的合法性,但收集完整的用戶行為信息需要較多的收集時間,導致系統面臨的安全風險增加。
2.2 三支決策行為認證分類方法
三支決策定義:是二支決策的推廣,在給定不確定或不完整信息條件下,對當前對象的行為狀態進行決策判斷,并根據決策結果采取三種決策選擇,即接受、拒絕和延遲決策。
在對用戶行為做三支決策分類研究時,先對獲取的部分行為特征進行決策分類,如系統在用戶登錄時獲得的訪問行為:操作系統、訪問時間、IP、瀏覽器、域名、來訪URL,點擊URL,密碼錯誤數等。由于信息的不充分性和不確定性,三支決策的關鍵是利用有限的信息對用戶進行劃分。本文用U表示某個用戶,對具有x={x1,x2,…,xn}行為特征描述的對象而言,狀態集記為,包含表示用戶合法性的兩個互補關系的狀態X和。行動決策集記為A={αP,αB,αN},其中αP,αB,αN表示將當前用戶對象x劃分到POS(X),BND(X)和NEG(X)的三種行動決策方式,依次表示為x∈POS(X),表示當前用戶行為認證為合法采取接受決策;x∈BND(X),表示當前用戶對象需要進一步調查,采取延遲決策;x∈NEG(X),表示當前用戶行為認證為非法采取拒絕決策。在不同用戶狀態下采取不同策略所對應的損失函數矩陣如表1所示。
其中λPP,λBP和λNP表示當前用戶對象x∈X時,分別采取行動策略αP,αB,αN所對應的損失函數值;λPN,λBN和λNN表示當前對象x∈X時,分別采取行動策略所對應的損失函數值。根據貝葉斯最小風險決策規則[16]計算可以得到最佳閾值α和β的值為
(6)
(7)
并且
(8)
通過訓練集對分類器進行訓練獲得參數 的值,從而求得用戶行為認證為合法的條件概率為
(9)
因而,利用上式可以求得用戶U的訪問行為被認證為合法的條件概率。某一時刻j所獲取的行為特征,其中,在此條件下用戶的訪問行為被認證為合法的條件概率P(X|xj),結合最小風險決策提出以下3條規則對用戶行為進行三支決策分類:
(P)如果P(X|xj)≥α,則選擇xj∈POS(X),當前用戶U的訪問行為合法;
(B)如果β≤P(X|xj)≤α,則選擇xj∈BND(X),當前用戶U的訪問行為需要延遲決策;
(N)如果P(X|xj)≤β,則選擇xj∈NEG(X),當前用戶U的訪問行為非法。
2.3 三支行為認證模型
為了提高用戶行為認證系統在較少的期望認證時間內對不確定性信息的處理能力,從三支決策的角度對已有的二支決策模型進行擴展,構建三支行為認證模型,如圖3所示。該模型主要由數據采集、數據預處理、行為特征提取、分類與認證等五個模塊組成。
(1)數據采集模塊利用埋點和日志記錄等方式采集用戶U的訪問行為數據,獲得用戶訪問系統時的所有訪問、瀏覽、點擊等行為數據。
(2)數據預處理模塊對原始行為數據中的異常值進行處理,并刪除原始行為數據中的一些不相關數據、重復數據等。該模塊從原始采集數據中挖掘出適應用戶行為認證模型的用戶行為數據,如:訪問時間、IP、域名、客戶標識、訪問標識、產品類型等。
(3)對預處理過的用戶行為數據進行特征提取,特征提取模塊將用戶行為數據組合成用戶U的訪問行為特征x1,x2,…,xn,并計算行為特征的特征值。行為特征包括:操作系統、點擊類型、訪問速度、停留時間等。
(4)將提取的用戶行為特征對三支行為認證模型進行建模獲得分類器,然后通過計算模型的損失函數得到三支決策分類的閾值α和β。
(5)用戶行為認證模塊在對用戶U的實時行為進行決策時,將系統先獲得的部分行為特征x1,x2,…,xk輸入到決策分類器中得到決策概率P(X|x),利用決策概率對當前用戶行為進行三支決策分類,判定當前訪問用戶U的合法性,若當前訪問行為合法,則系統采取接受策略;若當前訪問行為非法,則系統采取拒絕策略;若當前訪問行為需要延遲決策,則系統繼續收集用戶U的行為特征xk+1,xk+2,…,xn,并使用二支決策分類器對用戶U的n個行為特征進行決策分類,獲得最終的行為認證結果。
3實驗
3.1 實驗配置
硬件環境:CPU型號為Intel core i7-8750H@2.2GHz,內存為DDR4(16G),硬盤為WXF1A28J5D(1000G);軟件環境:操作系統為Windows10 64位,開發環境Python 3.7,集成開發環境為PyCharm 2019。
3.2 評價指標
指標1:ROC曲線是反應敏感性和特異性連續變量的綜合指標,曲線描述了假正率和真正率之間的變化關系。AUC(area under curve)為ROC曲線下的面積,AUC越大說明模型分類效果越好。
指標2:準確率(Accuracy)表示用戶行為認證過程中,用戶行為樣本分類正確的次數占總分類次數的比值。計算公式如下:
(10)
一般情況下,認證結果的準確率越高,說明模型對用戶行為誤判的可能性越低。
指標3:期望認證時間指行為特征向量認證的期望時間,三支行為認證模型的期望時間TmethodTWD計算公式如下:
(11)
其中BND_RATE表示需要進行延遲決策的訪問行為樣本占總測試集樣本數量的比率。
3.3 實驗結果與分析
根據以上所提出的三支決策行為認證分類方法,下面通過一個實例來驗證三支行為認證模型的有效性。現有用戶U與某電商平臺服務器的5505組交互數據,已對合法和非法用戶行為進行標記,由于用戶行為具有時序性,將用戶行為樣本集的前70%作為訓練集,其余30%作為實時用戶行為用于檢驗模型的分類效果。先對數據進預處理,去除異常值、重復和不相關的數據,并提取用戶行為特征,用獲得的行為特征向量訓練集學習分類模型,并將測試集數據作為用戶的實時訪問行為對模型進行檢驗。
實驗過程中本文將行為測試集輸入到已經訓練好的分類模型中,其中分類算法邏輯回歸的正則化參數C=0.8,通過多次實驗并根據最小風險決策規則求得三支決策的閾值α=0.95,β=0.38。實驗最終獲得的ROC曲線如圖4所示。ROC曲線的左上角代表真正率為100%,假正率為0,ROC曲線越靠近左上角,則三支行為認證模型的性能越好。從圖4可以發現三支行為認證模型整體的AUC為0.88,說明該模型能對用戶行為的正負樣本起到很好的分類效果。
下面采用不同的二支分類模型對樣本數據集進行學習,并檢驗本文所提出的基于三支決策的用戶訪問行為認證方法對認證結果的影響,實驗結果如表2所示。
通過以上實驗結果可以看出,三支行為認證模型較其他分類模型仍具有較高的準確率,期望認證時間為4.37s,較邏輯回歸二支分類模型的期望認證時間縮短了3.04s。因此,三支行為認證模型能在較少的期望認證時間內對用戶行為進行認證,并保證較高的認證準確率,實現對用戶訪問行為的有效檢測。
4結語
本文以電商訪問行為數據集作為研究和分析對象,根據三支決策理論對原有的二支決策模型進行改進,提出了一種基于三支決策的用戶訪問行為認證方法,降低用戶行為認證時間,并提高用戶行為認證模型的容錯性和處理不確定信息的能力,具體內容如下:
(1)將三支決策理論引入用戶行為認證模型中,以解決行為認證過程中行為特征收集時間過長而導致的安全風險問題,首先通過三支決策實現訪問用戶的預先認證,再結合二支決策分類對延遲決策用戶進行最終認證,從而提高系統認證的實時性,以降低信息訪問的安全風險。
(2)通過延遲決策克服行為認證過程中部分用戶認證的不確定性問題,以防止因行為特征的不完整性和不精確性而導致的決策錯誤,使得認證模型更加適合用戶實際訪問環境下的行為決策應用,保障了行為認證結果的準確性。
(3)針對用戶訪問行為認證概率劃分,根據決策粗糙集理論,對代價損失函數矩陣進行計算,獲得三支劃分的閾值α和β,接下來可以結合新的邊界理論進行進一步研究,形成自動化的邊界閾值確定方法。
參考文獻
[1] Goel N K,Jha C.Analyzing users behavior from Web access logs using automated log analyzer tool[J].International Journal of Com- puter Applications, 2013,62(2):29-33.
[2] 張晶.大數據平臺下數據庫訪問信息安全管理仿真[J].計算機仿真,2017,34(7):436-440.
[3] 徐澄.面向企業信息安全的網絡攻擊防范手段研究[J].中國電子科學研究院學報,2020,15(5):483-487.
[4] Kent A D,Liebrock L M,Neil J C.Authentication graphs:Analyzing user behavior within an enterprise network[J].Computers & Security,2015,48(feb.):150-166.
[5] 朱莉蓉,陳寧江,何佩聰,等.基于動態信任管理的云用戶行為認證服務系統[J].廣西大學學報(自然科學版),2015,40(6):1485-1493.
[6] Chao Shen,Yufei Chen,Xiaohong Guan,Roy A Maxion.Pattern-Growth Based Mining Mouse-Interaction Behavior for an Active User Authentication System[J].IEEE Transactions on Dependable and Secure Computing,
2020,17(2).
[7] Ahmed,Traorelssa A A Biometric recognition based on freetext keystroke dynamics[J].IEEE Transactions on Cybemetics,2014,44(4)458-472.
[8] 徐劍,李明潔,周福才,等.基于用戶鼠標行為的身份認證方法[J].計算機科學,2016,43(2):148-154.
[9] Dia,Diye,Kahn G,Labernia F,et al.A closed sets based learning classifier for implicit authentication in web browsing[J].Discrete Applied Mathematics,2020(273):65-80.
[10] Yao Y.The superiority of three-way decisions in probabilistic rough set models[J].Information Sciences,
2011,181(6):1080-1096.
[11] LIANG D,XU Z,LIU D.Three-way decisions based on decision-theoretic rough sets with dual hesitant fuzzy information[J].Information Sciences,2017(396):127-143.
[12] 于洪,王國胤,姚一豫.決策粗糙集理論研究現狀與展望[J].計算機學報,2015,38(8):1628-1639.
[13] LANG G,MIAO D,CAI M.Three-way decision approaches to conflict analysis using decision-theoretic roughset theory[J].Information Sciences,2017,406:185-207.
[14] Luo S.Three-Way Decision in a Multi-Source Information System and Its Applications[J].IEEE Access, 2019(7):108343-108359.
[15] Mao Yi,Chen Wen-lin,Guo Bao-long,et al.A novel logistic regression model based on density estimation[J].Acta Automatica Sinlca,2014,40(1):62-72.
[16] YAO Y Y.Three-way decisions with probabilistic rough sets[J].Information Sciences,2010,180(3):341-353.