999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息熵的異常數(shù)據(jù)判別方法

2023-10-18 12:44:06楊亞琦李博雄楊東霞
科學(xué)技術(shù)創(chuàng)新 2023年24期
關(guān)鍵詞:模型

楊亞琦,李博雄,楊東霞,劉 燕

(1.云南省市場(chǎng)監(jiān)督管理局信息中心,云南 昆明;2.昆明學(xué)院信息工程學(xué)院,云南 昆明;3.云南省高校數(shù)據(jù)治理與智能決策重點(diǎn)實(shí)驗(yàn)室,云南 昆明;4.云南省信息技術(shù)發(fā)展中心,云南 昆明)

引言

近年來(lái),我國(guó)已將“數(shù)字經(jīng)濟(jì)”列入國(guó)家發(fā)展戰(zhàn)略,黨的十九屆四中全會(huì)首次將“數(shù)據(jù)”列為生產(chǎn)要素,充分凸顯了數(shù)據(jù)在經(jīng)濟(jì)活動(dòng)和社會(huì)活動(dòng)中的巨大價(jià)值。數(shù)字經(jīng)濟(jì)時(shí)代,在海量數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘尤為重要。異常數(shù)據(jù)檢測(cè)判別能提升數(shù)據(jù)的質(zhì)量,有助于挖掘出數(shù)據(jù)的潛在價(jià)值,成為數(shù)據(jù)治理領(lǐng)域一項(xiàng)重要工作。在眾多數(shù)據(jù)判別模型[4]中,邏輯回歸模型以泛化能力強(qiáng)、算法簡(jiǎn)單高效而得到了廣泛應(yīng)用。

祝政等[1]以邏輯回歸模型對(duì)奶牛行為進(jìn)行研究,其奶牛行為姿態(tài)判別的準(zhǔn)確率較高。張黎等[2]以二元邏輯回歸模型對(duì)我國(guó)農(nóng)業(yè)上市公司財(cái)務(wù)危機(jī)進(jìn)行研究,對(duì)公司財(cái)務(wù)危機(jī)的總體預(yù)測(cè)正確率近九成。劉成圓[3]以邏輯回歸模型對(duì)專利質(zhì)量評(píng)估體系構(gòu)建進(jìn)行建模,其全領(lǐng)域和化學(xué)領(lǐng)域獲獎(jiǎng)?lì)A(yù)測(cè)準(zhǔn)確率較低。在傳統(tǒng)邏輯回歸模型中,因?yàn)榻Y(jié)構(gòu)簡(jiǎn)單,很難擬合復(fù)雜數(shù)據(jù)的真實(shí)分布。且很難處理數(shù)據(jù)不平衡的問(wèn)題,如果正負(fù)樣本的比例差距較大,模型區(qū)分能力不會(huì)很好。在韋婷婷[4]等對(duì)中文專利關(guān)鍵詞抽取研究中,利用LSTM神經(jīng)網(wǎng)絡(luò)(LSTM神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體)改進(jìn)邏輯回歸模型,準(zhǔn)確率有所提升,但模型泛化能力較弱,不適用于其他類型的判別。因此,一種泛化能力強(qiáng)且準(zhǔn)確率高的異常數(shù)據(jù)判別模型有很大的研究?jī)r(jià)值。

1948 年,香農(nóng)提出了“信息熵”的概念。但熵這一概念并不是香農(nóng)首先提出的,最早提出熵這一概念的是物理學(xué)家克勞修斯,他提出一種熱力學(xué)系統(tǒng)的狀態(tài)函數(shù),將其稱之為熱熵,也稱作熵。香農(nóng)在研究所得的式子在數(shù)學(xué)層面上與熱熵完全相同,所以香農(nóng)也將其稱之為熵,一般稱為信息熵或香農(nóng)熵。一條信息所含有的信息量的多少和它的不確定性有緊密聯(lián)系,可以理解為,信息量的度量等于不確定性的多少也等于信息熵。變量的不確定性越大,熵也就越大。對(duì)于任意一個(gè)隨機(jī)變量x,x 事件發(fā)生概率為P(x),它的熵H(X)定義如公式(1)所示。

信息熵實(shí)踐應(yīng)用于多個(gè)學(xué)科領(lǐng)域,其應(yīng)用范圍非常廣泛。起初,科學(xué)家試圖用信息熵概念來(lái)解決心理學(xué)、生理學(xué)等學(xué)科許多未能解決的問(wèn)題。自信息熵提出后二十年,信息論推廣到生物學(xué)和神經(jīng)生物學(xué)。隨著計(jì)算機(jī)逐漸發(fā)展,通訊能力極大提高,信息熵的概念得到了學(xué)者的極大重視。施魯?shù)佟に_斯瓦特(Sarswat Shruti)[9]香農(nóng)熵對(duì)e-C60 散射的共振狀態(tài)進(jìn)行了標(biāo)桿化。計(jì)算了e-C60 散射的共振波函數(shù)、總截面、部分截面和散射相移, 以考察共振引起的局域特性。

在“數(shù)據(jù)治理”中,也可利用信息熵[10]的思想,一條信息的信息量與它的不確定性有直接關(guān)系,如果要搞清楚該數(shù)據(jù),需要了解的信息越多,其信息熵就越大。所以,利用信息熵思想來(lái)判別數(shù)據(jù)是否是異常數(shù)據(jù)是一項(xiàng)很重要的工作。

針對(duì)以上研究現(xiàn)狀,本文設(shè)計(jì)了一種泛化能力強(qiáng),適用于大部分領(lǐng)域的判別模型,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該判別方法的有效性。

1 傳統(tǒng)邏輯回歸判別模型

本文提出的異常數(shù)據(jù)判別算法,主要使用邏輯算法模型將數(shù)據(jù)轉(zhuǎn)化為概率值在[0,1]的概率問(wèn)題后選擇切割閾值對(duì)概率值進(jìn)行切割,切割值大于概率值則判別為正常數(shù)據(jù),切割值小于概率值則判別為異常數(shù)據(jù),從而判別數(shù)據(jù)是否正常。尋找判別準(zhǔn)確率最高的切割值作為最優(yōu)切割值并用于對(duì)測(cè)試集進(jìn)行測(cè)試,測(cè)試所得的準(zhǔn)確率即為該異常數(shù)據(jù)判別方法[13]的準(zhǔn)確率。

基于邏輯回歸的異常數(shù)據(jù)判別算法,其特征在于把需要判別的數(shù)據(jù)對(duì)象定義為N,N=(N1,N2,…,Nm),把與數(shù)據(jù)集N 同類型且已知是非為異常的數(shù)據(jù)對(duì)象定義為X,X=(X1,X2,…,Xn)。n、m 為數(shù)據(jù)集包含的元素個(gè)數(shù),Xi為數(shù)據(jù)集X 中的第i 個(gè)元素,Yj為數(shù)據(jù)集Y中第j 個(gè)元素。

假設(shè)對(duì)于數(shù)據(jù)Xi,因變量Ai的輸出值為1,即數(shù)據(jù)Xi為異常數(shù)據(jù);同理數(shù)據(jù)Xi的因變量的輸出值為0,即數(shù)據(jù)Xi為正常數(shù)據(jù);解釋變量為Xi,Ai與Xi之間的關(guān)系由概率P(Ai=1)來(lái)解釋。因此概率P(Ai=1)定義如公式(2)所示:

其中ai是Xi的線性模型的估計(jì)值,ε是隨機(jī)變量誤差值。

通過(guò)轉(zhuǎn)換公式(2),可以得到公式(3)

使用邏輯回歸轉(zhuǎn)換,可以得到邏輯回歸模型,如公式(4)所示:

因此,因變量Ai可以表示為公式(5):

其中,p 為切割值,在取值范圍[0,1],以步長(zhǎng)為0.001 取1000 個(gè)切割值。將不同切割值p 下因變量Ai與該條數(shù)據(jù)是否正常進(jìn)行對(duì)比,使用邏輯回歸判別為正常數(shù)據(jù)且真實(shí)數(shù)據(jù)也為正常數(shù)據(jù)則判別正確,同理判別為異常數(shù)據(jù)且真實(shí)數(shù)據(jù)也為異常數(shù)據(jù)則判別正確,其余判別結(jié)果與真實(shí)數(shù)據(jù)對(duì)比則為判別錯(cuò)誤。統(tǒng)計(jì)不同切割值p 下判別的準(zhǔn)確率,選擇最優(yōu)切割值時(shí)對(duì)應(yīng)的最優(yōu)判別準(zhǔn)確率作為邏輯回歸模型判別算法的準(zhǔn)確率。

2 基于信息熵改進(jìn)的判別方法

由上述基于邏輯回歸的異常數(shù)據(jù)判別算法[7]可以算出邏輯回歸模型判別算法的準(zhǔn)確率,至此本文提出一種基于信息熵的異常數(shù)據(jù)判別算法改進(jìn)。依然假設(shè)對(duì)于數(shù)據(jù)Xi,因變量Bi的輸出值為1,即數(shù)據(jù)Xi為異常數(shù)據(jù);同理數(shù)據(jù)Xi的因變量的輸出值為0,即數(shù)據(jù)Xi為正常數(shù)據(jù);解釋變量為Xi,Bi與Xi之間的關(guān)系由P(Bi=1)來(lái)解釋。因此概率P(Bi=1)定義如公式(6):

其中ai是Xi的線性模型的估計(jì)值,ε是隨機(jī)變量誤差值。

通過(guò)轉(zhuǎn)換公式(6),可以得到

使用邏輯回歸轉(zhuǎn)換,可以得到邏輯回歸模型,如公式(8)所示:

通過(guò)公式(8)可將數(shù)據(jù)的子特征轉(zhuǎn)化為一個(gè)取值范圍在[0.1]的概率,即可求得P(Bi=1),利用香農(nóng)公式(公式(9)),計(jì)算數(shù)據(jù)Xi通過(guò)邏輯回歸模型所求概率的信息熵。

至此用一個(gè)取值范圍為[0,1]步長(zhǎng)為0.001 的切割值p 來(lái)切割信息熵P(Bi=1)。當(dāng)切割值p 大于信息熵P(Bi=1),則判別為正常數(shù)據(jù),反之則判別為異常數(shù)據(jù)。用公式(10)表示。

將不同切割值p 下因變量Bi與該條數(shù)據(jù)是否正常進(jìn)行對(duì)比,使用基于信息熵的異常數(shù)據(jù)判別算法判別為正常數(shù)據(jù)且真實(shí)數(shù)據(jù)也為正常數(shù)據(jù)則判別正確,同理判別為異常數(shù)據(jù)且真實(shí)數(shù)據(jù)也為異常數(shù)據(jù)則判別正確,其余判別結(jié)果與真實(shí)數(shù)據(jù)對(duì)比則為判別錯(cuò)誤。計(jì)算切割值p 下判別的準(zhǔn)確率,確定判別準(zhǔn)確率作為基于信息熵的異常數(shù)據(jù)判別算法的準(zhǔn)確率。

由此可統(tǒng)計(jì)出基于邏輯回歸的異常數(shù)據(jù)判別算法的準(zhǔn)確率和基于信息熵的異常數(shù)據(jù)判別算法的準(zhǔn)確率。

3 判別算法

對(duì)于已經(jīng)知道數(shù)據(jù)結(jié)果的作為訓(xùn)練集X,與訓(xùn)練集X 同類型但不知道數(shù)據(jù)結(jié)果的數(shù)據(jù)作為測(cè)試集Y。訓(xùn)練集和測(cè)試集中以[0,1]作為因變量,0 代表正常數(shù)據(jù),1 代表異常數(shù)據(jù)。當(dāng)數(shù)據(jù)的信息熵大于切割值時(shí)判別為正常數(shù)據(jù),小于切割值時(shí)判別為異常數(shù)據(jù)。

算法一:基于信息熵的判別算法

輸入:訓(xùn)練集X、測(cè)試集Y

輸出:測(cè)試集Y 的判別結(jié)果

步驟一:選取訓(xùn)練集X 中的子特征計(jì)算邏輯回歸概率。

步驟二:選取最優(yōu)切割值來(lái)切割數(shù)據(jù)集中邏輯回歸概率。

步驟三:利用香農(nóng)公式計(jì)算邏輯回歸概率的信息熵。

步驟四:利用經(jīng)過(guò)香農(nóng)公式計(jì)算信息熵后的最優(yōu)切割值對(duì)測(cè)試集Y 進(jìn)行判別。

步驟五:輸出測(cè)試集Y 的判別結(jié)果。

以訓(xùn)練集X 和測(cè)試集Y 作為輸入,輸出測(cè)試集Y的判別結(jié)果。定義邏輯回歸公式和香農(nóng)定理公式,對(duì)每一個(gè)數(shù)據(jù)計(jì)算其邏輯回歸概率再計(jì)算信息熵。再次對(duì)計(jì)算結(jié)果進(jìn)行讀入,使用切割值進(jìn)行切割,當(dāng)一條數(shù)據(jù)的信息熵大于切割值時(shí)即可判別為正常數(shù)據(jù),小于切割值時(shí)判別為異常數(shù)據(jù)。尋找一個(gè)判別準(zhǔn)確率最高的切割值為最優(yōu)切割值,并將最優(yōu)切割值切割結(jié)果作為測(cè)試集Y 的判別結(jié)果。

假設(shè)訓(xùn)練集X 中的數(shù)據(jù)條數(shù)為n,測(cè)試集Y 中的數(shù)據(jù)條數(shù)為m。每次循環(huán)都需要進(jìn)行全部讀取,因此算法中時(shí)間復(fù)雜度為O(n2),空間復(fù)雜度為O(n×m)。算法實(shí)現(xiàn)了在訓(xùn)練集中尋找最優(yōu)切割值并用最優(yōu)切割值對(duì)測(cè)試集Y 進(jìn)行判別。

4 實(shí)驗(yàn)

本文以CIC-IDS2017 數(shù)據(jù)集中DDoS 攻擊數(shù)據(jù)為例[8]。CIC-IDS2017 數(shù)據(jù)集中的DDos 攻擊數(shù)據(jù)一個(gè)有225745 條數(shù)據(jù)(其中,Lable 為BENIGN 的數(shù)據(jù)為97718 條,標(biāo)記為“0”,Label 為DDos 的數(shù)據(jù)為128027條,標(biāo)記為“1”),選擇一半數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集N尋找最優(yōu)切割值,并選取另一半數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集M并判別算法的準(zhǔn)確率。

針對(duì)測(cè)試數(shù)據(jù)集N,選取Bwd 包長(zhǎng)度標(biāo)準(zhǔn)(Bwd Packet Length Std)、平均包大小(Average Packet Size)、流持續(xù)時(shí)間(Flow Duration)和流量標(biāo)準(zhǔn)(Flow IAT Std)這4 個(gè)特征行為作為解釋變量,以Label 列數(shù)據(jù)作為因變量,對(duì)這5 列數(shù)據(jù)進(jìn)行回歸分析,得出回歸系數(shù):α1=-7.86529E-09,α2=0.000171636,α3=3.11E-08,α4=-2.31371E-05,ε=0.365008007。然后,利用邏輯回歸模型,把以上數(shù)據(jù)帶入公式(2),可以計(jì)算出P(Ai=1)的值,接著,切割值pi在[0,1]之間由小到大取值,取步長(zhǎng)為0.01,帶入公式(5),計(jì)算出每個(gè)切割值p所對(duì)應(yīng)的準(zhǔn)確率。準(zhǔn)確率與切割值的關(guān)系如圖1 所示。

圖1 基于邏輯回歸的異常數(shù)據(jù)判別方法各切割值的準(zhǔn)確率

由圖1 可以看出,當(dāng)取切割值p=0.6 時(shí)得出最優(yōu)準(zhǔn)確率85.62%。

利用香農(nóng)公式求信息熵改進(jìn)后邏輯回歸模型求出測(cè)試數(shù)據(jù)集里每條數(shù)據(jù)的信息熵P(Bi=1),接著,將基于邏輯回歸異常數(shù)據(jù)判別算法的最優(yōu)切割值帶入香農(nóng)公式計(jì)算后所得的信息熵作為切割值p,帶入公式(7),計(jì)算出切割值p 的信息熵為0.447。將切割值的信息熵0.447 作為切割值用于切割每條數(shù)據(jù)的信息熵P(Bi=1),統(tǒng)計(jì)加入信息熵后的判別準(zhǔn)確率為86.68%。

為了驗(yàn)證0.447 作為切割值切割各個(gè)數(shù)據(jù)的信息熵P(Bi=1)后的準(zhǔn)確率是否為最優(yōu)準(zhǔn)確率,將準(zhǔn)確率與各個(gè)切割值的關(guān)系如圖2 所示。

圖2 基于信息熵的異常數(shù)據(jù)判別方法各切割值的準(zhǔn)確率

由圖2 可以看出當(dāng)切割值為0.447 時(shí)取基于信息熵的異常數(shù)據(jù)判別算法的最優(yōu)準(zhǔn)確率86.68%。將對(duì)于CIC-IDS2017 數(shù)據(jù)集的各個(gè)測(cè)試模型進(jìn)行對(duì)比(見(jiàn)表1)。

表1 對(duì)于CIC-IDS2017 數(shù)據(jù)集的測(cè)試模型評(píng)價(jià)

此時(shí)可以本作品提出的異常數(shù)據(jù)改進(jìn)方法比傳統(tǒng)邏輯回歸模型的準(zhǔn)確率提高了1.02%,證明了本作品的改進(jìn)方法準(zhǔn)確率比單純的邏輯回歸模型得到了提高。本文同樣對(duì)比了在同一數(shù)據(jù)集中其他算法模型的準(zhǔn)確率,對(duì)比結(jié)果中僅有BI-LSTM-GMM 模型對(duì)CIC-IDS2017 中DDoS 數(shù)據(jù)集比本文設(shè)計(jì)的判別算法準(zhǔn)確率高0.12%。但BI-LSTM-GMM的模型復(fù)雜度為O(nm+n2+n)其中n 為hidden_size,m 為input_size。而本文設(shè)計(jì)方法的模型復(fù)雜度為O(f+1)其中f 為特征數(shù)量。在模型復(fù)雜度上基于信息熵的判別方法明顯優(yōu)于BI-LSTM-GMM,同時(shí)從判別準(zhǔn)確率上看效果相差不大。整體上本文設(shè)計(jì)的基于信息熵的判別方法較優(yōu)。

5 結(jié)論

本文提出一種基于信息熵的異常數(shù)據(jù)判別方法,采用香農(nóng)公式計(jì)算信息熵,綜合提供了邏輯回歸模型的異常數(shù)據(jù)判別方法的準(zhǔn)確率。在以CIC-IDS2017 數(shù)據(jù)集中DDoS 攻擊數(shù)據(jù)為測(cè)試案例中,選取Bwd Packet Length Std、Average Packet Size、Flow Duration和Flow IAT Std 這4 個(gè)特征行為作為解釋變量,以Label 列數(shù)據(jù)作為因變量。使用基于邏輯回歸的異常數(shù)據(jù)判別方法在切割值為0.6 時(shí)取最優(yōu)準(zhǔn)確率,其值為85.62%,使用基于信息熵的異常數(shù)據(jù)判別方法在切割值為0.447 時(shí)取最優(yōu)準(zhǔn)確率,其值為86.68%。由此可以證明本文提出改進(jìn)的異常數(shù)據(jù)判別方法準(zhǔn)確率較原邏輯回歸異常數(shù)據(jù)判別方法得到了提升。

本文的研究對(duì)異常數(shù)據(jù)判別方法提出了合理的改進(jìn),為“數(shù)據(jù)治理”工作打下了更加深厚的基礎(chǔ)。當(dāng)然本文提出的改進(jìn)算法僅使用了CIC-IDS2017 數(shù)據(jù)集中DDoS 攻擊數(shù)據(jù)作為測(cè)試案例,后續(xù)研究將更關(guān)注于在邏輯回歸模型中加入香農(nóng)公式求信息熵這一方法提高判別準(zhǔn)確率的數(shù)學(xué)原理,并加大對(duì)其他數(shù)據(jù)集測(cè)試效果的研究。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美色图第一页| 国产三级视频网站| 91精品人妻一区二区| 成年人久久黄色网站| 亚洲国产精品无码AV| 国产精品亚洲五月天高清| 中文国产成人精品久久一| 久草热视频在线| 美女视频黄又黄又免费高清| 中文无码精品A∨在线观看不卡 | 午夜丁香婷婷| a级毛片免费看| 一级成人a做片免费| 国产成人夜色91| 久久青草免费91线频观看不卡| 日本AⅤ精品一区二区三区日| 孕妇高潮太爽了在线观看免费| 男人天堂伊人网| 日韩人妻精品一区| 亚洲精品天堂在线观看| 国产凹凸一区在线观看视频| 青青草国产精品久久久久| 国产伦精品一区二区三区视频优播 | 久草性视频| 欧美成人免费| 欧美日韩激情在线| 亚洲小视频网站| 成人av专区精品无码国产 | 国产精品无码影视久久久久久久| 国产综合精品日本亚洲777| 欧美自慰一级看片免费| 亚洲精品另类| 国产精品福利社| 亚洲天堂在线免费| 99久久性生片| 天堂va亚洲va欧美va国产| 成人小视频在线观看免费| 三上悠亚一区二区| 欧美日韩成人| 国内精自线i品一区202| 在线无码私拍| 国产微拍精品| 欧美精品在线观看视频| 伊人久久婷婷五月综合97色| 久久77777| 久久不卡精品| 国产欧美视频综合二区| 久久窝窝国产精品午夜看片| 四虎在线高清无码| 人人看人人鲁狠狠高清| 青青热久免费精品视频6| 色综合五月婷婷| 亚洲天堂首页| 青青草原国产| 久久免费观看视频| 精品五夜婷香蕉国产线看观看| 欧美亚洲日韩中文| 日日摸夜夜爽无码| 久久免费成人| 美女内射视频WWW网站午夜| 欧美成人午夜视频免看| 国产99精品视频| 亚洲国产成人超福利久久精品| 91在线播放国产| 精品欧美视频| 亚洲国产成人综合精品2020| 宅男噜噜噜66国产在线观看| 国产精品2| 国产成人高清亚洲一区久久| 19国产精品麻豆免费观看| 久久综合五月| 99re热精品视频中文字幕不卡| 91午夜福利在线观看| 国产精品9| 日韩色图在线观看| 亚洲AV无码一区二区三区牲色| 亚洲精品在线影院| 高清大学生毛片一级| 欧美中文字幕在线视频| 成色7777精品在线| 精品综合久久久久久97超人| 四虎精品国产永久在线观看|