周銀萍,王跟成
(西藏民族大學網絡信息技術中心,陜西 咸陽 712000)
現如今,網絡在廣泛應用的同時也得到了迅速發展。但由于網絡安全管理還不夠完善,易出現黑客入侵、網頁攻擊以及安全信息泄露等多種網絡安全事件,該缺陷對社會造成巨大損失。在該現狀背景下,網絡安全防護技術得到廣泛關注,直到目前,大多數入侵威脅都會被網絡自動檢測出來,有效預防了入侵威脅對網絡的攻擊。但有一小部分入侵無法自動檢測,此類入侵為多種技術融合的多階段網絡攻擊對網絡產生了更大的威脅,并且具有很強的隱蔽性,使網絡很難檢測到攻擊源。在此類攻擊下,互聯網的敏感信息安全檢索難度較大,因此為了避免這種問題,需要深入研究移動互聯網敏感信息安全檢索方法。
張昌宏等人提出云存儲環境下的安全密文模糊檢索方案方法,該方法首先建立了檢索模型,并利用算法對關鍵詞的權值進行構建,構建成一個索引結構,通過改進的規則對檢索的文檔進行排序,從而實現檢索,該方法構建的結構不夠完善,存在檢索效率差的問題。陳昱等人提出一種大規模的跨平臺同源二進制文件檢索方法,該方法首先對文件進行編碼,令其成為可讀字符串,并利用編碼向量直接生成局部Hash,以此完成檢索,該方法的文件編碼具有誤差,存在加密信息檢索效率低的問題。李茜等人提出一種基于listwise的在線學習書目排序檢索算法,該方法利用在線排序方法對信息檢索進行排序,以此減少檢索的復雜性,利用損失函數對排序模型進行優化,從而完成排序檢索,該方法的排序效果不明顯,存在正確檢索次數少的問題。
為了解決上述方法中存在的問題,提出多階段攻擊下移動互聯網敏感信息安全檢索方法。
通常情況下網絡多階段攻擊共分為五個流程,具體過程如下所示:
1)隱蔽自身攻擊
對網絡進行攻擊前,首先會將自身攻擊隱藏起來,攻擊者會把真實地址及虛擬地址全部隱藏,具體操作為:把入侵主機、安裝的Windows計算機和配置較差的服務器全部用作跳板,以此實現地址的隱藏。
2)對需要攻擊的環境踩點
攻擊者確定攻擊目標時,會對需要攻擊的環境進行探查,通過此過程對攻擊目標的網絡范圍、網絡域名進行采集,該過程也被稱為情報收集,以此實現對各個組織完整輪廓的了解,便于攻擊。
3)攻擊目標的掃描及查點
當收集到攻擊目標的基礎信息后,攻擊者會利用端口掃描及操作系統對攻擊目標進行監聽及漏洞查詢,找尋到漏洞后對其進行定向查詢,即查點。該過程會將攻擊目標的重要信息顯現出來,攻擊者會對其進行記錄。
4)攻擊滲透
攻擊滲透是攻擊者進行多階段攻擊下的重要流程,攻擊者會將木馬攻擊引入到主機內,以此得到主機的使用權,再把木馬攻擊滲透到虛擬機中獲取另一個使用權,達到完全控制主機的目的。
5)目標攻擊
攻擊者完全控制主機后就可以對互聯網的敏感信息進行盜取,或改寫敏感信息,也可以修改系統內的任意設置,將木馬、遠程操控等程序放入到電腦中,以此實現攻擊。攻擊完成后為了避免用戶查詢到自身信息,攻擊者會手動將系統內的攻擊痕跡消除,使有關人士找不到痕跡。
在多階段攻擊情況下,為了提高移動互聯網敏感信息安全檢索的精準性,首先需要對移動互聯網敏感信息進行提取,以此提升敏感信息安全檢索效果。
基于移動互聯網敏感信息的價值率,優先對敏感信息進行分類,即,將移動互聯網敏感信息價值率較低的內容進行篩除,實現對互聯網敏感信息的整體過濾。
在互聯網敏感信息過濾的基礎上,采用特征項選擇方法對敏感信息正文內容進行降維,以此完成敏感信息的提取,如下所示:
1)首先對敏感信息中的各個形容詞、連接詞等沒有用作的詞類進行去除,將這些去除的詞類放入到停用詞表中,或直接刪除。
2)設置敏感信息文本分類的特征項為,利用高維度空間對進行選取,實現對敏感信息降維的目的,那么的具體選擇流程如下所示:
將移動互聯網敏感信息放置到樹中,這時樹內的敏感文本信息就由來表示,設置測量值的屬性為個,那么移動互聯網敏感信息的特征向量就表示為:={,,,…,-1,},即∈{0,1}。式中,表示敏感信息特征向量,表示的特征值。
假設=1,就說明敏感信息特征項中存在,若=0,就說明敏感信息特征項中不存在。因此,通過下式就可以得知敏感信息的節點的類別,表示如下

(1)
式中,(|)表示后驗概率,()表示先驗概率,同時(|)和()都是的驗證概率,而是一種假設,屬于設定的類別。()表示數據元組的先驗概率。
依據式(1)得到敏感信息的節點類別由(∈,表示敏感信息內容的類別)表示,那么敏感信息的節點類別概率標記如下

(2)
對式(2)進行整理后,得出敏感信息節點全概率方程表達式,標記為

(3)
式中,表示節點,表示節點數量。
由于移動互聯網中的敏感信息較多,所以的向量特征值也隨之增多,為了便于對中敏感信息的提取,首先需要對各個敏感信息的屬性進行假設,設置各個屬性均為獨立性。該假設可以有效提升敏感信息的提取速度,因此該假設的方程表達式如下所示

(4)
式中,表示數量,表示項數。
通過式(4)可以對的類別概率進行推算,此時的概率由樸素貝葉斯公式進行表達,定義如下
(|)=(|=)

(5)
依據方程(5)可以得知,在移動互聯網敏感信息中,無價值的信息概率為(|),而有價值的敏感信息概率為(|),當(|)>(|)時,就說明目前為止在多階段攻擊下的移動互聯網敏感信息節點內容均為無價值。
通過上述分析得知,當敏感信息首節點包含的內容在樹中被認定為無價值時,就需要立即停止對目前敏感信息的提取,并把當前互聯網敏感信息網頁從本地中消除掉;若敏感敏感信息非首節點內容被認定為無價值,那么就需要將當前無價值內容刪除,剩余有價值內容就會被提取。
基于多階段攻擊下移動互聯網敏感信息的提取,構建貝葉斯網絡模型,利用該模型對敏感信息安全進行檢索。
在構建的模型中設置密鑰,以此確保移動互聯網敏感信息檢索的安全性。設置加密密鑰及信息提取密鑰分別在模型的操作域和中進行,設置為加密密鑰,為提取密鑰,那么貝葉斯網絡模型經加密后的方程表達式標記為

(6)
式中,(,)表示加密操作,(,)表示提取信息加密,表示加密矩陣,表示提取信息加密矩陣。
設置密鑰后,利用一部分的敏感信息結點組成一個術語子網,而另一部分信息結點組成文檔子網,將兩個子網相結合,構建出貝葉斯網絡檢索模型,該模型的具體結構如圖1所示。

圖1 貝葉斯網絡檢索模型
在上述檢索模型中,代表術語層,那么就是文檔層,對術語層進行復制后就會通過′來表示。將三種層次相結合,就組成了′--的模型結構。當各個結點的邊緣概率在′層時,就會通過(′)=1、()=1-1來表示。其中,(′)表示邊緣概率,表示敏感信息術語數量。


(7)
式中,表示調節參數。表示對敏感信息安全進行檢索時占據的權重,當的值較大時,就說明檢索的敏感信息文檔靠前。的值越小,就說明檢索信息安全的權重越低。因此可以得知,敏感信息權重決定著信息安全檢索的好壞,要想對敏感信息安全進行有效檢索,就需要提高它的權重。
同理,依據上述權重計算方法,在與層之間繪制一條由指向的弧,而弧中的權值設置為,它屬于文檔中索引術語的權重,那么通過方程表達式定義為

(8)
式中,表示術語出現的次數,表示系數,即=log()+1。其中,表示敏感信息文檔數量,表示存有的文檔數量。利用將所有文檔的敏感信息權重總和相加,權重總和≤1時,得出弧中的權值。
將獲取的弧權值存儲到檢索模型內,便于互聯網敏感信息安全檢索。
對查詢進行提交后就可以進行檢索,它的具體流程為:首先對敏感信息查詢詞進行提取,利用檢索模型對′層的敏感信息進行推理,并對各個文檔中、的相關概率進行計算。

2)對的相似度進行計算,從中獲取各個敏感信息與之間的關聯性,即(|)。
3)對層各個文檔的后驗概率進行計算,從中獲取與的關聯性。
4)依據(|)的排列順序,對多階段攻擊下移動互聯網敏感信息進行輸出,完成敏感信息安全檢索。
為了驗證多階段攻擊下移動互聯網敏感信息安全檢索方法的整體有效性,需要對該方法進行有效測試。采用多階段攻擊下移動互聯網敏感信息安全檢索方法(方法1)、云存儲環境下的安全密文模糊檢索方案方法(方法2)和一種基于listwise的在線學習書目排序檢索算法(方法3)進行實驗測試對比。
1)將敏感信息劃分成兩個類別,一類為加密的敏感信息,另一類為不加密的敏感信息。把兩種類別的敏感信息全部結點進行連接,設置加密敏感信息的長度總和為525位,提取的加密信息長度為50位;而不加密敏感信息的長度總和為450位,提取的不加密信息長度為35位。依據敏感信息索引數量,利用方法1、方法2和方法3分別對兩種類別的敏感信息進行檢索效率測試。
隨機選取一個移動互聯網敏感信息文檔用作測試樣本,假設互聯網中各個文檔為1MB,加密敏感信息的長度為3個中文字符、非加密敏感信息長度為2個字符,將兩類別均對應為32位二進制數。把需要檢索的兩類別敏感信息數量逐次增加,通過三種方法對其進行檢索,依據檢索的平均時間,驗證三種方法的檢索效率。時間越短說明檢索效率越高,時間越長說明檢索效率越低,具體測試結果如圖2所示。

圖2 不同類別的索引信息檢索效率
分析圖2(a)中的數據發現,本次實驗共設置600個不同類別的敏感信息索引,當非加密索引數量不斷提升時,三種方法的檢索時間都呈現出上升趨勢。從整體上看,方法1的檢索時間上升速度比較緩慢,這說明方法1的檢索速度要高于方法2和方法3,它的檢索效率要優于其它兩種方法。而方法3在檢索期間,它的運動軌跡上升速度最快,最終檢索時間要高于方法1和方法2,表明方法3的檢索速度最慢,檢索效率最低。
圖2(b)對索引信息加密后,三種方法的檢索時間有著明顯的提升。但經過對比可得,方法1的檢索效率依舊高于方法2和方法3,由此可見不論是加密還是非加密的索引信息,方法1的檢索速度都是最快,且檢索的效率都是最優的。
綜上所述,方法1的檢索效率最優,這是因為方法1對敏感信息進行提取,以此增強了敏感信息檢索效果,進而提升了檢索效率。
2)以上述實驗為基礎,采用方法1、方法2和方法3分別對敏感信息安全檢索效果進行測試。設置共對100個信息數量進行檢索,依據檢索的準確次數驗證檢索效果,如表1所示。

表1 不同方法的正確檢索數量
依據表1中的數據可知,在測試期間,方法1的正確檢索個數始終高于方法2和方法3,依次為方法3、方法2,這說明方法1的檢索效果強,檢索的精準性高。
隱蔽性極高的攻擊手段會使互聯網陷入癱瘓。針對移動互聯網敏感信息安全檢索存在的問題,提出多階段攻擊下移動互聯網敏感信息安全檢索方法。該方法首先分析了多階段攻擊流程,基于多階段攻擊下,對互聯網敏感信息進行提取。同時構建了檢索模型,在模型中設置密鑰以此加強檢索效果,通過獲取的信息權重,利用該模型對其進行檢索,實現敏感信息安全檢索方法。該方法在敏感信息安全檢索領域中占據著重要地位,為今后的敏感信息安全檢索方法帶來了巨大貢獻。