張 婷
(岳陽職業技術學院,湖南 岳陽 414000)
隨著科學技術的不斷革新及信息化水平的不斷增強,21世紀全球步入大數據時代,各領域每日信息量呈數以萬億的規模不斷增長,部分海量數據呈現出不平衡特性,表現為各類別數據樣本數量存在巨大差別,即某類別數據數量遠低于其他類別,此類不平衡大數據在實際生活中較為普遍,在諸多領域均有應用,如疾病診斷、郵件檢測、信用卡欺詐識別等。非平衡大數據具有難以捕捉數據分布特征等特性,采用傳統方法對非平衡大數據集群信息進行分析,其效果并不理想,如何識別非平衡數據特征,進行正確分析是當下研究的重要課題。利用深度神經網絡的學習能力,對非平衡大數據的高級特征進行提取,對于實現非平衡大數據集群信息的正確分析具有重要意義。深度學習的目標是基于大規模的訓練數據創建最佳分類面,達到準確學習數據特征的目的,實現數據信息的準確分析。
隱私是個人或企業的私密性信息,無論對個人或是企業都至關重要,隱私泄露將嚴重影響人們的正常生活及企業的持續發展,因此,對于非平衡大數據集群而言,采取有效措施保護非平衡大數據,防止信息泄露是需重點關注的問題。通過對原始數據信息進行匿名化處理,將信息中的敏感信息掩蓋,使攻擊者無法精準識別隱私內容是實現非平衡大數據保護的有效手段。由于非平衡大數據集群中各節點服務器性能存在差異性,資源大小也千差萬別,根據資源數量協調各節點的資源調度性能,確保非平衡大數據集群的負載均衡,是實現集群高效調度的重要途徑。
李葉飛等針對Hadoop大數據系統中任務執行效率低的問題,設計了可根據累計工作量能隨意在高、低權重隊列間轉換的任務調度器,實現系統數據的協調調度,使系統的任務執行效率有所提升,由于該方法未考慮數據不平衡對分類效果的影響,導致該方法的錯分類率較高;張譯天等基于大數據流式計算框架Heron下任務間通信開銷不同的問題,提出構建流分類模型,依據數據流大小實現數據分類,并將相關的高頻數據流視為一個調派任務,用節點內通信更替原節點間通信,實現任務的高效調度,最大化節省通信開銷,但該方法容易遭受網絡攻擊,數據存在安全性問題。
基于非平衡大數據存在的分類及數據安全問題,本文提出基于無限深度神經網絡的非平衡大數據集群匿名化調度算法,以提升非平衡大數據集群數據調度的高效性、準確性、安全性。
非平衡大數據集群匿名化調度結構如圖1所示。

圖1 非平衡大數據集群匿名化調度結構
(1)數據采集模塊。利用傳感器采集各節點服務器的非平衡大數據,構建非平衡大數據集群。
(2)數據分類模塊。利用最小最大概率機可最大化降低極大錯分類概率的特性,將之與卷積神經網絡(CNN)相結合,通過卷積神經網絡提取非平衡大數據的特征,以端對端形式對非平衡數據進行訓練,構建出強大的分類器,實現非平衡數據分類。
(3)數據匿名化處理模塊。通過K-匿名化方法實現非平衡大數據匿名化處理。
(4)數據調度模塊。采用基于蟻群算法的非平衡大數據集群均衡調度方法實現集群數據的調度。
由于卷積神經網絡容易遭受小干擾攻擊,本文的數據分類模塊通過引入最小最大概率機改善其抗攻擊性,以適應非平衡大數據集群的所屬環境。最小最大概率機(Minmax Probability Machine,MPM)可在極惡劣條件下降低極大錯分類概率,使其概率為極小值,在卷積神經網絡的共同作用下,以端對端形式對非平衡數據進行訓練,構建出強大的分類器,實現非平衡數據集群分類,即為深度最小最大概率機(Deep Minimax Probability Machine,DeepMPM)。DeepMPM的優勢是可充分利用CNN的特征提取能力,經多層卷積、池化后,與多層全連接相連,將其傳輸至MPM,以MPM作為強大的分類器替換softmax,DeepMPM模型結構如圖2所示。

圖2 DeepMPM模型結構
、為原始非平衡數據,MPM是基于原始數據求解其均值及協方差矩陣,實現非平衡數據的優化,而DeepMPM方法中,則是先利用CNN對非平衡數據的高級特征進行提取,在提取特征基礎上再通過MPM實現分類。對于神經網絡,其非線性映射可表示為(),其中該網絡參數為。、為原始非平衡數據的所屬類別,通過神經網絡提取的非平衡數據的高級特征表示為(,)、(,),通過下式可實現原始非平衡數據優化的參數估計:




(1)



(2)
式中,為分類超平面參數,為分類超平面。為達到DeepMPM的端對端訓練目標,利用拉格朗日乘子法轉換式(2),目標函數可描述為:


(3)
式(3)利用梯度回傳法并以端對端形式對、尋優,表示拉格朗日系數,的梯度可利用鏈式法進行求解,可描述為:

(4)
在深度神經網絡的反向傳播過程中,通過梯度下降法求解最佳、,獲得的梯度。
設、為獲得的最佳參數,由此分類面的求解公式可描述為:

(5)

數據匿名化模塊采用基于K-匿名化的非平衡大數據匿名化方法,實現非平衡大數據匿名化處理。由于采用深度最小最大概率機法對非平衡大數據進行分類處理,各類別通常由個屬性組構成,各等價類內數據相似度需呈現最大化特點,類間數據則需保持其差異性的最大化,再利用等價類的類質心更新全部屬性組,以達到非平衡大數據的匿名化處理。


(6)


(7)
式中:在第屬性的泛化層中層的標號表示為(),表示第屬性的泛化層映射。對于混合型數據,其距離則通過對、加權平均方式進行求解,可用下式描述:


(8)


(9)
式中:的取值范圍可通過()進行映射,轉換到區間[min,max],從而防止將埋沒。

={,,…,}=

(10)

()={,}
(11)
蟻群算法可根據非平衡大數據集群節點數及各節點的任務處理能力,對信息素矩陣進行動態更新,篩選出最佳任務調派方式,實現非平衡大數據集群的動態調度,因此,數據調度模塊通過基于蟻群算法的負載均衡調度方法實現非平衡數據集群調度,調度步驟如下:
第一步:算法的初始設置。
針對非平衡大數據集群的全部節點,獲得其參數的初始值,并對各節點當下所執行任務的處理速度進行求解,求解公式表示為:

(12)
式中:對于非平衡大數據集群中節點服務器,第個參數的權重表示為,該參數值表示為,節點全部參數的加權總和即為該節點的任務調派性能。
(1)待執行任務均存儲于負載均衡器的緩沖池中,從中調取需執行的任務,并確定任務長度。
(2)在步驟(1)(2)的基礎上對各任務調派方式下的執行時間進行計算。
(3)對蟻群信息素矩陣進行初始設置,將其設置為1。
(4)任務調派概率矩陣初始設置,令初始值設為1。
第二步:通過不斷迭代獲得最優結果。
(1)產生螞蟻,數量為,各螞蟻需對全部任務進行調派,依據任務調派概率矩陣,對執行任務節點進行求解,通過path矩陣實現調派方式的控制。該矩陣描述為:

(13)
式中:由節點調派的任務表示為,該矩陣取值為0或1,當其值為0時,表示任務不由節點調派,當其值為1時,則表示節點調派任務。
(2)各螞蟻執行完任務調派任務后,獲取其任務調派時間,搜索任務執行時間最小的調派方式,以之作為局部最佳搜索結果。
(3)調整信息素矩陣。該矩陣用下式描述:
(+1)=·()+Δ()
(14)
式中:()表示時間點節點調派任務的信息素濃度,迭代過程中信息素逐漸減弱,減弱系數為。迭代次后信息素濃度的增長量表示為Δ()。
(4)調整任務調派概率矩陣。該矩陣用下式表達:

(15)

(5)再次調取任務繼續迭代。
以某企業的非平衡大數據集群的大數據信息為研究對象,創建數據集,數據集中包含6類信息共6000個,其中選取5000個樣本作為訓練集,1000個樣本作為測試集。首先將數據集中6類數據轉換成二分類問題,即以一對多方式將各類數據均分成2類,從而轉換為6個二分類的處理。
利用訓練集數據分別對本文的DeepMPM及CNN模型進行訓練,分析兩模型的正(少數樣本)、負類(多數樣本)的分類精度,實驗結果如表1所示。

表1 CNN、DeepMPM模型的正、負類分類準確度對比
分析表1可知,采用DeepMPM模型對非平衡大數據集的測試樣本數據進行分類,正、負類分類準確度均高于CNN模型,這是因為本算法通過卷積神經網絡的端對端方式訓練非平衡大數據,利用CNN的特征提取能力并以MPM作為強大分類器實現非平衡數據分類,使得分類準確度獲得提升,分類效果顯著。
在非平衡大數據實現準確分類的基礎上,通過與文獻[5]的基于累計工作量的數據調度算法、文獻[6]的基于Heron的流分類任務調度算法對比,分析不同元組數量下的信息損失及信息泄密風險情況,驗證本文算法的匿名化處理性能,實驗結果分別如圖3、圖4所示。

圖3 各算法的信息損失對比

圖4 各算法的泄密風險分析
分析圖3可知,隨著元組數量的不斷增長,三種算法的信息損失呈逐漸下降趨勢,降低幅度各不相同,文獻[5]算法降幅最小、其次為文獻[6]算法,本文算法的下降趨勢最大,當元組數量達到5000時,信息損失只有6%左右。實驗結果表明,采用本文算法進行非平衡大數據的匿名化處理可有效降低非平衡大數據的信息損失率。取得優勢結果的原因在于本文算法應用K-匿名化算法匿名化處理分類后的數據信息,可使各等價類內數據具有最高相似度,類間數據呈現最大差異性,提高了數據匿名化效果。
分析圖4,隨著元組數量的不斷增多,三種算法的泄密風險均呈遞減趨勢變化,文獻[5]算法的泄密性較高,其次為文獻[6]算法,本文算法泄密性小,當元組數量達到5000時,泄密風險只有2%左右,原因在于元組數量的增多使得等價類內相似數據大幅增長,提取原始大數據高級特征,以最小和最大概率機作為分類器,實現非平衡大數據的分類,大大降低了非平衡數據的攻擊概率,確保數據的安全性。
分別與文獻[5]算法、文獻[6]算法對比,分析三種算法對不同任務量的非平衡大數據進行調度時,非平衡大數據集群的負載均衡,實驗結果如圖5所示。

圖5 三種算法的負載均衡分析
分析圖5,隨著待執行任務數量的不斷增大,三種算法調度后非平衡大數據集群的負載均衡度指標均呈不斷上升趨勢,但上升幅度大不相同,文獻[5]算法的負載均衡指標增長幅度最大,當處理任務達到1100個時,該指標達到50以上;文獻[6]算法明顯優于文獻[5]算法,當處理任務數低于700個時具有較好的調度性能,由于該算法更加側重于對優勢節點的調度,未實現空閑節點的有效利用,當任務數大于700個時,反映出該算法的調度劣勢;本文算法的調度性能明顯優于文獻算法,任務數增長至1100個,該算法調度后非平衡大數據集群的負載均衡度指標仍處于較低水平。實驗結果表明,本文算法能實現優勢節點與空閑節點間任務的均衡分配,提升了集群任務的調度能力,集群調度效果突出。這是因為本設計的數據調度模塊中采用了基于蟻群算法的負載均衡調度方法,進行非平衡大數據集群各節點、任務的實時調度,提高了調度能力。
以非平衡大數據集為研究對象,驗證提出的基于無限深度神經網絡的非平衡大數據集群匿名化調度算法的有效性。通過對比分析CNN、DeepMPM模型的正、負類分類準確度,驗證本算法的分類效果;通過對比分析本算法與文獻[5]算法、文獻[6]算法的信息損失、泄密風險指標,驗證本算法的匿名化效果;通過對比分析負載均衡度指標,驗證本算法的非平衡大數據集群的調度性能。實驗結果表明:利用CNN的特征提取能力并以MPM作為強大分類器,提升非平衡大數據的分類準確度;本算法可降低非平衡大數據的信息損失率、泄密風險,并可充分調度優勢節點與空閑節點實現任務的均衡分配,提升了集群任務的調度能力,集群調度效果突出。