基于Shannon信息熵與BP神經(jīng)網(wǎng)絡(luò)的隱私數(shù)據(jù)度量與分級模型

2019-01-31 02:34:08俞藝涵付鈺吳曉平

通信學(xué)報 2018年12期

關(guān)鍵詞：信息模型

俞藝涵，付鈺，吳曉平

（海軍工程大學(xué)信息安全系，湖北武漢 430033）

1 引言

當(dāng)前，移動互聯(lián)網(wǎng)、大數(shù)據(jù)計算平臺等信息產(chǎn)業(yè)的飛速發(fā)展給人們生活帶來了極大便利，眾多服務(wù)型互聯(lián)網(wǎng)產(chǎn)業(yè)應(yīng)運(yùn)而生。這些產(chǎn)業(yè)在為用戶提供服務(wù)的同時，海量的數(shù)據(jù)信息在期間流轉(zhuǎn)。以網(wǎng)絡(luò)約車平臺為例，用戶的個人信息、行程信息、司機(jī)信息、車輛信息等數(shù)據(jù)在用戶、平臺和司機(jī)之間不斷交互，交互的過程中數(shù)據(jù)往往以滿足服務(wù)為首要目的進(jìn)行呈現(xiàn)，而數(shù)據(jù)安全常常被忽略。而在海量數(shù)據(jù)信息流轉(zhuǎn)間又往往蘊(yùn)含著巨大的信息價值，其中不缺乏涉及與隱私相關(guān)的數(shù)據(jù)信息[1]，即使僅僅是網(wǎng)絡(luò)約車平臺上的一則簡單評論都可能造成用戶個人隱私的泄露，如何保證這類數(shù)據(jù)中隱私信息的安全是一個亟需解決的現(xiàn)實(shí)問題。

多年來，國內(nèi)外眾多學(xué)者已經(jīng)就如何保護(hù)隱私數(shù)據(jù)做了大量的研究，在基于數(shù)據(jù)擾亂、數(shù)據(jù)匿名等策略下，提出了一些卓有成效的隱私保護(hù)模型和方法，例如 k-anonymity模型[2]、l-diversity模型[3]以及差分隱私保護(hù)技術(shù)[4-5]。這些隱私保護(hù)技術(shù)的提出與發(fā)展為隱私數(shù)據(jù)安全打下了堅實(shí)的基礎(chǔ)，但在實(shí)際應(yīng)用中仍受到隱私數(shù)據(jù)類型多、隱私應(yīng)用場景復(fù)雜等問題的制約，其中，隱私數(shù)據(jù)的識別困難問題尤為突出。由于隱私是一個十分抽象的概念，在不同隱私場景與不同隱私主體的情況下，隱私的范疇存在極大差異，很難形成一套通用的隱私界定標(biāo)準(zhǔn)，這給隱私數(shù)據(jù)的識別造成了巨大的困難[6]。而當(dāng)前，隱私信息的載體往往是海量流轉(zhuǎn)在網(wǎng)絡(luò)間的數(shù)據(jù)流，如若不能成功地在大數(shù)據(jù)環(huán)境中遴選出需要實(shí)施隱私保護(hù)的數(shù)據(jù)，而將隱私保護(hù)技術(shù)無差別地實(shí)施在整個網(wǎng)絡(luò)數(shù)據(jù)流中將造成時間和空間2個維度上的巨大開銷。對數(shù)據(jù)進(jìn)行科學(xué)高效的隱私度量與分級是解決隱私識別困難問題的必要前提。

當(dāng)前，國內(nèi)外針對數(shù)據(jù)隱私度量問題已經(jīng)有了許多卓有成效的研究成果。Li等[7]利用k-匿名模型提出一種基于計算敏感屬性分布值的隱私度量方法，通過計算數(shù)據(jù)中敏感屬性值的全局分布以及同一敏感屬性在各個等價類中分布的差異程度來度量隱私泄露風(fēng)險；Gkountouna等[8]同樣基于匿名理論，構(gòu)建攻擊者背景知識與匿名數(shù)據(jù)的二叉樹圖，通過貝葉斯理論推理構(gòu)建出預(yù)測二叉樹圖，將其與隱私信息比較來度量隱私泄露的風(fēng)險；Clau?等[9]利用信息熵描述數(shù)據(jù)集中隱私信息的不確定度，在此基礎(chǔ)上，Peng等[10]用通信模型描述隱私保護(hù)的過程，用信息熵度量通信信宿中帶有的信息量以此度量隱私泄露的風(fēng)險，并利用條件熵對擁有背景知識攻擊者的攻擊進(jìn)行隱私度量，構(gòu)建了對應(yīng)的隱私保護(hù)信息熵模型；在差分隱私保護(hù)中，則通常以差分隱私預(yù)算ε直觀地度量隱私保護(hù)效果[11-12]。可以發(fā)現(xiàn)，當(dāng)前國內(nèi)外學(xué)者針對隱私度量問題的研究主要集中在對經(jīng)隱私保護(hù)后的數(shù)據(jù)進(jìn)行隱私泄露風(fēng)險的度量上，而針對原始數(shù)據(jù)集自身原有隱私信息量的度量方法研究成果較少。

由于缺乏通用的隱私界定標(biāo)準(zhǔn)[13]，要對某條數(shù)據(jù)在隱私層面進(jìn)行“是”與“否”的判定十分困難，一種可行的方法是通過制定某種度量與分級規(guī)則來代替隱私界定標(biāo)準(zhǔn)，將評估理論應(yīng)用到隱私度量與分級中，即將對單條數(shù)據(jù)的隱私度量與分級問題轉(zhuǎn)化為對數(shù)據(jù)集隱私狀況的評估問題，通過選取需度量的隱私要素作為評估的指標(biāo)，基于相關(guān)評估手段，以數(shù)據(jù)集總體隱私狀況為標(biāo)準(zhǔn)對數(shù)據(jù)集中的單條數(shù)據(jù)進(jìn)行隱私度量與分級。這樣做在繞過了隱私界定標(biāo)準(zhǔn)不明確這一“壁壘”的同時，基于數(shù)據(jù)集對單條記錄進(jìn)行隱私度量與分級更能反映出某條記錄在即時情況下的隱私重要程度，更能為隱私保護(hù)技術(shù)與策略的實(shí)施提供依據(jù)。但仍將面臨以下2個關(guān)鍵問題：1) 由于隱私概念的寬泛性所帶來的隱私度量要素種類多且復(fù)雜而引起的效率性問題；2) 由于隱私應(yīng)用場景多樣性以及隱私擁有者主觀因素不確定性所造成的隱私度量要素定權(quán)困難問題。

基于此，本文在3個隱私維度下建立2層隱私度量要素的基礎(chǔ)上，提出了一種無需事先設(shè)定隱私度量要素權(quán)重的隱私數(shù)據(jù)度量與分級模型。該模型通過 3個隱私維度下 2層隱私要素的設(shè)置，借助Shannon信息熵對二級隱私要素進(jìn)行合理定權(quán)，并由此計算出一級隱私要素下的數(shù)據(jù)隱私量，實(shí)現(xiàn)對隱私要素的降維，隨后借助BP（back propagation）神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)隱私數(shù)據(jù)的分級。

2 基礎(chǔ)知識

2.1 Shannon信息熵

信息熵[14]（information entropy）這個詞是信息論之父香農(nóng)（C.E.Shannon）從熱力學(xué)中借用過來的，熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量，香農(nóng)則用信息熵的概念來描述信源的不確定度。

假設(shè)某系統(tǒng)X存在n種狀態(tài)，記為表示狀態(tài)xi在系統(tǒng)X中出現(xiàn)的概率，則系統(tǒng)X的Shannon信息熵H（x）定義為[15]

Shannon信息熵理論認(rèn)為，通過信息熵對信息的無序程度進(jìn)行度量，信息的信息熵越大，表示信息的無序程度越高，其帶有的信息量就越少；信息熵越小，信息的無序程度越低，其帶有的信息量就越大。

2.2 BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)是一種按誤差反向傳播訓(xùn)練的多層前饋網(wǎng)絡(luò)，其算法稱為 BP算法，該算法的基本思想是梯度下降法，利用梯度搜索技術(shù)，以期使網(wǎng)絡(luò)的實(shí)際輸出值和期望輸出值的誤差均方差為最小[16]。

BP神經(jīng)網(wǎng)絡(luò)是一種多層網(wǎng)絡(luò)，分為輸入層、隱含層和輸出層3個層次。各神經(jīng)元與下一層的神經(jīng)元采取全連接，同層神經(jīng)元之間相互無連接。一個包含4個輸入層神經(jīng)元、5個隱含層神經(jīng)元及3個輸出層神經(jīng)元的BP神經(jīng)網(wǎng)絡(luò)具體結(jié)構(gòu)如圖1所示。

圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

BP神經(jīng)網(wǎng)絡(luò)最大的優(yōu)勢在于其能夠?qū)W習(xí)和存儲大量的輸入輸出關(guān)系，并且不用在事先揭示這種數(shù)學(xué)關(guān)系，包括信號的前向傳播和誤差的反向傳播 2個過程。正向傳播時，輸入信號通過隱含層作用于輸出節(jié)點(diǎn)，經(jīng)過非線性變換，產(chǎn)生輸出信號，若實(shí)際輸出與期望輸出不相符，則轉(zhuǎn)入誤差的反向傳播過程。誤差反傳是將輸出誤差通過隱含層向輸入層逐層反傳，并將誤差分?jǐn)偨o各層所有單元，以從各層獲得的誤差信號作為調(diào)整各單元權(quán)值的依據(jù)。

3 基于IE-BPDN的隱私度量與分級模型

網(wǎng)絡(luò)流量中的每一條記錄都或多或少涉及隱私信息。而這些信息在隱私層面并沒有明確的界定。一方面，相同一條記錄中所蘊(yùn)含的信息對于不同的用戶來說，其帶有的隱私量存在巨大差異；另一方面，以不同目的進(jìn)行數(shù)據(jù)挖掘的隱私信息收集者來說，一條數(shù)據(jù)是否存在隱私價值也不盡相同。同時，各條記錄中蘊(yùn)含信息之間的關(guān)聯(lián)性、信息的時效性、應(yīng)用場景的多樣性以及隱私擁有者對于隱私概念的主觀性都是影響量化數(shù)據(jù)隱私的關(guān)鍵因素。若將以上所提因素全都考慮到數(shù)據(jù)隱私量中來，隱私度量要素的定權(quán)將十分困難，同時度量過程也是多維且復(fù)雜的，而針對特定需求進(jìn)行度量的結(jié)果也不具有通用性。而本文的目的就是提出一種通用的數(shù)據(jù)隱私度量與分級模型，旨在事先不進(jìn)行預(yù)設(shè)隱私度量要素權(quán)值的前提下，以較低計算開銷實(shí)現(xiàn)對數(shù)據(jù)隱私量的合理度量與分級。

由此，本文提出了一種基于IE-BPNN(information entropy-BP neural network)的隱私度量與分級模型，其基本框架分為隱私數(shù)據(jù)規(guī)則化、隱私要素度量與定權(quán)以及隱私分級3大模塊。其基本思路是將網(wǎng)絡(luò)流量中的數(shù)據(jù)以單位時間窗分割成各條記錄，解析記錄中所蘊(yùn)含的隱私要素，并將其規(guī)則化表示；隨后，通過計算不同記錄之間相同二級隱私要素的信息熵確定其權(quán)重并依此計算各條記錄在一級隱私要素下的隱私量，在對數(shù)據(jù)進(jìn)行初步度量的同時，實(shí)現(xiàn)了對隱私要素的降維；最后由訓(xùn)練好的隱私分級 BP神經(jīng)網(wǎng)絡(luò)得出各記錄的最終隱私級別。

3.1 隱私數(shù)據(jù)規(guī)則化模塊

隱私的概念十分寬泛，要對數(shù)據(jù)隱私實(shí)現(xiàn)準(zhǔn)確度量與分級需涉及眾多隱私要素，而過多的隱私要素將給隱私度量與分級的效率性提出挑戰(zhàn)。根據(jù)相關(guān)文獻(xiàn)[13,17]對于不同隱私個體對數(shù)據(jù)隱私不同方面敏感度的分析，本文從隱私內(nèi)容（P1）、隱私狀態(tài)（P2）、隱私詳情（P3）等3個維度選取以下具有代表性的要素作為隱私度量與分級的指標(biāo)。具體如表1所示。

其中，在隱私詳情（P3）維度下，本文假設(shè)隱私度量與分級是針對用戶位置軌跡進(jìn)行的，由此選取了二級要素時刻和時間、坐標(biāo)與地區(qū)分別對應(yīng)一級要素精確信息與模糊信息。二級要素的選擇可根據(jù)實(shí)際所需進(jìn)行更替。記進(jìn)行度量的數(shù)據(jù)集為D，以單位時間窗將D分割成n條隱私記錄，記為以隱私內(nèi)容（P1）、隱私狀態(tài)（P2）、隱私詳情（P3）3個維度解析各條記錄，得到以為一級要素的二級要素值，記為表示記錄d在一級

i要素La下規(guī)則化后的記錄值，a= 1 ,2,… ,8 ，b為La所對應(yīng)的二級要素的維度，其中

舉例來說，假設(shè)某條記錄d在隱私內(nèi)容（P1）中，存在一級要素人口統(tǒng)計學(xué)信息(L1)中除包含姓名（l12）、年齡（l12）外沒有其他二級要素的信息，則得到規(guī)則化表示后的記錄值

表1 隱私度量要素

3.2 基于信息熵的隱私要素度量模塊

本文對n條記錄在3個度量維度上的各個一級要素分別建立信息熵度量矩陣，假設(shè)某個一級要素La包含b個二級要素，其對于n條記錄的度量結(jié)果通過建立n×b大小的二級要素信息熵度量矩陣來計算實(shí)現(xiàn)，具體步驟如下。

步驟 1由n條記錄經(jīng)規(guī)則化后對應(yīng)該一級要素La的b個二級要素記錄值建立二級要素信息熵度量矩陣BLa

矩陣中的bij是經(jīng)規(guī)范化后第i個記錄中對應(yīng)第j個二級要素的記錄值，取值為0或1。

步驟2對矩陣BLa中的元素進(jìn)行變換，如式(3)所示。

得到矩陣

步驟 3根據(jù)信息熵式(1)對各個二級要素j計算其信息熵

步驟4二級要素lj權(quán)重計算

步驟5得到一級要素La對單條記錄di的度量值

Ldia的值越大，代表記錄di中以一級要素La為度量標(biāo)準(zhǔn)的隱私量越大。

步驟6重復(fù)步驟1～步驟5，在該度量維度下求解單條記錄di在各個一級要素下的隱私度量值，生成di在該維度的隱私度量值向量：Fo(di)=

步驟7重復(fù)以上步驟，得到單條記錄di在3個度量維度下的隱私度量值向量

3.3 基于BP神經(jīng)網(wǎng)絡(luò)的隱私數(shù)據(jù)分級模塊

本文建立在BP神經(jīng)網(wǎng)絡(luò)下得到隱私數(shù)據(jù)的最終分級結(jié)果。設(shè)計神經(jīng)網(wǎng)絡(luò)層數(shù)為3層，輸入層節(jié)點(diǎn)數(shù)設(shè)置為b，使之與一級要素數(shù)量對應(yīng)，分別對應(yīng)b個一級要素的隱私度量值；輸出層節(jié)點(diǎn)數(shù)為3，將度量為最高隱私等級的輸出定為（1,1,1），度量為最低隱私等級的輸出定為（0,0,0），以此類推將輸出向量分別對應(yīng)8個隱私等級；以singmoid型正切函數(shù)tansig和singmoid型對數(shù)函數(shù)logsig分別作為隱含層和輸出層的傳遞函數(shù)。

在每輪BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練中，隨機(jī)抽取訓(xùn)練數(shù)據(jù)集中10%的記錄，以3.2節(jié)中基于信息熵的隱私要素度量方法得到訓(xùn)練數(shù)據(jù)的隱私要素度量向量值，將其歸一化后組成該輪訓(xùn)練樣本。具體訓(xùn)練過程如圖2所示。

3.4 基于IE-BPDN的隱私度量與分級模型的實(shí)現(xiàn)

基于 IE-BPDN的隱私度量與分級模型的具體實(shí)現(xiàn)過程如圖3所示。

圖2 BP神經(jīng)網(wǎng)絡(luò)分級模塊訓(xùn)練

圖3 模型實(shí)現(xiàn)

模型的隱私度量結(jié)果輸出由3個方面組成：1) 由隱私要素度量模塊所得到的隱私度量值向量集合經(jīng)篩選計算和直接存儲生成的度量值集合，本文采用篩選計算的方法是通過主成分分析法篩選出在3個隱私度量維度下主要反映記錄隱私狀況的一級要素，將其度量值相加得到記錄在3個維度下的度量值，將其與隱私度量值向量一并存儲作為輸出；2) 由BP神經(jīng)網(wǎng)絡(luò)分級模塊所得出的記錄隱私度量等級；3) 記錄在數(shù)據(jù)集中的隱私度排序。具體排序規(guī)則以記錄度量等級為先，當(dāng)度量等級相同時，依次比較3個維度下的隱私度量值大小，在2個或以上維度下度量值大的記錄排序靠前。

模型的先進(jìn)性主要表現(xiàn)為以下幾個方面。

1) 隱私度量與分級要素的多維度。以本文所提隱私度量與分級要素為例，其包含3個層面的8個一級要素和 30個二級要素。度量與分級要素的多維度使隱私數(shù)據(jù)在規(guī)則化的過程中，能夠盡可能多地從不同方面將數(shù)據(jù)所蘊(yùn)含信息的隱私量呈現(xiàn)出來，使隱私度量與分級的依據(jù)更為全面與合理。

2) 層次化的隱私量計算與呈現(xiàn)。以二級隱私要素下的隱私量計算一級隱私要素下的隱私量，即以二級隱私要素權(quán)重Wlj計算一級隱私要素下的隱私量Ldia，以此作為神經(jīng)網(wǎng)絡(luò)的輸入向量并呈現(xiàn)在模型最終的輸出結(jié)果中，令隱私量向量的維度由二級隱私度量要素維度數(shù)b，降低至一級隱私度量要素維度a（以本文所提隱私度量與分級要素為例，維度數(shù)30→8），為高效可行的神經(jīng)網(wǎng)絡(luò)隱私分級打下基礎(chǔ)的同時使輸出結(jié)果更能反映出數(shù)據(jù)的隱私屬性。

3) 度量與分級權(quán)值參數(shù)的零輸入。不同的隱私要素在隱私度量與分級中的重要程度本就不相同，加之隱私應(yīng)用場景的多樣性與主觀因素的差異性，使得很難預(yù)設(shè)隱私度量與分級中不同隱私要素的權(quán)重值。模型利用信息熵對二級隱私要素在數(shù)據(jù)級隱私度量與分級中重要程度的刻畫，以及BP神經(jīng)網(wǎng)絡(luò)能在不揭示輸入與輸出之間數(shù)學(xué)關(guān)系的情況下進(jìn)行學(xué)習(xí)和存儲的能力，在權(quán)值參數(shù)零輸入的情況下，實(shí)現(xiàn)了對數(shù)據(jù)高效合理的隱私度量與分級。

4) 度量并描述了單條記錄在數(shù)據(jù)集中的隱私重要程度。在一些情況下，拋開數(shù)據(jù)集對某條記錄進(jìn)行單一的隱私度量并不能達(dá)到進(jìn)行隱私度量的目的。模型在利用信息熵對二級隱私要素定權(quán)的過程中，已經(jīng)在隱私層面刻畫了單條記錄蘊(yùn)含的隱私信息相對于整個數(shù)據(jù)集蘊(yùn)含的隱私信息的重要程度，并最終在模型輸出中結(jié)合分級結(jié)果進(jìn)行了呈現(xiàn)。記錄的隱私等級最為直觀地反映了模型對記錄的隱私度量結(jié)果；記錄在3個層面的度量值則體現(xiàn)了記錄的隱私屬性，即該條記錄所帶有隱私信息的具體形態(tài)趨勢；記錄的隱私度排名則直觀地體現(xiàn)了該條記錄在數(shù)據(jù)集中隱私量的貢獻(xiàn)程度，即記錄相對于數(shù)據(jù)集在隱私層面的重要程度。即通過基于IE-BPDN的隱私度量與分級模型，隱私保護(hù)人員可以直觀地得到隱私數(shù)據(jù)的以下信息：

① 數(shù)據(jù)集中的某一條記錄的隱私度量等級；

② 數(shù)據(jù)集的總體隱私度量信息；

③ 數(shù)據(jù)集中的某條記錄相對整個數(shù)據(jù)集在隱私層面的重要程度；

④ 某2條記錄的隱私重要程度比較；

⑤ 數(shù)據(jù)集中的某條記錄在各維度、各隱私要素下的具體度量值。

以上信息，將使隱私保護(hù)方獲得數(shù)據(jù)集隱私狀況的定量評估，同時可以區(qū)分?jǐn)?shù)據(jù)集中各條記錄在隱私層面上的不同，即相對隱私保護(hù)對象區(qū)分記錄在隱私層面上的重要程度，這些信息均為高效、準(zhǔn)確、有針對性的隱私保護(hù)措施提供了實(shí)施依據(jù)。

4 測試與分析

本文所提模型中，隱私要素度量模塊中的隱私要素定權(quán)與隱私量計算為簡單的對數(shù)與乘法運(yùn)算，為此本文將測試的重點(diǎn)放在基于BP神經(jīng)網(wǎng)絡(luò)的隱私數(shù)據(jù)分級模塊上，主要進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練測試與分級準(zhǔn)確性測試。以3.1節(jié)中各項(xiàng)二級度量要素的有無為標(biāo)準(zhǔn)模擬生成8個隱私等級的數(shù)據(jù)集。其中，每個隱私等級包含1 000條隱私記錄，共8 000條數(shù)據(jù)記錄作為訓(xùn)練數(shù)據(jù)集。

4.1 神經(jīng)網(wǎng)絡(luò)訓(xùn)練

將訓(xùn)練輪次定為1 200，學(xué)習(xí)效率為0.1，目標(biāo)誤差為0.000 1。根據(jù)公式初選隱層節(jié)點(diǎn)數(shù)，I和O分別為輸入層節(jié)點(diǎn)數(shù)和輸出層節(jié)點(diǎn)數(shù)，a為調(diào)節(jié)參數(shù)，最終選定隱層節(jié)點(diǎn)數(shù)為 7。訓(xùn)練過程的誤差曲線如圖4所示，神經(jīng)網(wǎng)絡(luò)在282輪次訓(xùn)練后達(dá)到訓(xùn)練目標(biāo)，可以滿足模型需求。

圖4 BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差曲線

4.2 模型準(zhǔn)確性測試

由于本文所提模型輸出結(jié)果的3個部分中，度量值集合由數(shù)據(jù)相應(yīng)隱私要素的信息熵計算所得，隱私量排序是經(jīng)度量值集合與度量等級綜合對比產(chǎn)生，所以本文將模型的準(zhǔn)確性測試重點(diǎn)放在了隱私分級的準(zhǔn)確性上。首先提出誤判偏差率的概念，用來刻畫度量結(jié)果與實(shí)際隱私狀況的偏差程度，計算式如式(7)所示。

其中，k為進(jìn)行誤判偏差率計算的記錄數(shù)，e為自然對數(shù)，Di和Di'分別代表序號為i的記錄樣本的實(shí)際隱私等級和預(yù)測隱私等級，

在此基礎(chǔ)上，本文從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽取1 000條記錄作為測試樣本，對所提隱私數(shù)據(jù)度量與分級模型進(jìn)行如下分級準(zhǔn)確性測試。測試結(jié)果如表2所示。

表2 模型隱私分級準(zhǔn)確性測試

由測試結(jié)果可以看出，本文所提的隱私數(shù)據(jù)度量與分級模型的分級總體準(zhǔn)確率可達(dá)97.8%，對于單個隱私等級的樣本也能提供 96%以上的分級準(zhǔn)確率。另一方面，從各個隱私等級的誤判率可以發(fā)現(xiàn)，模型對處于隱私相對邊界等級（隱私等級0,1,2,6,7）的數(shù)據(jù)分級準(zhǔn)確率高于處于隱私中間等級（隱私等級4,6,7）的數(shù)據(jù)，這符合當(dāng)數(shù)據(jù)提供的隱私信息區(qū)分度越大時，對其的隱私度量越容易這一現(xiàn)實(shí)情況。這也反映在各隱私等級的誤判篇差率上，各等級誤判率（E）、誤判偏差率（ε）和的變化趨勢如圖5和圖6所示。

圖5 誤判率與誤判偏差率變化趨勢

圖6變化趨勢

由圖5可知，模型對于數(shù)據(jù)集整體的誤判偏差程度，即誤判偏差率的變化趨勢與誤判率相似。分析式(7)可知，ε的值與呈冪次關(guān)系，則也應(yīng)該與呈冪次關(guān)系，而由圖6可以看出的變化趨于一條靠近自然對數(shù)e的直線。因此可以推斷的取值多為0和1，這就說明模型在發(fā)生誤判時，極少發(fā)生跨級誤判，即發(fā)生誤判的結(jié)果基本都在相鄰隱私等級中。在誤判率不高的情況下，模型這樣的誤判偏差程度是能夠被接受的。

5 結(jié)束語

本文提出了一種基于信息熵和BP神經(jīng)網(wǎng)絡(luò)的隱私數(shù)據(jù)度量與分級模型。該模型借助信息熵對數(shù)據(jù)集隱私量進(jìn)行分層計算，隨后利用BP神經(jīng)網(wǎng)絡(luò)無需事先揭示輸入與輸出之間數(shù)學(xué)關(guān)系這一優(yōu)勢，能夠在不預(yù)先設(shè)定隱私度量要素權(quán)重的情況下，實(shí)現(xiàn)對隱私數(shù)據(jù)的準(zhǔn)確度量與分級。下一步可進(jìn)行以下兩方面工作：1) 研究海量網(wǎng)絡(luò)流量環(huán)境下的數(shù)據(jù)自動化解析技術(shù)，為數(shù)據(jù)隱私要素值的自動化獲取提出相應(yīng)解決方案；2) 在本文所提隱私度量與分級模型基礎(chǔ)上，研究BP神經(jīng)網(wǎng)絡(luò)的內(nèi)在原理與優(yōu)化技術(shù)，進(jìn)一步優(yōu)化模型的效率性與準(zhǔn)確性。