陳立軍 劉暢 李澤通



摘要:OLAP(On-Line Analysis Processing) 是新興大數據分析環境中的權威分析工具,特別是針對分布式環境(例如云),當今,基于隱私保護的OLAP大數據分析是一個熱門主題,在諸如智能城市、社交網絡、生物信息學等創新性大數據應用場景中,它具有多種便利性,并且在OLAP分析任務期間提供隱私保護,遵循這一研究路線,文章提出一個簡化的并行過程在線分析(SPPOLAP) 框架,該框架的主要好處是引入了一種全新的隱私概念,用于OLAP數據多維數據集,實驗證明:SPPOLAP算法優于現有隱私保護算法,為大數據的隱私保護提供了技術保障。
關鍵詞:大數據;大數據分析;分布式隱私保護;大數據集上的實驗和分析
中圖分類號:TP309 ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)31-0004-03
在大數據時代,數據安全存在兩個截然不同的關鍵要求[1-3],需要對大量大數據進行有意義的分析支持[4],且在處理大數據以提取分析數據時,需要保證敏感信息(例如個人信息)的隱私保護。從這兩個要求可以推斷,保護隱私的大數據分析將成為最近幾年最熱門的研究之一[5-6]。On-line Analysis Processing (OLAP) [7] 是目前最流行的大數據分析工具,它使用戶能夠在直觀的多維空間上提取相關知識,例如:社交網絡、電子科學、電子政務、傳感器網絡、云系統等。
大數據的隱私保護涉及了隱私保護OLAP的研究領域[8-10],該領域的目標是在保護大數據的隱私的同時支持OLAP。分布式環境是大數據的經典配置[11],因此,在大數據上支持分布式隱私保護OLAP的問題已成為當前的研究課題。
SPPOLAP(Simplified Parallel Process On-Line Analytical Processing) ?[8]是一種最新算法,可有效地支持分布式隱私保護OLAP,它引入了一種針對OLAP多維數據集的新穎隱私概念,該概念著重于OLAP聚合的隱私,而不是整個多維數據集作為一個多維數組。在此算法上,SPPOLAP通過定義隱私閾值,來嘗試根據貪婪策略在多維聚合的準確性和隱私之間取得平衡,該閾值確定了在使用過程中用戶可接受的隱私保護程度。
應當指出,SPPOLAP算法在新興大數據環境中有著明顯潛力,例如智慧城市場景,公民可以訪問幾個大數據分析儀表盤并與之交互,這些儀表盤可以提供有關各種智能城市服務的匯總知識,例如交通擁堵、停車位、醫院當前的工作量、空氣污染群等,該知識顯然與敏感信息(個人信息等)有關,當在它們之上計算合適的OLAP聚合時,必須保留其隱私。
本文極大地擴展了文獻[8]中提供的研究結果,并著重針對分布式大數據的SPPOLAP算法(與零和競爭方法相比)進行了深入的實驗評估和分析。
本文的其余部分安排如下:在第1節中,提供SPPOLAP方法的摘要以及參考案例研究,以更好地說明在現實的大數據場景中SPPOLAP面向應用程序的功能;在第2節中,提供了SPPOLAP性能的綜合實驗評估和分析;最后,第3節提供結論和研究的未來工作。
1 SPPOLAP摘要和參考案例研究
在本節中,首先提供SPPOLAP算法的摘要,然后提供參考案例研究,以顯示SPPOLAP在現代大數據分析環境中的潛力。
令A = (D,L,H,M)為數據立方體,使得D是包含A的OLAP數據單元的數據域,L是A的維度集合,即定義OLAP分析所依據的功能屬性,H是與A的維度相關的層次結構集,最后,M是A的度量集。
SPPOLAP的第一步包括計算數據立方體A的隱私網格P(A),給定一個數據立方體A,隱私網格P(A)是A的范圍分區,以使每個元素ALk都劃分維度dk,k屬于[[0,L-1]],通過合并所有分區A的維數,本文獲得P(A)作為A的規則分區。
第二步對輸入數據立方體A進行采樣以獲得概要數據立方體[A]的貪婪策略,通過該策略計算概要數據立方體[A],以便同時滿足隱私約束,確保近似答案的準確性,并滿足空間約束。該策略考慮了與P(A)中的網格區域關聯的數據分布屬性,并在可用的網格區域中選擇最偏斜的網格區域。
算法的最后一步從通過上述貪婪策略選擇網格區域采樣,它是計算最終概要數據立方體[A]的基準操作,特別地,關于采樣策略,本文采用經典的均勻采樣,即基于常規的均勻生成分布。
給定網格區域,在SPPOLAP的每次迭代中,本文首先考慮相應的range-SUM查詢,然后,基于度量驅動的方法,給定正整數參數?,通過提取?大小的樣本子集來迭代采樣網格區域,直到滿足隱私約束或使用空間約束為止。實際上要注意,?表示采樣期間使用的一種緩沖區大小,如果在沒有緩沖的情況下,此解決方案避免了對海量多維數據集執行采樣會導致的過多計算開銷。
下面匯報有關SPPOLAP算法的詳細信息以及實現。
本文通過具體展示該算法在新興大數據分析環境中的適用性,提供SPPOLAP算法的參考案例研究。
在這里,本文確定了一個社交網絡,在該社交網絡中,在每個節點的頂部計算OLAP多維數據集以進行分析,在這種應用環境中,兩個用戶A和B想要對數據立方體的分布式集合進行分析,以便挖掘和分析目標社交網絡,兩個用戶中的每個用戶都基于特定的決策目標訪問特定的信息集。另一方面,由于社交網絡數據清楚地存儲了敏感信息[12-13],因此出現了隱私保護約束,從這一現象來看,SPPOLAP算法的應用在這種應用場景中非常有意義,因為它能夠在分布式設置中計算隱私保護數據立方體,以支持傳感器網絡數據上隱私保護的分析任務。
通過查看案例[12-13]研究,可以得出結論,多維數據集的隱私保護問題是指確保多維數據集單元格的隱私問題。一般而言,隱私保護數據挖掘工具的目標是避免惡意用戶從權威數據中挖掘結果,例如頻繁的項目集、模式和規律性、群集、關聯規則和在多維數據立方體上挖掘模型,即信息丟失和公開風險,本文使用權威的SPPOLAP算法框架可以順利避免這些敏感信息的泄漏和風險的公開。此外,SPPOLAP通過優化,這將進一步放大其在大數據設置中的可靠性。
2 對最新的分布式隱私保護OLAP框架進行實驗和評估
在本節中,將通過實驗評估SPPOLAP的性能,并與文獻[14]中描述的最新算法進行比較,進行評估提議框架的質量、有效性和性能,本文使用真實的數據立方體進行實驗評估,專注于六維數據集,它允許對復雜的多維數據集上的隱私保護功能進行可靠的評估。
2.1 質量分析
為了進行質量分析,本文分別使用Fp和FA表示隱私和準確性因子,在下面,本文將它們都適應于SPPOLAP的定義。
假設A為輸入多維數據集,而[A]為概要多維數據集,FP測量包含在其中的平均數量[A],令ω(k)為以k為多維索引的數據立方體的像元,令ω={A,[A]},在零和方法中,該塊是一個子多維數據集,相對于該子多維數據集,沿行和列的擾動數據單元邊際總和保持為零,FP的定義如下:
[FP=1A?K=0|A|-1(A{k}-A{K})] ? ?(1)
Fp可以看作是對[A]的隱私保護的一種度量,由于零和方法是一種面向數據單元的方法,而SPPOLAP是基于OLAP隱私概念的,因此本文對Fp定義進行如下修改:
1) 在等式(1) 定義的基礎上,將塊的概念替換為網格區域的概念;
2) 在[A]{k} = NULL的情況下,用相對于包含[A]{k}的網格區域計算相應單例聚合替換[A]{k}。
準確性因子FA可以看作[A]對給定查詢G所保證的近似程度的度量,FA是根據大綱G的數據集[A]上的查詢G定義的,如下面表達(2) 所示。
[FA(G)=2|A(G)-A(G)||A(G)|] ? ? ? ? ? ? ?(2)
其中A(G)是對G的精確答案,而[A](G)是對G的近似答案。由于本文處理查詢工作負載為GW,可以對表達式(2) 的定義擴展如下:
[FA(GW)=1|GW|K=0|GW|FA(GW)] ? ? (3)
為了進行質量分析,本文將GW設置為Range-SUM查詢的集合,在零和方法的情況下,該查詢對應于塊,在SPPOLAP中對應于網格區域。
在評估中使用的參數如下:
1) 多維數據集每個維度的基數,用Δk表示,其中[k∈[0,L-1]];
2) 隱私網格的區域范圍大小,用Pk表示,[k∈[0,L-1]];
3) 稀疏系數s,即非空數據單元相對于數據單元總數的比率;
4) 空間限制B;
5) 隱私閾值θ;
6) 用于評估數據立方體的類型,用T表示;
7) 查詢選擇性S。
實驗參數固定如下:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,b = 20%,S = 10%。結果與現有方法比較可得(圖1) ,本文所提議的方法SPPLAP隱私性和質量準確性都要比現有方法高。
2.2 有效性分析
在本節中,描述了SPPOLAP的有效性分析,作為有效性指標,在典型查詢工作負載GW上采用了用戶平均相對感知推斷誤差,為針對選擇性查詢S和空間限制B進行了有效性分析。在第一種情況下,使用以下實驗參數的設置進行內容分析:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,b = 20%,s = 20%, 結果得出本文提議的方法SPPLOAD的有效性比零和方法要好(圖2) 。
2.3 性能分析
在本節中,評估SPPOLAP和零和方法的性能,作為性能指標,采用以秒為單位的采樣時間,結合以下實驗參數設置,針對緩沖區大小b評估性能:Tk= 10%,Δk= 10%,θ= 70%,B = 20%,s = 20%,S = 10%。實驗結果如圖3所示(橫坐標為緩沖區大小,縱坐標為采樣時間):
從圖3可以明顯看出,本文的SPPOLAP算法性能優于零和算法Zero-Sum。
3 結論
本文極大地擴展了文獻[8]中提出的研究結果,并著重于SPPOLAP算法的研究,針對在分布式大數據環境中,進行了深入的實驗評估和分析,為大數據的隱私提供了技術保障。未來的工作主要集中在設計和測試SPPOLAP的新案例研究,以通過評估非常規應用場景,進一步評估其在新興大數據環境中的可靠性。
參考文獻:
[1] 張娟.大數據背景下檔案信息隱私保護[J].黑龍江檔案,2021(4):62-63.
[2] Qu Y Y,Nosouhi M R,Cui L,et al.Personalized Privacy Protection in Big Data [M]. Springer Verlag,2021.
[3] 第九屆互聯網安全大會(ISC 2021)7月27日召開 數據安全與隱私保護、大數據智能與安全峰會備受矚目[J].信息安全研究,2021,7(8):789.
[4] Nilashi M,Minaei-Bidgoli B,Alrizq M,et al.An analytical approach for big social data analysis for customer decision-making in eco-friendly hotels[J].Expert Systems With Applications,2021,186:115722.
[5] 嚴璐瑤.大數據背景下內部審計與隱私保護問題研究[J].審計與理財,2021(7):49-50.
[6] 王國峰,雷琦,唐云,等.大數據環境下用戶數據隱私保護研究[J].網絡安全技術與應用,2021(7):67-69.
[7] Forresi C,Gallinucci E,Golfarelli M,et al.A dataspace-based framework for OLAP analyses in a high-variety multistore[J].The VLDB Journal,2021,30(6):1017-1040.
[8] Broneske D,Drewes A,Gurumurthy B,et al.In-depth analysis of OLAP query performance on heterogeneous hardware[J].Datenbank-Spektrum,2021,21(2):133-143.
[9] Tremblay M C,Hevner A R.Missing data in OLAP cubes[J].Journal of Database Management,2021,32(3):1-28.
[10] Noh B,Yeo H.SafetyCube:Framework for potential pedestrian risk analysis using multi-dimensional OLAP[J].Accident Analysis & Prevention,2021,155:106104.
[11] Cuzzocrea A,Moussa R,Xu G D.OLAP:effectively and efficiently supporting parallel OLAP over big data[C]//Model and Data Engineering,2013: 38-49.
[12] Zakerzadeh H,Aggarwal C C,Barker K.Privacy-preserving big data publishing[C]//Proceedings of the 27th International Conference on Scientific and Statistical Database Management.La Jolla California.New York,NY,USA:ACM,2015.
[13] Lu R X,Zhu H,Liu X M,et al.Toward efficient and privacy-preserving computing in big data era[J].IEEE Network,2014,28(4):46-50.
[14] 李巖.大數據下信息通信技術中的隱私保護研究[J].中國新通信,2021,23(12):9-10.
【通聯編輯:張薇】
收稿日期:2022-04-15
基金項目:2021年度廣東省科研項目(S202112618018) ;廣東省質量工程(ZXKC202105)
作者簡介:陳立軍(1974—) ,男(苗族),廣西桂林人,講師,碩士,研究方向為大數據安全研究;劉暢(1999—) ,男,廣東深圳人,助教,學士,研究方向為大數據安全;李澤通(1999—) ,男,廣東深圳人,助教,學士,研究方向為大數據安全。