李盼盼,趙 浩,林慧恩
(1.福建農林大學金山學院,福建 福州 350002;2.福州大學圖書館,福建 福州 350108)
數據管理是直接影響網絡服務質量的核心要素,如何有效保證信息安全及數據隱私是長久以來網絡系統查詢處理中最熱門的研究課題。數據隱私涵蓋用戶隱秘信息,倘若此類關鍵數據被第三方查看或攔截,會對用戶安全帶來威脅[1]。
為確保數據隱秘性,用戶隱私數據多數通過密文形式保存在數據服務方。密文檢索是一種云環境下訪問數據的關鍵手段[2],但傳統檢索模式對加密過的數據處于失效狀態。云儲存服務器內,數據所有權與管理權互不相關,且用戶對數據的操作限制性較多,容易產生隱私數據泄露問題。如何增強用戶對數據的操控性,保證隱私大數據檢索可靠性,是本文研究的主要內容。
馮在文[3]等使用均勻劃分法或自動聚類法對大規模云工作流模型庫采取恰當子集劃分,融合改進的基于圖結構的流程檢索算法,設計基于數據集分割的大規模云工作流模型庫并行檢索方法。但該方法對數據類型要求很高,無法適用于檢索多類型數據集合。滕一平[4]等提出一種子序列快速查詢算法。對數據集中特定長度下全部子序列實施分組,同時標記出代表性子序列,在查詢過程中把查詢序列分割為定長小段序列,運用DTW算法明確和小段序列相近的代表子序列候選集,序列拼接候選集,得到查詢結果序列。但方法計算時容易出現多個代表性子序列,對序列的篩選工作量較多。
基于上述內容,本文提出通過構建隱私大數據檢索系統,利用相似樹查詢方法得到兄弟葉節點的查詢結構,增強檢索效率,綜合分段融合與數據聚類,實現隱私大數據的準確高效定向檢索目標。
本文設計的隱私大數據檢索系統使用物-霧-云的三層體系結構,如圖1所示。

圖1 物-霧-云三層結構示意圖
系統中,數據擁有者即為數據貢獻者,是一個單終端設施。譬如系統用于探測某區域氣候,則數據擁有者就是傳感器[5]。另外,隨機一個智能物理對象均能產生數據,同時把數據傳輸到距離系統內最相近的霧節點。數據擁有者也可以是一個組織架構。為保障隱私大數據安全,全部上傳數據都會加密,且數據擁有者和授權數據用戶可密鑰共享,得到查詢令牌。
霧節點一般部署于網絡邊緣,擔負采集本地數據所有者的全部隱私數據及加密數據集的查詢服務。霧節點把加密查詢結果與驗證目標返回給本地搜查用戶,將數量眾多的數據訪問和運算查詢提交至遠程公共云服務器內。霧節點可對用戶提供計算功能、儲存及通信業務。由于密集的地理分布,霧節點能支撐移動性與即時數據解析[6]。其真實設施可為擁有通信及若干數據服務板塊的智能路由或切換器。
云服務器處在網絡中心,具備大量保存與計算資源,從霧節點接收上傳的歷史信息。另外針對擁有該計算成本的檢索任務,云服務器把處理檢索結果返回到對應數據用戶的最相近霧節點,最終把結果傳遞至檢索用戶。在這種狀態下,霧節點僅為云服務器與數據用戶間的通信中繼設施。
數據用戶可為單個移動用戶與組織。為保障隱私大數據檢索安全性,采用密鑰對初始查詢實施編碼加密。若數據用戶發出檢索請求,產生的查詢令牌會被提交至距離最近的霧節點,數據用戶解密結果同時驗證數據可靠性。
在相似樹查詢中若數據擁有者任意產生一個(n+u+1)位的矢量當作分割指示矢量S,同時產生兩個(n+u+1)*(n+u+1)的可逆矩陣(M1,M2),構成密鑰SK={S,M1,M2}。
數據擁有者對各個文檔均會產生一個n維的文檔矢量DC[i],其中的每位DC[i][j]會記載關鍵詞wj相對目前文檔的權重。
用戶按照關鍵字在詞典內是否出現,設定Qw,假設出現于詞典內,那么相對位置的Qw[i]的解是1,反之為0。任意從u個關鍵字內挑選v個,在Qw相對位置內設定成1,其它設定成0,最后一維取任意值t,然后產生一個任意值q對Qw的前(n+u)維采取全局變化,得到
Qw=(q*Qw(n+u),t)
(1)
利用陷門Tw,服務器預先算出查詢超球體與根節點每個超球體的關聯,獲得交集最多的某超球體,再按照獲得的超球體繼續往下一層節點探尋,直至找到葉子節點。推算葉子節點內的文檔矢量與查詢矢量超球體的中心矢量間距,計算相鄰葉子節點的兄弟節點間距,明確間距最短的前k個文檔矢量,同時折回k個文檔矢量列表。
相似樹查詢為一種R樹的形變過程,使用超球體完成空間劃分,相似樹自上而下組成,上層節點是剛好遮蓋下層節點的全部因素超球體,各個節點通過一個中心點與半徑表示,如果此節點是葉子節點,那么中心點就是文檔矢量值,如果是中心節點,就代表超球體球心。傳統隱私大數據檢索算法關于查詢返回的k個文檔僅查詢交集最大的超球體,針對少量交集的超球體沒有返回查詢步驟,但數據用戶所需文檔有很大幾率在交集很小的超球體內出現,這樣就無法符合用戶隱私數據查詢需要[7-8]。建立索引架構過程中,把相似樹葉子節點引入兄弟節點指針中。查詢超球體和文檔超球體全部交集最大時,此文檔超球體鄰近的超球體一定會有交集,在查詢到葉子節點時,同時查詢k個兄弟節點,根據相應比例返回文檔列表,減少相關度計算量,獲取更高檢索效率。
以上述查詢算法為基礎,引入分段融合算法,確立數據定向譜特征量,從而獲得準確的定向檢索結果。檢索流程如圖2所示。

圖2 隱私大數據定向檢索流程
隱私大數據資源池網格區域分割表示按照構成實物外形表面類別,把多組數據資源分割為描述不同類型的網格區域,讓相同區域的隱私數據資源擁有相等特征,使用網格區域分割法把多種繁雜數據集分成多個子集[9],組建隱私大數據資源池分布式向圖G1和G2,獲得資源數據庫數據特征分類集O,將其輸出數據流記作

(2)
式中,p表示數據采樣點數量,n(t)是定向檢索干擾項,si(t)代表擾動特征向量,a(θi)是多種類繁雜數據檢索本體架構模型。
在使用網格區域分割手段把多種類繁雜數據集分成多個子集前提下,對海量隱私大數據資源實施匹配濾波檢測處理[10],減少冗余數據侵擾,大數據信息流在語義特征分布空間t內的差別性屬性分類集是ci,獲得大數據資源查詢頻次是

(3)
其中,t是數據檢索關聯度,融合分段信息融合理念,獲得隱私大數據智能檢索概率密度特征分布是

(4)
創建匹配濾波器,將濾波函數記作

(5)
x(n)=L|s(n)+v(n)|

(6)
其中,s(n)代表原始采樣的多種類繁雜數據實向量,v(n)是冗余數據分量。
聚類方法基本原則為:類內樣本之間相關度高,類間樣本相關度小。如果把各個數據樣本當作圖內的頂點V,按照樣本間相關度把頂點進行賦權,獲得一個無向加權圖,將圖內的聚類問題變成圖劃分問題。
進行數據聚類時,單個詞有可能屬于多個類,單個數據可能為多主題數據,這就需要采用模糊聚類手段進行處理。模糊聚類方法具備優秀的彈性,可容許單個詞同時屬于多個類,單個數據同時屬于多個數據類。聚類過程如下:
首先建立表示數據連接的圖模型,設定無向加權圖表達式為
G=〈V,E,W〉
(7)
V={d1,d2,…,dn}
(8)
式中,V代表對稱矩陣,W為邊權重,是兩個數據間的相關度。
采用模糊分詞手段,算出數據詞頻和數據相關度,把數據粗化的聚類變成無關或相似度很低的f個數據子類。挑選數據的過程分為兩步,首先剔除在全部數據庫內出現的高頻詞,然后提取其余數據的詞干存進詞根表內。采集這些詞根構成一個索引詞集E。詞h在數據集di內權重推導過程為
w_term_document(h,di)

(9)
式中,fih是詞h在數據集di中出現的頻次,fh是包含詞h的數據集個數,L是數據集di內涵蓋的索引詞個數,N表示數據集內數據個數,w_term_document(h,di)的解代表詞h在數據集內的關鍵性,取值范圍為[0,1]。
算出詞權重之后,把數據定義為矢量di=(wi1,wi2,…,wis),那么兩個數據集di和dj的相關度是

(10)
評估每個數據子類內是否僅存在一個數據類,將其引入和自身高度相似的子類內,變成c*個子圖。使用譜聚類方法把各個數據子類再細化聚類,輸入c*個子圖,利用譜圖分割下的聚類算法對各個子圖的頂點集Vk=(v1,v2,…,vn)實施聚類,獲得各個子圖聚類結果和其相對的類型數ki,算出ki的和就是全局聚類數K,實現數據關聯屬性特征提取。
對海量隱私大數據資源完成匹配濾波處理,減少冗余數據侵擾前提下,實施大數據定向檢索優化設計,結合模糊譜聚類完成數據關聯屬性特征提取,得到聚類中心函數

(11)
建立語義概念樹,按照數據聚類屬性實施特征分類,分類統計判定量是

(12)
對隨機兩種隱私大數據X、Y來說,在數據模糊聚類中心采取數據融合處理,函數解析式為

(13)
式中,P(X)、P(Y)代表檢索到數據種類是X、Y的有效幾率,P(X∩Y)為聯合分布幾率。
分析隱私大數據的定向譜特征量,獲得大數據檢索關聯分布中心矢量

(14)
根據大數據檢索關聯分布中心矢量檢索輸出的分類識別,獲得最終定向檢索結果是

(15)
為驗證所提算法有效性,實驗使用某醫療隱私大數據庫,數據庫涵蓋15個種類數據共8000個文件,數據庫訓練集內的各個文件均以分類。實驗軟硬件環境搭配為:Intel Core i5-3570,Windows7操作系統,運用Python語言編程。在同等實驗條件下,對本文方法和文獻[3]方法及文獻[4]方法進行對比實驗。實驗共分為6組,依次選擇50、100、150、200、250、300個文件,選擇的文件大小都在1~40kB之間。檢索關鍵字數量為1000,檢索請求通過15個關鍵字構成,每個關鍵字擁有1~5的權值,用戶需要返回8個文件。關于不同文件個數檢測三種方法的檢索時間,如圖3所示。

圖3 不同方法檢索時間對比
從圖3可以看到,在初始階段,本文方法與文獻[3]的方法的檢索時間較為相近,伴隨文件個數的上升,兩個文獻方法的檢索時間大致展現出線性增長,但本文方法檢索時間均低于兩個文獻方法。所提方法運用相似樹查詢方法,有效降低相關度計算數量,大幅提升檢索效率。
為更直觀體現所提方法的應用有效性,選取30×30mm2大小網格,網格內分布50個數據,其中有45個普通數據和5個隱私數據,對網格內的隱私數據進行定向檢索,實際數據分布結果如圖4所示,并在同等實驗條件下,對本文方法和文獻[3]方法及文獻[4]方法進行對比。

圖4 實際數據分布圖

圖5 不同方法檢索隱私數據結果
由上述結果可知,文獻[3]只檢索出2個隱私數據,文獻[4]雖檢索出5個隱私數據,
但其位置分布不準確,相比兩種傳統方法,本文方法在實際數據定向檢索中,其能準確檢索出隱藏在普通數據中的5個隱私數據,并能準確找出隱私數據的位置分布。
為提升用戶隱私數據檢索安全性與準確性,設計一種基于相似樹查詢的隱私大數據定向檢索算法。該方法計算簡便,檢索效率與精度較傳統方法均得到顯著改善,魯棒性好。但在大數據資源預處理中,數據匹配濾波檢測時效性較短,有必要對其采取進一步優化,更加符合現實操作應用。