999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的多關鍵詞搜索加密方法

2019-08-27 08:41:50王文濤馬永東王銀款
成都大學學報(自然科學版) 2019年2期
關鍵詞:模型

王文濤, 馬永東, 王銀款

(1.東華大學 計算機科學與技術學院, 上海 201620; 2.上海航天控制技術研究所, 上海 201109)

0 引 言

目前,云存儲的廣泛應用給互聯網用戶提供了靈活的數據外包服務.但是,將數據外包給云服務器,數據擁有者則會失去對數據的絕對控制權,而云服務器可能也會受到數據泄漏及硬件故障等威脅[1].為了數據的安全,加密技術得到廣泛使用:一方面,加密數據使數據得到了保護,但另一方面也給數據搜索帶來了挑戰.為了解決這個問題,研究人員提出了一系列相關解決方案[2-11].雖然這些方案提供了不同功能的搜索加密方案,但仍存在一定的局限性.首先,現有的可搜索加密方案中,大多數方案沒有考慮到文本提取中關鍵詞的重要性,都只是將關鍵詞進行簡單提取,并沒有考慮不同關鍵詞在文本中的重要性也是不同的.其次,部分方案僅考慮了關鍵詞詞頻關系,沒有考慮到不同主題下關鍵詞的重要性也是不同的.基于此,本研究提出了提高檢索效率的多關鍵詞排序搜索方案:首先,給出了基于主題模型的關鍵詞提取算法以增加檢索的準確性,該算法基于文檔關鍵詞建立主題模型,得出文檔主題;其次,利用TextRank算法[12-13]計算每個關鍵詞在不同主題下的權重值,并根據文檔主題分布,得到最終關鍵詞權重排序,選出若干關鍵詞作為文檔的關鍵詞;為了解決關鍵詞同義關系,采用Stemming算法[14]獲取關鍵詞的詞根,還可以查詢具有相同詞根的關鍵詞.通過實驗測試結果表明,本研究提出的方案比相關文獻中現有的方案具有更高的效率.

1 基本概念

1.1 系統模型

本研究的模型系統基于文獻[7]建立(見圖1),主要分為3個主體:數據擁有者、搜索用戶和云服務器.其中,數據擁有者首先將文檔集合以加密的形式外包給云服務器,為了便于對密文進行搜索,在外包之前對文檔進行關鍵詞提取,并建立倒排索引,然后將倒排索引加密上傳至云服務器.為了下載感興趣的文件,搜索用戶將感興趣的查詢關鍵詞進行加密,并將加密查詢發送給云服務器.云服務器通過計算加密查詢和加密倒排索引之間的相關性結果來搜索加密文檔,然后將前(top-k)個密文文檔返回給搜索用戶.最后,搜索用戶使用密鑰對密文文檔進行解密.此過程中,云服務器不知道相關查詢關鍵詞的任何敏感信息或文檔內容.

圖1系統模型示意圖

1.2 威脅模型

本研究同樣利用文獻[7]的威脅模型,即假設云服務器是“誠實且好奇的”,它會“誠實地”根據指定協議存儲數據,但又對存儲的數據“感興趣”,并通過推斷或分析來獲取數據信息.同時,本模型主要針對兩種不同攻擊能力的威脅.

1)已知密文模型.該模型中,假設云服務器僅知道數據擁有者上傳的加密文檔集C和安全索引I.

2)已知背景模型.云服務器可以知道比已知密文模型更多的信息,例如陷門的相互關系和其他統計信息等.云服務器可以通過規模分析來推斷關鍵詞的特定信息,進而識別出查詢中的關鍵詞.

1.3 相關概念

在方案中,本研究應用如下相關概念:

1)隱含狄利克雷分布(Latent dirichlet allocation,LDA)主題模型.該模型是一種離散數據集上的完全生成概率模型[12],其思路是:假設數據集存在K個獨立的隱含主題,在LDA主題模型中,每個文檔d的關鍵詞w通過文檔主題分布θ(d)采樣生成主題z,然后從以主題z為特征的關鍵詞分布φ(z)中采樣生成關鍵詞w,其中φ(d)和φ(z)分別由狄利克雷分布α和β生成,則文檔d中隨機變量θ、z和w的聯合分布為,

(1)

2)TextRank算法.該算法是一種無監督的機器學習算法,使用基于圖的排序方法,其中每個單詞表示頂點,而加權邊表示頂點之間的相似度[13].TextRank算法完全基于單詞出現頻率,并且不需要任何先前的語法知識.

3)Stemming算法.該算法是語言規范化的過程,其中詞的變體形式簡化為通用形式[14].例如,詞干分析器基于詞干“search”識別“searchable”和“searched”,基于詞干“fish”識別“fisher”和“fished”等.

2 具體方案

2.1 關鍵詞提取算法

為區分文檔中關鍵詞之間的重要性,本研究提出了一種基于文本主題的關鍵詞提取算法:先將傳統的TextRank分解為不同主題下的多個TextRank,并根據TextRank算法獲取不同主題下的關鍵詞的權值;然后根據文檔主題分布進一步提取關鍵詞.算法主要包括:構建主題解析器以獲取關鍵詞與文檔的主題;執行算法來提取關鍵詞.

2.1.1 構建主題解析器.

本研究采用LDA主題模型算法從文檔集中獲取關鍵詞主題,其能夠獲得每個關鍵詞w的主題分布.關鍵詞的主題分布將用于關鍵詞提取,也用于整合不同主題下的關鍵詞.

2.1.2 基于主題模型的關鍵詞提取.

基于主題模型的關鍵詞提取的流程包括三個部分.

1)根據文檔中關鍵詞之間的共現關系來構造關鍵詞圖.文檔被看作一個關鍵詞序列,而邊的權重被設定為關鍵詞之間在長度為K的滑動窗口中的共現數.G=(V,E)表示文檔的圖結構,其中,頂點表示為V={w1,w2,…,wn},邊(wi,wj)表示從關鍵詞wi到關鍵詞wj的連接,邊的權重表示為e(wi,wj),定點wi的出度表示O(wi)=∑j:wi→wje(wi,wj).

2)利用TextRank算法來計算不同主題下的關鍵詞權重值.TextRank算法由PageRank算法改進而來,主要考慮關鍵詞權重.在TextRank算法中,關鍵詞wi的權重W(wi)表示為,

(2)

其中,d表示范圍在0~1間的阻尼系數.

式(2)表示每個節點有d的概率跳轉到該頂點,有(1-d)的概率跳轉到其他頂點.(1-d)表示隨機跳轉,若值為常數1,則表示頂點wj等可能地跳轉到其他頂點.而本研究所提出的基于主題的關鍵詞提取算法視隨機跳轉不是等可能的,這是因為在不同主題下,關鍵詞的TextRank權重可能會更加偏好于對應的主題.因此,對于特定主題,本研究提出了改進的TextRank算法,設置隨機跳轉概率為特定主題偏好值Pz(wk),其中∑wk∈wPz(wk)=1.此時,與主題密切相關的關鍵詞將賦予更大的權值.主題z中,特定主題的關鍵詞wi的權重表示為,

W(wi)=(1-d)Pz(wk)+

(3)

3)通過文檔主題分布,對不同主題下的關鍵詞進行整合排序,并選出權重值最高的若干關鍵詞作為文檔關鍵詞.

2.2 多關鍵詞搜索方案

本研究在文獻[7]的基礎上提出了改進的基于主題模型的多關鍵詞排序搜索方案,其關鍵函數介紹如下:

1)KeyExtend(F).給定文檔集F,對文檔集進行分詞,并使用Porter詞干算法將具有相同詞根的關鍵詞表示為同一形式,利用關鍵詞提取算法選出文檔關鍵詞w,并構成關鍵詞集合W={w1,w2,…,wn};然后,將關鍵詞集合轉換成(n+u+1)維的文檔倒排索引向量I,其中對應維上的值為關鍵詞權重W,u是插入的虛擬關鍵詞的數量,(n+u+1)維設置為1.

2)KeyGen(n).數據所有者隨機生成安全密鑰SK(M1,M2,S),其中,M1,M2∈R(n+u+1)×(n+u+1)為可逆矩陣,S∈{0,1}n+u+1為一個向量.

4)BuildIndexTree(I).在搜索過程中,云服務器必須搜索數據集的每個文檔索引,如果數據集非常大,則檢索效率會很低.本研究采用Xia等[15]提出的平衡二叉樹來構建索引結構.在索引結構構建過程中,首先將索引生成樹的葉子節點,然后根據這些葉子節點生成樹的中間節點平衡二叉樹,具體如圖2所示.

圖2平衡二叉樹結構示意圖

6)Query(I,Q).根據構建的索引樹,云服務器計算索引向量和安全陷門的內積來獲得最終的查詢相關性結果,

Ri=Il·Q

=I′Q′+I″Q″

=(Ii,εi,1)(xQ,x,y)

(4)

最后,返回相關性結果前(top-k)的加密文檔給搜索用戶,用戶根據密鑰對密文文檔進行解密.

3 安全性分析

3.1 數據安全性

在將數據集外包到云服務器之前,本研究采用了AES對稱加密算法[16]對數據集進行加密.由于AES對稱加密算法是安全的,因此數據的安全性得到了保證.

3.2 陷門不可連接性

雖然云服務器無法恢復查詢關鍵詞的內容,但是陷門的可連接性可能導致隱私泄露.例如,如果陷門是確定性的,攻擊者可以通過多次搜索相同的關鍵詞來推斷出關鍵詞之間的關系.對此,本研究通過在向量分割過程中引入隨機數的方法,使得即使對于相同的查詢也會生成不同的加密查詢向量,此外,可以分別將隨機數εi引入到索引向量中及將隨機數x和y引入到查詢向量中,最終的查詢結果也會不同,由此來實現陷門的不可連接性.

3.3 關鍵詞安全性

4 性能分析

在實驗測試中,本研究提出的方法在AMD5 CPU 2.0 GHz的Windows 10操作系統上應用Java語言得以實現.同時,本研究還評估了本方法的性能.測試選取的真實數據集為Enron email dataset[17],其包含150個用戶的數據.

4.1 準確性和隱私性

(5)

4.2 搜索效率

搜索時間在文檔集中的變化趨勢如圖4所示.由圖4(a)可知,文檔數量的變化并沒有對本方案產生較大影響,但隨著文檔數量的增加,Cao方案的搜索時間呈線性趨勢.圖4(b)表示搜索時間隨查詢關鍵詞不同而變化的趨勢圖.無論查詢關鍵詞包含多少關鍵詞,它們都在同個字典中,查詢時間不會隨著查詢關鍵詞數量的增加而增加.但是,同Cao方案相比,本方案采用了平衡二叉樹的索引結構,因此具有更高的搜索效率.

圖3準確性和隱私性

圖4搜索效率

5 結 語

本研究提出了一種安全、高效的多關鍵詞排序搜索方案,設計了基于主題的關鍵詞提取算法,即將文檔關鍵詞賦予不同的權重,在不失隱私性的情況下,提高了查詢結果的準確性.同時,本研究通過實驗測試證明了本方案的安全性和有效性.下一步的工作將通過考慮搜索關鍵詞的語義關系來進一步提高搜索的準確性.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: a级毛片在线免费| 国产成人资源| 欧美福利在线| 91在线无码精品秘九色APP| 青青草原国产免费av观看| 伊人久久大香线蕉综合影视| 亚洲一区二区成人| 最近最新中文字幕在线第一页| 91黄视频在线观看| 亚洲欧美日本国产专区一区| 欧美综合激情| a级毛片网| 国产性猛交XXXX免费看| 国产精品美女网站| 国产手机在线ΑⅤ片无码观看| 国产精品性| 色爽网免费视频| 国产毛片基地| 第一区免费在线观看| 日韩天堂视频| 手机永久AV在线播放| 国产va在线观看| 国产一级在线观看www色 | 亚洲成人一区二区三区| 亚洲AV一二三区无码AV蜜桃| 亚洲美女久久| 网友自拍视频精品区| 国产成人啪视频一区二区三区| 国产亚洲视频播放9000| 99精品影院| 伊人无码视屏| 久久国产乱子伦视频无卡顿| 青青青视频免费一区二区| 国产第一色| 好吊妞欧美视频免费| 欧美日韩91| AV不卡无码免费一区二区三区| 国产91丝袜在线播放动漫 | 伊大人香蕉久久网欧美| 色综合久久久久8天国| 亚洲第一在线播放| 国产第一页第二页| 亚洲欧美日韩视频一区| 日本欧美中文字幕精品亚洲| 直接黄91麻豆网站| 日本在线免费网站| 成人看片欧美一区二区| 午夜视频免费一区二区在线看| 色偷偷一区| 久热99这里只有精品视频6| 国产乱码精品一区二区三区中文 | 欧美日韩国产精品综合| 国产亚洲欧美日本一二三本道| 国产一级毛片网站| 91蝌蚪视频在线观看| 无码电影在线观看| 九九热免费在线视频| 91区国产福利在线观看午夜 | 午夜免费视频网站| 波多野吉衣一区二区三区av| 国产免费高清无需播放器 | 国产精品亚洲天堂| 在线观看精品国产入口| 欧美三级日韩三级| 欧美a级在线| 91精品网站| 国产精品va免费视频| 九色91在线视频| 日本手机在线视频| 欧美在线导航| 欧美精品另类| 丁香六月激情婷婷| 亚洲中文字幕无码爆乳| 成人a免费α片在线视频网站| 亚洲国产天堂在线观看| 久久精品人人做人人综合试看| 婷婷伊人久久| 欧美第二区| 久久精品人人做人人综合试看| 四虎永久在线精品影院| 中文国产成人久久精品小说| 夜夜操天天摸|