999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

支持檢索關(guān)鍵詞語(yǔ)義擴(kuò)展的可排序密文檢索方案

2019-08-01 01:35:23李勇相中啟
計(jì)算機(jī)應(yīng)用 2019年1期
關(guān)鍵詞:排序語(yǔ)義

李勇 相中啟

摘 要:針對(duì)云計(jì)算環(huán)境下已有的密文檢索方案不支持檢索關(guān)鍵詞語(yǔ)義擴(kuò)展、精確度不夠、檢索結(jié)果不支持排序的問(wèn)題,提出一種支持檢索關(guān)鍵詞語(yǔ)義擴(kuò)展的可排序密文檢索方案。首先,使用詞頻逆文檔頻率(TF-IDF)方法計(jì)算文檔中關(guān)鍵詞與文檔之間的相關(guān)度評(píng)分,并對(duì)文檔不同域中的關(guān)鍵詞設(shè)置不同的位置權(quán)重,使用域加權(quán)評(píng)分方法計(jì)算位置權(quán)重評(píng)分,將相關(guān)度評(píng)分與位置權(quán)重評(píng)分的乘積設(shè)置為關(guān)鍵詞在文檔索引向量上相應(yīng)位置的取值;其次,根據(jù)WordNet語(yǔ)義網(wǎng)對(duì)授權(quán)用戶輸入的檢索關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展,得到語(yǔ)義擴(kuò)展檢索關(guān)鍵詞集合,使用編輯距離公式計(jì)算語(yǔ)義擴(kuò)展檢索關(guān)鍵詞集合中關(guān)鍵詞之間的相似度,并將相似度值設(shè)置為檢索關(guān)鍵詞在文檔檢索向量上相應(yīng)位置的取值;最后,加密產(chǎn)生安全索引和文檔檢索陷門,在向量空間模型(VSM)下進(jìn)行內(nèi)積運(yùn)算,以內(nèi)積運(yùn)算的結(jié)果為密文檢索文檔的排序依據(jù)。理論分析和實(shí)驗(yàn)仿真表明,所提方案在已知密文模型和已知背景知識(shí)模型下是安全的,且具備對(duì)檢索結(jié)果的排序能力;與多關(guān)鍵字密文檢索結(jié)果排序(MRSE)方案相比,所提方案支持關(guān)鍵詞語(yǔ)義擴(kuò)展,查詢準(zhǔn)確率比MRSE方案更加準(zhǔn)確可靠,而檢索時(shí)間則與MRSE方案相差不大。

關(guān)鍵詞:云計(jì)算;語(yǔ)義擴(kuò)展;位置權(quán)重;相關(guān)度;相似度;密文檢索

中圖分類號(hào): TP309.2; TP393.08

文獻(xiàn)標(biāo)志碼:A

Abstract: Focusing on the shortages of existing ciphertext retrieval schemes in cloud computing, such as not supporting semantic extension of retrieval keyword, low accuracy and not ranking search results, a ranked ciphertext retrieval scheme supporting semantic extension of retrieval keyword was proposed. Firstly, Term Frequency-Inverse Document Frequency (TF-IDF) method was used to calculate the relevance scores between keywords and documents, and different weights were set for keywords in different document domains. The position weight scores of keywords in different document domains were calculated based on domain-weighted scoring method. The value of keyword corresponding position on document index vector was set as the product of position weight score and relevance score. Secondly, according to WordNet semantic Web, semantic extension was performed on retrieval keywords that input by the authorized users, and edit distance formula was used to calculate the similarity among semantic extension keywords, and the value of retrieval keyword corresponding position on document retrieval vector was set as similarity value. Finally, security index and document retrieval trapdoors were generated by encryption, and the inner product operation was performed based on Vector Space Model (VSM), and the result of ciphertext retrieval documents was sorted by the value of inner product operation. The theoretical analysis and experimental simulations show that the proposed scheme is safe under the known ciphertext model and the known background knowledge model, and has the ability to sort the search results. Compared with Multi-keyword Ranked Search over Encrypted cloud data (MRSE) scheme, the proposed scheme supports keyword semantic extension, and is more accurate and reliable than MRSE, while the retrieval time is not much different from MRSE scheme.

Key words: cloud computing; semantic extension; position weight; relevance; similarity; ciphertext retrieval

0 引言

隨著大數(shù)據(jù)、云計(jì)算技術(shù)的日益流行,越來(lái)越多的用戶選擇將數(shù)據(jù)外包給云,以減少數(shù)據(jù)在本地維護(hù)的開(kāi)銷,同時(shí)極大地方便數(shù)據(jù)共享,但是,數(shù)據(jù)外包給云將會(huì)給數(shù)據(jù)隱私帶來(lái)安全隱患,這是因?yàn)?,云服?wù)器是一個(gè)“誠(chéng)實(shí)而好奇”的半可信實(shí)體,會(huì)泄漏用戶數(shù)據(jù)中原本不愿意公開(kāi)的隱私信息,因此,數(shù)據(jù)在外包給云之前需要先進(jìn)行加密處理,以保護(hù)數(shù)據(jù)隱私的安全。數(shù)據(jù)加密后上傳云,使得傳統(tǒng)環(huán)境下的明文搜索方案不再可行,提出適合云計(jì)算環(huán)境下的有效密文檢索方案顯得十分有必要。

為實(shí)現(xiàn)在云計(jì)算環(huán)境下對(duì)密文數(shù)據(jù)的有效檢索,文獻(xiàn)[1]率先開(kāi)始了密文檢索研究,在2000年提出了首個(gè)基于密文掃描思想的對(duì)稱可搜索加密方案,該方案不支持文件檢索索引,而是采用對(duì)稱加密技術(shù)將文件劃分為“單詞”進(jìn)行加密,算法的存儲(chǔ)開(kāi)銷大、時(shí)間效率極低。此后,國(guó)內(nèi)外學(xué)者繞圈著如何提高可搜索加密算法的效率、可操作性能等問(wèn)題開(kāi)展了大量的研究工作,文獻(xiàn)[2-4]為文檔構(gòu)建了檢索索引,提出了基于索引的可搜索加密檢索方案,提高了文檔密文檢索的效率;但是文獻(xiàn)[2-4]中的索引都是基于文檔中已有的固定關(guān)鍵詞構(gòu)建的,不支持文檔更新。文獻(xiàn)[5-7]對(duì)云服務(wù)器中存放的密文文件的動(dòng)態(tài)添加、更新或刪除操作進(jìn)行了深入的改進(jìn)研究,提出了支持文檔更新的密文檢索方案;但是文獻(xiàn)[5-7]中方案沒(méi)有提供對(duì)檢索結(jié)果的排序功能。文獻(xiàn)[8]采用向量空間模型(Vector Space Model, VSM)計(jì)算文檔向量和檢索向量的內(nèi)積,以內(nèi)積運(yùn)算的結(jié)果為依據(jù)對(duì)文檔檢索結(jié)果進(jìn)行排序,提出了多關(guān)鍵字密文檢索結(jié)果排序(Multi-keyword Ranked Search over Encrypted cloud data, MRSE)方案。文獻(xiàn)[9]采用保序加密后的相關(guān)度分?jǐn)?shù)進(jìn)行多關(guān)鍵詞排序搜索,提高了搜索的精確度。文獻(xiàn)[10]基于二叉樹(shù)構(gòu)建了可排序文件檢索結(jié)構(gòu),實(shí)現(xiàn)結(jié)果排序的同時(shí)減少了存儲(chǔ)空間開(kāi)銷。文獻(xiàn)[11]針對(duì)文獻(xiàn)[8-10]中算法索引維護(hù)開(kāi)銷大和時(shí)間性能低的問(wèn)題,提出了一種基于計(jì)數(shù)型布隆過(guò)濾器的分布式文本檢索模型(Text Retrieval Model based on Counting Bloom Filter, CBFTRM),但是以上方案都要求用戶輸入的檢索關(guān)鍵詞必須與文檔中存在的關(guān)鍵詞精確匹配才能得到檢索結(jié)果;然而,實(shí)際的文檔檢索場(chǎng)景下,當(dāng)用戶輸入的檢索關(guān)鍵詞不存在文檔中時(shí),需要云服務(wù)器根據(jù)檢索關(guān)鍵詞的語(yǔ)義返回語(yǔ)義上相似的關(guān)鍵詞的檢索結(jié)果。為了滿足語(yǔ)義相似性檢索需求,提高檢索結(jié)果與用戶檢索請(qǐng)求之間的匹配度,文獻(xiàn)[12-15]中提出了多關(guān)鍵詞語(yǔ)義相似的模糊檢索方案;但是文獻(xiàn)[12-15]中方案卻忽略了不同位置上的關(guān)鍵詞對(duì)檢索結(jié)果的作用是不同的,沒(méi)有區(qū)別對(duì)待不同位置上的關(guān)鍵詞對(duì)檢索結(jié)果的作用,使得檢索結(jié)果不夠精確有序。

綜上所述,已有的研究成果沒(méi)有兼顧考慮語(yǔ)義相似的檢索關(guān)鍵詞在不同位置時(shí)對(duì)檢索結(jié)果的作用,認(rèn)為不同位置上檢索關(guān)鍵詞對(duì)檢索結(jié)果的作用是一樣的。這顯然是不合理的,例如,標(biāo)題中存在的關(guān)鍵詞和文檔正文中存在的關(guān)鍵詞對(duì)檢索結(jié)果的作用是不一樣的,標(biāo)題中存在關(guān)鍵詞的權(quán)重要大于正文中存在關(guān)鍵詞的權(quán)重。因此,本文提出支持檢索關(guān)鍵詞語(yǔ)義擴(kuò)展的可排序密文檢索方案,通過(guò)WordNet語(yǔ)義網(wǎng)對(duì)授權(quán)用戶輸入的檢索關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展,得到語(yǔ)義擴(kuò)展檢索關(guān)鍵詞集合,使用編輯距離公式計(jì)算語(yǔ)義擴(kuò)展檢索關(guān)鍵詞集合中關(guān)鍵詞之間的相似度,在滿足語(yǔ)義相似性檢索需求的同時(shí),對(duì)不同位置的關(guān)鍵詞設(shè)置不同的位置權(quán)重,分別使用域加權(quán)評(píng)分方法和詞頻逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)[16]方法計(jì)算位置權(quán)重評(píng)分、文檔中關(guān)鍵詞與文檔之間的相關(guān)度評(píng)分,為密文檢索文檔的準(zhǔn)確排序提供評(píng)分依據(jù)。

1 問(wèn)題描述

1.1 系統(tǒng)模型

為滿足效率和安全性能方面的需求,本文使用如圖1所示的混合云結(jié)構(gòu)模型,主要由數(shù)據(jù)擁有者、授權(quán)用戶、私有云服務(wù)器、公有云服務(wù)器4部分組成,如下所示。

1)數(shù)據(jù)擁有者。首先從待發(fā)布的明文文檔集合F=(f1, f2,…, fm)中提取n個(gè)關(guān)鍵詞,構(gòu)成文檔的關(guān)鍵詞字典W=(w1,w2,…,wn),并將關(guān)鍵詞字典W上傳至私有云服務(wù)器;然后,設(shè)置W中關(guān)鍵詞在文檔不同位置的權(quán)重,計(jì)算文檔中關(guān)鍵詞與文檔之間的相關(guān)度分?jǐn)?shù),對(duì)W中關(guān)鍵詞進(jìn)行二元分詞處理,將關(guān)鍵詞映射到文檔索引向量I=(I1,I2,…,Im),設(shè)置關(guān)鍵詞在索引向量相應(yīng)位置上的取值為位置權(quán)重評(píng)分與相關(guān)度評(píng)分的乘積;最后,加密F、I,產(chǎn)生密文文檔集合C=(c1,c2,…,cm)和安全索引向量SI=(SI1,SI2,…,SIm),一起上傳至公有云服務(wù)器。

2)授權(quán)用戶。輸入感興趣的檢索關(guān)鍵詞η1,發(fā)送至私有云服務(wù)器。獲取有序的密文檢索文檔,使用數(shù)據(jù)擁有者分發(fā)的密鑰解密得到明文目標(biāo)文檔。

3)私有云服務(wù)器?!罢\(chéng)實(shí)而可靠”的實(shí)體,安全性高、存儲(chǔ)空間小。首先接收并存儲(chǔ)數(shù)據(jù)擁有者上傳的關(guān)鍵詞字典W和授權(quán)用戶發(fā)送的檢索關(guān)鍵詞η1,使用WordNet語(yǔ)義網(wǎng)對(duì)η1進(jìn)行語(yǔ)義擴(kuò)展,得到語(yǔ)義擴(kuò)展檢索關(guān)鍵詞集合Γ=(η1,η2,…,ηk)。然后,判斷Γ中的關(guān)鍵詞與W中相應(yīng)位置上的關(guān)鍵詞是否匹配,如果是,設(shè)置關(guān)鍵詞在文檔檢索向量Q中相應(yīng)位置的值設(shè)為相似度值;反之設(shè)為0,完成Γ中關(guān)鍵詞到文檔檢索向量Q的構(gòu)造。最后,對(duì)Q進(jìn)行加密得到文檔檢索陷門TQ,發(fā)送至公有云服務(wù)器。

4)公有云服務(wù)器?!罢\(chéng)實(shí)而好奇”的半可信實(shí)體,安全性低,存儲(chǔ)空間大,可用于存儲(chǔ)密文文檔集合、安全索引向量,用接收到的文檔檢索陷門與安全索引進(jìn)行向量的內(nèi)積運(yùn)算,根據(jù)內(nèi)積運(yùn)算的結(jié)果對(duì)檢索到的密文文檔進(jìn)行排序,返回最相關(guān)的top-t篇文檔給授權(quán)用戶。

1.2 威脅模型

公有云服務(wù)器普遍被認(rèn)為是一個(gè)“誠(chéng)實(shí)而好奇”的半可信實(shí)體,通常情況下會(huì)誠(chéng)實(shí)地遵守用戶數(shù)據(jù)托管和通信協(xié)議進(jìn)行工作,不會(huì)刻意泄漏用戶隱私信息;但是,它會(huì)出于“好奇”而分析挖掘用戶的檢索請(qǐng)求,在分析挖掘的過(guò)程中會(huì)不經(jīng)意泄漏用戶數(shù)據(jù)中原本不愿意公開(kāi)的隱私信息,因此,根據(jù)系統(tǒng)中公有云服務(wù)器可以獲得的有效信息,本文考慮以下兩種威脅模型[8]。

1)已知密文模型。在這種模型下,公有云服務(wù)器只能獲取用戶提交的密文文檔、安全索引、文檔檢索陷門,除此之外,不能獲取任何有用的明文信息,公有云服務(wù)器只能選擇唯密文攻擊方式。

2)已知背景知識(shí)模型。在這種模型下,公有云服務(wù)器根據(jù)用戶的檢索請(qǐng)求,統(tǒng)計(jì)分析用戶檢索記錄中的隱含信息,可以挖掘出一些其他有用信息,如:用戶的文檔檢索偏好、關(guān)聯(lián)記錄、檢索結(jié)果等,公有云服務(wù)器可以進(jìn)行統(tǒng)計(jì)分析攻擊。

1.3 主要符號(hào)說(shuō)明

本文涉及到的一些主要符號(hào)說(shuō)明如下。

2 預(yù)備知識(shí)

2.1 TF-IDF方法

在信息檢索領(lǐng)域,廣泛采用TF-IDF加權(quán)統(tǒng)計(jì)計(jì)算方法計(jì)算關(guān)鍵詞與文檔的相關(guān)度。TF-IDF由關(guān)鍵詞詞頻(Term Frequency, TF)和逆文檔頻率(Inverse Document Frequency, IDF)兩部分組成,為了表示給定關(guān)鍵詞wj與文檔fi之間的相關(guān)度分?jǐn)?shù),本文使用式(1)進(jìn)行計(jì)算:

其中: fi,wj表示文檔fi中包含關(guān)鍵詞wj的個(gè)數(shù);|fi|表示文檔fi中包含關(guān)鍵詞的總數(shù);|F|表示文檔集F中文檔的總數(shù);|Fwj|表示文檔集F中包含關(guān)鍵詞wj的文檔數(shù)。

2.2 位置權(quán)重

在對(duì)文檔檢索結(jié)果按評(píng)分進(jìn)行排序時(shí),以往研究成果把出現(xiàn)在同一文檔中不同位置的關(guān)鍵詞視為具有相同的作用,而事實(shí)上,關(guān)鍵詞在同一文檔中的標(biāo)題、摘要以及正文中所起的作用是不同的,因此,本文根據(jù)文獻(xiàn)[17]中的域加權(quán)評(píng)分方法,把同一文檔劃分為標(biāo)題、摘要以及正文三個(gè)不同的區(qū)域,對(duì)三個(gè)區(qū)域中的關(guān)鍵詞設(shè)置不同的位置權(quán)重,其中,標(biāo)題的位置權(quán)重設(shè)為g1,摘要的位置權(quán)重設(shè)為g2,正文的位置權(quán)重設(shè)為g3,g1、g2、g3之間滿足關(guān)系式(2):

同一個(gè)關(guān)鍵詞可能出現(xiàn)在文檔的三個(gè)位置,需要綜合衡量關(guān)鍵詞在三個(gè)位置的權(quán)重評(píng)分,因此,本文用ρ1、 ρ2、 ρ3來(lái)分別表示關(guān)鍵詞在標(biāo)題、摘要以及正文中是否出現(xiàn)的評(píng)分,如果出現(xiàn),則相應(yīng)的評(píng)分為1;反之評(píng)分為0,使用式(3)來(lái)計(jì)算關(guān)鍵詞在文檔三個(gè)位置的權(quán)重評(píng)分:

例如,某關(guān)鍵詞wj在文檔fi的標(biāo)題、正文中出現(xiàn),則關(guān)鍵詞wj在文檔fi中的位置權(quán)重評(píng)分為Zij=g1+g3。

2.3 WordNet語(yǔ)義網(wǎng)

WordNet[18]是一個(gè)大型的認(rèn)知語(yǔ)言學(xué)英語(yǔ)詞匯語(yǔ)義網(wǎng),由Princeton大學(xué)的心理學(xué)家、語(yǔ)言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)而成。傳統(tǒng)的詞典根據(jù)詞形來(lái)組織詞匯,忽略了詞匯間的語(yǔ)義關(guān)系,WordNet則根據(jù)單詞的語(yǔ)義來(lái)組織詞匯,將名詞、動(dòng)詞、形容詞和副詞各自組織成一個(gè)同義詞網(wǎng)絡(luò),每個(gè)同義詞集合代表一個(gè)基本的語(yǔ)義概念,并通過(guò)概念語(yǔ)義詞匯關(guān)系相互關(guān)聯(lián)。經(jīng)過(guò)多年來(lái)的發(fā)展,WordNet已經(jīng)成為了計(jì)算機(jī)語(yǔ)言學(xué)、自然語(yǔ)言處理、知識(shí)工程等領(lǐng)域研究的有力工具,也是密文檢索系統(tǒng)中對(duì)檢索關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展的重要工具[19]。

2.4 編輯距離

編輯距離(Edit Distance)[20],又稱Levenshtein距離,是指兩個(gè)字符串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。編輯距離是兩個(gè)字符串之間相似度比較的重要計(jì)算函數(shù),也可用來(lái)作脫氧核糖核酸(DeoxyriboNucleic Acid, DNA)分析、拼寫(xiě)檢測(cè)、抄襲識(shí)別等相似性比較,如果兩字符串之間的距離越大,說(shuō)明它們?cè)讲煌?/p>

數(shù)學(xué)定義上,用式(4)表示兩個(gè)字符串a(chǎn)、b之間的距離,用式(5)表示它們之間的相似度:

其中:la、lb分別記錄字符串a(chǎn)、b的長(zhǎng)度;temp記錄兩字符串中相應(yīng)字符是否相等,如果相等,則temp記錄為0,否則記錄為1。

2.5 向量空間模型

VSM[21]是一個(gè)應(yīng)用于信息過(guò)濾、擷取、索引及相關(guān)性評(píng)估的代數(shù)模型,已成功地應(yīng)用于著名的Smart文本檢索系統(tǒng)。使用VSM進(jìn)行信息檢索時(shí),將文檔和檢索中的關(guān)鍵詞都表示成同一向量空間下、維度大小相同的向量,向量的維度大小等于關(guān)鍵詞的長(zhǎng)度,每一維對(duì)應(yīng)于一個(gè)關(guān)鍵詞,把對(duì)文檔內(nèi)容的處理轉(zhuǎn)化為對(duì)向量空間模型下向量的內(nèi)積運(yùn)算,內(nèi)積運(yùn)算的結(jié)果即可表明檢索關(guān)鍵詞與文檔是否匹配:若結(jié)果為0,則表示不匹配;反之,則表示匹配。VSM在可搜索加密研究領(lǐng)域應(yīng)用的成功案例起源于文獻(xiàn)[8]中提出的MRSE方案,MRSE首次嘗試使用VSM構(gòu)建安全索引和文檔檢索陷門以解決加密數(shù)據(jù)的多關(guān)鍵詞排序搜索,本文接下來(lái)借鑒此方法完成文檔檢索。

3 方案實(shí)現(xiàn)

本文提出的支持檢索關(guān)鍵詞語(yǔ)義擴(kuò)展的可排序密文檢索方案主要分如下幾個(gè)階段具體實(shí)現(xiàn)。

3.1 初始化設(shè)置

1)提取關(guān)鍵詞。數(shù)據(jù)擁有者從明文文檔集合F=(f1, f2,…, fm)中提取n個(gè)關(guān)鍵詞,構(gòu)成關(guān)鍵詞字典W=(w1,w2,…,wn),并將W上傳至私有云服務(wù)器。

2)產(chǎn)生安全密鑰。數(shù)據(jù)擁有者使用概率密鑰函數(shù)隨機(jī)的產(chǎn)生安全密鑰sk=(M1,M2,S,Pplu),并使用秘密通道(如Kerberos密鑰分配協(xié)議)將安全密鑰sk發(fā)送給授權(quán)用戶,完成對(duì)授權(quán)用戶的身份認(rèn)證和密鑰分發(fā)。其中:M1、M2為n階隨機(jī)可逆矩陣,S=(0,1)n為n位二元指示向量,Pplu為隨機(jī)產(chǎn)生的秘密的大素?cái)?shù),n為關(guān)鍵詞個(gè)數(shù)。

3)文檔加密上傳。采用AES(Advanced Encryption Standard)對(duì)稱加密算法,使用密鑰sk加密文檔集合F,將得到的密文文檔集合C=(c1,c2,…,cm)上傳至公有云服務(wù)器。

3.2 構(gòu)造安全索引

3.3 構(gòu)造檢索陷門

根據(jù)Franzen等[22]對(duì)微軟公司旗下的Encarta在線百科全書(shū)網(wǎng)站連續(xù)兩個(gè)月的用戶檢索行為的分析結(jié)果,49%的用戶習(xí)慣選擇輸入單個(gè)關(guān)鍵詞表達(dá)檢索請(qǐng)求,33%的用戶習(xí)慣選擇輸入兩個(gè)關(guān)鍵詞表達(dá)檢索請(qǐng)求,平均僅使用1.4個(gè)關(guān)鍵詞描述檢索請(qǐng)求;而且對(duì)檢索結(jié)果的分析發(fā)現(xiàn),輸入的關(guān)鍵詞越少,檢索結(jié)果命中的概率越低。用戶檢索習(xí)慣和目標(biāo)需求之間的這種矛盾,需要盡可能地考慮擴(kuò)展關(guān)鍵詞數(shù)量,以提高文檔檢索結(jié)果的命中率。本文接下來(lái)以授權(quán)用戶首先輸入單個(gè)感興趣的檢索關(guān)鍵詞,然后根據(jù)檢索關(guān)鍵詞的語(yǔ)義進(jìn)行相似性擴(kuò)展,產(chǎn)生多個(gè)語(yǔ)義上相似的關(guān)鍵詞進(jìn)行文檔檢索為例,詳述文檔檢索陷門的構(gòu)造過(guò)程如下,如圖3所示。

3.4 文檔檢索過(guò)程

公有云服務(wù)器收到文檔檢索陷門TQ后,依次與每篇文檔的安全索引SIi進(jìn)行內(nèi)積運(yùn)算,以判斷文檔中是否包含檢索關(guān)鍵詞,如果包含,則內(nèi)積運(yùn)算的結(jié)果為非0;反之,如果不包含,則內(nèi)積運(yùn)算的結(jié)果為0。然后,將所有包含檢索關(guān)鍵詞的密文文檔按內(nèi)積運(yùn)算的結(jié)果從大到小排序,返回最相關(guān)的前top-t篇密文文檔給授權(quán)用戶;授權(quán)用戶再使用數(shù)據(jù)擁有者分發(fā)的密鑰進(jìn)行解密,還原得到目標(biāo)明文。安全索引與文檔檢索陷門的內(nèi)積運(yùn)算過(guò)程如下:

安全索引與文檔檢索陷門進(jìn)行內(nèi)積運(yùn)算的結(jié)果表明,若文檔fi包含擴(kuò)展語(yǔ)義關(guān)鍵詞集合Γ中的關(guān)鍵詞,則計(jì)算結(jié)果的值為非0, fi是否為用戶感興趣的前top-t篇最相關(guān)目標(biāo)文檔,由位置權(quán)重評(píng)分Zij、相關(guān)度評(píng)分score(wj, fi)、相似度評(píng)分Ne三者的乘積進(jìn)行排序決定;若文檔fi不包含擴(kuò)展語(yǔ)義關(guān)鍵詞集合Γ中的關(guān)鍵詞,則計(jì)算結(jié)果的值為0, fi不是用戶感興趣的目標(biāo)文檔。

4 性能分析

4.1 安全性分析

本文首先使用了成熟的對(duì)稱加密算法AES加密文檔集F,產(chǎn)生密文文檔集C上傳至公有云服務(wù)器,有效保證了文檔內(nèi)容本身的安全性;然后借鑒文獻(xiàn)[8、14、21]中的方法,隨機(jī)生成了可逆矩陣M1、M2,對(duì)文檔索引Ii和文檔檢索向量Q進(jìn)行加密,產(chǎn)生安全索引SIi和文檔檢索陷門TQ上傳至公有云服務(wù)器。由于密鑰矩陣的空間是無(wú)窮大的,每次隨機(jī)產(chǎn)生的密鑰矩陣只有唯一的一個(gè)可逆矩陣,公有云服務(wù)器正確偽造密鑰矩陣破解安全索引、文檔檢索陷門的可能性幾乎為0,有效保證了文檔索引、檢索向量中包含信息的安全性,因此,在已知密文模型下,由于公有云服務(wù)器只能獲取密文文檔集、安全索引、文檔檢索陷門,除此之外不能獲取任何有用的明文信息,只要保證密鑰sk不被人為泄漏,本文方案是安全的;同時(shí),為了進(jìn)一步防止公有云服務(wù)器根據(jù)已知的背景知識(shí),即根據(jù)文檔索引、檢索陷門之間的內(nèi)在聯(lián)系,挖掘泄漏文檔隱私信息,本文在密鑰sk中產(chǎn)生了二元指示向量S對(duì)索引向量Ii和文檔檢索向量Q進(jìn)行分裂運(yùn)算,并且進(jìn)行索引向量Ii和文檔檢索向量Q的分裂時(shí)引入了隨機(jī)數(shù)r、r′,保證了多個(gè)文檔索引、檢索向量之間是無(wú)關(guān)聯(lián)的,即使用戶多次重復(fù)同一檢索操作,公有云服務(wù)器收到的檢索陷門也是不一樣的,有效地抵抗了統(tǒng)計(jì)分析攻擊,因此,本文方案針對(duì)已知背景知識(shí)模型也是安全的。

4.2 可排序能力分析

本文方案在構(gòu)建安全索引時(shí),以關(guān)鍵詞在文檔中的位置權(quán)重評(píng)分和相關(guān)度評(píng)分之積設(shè)為索引向量相應(yīng)位置上關(guān)鍵詞的取值,既可以判斷目標(biāo)文檔是否包含檢索關(guān)鍵詞,還可以很好地體現(xiàn)檢索關(guān)鍵詞與目標(biāo)文檔的相關(guān)性程度。在文檔檢索的授權(quán)用戶端,構(gòu)建文檔檢索陷門時(shí),為了很好地體現(xiàn)語(yǔ)義擴(kuò)展檢索關(guān)鍵詞之間的內(nèi)在聯(lián)系,以關(guān)鍵詞之間的語(yǔ)義相似度取值為檢索向量對(duì)應(yīng)位置上的取值。最后,進(jìn)行文檔檢索時(shí),可以快速地計(jì)算得到由位置權(quán)重評(píng)分、相關(guān)度評(píng)分、相似度評(píng)分三者之積構(gòu)成的排序依據(jù),以此依據(jù)對(duì)檢索結(jié)果進(jìn)行排序,很好地體現(xiàn)了關(guān)鍵詞與文檔之間、關(guān)鍵詞與關(guān)鍵詞之間內(nèi)在聯(lián)系,使得排序結(jié)果更加精確、可靠。

4.3 效率分析

本文以IEEE數(shù)據(jù)庫(kù)中的外文文獻(xiàn)為測(cè)試數(shù)據(jù)集,使用Java語(yǔ)言編程進(jìn)行仿真實(shí)驗(yàn)。在Intel Core i5-3230 2.60GHz雙核心CPU、2.0GB RAM內(nèi)存、Windows 7 64位操作系統(tǒng)平臺(tái)上,使用開(kāi)源開(kāi)發(fā)環(huán)境Apache-tomcat-7.0.23、MyEclipse2014、JDK1.7完成實(shí)驗(yàn)。在進(jìn)行實(shí)驗(yàn)測(cè)試時(shí),使用PDFBox的Java類庫(kù)提取PDF文檔中的關(guān)鍵詞構(gòu)造關(guān)鍵詞字典,并使用WordNet-InfoContent-2.1、WordNet3.0對(duì)檢索關(guān)鍵詞進(jìn)行語(yǔ)義擴(kuò)展和相似度計(jì)算。

4.3.1 查準(zhǔn)率

信息檢索領(lǐng)域普遍使用返回相關(guān)文檔數(shù)與實(shí)際檢索得到的文檔總數(shù)之比表示文檔檢索時(shí)的準(zhǔn)確率,為測(cè)試本文方案進(jìn)行文檔檢索時(shí)的查準(zhǔn)率。首先從IEEE數(shù)據(jù)庫(kù)中選取1000篇文檔作為測(cè)試數(shù)據(jù)集,并從中提取3000個(gè)關(guān)鍵詞構(gòu)造安全索引;然后,使用不同數(shù)量的語(yǔ)義擴(kuò)展檢索關(guān)鍵詞構(gòu)造檢索陷門進(jìn)行文檔檢索,測(cè)試排序靠前的top-20篇相關(guān)文檔的查準(zhǔn)率。圖5所示為語(yǔ)義擴(kuò)展檢索關(guān)鍵詞規(guī)模對(duì)文檔檢索查準(zhǔn)率的影響,結(jié)果表明,單個(gè)關(guān)鍵詞檢索時(shí)查準(zhǔn)率最低為45%,而隨著語(yǔ)義擴(kuò)展檢索關(guān)鍵詞數(shù)量的增加檢索查準(zhǔn)率也隨之提高,當(dāng)語(yǔ)義擴(kuò)展檢索關(guān)鍵詞數(shù)量增大到20時(shí),查準(zhǔn)率最高達(dá)到92%左右,原因是,關(guān)鍵詞數(shù)量太少不足以清楚表達(dá)文檔檢索意圖,太多又容易語(yǔ)義表達(dá)混亂產(chǎn)生噪聲,因此,可以考慮將語(yǔ)義擴(kuò)展檢索關(guān)鍵詞的規(guī)模設(shè)為20。

圖6所示為設(shè)置檢索關(guān)鍵詞數(shù)k=20、關(guān)鍵詞字典規(guī)模n=3000時(shí),在不同文檔集規(guī)模中進(jìn)行文檔檢索,返回排序靠前的top-20篇目標(biāo)文檔時(shí),本文方案與MRSE方案的檢索查準(zhǔn)率對(duì)比。

圖6中結(jié)果表明,隨著文檔規(guī)模的增大,本文方案的查準(zhǔn)率基本維持在92%左右,而MRSE方案的查準(zhǔn)率會(huì)隨著文檔規(guī)模的增加而降低,這是因?yàn)?,本文方案在?gòu)建安全索引時(shí),不僅使用TF-IDF詞頻方法計(jì)算了關(guān)鍵詞與文檔之間的相關(guān)度,還考慮了不同位置關(guān)鍵詞的權(quán)重作用,使得構(gòu)建安全索引所用的關(guān)鍵詞與文檔之間的內(nèi)在聯(lián)系更加緊密;并且,授權(quán)用戶端在構(gòu)建文檔檢索陷門時(shí),使用了編輯距離公式建立了檢索關(guān)鍵詞之間的相似度聯(lián)系,因此,使得本文方案可以在不同規(guī)模文檔集中保持較高的查準(zhǔn)率。

4.3.2 檢索時(shí)間

文檔檢索的時(shí)間開(kāi)銷主要包含產(chǎn)生安全索引時(shí)間、構(gòu)建文檔檢索陷門時(shí)間、內(nèi)積運(yùn)算時(shí)間三部分,三部分時(shí)間都與文檔集規(guī)模、關(guān)鍵詞字典規(guī)模線性相關(guān)。為了較好地評(píng)測(cè)本文方案與MRSE方案的檢索時(shí)間開(kāi)銷,本文設(shè)置MRSE方案中輸入的檢索關(guān)鍵詞數(shù)量和本文方案中語(yǔ)義擴(kuò)展檢索關(guān)鍵詞的數(shù)量一樣,都為20,分別在文檔集規(guī)模m值變化和關(guān)鍵詞字典規(guī)模n值變化的情況下重復(fù)執(zhí)行多次實(shí)驗(yàn),統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果的平均值進(jìn)行對(duì)比分析,如圖7(a)、(b)所示。實(shí)驗(yàn)結(jié)果表明,隨著文檔規(guī)模和關(guān)鍵詞字典規(guī)模的增大,兩種方案進(jìn)行文檔檢索時(shí)所耗費(fèi)的時(shí)間都會(huì)隨之增加,且本文方案所耗費(fèi)的時(shí)間比MRSE方案略長(zhǎng)。這種結(jié)果的原因是,隨著文檔規(guī)模和關(guān)鍵詞字典規(guī)模的增大,安全索引和檢索陷門的維度都隨之變大,使得矩陣加密、向量分裂與內(nèi)積運(yùn)算花費(fèi)的時(shí)間開(kāi)銷都隨之增大;并且,相比MRSE方案來(lái)講,由于本文方案在構(gòu)建安全索引時(shí)多了關(guān)鍵詞位置權(quán)重和相關(guān)度計(jì)算、構(gòu)造檢索陷門時(shí)增加了相似度計(jì)算,因此,總體上來(lái)講,本文方案進(jìn)行文檔檢索時(shí)的運(yùn)算復(fù)雜度比MRSE方案大,總的耗費(fèi)時(shí)間也就相對(duì)稍長(zhǎng)一些;但是,從檢索時(shí)間開(kāi)銷的數(shù)值來(lái)看,兩種方案所花費(fèi)的時(shí)間開(kāi)銷都不大,都在可接受的有效范圍之內(nèi)。

5 結(jié)語(yǔ)

密文檢索是近年來(lái)隨著大數(shù)據(jù)、云計(jì)算發(fā)展起來(lái)的一項(xiàng)重要技術(shù),既可以實(shí)現(xiàn)密文檢索,又可以保護(hù)用戶隱私不被泄漏,但是云計(jì)算環(huán)境下已有的密文檢索解決方案存在不支持檢索關(guān)鍵詞語(yǔ)義擴(kuò)展、檢索結(jié)果不夠精確有序等問(wèn)題,因此,本文使用TF-IDF方法、位置權(quán)重、WordNet語(yǔ)義網(wǎng)、編輯距離計(jì)算方法、VSM技術(shù)提出了支持檢索關(guān)鍵詞語(yǔ)義擴(kuò)展的可排序密文檢索方案。該方案能夠在保護(hù)文檔隱私安全性的同時(shí),在有效、可接受的檢索時(shí)間范圍內(nèi)實(shí)現(xiàn)對(duì)密文檢索文檔的準(zhǔn)確排序,實(shí)現(xiàn)了檢索關(guān)鍵詞的語(yǔ)義擴(kuò)展需求。但是由于本文方案相對(duì)MRSE方案來(lái)講增加了關(guān)鍵詞位置權(quán)重、相關(guān)度與相似度計(jì)算,使得檢索時(shí)間比MRSE方案略長(zhǎng),因此,下一步的研究方向是改進(jìn)算法,減少檢索時(shí)間開(kāi)銷。

參考文獻(xiàn) (References)

[1] SONG D X, WAGNER D, PERRING A. Practical techniques for searches on encrypted data [C]// Proceedings of the 2000 IEEE Symposium on Security and Privacy. Washington, DC: IEEE Computer Society, 2000: 44-55.

[2] CHANG Y C, MITZENMACHER M. Privacy preserving keyword searches on remote encrypted data [C]// Proceedings of the 2005 International Conference on Applied Cryptography and Network Security. New York: ACM, 2005: 442-455.

[3] GOH E J. Secure Indexes [EB/OL]. (2004-03-16)[2018-05-28]. http://eprint.iacr.org/2003/216.

[4] CURTMOLA R, GARAY J, KAMARA S, et al. Searchable symmetric encryption: improved definitions and efficient constructions [J]. Journal of Computer Security, 2011, 19(5):895-934.

[5] LIESDONK P V, SEDGHI S, DOUMEN J, et al. Computationally efficient searchable symmetric encryption [J]. Secure Data Management, 2010, 63(58): 87-100.

[6] KAMARA S, PAPAMANTHOU C. Parallel and dynamic searchable symmetric encryption[C]// Proceedings of the 2013 International Conference on Financial Cryptography and Data Security. Berlin: Springer, 2013:258-274.

[7] YANG C, ZHANG W, XU J, et al. A fast privacy-preserving multi-keyword search scheme on cloud data[C]// Proceedings of the 2013 International Conference on Cloud and Service Computing. Washington, DC: IEEE Computer Society, 2013:104-110.

[8] CAO N, WANG C, LI M, et al. Privacy-preserving multi-keyword ranked search over encrypted cloud data [J]. IEEE Transactions on Parallel & Distributed Systems, 2014, 25(1):222-233.

[9] XU J, ZHANG W, YANG C, et al. Two-step-ranking secure multi-keyword search over encrypted cloud data[C]// Proceedings of the 2012 International Conference on Cloud and Service Computing. Washington, DC: IEEE Computer Society, 2012:124-130.

[10] 李倩,岳風(fēng)順,王國(guó)軍.安全云存儲(chǔ)中高效的多關(guān)鍵詞查找方案[J].計(jì)算機(jī)科學(xué),2012,39(12):158-161.(LI Q, YUE F S, WANG G J. Efficient multi-keyword search over secure cloud storage[J]. Computer Science, 2012,39(12):158-161.)

[11] 馮加軍,王曉琳,田青.基于計(jì)數(shù)型布隆過(guò)濾器的文本檢索模型[J].計(jì)算機(jī)工程,2014,40(2):58-61.(FENG J J, WANG X L, TIAN Q. Text retrieval model based on counting bloom filter[J]. Computer Engineering, 2014, 40(2):58-61.)

[12] FU Z, SUN X, LINGE N, et al. Achieving effective cloud search services: multi-keyword ranked search over encrypted cloud data supporting synonym query [J]. IEEE Transactions on Consumer Electronics, 2014, 60(1):164-172.

[13] XIA Z, ZHU Y, SUN X, et al. Secure semantic expansion based search over encrypted cloud data supporting similarity ranking [J]. Journal of Cloud Computing: Advances, Systems and Applications, 2014, 3(1):1-11.

[14] 何亨,夏薇,張繼,等.一種云環(huán)境中密文數(shù)據(jù)的模糊多關(guān)鍵詞檢索方案[J].計(jì)算機(jī)科學(xué),2017,44(5):146-152.(HE H, XIA W, ZHANG J, et al. Fuzzy multi-keyword retrieval scheme over encrypted data in cloud computing[J]. Computer Science, 2017, 44(5):146-152.)

[15] 黃汝維,李志坤,江恩瑋,等.云計(jì)算環(huán)境中支持模糊檢索的加密算法[J].廣西大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,42(3):1121-1130.(HUANG R W, LI Z K, JIANG E W, et al. An encryption algorithm supporting fuzzy retrieval in cloud computing[J]. Journal of Guangxi University (Natural Science Edition), 2017, 42(3):1121-1130.)

[16] ZHANG W, XIAO S, LIN Y, et al. Secure ranked multi-keyword search for multiple data owners in cloud computing[C]// Proceedings of the 2017 IEEE International Conference on Parallel and Distributed Systems. Piscataway, NJ: IEEE, 2017: 276-286.

[17] MANNING C D, RAGHAVAN P. Introduction to Information Retrieval [M]. Cambridge, UK: Cambridge University Press, 2010:79-113.

[18] RISTAD E S, YIANILOS P N. Learning string-edit distance [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(5): 522-532.

[19] MILLER G A, BECKWITH R, FELLBAUM C, et al. WordNet: An Electronic Lexical Database [M]. Cambridge, MA: MIT Press, 1998:156-178.

[20] WITTEN I H, MOFFAT A, BELL T C. Managing gigabytes: compressing and indexing documents and images [J]. IEEE Transactions on Information Theory, 1995, 41(6):79-80.

[21] FU Z, WU X, WANG Q, et al. Enabling central keyword-based semantic extension search over encrypted outsourced data [J]. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 2986-2997.

[22] FRANZEN K, KARLGEN J. Verbosity and interface design[R]. Kista: Swedish Institute of Computer Science, 2000: 5.

猜你喜歡
排序語(yǔ)義
排排序
排序不等式
恐怖排序
語(yǔ)言與語(yǔ)義
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
“深+N季”組配的認(rèn)知語(yǔ)義分析
語(yǔ)義分析與漢俄副名組合
主站蜘蛛池模板: 国产人成在线视频| 人人澡人人爽欧美一区| 欧美在线精品怡红院| 亚洲精品爱草草视频在线| 国产成人综合日韩精品无码首页| 国产成人超碰无码| 亚洲一区二区约美女探花| 91久久精品国产| 日韩视频免费| 国产精品99久久久久久董美香| 色欲综合久久中文字幕网| 国产一区二区三区免费观看| 99视频只有精品| 亚洲激情99| 69精品在线观看| 精品無碼一區在線觀看 | 亚洲国产av无码综合原创国产| 99热国产这里只有精品9九| 久久亚洲国产一区二区| 亚洲av中文无码乱人伦在线r| 二级特黄绝大片免费视频大片| 国产日韩精品欧美一区灰| 国产精品无码影视久久久久久久 | 中文字幕无码电影| 国产精品第一区在线观看| 亚洲黄色视频在线观看一区| 欧美一区日韩一区中文字幕页| 国产精品9| 免费99精品国产自在现线| 91成人试看福利体验区| AV在线天堂进入| Aⅴ无码专区在线观看| 三上悠亚在线精品二区| 精品国产成人国产在线| 国产欧美日韩精品第二区| 欧美成人国产| 国产精品极品美女自在线| 欧美黑人欧美精品刺激| 日韩精品免费一线在线观看| 亚洲娇小与黑人巨大交| 无码国产偷倩在线播放老年人 | 国产成在线观看免费视频 | www亚洲天堂| 日韩精品一区二区三区免费在线观看| 久久这里只精品国产99热8| 亚洲第一页在线观看| 国产亚洲视频在线观看| 在线欧美a| 91精品免费久久久| 麻豆国产在线不卡一区二区| 凹凸国产熟女精品视频| 红杏AV在线无码| 青青草原国产精品啪啪视频| 久久一本日韩精品中文字幕屁孩| 色天天综合| 91青青在线视频| 刘亦菲一区二区在线观看| 91www在线观看| 啪啪国产视频| 久久综合伊人77777| 国产系列在线| 亚洲手机在线| 久久久波多野结衣av一区二区| 国内精自线i品一区202| 日韩二区三区无| 不卡午夜视频| 精品国产亚洲人成在线| 国产探花在线视频| 视频一区亚洲| 国产精品女熟高潮视频| 免费高清自慰一区二区三区| а∨天堂一区中文字幕| 在线观看av永久| a级毛片免费网站| 国产精女同一区二区三区久| 无码中文AⅤ在线观看| 国产一区二区人大臿蕉香蕉| 亚洲国语自产一区第二页| 真实国产乱子伦高清| 99人体免费视频| 久久6免费视频| 丰满人妻一区二区三区视频|