黃保華 袁鴻 黃丕榮 程琪



摘? ?要:中文關鍵詞的模糊檢索可以基于字形、字音、字義等不同方面,針對目前相關研究主要基于拼音相似度進行的局限性,文章提出了云環境下基于漢字字形相似度的密文模糊檢索方案。方案基于漢字字形相似性,通過歐幾里得距離來計算漢字的相似度,基于布隆過濾器和p-穩定分布的局部敏感哈希函數構建索引,通過安全陷門和安全索引內積的方式,實現了漢字多關鍵字的密文模糊檢索。實驗證明,方案在保證密文模糊檢索安全性的同時,具有較低的時間代價和空間代價。
關鍵詞:字形相似度;云環境;局部敏感哈希;可搜索加密;模糊檢索
中圖分類號: TP391? ? ? ? ? 文獻標識碼:A
1 引言
隨著云計算的普及,為節約數據存儲成本和增加訪問便捷性,大量數據被存儲于云服務器,其中不乏涉密的非結構化文檔,而這些文檔存儲之前需先進行加密。隨時間流逝,數據規模膨脹,對于大量加密數據的檢索成為問題,可搜索加密(Searchable Encryption,SE)應運而生[1]。
經典SE通過關鍵字精確檢索密文數據,但檢索易出現格式錯誤或檢索結果與查詢目標不一致,針對這些問題,Jin Li提出了模糊檢索,基于編輯距離構建模糊詞集合,實現模糊檢索[2]。Wang B提出適用于多個關鍵詞的密文模糊檢索,使用局部敏感哈希(Locality Sensitive Hashing,LSH)函數和布隆過濾器構造索引,大幅地提高了檢索效率[3]。
漢字構詞為多個單字組成,與英文有明顯界限的構詞方式不同。根據漢字構詞特性,Ding W利用TF-IDF實現漢字關鍵詞的自動提煉,并基于拼音構建模糊詞集進行匹配[4]。……