凌曄華 龐抗 張曉潔 鄭鑫


摘要:針對當前企業對文檔保密與檢索功能的雙重需求,提出一種添加模糊匹配Hubble.Net保密文檔專用檢索閱讀方法。采用AES(Advanced Encryption Standard)加密算法對將加密文檔提取的流信息流進行加密,使用Hubble.Net與對加密文檔進行檢索時,而模糊匹配算法的使用大大增加了字符比對的容錯性,在保證文檔加密的同時兼顧了文檔位置定位、關鍵字定位等文檔檢索功能。在檢索速度及精度方面,要優于現有的方法。
關鍵詞:文檔檢索;Hubble.Net;模糊匹配:AES加密
0引言
在時下的信息時代背景下,大部分科技企業的文檔數量正在急劇增加,因此對于文檔的檢索與保密勢必關涉到公司的整體權益與未來走勢,如何能夠高效全面地控制管理各類包含秘密信息的文檔則已顯得尤為重要。當前企業采取了形式多樣的文檔保密措施,如通過規章制度的管理方式,或者指定PC機來存儲保密文檔、限制PC機聯網、去掉與外部設備連接的接口等。分析可知,這些措施都存在著重大的安全隱患,而且更使得當前文檔的檢索和閱讀也變得較為復雜繁瑣。
針對上述問題的研究進展,已經陸續涌現了一定成果。其中,文獻改進了基于簡單關鍵詞匹配的算法,就是通過對用戶提供的關鍵詞進行匹配檢索,但卻缺乏一定的容錯性能,如用戶在使用前并未能掌握檢索結果相近的關鍵詞,獲得的檢索結果也將與用戶的預期相差甚遠。文獻即在匹配檢索的基礎上加入了語義的提取與分析,由此則可提升檢索信息的價值,但是由于檢索之前還需對語義進行提取,因此效率上隨即出現了下降傾向,而且在數據量較大的情況下將不再適于選擇使用。另外,文獻還設計了一種在檢索中進行詞型檢索算法,雖然提高了查詢的效率,但是會出現明顯的多查現象,需要用戶展開二次甄別,影響了用戶體驗。因此亟待進一步的發展完善。
針對上述研究及企業當前對于文檔的保密與檢索的雙重需求,本文提出采用AES加密方法對文檔進行加密,將文檔的章節位置信息當作檢索關鍵字寫入數據庫,使用Hubble.Net檢索的基礎上添加模糊匹配對加密文件進行檢索,這種采用模糊匹配與AES加密的Hubble.Net文檔檢索系統在保證了文檔的保密前提下,兼顧了保密文檔的檢索與使用效率。本次設計中,加密文檔檢索系統結構如圖1所示。
1檢索算法
Hubble.Net是一個基于.net framework的開源全文搜索數據庫項目。全文搜索數據庫系統與普通關系數據庫系統的區別就在于,前者可以讓使用者對文檔快速實現文本信息的全文搜索,同時也設置了對數據庫中字段的邏輯查詢。目前的一些主流數據庫都提供了全文搜索功能,但其全文搜索功能卻相對較弱,無法真正滿足實際應用需要。而一些全文搜索組件,比如著名的Lucene,只是具備了全文搜索功能,而缺乏和關系數據庫的關聯。Hubble.Net是一款集合全文搜索和關系查詢于一體的新型數據庫系統,用戶可以方便地通過SQL語句對數據庫定制選擇全文搜索、關系查詢、甚至全文+關系的查詢。Hubble.Net供給開放的數據庫適配器接口,可以和各類數據庫完美拓展對接,為各類數據庫體系附加全文檢索和數據發掘功能。Hubble.Net設計了較為高端的并發技術機制,數據的增刪改查可以多線程、同時也沒有任何沖突地并發推進與處理。Hubble.Net還給出了緩存和內存管理設計,可以使用戶最大限度地發揮查詢的作用與效力。