周 嵐
(江蘇聯合職業技術學院徐州財經分院,江蘇 徐州 221008)
檢索效果和檢索效率是評價一個檢索系統的兩個基本指標,其中檢索效率最重要的一個方面是檢索速度。文章介紹了提高系統檢索速度的幾項關鍵技術,包括索引的建立、使用和緩存的使用,其中索引加快了系統計算多媒體內容描述相似度的速度,緩存提高了系統在輸出頁面實現后續查詢(翻頁)的效率。
鑒于對基于內容的多媒體檢索系統進行評價的重要性,一直以來,這方面的工作得到了研究人員較多的重視。檢索效果和檢索效率是評價一個大規模檢索系統的兩個基本指標?!靶Ч背3R脖环Q為“質量”,指檢索返回結果集合的相關性和完整性,包括查準率和查全率兩個方面。
“效率”常常也被稱為“性能”,其最重要的兩個方面是系統的響應時間和吞吐率。
(1)響應時間是指從用戶向系統提交查詢到他開始看到結果的時間間隔。響應時間和速度是相關的兩個概念:響應時間越長,速度越慢;響應時間越短,速度越快。按一般的習慣,搜索引擎對用戶查詢的響應時間在“秒”量級是比較合理的。
(2)吞吐率是指系統在單位時間(秒)里可以服務的最大用戶查詢數量。實際中,我們往往需要在效果和效率之間折中,而不一定采用效果最好的技術。
倒排文件是大型信息檢索系統中常用的一種文件索引方法。倒排文件是描述一個詞項集合元素和一個文檔集合元素對應關系的數據結構。作為數據結構,倒排文件分兩部分:第一部分是由不同詞項組成的索引,稱為詞表。第二部分是由每個詞項出現過的文檔集合構成,稱為記錄文件。
在搜索引擎實際的應用中,有時需要按照關鍵字的某些值查找記錄,所以我們是按照關鍵字建立索引,這個索引就稱為:倒排索引;而帶有倒排索引的文件我們又稱作:倒排索引文件,也可以稱它為:倒排文件,來實現快速的檢索與高速的效率。
倒排文件:用記錄的非主屬性值(也叫副鍵)來查找記錄而組織的文件叫倒排文件,即次索引。倒排文件中包括了所有副鍵值,并列出了與之有關的所有記錄主鍵值,主要用于復雜查詢。
其主要優點是:在處理復雜的多關鍵字查詢時,可在倒排表中先完成查詢的交、并等邏輯運算,得到結果后再對記錄進行存取。這樣不必對每個記錄隨機存取,把對記錄的查詢轉換為地址集合的運算,從而提高查找速度。
完整的倒排表模型的索引由兩部分組成。
(1)索引頭:是一個一維數組,以字符內碼為下標,記錄各個字符的索引在索引體中的開始位置。
(2)索引體:索引體示意圖僅為方便理解,實際的索引體是示意圖中的各行數據依次首尾連接形成的一維數據流。圖中的每一行存放一個字符Ci(1≤i≤n)的索引數據,其結構為:
{Ti 1,Ni 1,[Oi 1a,Oi 1b…]},{Ti 2,Ni 2,[Oi 2a,Oi 2b…]},……,{Ti m,Ni m,[Oi ma,Oi mb…]}
其中Ti j(1≤j≤m)表示含有字符Ci的文本的內部代號,Ni j表示文本Ti j中字符Ci出現的次數,[Oi ja,Oi jb…]指出了文本Ti j中字符Ci出現的具體位置。
由于每個字符的索引數據的長度不同,因此需要索引頭中的指針來指出開始位置。
索引頭 索引體
指針 1 → {T1 1,N1 1,[O1 1a,O1 1b…]},{T1 2,N1 2,[O1 2a,O1 2b…]},……
指針2 → {T2 1,N2 1,[O2 1a,O2 1b…]},……
指針n → {Tn 1,Nn 1,[On 1a,On 1b…]},……
檢索時,設待查字符串為C1C2…Ci…Cr,首先通過索引頭定位各字符的索引數據,然后對數據進行分析:若 C1…Cr的索引數據中均含有文本T的索引記錄,在r個關于文本T的索引記錄中又含有O1,O2,…,Or(Oi是屬于字符Ci的索引數據),且Oi和Oi+1(1≤i≤r-1)的差值剛好是字符Ci所占字節數,則文本T為一個命中文本。找到所有的命中文本后(或分析完畢后仍找不到命中文本),檢索完成。
1 徐寶文、張衛豐.搜索引擎與信息獲取技術[M].北京:清華大學出版社,2003
2 劉峰.通用中英文專業搜索引擎技術的研究及應用[D].大連理工大學,2004
3 徐險峰.基于內容的多媒體信息檢索技術[J].現代情報,2005(3)