楊仲迎 蘇曉龍
中國礦業大學計算機科學與技術學院 江蘇 221116
高校通過招生網站發布各類招考信息,突出自身的優勢、特色。考生通過招生網站也可以更加深入的了解高校各方面的信息。一個優秀的招生網站可以為考生提供與招生相關的全方位的信息服務,并為高校招生工作提供信息化工作平臺,實現高效、安全、人性化招生服務與管理方式,提高高校招生工作效率。
信息檢索分為廣義和狹義兩種。廣義的信息檢索是指將信息按一定的方式組織和存儲起來,并根據用戶的需要找出相關信息的過程。狹義的信息檢索則僅僅是從信息庫中找到所需要的信息,即信息查詢。在招生網站中,信息檢索是指狹義的信息檢索,研究的重點是如何讓考生快速、準確的找到自己所需要的信息。
在傳統信息檢索中,基于關鍵詞的搜索占據了很重要的一部分,幾乎所有的檢索系統中都涉及到關鍵字檢索。它有著很多優勢,其中最突出的一點就是快速。當然,由于信息量的增加,檢索結果中有一部分并不是所期待的搜索結果,這就是關鍵字搜索的不足之處。
在單一關鍵字的基礎上,可以增加至多個關鍵字以縮小搜索范圍、提高搜索的準確度。但同時要控制關鍵字個數,多關鍵字的約束了力很強,過多的關鍵字會導致沒有搜索結果。
由此可見,基于關鍵字的檢索存在著很大的不足之處。
現在社會信息高度發展,傳統的搜索方式并不能滿足人們日常工作的需求,智能化搜索的出現使信息檢索更加人性化、智能化。
基于內容的圖像檢索CBIR是指從圖像本身的內容入手來檢索數據庫中與目標圖像相近的圖像。它區別于傳統的檢索手段,融合了圖像理解技術,從而可以提供一種從海量圖像庫中檢索出目標圖像的有效方法。圖像檢索系統框架如圖1。

圖1 圖像檢索系統框架
查詢模塊:支持用戶根據不同的需求進行各種類型的查詢。
特征提取模塊:系統需要將用戶的查詢要求轉化為對圖像內容比較抽象的表達和描述,即以一定的計算機可以表達的數據結構描述圖像給定的內容。
特征匹配模塊:將目標圖像和數據庫中的圖像進行內容匹配。
反饋模塊:根據用戶反饋信息,系統通過修改查詢條件進行重新檢索。
紋理特征是一種不依賴于顏色和亮度的反應圖像中同質現象的視覺特征。它包含了物體表面結構組織排列的重要信息以及它們與周圍環境的聯系,是物體表面特有的內在特征。
基于灰度共生矩陣的紋理提取方法,提取圖像的八個紋理特征值。用城區距離進行特征匹配,返回目標圖像以及相似的圖像排序。
下面主要介紹基于灰度共生矩陣的紋理提取算法:
灰度共生矩陣法是對圖像所有像元進行統計調查,以便描述其灰度分布的一種方法。它用兩個位置像素的聯合概率密度來定義,是有關圖像亮度變化的二階統計特征。
一幅圖像的灰度共生矩陣能反映出圖像灰度關于方向、相鄰間隔、變化幅度的綜合信息,它是分析圖像的局部模式和它們排列規則的基礎。
設f(x, y)為一幅二維數字圖像,其大小為M×N,灰度級別為G,則滿足一定空間關系的灰度共生矩陣為:

其中σ(x)表示集合x中的元素個數,顯然P為G×G的矩陣,若(x1,y1)與(x2,y2)間距離為 d,兩者與坐標橫軸的夾角為 θ,則可以得到各種間距及角度的灰度共生矩陣p(i,j|d,θ)。


其中,rij表示滿足條件像素點的個數。一般來說,d較小則反映圖像的整體紋理分布;而較大的d則反映圖像小區域的細微變化;對于同一幅圖像,不同d的取值對應不同的共生矩陣。
由灰度共生矩陣可以計算出一組參數,用來定量描述紋理特征,比較常用的參數有以下幾個:

是灰度共生矩陣元素值的平方和,所以也稱能量,反映了圖像灰度分布均勻程度和紋理粗細度。當 P(i, j)值的分布集中于主對角線附近時,說明局部領域內圖像灰度分布是均勻的,圖像呈現較粗的紋理,能量值相應較大;反之,圖像呈現較細的紋理,能量值相應較小。

對比度的大小反映了整個圖像的灰度變化情況,如果對比度大,則該圖像像素間的灰度差異大。
相關:它度量空間灰度共生矩陣元素在行或列方向上的相似程度,因此,相關值大小反映了圖像中局部灰度相關性。

是圖像所具有的信息量的度量,紋理信息也屬于圖像的信息,是一個隨機性的度量,當共生矩陣中所有元素有最大的隨機性、空間共生矩陣中所有值幾乎相等時,共生矩陣中元素分散分布時,熵較大。它表示了圖像中紋理的非均勻程度或復雜程度。

反映圖像紋理的同質性,度量圖像紋理局部變化的多少。其值大則說明圖像紋理的不同區域間缺少變化,局部非常均勻。圖像檢索結果相關度的比較如圖 2,圖像檢索結果查準率的比較如圖3。

圖2 圖像檢索結果相關度的比較

圖3 圖像檢索結果查準率的比較
概念空間方法是利用計算機自動構造概念語義網絡并以此為基礎進行概念檢索的一種方法。
標引和檢索的不確定性是信息檢索中的一個重要問題。由于個體差異,標引者和檢索者使用的詞匯很難相同。為了解決詞匯差異問題,“概念檢索”應運而生,它用概念的聯系和匹配取代傳統的字面匹配。
垂直搜索是針對某一特定領域的專業搜索,是搜索的細分和延伸,是結構化資源的深度整合,具有專、深、精的特點。
由于社會分工的細化,不同的用戶往往有自己的專業需求。垂直搜索可以滿足用戶專業需求,它只針對某一特定領域,可以保證該領域信息鈕的收錄齊全和及時更新該領域信息。
基于關鍵字的信息檢索是智能化檢索的基礎,雖然現代檢索技術朝著智能化、個性化、專業化發展,由于基于關鍵字的信息檢索有著簡單、快捷的優點,在一些檢索要求不是很精確的情況下,基于關鍵字檢索仍是一種很好的檢索方法。
信息檢索面臨著很多難題,比如說,如何在加大檢索速度的基礎上提高檢索的精確度。未來檢索的發展趨勢就是在傳統檢索的基礎上更加人性化、智能化、專業化,能夠更好的滿足不同用戶的個性需求。
傳統基于關鍵字的信息檢索方法,往往返回一些無關信息,檢索結果存在很大的誤差,檢索的精確度也不高。智能化檢索突破了關鍵詞檢索的固有缺陷,使信息檢索更加人性化,精確化。基于內容的圖像檢索,可以實現在圖像庫中尋找與目標圖像相關的圖像,在圖像檢索中有很大的優勢。本文主要介紹了招生網站智能化搜索的一些方法,著重介紹了基于內容的圖像檢索,促進了招生網站智能化、人性化發展。
[1]徐菁,陳翼等.智能化服務型研究生招生網站的設計[J].中國教育信息化.2009.
[2]喬林.基于多關鍵詞檢索的企業競爭情報搜集方法研究[D].中國科學技術大學博士學位論文.2006.
[3]灰度共生陣.http://home.babytree.com/u/u1235357043/j/3047677, 2010.
[4]朱曉華.基于概念空間方法的信息檢索技術研究[J].理論研究.2002.
[5]陳先.智能化搜索引擎關鍵技術研究與實現[D].哈爾濱工業大學工學碩士論文.2003.