摘 要:基于形狀的圖像檢索技術是基于內(nèi)容的圖像檢索技術的一個重要組成部分。現(xiàn)有的形狀特征檢索技術主要集中在形狀特征的提取及相似性度量、形狀特征與顏色和紋理特征結合、形狀特征與高層的語義特征結合的研究。在分析現(xiàn)有的基于形狀的圖像檢索技術的一些關鍵技術的基礎上,對基于小波-傅里葉特征(WFD)的形狀檢索方法進行了研究,并提出了一些改進算法。
結合Matlab和ACCESS實現(xiàn)了一個基于形狀的圖像檢索實驗系統(tǒng),建立了用戶界面,選取與設計了4個圖像測試集,使用檢索性能評價方法對形狀特征的檢索結果進行了客觀的評價。實驗結果表明,利用本文所提出改進的形狀特征進行檢索取得了較好的檢索效果。
關鍵詞:基于形狀的圖像檢索;形狀特征;小波-傅里葉特征;檢索性能評價
Research of Shape-based Image Retrieval
ZHAO Chen,REN Yumiao
(School of Electronics and Information Engineering,Xi′an Technological University,Xi′an,710032,China)
Abstract:Shape-based image retrieval is one important part of content-based image retrieval.Current shape-based image retrieval techneques mainly focus on shape feature extraction and feature similarity evaluation,combination of shape,color,texture features in image retrieval,and combination of shape feature with semantic feature in image retrieval.This paper analyzes key techonologies of Wavelet-Fourier Descriptor,and improves some feature extracting methods.A testing system of shape-based image retrieval is completed with MATLAB and ACCESS,a user interface has been established.4 different image databases for testing performance of retrieval have been chosen and designed,and performance estimation methods have been used to objectively estimate shape descriptors.The experimental results show that our shape descriptor has good retrieval performance,is more consistent with human perception.
Keywords:shape-based image retrieval;combination of shape;wavelet-Fourier descriptor;retrieval performance estimation
1 引 言
隨著多媒體技術、計算機技術、通信技術及Internet網(wǎng)絡的迅速發(fā)展,人們正在快速地進入一個信息化社會。現(xiàn)代技術已能運用各種手段大量地采集和產(chǎn)生各種類型的多媒體數(shù)據(jù),人們對多媒體信息的需求也越來越大量和頻繁。圖像信息是多媒體信息中最常見的一種,也具有多媒體信息數(shù)據(jù)量大、抽象程度低的特點。如何從海量的圖像信息中有效地獲取有用信息,即圖像信息資源的管理和檢索顯得日益重要。隨著人們對圖像信息的巨大需求的增長,產(chǎn)生了基于文本的圖像檢索技術,比如著名的搜索引擎百度中對圖像的檢索。這種基于文本的檢索技術所利用的人工標注方法存在局限性,經(jīng)常檢索出來大量的用戶不感興趣的圖像,但在沒有更好解決辦法的情況下,用戶只能繼續(xù)使用。因此如何對圖像的內(nèi)容自動、客觀、全面地進行特征提取,真實有效的表示圖像內(nèi)容,幫助用戶快速有效地訪問感興趣的圖像有著極大的研究需求和迫切的需要,而基于內(nèi)容的圖像檢索(Content Based Image Retrieval,CBIR)技術恰好能有效的解決這個問題。另外在實際的應用中,圖像數(shù)據(jù)庫及其檢索的研究對多媒體數(shù)字圖書館、醫(yī)學圖像管理、衛(wèi)星遙感圖像和計算機輔助設計和制造、地理信息系統(tǒng)、犯罪識別系統(tǒng)、商標版權的管理,生物的辨識分類等方面提供有力的支持。
自上世紀70年代以來,圖像檢索便成為一個非常活躍的研究領域[1]。目前廣泛應用的基于文本和關鍵字的圖像檢索技術(Text Based Image Retrieval,TBIR)主要有兩種方法:一種是通過對圖像進行人工標注關鍵字進行檢索;另一種就是根據(jù)圖像的外部信息,如圖像文件名、目錄名、路徑名和周圍的文字說明信息等進行檢索,這是目前圖像搜索引擎采用最多的方法。這種方法存在一定的局限性:大量注釋性文字的手工輸入需要花費大量人力和物力;不同的人對圖像的理解存在主觀性;簡短的文本描述難以體現(xiàn)圖像豐富的內(nèi)容;因此常常檢索出許多無關的結果。
針對基于文本和關鍵字的圖像檢索技術的局限性,上世紀90年代出現(xiàn)了基于內(nèi)容的圖像檢索技術(Content Based Image Retrieval,CBIR),成為了國內(nèi)外研究的一個新熱點。它是基于圖像視覺特征的圖像檢索,根據(jù)圖像所包含的顏色、紋理、形狀、空間關系以及它們的組合特征等信息建立索引,并且通過圖像特征向量間的距離進行相似性度量。CBIR綜合應用了圖像工程、數(shù)字信號處理、人工智能等相關學科的知識,直接比較圖像的內(nèi)容,更符合人的視覺習慣。
基于內(nèi)容的圖像檢索技術自上世紀90年代“冠名”以來得到了國內(nèi)外信息領域科技人員的廣泛重視,也得到了許多國際學術組織的重視和關注,成為了圖像、數(shù)據(jù)庫技術中的研究熱點之一,已有大量的相關理論研究和技術應用,取得了長足的進展。近年來國內(nèi)外的一些大專院校和科研機構,在該領域進行了大量的研究。比如美國加州大學伯克利分校、麻省理工學院、新加坡國立大學、美國密歇根大學、我國的清華大學、浙江大學、中科院,進行了這方面的研究,在圖像特征的提取與表達、圖像檢索數(shù)據(jù)庫的建立與管理、圖像特征的相似性度量、圖像檢索系統(tǒng)的性能評價、圖像檢索的網(wǎng)絡化應用等方面都做了大量的研究工作,取得了一定的成果,并開發(fā)出了一些應用系統(tǒng)。現(xiàn)在已經(jīng)開發(fā)出來的基于內(nèi)容的圖像檢索系統(tǒng)主要有:IBM公司開發(fā)研制的商用圖像檢索系統(tǒng)QBIC(Query By Image Content)[2]、MIT的Photobook[3]系統(tǒng)、Columbia的VisualSeek[4]和Webseek[5]、美國UIUC的MARS[6]等。另外,一些國際標準,例如MPEG-7對于多媒體內(nèi)容的描述標準化也作了大量的工作。盡管基于內(nèi)容的圖像檢索技術獲得了大量研究者的關注,但它涉及許多領域,要將它真正應用于實際仍面臨許多挑戰(zhàn),還有許多問題需要解決。
2 基于形狀的圖像檢索技術
基于形狀的圖像檢索技術是利用圖像中目標的形狀特征進行圖像檢索的,它是基于內(nèi)容圖像檢索技術的一個十分重要的方面。基于形狀的圖像檢索技術是基于內(nèi)容的圖像檢索技術的一部分,研究者們做了以下方面的研究工作:形狀特征的表達、描述及其匹配;將形狀特征和顏色、紋理還有空間特征有效的結合起來,以實現(xiàn)通用的綜合圖像庫檢索;利用形狀帶有一定語義的特點,把較低層的形狀特征和高層的語義特征結合起來作更深一步的研究,比如基于語義的圖像檢索;形狀特征在檢索背景下的性能比較研究;形狀特征對形狀的描述能力與人的視覺相似性的比較研究。研究者對形狀特征的的表達與描述方法進行了大量的研究,基于邊界的形狀特征有:周長、主軸、曲率、形狀數(shù)、形狀標記、傅里葉描述方法、小波描述方法、尺度空間等;基于區(qū)域的形狀特征有:面積、重心、歐拉數(shù)、偏心率、幾何矩、Legendre矩、Zernike矩、廣義傅里葉描述符等[7-10]。各種形狀特征提取方法各有優(yōu)缺點。總的來說,在基于邊界的形狀檢索中,傅里葉描述方法的表現(xiàn)較好且易于實現(xiàn),邊界矩的表現(xiàn)也較好,但是高階矩沒有明確的物理意義;基于區(qū)域的形狀檢索克服了基于邊界檢索易受噪聲、變形影響的缺點,廣義傅里葉描述方法、區(qū)域矩等特征都可以取得較好的檢索效果[11,12]。
基于形狀的圖像檢索技術作為基于內(nèi)容圖像檢索的一部分,和它有相同的系統(tǒng)結構,見圖1。這里著重介紹形狀特征提取和檢索引擎的研究內(nèi)容。