郭力潔,李新葉,宋金澮
(華北電力大學電子與通信工程系,河北保定 071003)
分面搜索起源于都靈大學的信息系,是計算機科學家、信息科學家、界面設計者、可用性研究人員都感興趣的一個話題。分面(Facet)一詞在國內信息組織領域一般被翻譯為分面,分面是指事物的多維度屬性,例如一本書包含主題、作者、年代等分面。而分面搜索是指通過事物的這些屬性不斷篩選、過濾搜索結果的方法,可以將分面搜索看成搜索和瀏覽的結合。人們看待事物的角度多種多樣,分面為這種多維角度的認知提供了靈活支持,企業搜索、信息架構、交互界面設計、多維數據庫等多個領域都在利用分面劃分的思想。分面搜索作為一種有效的搜索方式,已經被用在電子商務、音樂、旅游等多個方面。例如拍拍網將T恤分成款式、衣長、尺碼、顏色等分面,谷歌音樂將歌曲分為節奏、聲調、音色、年代、流派等分面。也有人認為分面是語義的初級階段,分面的方式可以看作是語義搜索的一種類型,充分揭示和表達關系。
事實上,這種探索式訪問適用于及其廣泛的實際情況,例如在“在線信息訪問系統”分面搜索已經越來越流行了,尤其是在電子商務[1]和網站搜索應用方面。如電子政務[2]、多媒體數據庫[3]、數字圖書館、軟件開發[4]等領域。
分面搜索有效提高了信息檢索的效率,改善了用戶體驗,對于交互式信息檢索的研究既有一定的理論價值,又有重要的實踐意義。
分面搜索(Faceted Search)提供的結果是上下文相關的,用戶選擇某個條件后,分面結果會在該條件限定下的結果集中動態獲取,從而能夠從不同的角度對數據進行歸類整合,幫助用戶進一步了解需要獲取的數據信息。在查詢過程中,用戶可靈活地切換導航面;另一個顯著優點解決了查詢結果為空集的難題,改善了用戶體驗[5]。分面搜索的優勢可以總結為以下3點:首先,分面搜索支持用戶根據自己的需要選取不同的分面進行篩選,而不必按照網站預先設定的單一方式尋找;其次,分面搜索允許用戶自己創建搜索路徑,并且可以隨時擴大和縮小結果范圍;最后,分面搜索只展現有對應結果的選項,避免了結果為空的情況。并且一般在搜索前提示用戶該選項內包含的結果數量,給用戶良好的操作前提示。
建立一個分面搜索系統的關鍵問題是選擇什么樣的面和值來讓用戶隨時可用。當文件涉及范圍非常廣的時候,這個問題尤其重要。一些系統顯示給用戶所有可能的分面值。這種方法會很快地淹沒用戶,導致削弱用戶性能。其他的系統如eBay Express,向用戶顯示一個手動選擇面的子集,和分面-值(Facet-Values)排名基于他們的頻率。其他的系統如Flamenco,簡單地顯示按字母表順序排列的前幾個分面-值。對于有很多面的系統來說,手動選擇和維護分面太費時。而且一個預先定義的界面不能滿足所有用戶的需求。需要的是一個自動選擇面和值的機制,根據用戶行為向用戶顯示,在一次搜索中,使預期的效用最大化。
在用戶不確定自己找的目標,即信息需求比較模糊的情況下進行某一主題的搜索時,以分面方式展示的導航是非常有用的搜索輔助功能。目前興起的分面導航[8]技術在圖書館學領域廣泛應用的基礎上,逐步向其他領域滲入,而導航屬性的選取主要通過領域專家指定,缺乏對面導航能力的評價體系。文獻[9]主要從數據導航的角度出發,提出了一種基于分面瀏覽技術的持久化RDF語義數據的存儲策略,利用統計學的方法從RDF實例中挖掘出適合作為面的謂詞,并利用層次聚類方法對統計過程丟失的適合作為導航能力的屬性考察。不同的導航模式使用戶在不同的方向上改變查詢。文獻[11]提出了4種導航模式:Zoom-in使得查詢更精確;Zoom-out使得查詢更廣泛;Shift通過一個相關概念替換一個查詢概念;Pivot通過一個相關概念替換整個查詢。
與分面搜索最相關的人就是馬蒂.赫斯特,他加入加州大學的伯克利分校,全心從事研究工作:Flamenco項目。弗拉明戈項目代表了近十年來對分面搜索工具的研究工作,它的核心是一個開源的分面搜索系統,該系統支持層次分面[6]。除了建立分面搜索的工具,赫斯特和他的同事還研究了接口設計、自動元數據創建等問題。其他學術上的研究成果還有RB++、mSpace、Freebase Parallax,其中 Parallax 把分面搜索推廣到了與語義網有關的一般的本體。
分面搜索最大的成功應該是它在商業領域的應用:(1)ENDECA:ENDECA成立于1999年,它為電子商務網站(如Wal-Mart and Home Depot)提供分面搜索,但是它還把這技術應用于制造業、出版業、財經服務和政府等領域。Endeca的特點就是以分面搜索為核心,進行電子商務和網站搜索應用。Triangle Research Libraries Network[7]是一個 ENDECA 支持的應用。(2)eBAY:易趣網最初是以在線拍賣網站出名的,2006年易趣網從事的一個項目叫eBay Express,它也使用分面搜索。(3)AMAZON:亞馬遜成立于1994年,是美國最大的在線零售商,開始只是賣書,后來發展到了各種商品以及服務。
雖然分面搜索首先應用于商業,但是后來也得到了開源社區的關注。2006年CNET網站推出了Solr,Solr一開始是為Lucene項目開發的,Lucene是應用最廣泛的開源搜索庫,雖然Solr對Lucene平臺進行了一些改進,但最重要的是引進了分面搜索,另外一個使用分面搜索的有名的開源社區是Drupal,這是一個開源內容管理平臺。
除了針對于RDF數據進行分面搜索,還有針對XML文檔進行的分面搜索,INEX會議是XML檢索界最著名的測評會議,在2011年INEX會議上首次提出了對以數據為中心的結構豐富的XML文檔的分面搜索評測任務。
大量的信息會把用戶淹沒,于是出現了許多改善分面推薦的算法。文獻[8]提出把分面瀏覽看作是構建和遍歷一棵決策樹,幫助選擇能夠瀏覽這棵樹的最有效的分面。文獻[12]介紹把最有價值的分面顯示給用戶必須遵循的原則包括:
(1)支持結果集中覆蓋率高的分面,尤其是當某分面的值包含在所有的文檔中時,而不是僅存在于一小部分文檔中。
(2)支持分面值分布熵很高的分面,例如,某分面有10個值,如果這10個值分布均勻的話,該分面更有價值。
分面搜索的另一個新的研究方向就是個性化的分面搜索。文獻[10]提出對于每一個用戶的行為使用協同過濾和個性化自定義搜索界面。一個面搜索界面逐步引導用戶在一個推薦的查詢精練列表里選擇來縮小范圍,而不是等著用戶從零開始創建結構化查詢。文獻[10]還提出使用明確的用戶評分,產生智能的分面搜索界面,它自動選擇面-值,根據用戶偏好創建一個界面。
分面搜索研究領域還存在許多問題需要解決:
(1)分面多時全部顯示分面會淹沒用戶視線:由于屏幕實際大小的限制以及人的注意力的限制,不能顯示所有的分面和值,需要每一步推薦分面來精練查詢。當存在少量分面時,固定顯示所有分面;當存在大量分面時,不可能同時顯示所有分面,需要有效的分面推薦算法來計算最有效的分面[14]。
(2)傳統的分面搜索技術適用于結構化數據,對于XML這種半結構化數據等的搜索不適用:分面搜索是基于分面分類系統來組織文檔集的。然而人們通常擁有的數據集是非結構化文本,或是半結構化的文檔,如XML文檔,這種情況下由于分面搜索要求文檔包含元數據,沒有元數據,就成了文本搜索。需要采用一些技術,豐富非結構化文本來獲取元數據,這些技術都屬于文本挖掘領域。以下列出了一些基本策略[12]:1)挖掘潛在的元數據,例如文檔來源、類型、大小等。2)基于規則或統計對文檔進行分類,分成預定義的幾類,多個獨立分類可以作為不同的分面。半結構化的XML文檔的分面搜索可以看成是結構化數據的分面搜索與文本搜索相結合。
(3)數據量大時分面搜索的計算效率:精練查詢的計算量遠大于計算滿足查詢約束的結果的計算量,如何有效地執行集合之間的交集運算是提高效率的關鍵。計算精練結果有兩種方法:自上而下、自下而上。自上而下的方法利用倒排索引,遍歷每一個分面-值,計算結果集中包含所有分面值的文檔的交集;自下而上的方法重復迭代結果集中每一個文檔,計算每一個文檔所包含的分面-值。兩種方法的計算量都取決于倒排索引和文檔的數據結構,如果訪問外部存儲器的話,自下而上的方法計算量相當大,所以自上而下的方法相對好。Yonik Seeley,Solr的創始人,采用了一種方法把兩種方法結合在一起得到了更高的效率[13]。
該綜述重點介紹了分面搜索的研究歷史、現狀、已取得的研究成果以及研究方法等。論述了該領域已解決的問題、尚存在的問題。綜合分析了分面搜索以往研究的優點、不足和貢獻,總結了分面搜索新的研究方向和趨勢:以往的分面搜索是對結構化的數據進行檢索,未來的研究可能對半結構化的XML文檔進行分面檢索,通過分面推薦有效提高信息檢索的效率,改善用戶體驗。
[1] SACCO G M.Dynamic taxonomies and guided searches[J].Journal of the American Society for Information Science and Technology,2006,57(6):792 -797.
[2] SACCO G M.Analysis and validation of information access through mono,multidimensional and dynamic taxonomies[C].Germany Springer:FQAS 2006,LNAI 4027,2006:659 -670.
[3] SACCO G M.Uniform access to multimedia information bases through dynamic taxonomies[C].IEEE 6th Int.Symp.on MultimediaSoftwareEngineering,(ISMSE'04),2004:320-328.
[4] NIU Nan,ANAS M,YANG Xiaoyong.Faceted navigation for software exploration[C].19thIEEE International Conference on Program Comprehension,2011:200 -205.
[5] 陳波.基于開源全文檢索系統Solr的OPAC分面瀏覽[J].應用實踐,2007(11):72 -75.
[6] Geeknet Inc.MinGW - minimalist GNU for windows[EB/OL].(2009 -12 -31)[2011 -12 -20]http://sourceforge.net/projects/flamenco.
[7] Capitol Broadcasting Company,Inc.TRLN offers"search TRLN"[EB/OL].(2010-12-02)[2011-11-19]www.search.trln.edu.
[8] OREN E,DELBRU R,DECKER S.Extending faceted navigation for RDF data[C].ISWC 2006,LNCS 4273,2006:559 -572.
[9] 王莉,高仲利.基于分面導航理論的RDF數據的持久化研究[J].計算機工程與應用,2010,46(9):130 -133.
[10] JONATHAN K,ZHANG Yi,LIU Xue.Personalized interactive faceted search.[C].Beijing:IEEE 26thInternational Confrance,2008.
[11] S'EBASTIEN FERR'E.Agile browsing of a document collection with dynamic taxonomies[C].19th International Conference on Database and Expert Systems Application.DOI10.1109/DEXA,2008:377 -381.
[12] DANIEL T.Facetedsearch cynthesis lectures on information concepts[M].USA:Retrieval,and Services,2009.
[13] LEAVE C.Advanced filter caching in solr[EB/OL].(2011-09 -02)[2011 -12 -26]http://yonik.wordpress.com/2008/11/25/solr-faceted-search-performance-improvements.
[14] GIOVANNI M S,YANNIS T.Dynamic taxonomies and faceted search [M].USA:Theory,Practice,and Experience Press,2009.