張蘭芳 年梅 李芳
摘 要: 借助計算機和因特網,信息查詢進入了快速發展的網絡化聯機檢索階段,搜索引擎的出現更是將信息查詢推向了智能化發展時代。文章以信息查詢發展為主線,分類總結了關鍵詞查詢擴展和概念語義查詢擴展的發展過程,并對支撐概念語義查詢擴展的概念語義結構和大規模語料庫的發展情況做了詳細的闡述,為概念語義查詢擴展方向的研究做了一些基礎工作。
關鍵詞: 信息檢索; 查詢擴展; 概念語義; 語料庫
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2015)11-08-04
Abstract: With the aid of the computer and the Internet, information query entered the rapid development of online retrieval stage, and the occurrences of search engines push the information inquiry into the era of intelligent development. This paper mainly summarizes the development process of keyword query expansion and concept semantic query expansion. The paper described the development of concept semantic structure and large-scale corpus which supported concept semantic query expansion in detail. It has done some basic work for the research of semantic query expansion direction.
Key words: information retrieval; query expansion; semantic concept; corpus
0 引言
信息查詢是在儲存信息的倉庫中比較和選擇符合查詢者需求的信息標識。它隸屬于圖書情報學,自從有了人類就有了信息查找的歷史。伴隨著經濟、文化、社會的快速發展,二十世紀五十年代信息查詢從手工方式進入到計算機檢索時代。經歷了脫機、聯機檢索后,信息查詢進入了快速發展的網絡化聯機檢索階段。因特網將全球的信息資源聯接起來成為世界上最大的信息倉庫,www搜索引擎將搜索范圍從文本擴大到網頁、圖片、音視頻等多種文件。信息檢索技術大力促進了信息資源的相互利用和科技進步,它是一門交叉、復合型的學科,主要包括數據庫管理(Database Management)、機器學習(Machine Learning)、人工智能(Artificial Intelligence)、自然語言處理(Natural Language Processing)等學科知識[1]。
1 查詢擴展
人們在查詢問題時所輸入的查詢關鍵詞往往會有很多種不同的表達方式,很多時候同一個概念在不同情況下會表示不同的意思,或不同的概念在特定的情況下會表示相同的意思。由于這種表達方式的不同會導致與查詢關鍵詞相關的文檔不能被檢索出來,降低檢索系統的查全率和查準率。基于這種原因,查詢擴展技術應運而生。
查詢擴展技術是利用多種學科知識將與初始查詢相關的術語添加到原查詢中組成新的意義更加全面準確的查詢序列,降低自然語言的模糊性和查詢歧義性,提高了檢索結果的查全率和查準率[2]。
目前,按照擴展詞的來源不同主要有基于全局分析、基于局部分析、基于關聯規則、基于用戶查詢日志和基于概念語義的查詢擴展技術。
1.1 關鍵詞查詢擴展
全局分析是較早出現的較實用的查詢擴展方法。1971年,Spacrk Jones首次提出了詞的聚類算法,試圖通過對全局詞語的共現來對詞進行聚類,并用聚類對查詢進行擴展,Rocchio利用向量空間模型,使用相關反饋算法并應用于SMART系統[3],獲得較好的檢索效果。1976年,Spark Jones與Robertson提出了概率模型[3],其關鍵是計算每個查詢詞在相關文檔和不相文檔中的分布狀況。二十世紀八十年代末,S.T.Dumais、M.W.Berry等人基于VSM理論框架,提出了潛在語義索引(Latent Semantic Indexing,LSI)的信息檢索模型,它是經典向量空間模型的一種改進,其關鍵是索引項-文檔矩陣的奇異值分解計算[4]。
早在1965年Rocchio提出了相關反饋法[5],這是一種加入用戶判斷提高檢索效果的查詢擴展技術。1977年Atter和Fraenkel首次提出了局部分析的重要思想[6]。目前較流行的局部分析方法主要是局部反饋(local feedback),也稱偽相關反饋(pseudo feedback),是在相關反饋(relevance feedback)的基礎上發展起來的[7-8]。該方法主要利用查詢時返回的top-N支持文檔來擴展原始查詢語句。但是這些查詢擴展方法的效果并不穩定。Xu和Croft又提出了局部上下文分析方法(Local Context Analysis,LSA),這是一種將全局分析中的Phrasefinder技術應用到局部分析的折中方法,但是這種方法仍然高度依賴于初次檢索結果,有可能會將大量與查詢無關的詞加入新查詢序列而導致檢索精度降低。
綜合以上這幾種查詢擴展方法,全局分析的優勢是可以最大限度地探求詞間關系,并在敘詞表建立之后可以高效地進行查詢擴展,但是在文檔集合非常大時,建立、維護全局的詞間關系敘詞表就會消耗大量的時間和空間。局部分析查詢擴展技術中,目前較流行的是局部反饋,它是在相關反饋的基礎上發展起來的[9-10]。相關反饋根據用戶對首次檢索結果的判斷選取擴展詞進行二次查詢,局部反饋解決了相關反饋必須與用戶進行交互的問題,它將首次查詢的Top-N文檔作為相關文檔,以此為依據進行查詢擴展,所以我們也把它稱為偽相關反饋查詢擴展,但是這種查詢擴展中Top-N文檔的選取容易引起初始查詢的漂移,其查詢效果并不穩定。
隨著自然語言處理、文本挖掘、知識表示及推理等研究工作的推進,學者們在傳統方法的基礎上對查詢擴展做了更進一步的研究和改進,提出了新的查詢擴展方法。如:Yahia和Jaoua在2001年[11]提出了基于關聯規則挖掘的查詢擴展研究,崔航、文繼榮等人在2003年提出的基于用戶查詢日志的查詢擴展研究[12],His-Ching Lin的基于模糊規則和用戶反饋的查詢擴展研究[13]。
1.2 概念語義查詢擴展
概念語義查詢擴展是在概念語義空間或大規模語料庫的基礎上對原查詢進行擴展的查詢技術[14]。
目前,基于概念語義的查詢擴展檢索研究正逐漸成為信息檢索領域的研究熱點。國外較著名的項目有Swoogle、KIM平臺、FINDUR系統, Swoogle借助Google等通用搜索引擎為其搜索博客、新聞種子、數字圖書館、版權元數據、軟件配置和詞典(如WordNet)等語義數據,其目的是推動語義網數據的獲取[15]。國內中科院計算所諸葛海等提出的知識網絡通過采用新的計算模式和新的資源組織與管理模型,能有效地輔助用戶進行資源的查詢、獲取和共享等工作[16]。董振東先生公開的中文知識庫《知網》為構建領域本體與領域知識做好了基礎支撐工作。
概念語義查詢擴展的方法主要分為兩類,一類是基于概念語義關系/概念語義結構的方法,另一類是基于大規模語料庫的方法[5]。目前,學者們主要是根據概念間的各種關系,利用一定的技術,構建概念知識庫、概念語義網絡、概念語義詞典或概念語義樹等概念語義空間,把原查詢看作一系列的概念(而不是一系列字符串),從建好的概念語義結構中提取查詢語義及語義關聯關系,實現語義概念擴展[5]。
2 概念語義結構
概念自身及其相互關系的結構化描述,稱為概念語義結構,也有學者稱其為概念空間(Concept Space)。概念語義結構分為通用型和領域相關型。通用型的概念結構應用面廣,但構造困難;領域相關型的概念結構專用性強,構造相對容易。概念語義結構的建立通常依靠手工方式,也可以借助機器學習機制自動生成[17]。
目前,概念語義結構的表現形式主要有概念分類樹(概念描述的分層組織結構)、領域本體(ontology)、敘詞表(Thesaurus)、概念語義網絡[17]。
2.1 概念分類樹
概念分類樹是一種形式比較簡單的概念結構,它只根據“上、下位”關系對概念進行層次化組織。分類樹體系中每一個概念只和它的最小上位(父親節點),以及它的最大下位(兒子節點)相連。通常,概念分類樹的建立是通過決定每一個概念在這個體系中的位置來手工實現。概念分類樹也可以通過使用特殊的概念標引技術自動構建,如Woods等人在Sun Microsystems所做的一項工作[18]。
2.2 領域本體(Ontology)
本體是反映領域內概念及概念關系的集合,關系本身也可以看作是概念,用以反映概念間的約束和聯系[19]。從形式上講,本體是領域內概念種類及其關系的詞匯表,它以精確的形式語言、句法和明確的定義來闡述概念關系,從而形式化為領域內各種事物之間交換信息的共同語言,它的目的是精確地表示那些隱含的信息,使得它們可以被軟件系統重用和共享[20]。1998年Studer提出“本體是共享概念模型的明確形式化規范說明”[20],它包括概念模型(Conceptualization)、明確(Explicit)、形式化(Format)、共享(Share)四個方面[20]。
2.3 敘詞表(Thesaurus)
敘詞表指詞庫(Treasury of Words)的引用[21],又稱主題詞表,它是一種語義詞典,由術語及術語之間的各種關系組成,能反映某學科領域的語義相關概念[17]。敘詞表可以引導用戶在結構化的受控詞表中選擇規范的相關詞語即標引詞,來表達自己想要查詢的內容,方便用戶更好的利用那些和他相關的詞語的基本語義[17]。敘詞表使用受控詞表(Controlled Vocabulary)標引文本和檢索,對概念標引的規范化、噪聲去除、標引詞的語義理解、概念層面的檢索等方面都非常有用[17]。由于有大量的專業術語,所以敘詞表在專業領域的文獻標引和檢索中具有非常重要的意義。
2.4 概念語義網絡
第一個在計算機上模擬實現語義網絡的學者是Robert F. Simmons,他基于LISP概念詞典生成了第一個語義網絡計算機程序,是WordNet、Protégé類型的領域知識系統的先驅[22]。后來,Shapiro 和Sowa等人在計算機系統上實現了具有實用價值的語義網絡系統,正式確立了語義網絡作為計算機科學一個獨立分支的地位[22]。
目前,基于概念語義網絡的查詢擴展正在成為信息檢索的主要手段。國外的概念語義網研究主要有:普林斯頓大學的學者們設計出的基于認知語言學的英語詞典WordNet[23],它是一個覆蓋范圍寬廣的英語詞匯語義網,也稱“單詞的網絡”;斯坦福大學提出的Protégé[24]可以構建管理概念層級,繼承序列和概念屬性,并提供屬性取值范圍約束,一致性驗證的查詢搜索等功能;HP提出的Jena是一個基于Java的開源項目,提供了面向RDF和OWL的API,并提供了推理子系統和SPARQL查詢子系統,能提供開放推理機接口框架[22];Open Source提出的Semantic Media Wiki讓用戶在輸入詞條釋文時可以通過特殊的標記輸入詞條之間的語義關系[22];斯擔福大學的Infomap search engine,通過選用不同的訓練語料,測試生成的概念語義網絡對查詢效果的影響,并在此基礎上,利用醫學相關語料和雙語詞典生成一個概念網絡,建立醫學文檔檢索的示范應用[25],還有W3C提出的Semantic Web等研究項目。
國內較典型的相關研究有:中科院計算機語言信息中心董振東先生提出的知網(HowNet),它是一個以漢語和英語的詞語所代表的概念為描述對象,揭示概念與概念之間及概念所具有的屬性之間的基本內容的常識知識庫[26];哈工大梅家駒等人編纂的《同義詞詞林》包含了一個詞語的同義詞和一定數量的同類詞即廣義的相關詞,《哈工大信息檢索研究室同義詞詞林擴展版》擴展了《同義詞詞林》,使其含有更加豐富的語義信息;中國科學院計算技術研究所用共現分析以及hopfield網絡概念空間,實現了基于概念空間的擴展檢索[27];北京郵電大學針對計算機及其應用領域,手工創建了一個含有500多個概念節點,包括一個分類體系和近300種概念相關關系的語義網絡,初步實現了特定領域的概念檢索[28];中國科學技術大學和中國科學院計算技術研究所聯合研究開發的基于概念語義空間的聯想檢索系統,通過共現分析建立概念語義空間,并借助于大型語義詞典《知網》,為用戶提供了一個智能檢索接口[29];上海交大對Semantic Media Wiki進行了擴展提出了EachWiki,利用AJAX技術實現識別鏈接,提供鏈接推薦、分類推薦、屬性推薦等編輯輔助功能,進一步幫助作者創作內容[30]。
3 大規模語料庫
基于大規模語料庫的查詢擴展是目前大數據時代的研究熱點,因特網就是一個龐大的語料庫,在這個真實的語料庫中,利用數據挖掘、人工智能、自然語言處理等技術結合用戶的查詢意圖能采集到符合用戶需求的信息,還可以利用因特網構建各種主題的專業語料庫,為查詢擴展提供更精準的檢索服務。
在國外,語料庫的研究和建設始于二十世紀七十年代,主要有Brown、LOB、COBUILD、LONGMAN、BNC、ICE等[31]。漢語語料庫的建設開始于八十年代,現有的大規模語料庫有國家現代漢語語料庫[32]、臺灣中研院平衡語料庫[33]、中港臺漢語語料庫[34]、北京大學和富士通公司共同制作的《人民日報》語料庫[35]等。語料庫的建設分為語料的收集、預處理、標注規范的制定、質量監控等方面。一般采用的方法是花費大量的人力、物力和財力,集中專業人員搜集、整理和加工語料,最終構建成熟語料庫。目前在語料庫的內容、表達方式、組織結構和具體應用方面已經有了較好的研究成果[36-37],但是在高效建設大規模語料庫方面的研究還有待進一步提高。現在的研究主要集中在半自動化語料庫的構建方面,大多需要人工參與,自動化水平較低。利用因特網構建大規模語庫是目前研究的發展趨勢,主要研究思路是構建一個基于網絡的信息處理平臺為語料庫建設提供計算和存儲能力,利于網絡技術使用多臺計算機從Web網頁上快速獲取大量的生語料,結合自然語言處理技術對生語料進行預處理,轉化成熟語料,同時為用戶提供語料的訪問[38]。
4 結束語
基于網絡的信息檢索服務為人們提供了有用的平臺,在此平臺上利用已構建概念語義結構和大規模語料庫可以為人們提供更全面、貼心、多元的查詢及推薦服務。如何高效利用網絡大數據提供的信息開展語義擴展查詢需要數據挖掘、人工智能、網絡技術、機器學習、自然語言處理等多學科知識的綜合支撐,這將是信息檢索領域未來長期挑戰的課題。
參考文獻(References):
[1] 楊海南.基于語義詞典和局部分析的查詢擴展研究[D].武漢
理工大學碩士學位論文,2010.11:5-15
[2] 黃名選,嚴小衛,張師超.查詢擴展技術進展與展望[J].計算機
應用與研究,2007.24(11):1-4
[3] S. E. Roberton and K. Spark Jones. Relevance weighting
of search terms. Journal of the American Society for Information Sciences,1976.27(3):129-146
[4] 李新友.信息檢索中的查詢擴展技術研究[D].廣西師范大學
碩士學位論文,2010.4:16-25
[5] 黃名選,嚴小衛,張師超.基于矩陣加權關聯規則挖掘的偽相
關反饋查詢擴展[J].軟件學報,2009.20(7):1854-1865
[6] Attar R, Fraenkel AS. Local feedback in full-text retrieval
systems. Journal of the ACM,1977.24(3):397-417
[7] Buckley C, Salton G, Allan J, Singhal A. Automatic query
expansion using SMART. Technical Report, TREC-3,1995:69-80
[8] Ricardo B-Y, Berthier R-N. Modern Information
Retrieval. England: Pearson Education Limited,1999.
[9] Buckley C, Salton G, Allan J, Singhal A. Automatic query
expansion using SMART. Technical Report, TREC-3,1995:69-80
[10] Ricardo B-Y, Berthier R-N. Modern Information
Retrieval. England: Pearson Education Limited,1999.
[11] Yahia SBen, Jaoua A.Discovering knowledge from fuzzy
concept lattice[J]. Studies in Fuzziness and soft computing, Physica Verlay, Heidel-berg,2005.3(68):167-190
[12] 崔航,文繼榮,李敏強.基于用戶日志的查詢擴展統計模型[J].
軟件學報,2003.14(9):1594-1599
[13] Hsi-Ching Lin, Li-Hui Wang, Shyi-Ming Chen. Query
expansion for document retrieval Based on fuzzy rules and user relevance feedback techniques. In ExPert Systems with Applications 31,2006:397-405
[14] 王磊,黃廣君.結合概念語義空間的語義擴展技術研究[J].計
算機工程與應用,2012.48(35):106-109
[15] 胡川洌.基于本體的教學資源語義檢索研究[D].重慶大學,
201:1-2
[16] Zhuge H. The knowledge grid[M]. New Jersey: World
Scientific Publishing,2004.
[17] 胡熠.面向信息檢索的文本內容分析[D]博士學位論文,上海
交通大學,2007.11
[18] Woods, W.A., "Conceptual Indexing : a better way to
organize knowledge." Technical Report SMLI TR-97-
61, Sun Microsystems Laboratories, MountainView,CA,April.1997.
[19] 羅建利.基于用戶興趣模型的概念查詢擴展研究[D].揚州大
學,2005.
[20] R. Studer, V.R. Benjamins and D.Fensel. Knowledge
engineering:Principles and methods[J]. Data&Knowledge Engineering,1998.25:161-197
[21] D.J.Foskett. Thesaurus. "Readings in Information Retrieval".
Morgan Kaufmann Publishers,Inc,1997:111-134
[22] 代唐印.基于語義網絡的知識協作關鍵技術研究[D].復旦大
學博士學位論文,2009.4
[23] WordNet:[EB/OL]. http:// wordnet.Princeton.edu
[24] The Protégé Ontology Editor and Knowledge
Acquisition System[EB/OL].http://protégé.stanford.edu/
[25] Information mapping project[EB/OL].(2003).[2013-
06-01].http://www-csli.stanford.edu/semlab/infomap.html.
[26] 董振東,董強.知網[OL].http://www.keenage.com,2013.12
[27] 鄭毅,吳斌,史忠植.基于概念空間的文本檢索系統[J].計算
機工程與應用,2002.38(12):67-69
[28] 李蕾,王楠,鐘義信.基于語義網絡的概念檢索研究與實現[J].
情報學報,2000,19(5):525-531
[29] 李源,何清,史忠植.基于概念語義空間的聯想檢索[J].北京
科技大學學報,2001.23(6):577-580
[30] Huajie Zhang, LinYun Fu, Haofen Wang, Haiping Zhu,
Yang Wang, and Yong Yu, EachWiki: Suggest to Be an Easy-To_Edit Wiki Interface for Everyone, Semantic Web Challenge,2007.
[31] Graeme K. An Introduction to Corpus Linguistics[M].外語
教學與研究出版社,2000:84
[32] 劉連元.現代漢語語料庫研制[J].語言文字應用,1996.3:
2-9
[33] http://www.sinica.edu.tw/SinicaCorpus/ [DB/OL].
[34] 胡百華,李行得,湯志祥.香港的語料庫和相關研究概況[J].
語言文字應用,1997.2:49-54
[35] http://www. icl. pku. edu. cn/icl_groups/ corpustagging.
asp [DB/OL].
[36] Cohn J M, Garrod D J, Rutenbar R A, et al. Analog
Device-level Layout Automation[M]. Boston, USA: Kluwer Academic Publishers,1994.
[37] Lampaert K, Gielen G, Sansen W. Analog Layout
Generation for Performance and Manufacturability[M]. Boston, USA: Kluwer Academic Publishers,1999.
[38] 李培峰,朱巧明,錢培德.基于Web的大規模語料庫的構建[J].
計算機工程,2008.34(7):41-46