韓其琛,李冬梅1.北京林業大學信息學院,北京1000832.中國科學院大學工程科學學院,北京100049
* The National Natural Science Foundation of China under Grant No. 61170268(國家自然科學基金); the Fundamental Research Funds for the Central Universities of China under Grant Nos. TD2014-02,xs2014024(中央高校基本科研業務費專項資金).
Received 2015-02,Accepted 2015-05.
CNKI網絡優先出版:2015-05-06,http://www.cnki.net/kcms/detail/11.5602.TP.20150506.1608.001.html
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(01)-0122-08
?
基于敘詞表的林業信息語義檢索模型*
韓其琛1,2,李冬梅1+
1.北京林業大學信息學院,北京100083
2.中國科學院大學工程科學學院,北京100049
* The National Natural Science Foundation of China under Grant No. 61170268(國家自然科學基金); the Fundamental Research Funds for the Central Universities of China under Grant Nos. TD2014-02,xs2014024(中央高校基本科研業務費專項資金).
Received 2015-02,Accepted 2015-05.
CNKI網絡優先出版:2015-05-06,http://www.cnki.net/kcms/detail/11.5602.TP.20150506.1608.001.html
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology
1673-9418/2016/10(01)-0122-08
E-mail: fcst@vip.163.com
http://www.ceaj.org
Tel:+86-10-89056056
摘要:隨著互聯網的快速發展,基于關鍵詞字面匹配的信息檢索方式已不能滿足人們的需求。敘詞表中所包含的語義關系是提高查全率和查準率的重要途徑,如果將敘詞表控制機制引入當前網絡信息檢索工具中,book=123,ebook=127必然能在一定程度上提高信息檢索的效率。利用敘詞表中的詞間關系,提出了一種計算敘詞間語義相似度的方法,借助查詢擴展的思想,設計了一種基于敘詞表的林業信息語義檢索模型。最后,以林業漢英拉敘詞表中兩個類目范疇作為實驗對象,分別同百度搜索引擎、農業敘詞表中所使用的檢索方法進行了比較,實驗結果表明,提出的檢索模型可以更好地利用敘詞表來改進傳統的基于關鍵字的檢索方式,此外,所提模型是通用的,為敘詞表在網絡信息系統中的應用提供了一種新的思路。
關鍵詞:林業敘詞表;語義檢索;相似度計算;查詢擴展;網頁抓取
在當前信息大爆炸的時代,網絡上的信息和數據已經變得非常龐大,如何在海量級的數據中進行高效、準確的信息檢索得到了越來越多的學者和專家的關注。搜索引擎是目前人們獲取網絡信息的主要工具。但是,由于目前主流的搜索引擎采用的都是基于關鍵詞的字面匹配模式,即僅以孤立的關鍵詞對信息內容進行標引和檢索,人們在搜索內容上想要表達的語義內涵無法被機器所充分理解,進而導致信息檢索查全率和查準率下降,在當前多樣化的網絡信息環境下其不足之處就顯而易見了。由于基于關鍵字匹配的檢索方法無法準確地表達出詞語的語義內涵,近些年一些新的檢索理念被提出,例如概念檢索[1-2]和語義檢索[3-4]等。本體是實現語義檢索的一種較為有效的工具[5-6],但本體的構建和維護需要大量的工作,與之相對的是,目前很多行業領域都有自己較成熟的敘詞表。
敘詞表是一個相對完善并且發展成熟的概念知識體系,自其從20世紀50年代誕生以來,經過不斷發展和完善,已成為主題法中重要的信息組織工具,并在傳統文獻標引和檢索中發揮過重要作用[7]。如能將敘詞表引入到網絡信息檢索工具中,通過利用敘詞表這一語義邏輯,必然能夠在一定程度上提高傳統信息檢索的查全率和查準率。目前,基于敘詞表的信息檢索方法在醫學領域已有較為深入的研究[8]。文獻[9]利用隨機游動(random walk)的方法借助醫學敘詞表對用戶所輸入的檢索信息進行語義擴展,進而改善搜索結果。文獻[10]對用戶搜索語句進行語法分析,根據分析結果利用醫學敘詞表進行查詢擴展。但是以上兩種方法均沒有對敘詞之間的關系類型進行量化分析。文獻[11]給出一種基于農業敘詞表的檢索方法,但該方法在查詢擴展時只考慮與核心檢索詞直接相關的單級擴展,沒有考慮其他敘詞的影響,而且同樣也沒有對敘詞之間的關系類型進行量化分析。本文在文獻[11]的基礎上,參考了Li等人的混合相似度算法[12],以及Liu等人的基于相關概念節點密度的概念向量模型[13],并結合林業漢英拉敘詞表的相應特點,提出了一種綜合敘詞間多種關系的相似度計算方法,借助查詢擴展和加權檢索的思想,設計了一種基于敘詞表的林業信息語義檢索模型(semantic model with thesaurus for forestry information retrieval,SMTFIR)。最后通過實驗驗證了該模型的有效性。
2.1相關定義
定義1(敘詞表概念樹)在敘詞表中,以族首詞O為根節點,由族首詞為O的所有敘詞的上位敘詞和下位敘詞構成的樹狀結構T稱為敘詞表概念樹。樹結構中的節點C稱為敘詞節點,Ci為對T進行層次遍歷的第i個節點,根節點O記為C0。C的所有祖先節點構成的集合稱為C的祖先敘詞節點A(C);C的所有孩子節點構成的集合稱為C的孩子敘詞節點L(C)。若至少存在一個詞W與C所對應的敘詞為相關關系,則稱C所對應的敘詞為W的相關關聯敘詞。根節點O的深度記為1;樹中路徑上分支數目為1的兩個節點間的距離記為1。
定義2(最短路徑長度)在T中,兩個敘詞節點之間分支數目最少的樹中路徑稱為兩個節點的最短路徑,最短路徑所擁有的分支數目稱為最短路徑長度。
定義3(最近根節點)在T中,如果敘詞節點R 是A和B共同的祖先節點,并且是符合此條件的所有節點中距離根節點最遠的一個,則稱R為A和B的最近根節點,記為R(A,B)或R。
定義4(語義范圍)在T中,以C為根的子樹所包含的葉子節點數目稱為C的語義范圍,記為SCover(C)。
定義5(基于敘詞的語義向量)在一個包含n個敘詞節點的T中,節點Ci表示成向量Ci=(Vi,1,Vi,2,…,Vi,n),Vi,j(i=1,2,…,n,j=1,2,…,n),該向量稱為基于敘詞的語義向量。其中維度值定義為:

2.2相關計算公式
本文規定:所有相似度的值均在[0,1]內。即如果權值為0,認為兩個敘詞之間沒有任何關系;如果權值為1,認為兩個敘詞是等價的。同時規定,如果所求的兩個敘詞分別位于不同的概念樹中,則認為其相似度為0。
設要判斷相似度的詞為C1和C2,根據C1與C2的關系類型的不同將相似度公式分為3類:等同相似度為SimD(C1,C2),屬分相似度為SimF(C1,C2),相關相似度為SimW(C1,C2)。
(1)等同相似度SimD(C1,C2)
在敘詞表中,等同詞即等價關系,即兩個詞之間可以相互替換使用,故

(2)屬分相似度SimF(C1,C2)

其中,f1為基于最短路徑的相似度,f1=e?αd(d為T中由C1到C2的最短路徑長度,α為調節因子);f2為基于最近根深度的相似度,f2=1?e?βh(h為R(C1,C2)的深度,β為調節因子);f3為基于語義向量的相似度,(C1、C2為根據定義5求得的C1、C2的語義向量)。
(3)相關相似度SimW(C1,C2)

其中,C1為C2的相關關聯敘詞;g1為基于相關關聯敘詞深度的相似度,(h為C1的深度,ε為調節因子);g2為基于相關關聯敘詞密度的相似度,g2=1?e?γl(l為以C1為根節點的直接子節點數,γ為調節因子)。
2.3相似度計算算法步驟
利用2.2節給出的相似度計算公式,相似度計算算法的具體步驟如下:
步驟1根據敘詞表對K進行擴展,得到關于K的初始查詢擴展集合為U={D,F,W,Y},其中D表示等同詞,F表示K的所有上位/下位詞(即敘詞表概念樹T的所有節點),W表示K的相關詞,Y表示F的等同詞和相關詞。
步驟2找到K的族首詞O,以O為根節點建立敘詞表概念樹T。
步驟3根據敘詞表概念樹T,利用式(2)得到K 與U中D的相似度SimD(K,D);利用式(3)得到K 與U中F的相似度SimF(K,F);利用式(4)得到K 與U中W的相似度SimW(K,W)。
步驟4判斷Y中每一個詞J與其相對應的F中敘詞I的關系。若J與I為相等關系,則利用式(2)、式(3)得到K與J的相似度SimF(K,I)×SimD(I,J);若J與I為相關關系,則利用式(3)、式(4)得到K與J的相似度SimF(K,I)×SimW(I,J)。
步驟5設置閾值Q,判斷U中每一個詞與K的相似度是否大于Q。若大于,則將該詞加入到查詢擴展集合N中;若小于,則跳過。
相似度計算流程如圖1所示。
3.1模型框架
本模型包含敘詞標準化、查詢擴展、網頁抓取及加權排序4個模塊。首先,利用林業漢英拉敘詞表對用戶輸入的檢索詞進行敘詞標準化,得到檢索詞K;其次,抓取與K相關的網頁信息;之后,利用計算敘詞間語義相似度的算法得到用于查詢擴展的相關詞集合及相應權值;最后,根據查詢擴展詞及其相應權值對抓取的網頁信息進行量化分析并排序。
該模型框架如圖2所示。

Fig.1 Procedure of similarity calculation圖1 相似度計算流程圖

Fig.2 Structure of semantic model with thesaurus for forestry information retrieval圖2 基于敘詞表的信息檢索模型框架
3.2敘詞標準化
首先提取用戶輸入的檢索詞,根據敘詞表判斷是否需要對其進行標準化處理。由于用戶檢索需求和輸入習慣的不同,此處可能遇到4種不同情況:若檢索詞是敘詞,則不必標準化,可直接使用;若檢索詞為敘詞表中的非敘詞,則通過敘詞表的相等關系將其轉化為相應的敘詞;若檢索詞可與敘詞表中的敘詞部分匹配,則將可匹配的所有敘詞返回,供用戶從中選擇新的檢索詞;其他情況則保留原檢索詞,不對其進行查詢擴展。
3.3網頁抓取
令由敘詞標準化得到的檢索詞為K,使用通用搜索引擎以K為檢索詞進行檢索,取s個結果的URL。利用開源網頁分析工具Htmlparser分析這s個網址所對應的網頁,提取出網頁中的標題、摘要、正文等信息。
3.4查詢擴展
利用2.3節所提到的相似度計算方法求出敘詞表中所有與K相關的詞的相似度,通過設置閾值的方式選取符合條件的相關詞加入到查詢擴展集合N中。
3.5加權排序
在加權計算時,將N中相關詞與K的相似度結果作為相關詞的權值,加權排序方法的具體步驟如下:
步驟1統計查詢擴展集合中的每一個相關詞在網頁標題中出現的頻率T以及在網頁正文中出現的頻率P。
步驟2將每個網頁的權值求和計算,其公式為:

其中,TWn為第n個網頁的總權值;WNn為第n個網頁的字數;m為查詢擴展集合N中相關詞的數目;Wi為N中第i個相關詞與檢索詞K的相似度;Ti和Pi分別為該敘詞在第i個網頁的標題和正文中出現的頻率;ω為標題正文比,用于調節標題對于最終結果的重要性,ω越大,標題對該網頁權值的影響越大。
步驟3將網頁按權值由大到小排序并返回給用戶。
4.1實驗數據
本文綜合考慮了敘詞表詞匯量、關系數、實驗需要等因素,采用http://www.lknet.ac.cn/提供的林業漢英拉敘詞表的兩個詞量適中類目范疇中的敘詞及詞間關系作為敘詞表實驗數據,分別用于測定相關參數的最優權值和評價相關性排序的效果。
4.2實驗數據檢索效果評價指標的選擇
檢索效果是指利用檢索系統進行信息檢索產生的有效結果,它是檢索系統性能的直接反映。一般來說,基于檢索結果相關性的查全率和查準率是傳統搜索引擎評價的主要指標。而國外有些學者發現:80%的用戶只查看搜索結果的第一頁,即對用戶而言,其所需要的信息出現在檢索結果的前幾頁比查全率和查準率更重要[14-15]。基于此又有學者提出了搜索長度的概念[16-18],即指用戶發現n個相關網頁之前需要查看的不相關網頁的數目,用來評估搜索引擎是否能夠將最相關的網頁排列在檢索結果集的最前端。本文選擇檢索結果的相關性和搜索長度這兩種指標來評價SMTFIR檢索的有效性。
考慮到大多數用戶檢索時只會看返回的第一頁結果,本文在進行評價時選擇評價前10個結果的相關性,用P@10表示。計算方法如下所示:

其中,a表示前10項結果中與用戶檢索詞相關的結果數量;b表示前10項結果中與用戶檢索詞無關的結果數量。從而可得出前10項的平均相關性公式:

其中,P1至Pn為n次獨立的實驗所求得的P@10。
而搜索長度設定為找到前5篇相關結果所需要查看的不相關結果的數量,搜索長度用L表示。同理,可以得出平均搜索長度公式:

其中,L1至Ln為n次獨立的實驗所求得的L。
4.3相關參數權值的測定
通過實驗測定兩個重要的參數:用于查詢擴展模塊的閾值Q及加權排序模塊中的標題正文比ω。其他相似度算法的參數人工設定為α=0.2,β=0.6,ε=0.6,γ=0.3。
為使權值測定盡可能準確,從實驗數據中隨機選取10個敘詞進行測試。在實驗中,網頁抓取模塊選擇百度搜索結果的前100條作為通用搜索引擎的結果進行抓取,將標題正文比先設定為1。由相關林業方面人員確認返回結果是否與檢索詞相關。利用最終結果做折線圖,如圖3所示。

Fig.3 Determination data of threshold value圖3 閾值權值的測定數據
利用確定好的閾值,可以從敘詞表中選擇與檢索詞最為接近的詞匯用于查詢擴展。以檢索詞為夏綠林為例,通過確定好的閾值可以得到如下相關詞匯:落葉闊葉林(0.817 9),櫟林(0.670 3),榿林(0.670 3),闊葉林(0.668 3),常綠闊葉林(0.547 9),照葉林(0.547 9),常綠竹林(0.547 7),硬葉常綠林(0.448 9),其中括號內數值為其與檢索詞的相似度。
在得到閾值結果后,將閾值調整為0.2,繼續用這10個敘詞進行標題正文比的測試。同樣,利用最終實驗結果分別做折線圖,如圖4所示。

Fig.4 Determination data of title-text rate圖4 標題正文比的權值測定
4.4實驗結果分析
根據4.3節測定的最優權值,從實驗數據中隨機選擇15個詞分別利用百度搜索引擎、文獻[11]的方法以及SMTFIR進行搜索,并分別測量在不同情況下返回結果的P@10和L指標,將實驗結果繪制為表1。
根據表1的結果做折線圖,如圖5和圖6所示。從圖中可以看出,SMTFIR和文獻[11]的方法相較于百度的結果來說均有不同程度的改進,這說明敘詞表確實可以提高搜索結果的準確性。與此同時,SMTFIR也要比文獻[11]的方法更加準確,說明了本文提出的檢索模型可以更好地利用敘詞表來改進傳統基于關鍵字的檢索方式。
4.5模型通用性分析

Table 1 Results comparison between SMTFIR and other methods表1 SMTFIR與其他檢索方法的對比
經過幾十年的發展,敘詞表的編制方法得到不斷改善,最終形成了一系列的國際標準。國際標準有1974年發布的ISO 2788和1985年發布的ISO 5964,我國目前的現行標準為1991年發布的GB/T 13190。在這些標準中均明確規定了敘詞表中的詞間關系有3種,分別是本文所提及的等同關系、等級關系和相關關系。2.2節所利用的3種關系在現行任何符合國際標準的敘詞表中均是存在的,因此本文所提出的模型具有較強的通用性。

Fig.5 Results comparison between SMTFIR and other methods(P@10)圖5 SMTFIR與其他檢索方法的對比(P@10)

Fig.6 Results comparison between SMTFIR and other methods(L)圖6 SMTFIR與其他檢索方法的對比(L)
由于基于關鍵詞的傳統信息檢索方法不能充分表達語義信息,本文利用敘詞表的詞間關系,提出了一種計算敘詞間語義相似度的方法,設計了一種基于敘詞表的林業信息語義檢索模型,顯著提高了查詢效果。本文模型同樣適合其他的行業領域,這種檢索方式為在當前大數據時代如何合理利用敘詞表提供了一個新的研究思路。在今后的研究中可以從檢索結果相關性評價等方面進行改進和完善。
References:
[1] Qian Xueming,Guo Danping,Hou Xingsong,et al. HWVP: hierarchical wavelet packet descriptors and their applications in scene categorization and semantic concept retrieval[J]. Multimedia Tools and Applications,2014,69(3): 897-920.
[2] Aly R,Doherty A,Hiemstra D,et al. The uncertain representation ranking framework for concept-based video retrieval[J]. Information Retrieval,2013,16(5): 557-583.
[3]Alghamdi N S,Rahayu W,Pardede E. Semantic-based structural and content indexing for the efficient retrieval of queries over large XML data repositories[J]. Future Generationtionships of thesaurus[D]. Beijing: Chinese Academy of Agricultural Sciences,2011.
[12] Li Yuhua,Bandar Z A,McLean D A. An approach for measuring semantic similarity between words using multiple information sources[J]. IEEE Transactions on Knowledge and Data Engineering,2003,15(4): 871-882.
[13] Liu Hongzhe,Bao Hong,Xu De. Concept vector for similarity measurement based on hierarchical domain structure[J]. Computing and Informatics,2012,30(5): 881-900.
[14] Jansen B J. An investigation into the use of simple queries on Web IR systems[J]. Information Research: An Electronic Journal,2000,6(1): 1-10.
[15] Ali R,Beg M M S. An overview of Web search evaluation methods[J]. Computers&Electrical Engineering,2011,37(6): 835-848.
[16] Chignell M H,Gwizdka J,Bodner R C. Discriminating metasearch: a framework for evaluation[J]. Information Processing &Management,1999,35(3): 337-362.
[17] Dwivedi S K,Goutam R K. Evaluation of search engines using search length[C]//Proceedings of the International Conference of Computer Modeling and Simulation,2011: 502-505.
[18] Scaiella U,Ferragina P,Marino A,et al. Topical clustering of search results[C]//Proceedings of the 5th ACM International Conference on Web Search and Data Mining,Seattle,USA,Feb 8-12,2012. New York,USA:ACM,2012: 223-232.
附中文參考文獻:
[6]席磊,鄭光,汪強,等.基于個性化特征的無公害農產品目錄智能服務系統[J].農業工程學報,2013,29(20): 142-150.
[11]熊霞.基于敘詞表詞間關系的領域信息檢索[D].北京:中國農業科學院,2011.

HAN Qichen was born in 1992. He is an M.S. candidate at School of Engineering Science,University of Chinese Academy of Sciences. His research interests include information retrieval and personalized recommendation.
韓其琛(1992—),男,山西太原人,中國科學院大學工程科學學院碩士研究生,主要研究領域為信息檢索,個性化推薦。

LI Dongmei was born in 1972. She received the Ph.D. degree in artificial intelligence from Beijing Jiaotong University in 2014. Now she is an associate professor at Beijing Forestry University. Her research interests include artificial intelligent,knowledge engineering and semantic Web.
李冬梅(1972—),女,黑龍江大慶人,2014年于北京交通大學獲得博士學位,現為北京林業大學信息學院副教授,主要研究領域為人工智能,知識工程,語義Web。
Semantic Model with Thesaurus for Forestry Information Retrieval*
HAN Qichen1,2,LI Dongmei1+
1. School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China
2. School of Engineering Science,University of Chinese Academy of Sciences,Beijing 100049,China
+Corresponding author: E-mail: lidongmei@bjfu.edu.cn
HAN Qichen,LI Dongmei. Semantic model with thesaurus for forestry information retrieval. Journal of Frontiers of Computer Science and Technology,2016,10(1):122-129.
Abstract:With the speedy development of the Internet,keyword-based retrieval method has failed to meet the needs of people. The semantic relationship within the thesaurus can improve recall ratio and precision ratio. If the thesaurus is introduced into current network information retrieval tool,the search technology would be definitely improved with the aid of rich semantic relationship of the thesaurus. This paper proposes an idea of calculating the similarity based on the relationship among the terms in the thesaurus. Utilizing query extension,this paper designs a semantic model with thesaurus for forestry information retrieval(SMTFIR). Finally,this paper compares SMTFIR,Baidu and the method used in agricultural thesaurus with two category realms in forestry thesaurus. The results show that SMTFIR can improve keyword-based retrieval method more effectively using thesaurus. In addition,SMTFIR is also suitable to other domains and provides a new thought for applying thesaurus in network information system. Key words: forestry thesaurus; semantic retrieval; similarity computation; query extension; webpage grabbing
文獻標志碼:A
中圖分類號:TP274
doi:10.3778/j.issn.1673-9418.1502017