張偉男 都云程 張宇 劉挺
摘要:在社區型問答服務中,存在大量的由用戶生成的問題及答案,一方面用戶可以通過發布新問題,等待其他用戶的回答;另一方面用戶可以通過搜索與當前問題相關或者相似的問題,從而得到相應的答案。隨著社區型問答服務的發展,用戶更加關注問題檢索服務的質量,因此如何合理并有效地檢索出與用戶當前問題相關或相似的問題,成為社區型問答服務的核心任務。對社區型問答服務中用戶問題的特點進行了分析,提出一種確定問題中詞項重要性的方法,從而改進傳統問題檢索模型中計算當前問題和候選問題集之間相關度的方法,提高問題檢索質量。實驗證明文中的方法在MAP、MRR及R-precision三項指標中均有提高。同時,分析了影響詞項重要度的實驗特征,得出最優的特征集合。
關鍵詞:社區型問答; 問題檢索; 詞項賦權
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-2163(2013)05-0054-04
0引言
傳統的檢索模型如布爾模型、向量空間模型、Okapi BM25模型及語言模型等,能夠有效衡量用戶查詢與候選文檔之間的關系。在社區型問題檢索中,由于用戶問題形式的復雜性及候選文檔長度的特殊性,使得傳統的檢索模型在問題檢索任務中的有效性和適用性受到限制,與其相對應的詞項賦權機制的合理性也有待驗證。此外,Xue et al [1]提出的利用翻譯模型自動獲取問題詞項之間以及問題和答案詞項之間語義關系的檢索模型,Wang et al[2]提出的利用短語結構句法樹核匹配的相關問題檢索模型,但這兩種模型都沒有對詞項的重要性進行量化評估。
社區型問答服務中,用戶的問題可分為三類。第一類問題的特點是用戶問題較短,往往只包含若干個關鍵詞;第二類問題與傳統的TREC(Text Retrieval Conference)( http://trec.nist.gov/)問答中的問題相似,其問題表述較為規范;第三類問題本身包含問題及問題描述,或者是多個問題形成的復合問題。上述三種類型的問題中,第三類問題具有相當長度,帶有很多冗余的詞項,其中也包含部分噪聲詞項,從而對檢索結果的質量產生不利的影響。
針對社區型問答中問題的復雜性及檢索任務的特殊性,本文利用依存句法分析技術獲取用戶問題中詞項之間內在的句法關系,并融合詞性命名實體等特征衡量用戶問題中各個詞的權重,從而提出一種合理的用戶問題中詞項賦權機制,這種機制不僅可以將用戶問題中的干擾詞與關鍵詞區分開,而且量化了詞的權重,并將此機制與傳統的檢索模型結合得出一種新的問題檢索和排序的方法。
1相關工作
問題檢索作為社區型問答服務的核心任務,廣泛應用于相似和相關問題推薦、答案推薦及問題推送等服務中。Jeon et al[3]基于IBM model1翻譯模型對社區型問答服務中的問答對進行建模,獲取問題和答案以及問題之間詞匯和語義上的關系,從而衡量問題與答案之間以及問題與問題之間的相似度,實驗結果表明其在問題檢索任務中的性能要優于傳統的檢索模型。Duan et al[4]將所有候選問題詞匯鏈形成前綴樹,再利用最小描述長度(Minimum Description Length, MDL)的方法對句子樹進行剪枝,識別出每個問題的主題成分和焦點成分,最后對主題和焦點應用語言模型進行建模,從而進行問題檢索。Xue et al[1]在分析和對比了基于翻譯模型和語言模型的檢索模型的基礎上,將上述兩種模型相結合,提出一種新的問題檢索和答案檢索模型。Bernhard et al[5]利用多種詞匯以及語義資源,訓練單語的翻譯模型,從而計算問題之間以及問題和答案之間的相關度。Moschitti et al[6]利用淺層語義分析技術(semantic role labeling, SRL)和短語結構的句法分析技術構建謂詞論元結構,提出了新的核函數用以計算問題及答案之間以及問題之間的相似度。Wang et al[2]和Moschitti et al[6]在短語結構句法分析的基礎上,利用樹核的方法計算問題之間的相似度。
近年來,在TREC檢索評價體系下的查詢詞賦權工作取得了較大的進展。Bendersky et al[7]融合多類特征,利用分類的方法對長查詢中的關鍵概念(key concept)進行識別,并在傳統檢索模型的排序機制下,改進傳統模型的查詢詞賦權機制。Bendersky et al[8]基于排序學習的方法度量查詢中概念的重要性,并利用馬爾科夫隨機域的方法構建圖模型,獲取查詢詞之間的依存關系,從而得到查詢詞的權重。Bendersky et al[9]針對以往的查詢詞賦權機制中參數相對固定的問題,提出一種動態的參數化賦權方法。Ming et al[10]引進類別信息,通過獲取詞項在父類和子類中的不同熵值,以此區分詞項相對于類別的重要性,并將其融合到傳統的檢索模型。
Park et al[11]利用依存句法分析的特征處理長查詢中的詞項排序問題,并利用tf、idf和詞性特征結合依存句法特征訓練rank svm模型,從而利用模型預測出新查詢的詞項排序。Lee et al[12]通過統計詞項之間的共現情況,由此得出詞項之間相互的依存關系。
2問題中的詞項權重[
本文采用基于檢索結果覆蓋率的方法在客觀上從檢索結果出發衡量訓練集問題中詞項的權重,并提取有效的特征描述與詞項權重相關的因素,最后利用已有特征訓練學習模型,進而預測新問題中詞項的權重。由于本文研究問題中詞項的賦權,而為了避免概念混淆,下文所涉及到的詞項概念均為問題中的詞項,特此說明以區分查詢詞的概念。
2.1初始權值[HT5”SS]
本文的方法以用戶問題在傳統的檢索模型中的檢索表現作為基準,在此之上通過計算檢索結果的召回率得出詞項的權重,具體方法如下。
其中W(t)為問題中詞項的權重,q為當前問題,φ為檢索結果評價函數,Z為歸一化因子。在本文的方法中,Φ(q)的值為對問題q分別利用向量空間模型、BM25模型及語言模型在候選問題集合上返回的文檔數之和;φ(q-t)的值為去掉當前詞項后,三種模型檢索返回的文檔集與使用問題q檢索返回的文檔集交集中的文檔數。通過計算這兩者的差值,從而得到當前詞項相對于整個問題的重要性,即去掉詞項t之后,剩余問題的檢索結果與原問題檢索結果的重合度越低,證明被去掉詞項t越重要,反之則越不重要。利用歸一化因子Z使得問題中的詞項權值在相同的評價空間上可比較,從而得出問題q中各個詞項的權重,其中Z是針對于當前問題q,三種檢索模型返回的文檔經過去重后的文檔數的和乘以問題q中所有詞項t的權重W(t)的和。
2.2特征選擇[HT5”SS]
本文在考慮傳統詞項權重估計的特征之外,加入了基于依存句法分析以及命名實體識別等自然語言分析特征,從而更加合理地發現與詞項權重潛在相關的特征。本文選取的特征如表1所示。
2.3權值預測[HT5”SS]
基于上述的特征選擇過程,本文利用回歸模型綜合考慮各個特征,通過訓練得出權重預測模型。回歸分析的模型表達式如下。
3問題檢索模型
3.1基于語言模型的檢索模型[HT5”SS]
近年來,語言模型廣泛用于信息檢索的相關任務,Ponte et al[13]、Strohman et al[14]、Jeon et al[3]、Duan et al[4]、Xue et al[1]、Gao et al[15]及Nie et al[16]等,在其工作中驗證了語言模型用于信息檢索的有效性及合理性,并且基于語言模型的信息檢索,已成為相對成熟且穩定的檢索模型,并且廣泛用于商業搜索及科學研究之中,其模型的詳細描述如下。
是基于上述語言模型的檢索模型,能夠通過公式(4)衡量詞項與文檔之間的相關度,但是由于上述語言模型本身忽略了詞項之間的相關性,從而使得詞項之間以一種相互獨立的形式存在,對于問題檢索任務而言,由于用戶的查詢是完整的問題,包含詞項數量較多,其中部分詞項對于檢索結果的貢獻較低甚至是負面的,因此對于用戶問題而言,通過詞項之間的相互關系確定詞項的權重比獨立地衡量詞項的權重更加合理。
3.2基于詞項賦權的問題檢索[HT5”SS]
在基于語言模型的檢索系統中,詞項之間的相互獨立性使得詞項的權重并不依賴與其相關的其它詞,因此語言模型中詞項的權重有其局限性,本文利用依存句法分析獲取詞項之間的關系,作為衡量詞項之間關系的特征,得出2.3節中基于詞項之間相互關系的詞項權重。其后將得到的詞項權值融合到Indri檢索模型的查詢語言之中,從而影響Indri檢索的詞項權重分配機制,提高檢索結果質量。表2給出了利用本文方法賦權之后的Indri查詢語言示例。
4實驗及評價
4.1實驗數據集[HT5”SS]
本文選取WikiAnswer的用戶問題作為實驗數據集,并選取其中1 200 000個問題作為實驗數據集,在此之上隨機抽取4 000個問題作為訓練集數據,1 000個問題作為測試集數據,剩余的部分作為待檢索的候選問題集。
本文使用Indri工具對候選問題集進行索引及查詢,利用其中基于語言模型的檢索模型,將測試集中的1 000個問題投入到檢索模型中,分別返回排名前20的結果。由兩名標注人員對測試集中的問題及檢索結果進行標注,對于每一個測試集中的問題來說,人工對20個檢索結果進行判定,分別標記為“True”和“False”,同時規定當且僅當檢索結果與當前問題是相似問題時,才標注“True”,否則標注“False”。由此可以得到標注后的測試數據集。其數據分布如表3所示。
4.2實驗結果[HT5”SS]
本文應用基于問題中詞項賦權的方法改進傳統的檢索模型,針對問題檢索任務,能夠更加合理有效地衡量問題和候選問題之間的關系,實驗結果如表4所示。
5結論及后續工作
本文給出一種計算問題中詞項重要性的新方法,從而改進問題中的詞項和候選文檔之間相關度的計算方法,提高問題檢索的結果。本文的貢獻主要有以下兩個方面。一方面,本文提出了一種新的基于回歸模型預測問題中詞項重要性的方法,可以有效識別問題中的關鍵詞項;另一方面,本文綜合分析了可能影響問題中詞項重要性的特征,并通過一種合理的特征選擇方式得到最優的特征組合。
本文用到較為豐富的特征衡量問題中詞項的重要性,但是仍然不能保證其覆蓋所有的語言現象,并且本文對所用到的特征的重要性沒有量化的衡量,因此,在后續工作中將會考慮繼續發現有效特征,并將特征進行參數化,即為不同的特征進行權重估計,從而更加合理有效地改進問題中詞項賦權的工作,更好地提高問題檢索的效果。