999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向大規模社區問答數據的問題檢索方法

2013-04-29 19:40:41田作輝關毅
智能計算機與應用 2013年6期

田作輝 關毅

摘要:隨著問答社區網站的興起,越來越多的用戶生成數據積累了起來。這些用戶生成數據不僅具有海量的、多樣性的等特點,還有著極高的質量和重用價值。為了高效地管理和利用這些數據,近年來研究人員基于這些數據進行了大量的研究和實踐,而社區問答中的問題檢索就是一個被廣泛研究的課題。主要研究了面向大規模社區問答數據的問題檢索方法。收集來自Yahoo! Answers等社區網站的超過1.3億問題和10億答案的大規模數據,與之前的基于百萬量級的數據的問答社區相關研究工作相比有著明顯的不同和極高的實用價值。在此數據的基礎上,通過查詢自動分類方法來提高每次查詢效率和效果。在問題檢索過程中,提出了應用查詢問句和問題的結構信息和語義信息,結合排序學習算法來融合多種不同類別的特征的方法,通過應用訓練數據生成排序模型來提高問題檢索的相關性和詞語不匹配等問題。實驗表明,本文應用Ranking SVM方法來訓練的排序模型在不同數據集上,其準確率等評價指標上都相比以往的方法有著顯著的提高。

關鍵詞:社區問答; 問題檢索; 排序支持向量機

中圖分類號:TP31113 文獻標識碼:A文章編號:2095-2163(2013)06-0063-05

0引言

目前,社區問答服務包含了大量用戶生成內容(user-generated contents,簡記為UGC)。以Yahoo! Answers為例,目前Yahoo! Answers包含問題涵蓋26大類、1 400多小類,共有超過3億規模的問題和10億的答案由用戶提出和發布。如此龐大的數據規模,促進了非事實問答研究的大規模開展,使得問答系統不再局限于對應命名實體、日期等較短答案的事實類問題上。

這些用戶生成內容不僅具有海量、多樣性等特點,還有著高質量和重用的價值,充分利用這些資源可以高效、準確地滿足人們對信息的需求。如Liu 等[1]研究的發現,在Yahoo! Answers中的四個流行問題分類中,有接近83%的最佳答案可以重用來回答相似的問題。

因此,隨著各類問題數據的積累與各項相關技術的成熟,研究面向大規模問答數據的問題檢索方法,是一個既具研究挑戰又有應用前景的重要技術課題。

全文共分為五部分,其內容具體安排為:第一部分引言,介紹面向問答社區的問題檢索課題的研究背景和研究意義。第二部分介紹相關領域的研究現狀。第三部分介紹問題檢索的模型與特征選擇。第四部分介紹實驗和結果分析。最后第五部分是本文的結論和對下一步研究的展望。

1相關工作

問題檢索依賴于已經建立的問答對數據集,對于給定的查詢問句,自動返回相關的問題及其對應答案。問題檢索任務的主要挑戰是如何解決已有問題和查詢問句的詞語不匹配問題,因為多數情況下查詢問句和問題句并不是字面上相同的。

Jeon等[2]比較了不同檢索方法在解決查詢問句與問題的詞匯不匹配問題的效果,所得出的統計機器翻譯方法最為有效。研究中,構造機器翻譯的平行語料的方式是以問題的答案作為索引,并用答案去查詢其他相似答案。如果某問題的答案與查詢答案的相似度高于一定閾值,則認為這兩個答案是相似的,同時又假設其對應問題也是相似的。以此方法構造平行語料來訓練統計機器翻譯模型。基于以上工作,Xue等[3]提出一個統計機器翻譯[4]加語言模型[5]的混合模型來進行問題檢索,通過利用問題句和答案作為平行語料來進行機器翻譯模型的訓練。Wang等[6]提出了一個基于句法樹結構的新的檢索方法來處理相似問題匹配任務,可通過句法分析將問題和查詢問句轉化為句法樹,再通過句法樹之間的相似度來衡量問題和查詢問句的語義相似度。Bian等[7]提出一個新的問題檢索方法GBrank以及其后續工作中的GBrank-MR都能夠較好地處理事實性問題,并給出較為滿意的答案。Cao等[8]提出基于葉分類信息進行平滑的語言模型來解決詞語之間的不匹配問題。該方法的基本思想是同一分類下的問題通常比不同分類下的問題更相似,于是用同一個分類下的詞分布信息對語言模型進行平滑,如此可有效提高問題檢索的相關性。Zhou等[9]考察了應用用戶權威性和用戶信息評價對于問題檢索相關性的影響,其結論是由于問答社區中的信息過于稀疏,直接應用這些信息并不能夠為問題的檢索效果帶來明顯的提升。Duan等[10]應用短語級別的問題焦點和主體識別方法來提高問題檢索的相關度。

2問題檢索的模型與特征選擇

問題檢索的目的是給定一個查詢問句,系統返回與該問句語義相同或者相似的問題,而由于同義問題語言表達的多樣性特點,僅僅對問句和問題進行詞語級別的匹配是遠遠不夠的。本文應用排序支持向量機(Ranking SVM)算法作為問題檢索的排序模型。

在進行問題檢索前,本文應用樸素貝葉斯分類器來構建查詢進行分類。這樣做法的目的在于相似的問題通常會被分到同一類別當中,對查詢問句進行分類,而且只查詢與查詢問句分類相同的數據就既可以提高檢索的效率,也可在一定程度上增強檢索的效果。

本文利用1.2億的Yahoo! Answers數據集訓練得到的分類器,將訓練數據中的120萬的Yahoo! Answers問題句作為測試數據,可達到超過85%的預測準確率。

2.2 問題檢索的特征選擇

在問題檢索過程中,特征和模型的選擇同樣重要。為了提高問題檢索過程中的詞語不匹配問題的解決能力,本文考察了大量的可用于量測字符串相似度的特征。

2.2.1基于統計分布的特征

基于統計分布的特征是指應用社區問答數據中的所有問題的詞語分布信息來調整問題中每個詞語的權重信息。

詞頻-反向文檔詞頻TF-IDF:很多的檢索模型都是應用IDF這一指標來對詞語的權重進行調整的,如Okapi BM25和向量空間模型VSM(Vector Space Model)。

信息熵:熵是用于表示信息不確定度的計量標注,應用問題中的類別信息即可計算一個詞語對不同類別下問題的權重貢獻,由此達到調整詞權重的目的。

2.2.2基于結構的特征

基于結構的特征是指應用查詢問句和問題中的短語、詞語順序和句法結構等信息來衡量查詢問句和問題相似度的特征。文中涉及的相關概念如下:

N元文法:由于存儲空間和計算效率的限制,本文只采用了二元文法Bigram。

短語:對于查詢問句和問題,可以應用組塊分析技術抽取其中的名詞短語NP(Noun Phrase),動詞短語VP(Verb Phrase)和介詞短語PP(Prop Phrase)。本文應用Jaccard相似度指標來計算短語集合的相似度。

命名實體:命名實體NE(Named Entity)是指文本中預先定義了類別的詞語或結構片段,如人名、地名、機構名等。同樣應用Jaccard相似度指標來計算命名實體的相似度。

最長公共字串和最長公共子序列:本文利用最長公共字串和子序列與問題長度的比例來衡量查詢問句和問題之間的相似度。

編輯距離:編輯距離是衡量兩個字符串之間差別的一個標準。由于編輯距離和兩個詞序列之間的相似度成反比,故本文選取編輯距離的倒數來衡量查詢問句和候選答案的相似度。

字符串核函數:本文應用了Bu等[11]提出的字符串重寫核函數(String Re-writing Kernel)來計算查詢問句和問題之間的相似度。

依存分析:依存分析(Dependency Parsing)是通過依存文法對語句進行句法分析生成依存句法樹的過程。圖1為語句“Bell, based in Los Angeles, makes and distributes electronic, computer and building products.”的依存句法樹示意圖。

如圖1所示,樹的任意節點和其子孫節點都會形成一個依存路徑(Dependency Path)。路徑的長度為路徑中節點的數量。本文中統計查詢問句和問題的依存句法樹中的全部長度為2的依存路徑,并加上其中的弧標簽。再通過計算兩個依存路徑集合的相似度來得到查詢問句和問題的相似度。

以上基于統計和基于結構的特征可以概括為基于詞的特征,這些特征從最簡單的無結構特征(如關鍵詞),到淺層結構特征(如N元文法、短語、命名實體等),再到結構化的依存句法樹,分別表示了查詢文件和問題所包含的各個層面的信息。

2.2.3基于語義的特征

為了更好地解決查詢問句和問題的詞語不匹配問題,僅僅利用基于詞的特征是遠遠不夠的,本文還考察了基于語義的特征在問題檢索過程中的應用。基于語義的特征是指應用查詢問句和問題的詞語之外的可以表征語句的語義或語義特點的信息的特征。現將該技術中的各類方法綜述如下:

(1)LML:LML應用了問題的葉節點分類信息來調整語言模型,用以查詢問句與問題之間的相似度。該方法的基本思想是:在Yahoo! Answers的分類系統中,每個大類下面都會分為很多小類,這些分類信息都可以通過一個樹形結構形象表示,而樹中的葉子節點則代表某問題的最小分類信息,如圖2所示。

在葉節點分類中,由于話題限定更窄,用戶更傾向于討論相近的問題,如果查詢問句中的詞在某一葉節點分類中出現的頻率更高,則該分類中的問題便極有可能和查詢問句相似。

(2)翻譯語言模型:模型的關鍵是訓練得出詞到詞的翻譯概率,而用于訓練的、可對齊的平行語料卻很難獲得。本文使用基于商業搜索引擎點擊數據中查詢問句和網頁的標題而訓練得出的詞到詞翻譯概率作為翻譯模型來計算兩個句子的相似度。

(3)復述模型:復述(Paraphrasing)是指對相同信息的不同表達方式,而問題檢索的目的便是要找到與查詢問題一樣或者是查詢問句的復述的問題。本文應用通過商業搜索引擎的網絡查詢日志而訓練得出的復述模型判斷查詢問句和問題之間互為復述的概率。

(4)WordNet語句相似度:WordNet是英文的語義詞典數據庫。通過WordNet中同義詞集合語義的關系,可以應用Wu和Palmer提出的相關性公式來計算兩個詞之間的相關性。詞a和詞b在WordNet中同義詞的集合關系如圖3所示,并可由如下公式計算得出:

WordNet(a,b)=depth(lcaa,b)depth(a)+depth(b)(1)

其中,depth為樹中節點的深度,Icaab為節點a和節點b的最近公共祖先。

最后,應用查詢問句和問題中每個詞的WordNet相似度進行組合,即可得到兩句話間的Wordnet語義相似度。

3實驗和結果分析

3.1訓練數據與工具

3.1.1訓練工具

本文應用Joachims開發的SVMRank工具包來訓練Ranking SVM排序模型,該工具簡單高效,只需將特征文件編寫成其要求的格式作為輸入,并指定誤差容忍度參數c,運行該工具即可生成模型文件和排序預測結果。

3.1.2訓練數據

為了避免出現訓練得到的模型發生對訓練數據過度擬合的問題,在訓練數據中需包含兩個部分:訓練集和調試集。分別論述如下:

(1)訓練集:選取商業搜索引擎的部分查詢日志的標注數據,所有的查詢都是問題查詢,且用戶輸入查詢后點擊了Yahoo! Answers的頁面。數據采用5級標注,將標注中得分為3及以上的問題視作正例(相關),good以下的當作負例(不相關)。最后,正負例共有29 485條。

(2)調試集:在三百萬的Yahoo! Answers數據集上隨機選出200條問題,并在剩余的數據上通過應用語言模型進行檢索。每個問題取出前100個候選結果,再對問題的相關性進行標注,去掉找不到相關結果的問題,最后剩余176個問題,即正負例共有17 600條。

基于調試集依次通過比較第一項準確率(Precision@1),平均準確率(Mean Average Precision),平均倒數排名(Mean Reciprocal Rank)三個指標來選取排序模型。

3.2 實驗結果與分析

3.2.1實驗數據

本文應用了兩組不同的實驗數據來驗證問題檢索方法的有效性。

(1)從2012年上半年的商業搜索引擎查詢日志中選取200條高頻的查詢問句和100條較長的中等頻度的查詢問句,共300條查詢問句。

(2)Cao等提出LML方法時用到的Yahoo! Answers的問答數據。全部數據中包含超過三百萬的問題及其答案,其中測試數據為252條查詢問句。因其提供的數據同時給出了對應的每個查詢問句,應用其方法即找到相關問題。

(3)應用上一節中提到的調試數據集對和一些傳統經典信息檢索模型進行對比。隨機選取156個問題作為測試集,剩余20個問題作為模型參數的調試集。

3.2.2實驗結果與分析

在搜索引擎日志查詢問句數據集1中,對每個查詢問句在全部超過130億的問題數據中進行檢索,給出10個相似度最高的問題,然后對所有問題進行人工標注,并計算其Precision@1,MAP和MRR三個評價指標,實驗結果如表1所示。

如表1所示,Precision@1、MAP和MRR三個指標的結果比其他的實驗結果要高出很多,這是因為該測試數據集中的查詢問句主要由查詢日志中的高頻查詢組成。應用該測試數據集的目的是為了檢測本文構建的問答系統的實用性,因為大部分用戶提出的問題與查詢日志中的查詢問句都是一致的,這個結果也說明本文的問答系統具有很高的實用性。

在Cao等實驗數據集2中,為了得到真實的對比效果,本文應用其小規模的問答數據重新構建了一套檢索系統,即兩種方法均是在相同的實驗數據集上進行對比的。表2為實驗對比結果。

在表2中,R-Prec是Cao等在評測時用到的一個評測指標R-Precision,R則指該問題有R個相關問題標注。因為其公開的數據中只有一個查詢問句的相關問題,而并未給出其方法找出的不相關問題,就使得絕大部分的結果都是未標注的。本文結果A是指直接應用其方法找出的相關問題,并以其作為相關問題。這樣相當于將全部的未標注問題均當成不相關的進行處理,就會對結果產生很大影響,因此結果中,只有MAP略高于Cao等的方法。本文結果B是對檢索結果進行了補充標注,即評測時不再包含未標注問題,從結果中可以看出,本文在各項指標上都要優于Cao等的方法,而在MAP和P@5上則有明顯的提高。

在人工標注的調試集3中,本文和傳統的經典信息檢索模型進行了對比,包括向量空間模型(VSM)、Okapi BM25語言模型(LM)、LML、翻譯模型(TM)。對比結果如表3所示。

從表3可以看出,其中LML的結果是應用本文的數據重新訓練生成模型計算得到的,這與數據集2中LML直接對照Cao等的實驗結果是根本不同的。相對于傳統的經典信息檢索模型,本文的方法表現了很大的優勢,在各個評測指標上都有顯著提高。

4結束語

本文應用查詢問句和問題的結構信息和語義信息,并結合排序學習算法來融合多種不同類別的特征的方法,再應用訓練數據生成排序模型來提高問題檢索的相關性和詞語不匹配等問題。實驗表明,本文的方法在各個數據和評價指標上都要明顯優于基準方法。在接下來的研究中,本文可利用問題檢索過程中得到的問題及其答案來構造高質量的問答知識庫,以將其應用到信息檢索系統和其他信息服務當中。

參考文獻:

[1]LIU Y, LI S, CAO Y, et al. Understanding and summarizing answers in community-based question answering services[C]// Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, COLING 08, Stroudsburg, PA, USA, 2008: 497–504.

[2]JEON J, CROFT W B, LEE J H. Finding similar questions in large question and answer archives[C]//Proceedings of the 14th ACM international conference on Information and knowledge management. ACM, 2005: 84-90.

[3]XUE X, JEON J, CROFT W B. Retrieval models for question and answer archives[C]// Proceedings of the 17th ACM international conference on Information and knowledge management, 2008:475–482.

[4]BERGER A, LAFFERTY J. Information retrieval as statistical translation[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development on Information Retrieval, 1999: 222–229.

[5]PONTE J M, CROFT W B. A language modeling approach to information retrieval[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998: 275-281.

[6]WANG K, MING Z, CHUA T S. A syntactic tree matching approach to finding similar questions in community-based qa services[C]//Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development on Information Retrieval, Boston, MA, USA, 2009, 187–194.

[7]BIAN J, LIU Y, AGICHTEIN E, et al. A few bad votes too many?: towards robust ranking in social media[C]//Proceedings of the 4th international workshop on Adversarial information retrieval on the web. ACM, 2008: 53-60.

[8]CAO X, CONG G, CUI B, et al. A generalized framework of exploring category information for question retrieval in community question answer archives[C]//Proceedings of the 19th international conference on World wide web. ACM, 2010: 201-210.

[9]ZHOU Z, LAN M, NIU Z, et al. Exploiting user profile information for answer ranking in cQA[C]//WWW '12 Companion Proceedings of the 21st international conference companion on WWW, Pages 767-774.

[10]DUAN H, CAO Y, LIN C Y, et al. Searching questions by identifying question topic and question focus. [C]//Proceedings of 46th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL:HLT), Columbus, OH, June 2008.

[11]BU F, LI H, ZHU X. String re-writing kernel[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. 2012: 449-458.

主站蜘蛛池模板: 国产一级妓女av网站| 5388国产亚洲欧美在线观看| 国产国产人成免费视频77777 | 国产乱子伦精品视频| 日韩二区三区| 国产波多野结衣中文在线播放| 欧美日韩高清在线| 曰AV在线无码| 国产毛片高清一级国语 | 在线国产你懂的| 青青国产视频| 国产一区二区影院| 欧美v在线| 日韩成人午夜| a免费毛片在线播放| 日韩久草视频| 青青青视频91在线 | 精品国产一二三区| 91区国产福利在线观看午夜| 国内精品一区二区在线观看| 蜜桃视频一区二区三区| 久久黄色一级片| 国产免费久久精品44| 亚洲色图欧美视频| 国产在线高清一级毛片| 88av在线| 国产精品网址你懂的| 在线观看国产精美视频| 午夜福利亚洲精品| 爆乳熟妇一区二区三区| 高潮毛片无遮挡高清视频播放| 啪啪国产视频| 亚洲欧洲日产国码无码av喷潮| 国产精品视频3p| 四虎国产精品永久在线网址| 日韩二区三区无| 最新亚洲人成网站在线观看| 99r在线精品视频在线播放| 91成人试看福利体验区| 欧美人在线一区二区三区| 91久久偷偷做嫩草影院| 久久99久久无码毛片一区二区| 91久久偷偷做嫩草影院| 2021无码专区人妻系列日韩| 久久精品91麻豆| 欧美日本激情| 国产福利小视频高清在线观看| 成人欧美日韩| 青青网在线国产| 97成人在线观看| 午夜日b视频| 在线观看91精品国产剧情免费| 四虎国产在线观看| 最新无码专区超级碰碰碰| 亚洲国产成人自拍| 亚洲日韩精品综合在线一区二区| 99伊人精品| 8090午夜无码专区| 91视频首页| 国产综合精品日本亚洲777| 97成人在线视频| 91福利国产成人精品导航| 色妞www精品视频一级下载| 广东一级毛片| 一级在线毛片| 高潮毛片免费观看| 五月婷婷伊人网| a网站在线观看| 亚洲精品无码av中文字幕| 人妻无码一区二区视频| 青青草国产免费国产| 曰AV在线无码| 无码一区中文字幕| 国产成人乱码一区二区三区在线| 日本欧美成人免费| 亚洲精品国产乱码不卡| 日韩激情成人| 强奷白丝美女在线观看 | 一边摸一边做爽的视频17国产 | 青青青草国产| 秋霞一区二区三区| 香蕉视频在线精品|