基于CIM的相似度綜合評價算法

2013-01-01 00:00:00宋欣申安來郭鳳媛鐘杰胡艷君王建林

現代情報 2013年3期

〔摘要〕相似度計算是自動問答領域里的重要內容。為了保證候選答案集中各答案能具備合理的排序，解決傳統自動問答系統不能高效的綜合評價相似度問題，提出利用綜合指數法對關鍵詞相似度、語義相似度等進行綜合評價，得到綜合相似度。并針對部分候選答案冗余信息過多，不利于答案提取的情況，設計了衰減相似度參數，用來解決句子冗余信息對答案提取的影響。實驗結果表明，綜合指數法的相似度算法能夠有效的提高問答的正確率。

〔關鍵詞〕自動問答；答案抽取；相似度；綜合指數法

網絡新技術的迅速發展，使得一些搜索服務可以幫助用戶迅速跳過所有不相關的信息。其中有一項服務是自動問答技術[1]，該技術提供精確的特定問題的答案。比如提出一個問題，“2012年國內生產總值最高的國家是？”自動問答系統將直接回答一個國家的名稱。一段時間以來，很多研究機構都對自動問答技術做了相關的研究，這其中，有關于問句和答案進行相似度對比的算法，逐漸成為自動問答系統中比較重要的內容[2]。目前，相似度計算領域提出了很多算法，如文獻[3]提出的基于分詞的資源整合、文獻[4]提出的基于語句相似度計算系統等。這些相似度計算模型解決了答案選取過程中的句子排序問題，提出了相關的解決方案。但是，這些方案提出的備選答案尚待完善，部分作為答案出現的句子或單詞在提取后，結果有時并不能讓人們滿意。

現代情報2013年3期

現代情報的其它文章: 基于專利詞頻和信息可視化的特定競爭對手分析; 西部新材料信息環境建設現狀與對策研究; 知識管理在員工培訓中的應用探析; “九型人格”視閾下的人格假設對工作績效的預測力分析; 基于條碼與RFID標簽數據關聯的問題分析; 基于手機報的“三農”信息服務模式創新與推廣