〔摘 要〕相似度計算是自動問答領域里的重要內容。為了保證候選答案集中各答案能具備合理的排序,解決傳統自動問答系統不能高效的綜合評價相似度問題,提出利用綜合指數法對關鍵詞相似度、語義相似度等進行綜合評價,得到綜合相似度。并針對部分候選答案冗余信息過多,不利于答案提取的情況,設計了衰減相似度參數,用來解決句子冗余信息對答案提取的影響。實驗結果表明,綜合指數法的相似度算法能夠有效的提高問答的正確率。
〔關鍵詞〕自動問答;答案抽取;相似度;綜合指數法
網絡新技術的迅速發展,使得一些搜索服務可以幫助用戶迅速跳過所有不相關的信息。其中有一項服務是自動問答技術[1],該技術提供精確的特定問題的答案。比如提出一個問題,“2012年國內生產總值最高的國家是?”自動問答系統將直接回答一個國家的名稱。一段時間以來,很多研究機構都對自動問答技術做了相關的研究,這其中,有關于問句和答案進行相似度對比的算法,逐漸成為自動問答系統中比較重要的內容[2]。目前,相似度計算領域提出了很多算法,如文獻[3]提出的基于分詞的資源整合、文獻[4]提出的基于語句相似度計算系統等。這些相似度計算模型解決了答案選取過程中的句子排序問題,提出了相關的解決方案。但是,這些方案提出的備選答案尚待完善,部分作為答案出現的句子或單詞在提取后,結果有時并不能讓人們滿意。