999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

綜合多特征值相似度在參考咨詢問答系統中的應用

2014-04-29 00:00:00申安來宋欣
山東工業技術 2014年4期

【摘 要】自動問答系統給某個提問提供簡單而精確回答,與信息檢索任務和與信息提取任務極為不同。在自動問答系統中存在多個難點,其中,相似度是眾多學者關注的一個領域,本文是對句子相似度計算研究的一個探索,主要從漢語句子中涉及到的詞語、句法結構和語義分析三個不同層次對句子的相似度計算進行了研究,提出了一種綜合多特征的句子相似度計算方法。

【關鍵詞】自動問答;相似度;匹配;權重

0 引言

自動問答系統(Automatic Question and Answering System),是自然語言處理領域一個熱點問題,與傳統的搜索引擎相比,自動問答系統能夠更好地滿足人們的檢索需求,目前國內外已有許多不同專業領域或開放域的自動問答系統,大致可以分為以下幾種[1]:

(1)聊天機器人:采用自然語言的方式回答用戶提問的問題。原理是在對話庫中搜集各種句型和模板,然后提取用戶的問題中的關鍵詞,然后檢索對話庫,主要通過模式匹配的技術來檢索問題最佳答案。

(2)基于知識庫的自動問答系統:采用自然語言理解技術對用戶提問的問題在知識庫進行檢索問題的答案。由于此類型的問答系統利用了自然理解技術,并且是基于知識庫的檢索,因此它在一定程度上能夠實現智能回答。但是,由于該類型的自動問答系統依賴于知識庫,所提問的問題必須限定在知識庫的范圍內,一旦在知識庫的范圍外,系統的答疑性能就會很低,甚至為0,此類自動問答系統經常會出現知識庫瓶頸的情況。

(3)問答式檢索系統:用戶采用自然語言的方式提交問題進行檢索查詢,此類系統是從系統的文檔集合或者互聯網中檢索出相關的文本或者相關的網頁,并將這些文本或者網頁返回給用戶。目前典型的問答式檢索系統有麻省理工學院開發的Start 問答系統、密歇根大學開發的 AnswerBus 問答系統、美國 Askjeeves公司的 Askjeeves檢索系統等等,此類系統雖然允許用戶以自然語言的方式進行提問,但是返回的結果只是相關的網頁,并沒有以自然語言方式把答案返回給用戶。

1 問答系統多種算法的特點

傳統搜索引擎中用戶提交查詢關鍵字以后,搜索引擎返回一系列與關鍵字相關的網頁HTML文檔,之后用戶需要從大量文檔資料中白己搜尋合適的信息;自動問答系統根據用戶提交的查詢問題進行處理,直接以簡單的文本語句為答案進行返回,用戶可以以最直接的方式獲得問題的結果。返回結果的準確性以及簡單化使得自動問答系統具有更好的用戶體驗。自動問答系統傳統的處理方式為:首先,對用戶提交的問句進行分析,主要進行漢語分詞、句法分析等基礎工作:然后使用分析后的問句在給定的文檔集中進行檢索,返回初始的結果集合;最后處理返回結果集,主要是采用信息抽取技術,挖掘出結果集合中與問題相關的結果。這種方式雖然能夠返回用戶滿意的結果,但是卻存在一定的問題,主要表現在有較大的查詢延遲。在自動問答系統中加入常問問題集,能夠有效的改善這種狀態。問題集中包含了用戶提問頻率較高的問題以及其對應的答案,當用戶提出問題后,系統首先查找FAQ問題庫集,如果庫中存在問題,則直接返回問題答案,這樣可以大大縮減用戶查詢的延遲,給用戶提供了一個方便、快捷地解答疑問的途徑,具有較強的實用價值。句子相似度計算在自動問答系統中的應用主要體現在用戶問句與常問問題庫中問句的匹配,指用戶的問句與常問問題庫中的問句進行相似度計算,如果相似度計算的結果滿足一定的值則說明了兩個問句表達了類似的含義,是同一問題的不同描述,它們共享同一答案,可以直接將問題庫中答案返回給用戶。

經過多位學者多年的研究,我們可以發現當前的問答系統主要有以下幾點欠缺[2]:(1)在分詞方面采用基于詞典的分詞算法,或者借助于現有的分詞工具如中科院的 ICTCLAS,前者是能夠準確劃分專業詞匯以及組合詞匯,但是經常會出現某些詞在詞典中沒有找到,有的學者把這種詞叫做未登錄詞,導致不能正確的分詞,而后者即借助于現有的分詞工具不能準確劃分專業詞匯以及組合詞匯;(2)在計算詞語相似度方面采用基于《知網》的語義相似度,或者采用基于領域本體的概念相似度,而這兩種計算詞語相似度方法各有優缺點,前者對于專業詞匯之間的語義相似度,特別是專業組合詞匯的語義相似度不能準確的計算,因為《知網》沒有搜集專業組合詞匯;同樣后者對于常用詞匯的相似度的計算也有不足。

2 句子相似度算法

句子相似度計算是中文信息處理中的一項基本而核心的工作。它的研究受到人們的廣泛關注。由于其基礎工作的地位,決定了句子相似度計算的重要性,它被廣泛應用于中文信息處理的各個方面,它的研究工作的開展狀況對其他一些相關領域的工作起著決定性的作用。有的學者將句子相似度計算應用于機器翻譯中,用以找出類似的譯文;還有的算法將句子相似度計算用于常問問題庫的問答系統中,通過相似度計算找到目標問句的答案;同時還用于信息檢索領域,用來查找與目標檢索相似的句子等。

傳統的句子相似度計算方法主要有三種[3],這三種方法都或多或少存在一些不夠完美的地方:一種是基于關鍵詞信息的方法,具有代表性的是基于向量空間模型的TF一IDF方法,這種方法是將文檔映射為向量空間中的一點,這個點的坐標由文檔中相互獨立的詞條組構成,坐標的值為文檔中的每一詞條,依據它在文檔中的重要程度被賦予的權值W,即(Wl,W2,…,Wn)為坐標值。這樣就構成詞條矢量,從而把向量空間中的矢量匹配問題用來解決文檔信息中的問句匹配問題。句子的相似度與向量空間的夾角成反比,即向量間的夾角越大,句子相似度越低,夾角越小,句子相似度就越高。向量空間模型的TF一IDF方法是對關鍵詞詞頻進行統計的方法,要使統計效果很好地表現出來,句子中包含的詞語數量需要足夠得多,相關的詞語才會重復出現,因此這種方法是以大規模語料做為基礎的。另外,TF一IDF方法對于同義詞以及一詞多義情況計算效果不太好,因為這種方法只考慮了詞語在上下文中的統計信息,而沒有考慮詞語蘊含的語義信息。

基于語義信息的句子相似度計算方法是通過計算句子的詞語相似度從而得到句子的相似度[4]。句子詞語的相似度通過計算詞語對應的概念在概念層次體系結構中的距離得到的,概念間的距離又由概念的上下位、同義和反義關系得到。因此使用這種方法計算句子相似度時兩個句子中的詞語間需要具有一定的語義相關性,這種相關性建立在它們在概念間的層次網絡中存在一條通路這樣的假設基礎上。基于語義信息的方法需要依賴于比較完備的大型語義詞典,這些詞典是按照概念間層次關系組織的。在英文方面,常用的具有代表性的語義詞典有wordNet等;漢語方面有《知網》(HowNet)《同義詞詞林》等?;谡Z義信息的句子相似度計算方法會因為語義詞典的不全面和未登錄詞語義代碼的缺失而給計算結果帶來一定的誤差。另外,基于語義信息的句子相似度計算方法在計算句子相似度時,沒有考慮句子的結構信息,計算過程中采用了一種最大匹配法,準確率還沒有達到使人滿意的程度。三是基于句法結構信息的句子相似度計算方法,基于句法結構信息的句子相似度計算方法又可分為結合詞序的方法和基于句法結構分析的方法。結合詞序的方法具有代表性的是基于編輯距離的句子相似度計算方法。基于句法結構分析的方法典型的是基于語義依存的句子相似地方計算方法。這種基于句法結構信息的句子相似度計算方法在計算句子相似度時把句法結構信息納入相似度計算中,對句子理解更為充分,理論上是一種較為理想的的計算方法。這種方法的缺陷主要在于算法的正確性與句法分析技術的正確率禍合性太強,而現在句法分析的技術還有待完善,從而導致該種方法的準確率難以提高,使得方法實用性不強。因此,針對現有句子相似度計算方法考慮不全面的問題,本文提出了一種改進的句子相似度計算方法,即綜合多特征的句子相似度計算方法,這種方法在計算句子相似度時綜合考慮句子所包含的詞語信息、詞語的語義信息和句法結構信息,利用句子的深層信息和表層信息,加權整合特征權值,對目前句子相似度計算會起到一定的促進作用。

綜合多特征的句子相似度計算方法,在計算句子相似度時綜合考慮了句子的詞形信息、詞語語義信息和句子的句法結構信息這三個層面的信息,這種方法在理論上是可行的:首先,計算句子相似度時可以分別根據句子的任一方面信息進行計算,并且國內外學者對這方面研究也比較成熟。也可以將句子的某些方面的信息綜合到一起來計算句子相似度,利用編輯距離和依存文法結合來計算句子相似度。由此可見,綜合多特征是可行的。其次,綜合多特征是合理的。因為采用某一方面的信息計算句子相似度,其結果是有一定的使用范圍和局限性的;而采用多特征綜合的方法可以在某些場合彌補這種不足。最后,綜合多特征有時是必要的。在計算句子相似度的過程中,應該針對不同的語料特征,利用不同的句子信息來計算句子相似度,而不應該一層不變。比如:在有的領域,語義信息有很大的作用,基于語義信息的句子相似度方法正好可以解決這種問題;而在另外的領域,詞形信息有很大的作用,基于關鍵詞信息的方法效果不錯。因此,針對不同性質的語料中,各信息側重不同的特點,有必要把多元信息綜合起來,在實際運用過程中可以通過調整權重來處理更為廣泛的語料[5]。

3 結語

本文提出了一種綜合多特征的句子相似度計算方法。綜合多特征的句子相似度計算方法在計算句子相似度時綜合考慮了組成句子的詞形信息、詞語語義信息和句法結構信息,利用句子的深層信息和表層信息,通過加權整合特征權值的方式,以期達到提高句子相似度計算準確率的目的。為此,在計算兩個句子的句法結構相似度時,將綜合多特征的句相似度計算方法應用于計算機領域問答系統的FAQ問句匹配中,從而驗證算法的有效性。

【參考文獻】

[1]卜文娟.基于概念圖的中文問答系統的研究與實現[D].西北大學,2010.

[2]夏天,樊孝忠,駱正華,等.改進編輯距離算法與漢語句子相似度計算[C]//中國科協第2屆優秀博十生學術年會.蘇州:2004,444-449.

[3]胡國全,陳家駿,戴新宇,等.一種基于實例的漢英機器翻譯策略[J].計算機工程與設計,2005(4):900-903.

[4]楊思春,陳家駿.中文自動問答中句子相似度計算研究[J].情報學報,2008,27(1):35-41.

[5]王永智.限定域中文問答系統關鍵技術的研究[D].東南大學,2009.

[責任編輯:周娜]

主站蜘蛛池模板: 久久久久免费看成人影片| 国产H片无码不卡在线视频| 亚洲无码A视频在线| 伊人久久影视| 欧美在线视频不卡第一页| 亚洲一区二区三区中文字幕5566| 色爽网免费视频| 毛片久久网站小视频| 五月天久久综合国产一区二区| 国产菊爆视频在线观看| 久久一级电影| 一本一道波多野结衣av黑人在线 | 日韩午夜福利在线观看| 91精品专区国产盗摄| 中文字幕佐山爱一区二区免费| 国产精品hd在线播放| 欧美黄色a| 国产电话自拍伊人| 亚洲中文在线看视频一区| 成人午夜免费观看| 人妻少妇久久久久久97人妻| 国产精品流白浆在线观看| 色九九视频| 国产乱人激情H在线观看| 无码aⅴ精品一区二区三区| 欧美一级高清片久久99| 黄色国产在线| 久久精品无码一区二区国产区| 国产成人做受免费视频| 色婷婷亚洲综合五月| 一区二区日韩国产精久久| 亚洲中字无码AV电影在线观看| 98精品全国免费观看视频| 999国内精品久久免费视频| 国产偷倩视频| 久久99国产综合精品女同| WWW丫丫国产成人精品| 国产日本欧美在线观看| 五月激情综合网| 人妻无码中文字幕第一区| 日韩天堂在线观看| 亚洲综合色婷婷中文字幕| 亚洲无码精品在线播放| 黄色成年视频| 国产精品自在线拍国产电影| 无码中文AⅤ在线观看| 丁香五月婷婷激情基地| 97se亚洲综合在线| 国产麻豆精品手机在线观看| 亚洲中文字幕日产无码2021| 国产真实乱了在线播放| 国产亚洲欧美日韩在线一区| 久草中文网| 好紧好深好大乳无码中文字幕| 中字无码av在线电影| 亚洲天堂精品视频| 国产视频久久久久| 91九色最新地址| 国产青青操| 91亚洲国产视频| 99热这里只有免费国产精品| 99精品伊人久久久大香线蕉| 国产视频资源在线观看| 黄色网站不卡无码| 亚洲第一天堂无码专区| 国产精品黑色丝袜的老师| 国模私拍一区二区| 999精品免费视频| 高清欧美性猛交XXXX黑人猛交| 久久人搡人人玩人妻精品| 国产无吗一区二区三区在线欢| 麻豆精品在线视频| 国产女人18水真多毛片18精品 | 波多野结衣一级毛片| 91欧美在线| 亚洲欧美综合在线观看| 亚洲视频四区| 久草视频精品| 国产永久在线视频| 欧洲亚洲一区| 伊人成人在线| 亚瑟天堂久久一区二区影院|