999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特定領域的加權語義相似度算法研究

2015-08-01 10:06:52高蕾娜史延楓李艷丹
成都大學學報(自然科學版) 2015年3期
關鍵詞:語義高血壓

高蕾娜,史延楓,李艷丹

(1.成都大學 機械工程學院,四川 成都 610106;2.華中科技大學 機械學院,湖北 武漢 430074)

0 引 言

自動問答系統的主要功能是讓計算機能用自然語言來回答人們所提的問題.近年來,隨著網絡和信息技術的快速發展,結合人們快速獲取信息的愿望更進一步促進了自動問答技術的發展[1].自動問答系統一般包括3 個主要部分:問題分析、信息檢索和答案抽取.通過問題分析而得到的關鍵詞集需要提交給信息檢索模塊來查找相關的文檔,檢索系統的任務就是在已有的文檔庫中搜索和關鍵詞集相關的文檔.為了保證對任何問題都能找到相關的文檔,文檔庫必須足夠大.文檔庫也可從互聯網上下載,此時檢索模塊返回的是一堆相關的網頁.自動問答系統中的信息檢索模塊所用方法通常是計算候選問題集中每個問句和目標問句之間的相似度,對應的相似度最大的問句就是要找的句子.目前常用的句子相似度計算方法分為2 種[2-4]:一種是基于向量空間模型的詞頻—逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)方法,一種是基于語義相似度的方法.第一種算法基于詞頻,沒有考慮語義,適用于大規模語料庫;第二種算法反映了語義間差異,但通常沒有考慮到詞語的權重信息.基于此,本研究將兩者結合,提出一種基于特定領域的加權語義相似度算法.由于該算法不僅考慮詞語語義,還考慮FAQ 庫詞語在句子中的權重信息,因而由此方法計算得到的相似度更具有合理性,并使查準率有所提高.

1 算法原理

基于特定領域的加權語義相似度計算方法建立在2 個詞匯具有一定的語義相似性當且僅當它們在概念間的結構層次網絡圖中存在一條通路(主要是上下位關系)這一假設的基礎上[5-6].分屬于不同概念領域的2 個詞匯之間不存在交集,因此它們之間的語義距離應為無窮大,其相似度為0.對于位于同一語義樹的2 個義原,綜合考慮義原樹的深度和密度因素的影響,可計算出2 個義原的相似度[7].用戶問句中不同詞語對于整個問句的貢獻是不同的,通常給主要詞語賦予較高權重,次要詞語賦予較低權重[8].一般而言,一個詞在一篇文檔中出現的頻率越高,其權重越大;文檔集中出現該詞的文檔越多,其權重越小.詞語權重的計算公式為,

式中,w(df,tg)為文檔df中詞語tg的權重,TF(df,tg)為文檔df中詞語tg的詞頻,N 為文檔集的文檔數,n 為含有詞語tg的文檔數,分母為規一化因子,目的是將值限定在[0,1]中.

設用戶問句,Q = {q1,q2,…,qm},qi為句子Q含的詞語,1 ≤i ≤m;設FAQ 庫中任一問句,Q' ={q'1,q'2,…,q'n},q'j為句子Q'的詞語,1 ≤j ≤n.根據相關的詞語權重計算方法可以得到序列,w ={w'1,w'2,…,w'n},其中w'j為q'j對應的權重.利用基于語義相似度方法,計算Q 和Q'中詞qi(1 ≤i ≤m)和q'j(1 ≤j ≤n)之間的相似度用s(qi,q'j)來表示,從而得到一個m × n 的矩陣,

則句子Q 中所有詞語與句子Q' 之間的相似度S(Q,Q')為,

同樣,以用戶問句Q 為參照,計算Q'和Q 中詞q'j(1≤j ≤n)和qi(1 ≤i ≤m)之間的相似度用s(q'j,qi)來表示,從而得到一個n ×m 的矩陣,

矩陣M(Q',Q)是M(Q,Q')的轉置陣,且s(qi,q'j)= s(q'j,qi).句子Q'中所有詞語與句子Q 之間的相似度S(Q',Q)為,

最后將兩值求平均就可以得到2 個句子最終的相似度Similarity(Q,Q'),

2 實驗算例與分析

假設高血壓領域FAQ 庫中有3 個句子:

d1,高血壓每一期的眼底動脈癥狀有哪些?

d2,高血壓導致腦血管破裂造成眼底動脈硬化該怎么辦?

d3,高血壓對眼底動脈有影響嗎?

用戶問句Q:高血壓分為3 種危險程度,眼底動脈在不同階段有什么表現?

d1 包含的詞有:{高血壓,每一,期,眼底動脈,癥狀,有,哪些};

d2 包含的詞有:{高血壓,導致,腦血管,破裂,造成,眼底動脈,硬化,該,怎么辦};

d3 包含的詞有:{高血壓,眼底動脈,有,影響};

Q 包含的詞有:{高血壓,3 種,危險,程度,眼底動脈,不同,階段,有,什么,表現}.

FAQ 庫所有問句包含的所有詞有:{高血壓,每一,期,眼底動脈,癥狀,有,哪些,導致,腦血管,破裂,造成,硬化,該,怎么辦,影響}.

TF-IDF 和語義相似度計算的詳細過程可參考文獻[9],對于本研究提出的基于特定領域的加權語義相似度計算方法的具體步驟為:

d1 可表示為向量,

d2 可表示為向量,

d3 可表示為向量,

根據式(1)計算得到詞語權重,

易知,Q 與d1 的語義相似度為,

d1 與Q 構成相似度矩陣為,

d1 與Q 的語義相似度為,

2 個句子最終的相似度為,

同理,Q 與d2 的語義相似度為,

d2 與Q 構成相似度矩陣,

d2 與Q 的語義相似度為,

2 個句子最終的相似度為,

同理,Q 與d3 的語義相似度為,

d3 與Q 構成相似度矩陣,

d3 與Q 的語義相似度為,

2 個句子最終的相似度為,

3 種相似度計算方法的結果如表1 所示.

由表1 可以看出,與用戶問句Q 最為接近的FAQ 文件應為d1,而在表1 中TF-IDF 方法這一列,Q 與d3 計算的相似度大于與d1 計算得到的結果,顯然與實際情況矛盾.對于語義相似度與加權語義相似度方法計算得到的結果符合實際情況,而加權語義相似度相對于前者,提高了與d1 的相似度,而對于不太相關的問題d2,反而減少了其相似度結果.通過上述分析可知,加權語義相似度可獲得較為正確的匹配結果.

表1 3 種相似度計算方法結果比較

3 結 論

自動問答系統充分利用網絡技術和人工智能的優勢,使得用戶疑問既能夠得到及時有效的解答,又能節省時間、提高效率,而相似度匹配算法是信息檢索模塊的核心.本研究提出的基于特定領域的加權語義相似度計算方法由于考慮了詞語語義和權重2方面的信息,因此可獲得較好的匹配結果.

[1]鄭實福,劉挺,秦兵,等.自動問答綜述[J].中文信息學報,2002,16(6):46-52.

[2]王洋,秦兵,鄭實福.句子相似度計算在FAQ 中的應用[EB/OL].[2014-03-16].http://ir.hit.edu.cn/phpwebsite/index.php?module = documents&JAS-Document-Manager-op=downloadFile&JAS-File-id=17.

[3]Voorhees E.The TREC-8 question answering track report[C]//Proceedings of the 8th Text Retrieval Conference.Gaithersburg,MD:NIST,2002.

[4]王品,黃廣君.信息檢索中的句子相似度計算[J].計算機工程,2011,37(12):38-40.

[5]Rada R,Mili H,Bicknell E.Development and application of a metric on semantic nets[J].IEEE Trans Syst Man Cybern,1989,19(1):17-30.

[6]李文清,孫新,張常有,等.一種本體概念的語義相似度計算方法[J].自動化學報,2012,38(2):229-235.

[7]葛斌,李芳芳,郭絲路,等.基于知網的詞匯語義相似度計算方法研究[J].計算機應用研究,2010,27(9):2808-2810.

[8]張桂林.中文文本自動分類系統的研究與實現[D].吉林:吉林大學,2007.

[9]高蕾娜.老年慢性病無線監控遠程關懷系統關鍵技術研究[D].武漢:華中科技大學,2009.

猜你喜歡
語義高血壓
全國高血壓日
西部醫學(2021年10期)2021-10-28 08:25:50
高血壓用藥小知識
中老年保健(2021年5期)2021-08-24 07:07:16
語言與語義
這些高血壓的治療誤區你知道嗎
如何把高血壓“吃”回去?
基層中醫藥(2018年4期)2018-08-29 01:25:58
高血壓,并非一降了之
基層中醫藥(2018年6期)2018-08-29 01:20:14
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
中醫干預治療高血壓49例
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 99热最新网址| 亚洲天堂成人在线观看| 中日韩欧亚无码视频| 波多野结衣久久高清免费| 欧洲欧美人成免费全部视频| 性网站在线观看| 这里只有精品在线播放| 日韩在线永久免费播放| 99人体免费视频| 国产成人免费高清AⅤ| 亚洲天堂日本| 国产亚洲欧美日韩在线观看一区二区| 久久国产精品77777| 色有码无码视频| 亚洲无码电影| 九九线精品视频在线观看| 超清无码一区二区三区| 999精品视频在线| 欧美日韩国产精品va| 欧美曰批视频免费播放免费| 欧美精品在线视频观看| 久久黄色一级视频| 亚洲精品无码不卡在线播放| 久久精品最新免费国产成人| 亚洲色欲色欲www网| 国产不卡一级毛片视频| 色天堂无毒不卡| 激情国产精品一区| 国产精欧美一区二区三区| 九九热在线视频| 久久久波多野结衣av一区二区| 中文字幕欧美日韩| 欧美成人午夜视频| 亚洲成网站| 蜜臀AV在线播放| 久久精品人人做人人综合试看| 欧美第一页在线| 亚洲成年人片| 啪啪啪亚洲无码| 福利一区三区| 色久综合在线| 国产高清无码第一十页在线观看| 91精品专区国产盗摄| 又黄又爽视频好爽视频| 国产精品原创不卡在线| 亚洲免费人成影院| 婷婷五月在线视频| 国产精品美女免费视频大全 | 大香伊人久久| 亚洲国产av无码综合原创国产| 日韩色图区| 国产成人啪视频一区二区三区| 手机在线免费不卡一区二| 亚洲三级色| 日韩在线影院| 中文字幕啪啪| 无码有码中文字幕| 国产黄在线免费观看| 人妻无码一区二区视频| 国产日韩精品一区在线不卡| 999精品免费视频| 中文字幕亚洲乱码熟女1区2区| 久久成人18免费| 性视频久久| 国产成人精品亚洲日本对白优播| 亚洲午夜福利精品无码| 无码一区中文字幕| 亚洲国产日韩视频观看| 精品国产黑色丝袜高跟鞋| 亚洲国产精品日韩av专区| 久久久亚洲国产美女国产盗摄| 亚洲人免费视频| 久久一级电影| 天天色综合4| 亚洲成a∧人片在线观看无码| 国产丝袜无码精品| 中文字幕 日韩 欧美| 天堂网亚洲综合在线| 在线无码九区| 久久国产亚洲偷自| 国产swag在线观看| 中文字幕66页|