999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于向量空間模型附加詞義特征的句子相似度研究

2012-01-05 06:44:24樓新遠
成都信息工程大學學報 2012年3期
關鍵詞:模型

楊 松, 樓新遠

(西南交通大學,四川成都610031)

0 引言

隨著互聯網的發展,現代社會已成為一個知識爆炸的社會,如何從廣闊的知識海洋中找到需要的知識是目前人們最需要解決的問題。解決此類問題的主要途徑就是利用搜索引擎進行查找,通過使用搜索引擎,可以查找到一系列的相關文章,然后通過閱讀文章得到想要的答案。現在,自動問答系統逐漸走入人們的視線,越來越受到重視。用戶通過自動問答系統可以直接得到想要的答案,而不是一系列相關的文章,比搜索引擎更加直接、友好。自動問答系統中的一個關鍵問題就是如何根據用戶的提問在知識庫中查找到對應的答案,目前一般都是通過計算用戶提問的句子和知識庫中的對應問題的句子的相似度解決。

目前進行句子相似度計算時主要使用的算法有向量空間模型(Vector Space Model,VSM)[1-2],編輯距離算法(Levenshtein Distance)[3],語義詞典方法[4],依存樹法(Semantic Dependent T ree)[5-6],以及詞形詞序結合的方法等。基于向量空間模型的相似度計算方法是一種基于語料庫中出現的關鍵詞詞頻的統計方法,以大規模真實語料為基礎,首先計算出每個關鍵詞的權重,然后將句子轉換成由關鍵詞權重表示的詞項向量,最后通過計算兩個句子向量的夾角余弦,得到句子相似度。傳統的向量空間模型沒考慮到詞語的語義,沒考慮到詞語之間的相似度。論文在向量空間模型的基礎上增加了詞義特征,通過在傳統的向量空間模型中引入詞語之間的相似度,從而使計算出的兩個句子的相似度分數更加準確。

1 向量空間模型

在向量空間模型中,把每個句子都表示為一個 n維詞項向量的形式,然后在計算兩個句子的相似度時,將其轉換成向量空間中的向量夾角計算問題。使用向量空間模型計算句子相似度的時候并沒考慮到詞項的詞義,沒考慮到詞項之間的相似性。假設有如下兩個句子:句子S1=如何注冊成為淘寶會員;句子S2=怎樣申請淘寶賬號。將兩個句子分別進行分詞處理,得到如下結果:

S1=<如何,注冊,成為,淘寶,會員>

S2=<怎樣,申請,淘寶,賬號>假設各個詞的權重如表1所示:

表1 詞的權重

則得到的兩個向量為:

S1=<1.7,3.6,0.8,5.2.3.9,0,0,0>;S2=<0,0,0,5.2,0,1.3,2.2,4.2>

則根據傳統的向量空間模型計算出兩個句子的相似度為0.493。

從上面的計算過程可以看出,整個過程當中并沒考慮到詞項“如何”和“怎樣”是同義詞,“注冊”和“申請”是具有一定相似度的近義詞,“會員”和“賬號”也是具有一定相似度的近義詞。雖然從語義上感覺句子 S1和句子 S2非常相似,但是通過傳統的向量空間模型計算出的相似度分數卻很低,就是因為向量空間模型中并沒考慮到詞語之間的相似性。

為了解決上述問題,提出了帶有詞義特征的向量空間模型,通過在計算的過程中引入詞語的相似度,改進傳統的向量空間模型。

2 帶有詞義特征的向量空間模型

2.1 改進的詞項向量生成算法

為了在計算句子相似度時引入詞項之間的相似度,新的詞項向量生成算法不只是將相同的詞項作為同一個維度進行計算,而且將相似度大于閾值的 δ兩個詞項也作為同一個維度參與計算。目前計算詞項之間的相似度的算法一般有字面相似度算法[7-8],詞素相似度算法[9],基于《知網》和《同義詞詞林》的算法[10-11]等。設向量VS1是句子 S1生成的詞項向量,向量 VS2是句子 S2生成的詞項向量,向量 VSim 存放的是 VS1中和 VS2中對應的詞項的相似度,所以有式(1)的關系:

其中 VSimk表示向量VSim中的第k項,VS1k表示向量VS1中的第k個詞項,VS2k表示向量VS2中的第k個詞項。生成 VS1和 VS2的算法描述如下:

(1)m=|S1|,n=|S2|;//即 S1中有 m 個詞項,S2中有 n個詞項

(2)構建一個m×n的詞項相似度矩陣M,矩陣元素 Mij=Sim(T1i,T2j),Tpq表示句子Sp中的第q個詞項;

(3)查找矩陣中的最大值,記為Max,Max所在行記為r,所在列記為c;

(4)if Max≧δthen

將詞項 T1r加入到向量VS1的結尾,并從 S1中刪除詞項 T1r;

將詞項 T2c加入到向量VS2的結尾;并從 S2中刪除詞項 T2c;

將Max加入到向量 VSim的結尾;

end if

(5)重復(1)~(4),直到沒有Max值小于 δ,或者矩陣為空;

(6)將S1中剩余的k個詞項加入到向量VS1的結尾,并在 VS2的結尾加入k個0元素;

(7)將 S2中剩余的t個詞項加入到向量VS2的結尾,并在 VS1的結尾加入 t個0元素;

(8)在 VSim的結尾加入k+t個0元素。

假設詞項之間的相似度如表2所示:

表2 詞項相似度

假設閾值δ=0.7,根據上述算法生成的3個詞項向量分別為:

VS1=<如何,淘寶,會員,注冊,成為>

VS2=<怎樣,淘寶,賬號,申請,0>

VSim=<1,1,0.8,0.7,0>

可以看出,這里生成的詞項向量已經將相似度大于δ的詞項放在同一個維度。

2.2 改進的相似度計算方法

因為通過新算法生成的句子向量,將相似的兩個詞項當做同一個維度,所以需要對傳統的向量空間模型中的公式進行改進,在計算兩個詞項的權重的乘積時引入詞項的相似度。繼續使用符號 W作為詞項的權重標記,Wpq表示句子向量VSp中的第q個詞項的權重。改進的相似度算法如式(2)所示:

其中 VSim是新的句子向量算法生成的詞項相似度向量。

上文例子中的兩個句子“如何注冊成為淘寶會員”和“怎樣申請淘寶賬號”,通過新的相似度算法計算出的相似度得分為0.873,顯然好于之前的計算結果。

3 實驗結果與分析

使用正確率(Precision,P)和召回率(Recall,R)[12]兩個基本指標來衡量句子相似度算法的效果。通過將正確率和召回率進行融合,可以得到二者的調和平均值F,使用F作為最終的衡量結果,F的定義如下:

另β=1,即表示F值中正確率和召回率的權重相等,得到

實驗中,使用某電子商務公司的自動問答機器人系統中某類別的470條常見問題集作為語料庫,隨機抽取某日用戶針對該類問題提問的313個問題作為查詢問題集,使用查詢問題集中的問題對語料庫進行提問,并對查詢結果進行人工識別。根據《同義詞詞林(擴展版)》得到詞語的相似度,《同義詞詞林(擴展版本)》使用5層分類體系,將詞語進行編碼,兩個詞語的編碼從左至右進行對比,得到的公共前綴子串越長,表示兩個詞語越相似。根據《同義詞詞林(擴展版)》中定義的層級對詞語的相似度進行打分,結果如表3所示。

表3 詞語的相似度分數

根據上述數據和公式分別計算通過傳統的向量空間模型得到的F值,以及通過改進的向量空間模型得到的F值(見表4)。其中詞語相似度的閾值δ進行3次不同的取值,分別為1,0.9和0.7。

表4 實驗結果

通過實驗結果可知,使用帶有詞義的向量空間模型得到的計算結果的精確率和召回率有所改善。

4 結束語

提出了帶有詞義特征的向量空間模型,通過在傳統的向量空間模型中引入詞語的相似度,彌補了傳統向量空間模型中沒有考慮詞義的缺點,通過實驗驗證了該方法可以得到更高的精確率,尤其是召回率提高的較多。但是生成句子向量的算法復雜度較高,不適合計算詞項很多的整篇文檔之間的相似度,只適用于計算句子的相似度。

[1] Salton G,Wong A.On the Specification of Term Value in Automatic Indexing[J].Journal of Documentation,1973,29(4):351-372.

[2] Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing[M].Englewood Cliff,NJ:Prentice Hall Inc,1971.

[3] 車萬翔,劉挺,秦兵,等.基于改進編輯距離的中文相似句子檢索[J].高技術通訊,2004,(7):15-19.

[4] 裘江南,羅志成,王延章.基于中文語義詞典的語義相關度方法比較研究[J].情報理論與實踐,2008,(5).

[5] 李彬,劉挺,秦兵.基于語義依存的漢語句子相似度計算[J].計算機應用研究,2002,(12):15-17.

[6] 穗志方,俞士汶.基于骨架依存樹的語句相似度計算模型[A].中文信息處理國際會議[C],北京,1998.

[7] 吳志強.經濟信息檢索后控詞表的研究[D].南京:南京農業大學,1999.

[8] 章成志.基于多層特征的字符串相似度計算模型[J].情報學報,2005,24(6).

[9] 侯漢清,朱毅華,沙印亭.計算機識別同義詞的兩種算法的比較與評測[J].中國圖書館學報,2002,28(140):82-85.

[10] 李素建,劉群.基于《知網》的詞匯語義相似度計算[C].第三屆中文詞匯語義學研討會,中國臺北,2002.

[11] 梅家駒,竺一鳴,高蘊琦.同義詞詞林:第二版[M].上海:上海辭書出版社,1996.

[12] Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze.Introduction to Information Retrieval[M].Cambridge University Press,2008.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品久久久久久中文字幕女 | 亚洲综合经典在线一区二区| 九九久久精品国产av片囯产区| 91毛片网| 日韩国产一区二区三区无码| 国产精品色婷婷在线观看| 午夜小视频在线| 国内精品一区二区在线观看 | 黑人巨大精品欧美一区二区区| 婷婷久久综合九色综合88| 91美女视频在线| 精品欧美日韩国产日漫一区不卡| 国产凹凸视频在线观看| 蜜芽国产尤物av尤物在线看| 色综合天天综合中文网| 亚洲欧洲天堂色AV| 国产幂在线无码精品| 强奷白丝美女在线观看| 国产成人免费视频精品一区二区| 中文国产成人精品久久| 亚洲无码高清视频在线观看| 午夜国产精品视频| 国产精品不卡永久免费| 欧美精品在线看| aa级毛片毛片免费观看久| 青青操国产视频| 欧美另类视频一区二区三区| 中日韩欧亚无码视频| 欧美精品综合视频一区二区| 国产精品污视频| 久久综合亚洲鲁鲁九月天| 国产精品一区不卡| 伊人久久大香线蕉影院| 国产人人射| 欧美不卡二区| 青青草欧美| 黄色污网站在线观看| 国产精品嫩草影院av| 亚洲第一页在线观看| 久久这里只有精品2| jizz在线观看| 欧美精品v| 久久久久久午夜精品| 欧美不卡视频在线观看| 黄色国产在线| 欧美日韩北条麻妃一区二区| 欧美笫一页| 亚洲二三区| 欧美成在线视频| 激情综合婷婷丁香五月尤物| 亚洲国产成人精品一二区| 国产成人久视频免费| 无码精品国产VA在线观看DVD| 久久婷婷国产综合尤物精品| 国产成人精品高清不卡在线| 国产男人的天堂| 国产丝袜丝视频在线观看| 熟女日韩精品2区| 免费观看男人免费桶女人视频| 国产资源站| 国产精品人人做人人爽人人添| 久青草免费在线视频| 一级爱做片免费观看久久| 91精品国产综合久久不国产大片| 国产成人91精品| 欧美在线综合视频| 一本一道波多野结衣一区二区| 成人在线不卡视频| 人妻夜夜爽天天爽| 亚洲中文字幕在线精品一区| 四虎影视国产精品| 国内精品视频区在线2021| 国产爽歪歪免费视频在线观看| 精久久久久无码区中文字幕| 91精品国产一区| 99re视频在线| a天堂视频在线| 国产SUV精品一区二区6| 欧美中文字幕第一页线路一| 激情六月丁香婷婷四房播| 国产欧美精品专区一区二区| 国内嫩模私拍精品视频|