999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應用于問答系統的Lucene相似度檢索算法改進

2017-11-20 11:12:01何聚厚
計算機技術與發展 2017年11期
關鍵詞:語義文本系統

白 菊,何聚厚

(1.現代教學技術教育部重點實驗室,陜西 西安 710062;2.陜西師范大學 計算機科學學院,陜西 西安 710119)

應用于問答系統的Lucene相似度檢索算法改進

白 菊1,何聚厚2

(1.現代教學技術教育部重點實驗室,陜西 西安 710062;2.陜西師范大學 計算機科學學院,陜西 西安 710119)

Lucene在文本檢索和搜索領域有著廣泛的應用,相似度評分算法是其搜索引擎的核心部分之一。而在問答系統中,也要用到檢索功能,相似度評分算法也是其核心部分之一。那么能否對Lucene的相似度評分算法進行改進,使其在問答系統的領域也能得到很好的應用。針對上述提出的問題,結合問答系統中問句簡短、包含信息量少的特點,引入外部詞典對查找的關鍵詞進行擴展,分析檢索詞項的語義相似度以及將詞項位置關系的特征應用到Lucene中。在Lucene的基礎上,對其語義相似度算法進行改進,提出了一種新的語義相似度評分算法。該算法考慮了詞項位置關系和語義理解,能夠更好地應用于問答系統。實驗結果表面,提出的相似度算法能有效地提高自動問答系統的回答準確率。

Lucene;相似度;問答系統;語義

0 引 言

Lucene是用Java語言實現的開放源代碼的全文檢索引擎工具包,是Apache軟件基金會Jakarta項目組下的一個子項目。Lucene以其索引結構優異、開源特性、高性能、易使用等特點,廣泛應用于Web、文本檢索等領域,以及各種軟件系統中,如開源軟件Eclipse的搜索功能等[1]。雖然Lucene有著廣泛的應用,但也存在不足之處。例如,Lucene內部默認的是基于詞頻的分析檢索函數來考察檢索文本之間的相似性[2],很少有考慮詞項語義的相似度,也沒有考慮到詞語位置之間的關系對搜索準確的影響。而且Lucene是一個開源的檢索框架,并不是一個完整的搜索引擎,它只是一個工具包[3]。因此,如果能對Lucene的檢索函數加以改進,并結合問答領域的特點,則其在問答領域也能有很好的應用。

根據以上問題,將檢索詞項語義的相關應用考慮到該檢索函數中。該函數改進了Lucene忽略語義信息而只考慮基于詞頻的檢索方法所引起的檢索不精確的問題[4]。在將詞擴展應用到該函數中的同時,也將詞項位置關系特征考慮到該檢索函數中。這樣不但實現了Lucene的相似度算法的改進,也使其能更好地適應問答領域中問句短、信息量少的特點。

1 Lucene的相似度評分算法分析

Lucene的核心部分之一就是相似度評分算法,是用來衡量查詢串和檢索文檔相似程度的一種算法。Lucene使用一種基于向量空間模型(SVN)的TF-IDF方法來計算文檔的相似度。TF-IDF方法基于詞頻分析來考慮檢索文檔的相似度,它綜合考慮的是這個詞對不同文檔的分辨能力和不同的詞在所有文檔中的出現頻率[5]。

Lucene內部的相似度評分算法如式(1)所示:

coord(q,d)×queryNorm(q)

(1)

其中,idf(t)2表示根據詞項t在倒排索引中出現的頻率;tf(tind)表示文檔d中詞項t出現的頻率;boost(t.field ind)表示詞項t所在的域的加權因子;lengthNorm(t.field ind)是在索引過程中計算出來并存儲在索引中的,表示域的標準化值,表示在某個域中詞項的個數;coord(q,d)是一個協調因子,其取值大小由問答中包含的查詢詞項的多少決定。包含的查詢詞項越多,該值就越大;queryNorm(q)表示每個查詢詞項的標準值,即每個查詢詞項權重的平方和。

從式(1)可以看出Lucene內部的相似度評分算法的特點:

(1)一個文檔中包含該查詢詞項的頻率越高,該文檔的得分就越高;

(2)查詢詞項在文檔中的位置并不重要;

(3)在一個命中文檔中,如果除了該查詢詞之外,其他的詞越多,該文檔得分越少[6-7]。

但在多數情況下,文檔與詞項的相似程度不但與詞項出現的頻率有關,還與詞項的位置關系特征以及詞義有關。例如,不同文檔中有下面兩句話:

S:mooc發展的主要問題是市場環境和體制問題。

R:這種病的主要根源是生活的環境問題造成的。

對于查詢“環境問題”,在文檔R中的查找是完全匹配的,因此,R文檔的得分應該比S文檔高,也更符合查詢者的要求。但是由于這兩句話中包含的詞項“問題”在文檔R中只出現一次,而在文檔S中出現兩次,所以由Lucene檢索得出的結果反而是S文檔的得分高于R文檔的得分[8-9]。

2 算法的改進

Lucene內部缺省實現的相似度檢索函數不考慮詞項的含義,也不考慮詞項出現的順序,而是將文本看作一個容納詞項的袋子。文本特征向量由文本中出現的詞項在文本中的頻率以及該詞項在整個文本集中出現的頻率表示。每一篇文本建模為由文中出現的n個加權詞項組成的向量。該方法基于以下兩點[10]:

(1)詞頻(Term Frequency):某個詞項在文本中出現的頻率越高,則它和該文本的相關度越高;但在很多特定的語言環境下,有許多特定的詞不具備這種特性,從而應將其排除,如英文的“she”和“he”,中文的“的”和“得”。

(2)逆文本詞項頻率(Inverse Document Frequency):某個詞項在文本集合的多篇文本中出現的頻率越高,則該詞項的區分度越差。例如,在包含1 500個文本集的集合中,某個詞項S在300篇文章中都有出現,而另一個詞項R只在30篇文章中出現,則詞項R比S有更好的區分度。通過對文本集中的每一個詞項都進行上述分析,然后得到每一篇文章中每一個詞項的TF-IDF值[11]。再利用這些TF-IDF值為每一篇文章建立一個空間向量模型,通過計算Jaccard系數或向量間的余弦相似度來表示檢索與文本之間的相似性。最終根據檢索文檔與用戶查詢之間的相似度值的高低排序,將檢索結果返回給用戶[12]。

2.1語義改進

盡管上述Lucene內部相似度評分算法在實踐應用中效果較好,但未能捕捉到文本的語義信息。而在自動應答系統中,用戶提出的問句本來就比較短,能捕捉到的信息也比較少,如果不考慮語義信息,則給用戶返回的回答的準確率可想而知[13]。例如,用戶提問有關電腦的問題,而電腦也稱計算機,如果僅用Lucene中只考慮詞頻而不考慮語義的方法,只能搜到有“電腦”這個詞的回答,而在只有“計算機”這個詞的答案是找不到的[14]。如果考慮檢索詞項的語義信息,則能更準確地獲取用戶的檢索信息[15]。

對以上提出的問題,對式(1)的相似度算法進行改進,改進后的相似度算法函數如下所示:

lengthNorm(t.field ind)×

coord(q,d)×queryNorm(q)

(2)

其中,Sim[tf(tind)]表示在進行查詢之前,先對詞項t進行擴展,將與詞項t相似的詞項加到查詢詞項中之后再進行查詢。在對詞項t進行擴展時,引入外部詞典WordNet對詞項進行相似度查詢。

2.2詞項位置改進

詞項的位置關系在問答系統中也占有非常重要的位置,對于本來信息量就比較少的問句,詞項的位置關系特征對回答準確率的影響可能就至關重要。而詞項的位置關系特征不僅與詞項出現的頻率有關,還與詞語位置的關系特征有關[15]。文中將詞項位置的關系特征分為三種:當距離為1時,這兩個詞是直接相鄰的;當距離大于0小于1時,該詞是去掉停用詞后相鄰的;當距離等于0時,這兩個詞是不相鄰的。因此,詞項的位置關系特征可進一步表示為詞項間的距離關系。為了更好地體現這一關系,引入“詞項位置相鄰相似度”來反映查詢詞項與檢索文檔中的詞項在相鄰性關系上的相似程度。

在對Lucene的評分機制函數進行改進前,首先對分詞處理后此項之間的相鄰程度進行標注。若兩個詞在分詞前后都是相鄰的(即中間沒有去掉的字或詞),則兩個詞之間的距離等于1;如果在分詞后中間有停用詞或字,去掉停用詞或字后是相鄰的,則兩詞之間的距離等于0.7;否則兩詞之間的距離等于0。詞項距離得分如下所示:

(2)設計要求及專業工程特點。主要介紹該人防工程設計方面的情況和相關要求,如建筑面積、層數、層高、樁基情況、高程情況、底板類型、厚度;防水等級;結構方面如混凝土、鋼筋、磚、砂漿的強度等級等;人防工程的防護單元等級、功能、主次出入口及防護設施情況;設計方交待的難點和重點。

(3)

根據以上分析,對Lucene相似度評分函數進行改進,如下所示:

NewScore(d)=α×SimScore(d)+β×

OrdScore(d)

(4)

其中,SimScore(d)是加入外部字典后計算的相似度得分;OrdScore(d)是考慮了詞位置后計算的相似度得分;α+β=1,經過實驗,當α=0.6,β=0.4時,搜索結果最為有效。

3 實驗結果與分析

3.1引入外部詞典

(1)在數據庫里面同時有“mooc”和“慕課”兩個詞語,但沒有引入同義詞詞典時的搜索結果如圖1所示。

從圖1可以看出,沒有加查詢擴展之前,電腦無法識別出“慕課”和“mooc”是同一個意思,所以在查找時輸入“mooc”就不會出現“慕課”的相關回答。

圖1 未引入同義詞字典的搜索結果

圖2 引入外部詞典的搜索結果

從圖2可以看出,在引入外部詞典進行查詢擴展之后,輸入“mooc”后,和“慕課”相關的答案也會得出。這樣的查詢結果更符合用戶的需求。

3.2考慮詞位置關系

(1)沒有考慮詞位置關系前的搜索結果如圖3所示。

圖3 未考慮詞位置關系的搜索結果

(2)考慮詞位置后的搜索結果如圖4所示。

圖4 考慮詞位置關系的搜索結果

從上面的搜索結果可以看出,在沒有考慮詞位置前,“環境問題”被分成“環境”和“問題”兩個沒有任何位置關系的詞分別進行查找,查找結果只要有“環境”或“問題”的相關答案都會出來。加上詞位置關系后,當查找到“環境”和“問題”兩個詞語位置相鄰的相關答案時,得分會更高,會顯示在更前面,這樣查找的準確率明顯高于前面查找的準確率,更符合用戶的查找要求。

3.3綜合結果比較

任選七個問句,出現相關的前3個答案時所包含的答案條數如表1所示。

表1 算法比較

折線圖如圖5所示。

圖5 相似度改進前后結果對比

從圖5中可以看出,在對Lucene的相似度算法改進后,搜索的答案明顯優于未改進前。

4 結束語

在自動應答系統領域,語義相似度計算是一個極其重要的問題。文中對Lucene內部的相似度評分算法進行了闡述,并在此基礎上對其進行改進。引入詞項位置關系特征和語義相似度信息來提高檢索的準確率。檢索結果表明,提出的方法可行、有效。雖然該算法有了一定的改進,但依然存在不足;在該算法中,引入的外部詞典都需要提前將近義詞等組織好,比較麻煩。需要尋找更簡單有效的方法,使自動應答系統能自動識別近義詞,而無需外部引入,這將是下一階段研究要考慮的問題。

[1] 李永春,丁華福.Lucene的全文檢索的研究與應用[J].計算機技術與發展,2010,20(2):12-15.

[2] 吳代文,楊方琦.Lucene在數據庫全文檢索中的性能研究[J].微計算機應用,2011,32(6):53-59.

[3] 張 俊,李魯群,周 熔.基于Lucene的搜索引擎的研究與應用[J].計算機技術與發展,2013,23(6):230-232.

[4] 楊 彬.基于Lucene.NET的局域網全文搜索引擎的設計與實現[D].四川:電子科技大學,2014.

[5] Pirro G,Talia D.An approach to ontology mapping based on the Lucene search engine library[C]//18th international workshop on database and expert systems applications.[s.l.]:IEEE,2007:407-411.

[6] 余正濤,樊孝忠,宋麗哲.基于問句語料庫的受限領域自動應答系統[J].計算機工程與應用,2003,39(36):28-30.

[7] 張 宏.基于本體的農業自動應答系統關鍵技術研究[D].保定:河北農業大學,2007.

[8] 王澤賢.基于Lucene的書目搜索相似度評分算法改進研究[J].圖書情報工作,2014,58(4):94-98.

[9] 丁兆貴,金 敏.基于Lucene的個性化搜索引擎研究與實現[J].計算機技術與發展,2011,21(2):105-108.

[10] 袁亞靜.基于查詢擴展的微博客服自動應答系統[D].北京:北京郵電大學,2015.

[11] 索紅光,孫 鑫.針對中文檢索的Lucene改進策略[J].計算機應用與軟件,2009,26(6):175-177.

[12] 任樹懷.LUCENE搜索算法剖析及優化研究[J].圖書館雜志,2014,33(12):17-23.

[13] 王 歡,孫瑞志.基于領域本體和Lucene的語義檢索系統研究[J].計算機應用,2010,30(6):1655-1657.

[14] 白培發,王成良,徐 玲.一種融合詞語位置特征的Lucene相似度評分算法[J].計算機工程與與應用,2014,50(2):129-132.

[15] 宋 佳,諸云強,劉潤達.一種基于Lucene改進的全文檢索工具包[J].計算機工程與應用,2008,44(4):172-175.

ImprovementofLuceneSimilaritySearchAlgorithmAppliedinQuestionAnsweringSystem

BAI Ju1,HE Ju-hou2

(1.Key Laboratory of Modern Teaching Technology of Ministry of Education,Shaanxi Normal University,Xi’an 710062,China;2.School of Computer Science,Shaanxi Normal University,Xi’an 710119,China)

Lucene has a wide range of applications in the field of text retrieval and search,and the similarity score algorithm is one of the key parts of its search engine.And in the question answering system,the search function is also used,and the similarity score algorithm is also one of the key parts of its search engine.It is possible to improve the similarity score algorithm of the Lucene so that it can be widely used in the field of question answering system.In view of this problem,combined with the question answering system in the characteristic of brief question and small amount of information,the external dictionary is introduced to expand the searched key words,analysis and retrieval of semantic similarity of words,application of lexical position relationship feature in Lucene.On the basis of Lucene,its semantic similarity algorithm is improved,and a new one is proposed which can be better applied in question answering system in consideration of lexical position relationship and semantic understanding.Experimental results show that the proposed algorithm can effectively improve the accuracy of the question answering system.

Lucene;similarity;question answering system;semantics

2016-11-16

2017-03-30 < class="emphasis_bold">網絡出版時間

時間:2017-08-01

教育部-中國移動科研基金項目(MCM20150604)

白 菊(1990-),女,碩士研究生,研究方向為知識工程與智能教學系統;何聚厚,博士,副教授,研究方向為知識工程與智能系統。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170801.1551.034.html

TP301.6

A

1673-629X(2017)11-0079-04

10.3969/j.issn.1673-629X.2017.11.017

猜你喜歡
語義文本系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲第一天堂无码专区| 伊人成色综合网| 免费国产好深啊好涨好硬视频| 久久久国产精品无码专区| 久久久久久久蜜桃| 国产精品3p视频| 日韩精品无码一级毛片免费| 国产成人8x视频一区二区| 成人国内精品久久久久影院| www.国产福利| 久久精品国产国语对白| 呦女精品网站| 国产麻豆精品在线观看| 国产精品冒白浆免费视频| 四虎在线高清无码| 全部免费特黄特色大片视频| 天堂网国产| 亚洲无码熟妇人妻AV在线| 极品国产在线| 日本午夜精品一本在线观看| 88国产经典欧美一区二区三区| 久草网视频在线| 国产亚洲精品在天天在线麻豆| 国产亚洲精品自在久久不卡| 亚洲成a人片77777在线播放| 亚洲欧美自拍中文| 91视频首页| 国产性猛交XXXX免费看| 在线播放真实国产乱子伦| 91成人免费观看| 亚洲三级片在线看| 五月激情综合网| 国产欧美性爱网| 强乱中文字幕在线播放不卡| 69综合网| 国产人人射| 国产精品女同一区三区五区| 日韩AV无码免费一二三区| 四虎精品国产永久在线观看| 99偷拍视频精品一区二区| 午夜国产大片免费观看| 日韩午夜伦| 国产精品无码AⅤ在线观看播放| 亚洲一区二区日韩欧美gif| 国产在线视频二区| 国产精品无码AV中文| 无码啪啪精品天堂浪潮av| 露脸真实国语乱在线观看| 69av在线| 亚洲 欧美 日韩综合一区| 在线不卡免费视频| 色婷婷综合激情视频免费看| 色综合激情网| 欧美黄网站免费观看| 日韩欧美国产三级| 亚洲成人播放| 国产黑丝一区| 毛片网站在线看| 免费无遮挡AV| 91精品国产情侣高潮露脸| 国产成人精品在线1区| 青青草原国产av福利网站| a级高清毛片| 三上悠亚一区二区| 国产毛片不卡| 精品成人一区二区三区电影 | 国产亚洲精品97在线观看| 欧美国产日本高清不卡| 久久一级电影| 久草视频一区| 国产伦片中文免费观看| 国产精品视频猛进猛出| 久久久久免费精品国产| 国产精品偷伦在线观看| 黄片在线永久| 国产青榴视频| 亚洲色偷偷偷鲁综合| 国精品91人妻无码一区二区三区| 成人一区在线| 91国语视频| 九九热免费在线视频| 2021国产乱人伦在线播放|