999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于倒排索引的答疑系統(tǒng)知識庫文本研究

2010-10-26 09:06:18寧可為
湖北開放大學學報 2010年6期
關(guān)鍵詞:單詞文本系統(tǒng)

寧可為,王 煒

(新疆師范大學 教育科學學院,新疆 烏魯木齊 830054)

基于倒排索引的答疑系統(tǒng)知識庫文本研究

寧可為,王 煒

(新疆師范大學 教育科學學院,新疆 烏魯木齊 830054)

通過對自動答疑系統(tǒng)的知識庫存儲及檢索方式進行分析,提出了以倒排索引方式對答疑系統(tǒng)知識庫文本進行重構(gòu),實現(xiàn)了知識庫文本預(yù)處理和建立倒排索引功能,該系統(tǒng)的建立提高了文本內(nèi)容的檢索的準確率和查全率,使用戶獲得更好的體驗。

知識庫;倒排索引;文本;答疑系統(tǒng)

一、引言

在面向某學科的自動答疑系統(tǒng)中,我們把一些常用知識點(概念)作為的答疑系統(tǒng)中問句答案進行存儲,而學科分類中,有幾十個學科,每個學科至少有幾十門課程,每門課程中至少有若干個知識點,而每個知識點又對應(yīng)若干個問句答案。這樣,知識庫中的知識(問句答案)中就存在上千萬條數(shù)據(jù)。知識庫組織關(guān)系到知識查詢的效率及用戶的體驗,如果單純的數(shù)據(jù)庫查詢,在海量知識文本中查找用戶所需的問句答案其查詢時間是非常可觀的。如此巨大的知識庫文本如何存儲,并且如何在幾秒內(nèi)返回搜索結(jié)果確實是一項挑戰(zhàn)。基于以上分析,答疑系統(tǒng)中的知識庫不能簡單是數(shù)據(jù)庫中幾張表,而是一個復(fù)雜的數(shù)據(jù)結(jié)構(gòu),本文根據(jù)自動答疑系統(tǒng)的檢索特性提出一個良好的數(shù)據(jù)存儲結(jié)構(gòu)——索引,極大地提高了系統(tǒng)的檢索效率。

二、知識庫文本的預(yù)處理

1.文本的歸一處理

答疑系統(tǒng)與搜索引擎的功能有一定區(qū)別,也導(dǎo)致處理文檔也有不同區(qū)別。根據(jù)答疑系統(tǒng)檢索的特點,一般一個問題對一個文檔中的某一段進行搜索,抽取其中的答案返回給用戶,用戶也不必瀏覽知識庫源文檔。因此對于大文檔必須以一個固定的量為單位及以段落為分割點切分為多個小較少的文檔,并以統(tǒng)一的.txt文件進行存儲。檢索時面對統(tǒng)一格式文檔能提高文檔的加載及檢索速度。

2.索引關(guān)鍵詞提取

在信息檢索中,常常用文本中含有一些關(guān)鍵詞代表了語句的主體含義,在建立索引時文本中的關(guān)鍵詞是索引項一部分,因此,從文本中提取索引項就是從給定文本的連續(xù)字符中找出完整的單詞。英語,法語等語言詞與詞有天然的分隔符空格,單詞確定較為容易,對于漢語要在句子中確定單詞就極為困難,為了能正確提取單詞一般先對句子進行詞法分析并采用基于詞庫和 N元組為索引單位的混合方式切分出索引關(guān)鍵詞。現(xiàn)在流行的分詞系統(tǒng)如中科院的ICTCLAS分詞系統(tǒng)及JE分詞系統(tǒng),本文采用的是ICTCLAS分詞,它能高效地在句子切分出單詞,“分詞正確率高達97.58%”[1]。根據(jù)分詞系統(tǒng)可以把整編文檔切分成一個個離散的單詞,但并不是所有單詞都可以作為關(guān)鍵詞,還應(yīng)該對單詞集進行過濾去掉無用詞。

根據(jù)自然語言詞性特征將單詞分為內(nèi)容詞(Content word)功能詞(Function word)兩類[2]。其中內(nèi)容詞表示某個特定的概念的詞。如漢語中的名詞,動詞等。功能詞表示詞與詞之間的關(guān)系,如漢語中的助詞,連詞,語氣詞等等。經(jīng)過大量統(tǒng)計發(fā)現(xiàn)它們頻繁出現(xiàn)在文本中,其表義值非常低,選擇索引詞條時應(yīng)該被過濾掉。去停用詞方法是把無用詞構(gòu)建成一張停用詞表(stop list),凡是這張表中出現(xiàn)的詞都將被過濾掉。

三、知識庫的索引

對知識庫文本建立索引方式常用的有 3種,分別是倒排,后綴數(shù)組和簽名文件。倒排索引被當前主流搜索引擎所廣泛使用,它對關(guān)鍵詞的檢索非常有效。在倒排索引中,無論多大數(shù)量的文本數(shù)據(jù)庫,總能夠規(guī)范出一個關(guān)鍵詞表,所有關(guān)鍵詞的數(shù)量不會隨文本內(nèi)容的增長而線性增長。據(jù)統(tǒng)計對于1GB的文本信息,倒排文檔的關(guān)鍵詞表的大小在5MB左右[3]。由于倒排文檔的組成特點,使得許多數(shù)學檢索模型(如布爾模型,集合運算等)能夠方便地用于信息檢索中。因此本文采用倒排索引結(jié)構(gòu)。

1.倒排索引結(jié)構(gòu)

本文將知識庫索引結(jié)構(gòu)如圖 1所示,具體分如下幾部分:主文件索引MX(Master File Index),主要為知識庫源文檔提供一個順排文件。MX結(jié)構(gòu):文檔號,文檔分值,地址指針。其中文檔號是對應(yīng)知識庫源文檔的編號,可通過折半找查定位到該源文件,分值是根據(jù)文檔激勵因子及長度因子計算出的文檔得分。

圖1 索引結(jié)構(gòu)

倒排文件索引IX(Inverted File Index)保存關(guān)鍵詞和其文檔集合之間關(guān)系映射,能快速找出要檢索的關(guān)鍵詞所在的文檔號集合。IX結(jié)構(gòu):關(guān)鍵詞序列,目長(含有該關(guān)鍵詞的記錄的條數(shù)),文本號向量,IF地址指針。本文新增“文本號向量”元素取代傳統(tǒng)倒排文件的“記錄號集合”[4]元素,文本號向量從左邊第一位起對應(yīng)該著所有文檔號。通常,計算包括兩個查詢詞的文檔集合的交集時間復(fù)雜度為 O(m*n),通過文本號向量計算其交集時間復(fù)雜度為O(1)。檢索系統(tǒng)給出復(fù)數(shù)個查詢詞時,僅需要進行文本號向量間的邏輯運算能就高速檢索出所有關(guān)鍵詞共同所對應(yīng)的文檔號。

倒排文件IF(Inverted file)為降低IX文件所占用的內(nèi)存容量把IX中與關(guān)鍵詞相關(guān)的文檔號及關(guān)鍵詞相關(guān)信息轉(zhuǎn)存到IF中。IF結(jié)構(gòu):文檔號,位置信息。其中位置信息是關(guān)鍵詞在本文檔中出的位置。

專用詞表RT(Related Terms)是為面向特定領(lǐng)域的答疑系統(tǒng)設(shè)計的詞表。RT的構(gòu)成以IX為基礎(chǔ),加入詞間關(guān)系的指針,幫助用戶選準主題詞,擴大檢索途徑,提高查全率與查準率。

2.倒排索引的建立

建立倒排索引就如同寫一本書的目錄一樣,目錄是章節(jié)標題對應(yīng)頁碼,對全文搜索來講,倒排索引就是詞對應(yīng)該文檔編號。通過分詞后普通文檔的存在形式為:

Doc1 KeyWord1,KeyWord2,KeyWord4,KeyWord5(形式1 )

Doc2 KeyWord1,KeyWord2,KeyWord3

Doc3 KeyWord1,KeyWord4

Doc4 KeyWord3,KeyWord4

Doc5 KeyWord3,KeyWord5

建立倒排索引就是將此過程翻轉(zhuǎn)過來,如下:

keyWord1,keyWord2,KeyWord4,KeyWord5 Doc1(形式2)

KeyWord5,KeyWord3 Doc5

在知識庫建索引時,把形式 1轉(zhuǎn)化形式 2并且把KeyWord 與Doc 進行歸并,消去重復(fù)的DocID,計算出每個文檔的得分和關(guān)鍵詞出現(xiàn)在文檔的位置信息以升序方式排列存儲,并將文本號向量代替文檔號消去文檔號(如表1所示)。

表1 歸并后的索引

文檔集合列中數(shù)字表示KeyWrod在文檔中的出現(xiàn)的位置,并按出位置升序排列。Doc(i)不存儲在文件中。實際應(yīng)用中對KeyWord進行排序并對其進行折半查找可以提高關(guān)鍵詞的檢索速度并能達到高速的數(shù)據(jù)插入。

當知識庫有大量數(shù)據(jù)時,倒排表會變得非常龐大,為了提高檢索速度檢索系統(tǒng)必須將倒排表載入內(nèi)存,就可能導(dǎo)致內(nèi)存溢出,系統(tǒng)的性能瞬間降到為零。本文采取一種倒排索引重組的方法,拿關(guān)鍵詞部分到內(nèi)存中的詞典項中過行Hash查找,將倒排索引(IX)的右部存在倒排文件(IF)中,并將原先的右部改成在IF文件中的偏移地址,形成對應(yīng)的指針項讀取指定的文件中倒排表。例如:

K1 (18),(13),(24;40),11100

K2 (11),(6), 11000

經(jīng)過處理在內(nèi)存中的倒排表便為以下形式

K1 File1,3,StartPos1,Len1,11100

K2 File1,2,StartPos+Len1,Len2,11000

File1∶ (18),(13),(24;40), (11),(6)

上面File1是指倒排文件(IF) 的文件名,StartPos 是指倒排表右部在索引文件中的偏移位置,Len是指倒排表右部在索引文件中的長度。

另外為了提高檢索速度,在建立索引時把知識庫中的源文檔信息以記錄形式按升序編號形成主鍵 DocID存儲存在 MX文件中。當檢索系統(tǒng)通過文本向量號邏輯運算后會得關(guān)鍵詞所屬的DOC的集合{doc1,doc2,…},我們要找原始文檔,只要通過對MX進行折半查找便可得出DOC的集合所對應(yīng)的原文檔信息。

3.文檔的分值(score)計算

當檢索系統(tǒng)對用戶所提的問題進入一次預(yù)查找時,可能返回一系列與關(guān)鍵詞相關(guān)文檔,要做到檢索的結(jié)果精確,降低答案相似度計算量,應(yīng)該優(yōu)先將與問題最相關(guān)的文本優(yōu)先送出,然后與優(yōu)先送出的文檔集合進行相似度計算。本文對檢索到的文本增加一個分值屬性(文檔分值),根據(jù)分值進行排序,文檔的得分越高,就與用戶所提的問題越接近。分值一部分由檢索時根據(jù)關(guān)鍵詞的“詞條頻率 TF(Term Frequency)*反轉(zhuǎn)文檔頻率 IDF(Inversed Document Frequency)公式”[2]臨時計算得出,另一部分由如下兩個因子得出并存儲在MX文件中。

(1)文檔的長度因子

計算公式:1.0/SQR(numTerms)其中numTerms為單個文檔詞條總數(shù)。文檔集合中一般含有長短不同的文本,長文本會出現(xiàn)同一個索引項被反復(fù)使用的傾向,且長文本中的索引項的種類也多,與查詢出現(xiàn)的索引項相同的機會相應(yīng)增加,這就使長文本的索引項有較大的權(quán)重,長文本與短文本相比長文本被檢索的概率要高。為了消除文本長度帶來的影響,本文采用計算文檔的長度因子方式降低長文本的分值來達到最后文檔得分的平衡。當被索引的文檔中的詞條數(shù)量越多,則其長度因子就越小。

(2)激勵因子(boost) 在對某文檔進行索引時,知識庫構(gòu)建者想人為增加某個文檔相關(guān)度,使其在搜索結(jié)果中排在更靠前的位置上,可以通過增加boost值,其值越大其相關(guān)度越大,就越接近用戶所提的問題。

四、結(jié)束語

自動答疑系統(tǒng)中進行問句答疑就是以毫秒級的速度對海量知識庫文本進行關(guān)鍵字匹配找出得分最高的文本序列,然后根據(jù)用戶問句與文本序列進行語義相似度計算得出最終結(jié)果。對于擁有海量數(shù)據(jù)的知識庫來講,知識庫文本存儲結(jié)構(gòu)的優(yōu)劣直接影響查詢效率,實踐證明對其知識文本采用倒排索引結(jié)構(gòu)進行索引存儲能極大地提高數(shù)據(jù)檢索速度。

[1] 張輝麗. 計算機鄰域中文自動問答系統(tǒng)的研究[D].天津大學,2006.

[2] 邰曉英.信息檢索技術(shù)[M].科學出版社,2006.

[3] 邱哲,符滔滔.開發(fā)自己的搜索引擎――Lucene2.0+ Heritrix[M].人民郵電出版社,2007.

[4] 袁津生,趙傳剛.搜索引擎與信息檢索教程[M].中國水利水電出版社,2008.

[5] 盧亮,張博文.搜索引擎原理實踐與應(yīng)用[M].電子工業(yè)出版社,2007.

[6] 蘇新寧.信息檢索理論與技術(shù)[M].科學技術(shù)文獻出版社,2004.

Research of Knowledge Database Document of Question Answering System based on the Inverted Index

NING Ke-wei,WANG Wei

The present study, by means of the analysis of Knowledge Database Document of Question Answering System (KDDQAS for short) and the Inverted Index, proposes the way of applying the Inverted Index to reconstruct the texts of KDDAQS, and then achieve the pre-management of knowledge database and the function of Inverted Index. The construction of this system can enhance the accuracy of query and the full use when indexing texts. Users on this occasion can have a better experience than before.

Knowledge database, Inverted index, Document, Question Answering System

G254.36

A

1008-7427(2010)06-0148-02

2010-04-02

新疆師范大學研究生科技創(chuàng)新項目基金,項目編號:20091106。

猜你喜歡
單詞文本系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
看完這些單詞的翻譯,整個人都不好了
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 69国产精品视频免费| 色婷婷综合在线| 精品国产91爱| 成人永久免费A∨一级在线播放| 99精品视频九九精品| 无码一区二区波多野结衣播放搜索| 久久久久青草线综合超碰| 免费国产在线精品一区| yy6080理论大片一级久久| 亚洲一道AV无码午夜福利| 毛片网站在线看| 国产精品欧美在线观看| 精品色综合| 日本精品一在线观看视频| 欧美一级高清免费a| 亚洲 欧美 中文 AⅤ在线视频| 国产视频自拍一区| 婷婷色婷婷| 精品成人免费自拍视频| 狠狠做深爱婷婷久久一区| 在线亚洲精品福利网址导航| 无码人中文字幕| 欧美日韩国产在线观看一区二区三区| 国产成人精品综合| 香蕉精品在线| 中文字幕亚洲无线码一区女同| 尤物午夜福利视频| 亚洲香蕉久久| 亚洲AV电影不卡在线观看| 色婷婷狠狠干| 丁香五月激情图片| 国产成人综合亚洲网址| 伊人欧美在线| 亚洲开心婷婷中文字幕| 青青草a国产免费观看| 婷婷综合亚洲| 欧美人与牲动交a欧美精品| 无遮挡国产高潮视频免费观看| 亚洲香蕉在线| 国产嫩草在线观看| 天天干天天色综合网| 日韩中文无码av超清| 2022国产91精品久久久久久| 日本不卡在线| 97国产在线播放| 亚洲日韩欧美在线观看| 日韩欧美中文在线| 一级做a爰片久久毛片毛片| 国产哺乳奶水91在线播放| 婷婷综合在线观看丁香| yjizz视频最新网站在线| 久青草国产高清在线视频| a毛片免费观看| 精品国产成人三级在线观看| 性色生活片在线观看| 日本精品影院| 国产在线91在线电影| 欧美一区福利| 国产真实乱子伦精品视手机观看| 97色伦色在线综合视频| 亚洲成人在线网| 无码一区18禁| 男女猛烈无遮挡午夜视频| 91精品福利自产拍在线观看| 91精品最新国内在线播放| 毛片在线看网站| 无码视频国产精品一区二区| Jizz国产色系免费| 亚洲欧美在线看片AI| 好紧太爽了视频免费无码| 在线欧美日韩| 国产在线一二三区| 成人韩免费网站| 中文字幕亚洲综久久2021| 自偷自拍三级全三级视频| 香蕉视频在线观看www| 伊人狠狠丁香婷婷综合色| 伊人天堂网| 亚洲综合久久一本伊一区| 日韩av无码精品专区| 刘亦菲一区二区在线观看| 国产日韩精品欧美一区灰|