999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本信息檢索系統的設計與實現

2019-08-23 05:34:47李高鵬艾山·吾買爾鄭炅王路路
現代電子技術 2019年16期
關鍵詞:信息檢索

李高鵬 艾山·吾買爾 鄭炅 王路路

摘? 要: 隨著信息化的發展,互聯網上出現了越來越多的文檔信息,如何根據用戶的需要從海量的文檔中快速獲取相關信息成為了研究的熱點。采用Python編程語言、Django Web應用框架、UWSGI Web服務器、Nignx代理服務器,基于TextRank關鍵詞提取算法、倒排索引結構、Jaccard相似度計算以及MySQL數據庫技術構建了漢英文本信息檢索系統。該系統包含文本注冊、文本檢索和文本注銷三個模塊,可實現千萬量級文本數量上的快速注冊和快速檢索功能,為構建輿情分析系統提供服務,并可根據人們特定的需求,擴展文本檢索服務。

關鍵詞: 信息檢索; 算法介紹; 倒排索引; 檢索系統構建; 快速注冊; 快速檢索

中圖分類號: TN911.2?34; TP391? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)16?0062?05

0? 引? 言

隨著信息技術的飛速發展和我國人民生活水平的提高,互聯網已經成為人們日常生活學習的一部分。我國已經進入了知識爆炸的時代,互聯網上的漢語、英語相關的文檔數量不斷增加,并且未來還會繼續增多。如何幫助用戶快速有效地從海量的文本數據中找到需要的文本信息,成為學者們研究的重要課題。文本檢索是指根據用戶輸入的信息從大量的文本集合中查找出相關文本的一種技術。文本檢索作為信息檢索[1]的一種,常用于搜索引擎、數字圖書館、輿情系統等領域。文本檢索已經成為信息處理領域中不可獲取的工具。常用的文本檢索模型[2]可以分為三類:基于集合論的檢索模型、基于代數的檢索模型和基于概率論的檢索模型。其主要包括布爾模型、向量空間模型、概率模型、引用分析模型等。

文本檢索[3]是當代網絡技術中的主流技術之一。文本檢索[4]的過程一般分為兩個步驟:索引的建立和索引的搜索,索引的建立是指對結構化文本和非結構化文本(一般將非結構化文本轉換為結構化文本)進行特征抽取,建立索引的過程;索引的搜索是指將用戶的請求作為檢索對象,根據請求文本的特征,搜索數據庫,返回結果的過程。雖然Google、百度等公司的搜索技術[5]已經相當成熟,但針對不同用戶特定的需求,這些搜索引擎并不能很好的滿足,也不方便用戶根據需要進行擴展。

基于以上現象和問題,本文基于TextRank關鍵詞提取算法、倒排索引結構、Jaccard相似度計算方法及MySQL數據庫技術等構建了漢英文本信息檢索系統,實現了千萬量級文本下的快速檢索,并且用戶可根據不同需求進行文本的注冊、注銷,滿足用戶特點的需求,實現個性化搜索,幫助用戶從海量文本數據完成檢索任務,為輿情分析系統的構建提供服務,另外本文構建的系統同樣適用于其他語言。

1? 算法介紹

1.1? TextRank算法

TextRank[6]算法來源于Google的網頁排名算法PageRank[7],是一種基于圖的排序,可用于關鍵詞提取、短語提取和摘要提取。TextRank算法在進行關鍵詞提取時,首先對于文本分句,過濾掉停用詞,去除標點亂碼等無意義的字符,再結合詞性標注方法篩選出名詞、動詞、形容詞等重要詞匯作為關鍵詞候選詞匯。利用篩選出的詞匯構建關鍵詞圖,每個單詞作為圖中的一個節點,把具有共現關系的詞進行連接,迭代確定各個節點的權重,直到權重收斂為止,之后對各個節點進行排序,根據需要輸出最重要的前n個詞作為提取出的文本的關鍵詞。TextRank算法中可將文本看作是一個無向加權圖[G=(V,E)],[V]表示關鍵詞的集合,[E]表示邊的集合,TextRank的核心公式為:

[WS(Vi)=(1-d)+d·Vj∈In(Vi)ωjiVk∈Out(Vj)ωjkWS(Vj)]? (1)

式中:[WS(Vi)] 表示第[Vi]個關鍵詞的TextRank值,該公式表示TextRank中單詞[Vi]的權重值由[Vi] 之前的各個關鍵詞[Vj]組成;[d]表示阻尼系數,一般設置為0.85;[ωji]和[ωjk]表示兩個關鍵詞節點之間的邊的權重;[In(Vi)]表示指向關鍵詞[Vi]的關鍵詞的集合;[Out(Vj)]表示關鍵詞[Vj]指向其他關鍵詞的集合。

1.2? 倒排索引算法

搜索引擎是根據用戶輸入的關鍵詞信息,從文檔集合中找出包含這些關鍵詞的文檔。如何快速準確地找出文檔呢?一般選擇采用單詞文檔矩陣結構表示這些文檔。在搜索引擎中,每個文檔都有其對應的文檔ID,可以把文檔看作是一些關鍵詞組成的集合,根據單詞文檔模型,可以知道哪些關鍵詞在哪些文檔中,哪些文檔包含了哪些關鍵詞。索引結構作為單詞文檔矩陣結構的一種,在用來表示單詞與文檔之間的對應關系時,把文檔ID與該文檔提取出的關鍵詞相對應的結構稱為正向索引結構,如表1所示。

在使用正向索引結構進行知識檢索時,只能從頭逐一查詢,文檔數量較多時,會導致資源開銷大、查詢效率低等問題。為了能快速根據關鍵詞查詢出對應的文本,可將正向索引結構重新構建成每個關鍵詞對應包含該關鍵詞文檔ID集合的結構。這種結構就是倒排索引[8]結構,如表2所示。

在進行文本注冊時,本文使用倒排索引結構把通過TextRank算法提取出的關鍵詞特征與包含該關鍵詞的文檔進行關聯,構建索引表并存入到MySQL數據庫中。在進行文本檢索時,通過關鍵詞信息檢索出包含這些關鍵詞的文本,快速過濾掉不相關文本,提高檢索效率。在進行文本注銷時,不僅刪除掉數據庫中的不相關文本,還根據注銷文本的關鍵詞重新修正了數據庫中存儲的倒排索引表,保證了檢索結果的實時性、準確性。

1.3? 杰卡德相似系數

Jaccard相似度通常用來計算兩個集合之間的相似程度[9]。Jaccard相似度計算公式為:[J(A,B)=A?BA?B? ? ? ? ? ? ? ?=A?BA+B-A?B] (2)

式中:[A] 和[B] 表示兩個集合;集合[A] 和集合[B] 的交集與并集的比值表示Jaccard相似度,比值越大表示兩個集合越相似。在漢英文本信息檢索系統中,本文用Jaccard相似度計算檢索出的文本與查找文本的相似度。通過對相似度進行排序,返回相似度從高到低的前n個結果。

1.4? MD5消息摘要算法

MD5[10](Message?Digest Algorithm 5)消息摘要算法屬于Hash算法的一種,它的作用是無論輸入多長的字符串,都會通過其特定的字符串變換算法將輸入的字符串轉換為特定長度的大整數,形成唯一的MD5消息摘要,當輸入的內容發生任何形式的變化時都會改變這一消息摘要。MD5算法廣泛用于各種加密、解密技術。本文將爬取的網頁url地址和關鍵詞轉換為32位的MD5編碼,減少了存儲空間,加快了檢索速度。

2? 漢英雙語文本信息檢索系統的設計與實現

2.1? 系統功能結構圖

文本信息檢索系統由文本注冊、文本檢索、文本注銷三個模塊構成。文本注冊模塊包含關鍵詞提取模塊,正向索引和倒排索引的構建模塊,根據關鍵詞與文檔之間的關系,構建正向索引和倒排索引結構,并將構建好的索引結構存入到數據庫的索引表中,實現索引庫的構建。文本檢索模塊包括關鍵詞提取模塊、檢索模塊和相似度計算模塊,通過關鍵詞信息從索引庫中找出包含這些關鍵詞的文本,并計算檢索到的文本與查找到的相關文本之間的相似程度,排序輸出最終結果。文本注銷模塊功能與文本注冊模塊相反,該模塊包括關鍵詞提取模塊和索引重建模塊,根據文本的ID找到需要注銷的文本,刪除正向索引表中的信息,根據提取出的文本的關鍵詞,找到并修改索引庫中對應的倒排索引表。文本信息檢索系統的功能結構圖如圖1所示。

2.1.1? 文本注冊模塊

本文首先對爬取到的特定Web網頁,通過正則匹配法,提取出網頁內的文本信息,之后進行語種判別,根據判別結果分別將請求提交到對應的漢語注冊接口和英文注冊接口。Web網頁的url作為對應文檔的rowkey,并使用MD5編碼得到rowkey對應的rowkeyCode,將網頁內抽取的文本信息作為context存入數據庫中。在文本注冊模塊將與Web網頁的url網址對應的rowkeycode存入數據庫中,保證數據庫中文檔的唯一性,避免存入重復文檔。為了提高檢索的速度,壓縮存儲空間,本文采用TextRank算法對context中的內容進行關鍵詞提取。根據文檔和關鍵詞之間的關聯建立正向索引表和倒排索引表,存入到索引庫中,成功注冊后返回消息。文本檢索模塊流程圖如圖2所示。

圖2? 文本檢索模塊流程圖

Fig. 2? Flow chart of text retrieval module

2.1.2? 文本檢索模塊

文本檢索模塊在獲取到請求之后,先進行參數校驗,判斷參數是否合法,如果不合法,直接退出,并返回錯誤類型;如果合法,則對待檢索的文本進行關鍵詞提取。根據提取的關鍵詞在索引庫找出包含這些關鍵詞的文本,拿到相應的rowkey,再把正向索引表中rowkey對應的文本的特征、權重與待檢索文本的特征進行Jaccard加權計算,得到文本之間的相關性,并排序輸入前n個結果,作為最終結果返回。

2.1.3? 文本注銷模塊

文本注銷模塊在接收到注銷請求后,同樣先檢查參數是否合法,如不合法,結束并返回相應的錯誤類型;如果合法,通過rowkey查找數據庫中是否包含此條記錄。如果數據庫中沒有此條記錄,結束程序返回相應的錯誤類型;如果數據庫中存在該記錄,刪除正向索引表中的記錄,并修改倒排索引表中的關鍵詞對應的文檔序列,刪除該條文檔的編號,完成這些操作后,返回注銷成功消息。

2.2? 數據庫系統設計

數據庫設計包括概念模型設計、邏輯模型設計和物理模型設計三個層次。在數據庫設計過程中,數據庫中的數據應當減少冗余,避免一組數據在數據庫多個表中重復出現。但在實際情境中,為了加快索引,方便快速查詢,通常會違背這些數據庫的設計規范。通過增加冗余列,進行數據庫表的合并和拆分,減少表之間的連接,減少數據庫的計算壓力,以達到提高性能的目的。以中文為例的文本檢索信息的物理數據模型如圖3所示。

圖3所示以漢語文本信息檢索系統為例,該系統中一共設計了8張表,分別為文本注冊表、文本內容信息存儲表、文本基本信息存儲表、索引信息存儲表、備用索引信息存儲表、文本注銷表、臨時索引信息表、臨時排序表。文本注冊表用來判斷該篇文本是否已經注冊過,可以方便在文本注冊和文本注銷時查找待注冊文本和待注銷文本是否在數據庫中。文本基本信息存儲表用來存儲注冊文本的詳細信息,包括爬取時間、發布時間、文本來源等。索引信息存儲表,即倒排索引表,該表存儲的是關鍵詞與包含該關鍵詞的文本編號的對應關系,當倒排表變得很大時,會降低檢索速度,這時會對倒排索引表進行切分,存儲到備用索引信息存儲表中。文本注銷表用來存儲用戶傳入的需要注銷的文本,以便在后臺執行文本注銷操作。臨時索引信息表存儲的根據關鍵詞信息檢索到的文章編號,同文本內容信息存儲表中的rowkeycode相對應。文本內容信息存儲表,即正向索引表,用來存儲文本的編號rowkeycode以及從文本中提取的關鍵詞信息orginaltext,用來同用戶傳入的檢索文本進行相關性計算。計算完的結果存儲在臨時排序表中。

3? 系統測試

本文在構建漢英文本信息檢索系統后,向檢索系統中注冊3 000萬條數據進行測試。實驗使用的系統硬件環境是CPU Intel[?] Xeon[?] CPU E5?2690 V4 @ 2.60 GHz*56 GB,512 GB內存,2 TB硬盤。使用的軟件環境如下:操作系統為Centos 7.2,Pyhton 3.6,Django(1.11.3),uWSGI(2.0.15),Nginx(1.12.1),MySQL(8.0.12)數據庫。數據注冊的速度及索引構建速度隨文本數量的變化關系如圖4所示,文本檢索的速度如表3所示。

從圖4可以看出,在索引庫的建立過程中,隨著索引內容的增加呈現出非線性增長,本文注冊3 000萬條數據,注冊文本的平均長度為2 123個字符,共花費了41.76 h,基本可滿足快速構建索引庫的要求。表3顯示的是向數據庫中注冊了3 142萬條數據后的檢索速度的測試結果,當數據量達到3 000萬條時,平均每秒可完成3~4條文本的檢索。

關于文本信息檢索系統的檢索質量,本文是通過關鍵詞匹配在數據庫中查找相關文本,把匹配到的結果與用戶輸入的檢索文本進行相似度計算,并設定相似度閾值,對于大于相似度閾值的文本,根據相似度、發布時間、爬取時間等排序,按照用戶的需要輸出結果。因此,檢索結果與關鍵詞提取算法相關性較大。TextRank算法能較好地抽取文本中的關鍵詞,通過判定本系統的搜索結果可滿足檢索質量的要求。

4? 結? 語

本文利用Django框架,基于TextRank關鍵詞提取算法、倒排索引結構、Jaccard文本相似度計算方法及MySQL數據庫技術,構建了信息檢索系統,實現了千萬量級下快速注冊、快速檢索的文本信息檢索,同時用戶可根據文本注冊和文本注銷模塊對該文本信息檢索系統進行擴展,滿足用戶不同的需求。雖然關鍵詞可以在一定程度上代表文本的語義,但并不能完全表示文本的語義信息,所以下一步將會研究實現基于語義的智能化的檢索。

注:本文通訊作者為艾山·吾買爾。

參考文獻

[1] 王勇.Web網絡環境下的語義檢索平臺設計與分析[J].現代電子技術,2016,39(16):14?18.

WANG Yong. Design and analysis of semantic retrieval platform in web network environment [J]. Modern electronics technique, 2016, 39(16): 14?18.

[2] 丁志均,楊青,張會兵,等.基于非結構化文本檢索模型綜述[J].計算機應用研究,2017,34(6):1601?1608.

DING Zhijun, YANG Qing, ZHANG Huibing, et al. Review of unstructured text retrieval model [J]. Application research of computers, 2017, 34(6): 1601?1608.

[3] SONG W, WANG B, WANG Q, et al. A privacy?preserved full?text retrieval algorithm over encrypted data for cloud storage applications [J]. Journal of parallel & distributed computing, 2017, 99: 14?27.

[4] SHI X J, WANG Z F. An optimized full?text retrieval system based on lucene in oracle database [C]// 2014 Enterprise Systems Conference. Shanghai: IEEE, 2014: 61?65.

[5] 楊凱.數字圖書館個性化搜索引擎的用戶建模[J].現代電子技術,2016,39(7):97?102.

YANG Kai. User modeling of personalized search engine for digital library [J]. Modern electronics technique, 2016, 39(7): 97?102.

[6] TIAN X. Extracting keywords with modified TextRank model [J]. Data analysis & knowledge discovery, 2017(2): 28?34.

[7] CHEN G, FU K, LOZA A, et al. PageRank tracker: from ranking to tracking [J]. IEEE transactions on cybernetics, 2014, 44(6): 882?893.

[8] 林俊鴻,姜琨,楊岳湘.倒排索引查詢處理技術[J].計算機工程與設計,2015(3):572?575.

LIN Junhong, JIANG Kun, YANG Yuexiang. Query processing strategies based on inverted indexes [J]. Computer engineering and design, 2015(3): 572?575.

[9] 俞婷婷,徐彭娜,江育娥,等.基于改進的Jaccard系數文檔相似度計算方法[J].計算機系統應用,2017,26(12):137?142.

YU Tingting, XU Pengna, JIANG Yue, et al. Text similarity method based on the improved Jaccard coefficient [J]. Computer systems & applications, 2017, 26(12): 137?142.

[10] 李夏夢,潘廣貞.基于消息摘要算法第五版和IDEA的混合加密算法[J].科學技術與工程,2017(9):233?238.

LI Xiameng, PAN Guangzhen. Message?digest algorithm 5?IDEA based hybrid encryption algorithm [J]. Science technology and engineering, 2017(9): 233?238.

猜你喜歡
信息檢索
基于同態加密支持模糊查詢的高效隱私信息檢索協議
基于信息檢索課的大學生信息檢索行為調查研究
高職院校圖書館開設信息檢索課的必要性探討
基于MOOC理念的“翻轉課堂”教學改革探索——以海南大學《文獻信息檢索與利用》課程為例
網絡環境下數字圖書館信息檢索發展
山西青年(2018年5期)2018-01-25 16:53:40
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
地理信息檢索中空間相似性度量的一種模糊方法
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 亚洲无码熟妇人妻AV在线| 免费又黄又爽又猛大片午夜| 99久久精品无码专区免费| 中文字幕亚洲电影| 国产亚洲高清在线精品99| 国产第八页| 国产凹凸视频在线观看| 亚洲第一中文字幕| 久久国产精品麻豆系列| 亚洲第一色视频| 色欲色欲久久综合网| 亚洲高清在线天堂精品| 国产午夜看片| 国产精欧美一区二区三区| 欧美激情福利| 99热这里只有精品国产99| 国内精自线i品一区202| 日本手机在线视频| 夜夜操国产| 播五月综合| 国产特一级毛片| 亚洲日韩精品伊甸| 无码日韩视频| 欧美翘臀一区二区三区| 精品亚洲麻豆1区2区3区 | 欧美在线网| 日本午夜影院| 青青极品在线| 91精品最新国内在线播放| 本亚洲精品网站| 成人日韩视频| 精品国产91爱| 草草影院国产第一页| 亚洲欧美在线看片AI| 亚洲成肉网| 色欲色欲久久综合网| 亚洲精品无码高潮喷水A| 精品久久久无码专区中文字幕| 国产一区在线视频观看| 日韩免费毛片视频| 欧美久久网| 日韩免费毛片视频| 国产激情无码一区二区免费| 91亚瑟视频| 欧美精品啪啪| 日韩av手机在线| 亚洲国产精品一区二区第一页免| 久久精品电影| 香蕉久人久人青草青草| 自慰网址在线观看| 久久99国产综合精品1| 亚洲中文字幕手机在线第一页| 国模极品一区二区三区| 精品国产网站| 国产成人无码Av在线播放无广告| 四虎亚洲精品| 国产伦精品一区二区三区视频优播 | 国产精品亚洲欧美日韩久久| 五月婷婷丁香综合| 色天天综合| 亚洲av色吊丝无码| 国产福利在线免费观看| 国产真实二区一区在线亚洲| 99精品一区二区免费视频| 欧美日本在线观看| 色妞www精品视频一级下载| 日本国产精品| 国模私拍一区二区| 少妇人妻无码首页| 亚洲手机在线| 久久伊人操| 国产精品天干天干在线观看| 一级毛片无毒不卡直接观看| 国产微拍一区二区三区四区| 国产欧美另类| 欧美精品伊人久久| 在线看片国产| 4虎影视国产在线观看精品| 99久久精品免费观看国产| 国产精品成人不卡在线观看| 爆操波多野结衣| 日韩无码黄色网站|