999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量題庫中的特定數據搜索系統的設計與實現

2016-04-12 00:00:00趙安學
現代電子技術 2016年20期

摘 要: 在挖掘海量數據集過程中,傳統海量數據檢索方法無法適應海量題庫中數據的快速增加趨勢,不能在有限時間內獲取高質量的挖掘結果。因此,采用Elastic Search 分布式架構技術,設計并實現了海量題庫中的特定數據快速搜索系統。該系統由用戶界面、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等構成。詳細介紹了數據抽取模塊、索引塑造模塊以及索引檢索模塊的設計和實現過程,3個模塊共同實現海量題庫中的特定數據快速搜索任務。實驗結果表明,該系統的搜索平均響應時間、系統資源消耗以及索引檢索性能三方面的性能較高,能夠滿足用戶快速檢索特定數據的需求。

關鍵詞: 海量題庫; 特定數據; 數據搜索; 檢索方法

中圖分類號: TN911?34; TP311.52 文獻標識碼: A 文章編號: 1004?373X(2016)20?0049?04

Abstract: In the process of mining huge amounts of data set, the traditional massive data retrieval method is unable to adapt to the rapidly increasing trends of data in the massive question banks, and can not achieve the high quality mining results within a limit time. Therefore, the system for specific data fast search in the massive question banks was designed and implemented with Elastic Search distributed architecture technology. The system consists of user interface, database connection module, data extraction module, index shaping retrieval module, index retrieval module, data search module, etc. The design and implementation processes of data extraction module, index shaping module and index retrieval module are introduced in detail. The three modules accomplish the quick search task of specific data in the massive question bank collaboratively. The experimental results show that the system has high performance in three aspects of average response time, system resource consumption and index retrieval performance, and can meet users′ needs to quickly retrieve the specific data.

Keywords: massive question bank; specific data; data search; retrieval method

0 引 言

隨著計算機技術的發展以及教育方法的不斷改進,計算機題庫系統對于確保高質量考試具有重要應用意義[1?2]。海量題庫中的信息產生的數據具有規模大和形成速度快的特征,如何對這些海量數據進行高效檢索,成為當前分析的重點方向[3]。傳統海量數據檢索方法,無法適應海量題庫中數據的快速增加趨勢,數據檢索效率和質量較低,存在較大的弊端[4?6]。文獻[7]提出的改進并行算法采用主從模型實現劃分聚類算法的并行,算法運行的停止條件為是否符合覆蓋參數,實現特定數據的挖掘,但是該方法受到覆蓋參數的限制,存在較高的局限性。文獻[8]通過I?TREE INDEX算法挖掘特定數據,該算法可對系統內存使用狀態進行分析,如果內存較低,則先劃分原數據集,再挖掘劃分后的數據集,并融合挖掘結果,得到最終的特定數據挖掘結果,但是該算法耗能量較高。文獻[9]分析了Scalable?kmeans算法,該算法利用三元組保存聚類過程中的統計信息,分層完成數據集的聚類,最終挖掘出特定數據,但是在處理大規模數據集時,不能與數據量成線性關系,數據挖掘質量較低。文獻[10]分析了依據伺機投影的算法,該算法可挖掘各種規模特征的數據,但是無法解決挖掘過程中的內存瓶頸問題。針對上述分析的問題,本文通過Elastic Search 分布式架構技術,設計并實現了海量題庫中的特定數據快速搜索系統。該系統由用戶界面、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等構成。實驗結果說明,該系統可滿足用戶快速檢索海量題庫中的特定數據的需求。

1 特定數據搜索系統的體系結構

依據Elastic Search分布式架構技術,塑造海量題庫中的特定數據搜索系統,該系統體系結構如圖1所示。特定數據搜索系統包括用戶界面、攔截器、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等。

用戶界面通過JSP技術和Extjs 技術向用戶呈現數據檢索結果,采用JDBC訪問數據庫實現數據庫數據的讀寫數據錄入、數據庫搜索等用戶交互操作。

數據庫連接模塊、索引檢索模塊、攔截器以及數據檢索模塊,共同實現海量題庫中特定數據搜索的任務。數據抽取模塊從數據庫中獲取文本信息,將文本信息反饋給索引塑造模塊。索引塑造模塊采用分布式連接器實現應用程序同Elastic Search 分布式存儲服務器間的連接,通過該分布式架構實現索引的檢索處理。攔截器實現用戶申請和響應申請。索引檢索模塊通過Elastic Search 分布式架構的檢索服務,對海量數據庫中的文本信息進行檢索操作。特定數據搜索模塊通過Rowid和相關的搜索條件對數據庫進程檢索,獲取海量題庫中的特定數據。Elastic Search是依據全文索引的分布式存儲系統,可確保用戶直接調用相關處理命令,實現相關的任務。將海量數據庫中的全文數據索引塑造成不同的分片,這些分片保存在Elastic Search 集群中的不同數據節點中。Elastic Search 可對這些分片進行處理和分發,確保不同數據節點間的通信均衡化。查詢某個索引是一種分布式操作, Elastic Search可對索引中的各分片數據復制進行查詢,將查詢結果匯總到結果集中。

2 特定數據搜索系統的關鍵模塊設計和實現

2.1 設計數據抽取模塊獲取海量題庫中的文本信息

定時器通過數據抽取模塊完成海量題庫中文本信息抽取,其中數據抽取模塊的內部邏輯結構組成以及設計過程見圖2。通過圖2可看出,數據抽取模塊通過Quartz 定時器技術,在固定時間開始運行數據抽取模塊的采集任務,將抽取出的海量題庫中的文本信息結果集當成索引塑造模塊的輸入信息,并將定時任務的開啟時間當成塑造索引時間的終止時間,采集數據庫中低于該時間的全部分區數據,依據分區名塑造索引。

2.2 設計索引塑造模塊構建海量題庫的文本索引

索引控制器運行索引塑造模塊,通過 Elastic Search 分布式連接器采集同Elastic Search 服務的連接,再塑造海量題庫的文本索引,將文本索引保存到索引庫內。塑造完一次索引后,返回成功狀態碼,否則在下一次定時任務運行后,再塑造特定分區數據的文本索引,同時將未塑造文本索引的分區名保存到索引狀態表中。索引塑造模塊面向數據庫分區表中各分區,分別塑造文本索引文件。圖3和圖4描述了索引塑造模塊的內部邏輯結構組成和設計過程,以及構建題庫文本索引的具體流程設計過程。

2.3 索引檢索模塊的設計與實現

2.3.1 設計分詞器算法實現題庫文本的分類

索引檢索模塊通過Mmseg4j分詞器算法中的Simple 和Complex兩種算法完成海量題庫中文本信息的分詞,為文本信息的檢索提供可靠的依據,Mmseg4j分詞器實現題庫文本信息分類的流程設計內容,如圖5所示。

2.3.2 設計索引檢索模塊搜索文本信息

索引檢索模塊搜索海量題庫中文本信息的運行流程設計內容如圖6所示。

從圖6中可看出,文本檢索模塊依據分詞器算法得到的海量題庫文本分類結果,對文本進行檢索,極大提高了有價值文本的檢索質量。索引檢索模塊通過索引檢索和文本查詢器共同實現。系統操作分析用戶界面反饋的搜索條件,傳遞搜索任務,使用 Elastic Search 分布式連接器獲取同 Elastic Search 服務的連接,再對索引庫進行檢索,搜索同關鍵字匹配的全部Rowid集,將搜索結果存儲到數據庫臨時表內。文本查詢器使用數據庫連接器同數據庫實現通信,檢索數據庫臨時表,并將搜索的Rowid分批與用戶的其他查詢條件組合,通過 SQL 查詢數據庫分區表,返回文本結果集。塑造海量題庫的全文索引過程中的各分區名同索引名相對應,依據用戶的搜索條件,對索引名進行文本索引檢索,具有較高的搜索效率。

2.3.3 設計數據搜索模塊搜索特定數據

分析圖7可得,數據搜索模塊采用Content Search Thread線程,運行數據庫查詢任務,同時反饋出海量題庫中特定數據的搜索結果。數據查詢線程讀取全局共享緩存區中的Rowid 信息,同時依據用戶搜索條件,塑造SQL語句,對海量題庫的數據庫進行搜索,將搜索結果存儲到數據庫臨時表內,為用戶進行搜索和導出數據服務。全局共享緩存區的讀寫具有互斥性,數據搜索模塊從緩沖區中完成取值后,該緩存區中的信息條數就少一條,直至索引查詢模塊的線程結束搜索任務。

3 實驗分析

實驗通過自動化的測試工具,模擬多種正常、異常、峰值條件對本文系統的搜索平均響應時間性能、系統資源消耗性能以及系統索引檢索性能三個指標進行測試。

3.1 搜索平均響應時間性能

實驗對本文系統搜索的平均響應時間同用戶數量關系的測試結果如圖8所示。分析可得,隨著用戶數的逐漸增加,響應時間也不斷增加,當用戶數小于9時,本文系統的搜索響應時間增加較為緩慢,而當用戶數高于9時,本文系統的數據搜索響應時間增加速度、增長幅度升高,并且能夠看出當系統用戶數低于15時,系統數據響應時間低于2 s,此時為系統的理想狀態。

3.2 系統資源消耗性能

實驗測試本文系統進行特定數據搜索過程中的資源消耗結果,如圖9所示,能夠看出,隨著用戶數的不斷增加,本文系統的資源利用率逐漸提高,最終保持在0.78左右,并且用戶數高于18后,本文系統仍可穩定運行。

3.3 索引性能測試

實驗對比本文系統和其他3種數據搜索系統的測試環境,對比每個測試結果的性能值及吞吐量,該模擬索引檢索環境下各系統的索引性能對比如表1所示。分析表1中4種索引服務測試環境下的索引檢索時的性能值變化情況及響應時間,可以看出相對于其他3種搜索系統,本文系統的索引檢索響應時間、CPU利用率、吞吐量、I/O讀寫效率等指標都較優,具有較高的數據搜索性能,可滿足用戶快速檢索特定數據的需求。

4 結 論

本文通過Elastic Search 分布式架構技術,設計并實現了海量題庫中的特定數據快速搜索系統。該系統由用戶界面、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等構成。詳細介紹了數據抽取模塊、索引塑造模塊以及索引檢索模塊的設計和實現過程,三個模塊共同實現海量題庫中的特定數據快速搜索任務。實驗結果表明,該系統的搜索平均響應時間、系統資源消耗以及索引檢索性能三方面的性能較優,能夠滿足用戶快速檢索特定數據的需求。

參考文獻

[1] 陳翀,謝曉軍,陳康.大數據關鍵技術及其在運營商中的應用研究綜述[J].廣東通信技術,2013(8):2?7.

[2] 鄭帆.海量本體數據存儲平臺的研究與設計[D].北京:北京工業大學,2014.

[3] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146?169.

[4] 張哲銘.基于的臺達實驗室管理系統實現[J].電子技術,2013(6):65?67.

[5] 劉淑英.一種基于MapReduce的最近似k對數據搜索方案[J].計算機與現代化,2014(8):38?45.

[6] 楊杰.面向圖像檢索的海量圖像自動聚類方法研究[D].北京:北京交通大學,2015.

[7] 陳冬.基于相關性的海量圖像的可視化探索式搜索研究[D].湘潭:湘潭大學,2014.

[8] 鐘鳴,王盛,劉夢赤.一種大規模圖數據上已知項搜索的優化方法[J].計算機研究與發展,2014,51(1):54?63.

[9] 孫靖.基于云平臺的數據庫搜索引擎實現方法的研究[D].南京:南京郵電大學,2014.

[10] 趙金龍.海量跨媒體數據檢索關鍵技術[D].北京:北京郵電大學,2015.

主站蜘蛛池模板: 亚洲欧美日韩中文字幕在线一区| 亚洲中文字幕无码爆乳| 日本影院一区| 91热爆在线| 中文字幕 91| 国产白浆一区二区三区视频在线| 亚洲福利片无码最新在线播放| 午夜人性色福利无码视频在线观看 | 日韩一级毛一欧美一国产| a级毛片在线免费| 欧美性久久久久| 亚洲精品777| 免费又黄又爽又猛大片午夜| 色噜噜久久| 亚洲无码精彩视频在线观看| 欧美色视频日本| 欧美日韩午夜| 666精品国产精品亚洲| 亚洲香蕉伊综合在人在线| 狠狠v日韩v欧美v| 国产高清毛片| 亚洲成人一区二区| 国产精品天干天干在线观看| 国产性爱网站| 九九热在线视频| 国产精品人人做人人爽人人添| 成人年鲁鲁在线观看视频| 国产精品久久久久久久久| 日本午夜三级| 国产亚洲现在一区二区中文| 久久久久亚洲精品成人网| 久久人与动人物A级毛片| 大陆国产精品视频| 67194在线午夜亚洲| 91麻豆国产精品91久久久| 71pao成人国产永久免费视频| 女人18毛片一级毛片在线| 亚洲天堂精品视频| 精品人妻无码区在线视频| 无码高潮喷水在线观看| yy6080理论大片一级久久| 亚洲人成高清| 制服丝袜一区| 国产主播喷水| 一级在线毛片| 国产波多野结衣中文在线播放 | 亚洲最大福利网站| 日韩第一页在线| 国产精品部在线观看| 成年A级毛片| 亚洲国产精品国自产拍A| 国产午夜小视频| 欧美中文字幕在线视频| 99er这里只有精品| jizz在线免费播放| 成人国产精品网站在线看| 一区二区欧美日韩高清免费| 亚洲人成电影在线播放| 午夜在线不卡| 国产亚洲精品yxsp| 99视频只有精品| 国内精品91| 国产亚洲精品97AA片在线播放| 香蕉eeww99国产在线观看| 亚洲一区二区三区香蕉| 国产精品极品美女自在线网站| 国产一区二区精品福利| 国产午夜不卡| 一区二区三区在线不卡免费| 亚洲中文无码h在线观看| 中国毛片网| 国产系列在线| 91在线精品麻豆欧美在线| 久久香蕉欧美精品| 99精品福利视频| 九九视频免费在线观看| 中文字幕无码中文字幕有码在线| 免费jizz在线播放| 国产男女免费视频| 中文字幕 91| 久久综合婷婷| 国产欧美日韩va另类在线播放 |