999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采油廠基于大數據量的分布式索引與檢索系統

2023-04-29 00:00:00肖翔王偉韓光宋鳳勇
信息系統工程 2023年1期

摘要:采油廠由于前端傳感器的龐大數量,每日都存在海量數據待處理。在數據處理過程中,對數據類型的索引和檢索的效率方面提出了很大的挑戰。因此,結合采油廠實際需求,從系統結構、提高建立索引的效率、關鍵詞表的選擇、索引的壓縮等幾個方面,討論了在大數據量環境下快速進行建立索引和檢索,并給出了初步的實驗結果,為大數據的索引和檢索提供了一種比較有效的解決方案。

關鍵詞:信息檢索;倒排文件;索引;并行檢索

一、前言

隨著采油廠數字化的建設及應用的逐步完善推廣,數據綜合應用的需求增加,但各類系統較多,數據相對獨立,存在“信息孤島”現象,暫未形成統一標準。在數據量上,單就日常SCADA系統采集和應用在6個月時間產生了約7800萬條實時記錄,SCADA系統的數據庫一年產生約210多個G的數據量。因此,如何從大量不同類型且分散的數據中快速找到有效數據,并盡量縮短檢索時間,提高數據處理效率,因此,本文論述了:(1)海量數據的索引在可優化可操作性空間上非常大;(2)怎樣在盡可能短的時間內建立高效的數據索引;(3)對海量數據高效的檢索如何進行。

二、系統結構

針對采油廠現場采集的各類不同數據,其大數據處理關鍵技術一般包括:快速采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。然而,在采油廠實際應用過程中,未被使用的信息比例高達80%以上,很大程度都是由于采集信息種類繁多,采集粒度高,有效數據無法被快速檢索。因此,如何從大數據中采集出有用的信息已經是大數據發展的關鍵因素之一。

因此在目前采油廠SCADA系統快速采集的大量數據中,如何快速采集出有用的信息已經是制約采油廠智能化和數字化發展的關鍵因素之一。

為了能夠對大量的數據比較快速的建立索引和檢索,因此可將系統結構設計為并行索引與檢索結構。如圖1所示:每一臺機器都要完成對數據的索引并提供檢索服務,檢索控制器接受檢索指令輸入,從而通過分布式查詢方法查詢控制各個檢索服務器,為用戶提供統一的檢索服務[1]。

三、建立高效的索引組織

在數據庫中索引過程中,其查詢和檢索過程類似于查字典操作,通過索引組織逐級查找檢索。因此,建立高效的索引組織,是對采油廠海量數據實現精準、快速查詢的必要手段:

(1)通過建立高效索引組織可以避免全表掃描。多數查詢可以僅掃描少量索引頁及數據頁,而不是遍歷所有數據頁。

(2)對于非聚集索引可以不訪問數據頁。

(3)聚集索引可以避免數據插入操作集中于表最后數據頁。

(4)在進行實時數據檢索和查詢過程中,索引還可用于避免排序操作。

同樣,建立索引雖然可以提高查詢速度,但是數據更新同時需要更新索引,因而會導致數據庫系統更新數據性能下降。

因此為了加快檢索速度,建立索引的組織采用倒排文件的結構,倒排文件的結構一般如圖2所示(其中,D表示出現這個索引項的文檔序號,a表示在該文檔內這個索引項出現的次數;我們的索引結構中還標記了索引項的每一次出現在該文檔內的位置)。通過記錄下每一個關鍵詞在文檔中的出現位置,通過建立索引的過程,將詞法分析和倒排文件生成兩個部分[2]。

(一)詞法分析和關鍵詞表的選擇

詞法分析對于不同類型數據、不同語言的數據要完成不同的任務,因此在建立索引時,對于詞表的選擇也是一個重要的問題。系統可以采用動態或者靜態詞表:動態詞表在建立索引時是不固定的,可隨索引的建立而動態的增加,其好處是任何在文本中出現的關鍵詞或點都可以被檢索,而缺點是詞表的會隨著數據量的增大不斷增長,加大系統索引負擔。靜態詞表的好處是系統開銷較小,維護查找簡單快速,但是因為需要維護和準確定位,因此在某些情況可能產生查詢失敗[3]。

經過詞法分析,文檔被分解為關鍵詞、文檔號以及關鍵詞在該文檔內偏移位置構成的三元組以供生成倒排文件使用[4]。這樣通過把關鍵詞映射成唯一的ID,因此索引效率得到極大提高:把關鍵詞映射為唯一的ID,在三元組排序合并等操作時,關鍵詞的比較就是整數ID之間的比較;同時,轉化為關鍵詞ID后,其長度是固定的,可實現索引的快速壓縮,減小系統開銷。

(二)倒排文件的生成

采用動態詞表時,所占用的空間也隨數量的增加而增大。當文檔數量增加到一定程度時,內存不能裝載下整個詞表。因此,進行分批階段性的生成倒排文件,將其劃分成若干個部分分別建立倒排文件,再將各個倒排文件進行合并最終生成一個倒排文件[5]。具體過程是:

1.一定量的在詞法分析階段生成的由關鍵詞、文檔號位置信息構成的三元組,把三元組按照關鍵詞的順序進行排序。

2.于相同的關鍵詞將其所在的文檔號和偏移位置進行合并,將合并后的結果寫在倒排索引文件中。

3.再獲取一部分三元組,按照上面的方法建立好倒排文件,把新生成的倒排文件與以往的倒排文件進行合并,重復上述操作直到所有文檔都建成索引。

(三)基于流水線的多線程倒排索引

通過分析上面建立索引的過程可以發現,在生成三元組、排序、相同關鍵詞的倒排列表合并等操作主要消耗系統CPU資源,而將建好的索引寫到磁盤主要涉及到磁盤I/O的寫操作,如果把數據的讀取、三元組排序合并、索引寫、合并為建立索引的三個模塊,通過并發操作,則數據的讀取和索引寫兩個模塊都涉及到磁盤I/O操作,會產生沖突,降低并發的效率。

因此,對不同的磁盤來進行操作,從一塊磁盤中讀取數據,而向另一塊磁盤中寫索引文件,這樣可以盡量減少I/O讀寫沖突。同時啟動三個線程A,B,C來完成,時空圖如圖3所示:

如圖3中,在t2時刻,讀操作、分析排序操作、寫操作同時運行;并且這三個操作所占用的系統資源不同,雖然同時運行,但并不會出現爭奪系統資源的情況,因此提高了系統資源的利用率,從而極大地提高了建立索引的效率。

(四)索引文件的壓縮

由于:(1)索引文件需要占用大量的存儲空間;(2)對索引進行壓縮可以減少I/O時間,因為I/O是系統的瓶頸。因此,對于壓縮與解壓效率的要求是不均衡的。因為壓縮是在建立索引時進行的,建立索引是離線的過程,對于時間要求相對較低,而解壓是在檢索時實時進行的,必須有很高的效率才行。所以,壓縮算法對于解壓的效率要遠高于對于壓縮效率的要求,因此在大數據索引文件壓縮時采用了伽馬壓縮算法[6]。

四、并行高效信息檢索

在對信息進行檢索時,檢索控制器把查詢向量發送到各個檢索服務器,在每個檢索服務器中進行查詢,同時采用并行檢索的方式,由檢索控制器對用戶輸入的查詢進行響應,對查詢進行處理,并采用經典的向量空間模型。最終每個檢索服務器將檢索的結果返回給檢索控制器,完成各個檢索服務器查詢結果的合并,把合并后的結果發送給用戶,從而實現并行高效信息檢索。

五、實驗和結果

目前,對索引模塊,我們應用采油廠不同的數據做了以下兩個實驗:實驗1的目的是為了分析系統的瓶頸;實驗2給出了目前索引的初步結果。

實驗的物理環境如下:服務器,2*Xeon 2.8GHz CPU,8GB內存。

(一)系統瓶頸的分析

為了了解索引器的運行狀況,分析索引系統的瓶頸。我們分別對包含不同點位信息的傳感器采集實時數據(數據均為英文純文本格式),生產資料及信息(中文純文本)做了實驗,以獲得每一個階段所需要的時間。

從以上結果,可分為讀操作、詞法和排序操作、寫操作這三個階段。在三個階段中,其中第二個階段(即詞法和排序操作階段)所需時間最長;因為進行此法分析所需時間遠遠大于排序所需時間。因此,詞法分析的效率是影響索引效率的關鍵因素之一。

(二)索引速度的初步結果

在該實驗中,處理對象為SCADA動態數據庫,文本為英文純文本,詞典規模為28931。建立索引的速度如表3。

六、相關工作

關于建立索引的研究,文獻[4]采用了基于流水線的建立索引的方法,他們通過實驗來確定一個合適的參數來盡可能提高資源的利用率。我們所采用的的方法與其不同之處包括:(1)對這A,B和C三個線程進行調度以保證不會出現系統資源的爭奪,即只有線程A讀操作完成,線程B才開始讀;只有線程A的分析操作完成,線程B才開始分析操作;只有線程A的寫操作完成,線程B才開始寫操作,依次類推。(2)我們采用文件方式來存儲和管理索引,未采用嵌入式數據庫來存儲和管理索引[7],以實現更靈活和更快捷的檢索,同時在索引過程中把索引壓縮有機結合在一起。

七、結語

在采油廠實際應用海量數據環境下對數據進行處理,建立索引和檢索的效率是至關重要的技術手段。因此,在針對這個方面系統在設計時主要考慮效率方面的因素,采用了并行建立索引和檢索的結構,在建立索引時同時采用了多線程并發的方式。

同時,針對不同種類的靜態、動態的海量數據給檢索系統帶來的另一個挑戰是對系統性能的壓力,大量的關鍵詞可能使系統的內存不能全部裝載,對于這些問題,文章都給出了一定的解決方案。

參考文獻

[1]Baeza-Yates R, Ribeiro-Neto B, Mills D, et al. Modern Information Retrieval[M]. ACM Press;, 1999.

[2]Hawking D, Craswell N, Thistlewaite P. Overview of TREC-7 very large collection track. 2004.

[3]Frakes W, Baezayates R. Information Retrieval: Data Structures and Algorithms[M]. Prentice-Hall, Inc. 1992.

[4]Melnik S, Raghavan S, Yang B, et al. Building a distributed full-text index for the web[J]. Acm Transactions on Information Systems, 2001,19(3):217-241.

[5]Brown E W, Callan J P, Croft W B. Fast Incremental Indexing for Full-Text Information Retrieval[C]// International conference on Very Large Data Bases;VLDB' 94. Department of Computer Science University of Massachusetts Amherst, MA 01003 USA;Department of Computer Science University of Massachusetts Amherst, MA 01003 USA;Department of Computer Science University of Massachusetts Amherst, MA 01003 USA;, 1994.

[6]Ian H.Witten, Alistair Moffat, Timothy C.Bell. Managing Gigabytes: Compressing and Indexing Documents and Images, 1999

[7]劉鵬,施遙.THSort(2002年版)算法設計思想.2002.

(作者單位:肖翔、王偉,新疆油田公司數據公司陸梁油田作業區;韓光、宋鳳勇,新疆油田公司數據公司 )

主站蜘蛛池模板: 日本午夜视频在线观看| 国产视频a| 亚洲人妖在线| 国产一区二区精品福利| 国产欧美日韩18| 久久网欧美| 日韩av资源在线| 欧美一区二区三区香蕉视| 亚洲精品无码av中文字幕| 亚洲精品动漫在线观看| 一级爆乳无码av| 国产xxxxx免费视频| 成人精品午夜福利在线播放| 在线观看国产黄色| 亚洲中文字幕无码爆乳| 国产69精品久久| 热这里只有精品国产热门精品| 久久情精品国产品免费| 婷婷亚洲视频| 成人国内精品久久久久影院| 国模在线视频一区二区三区| 日韩无码黄色网站| 国产精品成人一区二区| 成AV人片一区二区三区久久| 国产经典免费播放视频| 91视频99| 国产一区二区在线视频观看| 毛片网站观看| 久久99精品国产麻豆宅宅| 亚洲免费黄色网| 影音先锋丝袜制服| 91青青视频| 国产精品美人久久久久久AV| 日韩无码真实干出血视频| 亚洲黄色成人| 中文字幕在线看视频一区二区三区| 91精品国产福利| 另类综合视频| 欧美日韩北条麻妃一区二区| 亚洲国产成人综合精品2020| 91小视频在线观看| 亚洲综合极品香蕉久久网| 亚洲日本精品一区二区| 美女一区二区在线观看| 久草视频福利在线观看| 青青青视频免费一区二区| 露脸国产精品自产在线播| 四虎永久免费网站| 一级做a爰片久久毛片毛片| 国产福利拍拍拍| 国产一线在线| 欧美日韩一区二区在线播放| 国产在线视频导航| 8090成人午夜精品| 人妻一本久道久久综合久久鬼色| 国产真实乱了在线播放| 亚洲成av人无码综合在线观看| 高清无码手机在线观看| 久久www视频| 一级成人欧美一区在线观看 | 丰满人妻中出白浆| 国产一级α片| 69精品在线观看| 草草影院国产第一页| 午夜福利亚洲精品| 青草午夜精品视频在线观看| 制服丝袜一区| 99视频有精品视频免费观看| 久久国产精品无码hdav| 国产在线观看高清不卡| 激情综合五月网| 亚洲看片网| 亚洲天堂2014| 99资源在线| 中文字幕久久亚洲一区| a级高清毛片| 国产精品久久久免费视频| 国产在线精品99一区不卡| 一级毛片在线播放| 在线免费a视频| 久热中文字幕在线| 麻豆国产精品一二三在线观看|