王琪
摘要:隨著數字化油田和企業信息化的發展,每天都會產生海量的數據,如何合理的對這些數據進行存儲和應用成為數據管理人員巨大的挑戰。除了我們常用的結構化數據之外,還包含大量格式不確定的非結構化數據。這類非結構化數據依靠現有的數據庫無法處理,我們急需一種新的數據處理方式來應對不斷增長的非結構化數據。采用Hadoop數據管理技術能夠有效緩解不斷增長的非結構化數據處理造成的壓力。
關鍵詞:非結構化數據;NoSQL系統;Hadoop;Oracle
中圖分類號:TP311? 文獻標識碼:A
文章編號:1009-3044(2021)29-0142-00
1引言
在油田開發的過程中,隨著油田數字化建設的不斷深入,積累了大量數據資源,除了統建系統為核心產生的大量結構化的傳統的數據之外,也產生了大量非結構化數據和半結構化數據,這些數據主要包含各類圖紙、文檔附件、影音錄像、地震體文件、數模建模工區文件等。如何合理的對這些數據進行科學的管理,分類規劃、分析,最大程度獲取這些數據的價值,合理利用整合數據資產是我們勢在必行的工作。
2企業結構化數據和非結構化數據的產生和區別
結構化數據,是指固定類型的數據,例如:井號、類別、沉沒度等都屬于結構化的數據,通過這些字段項可以準確地找到需要的信息;只要系統中提供結構化數據的采集頁面,就可以獲取到相關內容。
非結構化數據,類型和標準不固定,視頻、音頻、井震信息、工區文件等都是非結構化數據。如果需要從非結構化數據中提取其中的信息,必須先對數據進行非結構化處理。企業日常生產過程中的非結構化數據,最主要的就是以工區文件為主的大文件,單個文件大小有時甚至達到30G 以上。這類文件通常無法使用傳統FTP或通信設備共享,設備傳輸存在安全隱患。基于以上問題,非結構化數據管理體系的構建勢在必行。
通過對某采油廠14個單位跟蹤調研發現,其中有大量非結構化數據沒有建庫。目前采油廠非結構化數據的存儲和流轉,大都采用郵件、FTP 以及即時通訊等工具傳輸;本地服務器、計算機、移動硬盤存儲。這些工具傳遞文件時速度不穩定,安全性得不到保障,并且無法很好地滿足企業中一對多的高頻數據傳遞場景。
2.1目前采油廠的非結構化數據主要類型
1)數模、建模工區文件、相帶圖、地震數據體文件等。
2)圖紙、附件、影音、視頻、文件,存儲在特定服務器中,生成編號地址,再將地址或編號存在Oracle服務器中,通過訪問地址獲取、查看。
3)數字化建設實時產生的數據包括流量數據、監控數據等,存入實時數據庫pSpace中。
以上這些非結構化數據大部分存儲在特定硬盤或服務器中由專業人員保存。
2.2現有存儲方式存在的問題
目前采油廠數據庫主要包括 Oracle、VFOX 以及pSpace。但對比Hadoop架構,都存在不同程度的使用問題。
1)Oracle11G 以上版本已經開始支持非結構化數據的檢索,但在執行效率和成本上遠遠不及Hadoop,這在存儲實時數據上表現得非常明顯。
2)VFOX數據庫作為老牌數據庫優勢在于操作簡便,易于掌握,但安全性和兼容性較差,并且不能處理非結構化數據。
3)pSpace是企業級實時歷史數據庫,pSpace可以構成一個復雜的企業信息化系統,但功能性較為單一,多用于配合傳統數據庫補充使用。
除此之外,存儲在FTP或存儲介質中的非結構化數據也存在很多問題:1)不方便共享;2)安全性存在隱患,數據容易遺失,需要多個存儲介質進行備份。
3 Hadoop的基本屬性及特點
3.1關于Hadoop
目前很多企業把Hadoop作為數據庫使用,但Hadoop并不是數據庫,而是一個由Apache基金會所開發的分布式系統基礎架構,主要解決海量數據的存儲和海量數據的分析問題,允許分布式處理多臺(可以達數千臺)計算機上的大數據集。使用基礎的功能——底層結構HDFS處理海量數據群,作為一種先進的分布式存儲框架,它能夠最大限度地完成對數據采集、存儲、分析、處理、保管和交托。它的核心是HDFS,是一個支持跨多臺計算機存儲大數據集的 Hadoop 文件系統,可以說Hadoop是為了大數據的發展應運而生的。
Hadoop 的結構部署如圖1所示:
Hadoop 的基本組件包括以下幾種:
1)HBase:來源于Google 的BigTable;是一個高可靠性、高性能、面向列、可伸縮的分布式數據庫。
2)Hive:是基于hadoop架構的數據倉庫的工具,可以將結構化的sql數據文件進行映射并且可以作為數據庫表來處理sql查詢等功能。
3)Pig:這是 Hadoop 的客戶端是一個數據操作的數據分析引擎,使用特定的語法操作HDFS部件中的相關數據。
4)ZooKeeper:來源于 Google 的 Chubby;可以有針對性的解決傳統分布式應用系統存在的協調問題以及分布式管理的操作困難。
5)Ambari:是一種用于集成管理的工具,輔助集群決策管理。
6)Sqoop:Apache Sqoop(TM)是一種在 Apache Hadoop 和結構化數據存儲(如關系數據庫)之間傳輸批量數據的工具。它是 Hadoop 生態系統的一部分。
7)Mahout:一個可擴展的機器學習和數據挖掘庫。
3.2 Hadoop與Oracle對比
目前采油廠的非結構化數據,大部分存在本地硬盤中,或使用FTP共享,不但不容易保存,并且數據價值并沒有被充分挖掘。
例如:地震數據體文件,單個文件大小可最高達到50G 以上,傳輸困難,而一臺計算機存儲空間有限,大部分文件存儲在移動硬盤中,隨著數據量的不斷增長,普通存儲介質已經不能滿足工作需求。尤其在地質技術人員需要同時使用時只能分別拷貝到自己的計算機內,傳輸時間長、效率低。
我們做了一個對比試驗:在相同實驗環境下,使用Java語言接口分別對Hbase數據庫及Oracle數據庫文件傳輸結果進行效率比對。總計傳輸了50個共960M 的附件文檔,Oracle共計耗時1980秒,而HBase僅耗時136秒;而如果下載同等大小的文件,Oracle需要耗時296秒,但HBase僅需103秒。從測試結果可以看出,使用HBase存儲非結構化數據,文件吞吐執行效率優于Oracle,更優于傳統存儲介質或FTP。當文件大小超過一定量時,無法有效的通過ORACLE進行文件管理。
而Hadoop另一核心組件HDFS,則是為了存儲大文件而存在的:它將每個文件存儲成一系列可以配置大小的數據塊,除了最后一個,所有數據塊都是同樣大小的。并且每個數據塊都有副本,每個副本系數都是可配置的。應用程序可以指定每個文件的副本數目。每個文件都是一次性寫入的(讀多寫少模式)。
3.3 Hadoop 的安全性
對于數據的來說,擁有的數據越多,對數據的保護就越重要。 Hadoop 的安全性一直廣受質疑。為了解決安全性問題, Hadoop設置了 Simple 和 Kerberos這兩種安全機制。Simple 是一種認證與授權服務機制; Kerberos是基于認證服務器的一種機制。經測試,這兩種機制均有比較安全的效果。
同時,隨著 Hadoop 的廣泛應用。很多大數據資源廠商都針對Hadoop發布了安全補充方案。比如DataGuise for Hadoop 以及DataStax等配套資源,這也為我們安全的使用Hadoop提供了技術支持和后續保障。
4 Hadoop架構在非結構化數據管理的應用前景
4.1利用Hadoop存儲油田非結構化數據的方式
4.2 Hadoop數據架構的搭建:
1)文件存取使用統一接口,封裝對數據中心所有的非結構化數據的讀寫操作接口;
2)以HDFS對大文件負責存儲,并作為文件協議標準;
3)以 HBase通過維護一張文件表完成對小文件的存儲并作為文件協議標識。
搭建一個Hadoo分布式存儲架構,通常只需要三到五臺計算機,成本低廉并且 Hadoop 和Storm作為開源的框架,幾乎是免費的,有效地降低了企業應用成本。
該架構能將實時計算和離線計算都是在一個架構或一個集群中,所需要的數據共用共享,共享的非結構化數據一次寫入,多次讀取,寫入后存儲在HDFS上就不能修改,但可以把文件下載到本地,把HDFS上的文件刪除,修改后再上傳到HDFS 上,實現文件的修改,確保共享文件的安全性和實時性,以及數據源的唯一性。在此基礎上,甚至可以進一步構建大數據技術生態體系。
5總結
隨著大數據時代的發展,很多運營商深切認識到 Hadoop 的價值,開發的軟件和數據庫都為 Hadoop 提供了接口。比如我們現在一直在用的Oracle。 Oracle從11G版本開始就為Ha?doop提供了免費接口,幾乎可以做到無縫銜接,這就使我們在管理企業數據時有了更加便捷的管理途徑。之前提過Hadoop 是為大數據時代而生的,盡管由于開發時間尚短,存在許多不足,比如對于傳統結構化數據的處理方面還不能完全取代Ora?cle,但隨著大數據的發展以及技術的不斷創新,終有一天能夠為企業數據建設提供更加堅實的支撐。
數據建設和管理是一項復雜的系統工程,作為數據管理人員,我們的主要任務,就是利用先進的理念和技術,打破傳統的模式,對數據進行全方位的管理和升級,在實踐中尋找方法,開拓道路,為油田高質量高效益發展提供數據支撐。
參考文獻:
[1] Sanger F, Nicklen S. DNA sequencing with chain-terminating [P].74, 5463–5467(1977).
[2] Schuster S C. Next-generation sequencing transforms today's biology[J].Nature Methods,2008,5(1):16-18.
[3]解增言,林俊華,譚軍,等.DNA測序技術的發展歷史與最新進展[J].生物技術通報,2010(8):64-70.
[4] Rusk N.Cheap third-generation sequencing[J].Nature Methods, 2009,6(4):244.
[5] Venter J C,Adams M D,Myers E W,etal.The sequence of the human genome[J].Science,2001,291(5507):1304-1351.
[6]于聘飛,王英,葛芹玉.高通量DNA測序技術及其應用進展[J].南京曉莊學院學報,2010,26(3):1-5.
[7]衣春翔.哈工大牽頭啟動十萬人基因組計劃——繪制中國人精細基因組圖譜[N].黑龍江日報,2017-12-29(3).
[8] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[C]. America: Google, Inc., 2004:137-149.
【通聯編輯:唐一東】