陳書光
摘要:在大數(shù)據(jù)時(shí)代到來的今天,對(duì)數(shù)據(jù)庫處理技術(shù)進(jìn)行研究顯得尤為必要?;诖它c(diǎn),該文從結(jié)構(gòu)化、高度共享、獨(dú)立性和統(tǒng)一管理四個(gè)方面,對(duì)大數(shù)據(jù)數(shù)據(jù)庫的特點(diǎn)進(jìn)行分析,在此基礎(chǔ)上,論述了大數(shù)據(jù)數(shù)據(jù)庫的處理技術(shù),期望通過該文的研究能夠?qū)Υ龠M(jìn)大數(shù)據(jù)處理水平的提升有所幫助。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫;特點(diǎn);處理技術(shù)
中圖分類號(hào):TP393? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)11-0024-02
現(xiàn)如今,幾乎每一天都會(huì)有EB級(jí),甚至ZB級(jí)的數(shù)據(jù)生成,由此標(biāo)志著大數(shù)據(jù)時(shí)代正式開啟。隨著數(shù)據(jù)的不斷增多,對(duì)數(shù)據(jù)庫處理提出更高的要求,為進(jìn)一步提升大數(shù)據(jù)的處理效果,有必要加大相關(guān)處理技術(shù)的研究力度,以此來滿足數(shù)據(jù)存儲(chǔ)與管理需要。借此,下面就大數(shù)據(jù)數(shù)據(jù)庫的特點(diǎn)及處理技術(shù)展開分析探討。
1 大數(shù)據(jù)數(shù)據(jù)庫的特點(diǎn)分析
隨著大數(shù)據(jù)時(shí)代的開啟,使得數(shù)據(jù)庫的應(yīng)用變得越來越廣泛,其在提升數(shù)據(jù)資源的價(jià)值方面具有不可替代的作用。大體上可將數(shù)據(jù)庫的特點(diǎn)歸納為以下幾個(gè)方面。
1.1 數(shù)據(jù)結(jié)構(gòu)化
數(shù)據(jù)庫通常都是以系統(tǒng)的形式存在,存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)面向的對(duì)象不再是某個(gè)具體的應(yīng)用程序,而是全組織,由此使得數(shù)據(jù)庫具有了整體結(jié)構(gòu)化的特點(diǎn)。在這一前提下,從數(shù)據(jù)庫中對(duì)相關(guān)數(shù)據(jù)進(jìn)行存取變得更加靈活,不但可以存取數(shù)據(jù)庫中單個(gè)的數(shù)據(jù)項(xiàng)和整組數(shù)據(jù)項(xiàng),也可以存取某一個(gè)記錄或是整組記錄。
1.2 數(shù)據(jù)高度共享
數(shù)據(jù)庫是各種類型數(shù)據(jù)的承載體,其能夠?qū)?shù)據(jù)進(jìn)行存儲(chǔ)和管理。從數(shù)據(jù)庫的角度上講,它將數(shù)據(jù)視作為一個(gè)整體,存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)面向的是整個(gè)系統(tǒng),正因如此,使得數(shù)據(jù)庫中的數(shù)據(jù)能夠被多個(gè)用戶及不同的應(yīng)用程序共享使用。在大數(shù)據(jù)的背景下,數(shù)據(jù)量不斷激增,這樣不可避免地會(huì)出現(xiàn)一些相同的數(shù)據(jù),數(shù)據(jù)庫只會(huì)對(duì)相同的數(shù)據(jù)存儲(chǔ)一次,減少了數(shù)據(jù)冗余。
1.3 數(shù)據(jù)獨(dú)立
存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù),完全獨(dú)立于應(yīng)用程序,這種獨(dú)立性的特征,使得數(shù)據(jù)結(jié)構(gòu)及存取方式的改變,不會(huì)對(duì)應(yīng)用程序造成影響。通常情況下,可將數(shù)據(jù)的獨(dú)立性細(xì)分為邏輯和物理兩個(gè)方面,無論是邏輯結(jié)構(gòu)發(fā)生變化,還是物理結(jié)構(gòu)發(fā)生變化,應(yīng)用程序在不進(jìn)行任何修改的情況下,都能夠保持正常運(yùn)行,由此充分體現(xiàn)出數(shù)據(jù)庫的獨(dú)立性特點(diǎn)。
2 大數(shù)據(jù)數(shù)據(jù)庫的處理技術(shù)
大數(shù)據(jù)數(shù)據(jù)庫的處理技術(shù)主要包括采集、預(yù)處理、存儲(chǔ)與管理、分析與挖掘等,下面分別對(duì)這些處理技術(shù)進(jìn)行分析。
2.1 大數(shù)據(jù)采集技術(shù)
根據(jù)相關(guān)調(diào)查統(tǒng)計(jì)結(jié)果顯示,得到有效利用的信息比例約為0.6%,而其余99.4%均未獲得利用,導(dǎo)致這一問題的主要原因是高價(jià)值的信息獲取采集的難度較大。
2.1.1 采集對(duì)象
從海量的大數(shù)據(jù)當(dāng)中,采集到有利用價(jià)值的信息是推動(dòng)大數(shù)據(jù)發(fā)展的關(guān)鍵之所在,正因如此,使得數(shù)據(jù)采集成為大數(shù)據(jù)數(shù)據(jù)庫處理技術(shù)中不可或缺的一項(xiàng)技術(shù)。數(shù)據(jù)采集簡稱DAQ,從本質(zhì)的角度上講,DAQ是一個(gè)自動(dòng)完成信息采集的過程,采集對(duì)象包括傳感器裝置、各種被測設(shè)備等。
2.1.2 數(shù)據(jù)分類及來源
(1)在大數(shù)據(jù)的背景下,新一代的數(shù)據(jù)結(jié)構(gòu)體系被提出,該體系對(duì)新數(shù)據(jù)源進(jìn)行重新歸納和分類,具體分為兩大類,一類是線上行為數(shù)據(jù),另一類是內(nèi)容數(shù)據(jù),前者包括頁面數(shù)據(jù)、會(huì)話數(shù)據(jù)、交互數(shù)據(jù)以及表單數(shù)據(jù)等;后者包括日志、電子文檔、語音以媒體數(shù)據(jù)等。
(2)大體上可以將大數(shù)據(jù)的來源歸納為以下幾個(gè)方面:互聯(lián)網(wǎng)數(shù)據(jù)、傳感器數(shù)據(jù)、商業(yè)數(shù)據(jù)等,在這些數(shù)據(jù)來源的支撐下,使得大數(shù)據(jù)采集技術(shù)具備了數(shù)據(jù)量大、數(shù)據(jù)類型豐富、分布式數(shù)據(jù)庫等特點(diǎn),并且還開發(fā)出一些全新的采集方法,如系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法等。
2.2 大數(shù)據(jù)預(yù)處理技術(shù)
來源于現(xiàn)實(shí)世界中的數(shù)據(jù)具有不完整的特征,并且數(shù)據(jù)格式也不一致,所以很難對(duì)這些數(shù)據(jù)進(jìn)行直接挖掘,即便能夠進(jìn)行挖掘,最終的效果也并不理想。為給數(shù)據(jù)挖掘提供有利條件,便需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理技術(shù)隨之產(chǎn)生。
2.2.1 預(yù)處理的目的
可用于數(shù)據(jù)預(yù)處理的方法相對(duì)較多,如數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成等。通過這些方法對(duì)數(shù)據(jù)進(jìn)行處理后,不但能夠減少數(shù)據(jù)挖掘所需的時(shí)間,而且還能提高數(shù)據(jù)挖掘質(zhì)量。
2.2.2 處理過程
對(duì)于數(shù)據(jù)庫而言,其需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行集成,如果數(shù)據(jù)質(zhì)量不高,將會(huì)影響到集成效果,同時(shí),原始數(shù)據(jù)當(dāng)中都或多或少地存在一些問題,所以需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。通常情況下,數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘過程中的時(shí)間占比約為60%左右。通過數(shù)據(jù)清洗能夠有效去除掉數(shù)據(jù)中所含的噪聲及無關(guān)信息;數(shù)據(jù)變換可以將原始數(shù)據(jù)轉(zhuǎn)換為適宜數(shù)據(jù)挖掘的形式;數(shù)據(jù)集成能夠?qū)?shù)據(jù)源中數(shù)據(jù)整合到一起后存儲(chǔ)于數(shù)據(jù)庫中。經(jīng)上述流程處理后的數(shù)據(jù),可供數(shù)據(jù)挖掘使用。
2.3 大數(shù)據(jù)存儲(chǔ)與管理技術(shù)
隨著大數(shù)據(jù)時(shí)代的正式開始,各類數(shù)據(jù)呈現(xiàn)出激增的態(tài)勢,在對(duì)海量數(shù)據(jù)進(jìn)行整理的過程中,需要使用到大數(shù)據(jù)存儲(chǔ)與管理技術(shù)。
2.3.1 數(shù)據(jù)存儲(chǔ)規(guī)模
數(shù)據(jù)量大是大數(shù)據(jù)最為突出的一個(gè)特點(diǎn),起始計(jì)算量一般為PB級(jí),有的甚至達(dá)到EB級(jí),或是更高的ZB級(jí),由此使得數(shù)據(jù)存儲(chǔ)規(guī)模呈現(xiàn)出大型化的趨勢。不僅如此,大數(shù)據(jù)的種類和來源具有多樣化的特點(diǎn),這在一定程度上增大了數(shù)據(jù)存儲(chǔ)與管理的復(fù)雜程度。從目前的情況來看,大數(shù)據(jù)主要來自各種搜索引擎、電子商務(wù)、社交網(wǎng)絡(luò)、音視頻以及在線服務(wù)等領(lǐng)域,不同的領(lǐng)域數(shù)據(jù)形式有所差別,所以,在大數(shù)據(jù)時(shí)代,必須找到一種行之有效的方法,對(duì)海量數(shù)據(jù)的存儲(chǔ)問題進(jìn)行解決。
2.3.2 存儲(chǔ)與管理方法
與國外的發(fā)達(dá)國家相比,我國在數(shù)據(jù)庫、云計(jì)算等技術(shù)方面明顯落后,傳統(tǒng)的數(shù)據(jù)庫很難滿足海量數(shù)據(jù)存儲(chǔ)的需要,提升數(shù)據(jù)存儲(chǔ)能力成為當(dāng)務(wù)之急。大數(shù)據(jù)存儲(chǔ)與管理技術(shù)的提出,給這一問題的解決提供了途徑,大數(shù)據(jù)存儲(chǔ)與管理的有效形式包括數(shù)據(jù)加密、數(shù)據(jù)倉庫、云端存儲(chǔ)。
(1)私有數(shù)據(jù)在特定范圍的安全性非常高,但隨著網(wǎng)絡(luò)的普及,使得經(jīng)由網(wǎng)絡(luò)發(fā)起的攻擊越來越多,私有數(shù)據(jù)的安全性受到威脅。通過數(shù)據(jù)加密技術(shù)的合理運(yùn)用,能夠?qū)碜跃W(wǎng)絡(luò)的惡意攻擊起到有效的防范,由此使得加密技術(shù)成為數(shù)據(jù)庫安全的重要保障。經(jīng)過加密之后的數(shù)據(jù),無論傳輸還是存儲(chǔ)都要比未經(jīng)加密的數(shù)據(jù)更為安全。
(2)大數(shù)據(jù)由于數(shù)據(jù)量過大,從而增大了管理難度,對(duì)數(shù)據(jù)進(jìn)行精簡,則可降低管理難度,精簡的過程可以借助數(shù)據(jù)倉庫來實(shí)現(xiàn)。
2.4 大數(shù)據(jù)分析與挖掘技術(shù)
2.4.1 挖掘?qū)ο?/p>
數(shù)據(jù)挖掘簡稱DM,它既是一項(xiàng)技術(shù),也是一個(gè)處理過程,是從原始數(shù)據(jù)中對(duì)隱含的、不為人知的、具有利用價(jià)值的信息進(jìn)行提取的過程??捎糜跀?shù)據(jù)挖掘的對(duì)象相對(duì)較多,如數(shù)據(jù)倉庫、關(guān)系數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及互聯(lián)網(wǎng)等等。
2.4.2 挖掘流程
數(shù)據(jù)挖掘是一個(gè)較為復(fù)雜的過程,具體的挖掘流程如下:對(duì)當(dāng)前的業(yè)務(wù)問題進(jìn)行清晰定義,據(jù)此對(duì)挖掘目的進(jìn)行確定;對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)備,包括數(shù)據(jù)選取、提取目標(biāo)數(shù)據(jù)集、數(shù)據(jù)預(yù)處理;按照數(shù)據(jù)的特點(diǎn),對(duì)相應(yīng)的算法進(jìn)行選擇,并利用該算法,對(duì)處理好的數(shù)據(jù)集進(jìn)行挖掘;評(píng)價(jià)挖掘結(jié)果,并將之轉(zhuǎn)換為可被用戶理解的內(nèi)容。
2.4.3 挖掘方法
數(shù)據(jù)挖掘技術(shù)可以分為兩大類,一類是直接挖掘,另一類是間接挖掘,前者是以可用的數(shù)據(jù)為依托構(gòu)建模型,通過該模型對(duì)剩余的數(shù)據(jù)進(jìn)行描述;后者是用模型描述變量,并在變量中建立某種特定的關(guān)系??捎糜跀?shù)據(jù)挖掘的方法較多,其中較具代表性的有神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹、統(tǒng)計(jì)分析、模糊集等。
2.4.4 發(fā)展方向
數(shù)據(jù)挖掘作為大數(shù)據(jù)數(shù)據(jù)庫處理技術(shù)的核心,應(yīng)當(dāng)不斷進(jìn)行技術(shù)突破,只有這樣,才能滿足大數(shù)據(jù)持續(xù)發(fā)展的需要。具體的突破方向如下:
(1)數(shù)據(jù)挖掘算法。這是大數(shù)據(jù)分析的基礎(chǔ),不同的算法可用于不同的數(shù)據(jù)類型,進(jìn)而深入到數(shù)據(jù)內(nèi)部,挖掘出有利用價(jià)值的數(shù)據(jù)。因此,為某項(xiàng)特定的任務(wù)選取最為適宜的算法非常重要;
(2)預(yù)測性分析。這是大數(shù)據(jù)最為重要的一個(gè)應(yīng)用領(lǐng)域,需要結(jié)合多種高級(jí)分析功能來完成,如預(yù)測建模、文本分析、實(shí)體分析、機(jī)器學(xué)習(xí)、優(yōu)化等。通過對(duì)數(shù)據(jù)的特點(diǎn)進(jìn)行預(yù)測分析,能夠進(jìn)一步了解當(dāng)前的狀態(tài),為下一步行動(dòng)方案的確定提供依據(jù)。
2.5 大數(shù)據(jù)檢索技術(shù)
2.5.1 主要模塊
1)集群主服務(wù)器(HMaster)。該服務(wù)器能夠?qū)Base(開源數(shù)據(jù)庫)中所有的元數(shù)據(jù)接口進(jìn)行管理,并對(duì)集群中負(fù)責(zé)響應(yīng)用戶請(qǐng)求的實(shí)例進(jìn)行監(jiān)控。由于HBase架構(gòu)當(dāng)中能夠同時(shí)存在若干個(gè)的集群主服務(wù)器,依托相關(guān)機(jī)制,可以使集群主服務(wù)器中有一個(gè)處于平穩(wěn)的運(yùn)行狀態(tài)。集群主服務(wù)器可以管理不同的負(fù)載,通過這種方法能夠?qū)egion分區(qū)進(jìn)行調(diào)整,從而使分區(qū)的負(fù)載始終保持均衡。
2)協(xié)同服務(wù)組件(ZooKeeper)。在HBase架構(gòu)中,協(xié)同服務(wù)組件ZooKeeper的主要作用是對(duì)數(shù)據(jù)調(diào)度進(jìn)行協(xié)調(diào),由此能夠使集群中數(shù)據(jù)并發(fā)訪問的問題得到有效解決。ZooKeeper在對(duì)區(qū)域服務(wù)器進(jìn)行注冊(cè)的過程中,可以采用Ephedral方法,這樣便于對(duì)區(qū)域服務(wù)器的運(yùn)行進(jìn)行實(shí)時(shí)監(jiān)測,從而及時(shí)發(fā)現(xiàn)區(qū)域服務(wù)器中出現(xiàn)的問題,并對(duì)問題進(jìn)行快速反饋,防止單點(diǎn)問題的發(fā)生。
2.5.2 檢索方法
在將相關(guān)的數(shù)據(jù)寫入到HBase架構(gòu)當(dāng)中時(shí),客戶端需要先訪問協(xié)同服務(wù)組件,并從其中對(duì)元數(shù)據(jù)表的位置信息進(jìn)行獲取,隨后客戶端對(duì)元數(shù)據(jù)分區(qū)所在的區(qū)域服務(wù)器發(fā)起訪問,對(duì)表中的數(shù)據(jù)進(jìn)行讀取,依托這部分?jǐn)?shù)據(jù),客戶端能夠找到要寫入表的對(duì)應(yīng)分區(qū),及其所在的區(qū)域服務(wù)器位置,進(jìn)而發(fā)出寫入請(qǐng)求。當(dāng)區(qū)域服務(wù)器接到客戶端發(fā)出寫入請(qǐng)求后,會(huì)對(duì)該請(qǐng)求做出快速響應(yīng),先將數(shù)據(jù)寫入到HLog中,再寫入緩存區(qū),當(dāng)數(shù)據(jù)成功寫入后,操作完成。用戶提出數(shù)據(jù)檢索請(qǐng)求后,客戶端會(huì)訪問協(xié)同服務(wù)組件,找到需要檢索的信息后,會(huì)進(jìn)行讀取,未找到會(huì)繼續(xù)進(jìn)行掃描,直至找到為止,由區(qū)域服務(wù)器將檢索到的數(shù)據(jù)返回客戶端,完成數(shù)據(jù)檢索。
3 結(jié)論
綜上所述,在大數(shù)據(jù)時(shí)代到來的今天,各類數(shù)據(jù)呈現(xiàn)出大幅度激增的態(tài)勢,這對(duì)數(shù)據(jù)存儲(chǔ)與管理提出全新的挑戰(zhàn)。數(shù)據(jù)庫在數(shù)據(jù)管理和存儲(chǔ)中具有不可替代的作用,為使數(shù)據(jù)庫的作用得到最大限度的發(fā)揮,除要了解數(shù)據(jù)庫的特點(diǎn)之外,還要對(duì)相關(guān)的處理技術(shù)進(jìn)行研究,以此來滿足不斷增長的數(shù)據(jù)處理需要,這對(duì)于促進(jìn)大數(shù)據(jù)的持續(xù)發(fā)展具有重要的現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1] 蘇華友,梅松竹,李榮春,等.數(shù)據(jù)流技術(shù)在GPU和大數(shù)據(jù)處理中的應(yīng)用[J].大數(shù)據(jù),2020,6(3):117-128.
[2] 熊志強(qiáng),張嫻靜.基于大數(shù)據(jù)背景下的計(jì)算機(jī)信息處理技術(shù)研究[J].北京印刷學(xué)院學(xué)報(bào),2020,28(1):142-144.
[3] 王現(xiàn)君.計(jì)算機(jī)數(shù)據(jù)處理中云計(jì)算技術(shù)的應(yīng)用及發(fā)展方案研究[J].通信電源技術(shù),2020,37(1):205-206.
[4] 段玉風(fēng).大數(shù)據(jù)環(huán)境下分布式數(shù)據(jù)抓取策略的研究與應(yīng)用[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(12):75-76.
[5] 余利峰.面向分布式空間數(shù)據(jù)庫的矢量數(shù)據(jù)存儲(chǔ)與查詢處理關(guān)鍵技術(shù)研究[D].杭州:浙江大學(xué),2018.
【通聯(lián)編輯:代影】