999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談海量數(shù)據(jù)處理技術(shù)研究

2009-07-16 09:33:54何芳原
新媒體研究 2009年8期
關(guān)鍵詞:數(shù)據(jù)處理

何芳原

[摘要]隨著科學技術(shù)飛速的發(fā)展,經(jīng)濟和社會都取得了極大的進步,與此同時,計算機應用系統(tǒng)的不斷發(fā)展和完善,在各個領(lǐng)域產(chǎn)生了大量的歷史數(shù)據(jù),這些歷史數(shù)據(jù)可能已經(jīng)不被應用系統(tǒng)引用,但它們卻有著非常大的查詢和分析價值。對海量的信息加以利用都離不開底層對數(shù)據(jù)的操作。然而,數(shù)據(jù)不斷膨脹往往給應用系統(tǒng)帶來一些難以忍受的后果,最典型的是系統(tǒng)在運行過程中資源消耗需求量越來越大,運行效率明顯降低,隨著時間的推移,達到難以忍受的程度。提出對于海量數(shù)據(jù)查詢效率問題的一種解決方案,主要探討海量數(shù)據(jù)在關(guān)系數(shù)據(jù)庫中的應用。

[關(guān)鍵詞]海量數(shù)據(jù) 數(shù)據(jù)處理 關(guān)系數(shù)據(jù)庫

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0420059-02

一、海量數(shù)據(jù)的產(chǎn)生及現(xiàn)狀

在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務決策和戰(zhàn)略發(fā)展服務才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。在信息技術(shù)飛速發(fā)展,信息數(shù)據(jù)迅猛增長的今天,企業(yè)快速有效的分析決策越來越依賴于其信息系統(tǒng)的設計開發(fā)。因此,面對“數(shù)據(jù)爆炸但知識貧乏”的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力,數(shù)據(jù)挖掘技術(shù)可以用它的超能力產(chǎn)生巨大的商業(yè)機會。

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門廣義的交叉學科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學者和工程技術(shù)人員。

和數(shù)據(jù)挖掘同時出現(xiàn)或交互使用的是數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。知識發(fā)現(xiàn)是人工智能、機器學習和數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。“知識發(fā)現(xiàn)”(Knowledge Discovery in Databases, KDD)一詞是1989年在美國底特律市召開的第一屆KDD國際學術(shù)會議上正式形成的。知識發(fā)現(xiàn)是指從數(shù)據(jù)庫大量的數(shù)據(jù)中通過分析提取出隱含的新穎的、有效的并能被人理解的規(guī)則或模式的高級處理過程。這里的規(guī)則或模式即我們所說的知識。它給出數(shù)據(jù)的某些特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)處理后獲取的更深層次的可利用決策支持的信息。數(shù)據(jù)挖掘只是數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個步驟,但又是最重要的一步。一般在研究領(lǐng)域被稱作數(shù)據(jù)庫中知識發(fā)現(xiàn)的,在工程領(lǐng)域則稱之為數(shù)據(jù)挖掘。

二、海量數(shù)據(jù)查詢的問題

只要是對海量的信息加以利用,不論是數(shù)據(jù)挖掘也好,知識發(fā)現(xiàn)也好,數(shù)據(jù)倉庫也好,都離不開底層對數(shù)據(jù)的操作。然而對于大多數(shù)的數(shù)據(jù)中心來講,數(shù)據(jù)膨脹的壓力是巨大的。數(shù)據(jù)不斷膨脹往往給應用系統(tǒng)帶來一些難以忍受的后果,最典型的是系統(tǒng)在運行過程中資源消耗需求量越來越大,運行效率明顯降低,隨著時間的推移,達到難以忍受的程度。于是,針對于海量數(shù)據(jù),人們提出了各種解決辦法。

三、海量數(shù)據(jù)的存儲與訪問

產(chǎn)生海量數(shù)據(jù)、訪問海量數(shù)據(jù)、存儲海量數(shù)據(jù)和保護海量數(shù)據(jù)的網(wǎng)絡存儲系統(tǒng),因其在數(shù)據(jù)使用、管理、存儲、備份和復制等方面的先進性,越來越為廣大企業(yè)所推崇和認可。所以,許多企業(yè)在組建企業(yè)網(wǎng)絡時,都將根據(jù)自己網(wǎng)絡信息處理和運用的特點,配有技術(shù)先進、性能優(yōu)異、容量巨大、速度迅捷,且安全可靠和維護方便的網(wǎng)絡存儲設備。目前,在網(wǎng)絡系統(tǒng)存儲備份設備中,應用最廣泛的,仍然是磁盤陣列、磁帶庫和光盤塔或光盤庫幾大類。其中,磁帶庫、磁盤陣列、光盤塔或光盤庫等存儲設備因其信息存儲特點的完全不同,應用環(huán)境也有較大區(qū)別。其中,磁帶庫更多的是用于網(wǎng)絡系統(tǒng)中的海量數(shù)據(jù)的定期備份,而磁盤陣列則主要用于網(wǎng)絡系統(tǒng)中的海量數(shù)據(jù)的即時存取,光盤塔或光盤庫主要用于網(wǎng)絡系統(tǒng)中的海量數(shù)據(jù)的訪問。

利用先進的數(shù)據(jù)庫管理技術(shù)和大容量存儲管理技術(shù),綜合考慮數(shù)據(jù)的查詢頻度的需求,將數(shù)據(jù)按照近期、中期、遠期三個階段進行分級存儲管理:將時間較近、訪問頻繁的數(shù)據(jù)存儲在磁盤陣列中,提供高速的訪問響應;將時間較遠、訪問較少的數(shù)據(jù)存儲在低成本、大容量、易擴展的光盤庫設備中,在保證合理響應速度的前提下盡量降低系統(tǒng)成本。為了實現(xiàn)上述目標,系統(tǒng)提供了對磁盤、光盤數(shù)據(jù)的一致性訪問接口,對系統(tǒng)中的數(shù)據(jù)提供統(tǒng)一、透明的訪問機制;系統(tǒng)同時提供了數(shù)據(jù)遷移的內(nèi)部管理機制,保證數(shù)據(jù)從磁盤遷移到光盤時對用戶的透明性。

對海量數(shù)據(jù)的訪問,比較原始的做法是,由技術(shù)人員將已備至磁帶的數(shù)據(jù)倒回數(shù)據(jù)庫,根據(jù)要求查找記錄。此種查詢方式基本由手工完成,效率極低,同時造成巨大的人工浪費。加上查詢范圍及時間跨度有限,無法充分利用歷史數(shù)據(jù)這一重要資源。因此許多用戶產(chǎn)生了這樣的希望:在生產(chǎn)系統(tǒng)之外建立一個獨立的歷史數(shù)據(jù)歸檔和查詢系統(tǒng),將生產(chǎn)系統(tǒng)數(shù)據(jù)庫內(nèi)的歷史數(shù)據(jù)自動歸檔,將歷史數(shù)據(jù)從主機分離開來,從而使主機在必要時可以將歷史數(shù)據(jù)剝離,輕裝前進。同時保證歷史數(shù)據(jù)脫離主機后仍能使用,即脫離主機和數(shù)據(jù)庫后,仍可直接訪問。這就意味著歸檔后的歷史數(shù)據(jù)的存儲結(jié)構(gòu)應該是可用的(accessible),并且是可查詢的(query ready)。

四、海量數(shù)據(jù)的數(shù)據(jù)庫處理技術(shù)

目前,關(guān)系數(shù)據(jù)庫的應用范圍最廣,占據(jù)了數(shù)據(jù)庫主流地位。關(guān)系數(shù)據(jù)庫最初設計為基于主機/終端方式的大型機上的應用,其應用范圍較為有限,隨著客戶機/服務器方式的流行和應用向客戶機方的分解,關(guān)系數(shù)據(jù)庫又經(jīng)歷了客戶機/服務器時代,并獲得了極大的發(fā)展。隨著Internet應用的普及,由于Internet上信息資源的復雜性和不規(guī)范性,關(guān)系數(shù)據(jù)庫初期在開發(fā)各種網(wǎng)上應用時顯得力不從心,表現(xiàn)在無法管理各種網(wǎng)上的復雜的文檔型和多媒體型數(shù)據(jù)資源,后來關(guān)系數(shù)據(jù)庫對于這些需求作出了一些適應性調(diào)整,如增加數(shù)據(jù)庫的面向?qū)ο蟪煞忠栽黾犹幚矶喾N復雜數(shù)據(jù)類型的能力,增加各種中間件(主要包括CGI、ISAPI、ODBC、JDBC、ASP等技術(shù))以擴展基于Internet應用能力,通過應用服務器解釋執(zhí)行各種HTML中嵌入腳本來解決Internet應用中數(shù)據(jù)庫數(shù)據(jù)的顯示、維護、輸出以及到HTML的格式轉(zhuǎn)換等。此時關(guān)系數(shù)據(jù)庫的基于Internet應用的模式典型表現(xiàn)為一種三層或四層的多層結(jié)構(gòu)。在這種多層結(jié)構(gòu)體系下,關(guān)系數(shù)據(jù)庫解決了數(shù)據(jù)庫的Internet應用的方法問題,使得基于關(guān)系數(shù)據(jù)庫能夠開發(fā)各種網(wǎng)上數(shù)據(jù)庫數(shù)據(jù)的發(fā)布、檢索、維護、數(shù)據(jù)管理等一般性應用。

首先,從關(guān)系數(shù)據(jù)庫結(jié)構(gòu)來分析查詢的內(nèi)部處理。

從組織結(jié)構(gòu)上來看,關(guān)系數(shù)據(jù)庫都是由集合組成:數(shù)據(jù)庫是表的集合,表是元組的集合。一個表就是一個關(guān)系,對關(guān)系的操作有選擇、投影、連接。所以我們的查詢操作其實就是關(guān)系操作。

目前計算機能處理的數(shù)據(jù)信息大體可以分為兩類:一類是結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號等;另一類是非結(jié)構(gòu)化數(shù)據(jù),如圖像、聲音和網(wǎng)頁等。對于結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫存儲技術(shù)發(fā)展到今天,關(guān)系型數(shù)據(jù)庫已經(jīng)成為處理結(jié)構(gòu)化數(shù)據(jù)的首選產(chǎn)品,而且關(guān)系型數(shù)據(jù)庫也是距今為止使用得最為廣泛的數(shù)據(jù)存儲軟件。但是隨著網(wǎng)絡和軟件技術(shù)的飛速發(fā)展,Internet時代的數(shù)據(jù)越來越顯示出兩個最主要的特點,即非結(jié)構(gòu)化數(shù)據(jù)大量涌現(xiàn)和海量數(shù)據(jù)的產(chǎn)生。這對數(shù)據(jù)存儲和檢索技術(shù)提出了完全不同的新需求,集中表現(xiàn)在數(shù)據(jù)庫管理系統(tǒng)本身的存儲和檢索技術(shù)上。特別是隨著非結(jié)構(gòu)化數(shù)據(jù)應用領(lǐng)域的不斷拓展,擅長于處埋結(jié)構(gòu)化數(shù)據(jù)的關(guān)系數(shù)據(jù)庫開始暴露出越來越多的局限,這些局限性也集中表現(xiàn)在對海量信息的存儲利檢索方面。在數(shù)據(jù)檢索方面,海量信息對查詢速度有較高的要求,查全率、查準率是衡量檢索效率的標準。我們知道,關(guān)系數(shù)據(jù)庫的索引是基于B+樹的方法,這種方法對海量數(shù)據(jù)的檢索效率是非常低的,甚至幾乎不可行。而產(chǎn)生于70年代主要針對數(shù)值和字符處理的關(guān)系數(shù)據(jù)庫模型由于當時應用的局限,在設計時幾乎沒有考慮到多媒體、網(wǎng)頁等非結(jié)構(gòu)化數(shù)據(jù)處理的問題,沒有料到Internet會發(fā)展得如此迅速,沒有料到會出現(xiàn)數(shù)據(jù)急速膨脹的局面。所以,關(guān)系數(shù)據(jù)庫在Internet時代的非結(jié)構(gòu)化數(shù)據(jù)和海量信息數(shù)據(jù)的處理方面存在著許多問題,特別是關(guān)系數(shù)據(jù)庫對數(shù)據(jù)類型的處理只局限于數(shù)字、字符,對非結(jié)構(gòu)化信息的處理只是停留在簡單的二進制代碼文件的存儲,已經(jīng)不適應用戶從原先數(shù)據(jù)的簡單存儲上升為對數(shù)據(jù)的識別、檢索和深入加工的要求,基于Internet內(nèi)容的應用尤其使關(guān)系數(shù)據(jù)庫相形見絀,因此有人說,數(shù)據(jù)庫技術(shù)將進入“后關(guān)系數(shù)據(jù)庫時代”,進入基于網(wǎng)絡應用和內(nèi)容管理的非結(jié)構(gòu)化數(shù)據(jù)庫時代,數(shù)據(jù)的存儲管現(xiàn)技術(shù)和檢索技術(shù)也會隨之發(fā)生相應的變化,數(shù)據(jù)庫技術(shù)與Web技術(shù)的結(jié)合成為研究的熱點。

關(guān)系型數(shù)據(jù)庫具有一個基本的規(guī)則,即保持事物的分離;它可以處理多個表;存在簡單的數(shù)據(jù)關(guān)系,即:一對多、多對多的關(guān)系。鑒于其關(guān)系模型具有簡單、堅實的數(shù)學基礎的優(yōu)點,一經(jīng)提出,立即引起學術(shù)界和產(chǎn)業(yè)界的廣泛重視,從理論與實踐兩方面對數(shù)據(jù)庫技術(shù)產(chǎn)生了強烈的沖擊。在關(guān)系模型提出之前已經(jīng)存在的基于層次模型和網(wǎng)狀模型的數(shù)據(jù)庫產(chǎn)品很快走向衰敗以至消亡,一大批商品化關(guān)系數(shù)據(jù)庫系統(tǒng)很快被開發(fā)出來并迅速占領(lǐng)了市場,其交替速度之快,是軟件開發(fā)歷史上罕見的。由于數(shù)據(jù)庫是計算機各種應用的基礎,關(guān)系模型的提出不僅為數(shù)據(jù)庫技術(shù)的發(fā)展奠定了基礎,同時也成為促進計算機普及應用的極大推動力。在考特提出關(guān)系模型以后,IBM投巨資開展關(guān)系數(shù)據(jù)庫管理系統(tǒng)的研究,其“SystemR”項目的研究成果極大地推動了關(guān)系數(shù)據(jù)庫技術(shù)的發(fā)展,在此基礎上推出的DB2和SQL等產(chǎn)品成為IBM的主流產(chǎn)品。System R本身雖作為原型并未問世,但鑒于其影響,ACM把1988年的“軟件系統(tǒng)獎”授予了System R開發(fā)小組。這一年的軟件系統(tǒng)獎還破例同時獎勵兩個軟件,另一個得獎軟件也是關(guān)系數(shù)據(jù)庫管理系統(tǒng),即著名的INGRES。

隨著技術(shù)的進步和市場需求的推動,關(guān)系數(shù)據(jù)庫系統(tǒng)的功能越來越強,種類不斷增加,其應用領(lǐng)域己多得難以統(tǒng)計,如聯(lián)機事務處理、聯(lián)機分析處理、決策支持系統(tǒng)、數(shù)據(jù)倉庫和數(shù)據(jù)集市等新概念。面向?qū)ο蟮臄?shù)據(jù)性系統(tǒng)及通用數(shù)據(jù)庫系統(tǒng)大多也是在關(guān)系系統(tǒng)基礎上進行的擴展。Internet時代的到來對傳統(tǒng)關(guān)系型數(shù)據(jù)庫提出了新的挑戰(zhàn)。出于傳統(tǒng)的關(guān)系數(shù)據(jù)庫主要是為企業(yè)內(nèi)部員工提供服務的,并且主要處理格式化的信息,而對Internet的特殊需求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫必須進一步發(fā)展,以適應Internet時代的要求,才能生存并發(fā)展下去。Internet時代的到來對傳統(tǒng)關(guān)系型數(shù)據(jù)庫也提供了新的機遇。隨著 Internet的普及,信息技術(shù)將滲透到普通人生活的方方面面,從而進一步推動IT的發(fā)展。隨著信息的膨脹,必然會對信息的管理提出更高的要求,將來可能會出現(xiàn)另一種數(shù)據(jù)庫--對象數(shù)據(jù)庫,而關(guān)系型數(shù)據(jù)庫作為一種成熟的數(shù)據(jù)管理平臺,仍然會在整個IT系統(tǒng)中占有非常重要的作用,并且仍會平穩(wěn)地發(fā)展。隨著各主流廠商的關(guān)系型數(shù)據(jù)庫逐步轉(zhuǎn)向Internet,數(shù)據(jù)庫還將迎來一個新的發(fā)展高峰。

參考文獻:

[1]施伯樂、何繼潮、崔靖,關(guān)系數(shù)據(jù)庫的理論及應用,河南:河南科學技術(shù)出版社.

[2]馬垣,關(guān)系數(shù)據(jù)庫理論,北京:清華大學出版社,廣西:廣西科學技術(shù)出版社.

[3]徐曉春、李高健,軟件配置管理,北京:清華大學出版社,2002.

[4]楊靜、顧軍華,基于海量數(shù)據(jù)的數(shù)據(jù)產(chǎn)品存儲技術(shù)研究,徐州師范大學學報自然科學版,徐州:徐州師范大學學報自然科學版編輯部,2003,27-29.

[5]陸昌輝、吳曉華,SQL Server 2000核心技術(shù)揭秘,北京:宇航出版社.

[6]彭木根,數(shù)據(jù)倉庫技術(shù)與實現(xiàn),北京:電子工業(yè)出版社,2002.

猜你喜歡
數(shù)據(jù)處理
驗證動量守恒定律實驗數(shù)據(jù)處理初探
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
ADS-B數(shù)據(jù)處理中心的設計與實現(xiàn)
電子測試(2018年4期)2018-05-09 07:28:12
MATLAB在化學工程與工藝實驗數(shù)據(jù)處理中的應用
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應用
大數(shù)據(jù)處理中基于熱感知的能源冷卻技術(shù)
計算機工程(2015年4期)2015-07-05 08:28:04
Matlab在密立根油滴實驗數(shù)據(jù)處理中的應用
數(shù)據(jù)處理能力在求職中起關(guān)鍵作用
我國首個“突發(fā)事件基礎數(shù)據(jù)處理標準”發(fā)布
主站蜘蛛池模板: 国产成熟女人性满足视频| 尤物精品国产福利网站| 亚洲精品少妇熟女| 成人国内精品久久久久影院| 国产精品漂亮美女在线观看| 国产主播在线一区| 国产欧美日韩91| 亚洲三级电影在线播放| 东京热一区二区三区无码视频| 国产精品美女免费视频大全| 精品五夜婷香蕉国产线看观看| 青青操视频在线| 亚洲成人一区在线| 国产精品尤物铁牛tv| 国产精品黑色丝袜的老师| 欧美福利在线| 波多野吉衣一区二区三区av| 国产一区二区色淫影院| 国产成人久视频免费| 日日拍夜夜操| 亚洲色图另类| 日韩欧美国产区| 99在线观看精品视频| 欧美中文字幕在线视频| 国产小视频网站| 香蕉久久永久视频| 在线播放精品一区二区啪视频 | 国产91线观看| 91丝袜在线观看| 欧美日本在线播放| 波多野吉衣一区二区三区av| 网友自拍视频精品区| 五月天综合网亚洲综合天堂网| 一本大道香蕉久中文在线播放| 天天视频在线91频| 精品国产乱码久久久久久一区二区| 国产精品网曝门免费视频| 五月天综合婷婷| 精品久久人人爽人人玩人人妻| 国产欧美另类| 精品一区二区三区无码视频无码| 亚洲综合第一页| 欧美日韩精品综合在线一区| 国产美女免费网站| 青青草欧美| 毛片大全免费观看| 成人在线天堂| 亚洲色图综合在线| 91精品专区| 在线精品欧美日韩| 婷婷激情亚洲| yy6080理论大片一级久久| 99视频免费观看| 国产自无码视频在线观看| 青青国产在线| 国产无码精品在线| 九月婷婷亚洲综合在线| 亚洲人成网址| 亚洲床戏一区| 欧美a在线| 日韩一级毛一欧美一国产| 中文字幕66页| 另类欧美日韩| 成人毛片免费观看| 美女潮喷出白浆在线观看视频| 日韩福利视频导航| 亚洲欧美国产视频| 亚洲精品不卡午夜精品| 午夜免费视频网站| 视频二区亚洲精品| 91福利一区二区三区| 欧美视频在线播放观看免费福利资源 | 欧美区国产区| 日本在线欧美在线| 色综合天天视频在线观看| 亚洲热线99精品视频| 91精品小视频| 91欧美在线| 91精品在线视频观看| 国产女人18毛片水真多1| 夜夜操国产| 国产精品专区第1页|