任仲晟
(福建師范大學數學與信息學院,福建福州 350007)
隨著時間的推移,國內的社會經濟和科學技術都實現了快速的發展和推進,其中最具代表性的就是計算機應用技術發展水平的提升,但與此同時,這也使得各行各業在實際的發展過程中產生了大量的數據和信息,也就是所謂的“數據爆炸”現象。當代社會發展過程中,如何將各行各業的海量數據進行儲存和分析,并且使其轉換成為信息和技術,是目前主要需要解決的問題,由此數據倉庫和數據挖掘技術應運而生,并且開始在各行各業進行運用,包含生物醫學、零售、醫學信息系統、移動通信等行業,并且隨著基于數據倉庫的數據挖掘技術的應用,還取得了很好的作用和效果。
20世紀90年代,數據倉庫的概念第一次出現,具體定義為:數據倉庫就是面向主題的、集成的、與時間相關的、穩定的數據集合。數據倉庫與傳統的數據庫具有比較大的不同,其能夠服務于高層的決策,數據倉庫不僅可以采集、組織、儲存大量的信息員的數據[1],還可以針對這些歷史數據進行加工和變化,由此得到相關的信息和數據就可以用于進行決策的分析,這可以使得決策者所作出的決策更具有科學合理性。另外,數據倉庫還是一種面向主題的數據庫,簡單來說,就是可以按照一定的主題進行數據的組織,并且按照決策和分析的具體需求進行數據信息的處理。并且數據倉庫還是一種包含歷史數據和信息的數據庫,這也代表著,數據倉庫不僅能夠用于進行檢索,還能夠對整個組織的運行狀態和未來的發展趨勢進行分析處理,數據倉庫的基本架構中,數據源既可以是特定的數據文件[2],也可以是其他的數據源,可以為一系列的普通、傳統業務數據庫進行服務。
數據的采集和處理,顧名思義就是針對需要的數據進行采集,從各個數據源中抽取相關的數據,后續經過轉換、集成操作之后,載入到數據倉庫當中。
數據倉庫樹要儲存兩種類型的數據,一類是元數據,這是數據倉庫的基本構成單元,可以進行數據結構和數據倉庫所產生的變化。另一類數據就是實視圖,可以為決策制定人員進行服務,進而使得做出來的決策變得更加科學合理和有效。
數據倉庫與傳統的數據庫之間存在很大的差別,其已經脫離了軟件產品的范疇,能夠提供一種綜合性的解決方案,其中功能強大的分析工具可以針對數據進行深度處理。在對數據倉庫進行運用的過程中,必須要注重數據的一致性、完整性和準確性,這樣才能提供高水平的數據和服務[3],因此在對數據倉庫進行運用的過程中需要注意到,為了使得數據倉庫質量方面的問題得到有效的解決,可以在元數據庫中融入質量維度的質量模型,實現系統化的測量,提高數據質量,這也是數據倉庫最為重要的一個發展方向。
之所以進行數據倉庫的構建,其最重要的一個目標就是從海量的數據和信息當中抽取相關的規律性的數據和知識,對相關的決策和管理活動進行服務和支持。但是在數據倉庫當中,各類的數據的分散性非常強,想要實現以上最重要的目標,就需要相應的工具,從海量的、分散性的數據中提取具有價值的信息和數據,由此,基于數據倉庫的數據挖掘技術應運而生。基于數據倉庫的數據挖掘技術首次在第十一屆國際人工智能學術會議上被提出,這是一種跨學科、跨領域的產物,既包含數據庫技術和人工智能技術,還包含數據統計、數據分析等學科[4],這也注定了,基于數據倉庫的數據挖掘技術可以在很多領域內進行運用,具有良好的應用前景,包含規則推理、人工神經網絡和決策樹等。數據挖掘技術是目前人工智能領域和數據倉庫領域內研究的重點、熱點問題,同時這也是一種決策支持過程,減少決策的風險,其中知識發現過程主要具有以下三個階段,分別是數據準備、數據挖掘和結果的表達和解釋,數據挖掘技術可以實現用戶與知識庫之間的交互。數據倉庫具有明顯的面向主題、數據集成和與時間相關的特點,而數據挖掘技術是數據倉庫最終目標得以實現的有力工具[5]。
數據挖掘工具需要依據具體的目標需求,從數據倉庫當中選取相對應的數據集合,在這一過程中還需要對其進行兩方面的檢查,其一是數據一致性的檢查,其二是數據完整性的檢查,這是基于數據倉庫的數據挖掘技術實現其價值和作用的必要前提之一。
知識庫主要可以在數據挖掘和知識評價方面進行運用,利用知識庫中提供的相關數據和知識,可以指導數據挖掘過程中的一系列操作,還可以對挖掘得到的結果數據的興趣度進行評價,需要注意到,這些數據結果既可以是概念,也可以是相關的規則或者是模式。
這里所指的“挖掘”,其涵蓋的內容是比較多的,需要針對數據倉庫當中提取到的相關數據和信息進行一系列的分析和處理,包含數據的聚類、估值、分類、預測、關聯和描述等;其中聚類,就是將相似的數據實現聚類,主要目的在于描述數據的共同特征;估值就是對未知連續變量的輸出進行處理;分類,顧名思義,主要是針對離散變量的輸出進行描述,包含有線性回歸分類、決策樹分類、神經網絡分類等;預測,依據估值或者是分類得到的模型,在未來位置變量的評估過程中進行運用;關聯,挖掘數據或者是特征之間的內在聯系。
描述,主要對數據挖掘的具體結果進行表述。
以興趣度作為具體的衡量標準,對數據倉庫的最終目標具有價值的知識進行查找和選擇。
從本質角度上來說,基于數據倉庫的數據挖掘技術其實就是針對數據倉庫中的數據進行多層次、多角度的加工和處理過程,以此方式使得相關的數據和信息實現決策價值。通過對數據倉庫中大量歷史數據的更高層次的抽象,不僅能夠反映出數據之間的內在聯系和特性,在這一過程中還可以獲得用于決策和分析的有用信息和知識。
基于數據倉庫的數據挖掘技術,可以在數據倉庫的基礎之上實現深層次的數據分析進程,其不僅能夠進行數據的分析,同時還能夠揭示大量數據內在的、潛在的數據和信息,進而為用戶提供良好的決策支撐。自從基于數據倉庫的數據挖掘技術出現之后,很多大型公司、事業單位都開始構建屬于自身的數據倉庫,并且依據自身實際發展過程中產生的歷史數據分析工作,得到了很多的實用性信息和數據[6],對企業、事業單位發展過程中的決策給予了強大的決策支持,使得企業或者是事業單位在發展過程中避免了很多風險因素,這一方面可以使得企業或者是事業單位的發展得到保障,另一方面可以降低企業蒙受的損失,對于企業和事業單位的良性發展非常重要。
就目前來看,實際的基于數據倉庫的數據挖掘技術過程主要包含以下幾個步驟和環節:(1)了解行業所處的背景,熟悉相對應的基本數據情況;(2)確定數據挖掘的具體目標;(3)選取數據倉庫中對應的數據集合或者是數據源;(4)選取合適的數據挖掘技術算法;(5)進行現實的數據挖掘;(6)所取得的具體知識結果進行評價和輸出。
就目前來看,基于數據倉庫的數據挖掘技術的應用領域主要具有以下幾個方面,包含市場分析、生產過程優化、股票分析、風險分析等。譬如,針對企業中的人力資源管理的具體目標需求,構建自身的人力資源數據倉庫,依據選擇樹類分類器,完成數據挖掘,從而實現單位或者是企業的人力資源管理優化。需要注意到,在基于數據倉庫的數據挖掘技術應用過程中,數據挖掘是系統的核心,對于數據倉庫的歷史數據決策價值會產生直接的影響,因此需要給予其高度的重視[7]。除此之外,基于數據倉庫的數據挖掘技術還可以在通信技術方面進行應用,可以幫助不同的運營商進行業務工作的運作,包含利用多維分析電信數據,可以不斷提升數據資源的利用效率,從而更加深入地了解用戶行為,進而推進不同的電信業務的推廣和應用,從而便可以實現經濟利益的最大化,從宏觀角度上來說,基于數據倉庫的數據挖掘技術的現實應用對于國內企業和國民經濟的發展都是非常重要的。
綜上所述,就是目前為止針對基于數據倉庫的數據挖掘技術的相關研究和分析了,從文中闡述內容中不難看出,目前國內處于一個重要的大數據時代,對于基于數據倉庫的數據挖掘技術的需求具有比較大的提升,因此后續發展過程中需要重視基于數據倉庫的數據挖掘技術的具體應用,為科學決策提供相對應的支持,后續還需要針對基于數據倉庫的數據挖掘技術進行深入的研究和開發,不斷提升這項技術的水平。