摘 要:云計算的快速發展帶來了基于海量數據的數據挖掘技術的研究與發展,基于云計算的數據挖掘是采用MapReduce模型對數據實現并行處理,比傳統數據挖掘更高效、準確和可行,是對云計算時代海量數據進行數據挖掘的必然趨勢。
關鍵詞:云計算;海量數據;數據挖掘
隨著云計算、物聯網和信息技術的發展,海量形式多樣復雜的數據爆炸式的迅速增長,對這些海量數據進行挖掘,分析出其潛在隱藏的巨大價值對經濟社會的發展具有重要的指導作用。云計算具有的海量數據存儲能力和彈性的計算能力為海量數據挖掘提供了一種有效的方式。文章首先介紹數據挖掘的定義、起源和方法,然后論述了數據挖掘的優勢和存在問題,最后分析了數據挖掘實現的步驟、功能和關鍵技術。
1 數據挖掘概述
數據挖掘是數據庫中知識發現的過程,是指從數據庫中包含的海量數據中提取出隱含的、未知的、有潛在利用價值的信息的過程,這個過程主要由數據準備、數據挖掘和結果表達與解釋這三個階段構成[1]。數據挖掘具有決策支持功能,能夠高效自動地對企事業的海量數據進行分析,挖掘出潛在的有利用價值的信息,從而幫助決策者做出正確合理的決策。
數據挖掘因其可對海量數據進行挖掘提取出有潛在價值的信息而被廣泛關注,其主要經歷了電子郵件、信息發布、電子商務和全程電子商務這四個階段,軟件即服務模式的出現形成了如今全程電子商務模式[1]。
對數據進行挖掘所采用的方法論主要有5種,分別是數據取樣,數據特征探索分析和預處理,問題明確化、數據調整和技術選擇,模型的研發和知識的發現,模型和知識的綜合解釋與評價。只要采用合理有效的數據挖掘方法才能高效的實現數據挖掘任務,提取出有價值的信息。數據挖掘可以從不同角度進行,具體來說,數據挖掘方法有分類、回歸分析、聚類分析、關聯規則、特征分析、變化和偏差分析、Web頁挖掘等[1,2]。但是,并沒有一種方法可以適用于所有數據類型的挖掘,實際應用中需要依據所挖掘數據的類型找到合適的方法對數據進行挖掘。數據挖掘具有較高的商業價值,在通信、醫療、制造和財務金融等行業應用較多。
2 基于云計算的數據挖掘優勢和存在問題
采用基于云計算方式的海量數據挖掘具有其獨特的優勢,主要表現在以下幾方面:云計算有較好的開發環境和應用環境來處理海量數據,從中挖掘出有價值的信息;云計算模式可進行分布式的并行數據挖掘,實現實時、高效的數據挖掘;基于云計算的數據挖掘開發更方便,利用現有設備對海量數據的處理能力和速度得到提高,可自由增加結點,容錯性也有提高;基于云計算的數據挖掘對數據挖掘的門檻較低,滿足了海量數據挖掘需求,同時確保了數據挖掘的共享性[3,4]。
云計算技術的應用雖然已經很廣泛了,但其技術并不是很成熟,因此,基于云計算的數據挖掘也存在如下一些問題:數據挖掘任務、采集以及預處理具有不確定性;采用合適的算法和并行策略來處理目前海量的數據挖掘,以提高數據挖掘的并行效率;數據挖掘的方法與結果具有不確定性;對數據挖掘的結果所做出的評價具有不確定性;要確保軟件和服務的正確性、安全性和高質量[3]。對于上述存在的這些問題,已經有一些策略可以去解決。
3 數據挖掘的步驟、功能和技術
3.1 數據挖掘實現的步驟
不同應用領域的數據挖掘有著不同的步驟,且任何一種數據挖掘技術都有自己特有的特性和步驟,數據挖掘的過程也會因問題和需求的不同而不同。但是數據挖掘實現的步驟大致可分以下幾步:對數據的來源和數據深入理解,獲取相關的知識和技術,對數據進行整合和檢查,將錯誤和不一致的數據踢出去,對模型和假設進行建立,數據挖掘工作的實施,對數據挖掘結果進行測試和驗證,對獲取的信息進行解釋和應用[1]。從這個處理過程可以看出,大部分工作是數據的預處理,只有完成了預處理階段的工作才能更有效地對數據進行挖掘和分析。
3.2 數據挖掘功能
數據挖掘通過對獲取的潛在的有價值信息進行分析來預測未來的發展趨勢,幫助決策者做出合理正確的決策。數據挖掘的功能可以概括為以下五個方面[1]:對未來的發展趨勢和行為做出自動預測,通過對數據庫中數據關聯進行分析生成的規則有較高的可性度,通過聚類增強對客觀現實的認識和有利于描述概念與分析偏差,數據挖掘有利于對對象的內涵和相關特征進行描述,從數據庫中對存在偏差的數據進行檢測。
3.3 數據挖掘關鍵技術
數據挖掘的關鍵技術主要有人工神經網絡、決策樹、遺傳算法、K近鄰算法和關聯式規則[1]。人工神經網絡是通過采用類似于大腦神經突觸連接結構對信息進行處理的一種數學模型,具有自學習、聯想存儲和高速尋找最優解的功能。決策樹是預測模型,通過決策圖和可能的結果來對目標進行規劃,是特殊的樹結構,包含決策節點、機會節點和終節點三種節點,一個決策樹的產生有分類樹、回歸樹和CART三種方法,決策樹容易理解和實現、前期準備工作量小、能同時處理不同的數據類型、是一個白盒模型、能通過靜態測試做出預測、得到可行高效的結果[1]。遺傳算法通過類似于生物進化過程的隨機化搜索方法來尋求最優解,需要經歷初始化、選擇、交叉、變異、全局最優收斂這幾個過程,具有隨機性、并行性、容錯能力強等優點。K近鄰算法一種機器學習算法,只能計算最近的樣本、且計算量很大。關聯式規則是從海量的數據中挖掘出有利用價值的數據項之間的關聯性,可以根據關聯規則處理的數據類型、涉及的數據的維數和抽象層次分為不同類型,采用關聯規則進行數據挖掘的一些相關算法主要有Apriori算法、基于劃分的算法和FP-樹頻集算法。數據挖掘還需要用到哈希函數、二維存儲器和冪定律等一些相關知識。
4 結束語
文章研究了基于云計算的數據挖掘技術,相比于傳統數據挖掘,基于云計算模式的數據挖掘在成本、計算速度、容錯性、和程序的開發等方面都表現出明顯的優勢。隨著云計算技術的發展,數據挖掘研究將會有新的突破和更有利的技術支撐,能夠更高效地從海量的數據中挖掘出隱藏的具有潛在利用價值的信息來服務于各行各業的決策者,幫助其更快速合理地做出正確的決策。
參考文獻
[1]周品.云時代的大數據[M].北京:電子工業出版社,2013,10.
[2]李曉輝.基于云計算的數據挖掘應用探析[J].長春大學學報,
2012,22(12):1472-1475.
[3]周晏,桑書娟.淺談基于云計算的數據挖掘技術[J].電腦知識與技術,2010,6(34):9681-9683.
[4]賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013,23(2):69-72.
作者簡介:何婧媛(1987-),女,陜西省延安市人,助教,碩士,研究方向:云計算、大數據。