屈莉莉,陳燕
摘要:大數據時代已經到來,需要對大量的結構化和非結構化數據集合進行挖掘,數據挖掘領域需要進行徹底變革,數據挖掘課程的授課內容和實踐環節都需進行相應的調整。本文通過分析大數據的內涵、特征,數據挖掘的核心課程,探討大數據時代對數據挖掘課程提出的新要求與新挑戰。
關鍵詞:大數據;數據挖掘;教學改革
中圖分類號:G642.0?搖 文獻標志碼:A 文章編號:1674-9324(2014)16-0057-02
一、引言
大數據時代最為寶貴的資源是數據,如何有效地分析利用海量數據將是數據挖掘需要解決的全新問題。數據挖掘的相關算法已非常成熟,并且在各個領域已取得了廣泛應用。但是大數據環境下的數據挖掘理論與算法需要針對結構化數據、非結構化數據、多媒體數據具有更加強大的運算和處理能力。因此,數據挖掘技術及應用等相關課程應與時俱進地適應大數據的要求,對數據挖掘相關課程的教學內容進行變革。
二、大數據環境特征
Gartner認為大數據是海量的、高增長率和多樣化的信息資產,需要新的處理模式才能實現對其發現和優化。維基百科認為大數據所涉及的資料量規模巨大,以至于目前無法通過主流軟件工具,在一定合理的時間內對其獲取、管理、處理并整理成為能起到決策支持作用的數據資源。大數據是包括交易和交互數據集在內的所有數據集,其規模或復雜程度超出了常用技術,麥肯錫認為大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合,因此需要通過數據挖掘實現對大量的結構化和非結構化數據集合進行分析,以便提供有用的數據洞察。大數據一般具有四個主要特征:①數據體量巨大(Volume),隨著時間的推移,衡量數據體量的單位從G,T,P到E。②數據種類繁多(Variety),互聯網、物聯網、傳感網的發展,使數據類型變得更加復雜,不僅包括傳統的關系數據類型,也包括以網頁、視頻、音頻、E-mail等形式存在的未加工的、半結構化的和非結構化的數據。③流動速度快(Velocity),面對快速動態變化的流式數據,獲取、存儲及挖掘有效信息的速度都難以用傳統的系統進行處理。④價值密度低(Value),數據量呈指數增長加大了獲取有用信息的難度,如何快速高效發現隱藏在海量數據中的潛在有價值模式更加困難。
三、數據挖掘系統
數據挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、事先不知道,但又潛在有價值的信息和知識的過程。數據挖掘系統最初僅支持一個或少數幾個數據挖掘算法,發展為與數據庫和數據倉庫之間存在有效接口而支持數據庫和數據倉庫,又能進一步挖掘Internet/Extranet的分布式和高度異質的數據,而研究開發分布式、移動式的數據挖掘系統成為第四代數據挖掘系統的重要課題之一,使得數據挖掘系統與其他系統聯合提供決策支持的功能。根據數據挖掘系統與數據庫或數據倉庫的耦合程度,可以將數據挖掘系統分為不耦合、松散耦合、半緊耦合和緊密耦合四種結構。面對大數據環境,半緊密耦合和緊密耦合是在性能和效率方面比較理想的。半緊密耦合是指除了將數據挖掘系統連接到一個數據庫或數據倉庫系統之外,一些基本的數據挖掘原語還可以在數據庫或數據倉庫系統中實現,這種設計將提高數據挖掘系統的性能。緊密耦合系統是指將數據挖掘系統平滑地集成到數據庫或數據倉庫系統中,數據挖掘子系統被視為信息系統的一個部分。根據數據挖掘的研究體系(如圖1所示),給出數據挖掘相關課程的主要講授內容,包括:預測(Forecast),關聯規則(Association Rules),聚類分析(Clustering Analysis),粗糙集(Rough Sets),進化計算(Evolutionary Computation,EC),灰色系統(Grey System),模糊邏輯(Fuzzy Logic),人工智能與機器學習(Artificial Intelligence,Machine Learning),決策樹(Decision Tree),統計分析(Statistical Analysis),知識獲取、知識表示、知識推理和知識搜索(Knowledge Acquisition,Representation,Reasoning and Search),決策與控制(Decision and Control),可視化技術(Visual Technology),并行計算(Parallel Computing)和海量存儲(Mass Storage)等。
四、大數據環境下的數據挖掘
大數據的“4V“特征表明對海量的數據分析將更加復雜、更追求速度、更注重實效。大數據環境下的數據挖掘應實現海量數據建模,通過數理模型對海量數據進行整理與分析,發掘在海量數據之中隱藏的分析與決策所需的規律性知識。將數據挖掘作為大數據環境下重要的研究方法或發現新知識的技術工具,而不是把數據本身當成研究目標,與傳統數據挖掘方法有密切聯系又有本質區別。因此在大數據環境下的數據挖掘相關課程教學中應注意以下變化:①數據預處理:除利用數據倉庫加載傳統數據,針對大數據分析所涉及到的非結構化數據,應保證輸入數據的完整性和相關的ETL(Extraction-Transformation-Loading,數據提取、轉換和加載)流程的正確性。②數據存儲機制:通過多維立方體實現結構化的多維數據組織與管理,多數是建立在關系數據模型和關系數據庫基礎之上。而需將非結構化數據考慮進大數據分析時,應采用分布式文件系統,以流的形式訪問文件系統中的數據,提供訪問擁有超大數據集的高傳輸率的應用程序(如Hadoop和其他開源的分布式系統基礎架構)。③數據挖掘算法處理能力:面對數據規模的增大,需解決數據挖掘算法的效率問題,提高算法的有效性和可伸縮性。④數據挖掘算法處理效率:數據規模的不斷增大導致分析處理的時間相應加長,而大數據條件下對信息處理的時效性要求越來越高,應建立簡單有效的人工智能算法和新的問題求解方法。
五、小結
大數據時代的到來對數據挖掘的研究和教學都提出了新的挑戰。應從數據預處理、數據存儲機制、數據挖掘算法處理能力和效率等多個方面進行創新,以適應大數據環境下知識管理與智能決策的需要。
參考文獻:
[1]陳燕.數據挖掘技術與應用[M].北京:清華大學出版社,2011.
[2]陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013,(25):142-146.
[3]Krish Krishnan.Working with Big Data[M].Data Warehousing in the Age of Big Data,2013:15-27.
基金項目:遼寧省、大連海事大學研究生精品課(遼教發[2013]160號,YJPK2013005);國家自然科學基金(71271034)。
作者簡介:屈莉莉(1981-),女,遼寧營口人,大連海事大學交通運輸管理學院,博士,講師,主要研究方向為數據挖掘;陳燕(1952-),女,遼寧大連人,大連海事大學交通運輸管理學院,博士,教授/博導,研究方向為數據倉庫與數據挖掘。