摘要:隨著信息化建設的不斷深入,各類數據、信息急劇增長。如何對大量數據進行深入分析和利用,并從中發現有用的知識,已成為信息化社會面臨的重要問題。數據挖掘就是從大量數據中提取或“挖掘”知識,從而實現“數據一信息一知識”的過程。
關鍵詞:數據挖掘;知識發現
中圖分類號:TP311;TP183文獻標識碼:A文章編號:1009-3044(2008)24-1239-02
Data Mining Understanding and in University Employment Work Analysis
YANG Shu-qing
(Jiangxi University of Science and Technology,Information Engineering Institute,Applied Science Institute,Ganzhou 341000,China)
Abstract:Along with informationization construction unceasingly thorough, Each kind of data, information rapid rise. How to carry on the thorough analysis and the use to the mass data and discovers the useful knowledge has become the important question which the informationization society faces. The data mining is withdraws or “the excavation” from the mass data the knowledge, thus realizes “data- information- knowledge” process.
Key words:data mining; knowledge discovery
1 引言
隨著信息化建設的不斷深入,數據庫技術被廣泛應用于商業管理、政府辦公、科學研究和工程開發等領域,人們積累的數據越來越多,激增的數據資源背后隱藏著眾多重要的信息。人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。但是,目前已有的數據分析工具很難滿足人們對數據進行深層次分析的需要,數據處理的效率也很低。如何從大量的數據中提取有用的知識,就成為當務之急。在這種情況下,人們引入了數據挖掘的思想,通過它預測未來的趨勢和行為,作出超前的、基于知識的決策。即通過數據挖掘在“數據礦山”中找到蘊藏的“知識金塊”,充分地提高信息利用率。
2 數據挖掘概述
簡單的說,數據挖掘就是指從大量數據中提取或挖掘“知識”。[1] 數據挖掘的前身即知識發現,其實質的內涵是在一個已知狀態的數據集上,通過設定一定的學習算法,從數據集中獲取所謂的知識。用數據庫管理系統來存儲數據,用機器學習的方法來分析數據、挖掘大量數據背后的知識,這兩者的結合促成了數據庫中的知識發現的產生。
3 數據挖掘的功能
數據挖掘功能用于指定數據挖掘任務要找的模式類型。一般而言,數據挖掘任務可以分為兩類:描述和預測。描述性挖掘任務描述數據庫中數據的一般性質。預測性挖掘任務對當前數據進行推斷,以作出預測。數據挖掘功能以及它們可以發現的模式類型如下。
(1)概念/類描述:特征化和區分
概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。
(2)關聯分析
關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。
(3)聚類
數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術主要包括傳統的模式識別方法和數學分類學。80年代初,Mchalski提出了概念聚類技術其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。
(4)偏差檢測
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
(5)自動預測趨勢和行為
數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。
4 數據挖掘的常用技術
(1) 神經網絡
神經網絡由于本身良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問題,因此近年來越來越受到人們的關注。典型的神經網絡模型主要分3大類:以感知機、BP反向傳播模型、函數型網絡為代表的,用于分類、預測和模式識別的前饋式神經網絡模型;以Hopfield的離散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。 [4]
(2) 遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結合訓練神經網絡,然后從網絡提取規則等。但遺傳算法的算法較復雜,收斂于局部極小的較早收斂問題尚未解決。
(3) 決策樹方法
決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。最有影響和最早的決策樹方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要問題是:ID3是非遞增學習算法;ID3決策樹是單變量決策樹,復雜概念的表達困難;同性間的相互關系強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進算法,如 Schlimmer和Fisher設計了ID4遞增式學習算法;鐘鳴,陳文偉等提出了IBLE算法等。
(4) 粗集方法
粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關系表的信息表。目前成熟的關系數據庫管理系統和新發展起來的數據倉庫管理系統,為粗集的數據挖掘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續的屬性。
(5) 覆蓋正例排斥反例方法
它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。
5 數據挖掘的應用及其在高校就業工作中的分析
數據挖掘技術從一開始就是面向應用的。目前,在很多領域,數據挖掘都得到了應用,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。 [2]
值得關注的是,數據挖掘技術也可以用于高校的就業工作中去。在高等院校中,存在著大量的學生個人的教育信息和就業信息。對于教育信息,一部分和教學相關,如學業成績、英語四六級成績、獲獎情況等;一部分和非智力因素有關,如學生的性別、身體狀況、心理因素等。畢業生就業信息則可能包括企業地域、企業性質、職位、行業、薪資待遇等。如果能利用數據挖掘技術從這類信息中找到一般規律,啟發相應管理者因材施教,增強學生的綜合競爭力,同時對畢業生做一個有效的就業指導,對提高學生的就業率將會有事半功倍的效果。
針對以上分析,可以把數據挖掘這樣一門新興的技術應用到學生就業工作中,研究學生個人的信息和最終就業的情況,挖掘出其中隱藏的信息。例如,經過對學生相關數據進行分析,數據挖掘工具可以回答諸如“哪些因素對學生就業可能有影響”等類似的問題,這是傳統評價方法無法具備的。
在數據的收集整理方面,可以對學校多年來積累的學生管理中的數據以及通過實際調查采集的相關數據進行挖掘。在數據挖掘算法的選擇方面,考慮到基于決策樹的分類模型有很多優點,因此可以采用決策樹方法。同時,為了去掉冗余屬性,降低算法的時間復雜性,可以利用粗糙集對對傳統的決策樹方法進行改進。[3]利用挖掘的結果,一方面可以指導在校低年級學生的學習,另一方面可以指導不同類型的畢業生選擇合適的就業途徑,提高就業率。
6 結束語
數據挖掘是當前計算機行業最熱門的研究領域之一,數據挖掘研究也已取得了十分豐富的成果。但是,數據挖掘還面臨著如數據挖掘語言的標準化、對多種類型多層次知識的有效挖掘方法、如何在Intemet網進行快速有效的數據挖掘、數據挖掘中的隱私保護與信息安全等等問題,這一切都有待于我們繼續研究、探索、實現和推廣。
參考文獻:
[1] Jiawei Han,Micheline Kamber,著. 范明,孟小峰,譯.數據挖掘概念與技術[M].北京:機械工業出版社,2007.3.
[2] 張維明.數據倉庫原理與應用[M].北京:電子工業出版社,2002.
[3] 張文修.粗糙集理論與方法[M].北京:科學出版社,2001.
[4] Martin T,Hagan Howard B,Demuth Mark H,等著. 戴葵譯.神經網絡設計[M]. 北京:機械工業出版社,2006.11.