999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘的認識及其在高校就業工作中的分析

2008-12-31 00:00:00楊舒晴
電腦知識與技術 2008年24期

摘要:隨著信息化建設的不斷深入,各類數據、信息急劇增長。如何對大量數據進行深入分析和利用,并從中發現有用的知識,已成為信息化社會面臨的重要問題。數據挖掘就是從大量數據中提取或“挖掘”知識,從而實現“數據一信息一知識”的過程。

關鍵詞:數據挖掘;知識發現

中圖分類號:TP311;TP183文獻標識碼:A文章編號:1009-3044(2008)24-1239-02

Data Mining Understanding and in University Employment Work Analysis

YANG Shu-qing

(Jiangxi University of Science and Technology,Information Engineering Institute,Applied Science Institute,Ganzhou 341000,China)

Abstract:Along with informationization construction unceasingly thorough, Each kind of data, information rapid rise. How to carry on the thorough analysis and the use to the mass data and discovers the useful knowledge has become the important question which the informationization society faces. The data mining is withdraws or “the excavation” from the mass data the knowledge, thus realizes “data- information- knowledge” process.

Key words:data mining; knowledge discovery

1 引言

隨著信息化建設的不斷深入,數據庫技術被廣泛應用于商業管理、政府辦公、科學研究和工程開發等領域,人們積累的數據越來越多,激增的數據資源背后隱藏著眾多重要的信息。人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。但是,目前已有的數據分析工具很難滿足人們對數據進行深層次分析的需要,數據處理的效率也很低。如何從大量的數據中提取有用的知識,就成為當務之急。在這種情況下,人們引入了數據挖掘的思想,通過它預測未來的趨勢和行為,作出超前的、基于知識的決策。即通過數據挖掘在“數據礦山”中找到蘊藏的“知識金塊”,充分地提高信息利用率。

2 數據挖掘概述

簡單的說,數據挖掘就是指從大量數據中提取或挖掘“知識”。[1] 數據挖掘的前身即知識發現,其實質的內涵是在一個已知狀態的數據集上,通過設定一定的學習算法,從數據集中獲取所謂的知識。用數據庫管理系統來存儲數據,用機器學習的方法來分析數據、挖掘大量數據背后的知識,這兩者的結合促成了數據庫中的知識發現的產生。

3 數據挖掘的功能

數據挖掘功能用于指定數據挖掘任務要找的模式類型。一般而言,數據挖掘任務可以分為兩類:描述和預測。描述性挖掘任務描述數據庫中數據的一般性質。預測性挖掘任務對當前數據進行推斷,以作出預測。數據挖掘功能以及它們可以發現的模式類型如下。

(1)概念/類描述:特征化和區分

概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。

(2)關聯分析

關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。

(3)聚類

數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術主要包括傳統的模式識別方法和數學分類學。80年代初,Mchalski提出了概念聚類技術其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。

(4)偏差檢測

數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。

(5)自動預測趨勢和行為

數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。

4 數據挖掘的常用技術

(1) 神經網絡

神經網絡由于本身良好的魯棒性、自組織自適應性、并行處理、分布存儲和高度容錯等特性非常適合解決數據挖掘的問題,因此近年來越來越受到人們的關注。典型的神經網絡模型主要分3大類:以感知機、BP反向傳播模型、函數型網絡為代表的,用于分類、預測和模式識別的前饋式神經網絡模型;以Hopfield的離散模型和連續模型為代表的,分別用于聯想記憶和優化計算的反饋式神經網絡模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。 [4]

(2) 遺傳算法

遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。遺傳算法具有的隱含并行性、易于和其它模型結合等性質使得它在數據挖掘中被加以應用。如利用遺傳算法優化神經網絡結構,在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結合訓練神經網絡,然后從網絡提取規則等。但遺傳算法的算法較復雜,收斂于局部極小的較早收斂問題尚未解決。

(3) 決策樹方法

決策樹是一種常用于預測模型的算法,它通過將大量數據有目的分類,從中找到一些有價值的,潛在的信息。它的主要優點是描述簡單,分類速度快,特別適合大規模的數據處理。最有影響和最早的決策樹方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要問題是:ID3是非遞增學習算法;ID3決策樹是單變量決策樹,復雜概念的表達困難;同性間的相互關系強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進算法,如 Schlimmer和Fisher設計了ID4遞增式學習算法;鐘鳴,陳文偉等提出了IBLE算法等。

(4) 粗集方法

粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單,易于操作。粗集處理的對象是類似二維關系表的信息表。目前成熟的關系數據庫管理系統和新發展起來的數據倉庫管理系統,為粗集的數據挖掘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續的屬性。

(5) 覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與字段取值構成的選擇子相容則舍去,相反則保留。按此思想循環所有正例種子,將得到正例的規則(選擇子的合取式)。

5 數據挖掘的應用及其在高校就業工作中的分析

數據挖掘技術從一開始就是面向應用的。目前,在很多領域,數據挖掘都得到了應用,尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業領域。 [2]

值得關注的是,數據挖掘技術也可以用于高校的就業工作中去。在高等院校中,存在著大量的學生個人的教育信息和就業信息。對于教育信息,一部分和教學相關,如學業成績、英語四六級成績、獲獎情況等;一部分和非智力因素有關,如學生的性別、身體狀況、心理因素等。畢業生就業信息則可能包括企業地域、企業性質、職位、行業、薪資待遇等。如果能利用數據挖掘技術從這類信息中找到一般規律,啟發相應管理者因材施教,增強學生的綜合競爭力,同時對畢業生做一個有效的就業指導,對提高學生的就業率將會有事半功倍的效果。

針對以上分析,可以把數據挖掘這樣一門新興的技術應用到學生就業工作中,研究學生個人的信息和最終就業的情況,挖掘出其中隱藏的信息。例如,經過對學生相關數據進行分析,數據挖掘工具可以回答諸如“哪些因素對學生就業可能有影響”等類似的問題,這是傳統評價方法無法具備的。

在數據的收集整理方面,可以對學校多年來積累的學生管理中的數據以及通過實際調查采集的相關數據進行挖掘。在數據挖掘算法的選擇方面,考慮到基于決策樹的分類模型有很多優點,因此可以采用決策樹方法。同時,為了去掉冗余屬性,降低算法的時間復雜性,可以利用粗糙集對對傳統的決策樹方法進行改進。[3]利用挖掘的結果,一方面可以指導在校低年級學生的學習,另一方面可以指導不同類型的畢業生選擇合適的就業途徑,提高就業率。

6 結束語

數據挖掘是當前計算機行業最熱門的研究領域之一,數據挖掘研究也已取得了十分豐富的成果。但是,數據挖掘還面臨著如數據挖掘語言的標準化、對多種類型多層次知識的有效挖掘方法、如何在Intemet網進行快速有效的數據挖掘、數據挖掘中的隱私保護與信息安全等等問題,這一切都有待于我們繼續研究、探索、實現和推廣。

參考文獻:

[1] Jiawei Han,Micheline Kamber,著. 范明,孟小峰,譯.數據挖掘概念與技術[M].北京:機械工業出版社,2007.3.

[2] 張維明.數據倉庫原理與應用[M].北京:電子工業出版社,2002.

[3] 張文修.粗糙集理論與方法[M].北京:科學出版社,2001.

[4] Martin T,Hagan Howard B,Demuth Mark H,等著. 戴葵譯.神經網絡設計[M]. 北京:機械工業出版社,2006.11.

主站蜘蛛池模板: 欧美中文字幕在线视频| 国产在线观看精品| 污视频日本| 欧美亚洲综合免费精品高清在线观看 | 五月婷婷激情四射| 无码日韩精品91超碰| 欧美国产在线看| 中文字幕亚洲精品2页| 亚洲人成亚洲精品| 免费激情网址| 国产亚卅精品无码| 在线欧美a| 久久久91人妻无码精品蜜桃HD | 99热这里只有精品在线观看| 成人小视频网| 成人va亚洲va欧美天堂| 国产网站免费观看| 国产在线精品美女观看| 大陆精大陆国产国语精品1024| 国产精品成人第一区| 国产日韩精品一区在线不卡| 亚洲欧美另类久久久精品播放的| 毛片免费观看视频| 亚洲无线观看| 为你提供最新久久精品久久综合| 婷婷色婷婷| 欧美日韩综合网| 日韩大片免费观看视频播放| 国产av无码日韩av无码网站| 亚洲第一区欧美国产综合 | 久久久久免费精品国产| 久久久久亚洲AV成人人电影软件| 免费高清a毛片| 福利小视频在线播放| 在线视频精品一区| 久久国产精品国产自线拍| 91麻豆国产视频| 污视频日本| 国产精品嫩草影院av| 亚洲综合经典在线一区二区| 精品福利视频网| 国产精品一老牛影视频| 中文字幕在线欧美| 亚洲男人在线天堂| 国产精品专区第一页在线观看| 国产亚洲精品在天天在线麻豆| 91高清在线视频| 欧美午夜理伦三级在线观看 | 日本不卡在线播放| 国产精品天干天干在线观看| 91亚洲精选| 国产精品无码久久久久AV| 99热这里只有精品在线播放| 亚洲国模精品一区| 四虎综合网| 制服无码网站| 黑色丝袜高跟国产在线91| 欧美日韩91| 日韩毛片免费| 老熟妇喷水一区二区三区| 国内精自线i品一区202| 精品久久人人爽人人玩人人妻| 欧美精品三级在线| 自慰高潮喷白浆在线观看| 精品国产成人a在线观看| 中日韩欧亚无码视频| 色噜噜狠狠色综合网图区| 在线人成精品免费视频| 伊人国产无码高清视频| 亚洲h视频在线| 精品天海翼一区二区| 成人夜夜嗨| 在线观看视频一区二区| 青青青草国产| 这里只有精品在线| 亚瑟天堂久久一区二区影院| 青青草原偷拍视频| 国产视频久久久久| 青草国产在线视频| 玩两个丰满老熟女久久网| 日本一区二区不卡视频| 国产流白浆视频|