999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SPSS Modeler的數據挖掘過程解析

2017-12-07 08:14:01張治斌
數字技術與應用 2017年9期
關鍵詞:數據挖掘

張治斌

摘要:數據挖掘技術已經具有非常廣闊的應用領域和發展前景,今天數據挖掘技術廣泛的應用在電子商務、電信、保險、醫學、氣象等各個領域, SPSS Modeler軟件已經成為諸多數據挖掘應用軟件之首,備受關注,本文將以一個簡單實例介紹數據挖掘的基本過程。

關鍵詞:SPSS Modeler;數據挖掘;過程

中圖分類號:TP39 文獻標識碼:A 文章編號:1007-9416(2017)09-0072-02

1 數據挖掘的基本過程介紹

數據挖掘也叫做資料勘探或數據采礦,從宏觀上定義為從海量的各類數據中通過某種算法探索隱匿的信息和知識的過程,數據挖掘通常作為數據庫知識發現的一個步驟;從另一個層面,許多人把數據挖掘視為數據庫知識發現(KDD)的同義詞。數據挖掘通常與傳統的統計分析學、數學、計算機科學相關,通過統計、在線分析處理、機器學習和模式識別等諸多哦方法針對采集的數據進行分析挖掘。知識發現過程主要包括以下幾個步驟:

(1)數據清理與集成:這一步驟可以作為在數據收集和提取之前完成,也可以在數據庫中完成。在這一階段主要任務是將各種數據源加以集成到一起,并針對噪聲和不一致數據加以刪除,對數據進行合法性檢查并清理含有錯誤的數據。

(2)數據選取與變換:本階段針對定義的問題收集選取有關數據,匯總或聚集操作,把數據變換和統一成適合挖掘的形式,在這里可以利用數據倉庫的查詢功能已加快數據的提取速度,同時針對數據進行再加工,剔除冗余屬性、對數據的表達方式進行轉換以適用于學習算法。

(3)數據挖掘:在這一步驟主要的工作是根據業務需求和數據選擇合適的數據挖掘算法,并確定如何將該算法應用于數據上,并進行對應數據挖掘算法進行模式提取,確定適用于描述和解釋的表現形式。

(4)模式評估與表示:最后使用可視化和知識表示技術,向用戶提供挖掘的知識,并通過模式評估對學習結果的新穎性和有效性進行評價。

我們可以把數據挖掘看做是KDD過程的一個基本步驟.它包括特定的從數據庫中發現模式的挖掘算法。KDD過程使用數據挖掘算法根據特定的度量方法和閾值從數據庫中提取或識別出知識,這個過程包括對數據庫的預處理、樣本劃分和數據變換。那么如何使用合適的挖掘工具完成數據挖掘任務呢。

2 SPSS Modeler軟件介紹

SPSS Modeler是IBM公司將SPSS統計分析軟件與Clementine數據挖掘軟件進行整合,并推廣到全球市場。該軟件集成了諸多計算機機器學習的優秀算法,以及行之有效的統計分析方法,充分利用計算機的運算處理能力和圖形展現能力,將應用、方法與工具有效結合,目前已經成為內容全面、功能強大、使用最為廣泛的數據挖掘軟件。下面我們以一個簡單的實例介紹基于SPSS Modeler的數據挖掘過程。

3 基于SPSS Modeler工具的挖掘過程

我們以學生參加某次社會公益活動的數據為例(文件名為Student.xls),其表的基本信息內容如圖1所示。利用C5.0算法研究哪些因素顯著影響學生是否參與社會公益活動。

(1)數據集成與清理。

由于Students文件中包含兩個表分別是老生表(Students.xls)和新生表(NewStudents.xls)。所以需要將這兩個表的數據進行合并。首先在數據流編輯區插入兩個【源】選項卡中的【Excel】節點,分別導入兩張表格數據,然后在【記錄選項】選項卡中的【追加】節點添加到兩個【Excel】節點后面,完成兩張表格數據的合并。接下來,選擇【字段選項】選項卡中的【類型】追加到【追加】節點后面,并將“是否參加”設置為目標變量,將“編號”以外的變量設置為輸入變量。

(2)數據選取與變換。

從圖1中不難看出,在是否無償獻血列的取值不規范,應該將取值1和0分別調整為Yes和No??梢允褂谩咀侄芜x項】選項卡中【重新分類】節點進行變量類別的調整,將該節點添加到【追加】節點后面數據流的對應位置,并對【編輯】選項進行設置;同時,針對在校綜合評價指數進行標準化處理,使其能夠以百分制只管反映學生在校綜合表現水平。這里使用【字段選項】選項卡中的【填充】節點完成,使用——(在校綜合評價指數-61)/ (138-61)*100公式完成對原始數據的替換。

(3)數據挖掘:根據本任務的需求,采用決策樹的C5.0算法實現對哪些因素顯著影響學生是否參與社會公益活動。選擇【建?!窟x項卡中的【C5.0】節點添加到數據流的恰當位置上,并進行對應參數設置,此處可以選擇默認設置。

(4)模式表示與評估:運行并在流管理器的【模型】選項卡中【瀏覽】挖掘結果,可以看到挖掘結果以文字和圖形兩種形式分別顯示在【模型】和【查看器】選項卡中,如圖2所示;此外可以使用【輸出】選項卡中的【分析】節點連接到輸出模型后的數據流中,查看該挖掘模型的準確率。

(5)結果分析:從分析的結果可以看出:如果家長不鼓勵(49)個觀測值,則不參加社會公益活動,置信度為91.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數小于等于48分,則不參加社會公益活動,置信度為77.8%;如果家長鼓勵(51個觀測值),且在校綜合評價指數大于等于48分,則參加社會公益活動,置信度為75.8%。總之,家長鼓勵是學生參與社會公益活動最關鍵的因素,其次是學生在校的綜合評價指數。學生的家庭人均收入、是否無償獻血沒有進入決策樹,對是否參與社會公益活動的影響很小。

4 結語

以上對基于SPSS Modeler的數據挖掘基本過程中的數據選取、過濾和挖掘過程進行了簡要介紹,由于篇幅原因具體設置界面未提供,目前,具備基本計算機操作能力已經不是問題,數據挖掘的過程與方法是后續學習關注的主體和要點。

參考文獻

[1]薛薇.基于SPSS Modeler的數據挖掘[M].中國人民大學出版社,2014.endprint

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 精品福利网| 少妇高潮惨叫久久久久久| 亚洲一区二区无码视频| 在线亚洲精品福利网址导航| 无码中文字幕精品推荐| 国产日产欧美精品| 国产精品成人久久| 国产亚洲一区二区三区在线| 欧美日韩国产系列在线观看| 亚洲不卡av中文在线| 国产欧美日韩另类精彩视频| a级免费视频| 国产免费网址| 欧美另类一区| 日本在线视频免费| 成人毛片免费在线观看| 浮力影院国产第一页| 91麻豆精品国产高清在线| 一区二区三区精品视频在线观看| 亚洲成aⅴ人在线观看| 亚洲福利一区二区三区| 亚洲日本韩在线观看| 亚洲福利一区二区三区| 色综合中文字幕| 亚洲午夜久久久精品电影院| 国产精品一区不卡| 中文一区二区视频| 精品欧美一区二区三区久久久| 亚洲人在线| 好紧太爽了视频免费无码| 国产精品免费福利久久播放 | 亚洲AV免费一区二区三区| 日韩欧美一区在线观看| 国产视频a| 欧美综合在线观看| 91在线无码精品秘九色APP| 亚洲日本中文综合在线| 亚洲人成影院在线观看| 波多野结衣在线一区二区| 欧美一级高清片欧美国产欧美| 国产特级毛片| 97超爽成人免费视频在线播放| 青青青国产视频| 囯产av无码片毛片一级| 国产丝袜第一页| 在线观看精品自拍视频| 视频一区亚洲| 精品国产成人三级在线观看| 精品丝袜美腿国产一区| 青青草国产精品久久久久| 亚洲欧美综合在线观看| 精品国产aⅴ一区二区三区 | 东京热一区二区三区无码视频| 丝袜久久剧情精品国产| 国产高颜值露脸在线观看| 色婷婷成人| 日韩精品一区二区三区大桥未久 | 老司机午夜精品网站在线观看 | 一级毛片无毒不卡直接观看| 日韩精品成人在线| 欧美一级高清免费a| 国产成人精品午夜视频'| 中文字幕色在线| 亚洲不卡无码av中文字幕| 免费网站成人亚洲| 亚洲品质国产精品无码| 天堂在线www网亚洲| 99在线视频精品| 东京热一区二区三区无码视频| 国产成年女人特黄特色大片免费| 最新国产精品鲁鲁免费视频| 毛片在线看网站| 99热精品久久| 最新精品国偷自产在线| 国产精品成人观看视频国产 | 中文字幕波多野不卡一区 | yy6080理论大片一级久久| 久久人搡人人玩人妻精品| 国产女人18水真多毛片18精品| 一级一级一片免费| 毛片手机在线看| 草逼视频国产|