999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析分類規則挖掘

2009-04-29 00:00:00
科教導刊 2009年36期

摘要分類規則挖掘是數據挖掘領域中最重要的研究領域之一。本文首先分析了分類規則挖掘的產生背景及意義,其次簡述了分類規則挖掘的算法和應用領域等方面,然后從分類問題、表示方法和分類挖掘步驟三個方面進行分析,最后指出分類規則挖掘面臨的問題及挑戰。

關鍵詞數據挖掘分類規則挖掘算法

中圖分類號:TP3文獻標識碼:A

分類規則挖掘是數據挖掘領域中最重要的研究領域之一,同時,也是其它諸如人工智能、模式識別、人工神經網絡等學科的重要研究內容,并且有豐富的結果和廣泛的應用,因此對分類規則挖掘的研究是很有必要的。

1 數據挖掘概念和技術

20世紀70年代以來,數據庫技術得到了迅速發展及廣泛應用。在自然科學、工程技術、工商管理、金融證券、政府機構等領域,已經或者正在實施全面的信息化建設,其核心是建立大型復雜的數據庫管理系統。隨著信息技術的高速發展,數據庫的應用規模、范圍和深度不斷擴大,已經從點(單臺機器)、線(局域網)發展到面(廣域網),甚至到Internet全球信息系統。

隨著計算機技術的飛速發展和企業界不斷提出新的需求,數據挖掘技術應運而生。數據挖掘(Data Mining)是從大型數據庫的數據中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息。它的目標是高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減小風險,做出正確的決策。IBM將數據挖掘的分析方法從功能上劃分為以下四種:(1)關聯分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分類分析(Classifications);(4)聚類分析(Clusterings)。其中,分類分析(即分類規則挖掘)是數據挖掘的一項重要內容,是知識發現的一個重要方面。

分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規則,可被用于規則描述和預測。隨著數據庫技術的發展,數據庫中內容的復雜程度日益增加,大量的信息不斷加入到數據庫系統中來,研究高效和快速的分類規則挖掘方法已經成為一個十分迫切的課題。

2 分類規則挖掘的算法

分類規則挖掘是數據挖掘中應用領域極其廣泛的重要技術之一,至今已經提出多種算法。對于分類規則挖掘通常有以下幾種算法:決策樹方法、貝葉斯方法、人工神經網絡方法、粗糙集方法和關聯規則分類法、k一最臨近分類法等。這些算法是主要的算法,他們都有其優缺點,都有其適用的數據。還有一些其他的算法,比如遺傳算法,后向傳播分類、基于概念層次的分類、基于案例的推理、群智能算法如蟻群算法和粒子群算法,以及各種算法的混合算法。

分類算法的優劣直接影響數據挖掘的效率與準確性。分類算法采用五層評價標準:預測準確度(模型正確預測新數據類標號的能力);計算復雜度(依賴于具體的實現細節和硬件環境);健壯性(在有噪聲數據或空缺值的情況下模型是否具有正確預測的能力);可伸縮性(對于海量的數據或大型數據庫,是否具有有效的構造模型的能力);模型簡潔度和可理解性(學習模型是否具有提供理解和觀察的層次的能力)。

3 分類規則挖掘的應用領域

分類規則挖掘是數據挖掘領域最重要的研究課題之一,很多數據挖掘的問題都可以轉化為分類挖掘問題。目前,分類挖掘算法已經具有廣泛的應用,其中應用最集中的領域包括科學研究、金融投資、市場營銷、保險、醫療衛生、產品制造業、通信網絡管理等行業。

4 數據分類問題、表示方法

4.1 分類問題的描述

數據分類是通過挖掘已有的分類數據,集中同一類數據對象的共同特征,提取分類規則,對整個數據集進行合理分類的過程。分類方法用于預測數據對象的離散類別,分類的目的是能根據已經分類的數據構造出一個分類模型,即分類器。

要構造一個分類器,需要有一個訓練數據集作為輸入。訓練數據集由一組數據庫元組構成,每個元組由若干個屬性(又稱字段或特征)描述。假定訓練數據集的每個元組屬于一個預定義的類,由一個稱為類標號屬性的屬性確定,則每個元組與一個特定的類標號相對應。該類標號是系統的輸入,通常是以往的一些經驗數據。

4.2 分類問題的表示方法

分類模型有很多表示方法,比如分類規則、判定樹、數學公式、形式文法、形式邏輯表達式、神經網絡、框架和模式等等。與其它幾種表示方法相比,使用分類規則的好處在于:每條規則能夠獨立地表示被發現的知識;新規則的加入并不影響已經存在的規則集,而且表示形式簡單,易于理解。假設數據挖掘用于決策支持系統,但真正最后的決策者是用戶,數據挖掘的結果對于用戶來說應該是易于理解,表示形式簡單的結果,采用規則表示的分類器就比較好理解,而神經網絡的結果就比較難以理解。例如,給定一個顧客的信用信息的數據庫,可以學習分類規則,根據他們的信譽度優良或相(下轉第139頁)(上接第129頁)當好來識別顧客。這些規則可以用來為以后的數據樣本分類,也能對數據庫的內容提供更好的理解。

5 分類規則挖掘步驟

第一步,建立一個描述已知數據集類別或概念的模型。該模型是通過對數據庫中各數據行內容的分析而獲得的。每一數據行都可認為是屬于一個確定的數據類別,其類別值是由一個屬性描述(被稱為類別屬性)。分類學習方法所使用的數據集稱為訓練樣本集合,因此分類學習又可以稱為監督學習(Learning by Example)。它是在已知訓練樣本類別的情況下,通過學習建立相應的模型;而無教師監督學習則是在訓練樣本的類別與類別個數均未知的情況下進行的。

第二步,利用所獲得的模型進行分類操作。首先對模型分類準確率進行估計,例如使用保持(Holdout)方法。如果一個學習所獲模型的準確率經測試被認為是可以接受的,那么就可以使用這一模型對未來的數據行或對象(其類別未知)進行分類。

6 分類挖掘面臨的問題和挑戰

隨著對數據挖掘分類問題研究的不斷深入和廣泛應用,人們發現現實世界數據庫存在的一些固有的特點給分類挖掘帶來了巨大的挑戰。比如,在其他規則挖掘的過程中,提供一種與分類規則挖掘技術相結合的方法,把分類規則挖掘技術融入其中。還有噪音數據、數據庫的動態性以及海量數據和高維數據等這些問題都是值得研究的。

分類規則挖掘是數據挖掘領域中最重要的研究領域之一,它有著豐富的結果和廣泛的應用,因此對分類規則挖掘的研究是很有必要的。

主站蜘蛛池模板: 亚洲精品无码高潮喷水A| 亚洲三级色| 美女一区二区在线观看| 日日拍夜夜操| 成年人午夜免费视频| 亚洲美女高潮久久久久久久| 在线中文字幕网| 亚洲国产天堂久久综合226114| 韩国v欧美v亚洲v日本v| 人妻无码中文字幕第一区| 四虎永久免费网站| 精品国产黑色丝袜高跟鞋| 亚洲日韩精品无码专区97| 精品伊人久久久香线蕉| 久久久久无码国产精品不卡| 亚洲国产成人无码AV在线影院L| 国产精品视频猛进猛出| 亚洲第一黄片大全| 国产精品高清国产三级囯产AV| 日本三级欧美三级| 91国语视频| 亚洲中文字幕久久无码精品A| 欧美成人免费午夜全| 亚洲视频欧美不卡| 日韩在线观看网站| 91在线一9|永久视频在线| 夜夜高潮夜夜爽国产伦精品| 久久久久国产精品免费免费不卡| 精品精品国产高清A毛片| 欧美日韩va| 国产精品99r8在线观看 | 日韩在线播放欧美字幕| 搞黄网站免费观看| 97国产在线观看| 91亚洲视频下载| 久久亚洲综合伊人| 亚洲成人黄色在线观看| 国产白浆一区二区三区视频在线| a毛片在线| 这里只有精品在线播放| 拍国产真实乱人偷精品| 日韩中文字幕免费在线观看| 毛片一级在线| 日韩无码一二三区| 亚洲天堂自拍| 91年精品国产福利线观看久久| 久久天天躁狠狠躁夜夜躁| 99热这里只有精品免费国产| 一级黄色网站在线免费看| 99精品视频九九精品| 亚洲无码精彩视频在线观看| 国产亚洲日韩av在线| 精品无码日韩国产不卡av| 亚洲综合中文字幕国产精品欧美| 国产成人精品第一区二区| AV网站中文| 欧美日韩高清在线| 亚洲欧洲日韩国产综合在线二区| 亚洲欧美一区二区三区图片 | 国产99精品久久| 日韩国产精品无码一区二区三区| 日韩A级毛片一区二区三区| 日韩黄色精品| 国产精品丝袜在线| 一区二区理伦视频| 亚洲成a人片7777| 91久久精品国产| 日本免费a视频| 欧美激情综合| 国产精品永久不卡免费视频 | 玩两个丰满老熟女久久网| 无码高潮喷水专区久久| 青青草原偷拍视频| 日本一区高清| 欧美视频在线播放观看免费福利资源| 国产精品极品美女自在线看免费一区二区| 97狠狠操| 永久免费无码日韩视频| 综合天天色| 欧美色视频日本| 永久毛片在线播| 精品欧美视频|