999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘淺析

2009-06-22 03:41:14于祥茹
新媒體研究 2009年20期
關鍵詞:數據挖掘關聯概念

于祥茹

[摘要]數據挖掘是數據庫領域中報有應用價值的課題,支持決鐿系統,人工智能等領域。簡要介紹數據挖掘的概念以及分類。另外。重點介紹數據挖掘的兩種主要技術。

[關鍵詞]數據挖掘人工神經網絡決策樹

中圖分類號:TP3文獻標識碼:A文章編號:1671—7597(2009)1020081—01

隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。激增的數據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數據。目前的數據庫系統雖然可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關聯和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象,應用的需求促使一門新的技術誕生數據挖掘。

一、數據挖掘的概念

數據挖掘的概念有多種的描述,其中常見的概念描述有如下的兩種:

第一種,GPi atetsky Shapior,w.J.Frawley等定義數據挖掘為從數據庫的大量數據中揭示出隱含的、先進未知的、潛在有用的信急的非平凡過程。

第二種,數據挖掘的廣義觀點:數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘有趣知識的過程。

二、數據挖掘的分類

從不同的視角看,數據挖掘技術有一下三種分類方法:

1、根據發現知識的種類分類。2、根據挖掘的數據庫的種類分類。3、根據采用的技術分類。

三、數據挖掘的主要技術介紹

數據挖掘的技術主要分為兩類:一類是預言,用歷史來預測未來;另一類是描述,目的是了解數據中的潛在規律。具體來說主要可以分為人工神經網絡技術、決策樹、遺傳算法、近鄰算法、規則推導等。下面說一下人工神經網絡與決策樹[2]。

(一)人工神經網絡。神經網絡最早是由心理學家和神經生物學家提出的,旨在尋求開發和測試神經的計算模擬。粗略的說,神經網絡是一組連接的輸入/輸出單元,其中每個連接都與一個權相相聯。在學習階段,通過調整神經網絡的權,使得能夠;預測輸入樣本的正確類標號來學習。由于單元之間的連接,神經網絡學習又稱連接者學習[3]。

(二)決策樹。決策樹提供了一種展示類似在什么條件下會得到什么值這類規則的方法。比如,在貸款申請中,要對申請的風險太小做出判斷,圖1是為了解決這個問題而建立的一棵決策樹,從中我們可以看到決策樹的基本組成部分:決策節點、分支和葉子。

決策樹的每個節點子節點的個數與決策樹在用的算法有關。如CART算法得到的決策樹每個節點有兩個分支,這種樹稱為X樹。允許節點含有多于兩個子節點的樹稱為多叉樹。

數據挖掘中決策樹是一種經常要用到的技術,可以用于分析數據,同樣也可以用來作預測(就像上面的銀行官員用他來預測貸款風險)。常用的算法有CHAID、CART、Quest~C5,0[4]。

四、數據挖掘的功能

數據挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下五類功能。

(一)自動預測趨勢和行為。數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的群體。

(二)關聯分析。數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。

(三)聚類。數據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。

(四)概念描述。概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。

(五)偏差檢測。數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。

五、數據挖掘熱點

就目前來看,將來的幾個熱點包括網站的數據挖掘、生物信息或基因的數據挖掘及其文本的數據挖掘。下面就這幾個方面加以簡單介紹。

(一)網站的數據挖掘。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊幾下鼠標即可。目前,有很多廠商正在致力于開發專門用于網站挖掘的軟件。

(二)生物信息或基因的數據挖掘。生物信息或基因數據挖掘則完全屬于另外一個領域,在商業上很難講有多大的價值,但對于人類卻受益匪淺。

(三)文本的數據挖掘。人們很關心的另外一個話題是文本數據挖掘。舉個例子,在客戶服務中心,把同客戶的談話轉化為文本數據,再對這些數據進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。

六、結束語

越來越多的例子可以證明數據挖掘在科學和商業領域中有越來越多的應用。從原來的概念,到數據挖掘應用的實現,而數據挖掘的靈活性也表現在,針對各種具體的案例,可以通過數據挖掘的不同側面的功能去實現數據的挖掘。相信在不久的將來,會有更加的數據挖掘的實例出現在人們生活的各個需要處理數據信息的方面。但是由于它是一門綜合性強的新興領域,它的發展還會有很多的困難和需要進一步發展的地方。可以認為,它的應用會更加廣泛,它的算法也會更加優化。

猜你喜歡
數據挖掘關聯概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
探討人工智能與數據挖掘發展趨勢
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
奇趣搭配
聚焦集合的概念及應用
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 天天综合亚洲| 国产丝袜精品| 亚洲欧美人成电影在线观看| 久久国产V一级毛多内射| 欧美午夜精品| 亚洲三级成人| 亚洲成在人线av品善网好看| yjizz视频最新网站在线| 久久国产精品夜色| 激情综合网激情综合| 天天综合色天天综合网| 国产成年女人特黄特色毛片免 | 高清国产va日韩亚洲免费午夜电影| a毛片免费看| 亚洲人成影视在线观看| 日韩 欧美 小说 综合网 另类| 亚洲香蕉久久| 99久久亚洲综合精品TS| 国产chinese男男gay视频网| 久久www视频| 伊人欧美在线| 亚洲中文精品人人永久免费| 国产精品吹潮在线观看中文| 爆乳熟妇一区二区三区| 在线观看无码av免费不卡网站 | 91精品国产自产在线老师啪l| 欧美在线导航| 激情乱人伦| 亚洲日韩欧美在线观看| 久久青草精品一区二区三区 | 青青青国产视频| 秋霞一区二区三区| 女同国产精品一区二区| av免费在线观看美女叉开腿| 亚洲人在线| 伊人成人在线视频| 亚洲欧美精品一中文字幕| 91午夜福利在线观看精品| 色婷婷狠狠干| 国产亚卅精品无码| 成人va亚洲va欧美天堂| 国产国产人成免费视频77777| 午夜视频www| 97国产在线视频| 在线看片中文字幕| 欧美久久网| 亚洲午夜福利精品无码| 国产H片无码不卡在线视频| 欧美日韩国产成人在线观看| 国产日韩丝袜一二三区| 国产爽爽视频| 久久久久无码精品| 精品亚洲欧美中文字幕在线看| 综合社区亚洲熟妇p| 久久综合色视频| 久久久久亚洲av成人网人人软件| 久久精品中文字幕少妇| 国产成人免费高清AⅤ| 国产swag在线观看| 夜夜操天天摸| 国产精品偷伦在线观看| 国产女人喷水视频| 97在线观看视频免费| 免费看a毛片| 成人日韩视频| 日韩欧美亚洲国产成人综合| 一本视频精品中文字幕| 女人av社区男人的天堂| 免费观看三级毛片| 亚洲人妖在线| 高清久久精品亚洲日韩Av| 亚洲精品桃花岛av在线| 亚洲熟女偷拍| 国产午夜看片| 不卡网亚洲无码| 999国内精品视频免费| 超清无码熟妇人妻AV在线绿巨人| 国产理论精品| 亚洲 日韩 激情 无码 中出| 亚洲黄网在线| 亚洲午夜天堂| 欧美性猛交一区二区三区|