999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析數據挖掘技術

2011-10-21 22:33:44侯玉香劉華云
卷宗 2011年6期
關鍵詞:數據挖掘

侯玉香 劉華云

摘要:數據挖掘(Data Mining,簡稱DM),簡單地講就是從大量數據中挖掘或抽取出知識。該文簡單介紹數據挖掘的概念﹑區別﹑常用技術﹑方法及發展趨勢。

關鍵詞:數據挖掘;數據;聚類;決策樹

近十幾年來,隨著科學技術飛速的發展,人們利用信息技術生產和搜集數據的能力大幅度提高,無數個數據庫被用于商業管理、科學研究、政府辦公和工程開發等。為了充分利用現有信息資源,從海量數據中找出隱藏的知識,數據挖掘技術應運而生并顯示強大的生命力。

1 數據挖掘與傳統分析方法的區別

數據挖掘,又稱為數據庫中知識發現(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數據中抽取挖掘出來未知的、有價值的模式和有規律等知識的復雜過程。

數據挖掘與傳統分析方法區別如下:

1)本質區別為數據挖掘是在沒有明確的假設的前提下,挖掘信息并發現知識。

數據挖掘所得到的信息應該具備先前未知﹑有效性﹑可實用三個特征。

2)數據挖掘的數據源與傳統分析方法相比有了顯著的改變,數據是海量的,數據是有噪聲,數據可能是非結構化的。

3)先前未知的信息指該信息是預先未曾預料到的,數據挖掘是發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出信息越是出乎意料的,就可能越有價值.

2 數據挖掘中的常用技術

數據挖掘是指從數據庫的大量數據中揭示出隱含的﹑先前未知的﹑并有潛在價值的信息的非平凡過程。它是一種決策支持過程,主要基于人工智能、模式識別、機器學習、數據庫、統計學、可視化技術等,高度自動化地分析企業的數據,并做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略并減少風險,做出正確的決策。

常見的數據挖掘技術包括如下:

1)統計分析方法:利用統計學和概率論的原理對關系中各屬性進行統計分析,從而找出它們之間的關系和規律。它是最基本的數據挖掘技術之一。

2)決策樹方法:以樹型結構表示分類或決策集合,產生規則和發展規律,尋找數據庫中具有最大信息量的字段,建立決策樹的一種人工智能和識別技術,主要用于分類挖掘。

3)神經網絡方法:由大量的簡單經元,通過極其豐富和完美的連接構成自適應非線性動態系統,具有分布存儲﹑大規模并行處理﹑聯想記憶﹑自學習﹑自組織﹑自適應等功能。

4)遺傳算法:模擬生物進行過程,以達到優化的目的。由交叉﹑繁殖﹑變異三個基本算子組成,可起產生優良后代的作用。經過若干代的遺傳,將得到滿足要求的后代。

5)聚類分析:根據事物的特征,對其分類或聚類。即所謂物以類聚,以期發現規律和典型模式。聚類分析技術是數據挖掘的最重要的技術之一。

6)粗集方法:在數據庫中視行為對象列為元素,定義等價關系R為不同對象在某個或幾個屬性上取值相同,滿足R的對象組成的集合稱為其等價類。

7)可視化技術:采用比較直觀的圖形圖表方式將信息模式﹑數據關聯或趨勢呈現給決策者,廣大擴展了數據和挖掘結果的表達和理解力。

8)最近鄰技術:通過K個與之最相近的歷史記錄的組合來辨別新記錄。最近鄰技術可用作聚類﹑偏差分析等挖掘任務。

3 數據挖掘的方法

數據挖掘的實現方法有兩種:直接數據挖掘和間接數據挖掘。

1)直接數據挖掘

給出所有已知的因素和輸入變量,便于數據挖掘引擎數據模型的規則,找出各個屬性之間最合理的關系。直接數據挖掘以預測未知值或目標變量為基礎,即直接數據挖掘是基于已知的輸入變量值預測未知數據的最大可能的取值。

2)間接數據挖掘

間接數據挖掘不用于預測,不受目標值的限制和約束,它只對數據進行整理,發掘整個數據集合的結構和數據組織形式,進行理解和應用。

例如,通過整理圖書的借閱歷史,可以發現喜歡讀某類圖書的讀者有哪些共同的特點。

例如,可能會發現喜歡讀金庸小說的讀者主要是年輕的男孩子。

采用聚類是對歷史數據進行數據挖掘中常用的一種算法。可以先提取聚類,再利用決策樹算法,對感興趣的數據集合進行直接數據挖掘。

4 數據挖掘的發展趨勢

數據挖掘的任務和數據挖掘方法的多樣化對數據挖掘提出了許多挑戰性的研究問題,在將來會形成更大的高潮。數據挖掘發展趨勢包括新應用領域的探索方面所作的進一步努力﹑可伸縮和交互方法(包括基于約束的挖掘)的改進﹑數據挖掘與數據倉庫和數據庫系統的集成﹑可視化方法和處理復雜數據類型的新方法﹑數據挖掘語言的標準化。

數據挖掘的發展趨勢主要如下:

1)數據倉庫日益普及:盡管數據挖掘并不一定要有數據倉庫的支持,但它仍然經常被看成數據倉庫的后期產品,因那些努力建立數據倉庫的人有最豐富的數據資源可供挖掘。

2)Internet 數據挖掘:許多供應商將數據挖掘技術應用于電子商務,以提高Internet 站點和客戶的關聯行。如IBM公司發布Web為中心的數據挖掘解決方案SurAid。

3)數據挖掘供應商更注重縱向市場:數據挖掘涉及到對數據內在本質的理解,因些供應商們更注重縱向市場。比如DataMind 公司的重點是電信業的跳槽。電信業競爭的不規范和白熱化已使保持客戶成為一個備受關注的熱點問題。

4)EIS工具供應商也在集成數據挖掘功能:將數據挖掘工具﹐查詢及EIS工具集成起來將導致一個基于發現的過程。由此發現過程最終用戶能獲得最有用的東西,進而根據這些新的信息對有關問題進行更明確的闡述。

5 結束語

數據挖掘是一個多學科的交叉領域。不再是數據庫的研究者和開發者關注的問題,它已經成為統計學﹑機器學習等諸多領域的研究者和開發者的熱點課題之一。就連“數據挖掘”術語本身也已經成為這些領域的流行詞匯。數據挖掘學科交叉融合引起的良性互動無疑會進一步促進該學科的發展與繁榮。

參考文獻

[1]陳志泊.數據倉庫與數據挖掘[M] .北京:清華大學出版社,2009

[2]胡可云,田鳳占,黃厚寬.數據挖掘理論與應用[M].北京:清華大學出版社,2008

[3]劉世平.數據挖掘技術及應用[M].北京:高等教育出版社,2010

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲精品无码AⅤ片青青在线观看| 国产成人精品第一区二区| 一级毛片无毒不卡直接观看| 国产真实自在自线免费精品| 久久国产精品夜色| 中文字幕在线一区二区在线| 欧美一区二区自偷自拍视频| 丰满人妻久久中文字幕| 天堂在线www网亚洲| 国产在线无码av完整版在线观看| 午夜啪啪网| 国产乱子伦视频三区| 色综合天天操| 毛片网站观看| 亚洲视频四区| 亚洲精品爱草草视频在线| 操美女免费网站| 国产精品视频免费网站| 欧美激情伊人| 国产精品手机在线播放| 精品撒尿视频一区二区三区| 国产一区二区三区夜色| 久久亚洲国产一区二区| 亚洲色图综合在线| 国产日韩欧美在线视频免费观看 | 日韩精品亚洲人旧成在线| 欧美一区中文字幕| 青青青国产视频手机| 国产国语一级毛片在线视频| 久久久久久尹人网香蕉| 强乱中文字幕在线播放不卡| 一边摸一边做爽的视频17国产 | 亚洲三级a| 色成人亚洲| 亚洲成aⅴ人片在线影院八| 亚洲精选无码久久久| 亚洲色图欧美在线| 国产精品伦视频观看免费| 成年人福利视频| 国产在线视频二区| 亚洲成a人片77777在线播放| 亚洲国产成人自拍| 99精品免费在线| 无码AV动漫| 欧洲日本亚洲中文字幕| 国产精品视频久| 无码精品一区二区久久久| 久久99热这里只有精品免费看 | 亚洲精品国产综合99| 亚洲av无码牛牛影视在线二区| 亚洲欧美成aⅴ人在线观看| 91成人在线免费视频| 波多野结衣二区| 午夜不卡福利| 一级成人a毛片免费播放| 40岁成熟女人牲交片免费| 日韩成人在线视频| 成人精品午夜福利在线播放| 国产偷国产偷在线高清| 国产精品粉嫩| 乱人伦99久久| 欧美一区二区人人喊爽| 欧美在线综合视频| 99久久国产自偷自偷免费一区| 特级精品毛片免费观看| 欧美黑人欧美精品刺激| 91精品日韩人妻无码久久| 精品99在线观看| 亚洲无线一二三四区男男| 一本色道久久88| 久久综合色播五月男人的天堂| 国产精品所毛片视频| 欧美精品成人一区二区在线观看| 99伊人精品| 日韩中文精品亚洲第三区| 四虎在线观看视频高清无码| 欧美一级高清片久久99| 欧美一级高清片欧美国产欧美| 亚洲国产精品日韩欧美一区| 成年人国产网站| 老色鬼欧美精品| 国产精品人人做人人爽人人添|