999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘技術(shù)研究

2009-04-29 00:00:00徐照興
電腦知識與技術(shù) 2009年27期

摘要:當(dāng)今世界,數(shù)據(jù)每天都在迅猛增長。人們保存如此大量的數(shù)據(jù),一是因為計算機(jī)技術(shù)的發(fā)展使之變得方便可行。二是因為這些數(shù)據(jù)有巨大的潛在作用。由此而產(chǎn)生的數(shù)據(jù)挖掘概念引起了廣泛地重視,出現(xiàn)了許多與之相關(guān)的技術(shù)和產(chǎn)品。本文對數(shù)據(jù)挖掘的基本概念、基本方法和基本技術(shù)及應(yīng)用研究做了較系統(tǒng)的綜述性回顧。

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;應(yīng)用研究

中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)27-7598-02

隨著計算機(jī)技術(shù)的發(fā)展,各行各業(yè)都開始采用計算機(jī)及相應(yīng)的信息技術(shù)進(jìn)行管理和運(yùn)營,這使得企業(yè)生成、收集、存貯和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增。企業(yè)數(shù)據(jù)實際上是企業(yè)的經(jīng)驗積累,當(dāng)其積累到一定程度時,必然會反映出規(guī)律性的東西;所以對企業(yè)來說,這些堆積如山的數(shù)據(jù)無異于一個巨大的寶庫。除此之外,互聯(lián)網(wǎng)的發(fā)展更是為我們帶來了海量的數(shù)據(jù)和信息。在缺乏強(qiáng)有力的工具的情況下,這些海量的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)的超出了人的理解和概括的能力。在這樣的背景下,人們迫切需要新一代的計算技術(shù)和工具來開采數(shù)據(jù)庫中蘊(yùn)藏的寶藏,使其成為有用的知識。在市場需求和技術(shù)基礎(chǔ)這兩個因素都具備的環(huán)境下,數(shù)據(jù)挖掘(Data Mining)的概念與技術(shù)就應(yīng)運(yùn)而生了。

1 數(shù)據(jù)挖掘技術(shù)簡介

數(shù)據(jù)挖掘(Data Mining:DM)是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫、或其它信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。數(shù)據(jù)挖掘有時也稱作KDD(Knowledge Discovery in Databases:知識發(fā)現(xiàn)),即基于數(shù)據(jù)庫的知識發(fā)現(xiàn),指的是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在有用的、易被理解的信息。典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分:

1) 數(shù)據(jù)庫、數(shù)據(jù)倉庫:數(shù)據(jù)庫、數(shù)據(jù)倉庫或者是其他一些信息存儲媒介為數(shù)據(jù)挖掘的工作對象;

2) 數(shù)據(jù)庫、數(shù)據(jù)倉庫服務(wù)器:主要是響應(yīng)數(shù)據(jù)挖掘引擎的請求,提取相應(yīng)的數(shù)據(jù);

3) 領(lǐng)域知識庫:主要用來指導(dǎo)挖掘的過程,以及用來評價挖掘出來的候選模式;

4) 數(shù)據(jù)挖掘引擎:是整個系統(tǒng)的核心部分,可以由以下模塊組成:分類模塊、關(guān)聯(lián)規(guī)則模塊、聚類分析模塊、時序模塊和異常分析模塊等;

5) 模式評價模塊:主要是根據(jù)一定的度量標(biāo)準(zhǔn)來與數(shù)據(jù)挖掘模塊交互,以使得數(shù)據(jù)挖掘向著我們感興趣的方向進(jìn)行,往往越是高效的數(shù)據(jù)挖掘系統(tǒng)這種交互影響的程度越高;

6) 圖形用戶界面:主要是為方便用戶與數(shù)據(jù)挖掘系統(tǒng)的交互,由用戶提出挖掘任務(wù)、指定重要的挖掘參數(shù) 及由當(dāng)前返回的結(jié)果指導(dǎo)進(jìn)行更進(jìn)一步的挖掘工作。

2 數(shù)據(jù)挖掘技術(shù)的基本方法

作為一門交叉學(xué)科,數(shù)據(jù)挖掘融合了包括數(shù)據(jù)庫、人工智能、統(tǒng)計學(xué)等在內(nèi)的多個領(lǐng)域的理論和技術(shù)。 而數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計是數(shù)據(jù)挖掘技術(shù)的三根強(qiáng)大的技術(shù)支柱。數(shù)據(jù)挖掘的主要任務(wù)是借助關(guān)聯(lián)規(guī)則,決策樹、聚類和基于樣例的學(xué)習(xí)。貝葉斯學(xué)習(xí)、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法、統(tǒng)計分析等技術(shù).采用數(shù)據(jù)取樣(選取數(shù)據(jù)樣本)、 數(shù)據(jù)探索(可視化數(shù)據(jù)探索與聚類分析和因子分選、數(shù)據(jù)調(diào)整(數(shù)據(jù)重組細(xì)分與添加 和拆分記錄)、模式化(人工神經(jīng)網(wǎng)絡(luò)。決策樹模型,數(shù)理統(tǒng)計分析和時問序列分析)和評價(結(jié)論綜合和評價、是否修改數(shù)據(jù)、有新問題產(chǎn)生)等五個基本流程。這一過程可能要反復(fù)進(jìn)行,不斷地得到趨近事物的本質(zhì),不斷地優(yōu)化問題的解決方案,通過關(guān)聯(lián)分析、分類、聚類、預(yù)測和偏差檢測等發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系以及數(shù)據(jù)間的模式 。目前,最常見的數(shù)據(jù)挖掘技術(shù)有:模糊邏輯和粗糙集方法、遺傳算法、臨近搜索算法等。從功能上講說,可以將數(shù)據(jù)挖掘的分析方法劃分為四種:關(guān)聯(lián)分析、序列模式分析、分類分析和聚類分析。

3 數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用領(lǐng)域

3.1 電子商務(wù)中的web中的數(shù)據(jù)挖掘應(yīng)用

目前,通過Web進(jìn)行商務(wù)活動帶來的便利和它所產(chǎn)生的交易速度已成為電子商務(wù)迅猛發(fā)展的關(guān)鍵推動力。另一方面,涉及客戶端的電子商務(wù)活動也正在進(jìn)行著巨大的革新。如果能夠跟蹤客戶在Web上的瀏覽行為并進(jìn)行模式分析,這樣將會縮短銷售商與客戶之間的距離,讓銷售商更了解自己客戶的需求,有針對性的開展電子商務(wù)活動。在Internet上的客戶都意識到,只要他們連接到一個在線市場的服務(wù)器上,就已經(jīng)在這個服務(wù)器上留下了一個“腳印”,這就是服務(wù)器的日志文件。我們就可以對客戶訪問留下的這些日志文件進(jìn)行Web的數(shù)據(jù)挖掘,提取關(guān)于客戶的知識,對客戶的訪問行為、頻度、內(nèi)容等的分析,可以得到關(guān)于群體客戶行為和方式的普遍知識,用以改進(jìn)Web服務(wù)方的設(shè)計。通過Web數(shù)據(jù)挖掘,就可以根據(jù)客戶的訪問興趣、訪問頻度、訪問時間動態(tài)地調(diào)整頁面結(jié)構(gòu),改進(jìn)服務(wù),給客戶個性化的界面,開展有針對性的電子商務(wù)以更好的滿足訪問者的需求。

電子商務(wù)中進(jìn)行Web數(shù)據(jù)挖掘的數(shù)據(jù)源主要集中在服務(wù)器數(shù)據(jù)日志文件和查詢數(shù)據(jù)、客戶自主登記信息。主要采用的技術(shù)包括路徑分析(判定在一個Web站點中最頻繁訪問的路徑及還有一些其他的有關(guān)路徑的信息)、關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)(在電子商務(wù)中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)也就是要找到客戶對網(wǎng)站上各種文件之間訪問的相互聯(lián)系)、序列模式的發(fā)現(xiàn)(序列模式的發(fā)現(xiàn)就是在時間戳有序的事務(wù)集中,找到那些“一些項跟隨另一個項”的內(nèi)部事務(wù)模式)、分類規(guī)則的發(fā)現(xiàn)(分類發(fā)現(xiàn)就是給出識別一個特殊群體的公共屬性的描述,這個描述可以用來分類新的項)以及聚類分析(聚類分析可以從Web訪問信息數(shù)據(jù)中聚集出具有相似特性的那些客戶)。

3.2 數(shù)據(jù)挖掘在商業(yè)銀行中的應(yīng)用

隨著經(jīng)濟(jì)全球化步伐的加速和中國金融業(yè)面向外資銀行的開放.我國銀行業(yè)面臨著巨大的壓力和挑戰(zhàn)。在激烈的市場競爭中, 如何充分運(yùn)用商業(yè)銀行在發(fā)展過程中積累的大量的經(jīng)營數(shù)據(jù)和客戶數(shù)據(jù),發(fā)掘有價值的信息, 己成為當(dāng)今國內(nèi)銀行業(yè)普遍關(guān)心的問題:可以說,新一輪銀行的競爭將在客戶資源的基礎(chǔ)之上展開為了實現(xiàn)經(jīng)營理念從“ 贊金為中心”向“以服務(wù)為 ”轉(zhuǎn)變,商業(yè)銀行必須樹立客戶至上的思想,通過向每一位客戶“在正確的時間、正確的地點提供正確的服務(wù)”來贏得顧客的“心”。數(shù)據(jù)挖掘技術(shù)作為一門新興技術(shù),它的應(yīng)用,已成為商業(yè)銀行實現(xiàn)上述“正確”的關(guān)鍵。

利用分類法可以有效識別優(yōu)質(zhì)客戶。對于商業(yè)銀行來說,分類是最常見的操作。目前,商業(yè)銀行經(jīng)常試圖在眾多的客戶中識別出優(yōu)質(zhì)客戶.但卻一直無法確定優(yōu)質(zhì)客戶的標(biāo)準(zhǔn)、這里可首先假設(shè)類標(biāo)號屬性為“是否為優(yōu)質(zhì)客戶”,然后采用分類法,通過在一定的客戶群上進(jìn)行學(xué)習(xí),最后確定出優(yōu)質(zhì)客戶的評估準(zhǔn)則。利用分類法還有利于商業(yè)銀行培養(yǎng)和選擇忠誠客戶,使之與銀行保持長期關(guān)系。客戶忠誠是基于對銀行的信任度、往來頻率、服務(wù)效果、滿意程度以及繼續(xù)接受同一銀行服務(wù)的可能性的綜合評估值。商業(yè)銀行為了留住老顧客,防止客戶流失,就必須了解顧客的需求。首先設(shè)立類標(biāo)號屬性是“顧客是否流失”,再利用數(shù)據(jù)挖掘工具對大量的客戶資料進(jìn)行分析,建立數(shù)據(jù)模型,以確定客戶的購買習(xí)慣、購買數(shù)量和購買頻率,分析客戶對某個產(chǎn)品的忠誠程度、持久性等,以確定忠誠客戶,并為他們提供個性化定制服務(wù)。

在信用風(fēng)險管理中的應(yīng)用。信貸業(yè)務(wù)是商業(yè)銀行的核心業(yè)務(wù)之一,而這些業(yè)務(wù)所帶來的信用風(fēng)險及其控制一直是商業(yè)銀行最為關(guān)注和棘手的問題。為了保證最大的利潤和最小的風(fēng)險,既鼓勵和方便客戶貸款與透支,又避免壞賬的上升,商業(yè)銀行在放貸之前,應(yīng)根據(jù)客戶歷史信貸資料,分析客戶的信譽(yù)度和償還債務(wù)能力。長期以來,各商業(yè)銀行一直都在試圖尋找好的技術(shù)來代替?zhèn)鹘y(tǒng)的人工對客戶信譽(yù)度的估算但始終未果,數(shù)據(jù)挖掘技術(shù)的出現(xiàn),由于其可為銀行進(jìn)行個人信用風(fēng)險控制提供客觀、準(zhǔn)確的評估和控制機(jī)制,因此已成為各商業(yè)銀行風(fēng)險管理中的“寵兒”。利用數(shù)據(jù)挖掘技術(shù),各商業(yè)銀行的信譽(yù)管理模式由定性化逐步走向定量化, 通過科學(xué)地強(qiáng)化對信貸客戶的信用評估、風(fēng)險度測量、信貸風(fēng)險權(quán)重的管理,有效地防范和控制貸款風(fēng)險。

4 數(shù)據(jù)挖掘技術(shù)發(fā)展前景及預(yù)測

隨著數(shù)據(jù)庫技術(shù)的向前發(fā)展,數(shù)據(jù)庫系統(tǒng)中不斷引入新的數(shù)據(jù)模型,如擴(kuò)充關(guān)系模型、面向?qū)ο竽P?、對象關(guān)系模型和演繹模型;根據(jù)數(shù)據(jù)的特性又分為空間的、時間的、多媒體的、主動的和科學(xué)的數(shù)據(jù)庫。相應(yīng)的,這些對數(shù)據(jù)挖掘技術(shù)也提出了新的要求,給出了新的發(fā)展方向。

數(shù)據(jù)挖掘技術(shù)未來的發(fā)展方向和研究焦點是對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如對文本數(shù)據(jù)、空間數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)進(jìn)行挖掘,處理的數(shù)據(jù)會涉及到更多的數(shù)據(jù)類型,它們更復(fù)雜,結(jié)構(gòu)更獨(dú)特。

5 結(jié)束語

數(shù)據(jù)挖掘是個年輕而富有前景的研究領(lǐng)域,其應(yīng)用正日益擴(kuò)展,是一個極具吸引力和挑戰(zhàn)性的研究領(lǐng)域。隨著信息量的增加及軟硬件技術(shù)的發(fā)展,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)將有更廣泛的應(yīng)用前景,會使各種利用空間數(shù)據(jù)的系統(tǒng)具有強(qiáng)大的知識發(fā)現(xiàn)功能,更有效地發(fā)揮其已有或潛在的價值。

參考文獻(xiàn):

[1] Jiawei Han, Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2004.

[2] 張凱,曹加恒,舒風(fēng)笛,等.數(shù)據(jù)開采中基于用戶需求的關(guān)聯(lián)模型[J].武漢大學(xué)學(xué)報,2006(10).

[3] 何俊.數(shù)據(jù)挖掘及其在銀行業(yè)的應(yīng)用[J].華南金融電腦,2005(6).

主站蜘蛛池模板: 国产尤物在线播放| 欧美视频免费一区二区三区| 国产精品手机视频| 国产成人精品免费av| jizz国产视频| 玖玖免费视频在线观看| 69av在线| 久草网视频在线| 欧洲日本亚洲中文字幕| 国产SUV精品一区二区6| 大香伊人久久| 黄色片中文字幕| 青青国产成人免费精品视频| 亚洲国产日韩在线成人蜜芽| 欧美日本在线观看| 国产高清在线丝袜精品一区| 国产H片无码不卡在线视频| 欧美在线观看不卡| 激情午夜婷婷| 国产成人精品无码一区二| 一级毛片基地| 免费毛片a| 六月婷婷综合| 国产福利拍拍拍| 精品人妻AV区| 亚洲天堂日韩av电影| 欧美精品伊人久久| 国产一区在线观看无码| 国产成人免费手机在线观看视频| 亚洲综合在线最大成人| 国产91色| a级毛片免费在线观看| 国产二级毛片| 国产成人综合久久| 成人在线不卡视频| 国产成人亚洲综合a∨婷婷| 综合色在线| 国产内射一区亚洲| 毛片网站观看| 免费人成网站在线高清| 美女被操91视频| 99视频精品全国免费品| av无码久久精品| 亚洲另类国产欧美一区二区| swag国产精品| 亚洲日本在线免费观看| 白浆免费视频国产精品视频| 亚洲无码一区在线观看| 一级福利视频| 麻豆国产在线不卡一区二区| 91精品网站| 呦女亚洲一区精品| 亚洲欧美在线综合图区| 欧美精品色视频| 国产欧美精品专区一区二区| 亚洲动漫h| 国产极品美女在线观看| 白浆视频在线观看| 国产乱人乱偷精品视频a人人澡| 青青久在线视频免费观看| 国产免费自拍视频| a级高清毛片| 久久久精品无码一区二区三区| 综合久久五月天| 日韩在线播放中文字幕| 亚洲品质国产精品无码| 免费一级毛片在线播放傲雪网| 91在线激情在线观看| 久久久久人妻一区精品| 97在线免费| 久久久久亚洲精品无码网站| 成年人福利视频| 亚洲av无码成人专区| 欧洲成人在线观看| a级免费视频| 91蝌蚪视频在线观看| 日韩高清成人| 国产在线小视频| 日本午夜网站| 真人高潮娇喘嗯啊在线观看| 久久精品欧美一区二区| 青青草原国产免费av观看|