999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘技術(shù)使用淺析

2013-08-15 00:54:54李亞鵬
山東工業(yè)技術(shù) 2013年11期
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)分析

李亞鵬

(無(wú)錫商業(yè)職業(yè)技術(shù)學(xué)院,江蘇 無(wú)錫214153)

數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是計(jì)算機(jī)數(shù)據(jù)庫(kù)系統(tǒng)發(fā)展的新方向,近幾年來(lái)已經(jīng)在許多領(lǐng)域得到了應(yīng)用。以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的商業(yè)職能系統(tǒng)強(qiáng)大的功能在實(shí)際應(yīng)用中能帶來(lái)高利潤(rùn)的回報(bào),所以近年來(lái)數(shù)據(jù)倉(cāng)庫(kù)在眾多領(lǐng)域得到了越來(lái)越廣泛的應(yīng)用。對(duì)于大量存在于計(jì)算機(jī)信息系統(tǒng)中的數(shù)據(jù),通過(guò)數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)處理技術(shù)和數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)據(jù)進(jìn)行加工、分析、產(chǎn)生用于決策支持的信息,得以充分利用。

1 數(shù)據(jù)庫(kù)技術(shù)概念及特征

1.1 數(shù)據(jù)倉(cāng)庫(kù)概念

數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、不可更新的(穩(wěn)定的)、隨時(shí)間不斷變化的數(shù)據(jù)集合。與其他數(shù)據(jù)庫(kù)應(yīng)用不同的是,數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程,即對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程,而不是一種可以購(gòu)買(mǎi)的產(chǎn)品。

1.2 數(shù)據(jù)倉(cāng)庫(kù)的特征

①面向主題。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。

②集成的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上,經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。

③相對(duì)穩(wěn)定的。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢(xún),一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

④反映歷史變化。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)到目前各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。

2 數(shù)據(jù)倉(cāng)庫(kù)的分析技術(shù)

OLAP 是數(shù)據(jù)處理的一種技術(shù)概念。OLAP 的基本目的是使企業(yè)的決策者能靈活地操縱企業(yè)的數(shù)據(jù),以多維的形式從多面角度來(lái)觀察企業(yè)的狀態(tài)、了解企業(yè)的變化,通過(guò)快速、一致、交互地訪問(wèn)各種可能的信息視圖,幫助管理人員掌握數(shù)據(jù)中存在的規(guī)律,實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納、分析和處理,幫助組織完成相關(guān)的決策。

根據(jù)OLAP 產(chǎn)品的實(shí)際應(yīng)用情況和用戶(hù)對(duì)OLAP 產(chǎn)品的需求,人們提出了一種對(duì)OLAP 更簡(jiǎn)單明確的定義,即共享多維信息的快速分析。OLAP 通過(guò)對(duì)多維信息以很多種可能的觀察方式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入的觀察。基于操作型數(shù)據(jù)環(huán)境的OLTP(聯(lián)機(jī)事務(wù)處理),其基本操作是通過(guò)經(jīng)典的SQL 語(yǔ)句實(shí)現(xiàn)的。而OLAP 多維數(shù)據(jù)分析是指對(duì)多維數(shù)據(jù)采取切片、切塊、鉆取、旋轉(zhuǎn)等各種分析操作,以求剖析數(shù)據(jù),使最終用戶(hù)能從多角度、多側(cè)面地觀察數(shù)據(jù)庫(kù)中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)一般都支持OLAP 的這些基本操作,也可以認(rèn)為是一種擴(kuò)展了的SQL 操作。

2.1 聯(lián)機(jī)分析處理的主要特點(diǎn)

OLAP 是直接仿照用戶(hù)的多角度思考模式,預(yù)先為用戶(hù)組建多維的數(shù)據(jù)模型,在這里,維指的是用戶(hù)的分析角度。例如對(duì)銷(xiāo)售數(shù)據(jù)的分析,時(shí)間周期是一個(gè)維度,產(chǎn)品類(lèi)別、分銷(xiāo)渠道、地理分布、客戶(hù)群類(lèi)也分別是一個(gè)維度。一旦多維數(shù)據(jù)模型建立完成,用戶(hù)可以快速地從各個(gè)分析角度獲取數(shù)據(jù),也能動(dòng)態(tài)的在各個(gè)角度之間切換或者進(jìn)行多角度綜合分析,具有極大的分析靈活性。這也是聯(lián)機(jī)分析處理在近年來(lái)被廣泛關(guān)注的根本原因,它從設(shè)計(jì)理念和真正實(shí)現(xiàn)上都與舊有的管理信息系統(tǒng)有著本質(zhì)的區(qū)別。

2.2 聯(lián)機(jī)分析處理與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系

事實(shí)上,隨著數(shù)據(jù)倉(cāng)庫(kù)理論的發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)已逐步成為新型的決策管理信息系統(tǒng)的解決方案。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心是聯(lián)機(jī)分析處理,但數(shù)據(jù)倉(cāng)庫(kù)包括更為廣泛的內(nèi)容。

概括來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是指具有綜合企業(yè)數(shù)據(jù)的能力,能夠?qū)Υ罅科髽I(yè)數(shù)據(jù)進(jìn)行快速和準(zhǔn)確分析,輔助做出更好的商業(yè)決策的系統(tǒng)。

從應(yīng)用角度來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)除了聯(lián)機(jī)分析處理外,還可以采用傳統(tǒng)的報(bào)表,或者采用數(shù)理統(tǒng)計(jì)和人工智能等數(shù)據(jù)挖掘手段,涵蓋的范圍更廣;就應(yīng)用范圍而言,聯(lián)機(jī)分析處理往往根據(jù)用戶(hù)分析的主題進(jìn)行應(yīng)用分割,例如:銷(xiāo)售分析、市場(chǎng)推廣分析、客戶(hù)利潤(rùn)率分析等等,每一個(gè)分析的主題形成一個(gè)OLAP 應(yīng)用,而所有的OLAP 應(yīng)用實(shí)際上只是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的一部分。

聯(lián)機(jī)分析處理的用戶(hù)是企業(yè)中的專(zhuān)業(yè)分析人員及管理決策人員,他們?cè)诜治鰳I(yè)務(wù)經(jīng)營(yíng)的數(shù)據(jù)時(shí),從不同的角度來(lái)審視業(yè)務(wù)的衡量指標(biāo)是一種很自然的思考模式。例如分析銷(xiāo)售數(shù)據(jù),可能會(huì)綜合時(shí)間周期、產(chǎn)品類(lèi)別、分銷(xiāo)渠道、地理分布、客戶(hù)群類(lèi)等多種因素來(lái)考慮。這些分析角度雖然可以通過(guò)報(bào)表來(lái)反映,但每一個(gè)分析的角度可以生成一張報(bào)表,各個(gè)分析角度的不同組合又可以生成不同的報(bào)表,使得IT 人員的工作量相當(dāng)大,而且往往難以跟上管理決策人員思考的步伐。

3 數(shù)據(jù)挖掘技術(shù)

3.1 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘,又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域,融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。隨著人工智能技術(shù)在專(zhuān)家咨詢(xún)、語(yǔ)言處理、娛樂(lè)游戲等模式識(shí)別領(lǐng)域的應(yīng)用日益廣泛。從選取專(zhuān)業(yè)學(xué)習(xí)、研究方向的實(shí)際出發(fā),提出了將數(shù)據(jù)挖掘應(yīng)用于輔助選取專(zhuān)業(yè)學(xué)習(xí)、研究方向的數(shù)據(jù)挖掘技術(shù)流程模型。

3.2 數(shù)據(jù)挖掘技術(shù)的過(guò)程

數(shù)據(jù)挖掘技術(shù)是一個(gè)多步驟、可能需多次反復(fù)的處理過(guò)程。主要包括以下幾步:準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減、確定數(shù)據(jù)挖掘的目標(biāo)、確定知識(shí)發(fā)現(xiàn)算法、數(shù)據(jù)挖掘(Data Mining)、模式解釋、知識(shí)評(píng)價(jià)。其中最重要的一個(gè)步驟是數(shù)據(jù)挖掘,它是利用某些特定的知識(shí)發(fā)現(xiàn)算法,在可接受的運(yùn)算效率的限制下,從有效數(shù)據(jù)中發(fā)現(xiàn)有關(guān)的知識(shí)。

數(shù)據(jù)挖掘技術(shù)主要有四種開(kāi)采任務(wù):

(1)數(shù)據(jù)總結(jié)是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘是從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。

(2)分類(lèi)發(fā)現(xiàn)這是一項(xiàng)非常重要的任務(wù),分類(lèi)是運(yùn)用分類(lèi)器把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè),用于對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。

(3)聚類(lèi)是把一組個(gè)體按照相似性歸成若干類(lèi)別,它的目的是使得屬于同一類(lèi)別的個(gè)體之間的距離盡可能的小,而不同類(lèi)別的個(gè)體間的距離盡可能的大。

(4)關(guān)聯(lián)規(guī)則是指事物之間的聯(lián)系具有多大的支持度和可信度。有意義的關(guān)聯(lián)規(guī)則必須給定兩個(gè)閾值:最小支持度和最小可度。3.3 數(shù)據(jù)挖掘在實(shí)際生活中的應(yīng)用數(shù)據(jù)挖據(jù)的結(jié)果經(jīng)過(guò)業(yè)務(wù)決策人員的認(rèn)可,才能實(shí)際利用。要將通過(guò)數(shù)據(jù)挖掘得出的預(yù)測(cè)模式和各個(gè)領(lǐng)域的專(zhuān)家認(rèn)識(shí)結(jié)合在一起,構(gòu)成一個(gè)可供不同類(lèi)型的人使用的應(yīng)用程序。也只有通過(guò)對(duì)挖掘知識(shí)的應(yīng)用,才能對(duì)數(shù)據(jù)挖掘的成果做出正確的評(píng)價(jià)。但是在應(yīng)用數(shù)據(jù)挖掘成果時(shí),決策人員所關(guān)心的是數(shù)據(jù)挖掘最終結(jié)果與用其他候選結(jié)果在實(shí)際應(yīng)用中的差距。為將數(shù)據(jù)挖掘結(jié)果能在實(shí)際中得到應(yīng)用,需要將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織機(jī)構(gòu)中去,使這些知識(shí)在實(shí)際的管理決策分析中得到應(yīng)用。

數(shù)據(jù)挖掘不一定需要建立在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上,但以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)源數(shù)據(jù)的預(yù)處理將簡(jiǎn)化許多。另外為了保證結(jié)果的正確性,數(shù)據(jù)挖掘?qū)A(chǔ)數(shù)據(jù)量的需求是巨大的,數(shù)據(jù)倉(cāng)庫(kù)可以很好地滿(mǎn)足這個(gè)要求。

[1]謝邦昌.數(shù)據(jù)挖掘基礎(chǔ)與應(yīng)用[M].機(jī)械工業(yè)出版社,2012-01.

[2]楊杰.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].上海交通大學(xué)出版社,2011-01.

[3]張?jiān)茲?數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004-04.

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫(kù)
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 亚洲天堂网视频| 亚洲VA中文字幕| 自拍偷拍一区| 精品久久国产综合精麻豆 | 亚洲成年网站在线观看| 欧美色视频在线| 成人午夜久久| 国产美女一级毛片| 成人福利在线视频| 日韩免费成人| 91破解版在线亚洲| 免费看av在线网站网址| 综合五月天网| 女人18毛片一级毛片在线| 免费看美女自慰的网站| 国产黄在线免费观看| 午夜福利网址| 素人激情视频福利| 久久这里只有精品66| 国产男人天堂| 少妇精品久久久一区二区三区| aⅴ免费在线观看| 成年人国产网站| 一级成人a做片免费| 久久亚洲国产最新网站| 久久美女精品国产精品亚洲| 国产精品性| 久久夜色撩人精品国产| 欧美国产三级| 伊人久久精品无码麻豆精品| 亚洲视频影院| 精品综合久久久久久97超人| 亚洲日韩精品无码专区97| 99在线观看视频免费| 日韩一区二区在线电影| 91精品国产一区自在线拍| 在线观看网站国产| 婷婷丁香色| 亚洲欧美不卡中文字幕| 亚洲人成人无码www| 国产精品成人啪精品视频| 免费观看成人久久网免费观看| 国产尤物在线播放| 中文字幕1区2区| 欧美特黄一级大黄录像| 91国内在线视频| 亚洲一区二区日韩欧美gif| 国产成人综合亚洲网址| 91福利在线看| 天天色天天操综合网| 91麻豆国产精品91久久久| 日本一本在线视频| 国内嫩模私拍精品视频| 五月天福利视频| 国产精品亚洲αv天堂无码| 亚洲伊人天堂| 欧美伦理一区| 精品无码日韩国产不卡av | 成人无码一区二区三区视频在线观看| 91色综合综合热五月激情| 日本不卡在线| www.99在线观看| 综合亚洲色图| 久久成人国产精品免费软件| 91成人免费观看| 国产真实自在自线免费精品| 午夜视频免费试看| 国产丝袜第一页| 国产微拍精品| 国产人成在线观看| 精品免费在线视频| 国产黄在线观看| 色综合热无码热国产| 91香蕉国产亚洲一二三区 | 久久久四虎成人永久免费网站| 日韩久草视频| 免费人成网站在线观看欧美| 国内精品视频区在线2021| 国产无码性爱一区二区三区| 114级毛片免费观看| 尤物在线观看乱码| 99在线国产|