999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

使用貝葉斯方法的數據挖掘及應用研究

2018-04-02 12:35:28
福建質量管理 2018年16期
關鍵詞:數據挖掘規則方法

(河北經貿大學 河北 石家莊 050000)

本文主要是對數據挖掘以及對使用貝葉斯方法進行數據挖掘的研究。

一、數據挖掘

數據挖掘是一門交叉學科,它涉及到統計學、數據庫技術、模式識別和機器學習,它主要對大型數據庫進行相關分析,以發現先前未知的、用戶感興趣的有用知識。數據挖掘的目標是從數據集中發現隱含的、有意義的知識,它所處理的數據可以是結構化的,如關系數據庫中的數據,也可以是非結構化的,如文本、圖形、圖像數據,甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。數據挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。這里所說的數據挖掘,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發現結果。

數據挖掘技術的一個重要應用就是挖掘先前未知的知識,數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別之一是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的知識應具有先前未知,有效和實用三個特征。

數據挖掘一般分五個步驟,各個步驟解釋如下:

1.問題定義:了解相關領域的有關情況,熟悉背景知識,弄清用戶要求。定義要挖掘的目標。

2.數據提取:根據要求從數據庫中提取相關的數據。

3.數據預處理:主要對前一階段產生的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對丟失的數據進行填補。

4.知識獲取:運用選定的數據挖掘算法,從數據中提取用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。

5.評估:將發現的知識以用戶能理解的方式呈現,例如某種規則,再根據實際執行情況對知識發現過程中的具體處理階段進行優化,直到滿足用戶要求。

二、貝葉斯方法

貝葉斯方法就是可以通過看結果來了解假設的一種方法,也就是說,在對一些必要信息之甚少,或者毫不知情的情況下,貝葉斯方法可以通過先驗信息來推得后驗結果。貝葉斯方法的一個特點是使用概率去表示所有形式的不確定性,學習或其他形式的推理都用概率規則來實現。貝葉斯理論在數據挖掘中的應用主要包括貝葉斯方法用于分類及回歸分析、因果推理和不確定知識表達以及聚類模式發現等。貝葉斯統計是貝葉斯理論和方法的應用之一,其基本思想是:假定對所研究的對象在抽樣前己有一定的認識,常用先驗分布來描述這種認識,然后基于抽取的樣本再對先驗認識作修正,得到后驗分布,而各種統計推斷均是基于后驗分布進行。經典統計學的出發點是根據樣本,在一定的統計模型下做出統計推斷。而貝葉斯方法是在取得樣本觀測值X之前,往往對參數統計模型中的參數夕有某些先驗知識,關于夕的先驗知識的數學描述就是先驗分布。貝葉斯方法的主要特點是使用先驗分布,而在得到樣本觀測值X二x(xZ,…,x)r后,由X與先驗分布提供的信息,經過計算和處理,形成較完整的后驗信息。這一后驗分布是貝葉斯推斷的基礎。

三、使用貝葉斯方法的數據挖掘算法設計及實現

1.貝葉斯方法用于聚類。首先根據先驗信息假定數據集中可能要聚為一類的數據服從某種分布,再用某種距離測度檢驗先驗信息給出的這種分布是否符合聚為一類的要求。如果達不到聚類的要求,則根據計算概率找出不符合要求的原因,重新確定其分布,或修正此分布的參數,以獲得更準確的分布。分類規則是根據數據集的樣本數據及其它約束條件將其分到某個類別中,在數據挖掘中,主要研究如何從數據或經驗中學習這些分類規則。對于分類問題,有些情況下,輸入的某些樣本唯一的對應著一個類別,在這種情況下,可以直接對數據對象分而治之,無需用貝葉斯方法或者其它方法進行復雜的處理;而在有些情況下,則會出現樣本重疊的現象,也就是說,來自于不同類別的樣本數據從外觀特征上具有極大的相似性,由于必須為一個樣本選擇一個類別,因此可以從某一樣本屬于某一類別的概率大小來判斷。貝葉斯方法就是這樣一種處理方法處理此種情況,即選擇后驗概率最大的類別。

2.貝葉斯方法用于發現關聯規則。挖掘關聯規則的目的就是找出所有這樣的規則,它們的支持度和可信度大于用戶指定的最小支持度和可信度。

3.貝葉斯方法用于偏差分析。偏差分析探測數據現狀和歷史記錄或標準之間的差別,例如結果與期望的偏離,異常實例等。用于偏差檢測的方法很多,其中數據挖掘本身的其它方法也可用于偏差分析,如前所述的關聯規則挖掘方法、聚類方法等。偏差分析的目的之一就是去除異常點,從而不能使這些異常點干擾挖掘過程。

四、貝葉斯方法與其他方法的比較

在運用貝葉斯方法時,由于要對先驗概率進行計算而得出后驗概率,不可避免的多花費時間開銷,特別是對數據量不大的數據集進行分析時,這種差距比較明顯。即使這樣,其準確率卻是顯而易見的。使用貝葉斯方法后,準確率增加是山于貝葉斯方法是一個修正的過程,通過后驗結果來修正前面所得的結果,當然這有一個前提,就是先驗信自、的正確性。如果先驗信息不充分或者不正確,那所得的結果會與實際結果大相徑庭。

總結:本項研究中,仍存在的一些問題,有待今后進一步探討和解決,并闡明了數據挖掘的研究方向和應用前景。

猜你喜歡
數據挖掘規則方法
撐竿跳規則的制定
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規則對我國的啟示
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲人成网站观看在线观看| 日韩精品免费在线视频| 99在线视频网站| 成人福利在线视频免费观看| 日韩久草视频| 99久久精品国产精品亚洲 | 日本人妻一区二区三区不卡影院| 亚洲天堂视频网站| 国产一级特黄aa级特黄裸毛片| 国国产a国产片免费麻豆| 黄色网站在线观看无码| 91视频青青草| 超碰91免费人妻| 亚洲专区一区二区在线观看| 婷婷色在线视频| 日韩一级二级三级| 欧美色视频日本| 国产99视频在线| 国产第一页屁屁影院| 99国产在线视频| 亚洲欧美在线综合图区| 精品剧情v国产在线观看| 国产欧美日韩另类| 国产福利免费视频| 亚洲日韩精品伊甸| 98超碰在线观看| 亚洲美女一区| 国产资源免费观看| 亚洲综合精品香蕉久久网| 啪啪啪亚洲无码| 天天做天天爱天天爽综合区| 亚洲成人精品久久| 亚洲精品动漫| 又粗又大又爽又紧免费视频| 亚洲综合久久成人AV| 精品国产91爱| 日韩高清一区 | 久久久黄色片| 亚洲青涩在线| 久久综合伊人 六十路| 亚洲成肉网| 国产天天色| A级全黄试看30分钟小视频| 伊人久久久久久久久久| 潮喷在线无码白浆| 野花国产精品入口| 精品视频一区二区三区在线播 | 99免费在线观看视频| 亚洲第一极品精品无码| 最新加勒比隔壁人妻| 亚洲资源站av无码网址| 国产香蕉在线| 日韩精品毛片| 亚洲精品桃花岛av在线| 韩日无码在线不卡| 日韩第一页在线| 国产精品漂亮美女在线观看| 国产成人精品亚洲77美色| 三级毛片在线播放| 欧美一级大片在线观看| 中国特黄美女一级视频| 亚洲中文字幕在线观看| 亚洲国产日韩欧美在线| 日本午夜影院| 久青草免费在线视频| 成人免费午夜视频| 国产精品女同一区三区五区| 国产另类视频| 97无码免费人妻超级碰碰碰| 久996视频精品免费观看| 亚洲国产无码有码| 国产高清无码第一十页在线观看| 精品国产免费第一区二区三区日韩| 国产精品丝袜视频| 无码网站免费观看| 日本少妇又色又爽又高潮| 亚洲国产高清精品线久久| 99热精品久久| 色天天综合| 999精品视频在线| 久久福利网| 精品无码国产一区二区三区AV|