999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習在數據挖掘中的作用

2010-01-01 00:00:00王小玉
智能計算機與應用 2010年3期

摘要:本文介紹了機器學習與數據挖掘方法的基本特點,包括概念、發展、應用和分類概況,提供了一個了解機器學習與數據挖掘的應用視角。

關鍵詞:機器學習

數據挖掘

人工智能

中圖分類號:TP181

文獻標識碼:A

文章編號:1002-2422(2010)03-0093-02

1機器學習概述及方法分類

1,1機器學習的概念、應用及發展概況

機器學習是一種使獲取知識自動化的計算方法的學習。機器學習在人工智能的研究中具有十分重要的地位。其應用已遍及人工智能的各個分支,如專家系統、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領域。

對機器學習的研究大致經過以下四個階段:

(1)20世紀50年代的神經模擬和決策理論技術,學習系統在運行時還很少具有結構或知識。主要方法是建造神經網絡和自組織學習系統,學習表現為閾值邏輯單元傳送信號的反饋調整。

(2)20世紀60年代早期開始研究面向概念的學習,即符號學習。使用的工具是語義網絡或謂詞邏輯,不再是數值或者統計方法。在概念獲取中,學習系統通過分析相關概念的大量正例和反例來構造概念的符號表示。

(3)20世紀70年代中期,研究活動日趨興旺。1980年在卡內基·梅隆大學召開的第一屆機器學習專題研討會,標志著機器學習正式成為人工智能的一個獨立研究領域。

(4)20世紀80年代中后期至今,機器學習研究進入一個新階段,已趨向成熟。神經網絡的復蘇,帶動著各種非符號學習方法與符號學習并駕齊驅,并且已超越人工智能研究范圍,進入到自動化及模式識別等領域,各種學習方法開始繼承,多策略學習已經使學習系統愈具應用價值,而運用機器學習的數據挖掘在商業領域中的應用則是最好的例子。

1,2機器學習方法的分類

Bose和Mahapatra歸納了數據挖掘中使用的機器學習技術主要有以下五種:

(1)規則歸納:規則歸納從訓練集中產生一棵決策樹或一組決策規則來進行分類。決策樹可以轉化成一組規則,分類規則通常用析取范式表示。規則歸納主要優點是處理大數據集的能力強,適合分類和預測型的任務,結果易于解釋,技術上易于實施。

(2)神經網絡:由類似人腦神經元的處理單元組成,輸入節點通過隱藏節點與輸出節點相連接從而組成一個多層網絡結構。節點的輸入信號等于所有通過其輸入鏈接到達此節點的信號的加權和。神經網絡由相互連接的輸入層、中間層、輸出層組成。中間層由多個節點組成,完成大部分網絡工作。輸出層輸出數據分析的執行結果。

神經網絡的最大優點是能精確地對復雜問題進行預測。其缺點是處理大數據集時效率較低,用戶在使用這種方法的時候需要具備相當的建立和運行該系統的工具知識。

(3)事例推理:每個事例都由問題描述和問題的解決方法兩部分構成。提出問題后,系統會尋找匹配事例和解決方法。其優點是能夠較好地處理污染數據和缺失數據,非常適用于有大量事例的領域。

(4)遺傳算法:是一種基于生物進化過程的組合優化方法。其基本思想是適者生存,基本操作包括繁殖、雜交和變異三個過程。繁殖過程是從一個整體中選擇基于某種特定標準的信息并對要求解的問題編碼,產生初始群體,計算個體的適應度。雜交過程是把一個信息的某一部分與另一個信息的相關的部分進行交換。變異過程隨機改變信息的某一部分以得到一個新的個體。重復這個操作,直到求得最佳或較佳的個體。遺傳算法的優點是能夠較好地處理污染數據和缺失數據,易于和其它系統集成。

(5)歸納性邏輯程序:用一級屬性邏輯來定義、描述概念。首先定義正面和負面的例子,然后對新例子進行等級劃分。這一方法具有較強的概念描述機制,能較好地表達復雜關系,體現專業領域知識,因而用該方法得出的模型易于理解。

2數據挖掘中機器學習技術的特性

商業數據庫往往含有噪音,體現在存在錯誤和不一致性。如果數據驗證過程不夠充分,則可能允許用戶輸入不正確的數據,而數據遷移也可能產生破壞。

商業數據庫的另一個常見問題是數據的缺失,尤其是當數據來自于不同的數據源時。由于數據編碼標準和聚集策略的不同,有可能將導致無法對所有的屬性進行分析。

另外,在商業數據挖掘中,數據集的大小從幾吉到幾兆不等,并往往還有大量的屬性,所以可測量性是數據挖掘技術的一個重要方面。商業數據庫含有多種屬性類型,如果機器學習技術能夠處理不同的數據類型,則將對數據挖掘產生更大的作用。

數據挖掘技術的預測精度是評價挖掘效果的一個非常重要的因素。遵循監督學習過程的機器學習系統首先被訓練,但是系統對真實數據的預測精度往往低于對訓練數據的預測精度。所以,能對真實數據得到較高的預測精度顯然是一個所需的特性。

結果的可解釋性是另一個重要的所需特性。在商業數據挖掘應用中往往需要使用不同的DSS或DBMS,所以與其他信息系統的易整合性也是一個需要的特性。不同的機器學習技術需要終端用戶具有一定程度的工具知識和領域知識,一些技術還需要對數據進行大量的預處理工作,因此對于終端用戶來說,易于理解和需要較少預處理工作的機器學習技術是比較好的。

3機器學習方法與數據挖掘任務類型

Bose和Mahapatra把運用于數據挖掘的機器學習方法在商業應用時的任務類型可以歸結為如下;

(1)分類:利用一個訓練集來確定最大可區分屬性,當分類確定好之后,新的實例可以通過分析進行合適的分類。

(2)預測:根據已觀測到的數據來找出可能的將來值和/或屬性的分布。主要的任務之一是確定對要預測的屬性影響最大的屬性。

(3)關聯:在尋找實體之間或者實體屬性之間的潛在聯系規律的關聯分析當中,最常見的就是市場菜籃子分析。

(4)偵察:偵察的目的在于尋找異常的現象、離群數據、異常模式等等,并且給出支持決策的解釋。

機器學習方法及其所對應解決的數據挖掘中的任務類型總結如表1所示。

4結束語

目前機器學習技術的應用較多是金融、市場營銷、電信領域和網絡分析。在金融領域。機器學習技術較廣泛地應用于預測型任務;在市場營銷領域,機器學習技術較廣泛地應用于關聯型任務;在電信領域,機器學習技術在分類型、預測型和偵查型任務方面均有較多應用;在網絡分析領域,機器學習技術應用較為廣泛的是關聯型任務。

主站蜘蛛池模板: 亚洲精品第五页| 高潮毛片免费观看| 日本精品αv中文字幕| 国产精品va免费视频| 九九精品在线观看| 日本免费福利视频| 国产成人一区| 日韩欧美网址| 蝌蚪国产精品视频第一页| 中国国产高清免费AV片| 超碰aⅴ人人做人人爽欧美| 色婷婷亚洲十月十月色天| 欧美精品啪啪| 啊嗯不日本网站| 国产成人91精品| 国产成人你懂的在线观看| 无码精油按摩潮喷在线播放 | 日韩无码视频播放| 中文字幕在线视频免费| 日本欧美视频在线观看| 国产后式a一视频| 福利在线不卡一区| 就去吻亚洲精品国产欧美| 尤物视频一区| a级毛片在线免费| 国产成人精品在线| 日韩免费毛片| 亚洲免费人成影院| 成人免费视频一区二区三区| 日韩成人免费网站| 久久五月视频| 999国产精品永久免费视频精品久久| 免费视频在线2021入口| 国产大片喷水在线在线视频| 91无码人妻精品一区二区蜜桃| 国产精品极品美女自在线网站| 网友自拍视频精品区| 国产精品吹潮在线观看中文| 国产精品香蕉在线| 真人免费一级毛片一区二区| 久久永久精品免费视频| 免费看的一级毛片| 国产H片无码不卡在线视频| 日本午夜在线视频| 色偷偷av男人的天堂不卡| 成人在线观看一区| 91小视频在线| 亚洲永久色| 热这里只有精品国产热门精品| 91色老久久精品偷偷蜜臀| 国产乱子伦手机在线| 免费一级毛片在线播放傲雪网| 亚洲欧美日韩中文字幕在线| 精品一区二区三区水蜜桃| 无码中文AⅤ在线观看| 欧美区日韩区| 东京热一区二区三区无码视频| 日韩毛片免费视频| 伊人久久大线影院首页| 怡春院欧美一区二区三区免费| 久久久久久高潮白浆| 精品人妻一区二区三区蜜桃AⅤ| 午夜毛片免费观看视频 | 永久在线播放| 爽爽影院十八禁在线观看| 手机在线看片不卡中文字幕| 亚洲黄色成人| 亚亚洲乱码一二三四区| 亚洲精品无码日韩国产不卡| 国产情侣一区二区三区| 97视频在线精品国自产拍| 91网站国产| 丝袜美女被出水视频一区| 国产精品爽爽va在线无码观看 | 精品少妇人妻一区二区| 国产成人免费视频精品一区二区| 伦精品一区二区三区视频| 国产女人在线视频| 国产美女久久久久不卡| 日本高清有码人妻| 日韩国产亚洲一区二区在线观看| 欧美、日韩、国产综合一区|