機器學習在數據挖掘中的作用

2010-01-01 00:00:00周昕王小玉

智能計算機與應用 2010年3期

摘要：本文介紹了機器學習與數據挖掘方法的基本特點，包括概念、發展、應用和分類概況，提供了一個了解機器學習與數據挖掘的應用視角。

關鍵詞：機器學習

數據挖掘

人工智能

中圖分類號：TP181

文獻標識碼：A

文章編號：1002-2422(2010)03-0093-02

1機器學習概述及方法分類

1，1機器學習的概念、應用及發展概況

機器學習是一種使獲取知識自動化的計算方法的學習。機器學習在人工智能的研究中具有十分重要的地位。其應用已遍及人工智能的各個分支，如專家系統、自動推理、自然語言理解、模式識別、計算機視覺、智能機器人等領域。

對機器學習的研究大致經過以下四個階段：

(1)20世紀50年代的神經模擬和決策理論技術，學習系統在運行時還很少具有結構或知識。主要方法是建造神經網絡和自組織學習系統，學習表現為閾值邏輯單元傳送信號的反饋調整。

(2)20世紀60年代早期開始研究面向概念的學習，即符號學習。使用的工具是語義網絡或謂詞邏輯，不再是數值或者統計方法。在概念獲取中，學習系統通過分析相關概念的大量正例和反例來構造概念的符號表示。

(3)20世紀70年代中期，研究活動日趨興旺。1980年在卡內基·梅隆大學召開的第一屆機器學習專題研討會，標志著機器學習正式成為人工智能的一個獨立研究領域。

(4)20世紀80年代中后期至今，機器學習研究進入一個新階段，已趨向成熟。神經網絡的復蘇，帶動著各種非符號學習方法與符號學習并駕齊驅，并且已超越人工智能研究范圍，進入到自動化及模式識別等領域，各種學習方法開始繼承，多策略學習已經使學習系統愈具應用價值，而運用機器學習的數據挖掘在商業領域中的應用則是最好的例子。

1，2機器學習方法的分類

Bose和Mahapatra歸納了數據挖掘中使用的機器學習技術主要有以下五種：

(1)規則歸納：規則歸納從訓練集中產生一棵決策樹或一組決策規則來進行分類。決策樹可以轉化成一組規則，分類規則通常用析取范式表示。規則歸納主要優點是處理大數據集的能力強，適合分類和預測型的任務，結果易于解釋，技術上易于實施。

(2)神經網絡：由類似人腦神經元的處理單元組成，輸入節點通過隱藏節點與輸出節點相連接從而組成一個多層網絡結構。節點的輸入信號等于所有通過其輸入鏈接到達此節點的信號的加權和。神經網絡由相互連接的輸入層、中間層、輸出層組成。中間層由多個節點組成，完成大部分網絡工作。輸出層輸出數據分析的執行結果。

神經網絡的最大優點是能精確地對復雜問題進行預測。其缺點是處理大數據集時效率較低，用戶在使用這種方法的時候需要具備相當的建立和運行該系統的工具知識。

(3)事例推理：每個事例都由問題描述和問題的解決方法兩部分構成。提出問題后，系統會尋找匹配事例和解決方法。其優點是能夠較好地處理污染數據和缺失數據，非常適用于有大量事例的領域。

(4)遺傳算法：是一種基于生物進化過程的組合優化方法。其基本思想是適者生存，基本操作包括繁殖、雜交和變異三個過程。繁殖過程是從一個整體中選擇基于某種特定標準的信息并對要求解的問題編碼，產生初始群體，計算個體的適應度。雜交過程是把一個信息的某一部分與另一個信息的相關的部分進行交換。變異過程隨機改變信息的某一部分以得到一個新的個體。重復這個操作，直到求得最佳或較佳的個體。遺傳算法的優點是能夠較好地處理污染數據和缺失數據，易于和其它系統集成。

(5)歸納性邏輯程序：用一級屬性邏輯來定義、描述概念。首先定義正面和負面的例子，然后對新例子進行等級劃分。這一方法具有較強的概念描述機制，能較好地表達復雜關系，體現專業領域知識，因而用該方法得出的模型易于理解。

2數據挖掘中機器學習技術的特性

商業數據庫往往含有噪音，體現在存在錯誤和不一致性。如果數據驗證過程不夠充分，則可能允許用戶輸入不正確的數據，而數據遷移也可能產生破壞。

商業數據庫的另一個常見問題是數據的缺失，尤其是當數據來自于不同的數據源時。由于數據編碼標準和聚集策略的不同，有可能將導致無法對所有的屬性進行分析。

另外，在商業數據挖掘中，數據集的大小從幾吉到幾兆不等，并往往還有大量的屬性，所以可測量性是數據挖掘技術的一個重要方面。商業數據庫含有多種屬性類型，如果機器學習技術能夠處理不同的數據類型，則將對數據挖掘產生更大的作用。

數據挖掘技術的預測精度是評價挖掘效果的一個非常重要的因素。遵循監督學習過程的機器學習系統首先被訓練，但是系統對真實數據的預測精度往往低于對訓練數據的預測精度。所以，能對真實數據得到較高的預測精度顯然是一個所需的特性。

結果的可解釋性是另一個重要的所需特性。在商業數據挖掘應用中往往需要使用不同的DSS或DBMS，所以與其他信息系統的易整合性也是一個需要的特性。不同的機器學習技術需要終端用戶具有一定程度的工具知識和領域知識，一些技術還需要對數據進行大量的預處理工作，因此對于終端用戶來說，易于理解和需要較少預處理工作的機器學習技術是比較好的。

3機器學習方法與數據挖掘任務類型

Bose和Mahapatra把運用于數據挖掘的機器學習方法在商業應用時的任務類型可以歸結為如下；

(1)分類：利用一個訓練集來確定最大可區分屬性，當分類確定好之后，新的實例可以通過分析進行合適的分類。

(2)預測：根據已觀測到的數據來找出可能的將來值和／或屬性的分布。主要的任務之一是確定對要預測的屬性影響最大的屬性。

(3)關聯：在尋找實體之間或者實體屬性之間的潛在聯系規律的關聯分析當中，最常見的就是市場菜籃子分析。

(4)偵察：偵察的目的在于尋找異常的現象、離群數據、異常模式等等，并且給出支持決策的解釋。

機器學習方法及其所對應解決的數據挖掘中的任務類型總結如表1所示。

4結束語

目前機器學習技術的應用較多是金融、市場營銷、電信領域和網絡分析。在金融領域。機器學習技術較廣泛地應用于預測型任務；在市場營銷領域，機器學習技術較廣泛地應用于關聯型任務；在電信領域，機器學習技術在分類型、預測型和偵查型任務方面均有較多應用；在網絡分析領域，機器學習技術應用較為廣泛的是關聯型任務。

智能計算機與應用2010年3期

智能計算機與應用的其它文章: 基于J2EE的計算機等級考試網絡資源平臺的設計; 企業人事工資管理系統的設計與實現; 軟件測試用例設計及復用研究; 基于建構主義的七個二教學思路的探討; CAN總線到1553B總線的網關設計; 電子商務網站可用性測試設計