楊 斌
(廣州科技貿易職業學院,511442)
人工神經網絡在數據挖掘中的應用
楊 斌
(廣州科技貿易職業學院,511442)
在數據挖掘中,因為人工神經網絡的結構較為復雜,訓練時間長,而且理解起來具有一定的難度,在應用過程中經常會出現一些不能理解的模型。本文首先簡單介紹了人工神經網絡的基本原理和數據挖掘技術,對傳統信息處理方法與人工神經網絡進行了對比,最后總結了人工神經網絡在數據挖掘中的應用。
人工神經網絡;數據挖掘
數據挖掘是將隱藏的預測性信息從大型數據庫中提取出來,是一項強大的新技術,有著廣闊的發展空間。傳統決策支持系統只能對已經發生的事件進行分析,而數據挖掘具有前瞻性和自動化特征,能夠對企業的未來進行預測,從而為經營管理者提供有價值的信息,這一技術的出現解決了傳統決策支持體系業務分析耗時長的問題。數據挖掘工具在數據庫中將一些隱藏的模式挖掘出來,找出專家可能遺漏的一些重要信息。由于數據挖掘交互性差、訓練時間長、結構復雜,因此在發展之初并沒有得到廣泛使用。但是人工神經網絡功能強大,能夠解決許多現實問題,它不僅能夠從經驗中不斷總結和學習以提高自身性能,同時還有極強的環境適應能力,對于噪聲數據和缺失信息也能夠做到有效處理,在不能定義解決問題的步驟或規則下同樣適用。
人工神經網絡是在生物神經系統的基礎上發展而來的,主要用于信息處理。它模擬生物神經系統結構,由大量處理單元組成非線性自適應動態系統,具有高度非線性的超大規模實踐非線性動力特性,網絡的全局作用、大規模并行分布處理及高度的魯棒性和容錯性,有聯想記憶、抽象概括和自適應能力,被稱之為自學能力,這也是神經元最重要的特征,通過學習能夠分析數據中的模式來構造模型,對大量數據樣本的學習,發現新知識。神經網絡能夠通過學習,按照一定的規則自動調節神經元之間的輸入/輸出,改變其內部狀態,使輸入/輸出呈現出某種規律性。人工神經網絡方法很少需要人為進入,因此克服了傳統信息處理方法的諸多不足。
數據挖掘主要分為三個階段。第一階段:數據預處理;第二階段:數據挖掘技術應用;第三階段:結果解釋。在這里我們對常用的幾種數挖掘技術進行介紹:(1)人工神經網絡:非線性預測模型,實現的方式是在結構上對生物神經網絡進行模擬或者訓練;(2)決策樹:決策組用樹狀結構表示,對數據集能夠實現自動生成分類規則,主要方法有X平方分布自動交互檢測和分類與回歸樹;(3)遺傳算法:是比較常用的一種方法。是在進化論的基礎上發展而來的。在進行設計時通常選擇自然選擇、基因結合以及突變等優化方法;(4)最近鄰算法:是對數據集中包含的每條記錄進行分類,分類組合記錄為K個,將最接近的加入到歷史數據集中,也可以將此項技術稱之為的K-最近鄰技術;(5)規則歸納:在統計基礎上發展而來的,將有價值的if-then從數據中提取出來。
3.1 邏輯與大腦
傳統方法模擬的是人腦,將人腦的邏輯和推理過程形式化,把人腦視為黑盒,傳統方法的重點在于對元素之間的關注,能夠還包括使機器擁有此種能力。而神經網絡是對人腦智能功能的模擬,側重于結構建模,也就是說,神經網絡試圖創建一個與人腦相似的系統。
3.2 靜態外部與動態內部
傳統方法的學習是在系統外部發生的,也就是說,需要人為幫助實現學習,在系統外部對知識實現獲取,經過編碼之后進入到系統中從而實現學習。而神經網絡自身具備學習功能,將知識存儲成連接神經元的強度,在提交數據集中完成對權重的學習,學習是神經網絡的主要工作。
3.3 顯性與隱性
傳統的方法表示知識采用的是隱性形式,對規則和關系進行改變和檢查。而神經網絡用神經元之間的互聯強度形式實現知識的存儲,系統不存在任何一個地方,能夠將數值和代碼作為顯性知識。
在數據挖掘中,比較常見的人工神經網絡模型有兩種:一種是受監督神經網絡,另一種是無監督神經網絡。受監督神經網絡的模型建立是通過數據測試和訓練實現的,數據包括輸入變量或者數據字段歷史數據集,每一個輸入量都和輸出相互對應。神經網絡通過對數據進行訓練從而進行預測已知輸出和測試數據作為驗證的“學習”。其目的在于預測僅的給出輸入變量的記錄輸出。
其中,最簡單的是前饋神經網絡,一共包括輸入層、隱藏層以及輸出層三層。每一個層都擁有至少一個處理單元,是對大腦神經元進行的模擬,每一個處理單元的輸入來自于它的上一層或者是外界,在進行訓練時對權重進行調整。置于網絡中的信息不能反饋循環,只能一直向前傳輸。將人工神經網絡應用到數據挖掘中的好處有以下幾點:一是精度高,對于信息處理來說,高精度是信息處理的前提,也是開展后續工作的保障。對于一些比較復雜的非線性映射,人工神經網絡同樣可以做到高度逼近;二是噪聲容限,對丟失數據、不完整數據和噪聲數據有良好的處理效果。三是與實現假設并無關聯,人工神經網絡能夠通過最新數據更新,對于動態環境來說十分有用。在受監督神經網絡中,隱藏節點可以作為潛在變量,在并行硬件上實現神經網絡。
5.1 SOM
SOM的全稱是自組織映射,最早是由Teuvo Kohonen提出的。SOM最大的特點在于精密化,對于復雜的、多維度的、多屬性的數據能夠做到有效觀察。SOM的輸出在于強調數據特點,然后生成相似性數據項的聚類自動組合。由于SOM具有上述特點,因此,在數據挖掘中最先考慮的就是SOM。
5.2 模糊神經
模糊神經是在神經網絡的基礎上發展而來的,主要是對本地信息進行操作和學習,并且只能對本地數據進行修改。一個模糊神經系統由三層前饋神經網絡組成,第一層為輸入變量,中間層為模糊規則,第三層是輸出變量,模糊集編碼代表連接權。從應用學算法角度來說,這一系統并不是必須的。但它卻是最方便的,這主要是因為它具備對數據流的學習以及處理輸入功能,在一些特定情況下,可能會采取五層架構,其中第二層及第四層用來表示模糊集。簡單來說,神經模糊系統就是擁有模糊規則的系統,在創建系統時對于數據的訓練可以從零開始。該系統在進行學習時,需要充分考慮系統的語法屬性,這樣一來就很有可能對需要修改的數據產生制約。
神經網絡在預測、數據分類以及其它方面的精度比較高,但是如果神經網絡接受過訓練之后將其嵌入到模糊神經系統中是不能解釋的,這也是該系統比較大的一個缺點。
5.3 ART2
在數據挖掘領域,聚類分析一直是熱點研究話題,同時主要任務就是聚類分析。ART的全稱是自適應諧振神經網絡,可以有效實現聚類。但是傳統ART2在進行數據聚類時缺點比較多。傳統ART2在網絡接受訓練前,必須指定警報參數,而參數配置對聚類結果將會產生直接影響。對傳統ART2改進,需要對挖掘數據振幅信息進行充分考慮,能夠在一定程度上降低警戒參數要求,而且所獲取的聚類結果擁有行政級別的結構。
5.4 反向傳播
大部分數據都是可用的,但是對如何將它和輸出關聯到一起并不能確定。雖然問題看起來十分復雜,但是仍然有解決方法。對擁有正確行為的例子很容易創建成功,輸出不僅可以是非數字,而且也可以是模糊的。
綜上所述,本文對人工神經網絡在數據挖掘中的應用進行了詳細分析。采用神經網絡解決數據挖掘問題是非常有效的一種方式。人工神經網絡適應能力強、魯棒性強、同時還能夠實現并行處理,正是由于人工神經網絡具有上述種種優勢,因此在數據挖掘領域的應用前景非常廣泛。
[1]邵有為.人工神經網絡在數據挖掘中的潛在應用[J].煤炭技術,2011(30).
[2]常凱.基于神經網絡的數據挖掘分類算法比較和分析研究[D].安徽大學,2014.
楊斌、男、出生于:1973-5-2、籍貫:廣東龍川 、民族:漢、學位:
碩士、職稱:副教授、研究方向:數據挖掘、人工智能算法。
Application of artificial neural network in data mining
Yang Bin
(Guangzhou Vocational College of Technology & Business,511442)
In data mining,because the structure of artificial neural network is more complex,training time is long,and it has a certain degree of difficulty,in the course of application,some can not understand the model.In this paper,the basic principle of artificial neural network and data mining technology are briefly introduced,and the traditional information processing method and artificial neural network are compared. Finally,the application of artificial neural network in data mining is summarized.
artificial neural network;data mining