摘要:針對聚類分析問題和人工免疫系統的應用特性,構造出一種新型的人工免疫系統的應用形式—核聚類人工免疫網絡。
關鍵詞:聚類分析;人工免疫系統;核方法
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)26-7478-02
Design of the Kernel Clustering Artificial Immune Network Model
WU Qi-ming1, CHEN Hao2
(1.Department of Computer and Information Science, Hechi University, Yizhou 546300, China; 2.Shenzhen Polytechnic Computer Center, Shenzhen 518055, China)
Abstract: Aim at clustering analysis, based on the application of AIS, present a new form of AIS, called Kernel Clustering Artificial Immune Network.
Key words: clustering analysis; Artificial Immune system; kernel methods
聚類是根據數據的不同特征,將其劃分為不同的數據類。聚類分析具有廣泛的應用,包括市場或顧客的分割、模式識別、生物學研究、空間數據分析、WEB文檔分類等。聚類分析可以用作獨立的數據挖掘工具來獲得對數據分布的了解,也可以作為其它對發現的簇運行的數據挖掘算法的預處理步驟。
免疫系統是一個由若干功能部件組成的相當復雜的系統,它有許多優良的功能特性引起了人們的注意。近年來,隨著基礎醫學研究的深入,人們對免疫系統的機理也有了越來越清楚的認識。從系統的角度來看,生物免疫系統是一個自組織、自適應的、具有高度并行處理能力的強魯棒性系統從信息處理的角度來看,生物免疫系統又是一個具有多樣性識別能力、增強學習機制和分布式聯想記憶的強大信息處理系統。
人工免疫系統用于聚類可以大大提高聚類的效率,具有較強的特征抽取能力。
任何核方法的解決方案都由兩個部分組成:一個模塊和一種學習算法。模塊執行的是映射到特征空間的過程,而學習算法則用來發現這一空間的線性關系。檢測線性關系是許多統計學研究和機器學習研究的焦點,研究得出的算法已得到人們的深入了解,其運行效率也很高。我們可以通過核函數在高維空間中高效地表示線性模式。
提出一種核聚類人工免疫網絡模型,開辟一條高效率聚類分析的新方法。
1 聚類和核聚類
聚類是根據數據的不同特征,將其劃分為不同的數據類。它的目的是使得屬于同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。聚類方法包括統計方法、機器學習方法、神經網絡方法和面向數據庫的方法等。
點集的數據結構、被分析的點集中樣本點的數量、所采用的距離度量和相似性度量、所用的聚類準則,以及最終的聚類數都會影響到分類的結果。此外,樣本各分量之間的尺度比例的確定也是一個十分重要的問題。這都會使得聚類質量難以把握。
一般說來,間接的動態聚類算法的計算效率很高,因此為很多人所樂于采用。它的主要缺點是所選定這種模型常常不能反映數據的概率結構,因此用這些方法所得到的聚類結果不能反映數據構造的真實情況。我們只有通過選擇各種各樣的核函數以及分析用這些核函數所得到的聚類結果來部分地解決這種困難。
2 人工免疫網絡
COOKER等最先設計了人工免疫網絡,并將它用于機器學習。他們提出了一種人工免疫系統用于有指導的機器學習,這一設計的中心工作就是利用了免疫網絡理論構造人工免疫系統,該系統用到的生物免疫系統機制包括細胞、細胞的刺激度、免疫網絡理論、基因庫、變異以及適于分類問題的抗體串。他們所設計的系統形式通過一系列的研究和改進,最后的人工免疫網絡稱為系統。該系統包含一個即抗體網絡,如果兩個之間的親和力超過某一閉值,它們就相互連接。每個由四個要素組成匹配規則、基因庫用于產生抗體,即序列、許多中間序列、該的刺激度即抗體的評價。而系統中的抗原就是待學習的串的表達。最初,隨機選擇一組訓練數據構成網絡,其余的數
據就是抗體訓練集。
3 基于核的聚類分析過程,
基于核的聚類分析過程可以分為如下幾個步驟:
1)確定聚類準則。聚類準則就是聚類結果的評價標準;2)確定模式類的核的表達方式;3)確定核的修改策略;4)從核的初始形式開始,不斷用聚類準則函數評價,并基于評價值來修改聚類核,直到聚類準則函數直達一個穩定值。
4 核聚類人工免疫網絡模型的表示與設計過程
4.1 核聚類人工免疫網絡模型的表示
1)抗原—原始數據組;2)抗體—各模式類的特征值,在網絡中表現為一個數據項。3)系統結構—抗體通過相互作用構成的網絡。4)應用目標就是使網絡經過“學習”后,能夠反映原始數據組所包含的模式類,及各個模式類的聚類核。
整個網絡的構成規則:
1)網絡由數據項組成,每個數據項包括一個數據值、一個刺激度值以及數據量值即該數據項所包含的相同數據的個數。2)網絡中的數據項之間存在連接,兩個數據項之間是否連接由兩個數據項的相似度以及一個閡值確定如果數據項之間的相似度大于閩值則連接,否則,就不連接。3)每一組互連的數據所構成的子網絡,就代表一個模式類。4)通過訓練,網絡最終達到一個穩定的結構,這個穩定的結構就是聚類分析的結果,每個子網絡就是一個模式類的核。
4.2 算法描述
由于這種基于人工免疫網絡的聚類分析方法,本質上就是利用網絡的結構形式,以改善聚類準則為指導,通過適當的算法和訓練數據,不斷改善網絡結構,最終得到各個模式類的聚類核,這里的模式類的核是以各類型的特征值表示的。所以,這個過程就是一個特征抽取過程,根據前面關于人工免疫系統一般框架中學習算法的描述,算法具體實現步驟如下:
1)確定幾個關鍵參數值;2)將樣本數據分為三組—初始網絡數據用于構造初始網絡,也就是初始的抗體、訓練數據用于訓練網絡,也就是抗原、測試數據用于對結果進行測試,代表新的抗原;3)由初始網絡數據構成初始網絡—計算數據項之間的相似度,大于連接閡值的就建立連接,否則就不連接;4)提供訓練數據,計算網絡中各數據項的刺激度值即抗體的評價值;5)將刺激度值較好的數據項存入記憶庫;6)以各數據項的刺激度值為依據,進行克隆選擇、交叉、超變異操作;7)由新的數據項和記憶庫中的數據項一起構造新的網絡;8)判斷結束條件是否滿足,是,則結束,否,則轉去第四步繼續訓練。
5 實驗結果
關于實驗的設想就是選擇一組分類情況已知的數據,假設在沒有關于數據任何先驗知識的情況下用人工免疫網絡對該組數據進行聚類分析,然后用結果來與己知的分類情況進行對比,以檢驗方法的有效性。
以模式類的核而不是數據本身作為搜索的對象,通過迭代的方式不斷地優化聚類準則函數,這種迭代算法不僅可以簡化搜索過程本身而且具有繼續學習的能力模式類的核可以根據實際問題的特點和條件選擇多種形式,這樣就擴展了這一方法的應用范圍。
參考文獻:
[1] 劉克勝,曹先彬,鄭浩然,等.基于免疫進化規劃的多層前饋網絡設計[J].軟件學報,1999,10(11):1180-1184.
[2] 王磊,肖人彬.基于免疫記憶的人工免疫算法模型及其應用[J].模式識別與人工智能,2002,15(4):385-391.
[3] 葛紅,毛宗源.免疫算法幾個參數的研究[J].華南理工大學學報,2002,3(12):15-18.