摘要:人工神經網絡和可視化方法都是對原始數據進行重新挖掘重新整理而得到新數據的兩種算法。該文對人工神經網絡和可視化方法的有關算法特性進行了分析和比較,總結出了兩種算法的相似性和共同點。
關鍵詞:人工神經網絡;神經元;可視化
中圖分類號:TP183文獻標識碼:A文章編號:1009-3044(2008)36-2882-03
Analysis and Comparison Between ANN and Viewdata
ZHAO Chun, LI Dong
(Department of Computer Science, Xinxiang University, Xinxiang 453000, China)
Abstract: ANN and viewdata two calculating methods of obtaing new data by the dig and learrangement of the original data. This paper intends to make a general analysis of the featurcs of the two methods and a friof comparison between the two, and summed up the two algorithms and the similarity of common ground.
Key words:ANN; nerve cell; viewdata
1 引言
人工神經網絡和可視化方法是數據挖掘中的兩個重要的算法模型,兩者都是根據模擬人腦和人的視覺神經與傳統的數字計算機相比較而抽象出來的數據挖掘算法。可視化方法是人腦神經網絡的一部分,它們之間存在著必然的聯系,而算法又各有所異。隨著數據挖掘技術的快速發展,存儲在數據庫中的數據量也迅速增長,這證明傳統的關系數據庫和存儲圖像、CAD(計算機輔助設計)圖紙、地理信息和分子生物結構的復雜2D和3D多媒體數據庫是合理的。許多應用都要用到大型的數據庫,這些數據庫有幾百萬種數據對象,這些數據對象的緯度達到幾十甚至幾百。面對如此復雜的數據時,我們常常面臨著一些棘手的問題:應該從哪里開始著手?哪些是有用的數據?還有一些其他可用的數據嗎?能得出答案的其他方法是什么?人們在尋求突破的同時反復地思考并詢問復雜數據的專門問題。我們從人工神經網絡和可視化方法的算法、特有屬性進行橫向和縱向的比較來找出他們的共同點和相似點。
2 人工神經網絡算法與可視化方法性能比較
2.1 人工神經網絡提供特有的屬性和能力
1) 人工神經網絡有超強的運算功能——人腦大約有1011個微處理神經元,這些神經元之間相互連接,連接的數目大約達到1015數量級[1]。每個神經元都相當一個微型計算機,把每個微型計算機鏈接起來就形成了一個超級計算機網絡。
2) 由于人工神經網絡相當于一個超級因特網,每個神經元都相當于一個微型計算機,對所有的任務都可并行,并且是分布式處理,其處理能力也是超強的——每個神經元節點都可以看作一個微型計算機,這樣就形成了一個龐大的神經元網絡。
3) 人工神經網絡有歸納總結和分類的能力。——歸納總結和分類是人工神經網絡對輸入而產生合理的輸出。
4) 人工神經網絡有離散性。
5) 人工神經網絡通過典型的實例中進行歸納總結。
6) 對整個網絡有很強的適應性和快速的驗證的能力。
7) 對整個人工神經網絡的包容性。
8 對整個人工神經網絡統籌能力。
2.2 可視化方法特有的屬性和能力
1) 在正常情況下人對圖像的信息比較敏感。而對數據的反映比較遲鈍。
2) 人從圖像視覺接受到的信息比從文本或表格上接受更快、更有效。比如“百聞不如一見”。
3) 人從圖像視覺接受到的信息總是有選擇的接受
4) 人的視覺選擇的特征為形狀、顏色、亮度、運動、向量、質地等。
這些篩選仍然是通過人龐大的神經網絡中的部分神經元來處理的。其中進行的樣本的學習能里以及自適應性得到了充分的體現。
2.3 人工神經網絡和可視化方法的共同點
1) 對接受到的信息進行歸納處理。
2) 對接受到的信息進行轉化,只是轉化的方式不同。
3) 對接受到的信息進行篩選,并對接受到的信息產生合理的輸出。
4) 容錯性。
5) 從接受到的信息進行學習的能力。
2.4 人工神經網絡和可視化方法的不同點
1) 人工神經網絡是好比因特網,而可視化方法的計算網絡好比計算機網絡。可視化網絡的計算能力只是人工神經網絡很小的一部分。
2) 可視化方法雖然也是并行分布式處理的結構,但是它也只是人工神經網絡分布式處理的很小部分。其速度要遠遠低于人工神經網絡
3) 人的視覺和人工神經網絡對信息的篩選的方式各有不同。
3 算法比較
3.1 人工神經網絡
人工神經元是一個抽象的自然神經元模型,將其數據模型符號化為:
netk=x1wk1+x2wk2+ … … +xm wkm +bk
在ANN中輸入和相應權重乘機的累加為xiwki(其中,i=1, ……m),一些輸入xi,i=1, ……m,其中k是ANN中給定的神經元的索引,權重模擬了自然神經元中的生物突出強度[2]。
一個神經元就是一個微型計算機,它是一個ANN運轉的最小單位,就像是整個因特網中的一臺計算機。下例圖1是人工神經元的模型。
從這個模型可以看出人工神經元是有三個基本元素組成:
第一、一組連接線。X1 、X2 、…、Xm,每個連接線上的Wki為權重。權重在一定范圍類可能是正值,也可能是負值。
第二、累加器。將Xi與對應的權重值相乘的積累加。
第三、篩選函數。通過每個神經元經過函數篩選后輸出數值。
同樣,還可以用矢量符號來將其表示成兩個m維向量的無向乘積:
netk= X·W
其中
X={x0, x1, x3,… , xm}
W={w0, w1, w3,… , wkm}
3.2 可視化方法
可視化技術在字典中的意思為“心理圖像”,在計算機圖形學領域。可視化將自身行為聯系起來,特別是和人眼可以理解的復雜行為聯系起來。計算機可視化就是用計算機圖形和其他技術來考慮更多的樣本、變量和關系。
可視化技術其目的是清晰地、恰當地、有見解地思考,以及有著堅定信念的行動。
基于計算機的可視化技術不僅僅把計算機作為一種工具,也是一種交流媒介,可視化對開發人類認知方面提出了挑戰,也創造了機遇。挑戰是要避免觀察不出不正確的模式,以免錯誤地做出決策和行動。機遇是在設計可視化時運用關于人類認知的知識。
安得魯曲線技術把每個n維樣本繪制成一條直線。
f(t)=x1/1.41+x2sin(t)+x3cos(t)+ x4sin(2t) +x3cos(2t)+ …
其中t為時間域,函數f(t)把n維點X=(x1, x2, x3, x4, …,xn)
將f(t)進行部分變換:
f(t)= X·W
其中
X={x0, x1, x3,… , xm}
W={w0, w1, w3,… , wkm} (w0= sin(t),w1= cos (t))
這種可視化的一個好處是它可以表示很多維,缺點是要花很多的時間計算,才可以展示每個維點。這種幾何投影技術也包括探測性統計學,如主成分分析、因子分析和緯度縮放。平行坐標可視化技術和放射可視化技術也屬于這類可視化[3]。
3.3 人工神經元模型與可視化化方法中的安得魯曲線技術分析與比較
人工神經元是一個抽象的自然神經元模型,將其數據模型符號化為:
netk=x1wk1+x2wk2+ … … +xmwkm+bk
netk= X·W
安得魯曲線技術把每個n維樣本繪制成一條曲線。這種方法與數據點的傅立葉轉換相似。它用時間域T的函數f(t)來把n維點X=(x1,x2,x3,x4, …,xn)轉換為一個連續的點。這個函數常被劃分在-∏≤t≤∏區間。
f(t)=x1/1.41+x2sin(t)+x3cos(t)+ x4sin(2t) +x3cos(2t)+ …
f(t)= X·W
人工神經網絡和可視化方法部分算法比較可以近似的計算認為:
netk= f(t) =X·W
通過對人工神經網絡和可視化方法公式的整理可以得出它們有著很多的共同性和相似性[4],在容錯允許的情況下其算法為:
F(t)= X·W
其中F(t)可表示為人工神經網絡
F(t)= netk
或可視化方法
F(t)= f(t)
4 kohonen神經網絡
Kohonen神經網絡也是基于n維可視化的聚類技術,聚類是一個非常難的問題,由于在n維的樣本空間數據可以以不同的形狀和大小來表示類,n維空間上的n個樣本。
Mk=(1/n)
其中k=1,2,…,k。每個樣本就是一個類,因此∑nk=N。[5]
Kohonen神經網絡可以看作是一種非線性的數據投影這種技術和聚類中的k-平均算法有些相似。
可見,Kohonen神經網絡屬于可視化方法也屬于神經網絡算法。
5 結束語
現代世界是一個知識大爆炸的世界。我們被大量的數據所包圍著,這些數據或是整型的、或是數值型或其他類型,它們都必須經過各種方法的分析和處理,把它轉換成對我們有用的或可以輔助我們決策和理解的信息。數據挖掘是計算機行業中發展最快的領域之一,原始數據在爆炸式的增長,從原始數據中發現新知識的方法也在爆炸性地增長。人工神經網絡和可視化方法是兩種對海量數據進行數據挖掘整理的不同算法,通過以上縱向和橫向的對比,我們可以發現它們的相似性和共同點:對接受到的信息進行歸納處理、轉化、篩選、容錯性、并對接受到的信息產生合理的輸出。在應用中可以根據它們不同的屬性和能力選擇不同的算法。
參考文獻:
[1] Tang,Z H.數據挖掘原理與應用[M].北京.清華大學出版社,2007:74.
[2] Kantardzic M.數據挖掘[M].北京.清華大學出版社,2002:89.
[3] 李守巨,王吉喆.基于概率神經網絡的巖土邊坡穩定性預測方法[J].巖土力學,2000(2).
[4] Tam C M, Tong T K L.Diagnosis of Prestressed Concrete Pile Defects Using probabilistic Neural Networks[J].Engineering Structures,2004,26(8):1155.
[5] 韓家煒.數據挖掘概念與技術[M].北京:機械工業出版社,2007:134.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”