摘要:本文綜述了神經(jīng)網(wǎng)絡理論發(fā)展的歷史和現(xiàn)狀,討論了人工神經(jīng)網(wǎng)絡的兩個主要研究方向:神經(jīng)網(wǎng)絡的VC維計算和神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘,也介紹了神經(jīng)網(wǎng)絡計算理論、方法、應用等不同層面的一些重要研究領(lǐng)域。
關(guān)鍵詞:神經(jīng)網(wǎng)絡;VC維;數(shù)據(jù)挖掘
中圖分類號:TP183文獻標識碼:A文章編號:1009-3044(2008)30-0710-02
A Review of the Research and Development of the Artificial Neural Nets
WANG Hui
(Xinjiang Petroleum Institute,Urumqi 830000,China)
Abstract: This paper reviews the history and the current situation of the theory of neural nets. It discusses two aspects: the Vapnik-Chervonenkis dimension calculation and the data mining in neural nets. It also touches upon such research areas as calculation theory, methods and application of neural nets.
Key words: neural nets;Vapnik-Chervonenkis dimension;Data Mining
1 引言
本世紀初,科學家們就一直探究大腦構(gòu)筑函數(shù)和思維運行機理。特別是近二十年來。對大腦有關(guān)的感覺器官的仿生做了不少工作,人腦含有數(shù)億個神經(jīng)元,并以特殊的復雜形式組成在一起,它能夠在計算某些問題(如難以用數(shù)學描述或非確定性問題等)時,比目前最快的計算機還要快許多倍。大腦的信號傳導速度要比電子元件的信號傳導要慢百萬倍,然而,大腦的信息處理速度比電子元件的處理速度快許多倍,因此科學家推測大腦的信息處理方式和思維方式是非常復雜的,是一個復雜并行信息處理系統(tǒng)。1943年McCulloch和Pitts結(jié)合了神經(jīng)生理學和數(shù)理邏輯的研究描述了一個神經(jīng)網(wǎng)絡的邏輯演算。他們的神經(jīng)元模型假定遵循一種所謂“有或無”(all-or-none)規(guī)則。如果如此簡單的神經(jīng)元數(shù)目足夠多和適當設置突觸連接并且同步操作,McCulloch和Pitts證明這樣構(gòu)成的網(wǎng)絡原則上可以計算任何可計算的函數(shù),這標志著神經(jīng)網(wǎng)絡學科的誕生。
2 發(fā)展歷史及現(xiàn)狀
2.1 人工神經(jīng)網(wǎng)絡理論的形成
早在40年代初,神經(jīng)解剖學、神經(jīng)生理學、心理學以及人腦神經(jīng)元的電生理的研究等都富有成果。其中,神經(jīng)生物學家McCulloch提倡數(shù)字化具有特別意義。他與青年數(shù)學家Pitts合作[1],從人腦信息處理觀點出發(fā),采用數(shù)理模型的方法研究了腦細胞的動作和結(jié)構(gòu)及其生物神經(jīng)元的一些基本生理特性,他們提出了第一個神經(jīng)計算模型,即神經(jīng)元的閾值元件模型,簡稱MP模型,他們主要貢獻在于結(jié)點的并行計算能力很強,為計算神經(jīng)行為的某此方面提供了可能性,從而開創(chuàng)了神經(jīng)網(wǎng)絡的研究。50年代初,神經(jīng)網(wǎng)絡理論具備了初步模擬實驗的條件。Rochester,Holland與IBM公司的研究人員合作,他們通過網(wǎng)絡吸取經(jīng)驗來調(diào)節(jié)強度,以這種方式模擬Hebb的學習規(guī)則,在IBM701計算機上運行,取得了成功,幾乎有大腦的處理風格。但最大規(guī)模的模擬神經(jīng)網(wǎng)絡也只有1000個神經(jīng)元,而每個神經(jīng)元又只有16個結(jié)合點。再往下做試驗,便受到計算機的限制。人工智能的另一個主要創(chuàng)始人Minsky于1954年對神經(jīng)系統(tǒng)如何能夠?qū)W習進行了研究,并把這種想法寫入他的博士論文中,后來他對Rosenblatt建立的感知器(Perceptron)的學習模型作了深入分析。
2.2 第一階段的研究與發(fā)展
1958年計算機科學家Rosenblatt基于MP模型,增加了學習機制,推廣了MP模型。他證明了兩層感知器能夠?qū)⑤斎敕譃閮深悾偃邕@兩種類型是線性并可分,也就是一個超平面能將輸入空間分割,其感知器收斂定理:輸入和輸出層之間的權(quán)重的調(diào)節(jié)正比于計算輸出值與期望輸出之差。他提出的感知器模型,首次把神經(jīng)網(wǎng)絡理論付諸工程實現(xiàn)。1960年Widrow和Hoff提出了自適應線性元件ADACINE網(wǎng)絡模型,是一種連續(xù)取值的線性網(wǎng)絡,主要用于自適應系統(tǒng)。他們研究了一定條件下輸入為線性可分問題,期望響應與計算響應的誤差可能搜索到全局最小值,網(wǎng)絡經(jīng)過訓練抵消通信中的回波和噪聲,它還可應用在天氣預報方面。這是第一個對實際問題起作用的神經(jīng)網(wǎng)絡。可以說,他們對分段線性網(wǎng)絡的訓練有一定作用,是自適應控制的理論基礎。Widrow等人在70年代,以此為基礎擴充了ADALINE的學習能力,80年代他們得到了一種多層學習算法。
Holland于1960年在基因遺傳算法及選擇問題的數(shù)學方法分析和基本理論的研究中,建立了遺傳算法理論。遺傳算法是一種借鑒生物界自然選擇和自然遺傳機制的高度并行、隨機、自適應搜索算法,從而開拓了神經(jīng)網(wǎng)絡理論的一個新的研究方向。1976年Grossberg提出自適應共振理論(ART),這是感知器較完善的模型,即superrised學習方式。本質(zhì)上說,仍是一種unsuperrised學習方式。隨后,他與Carpenter一起研究ART網(wǎng)絡,它有兩種結(jié)構(gòu)ART1和ART2,能夠識別或分類任意多個復雜的二元輸入圖像,其學習過程有自組織和自穩(wěn)定的特征,一般認為它是一種先進的學習模型。另外還有Werbos提出的BP理論以及提出的反向傳播原理;Fukushima 提出了視覺圖象識別的Neocognitron模型這些研究成果堅定的神經(jīng)網(wǎng)絡理論的繼續(xù)研究。
2.3 第二次研究的高潮階段
Hopfield于1982年至1986年提出了神經(jīng)網(wǎng)絡集體運算功能的理論框架,隨后,引起許多學者研究Hopfield 網(wǎng)絡的熱潮,對它作改進、提高、補充、變形等,至今仍在進行,推動了神經(jīng)網(wǎng)絡的發(fā)展。1983年Kirkpatrick等人先認識到模擬退火算法可應用于NP完全組合優(yōu)化問題的求解。這種思想最早是由Metropolis等人在1953年提出的,即固體熱平衡問題,通過模擬高溫物體退火過程的方法,來找全局最優(yōu)或近似全局最優(yōu),并給出了算法的接受準則。這是一種很有效的近似算法。1984年Hinton等人提出了Boltzmann機模型,借用統(tǒng)計物理學中的概念和方法,引入了模擬退火方法,可用于設計分類和學習算法方面,并首次表明多層網(wǎng)絡是可訓練的。Sejnowski于1986年對它進行了改進,提出了高階Boltzmann機和快速退火等。
1986年Rumelhart和McClelland 合著的Parallel Distributed Processing: Exploratio n in the Microstructures of Cognition兩卷書出版,對神經(jīng)網(wǎng)絡的進展起了極大的推動作用。它展示了PDP研究集團的最高水平,包括了物理學、數(shù)學、分子生物學、神經(jīng)科學、心理學和計算機科學等許多相關(guān)學科的著名學者從不同研究方向或領(lǐng)域取得的成果。他們建立了并行分布處理理論,主要致力于認知的微觀研究。尤其是,Rumelhart提出了多層網(wǎng)絡Back-Propagation法或稱Error Propagation法,這就是后來著名的BP算法。
2.4 新發(fā)展階段
90年代以來,人們較多地關(guān)注非線性系統(tǒng)的控制問題,通過神經(jīng)網(wǎng)絡方法來解決這類問題已取得了突出的成果,它是一個重要的研究領(lǐng)域。1990年Narendra和Parthasarathy提出了一種推廣的動態(tài)神經(jīng)網(wǎng)絡系統(tǒng)及其連接權(quán)的學習算法,它可表示非線性特性,增強了魯棒性。他們給出了一種新的辨識與控制方案,以multilayer網(wǎng)絡與recarrent網(wǎng)絡統(tǒng)一的模型描述非線性動態(tài)系統(tǒng),并提出了動態(tài)BP 參數(shù)在線調(diào)節(jié)方法。尤其是進化計算的概念在1992年形成,促進了這一理論的發(fā)展。1993年誕生了國際性雜志Evolutionary Computation。近幾年它成為一個熱點研究領(lǐng)域。1993年Yip和Pao提出了一種帶區(qū)域指引的進化模擬退火算法,他們將進化策略引入?yún)^(qū)域指引,它經(jīng)過選優(yōu)過程,最終達到求解問題的目的。
從上述各個階段發(fā)展軌跡來看,神經(jīng)網(wǎng)絡理論有更強的數(shù)學性質(zhì)和生物學特征,尤其是神經(jīng)科學、心理學和認識科學等方面提出一些重大問題,是向神經(jīng)網(wǎng)絡理論研究的新挑戰(zhàn),因而也是它發(fā)展的最大機會。90年代神經(jīng)網(wǎng)絡理論日益變得更加外向,注視著自身與科學技術(shù)之間的相互作用,不斷產(chǎn)生具有重要意義的概念和方法,并形成良好的工具。
3 神經(jīng)網(wǎng)絡的發(fā)展趨勢
3.1 神經(jīng)網(wǎng)絡VC維計算
神經(jīng)計算技術(shù)已經(jīng)在很多領(lǐng)域得到了成功的應用,但由于缺少一個統(tǒng)一的理論框架,經(jīng)驗性成分相當高。最近十年里,很多研究者都力圖在一個統(tǒng)一的框架下來考慮學習與泛化的問題 。PAC(Probably Approximately Correct)學習模型就是這樣一個框架。作為PAC學習的核心以及學習系統(tǒng)學習能力的度量,VC維(Vapnik-Chervonenkis dimension)在確定神經(jīng)網(wǎng)絡的容量(capacity)、泛化能力(generalization)、訓練集規(guī)模等的關(guān)系上有重要作用。如果可以計算出神經(jīng)網(wǎng)絡的VC維,則我們可以估計出要訓練該網(wǎng)絡所需的訓練集規(guī)模;反之,在給定一個訓練集以及最大近似誤差時,可以確定所需要的網(wǎng)絡結(jié)構(gòu)。
Anthony將VC維定義為:設F為一個從n維向量集X到{0, 1}的函數(shù)族,則F的VC維為X的子集E的最大元素數(shù),其中E滿足:對于任意S?哿E,總存在函數(shù)fs ∈F,使得當x ∈ S時fs(x) =1,x?埸S但x∈E時fs(x) =0。
VC維可作為函數(shù)族F復雜度的度量,它是一個自然數(shù),其值有可能為無窮大,它表示無論以何種組合方式出現(xiàn)均可被函數(shù)族F正確劃分為兩類的向量個數(shù)的最大值。對于實函數(shù)族,可定義相應的指示函數(shù)族,該指示函數(shù)族的VC維即為原實函數(shù)族的VC維。
3.2 基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘
1996年,F(xiàn)ayyad、Piatetsky-Shapiro和Smyth對KDD(Knowledge Discovery from Databases)和數(shù)據(jù)挖掘的關(guān)系進行了闡述。但是,隨著該領(lǐng)域研究的發(fā)展,研究者們目前趨向于認為KDD和數(shù)據(jù)挖掘具有相同的含義,即認為數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。
數(shù)據(jù)挖掘的困難主要存在于三個方面:首先,巨量數(shù)據(jù)集的性質(zhì)往往非常復雜,非線性、時序性與噪音普遍存在;其次,數(shù)據(jù)分析的目標具有多樣性,而復雜目標無論在表述還是在處理上均與領(lǐng)域知識有關(guān);第三,在復雜目標下,對巨量數(shù)據(jù)集的分析,目前還沒有現(xiàn)成的且滿足可計算條件的一般性理論與方法。在早期工作中,研究者們主要是將符號型機器學習方法與數(shù)據(jù)庫技術(shù)相結(jié)合,但由于真實世界的數(shù)據(jù)關(guān)系相當復雜,非線性程度相當高,而且普遍存在著噪音數(shù)據(jù),因此這些方法在很多場合都不適用。如果能將神經(jīng)計算技術(shù)用于數(shù)據(jù)挖掘,將可望借助神經(jīng)網(wǎng)絡的非線性處理能力和容噪能力,較好地解決這一問題。
4 結(jié)束語
經(jīng)過半個多世紀的研究,神經(jīng)計算目前已成為一門日趨成熟,應用面日趨廣泛的學科。本文對神經(jīng)計算的研究現(xiàn)狀和發(fā)展趨勢進行了綜述,主要介紹了神經(jīng)網(wǎng)絡VC維計算、基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘領(lǐng)域的相關(guān)研究成果。需要指出的是,除了上述內(nèi)容之外,神經(jīng)計算中還有很多值得深入研究的重要領(lǐng)域,例如:與符號學習相結(jié)合的混合學習方法的研究;脈沖神經(jīng)網(wǎng)絡(Pulsed Neural Networks)的研究;循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks)的研究等;神經(jīng)網(wǎng)絡與遺傳算法、人工生命的結(jié)合;支持向量機(Support Vector Machine)的研究;神經(jīng)網(wǎng)絡的并行、硬件實現(xiàn);容錯神經(jīng)網(wǎng)絡的研究。
參考文獻:
[1] McCulloch W S, Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics, 1943.
[2] N.維納著,郝季仁譯,控制論,科學出版,1985.
[3] Von Neumann J. The General and Logical Theory of Automata, Cerebral Mechanisms in Behavior; The Hixon Sympsium, 1951.
[4] Hebb D O. The Organization of Behavior, New York:Wiley, 1949.
[5] 陳世福,陳兆乾. 人工智能與知識工程[M]. 南京: 南京大學出版社,1998.
[6] Simon Haykin.神經(jīng)網(wǎng)絡原理[M].機械工業(yè)出版社(第二版),2004.
[7] Martin T.Hagan Howard B.Demuth Mark H.Beale.神經(jīng)網(wǎng)絡設計[M].機械工業(yè)出版社,2005.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文