陳達權
摘要:基于非線性函數逼近問題的相關問題一直是工程應用領域研究的熱點問題,如傳感器修正、產品設計仿真及機器人控制等,要求模型能夠有效處理大樣本高維非線性數據而且能夠達到高精度、高魯棒性及強泛化能力等性能表現,而目前的傳統淺層模型均難以滿足這些具體要求,在充分分析并研究現有典型深度學習模型后,得出深度學習模型能夠實現對任意高維非線性復雜函數進行逼近的可行性,并提出相對傳統淺層模型具有更優異性能表現的深度學習模型的設計方法。
關鍵詞:深度學習;函數逼近;仿真研究;非線性系統建模
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2019)05-0169-02
Valid Analysis of Deep Learning in Non-linear Regression
CHEN Da-quan
(School of Electromechanical Engineering, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: Related problems based on nonlinear function approximation problems have traditionally been a research hotspot in engineering application field research, such as sensor correction, product design simulation and robot control, etc. These problems require the model to effectively process large samples of high-dimensional non-linear data and to have the high precision, the good robustness and the nicer generalization ability, but the current traditional shallow models are difficult to meet these specific requirements. After fully studying and analyzing the existing typical deep learning models, it is feasible to obtain a deep learning model to achieve approximation of arbitrary high-dimensional non-linear complex functions. Finally, a design method for deep learning models with better performance than traditional shallow models is proposed.
Key words: Deep Learning; Function Approximation; Simulation Study; Non-linear system modeling
1 背景
隨著科技的不斷發展,高新技術產品的功能復合化程度越來越高,在開發階段所需考慮的影響因素較多[1],由于產品各參數與響應間的非線性及多對多等特征[2],對于非線性系統的建模要求正在不斷提高,傳統的數學模型現已難以滿足。目前,對于高新技術產品的非線性系統建模問題,工業界主要采用代理模型或響應面方法。
具體的,代理模型或響應面方法,首先將高新技術產品的非線性系統模型假設為黑箱函數,然后利用訓練樣本集通過優化算法對代理模型進行訓練,使得代理模型的仿真預測與高新技術產品的對應性能響應相逼近,最終通過完成訓練的代理模型對新設計的高新技術產品的性能進行仿真預測。
因此,非線性函數逼近問題如函數逼近、仿真回歸、回歸分析、代理模型或響應面方法等,所要解決的問題均是根據觀測數據通過參數估計構建能反映輸入和輸出間的映射關系(即回歸函數或代理模型),最后通過回歸函數對其他新輸入數據預測其對應的輸出。
非線性函數逼近問題的具體數學描述如下:一個包含[k]個樣本的訓練集[(x1,y1),(x2,y2),(x3,y3),...,(xi,yi),...,(xk,yk)],其中[xi∈Rn],[yi∈Rm],[n,m∈N+],[x]表示由高新技術產品的[n]個參數(屬性)所組成的輸入向量,[y]表示由高新技術產品的[m]個性能響應所組成的輸出向量,[n]和[m]均為正整數,利用訓練集通過優化算法對模型進行訓練后找到黑箱函數[y=f(x;θ)],其中[θ=(θ1,θ2,θ3,......,θt)]為模型[t]個訓練參數,則黑箱函數[f(x)]即為非線性函數逼近問題的回歸函數,最后通過回歸函數[f(x)]對新輸入數據預測其輸出。
另外,對于非線性函數逼近問題,存在靜態和動態兩種類型,所謂的動態非線性函數逼近問題,其模型的輸入為時序變量,即輸入數據間在時間上存在先后順序關系;而靜態非線性函數逼近問題,則模型的輸入在時間上不存在相關性;而且,根據輸入數據相鄰元素間是否直接存在相關性可分為相關非線性函數逼近問題和獨立非線性函數逼近問題。
因此,在本文中,所探究的非線性函數逼近問題具體是靜態獨立非線性函數逼近問題,在實際工程應用中是代理模型或響應面方法的代理模型構建問題。
2 傳統淺層模型與深度學習
用于對非線性函數關系進行逼近的代理模型根據模型結構可分為傳統淺層模型和深度學習模型。傳統淺層模型如支持向量機(SVM)、徑向基函數神經網絡(RBF)、三層BP神經網絡及最大熵模型(MaxEnt)等,一般僅有一層隱含層計算節點(如RBF等)甚至沒有隱含層計算節點(如MaxEnt等),能夠對線性關系或簡單非線性關系進行有效表達,對訓練樣本較少的低維數據弱非線性映射關系有較好的表達效果,但對輸入數據所獲得的特征表達是簡單的單層特征表達,所以結構如此簡單的淺層模型對復雜的高維強非線性關系的表達能力是十分有限的,對于復雜的分類問題或仿真預測問題在泛化能力的提高上將受到限制。
相對于傳統淺層模型,深度學習模型的區別在于模型結構的深度變得更深,通常隱含層層數至少在3層以上,數據每經過一層隱含層則完成一次空間映射,對輸入數據逐層地構造數據中的中高層次抽象特征,實現從訓練樣本集中逐層地學習到樣本數據中更本質的特征以完成數據特征的提取,最終實現對復雜函數的逼近[ 3-5]。因此,深度學習模型相比于傳統淺層模型具有更強的學習能力,可在高度非線性的復雜函數中學習到緊湊的層次化的特征表示,能更好地解釋輸入數據,使模型擁有更強的泛化能力,在各種更復雜的實際應用環境中能夠達到遠遠超越傳統淺層模型所能達到的極限性能[6]。
目前,深度學習模型己經被廣泛地應用在如計算機視覺及語音識別等分類及識別領域中,并表現出傳統淺層模型所遠遠無法達到的優異性能。但是,相對而言深度學習模型在仿真回歸領域的研究及應用則相對較少,一般在仿真預測應用方面深度學習模型的隱含層層數僅為2層或3層,模型結構相比于傳統淺層模型基本無差別,顯然其性能表現相比傳統淺層模型也是基本無差別。
所以,在本文中,最主要的探究內容是利用深度學習模型(隱含層層數為4層及以上)對于非線性函數逼近問題是否有效可行。
3 深度學習模型在非線性函數逼近問題應用中的分析及設計
神經網絡模型是可以被看作一個黑箱模型的非線性系統,能夠表達難以用數學公式進行描述的輸入和輸出間的固有規律,最終使其學習到數據間的固有規律并可在實際中使用[7]。因此,神經網絡模型在各種預測及分類問題上均有較好的性能表現,其中傳統三層BP神經網絡模型更是應用最為廣泛的經典模型,并且,當模型中隱含層神經元足夠多且訓練時間足夠長時,其將可以任意精度逼近任意非線性映射關系[8]。
具體的,神經網絡模型的性能表現主要是由模型拓撲結構、神經元中輸入輸出特性、神經元間連接權值及神經元間特殊連接權值所決定,利用如反向傳播算法的學習算法通過如梯度下降算法的優化算法對模型中各參數進行訓練及學習。但是,隨著神經網絡模型的隱含層層數增加,在訓練過程中會出現如梯度消失等問題,導致具有多個隱含層的深度神經網絡模型出現訓練無法收斂的問題。直到2006年,Geoffrey Hinton等人通過利用貪婪逐層無監督預訓練策略成功的對深度神經網絡模型進行有效訓練[9],從此開啟了深度學習的大時代。
顯然,深度學習的概念源于神經網絡模型,深度神經網絡模型(深度學習模型)沿用了傳統神經網絡模型的結構,只是在隱含層的層數上相對更多,其典型的模型類型包括:全連接神經網絡(FNN)、卷積神經網絡(CNN)及循環神經網絡(RNN),其中全連接神經網絡模型包括:深度信念網絡(DBN)及深度自編碼器(DAE)等。
首先,大量的計算機視覺實際應用表明,卷積神經網絡模型的局部權值共享結構在圖像處理問題上有著卓越的表現性能,但值得注意的是,模型的卷積核實際上僅是帶有濾波或幾何特征檢測功能的濾波器,其主要作用是找出輸入圖像中相鄰像素點間可能存在的幾何關系或空間關系,所以卷積神經網絡模型更適合圖像數據的處理。
其次,循環神經網絡模型通過引入的循環神經元來提取序列數據的動態時序特征,具有強大的時序數據學習能力,能夠有效處理輸入數據間存在時序關系的動力學系統建模問題,所以循環神經網絡模型更適合動態數據的處理。
另外,深度置信網絡模型及堆疊自編碼器模型均是典型的全連接神經網絡模型,均是利用貪婪逐層無監督預訓練策略對具有多個隱含層的深度學習模型實現有效訓練,但隨著深度學習技術在激活函數上的突破,選取ReLU函數作為神經元激活函數的深度學習模型可以直接通過反向傳播算法而無須利用基于貪婪逐層無監督預訓練策略也能夠實現有效訓練。由此,可不考慮訓練過程復雜煩瑣的深度置信網絡模型及堆疊自編碼器模型而針對具體實際問題直接設計合適的深度全連接神經網絡模型。
相對于其他神經網絡模型,全連接神經網絡模型更擅長于靜態數據內部本質特征的提取,而且神經網絡模型的一致逼近原理也表明:單層隱含層神經元足夠多的淺層網絡模型及隱含層足夠多的深度網絡模型均可以任意精度逼近任何非線性映射關系[10]。此外,對于具有豐富信息維度的數據,模型容量相對較小的淺層網絡模型是無法進行有效處理的,唯有具有更大模型容量更強學習能力的深度學習模型才能夠對其進行有效處理。
綜上所述,對于輸入數據具有靜態性及相互獨立性的非線性函數逼近問題(非線性仿真回歸問題),選用深度全連接前饋神經網絡模型是最為適合,具體地,從模型的模型容量、學習速度及泛化能力等方面考慮,模型的隱含層層數至少為3層以上,而且越接近輸入層的隱含層的神經元數量相對更多,最后除了最接近輸入層的一個或兩個隱含層外,模型的其他隱含層的神經元均選取ReLU函數作為其激活函數。
4 結論
本文在充分研究并分析現有典型深度學習模型后,得到深度學習模型能夠實現對任意高維非線性復雜函數進行逼近的可行性,具體的,深度學習模型能夠有效處理大樣本高維非線性數據而且能夠達到高的精度、好的魯棒性及強的泛化能力的性能表現,所提出的通過選取ReLU函數作為后層神經元激活函數的深度學習模型相對于傳統淺層模型在復雜應用環境下具有更優異的性能表現。
參考文獻:
[1] Wang G G, Shan S. Review of metamodeling techniques in support of engineering design optimization[J]. Journal of Mechanical Design, 2007, 129(4):370-380.
[2] Kodiyalam S, Yang R J, Gu L. High performance computing and surrogate modeling for rapid visualization with multidisciplinary optimization[J]. AIAA journal, 2004, 42(11):2347-2354.
[3] S Haykin. Neural networks: a comprehensive foundation[M]. New York: Macmillan, 1994.
[4] Y LeCun, Y Bengio, G Hinton. Deep learning[J]. Nature, 521(7553):436-444, 2015.
[5] J Schmidhuber. Deep learning in neural networks: An overview[J]. Neural Networks, 61:85-117, 2015.
[6] Y Bengio. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2(1):1-127, 2009.
[7] Schalkoff R J. Artificial neural networks[M]. New York: Mc Graw-Hill, 1997.
[8] Rumelhart D E, Hinton G E, Williams R J. Learning Internal Representations by Error Propagation[C]. In: Parallel Distributed Processing: Explanations in the Microstructure of Cognition, Cambridge, MA: MTT Press, 1986, 01:318-362.
[9] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7):1527-1554.
[10] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Trans on Neural Networks, 2006, 17(4):879-892.
【通聯編輯:梁書】