王 紅,康 玲
(1. 大連東軟信息學院計算機學院,遼寧 大連 116023;2. 大連東軟信息學院 軟件學院,遼寧 大連 116023)
近年來隨著計算能力的進步,數學模型的規模以及描述范圍不斷拓寬。大量描述各種現象的復雜模型不斷出現,從生物化學反應網絡、到氣候變化模型再到經濟發展動態模型,依托數學模型進行科學探究已經成為當今的核心關注點[1,2]。這些模型的復雜性呈現出很多新的特征也為基于這些模型開展科學研究提出了新的問題和挑戰。
數學模型中通常包含大量的未知參數,由于費用、時間或實驗條件等因素的制約,這些參數的值只能通過和已有實驗數據的擬合來確定,通常把這一過程稱作模型校準[3]。通過模型校準,原則上參數可以被實驗數據唯一確定[4]。但有些模型中的某些參數值,即使給出再多的實驗數據依然不能唯一被確定[5]。這主要是因為模型中不同的參數組合對模型的輸出呈現出不同數量級的影響[6],進而表現為如下特征:微小擾動部分參數組合會使模型輸出變化非常大,而大規模擾動某些參數或其組合,模型輸出卻沒有明顯變化。因此所謂的sloppy模型是指模型的行為只被幾個有限參數組合所控制的模型。小擾動大變化的參數組合是stiff參數(屬性)組合,而大擾動小變化的參數組合是sloppy參數(屬性)組合[7]。
有人認為sloppy屬性和魯棒性(robustness)的表現很相似。但從傳統概念上來講,二者截然不同。當一個系統被認定為具有魯棒性特征時,意味著有一個特定的定量行為對于特定的擾動不敏感,且這種擾動可以是參數值的變化、系統外界影響因素的變化甚至系統結構的變化[8]。而sloppy屬性則相反,當關注系統的定量行為時,它的敏感性和參數的組合變化相關。甚至一個sloppy模型可能對于每個參數的變化都不具有魯棒性[9]。
但從運作原理上來看,sloppy屬性和魯棒性之間又有著密切的聯系。比如許多生物系統規模大且形式復雜,某些構件相對于功能實現來說還有冗余,但這種冗余卻是系統應對內外環境的突變或噪聲而產生的魯棒性反應。因為從網絡動態性與網絡構成關系角度來看,這種冗余是當構件具有sloppy屬性時,網絡所呈現出的合作響應模式[10]。
Sloppy屬性廣泛存在于系統生物學模型、加速器物理學模型、放射性衰變系統、臨界模型、昆蟲飛行模型等諸多領域模型中[11]。
近年來,模型中sloppy屬性的存在也為研究系統背后的運行機理提供了新的研究視角。如在生物領域可以基于sloppy屬性,研究神經元活動隨時間發展的進化規律、神經網絡中的可塑性調整機制及運動過程中顯著性變量的穩定性控制問題、預測肌酸肌酶對ATP組的催化反應效果,以及探求生物神經網絡初始過密的凸起和神經元剪枝優化背后的運作機制;也可用于系統動態進化的強壯性和組件衰退性背后的一般理論研究;在電子能源領域還可以利用模型的sloppy屬性特征,研究存儲環在加速時如何降低發散率進而提高衰減環的亮度,以及在震動、電子環境和量子機制等自由度不可控條件下,如何提高能量傳輸的有效性及可靠性問題。
Sloppy屬性的存在也為研究模型與模型屬性的關系提供了可能。如將sloppy屬性和敏感度分析[12]、實驗設計[13]、系統及參數可認定[14]、系統強壯性以及反向工程[15]等方面的研究建立起了聯系。因為sloppy屬性體現的是模型對于外部環境擾動及內部構建交互變化的強壯性,而該屬性是生物集體得以進化的關鍵特征,因此在計算生物學領域,sloppy屬性是否存在也成為判斷構建的生物模型是否具有實際可行性的重要依據之一。
此外,sloppy屬性的存在也為模型的參數估計以及模型預測研究帶來挑戰。由于sloppy屬性的存在,使得模型中參數估計問題演變成不適定問題且模型中的參數不能逐一被認定[11],即使可以得到對應參數的估計值,但其置信區間也會變大[9]。使用sloppy模型進行功能預測時可能會引發預測結果的統計性錯誤[9,16]也為分析模型預測不確定性引入計算困難。因此,sloppy屬性的存在也促進了相關優化算法的研究,如對優化算法提出改進,基于幾何原理理解提出更有效更適用的計算方法[6]等。


(1)
該損失函數在參數的最優擬合點的曲率就是Hessian矩陣的定義,如式(2)的形式。
(2)
如果此時Hmn的最大特征值λmax與最小特征值λmin的度量差超過三個數量級時(如式(3)所示),則可判定該模型具有sloppy屬性[14]。

(3)
因為很多模型中的參數有不同的度量單位且變化范圍大,為了消除相對變化對參數值的影響,在計算Hessian矩陣的時候通常可以采用log10對數的形式,如式(4)所示[17],這就是特征值譜的對數尺度寬度。
wλ=log10CF
(4)
當w≥6時模型也可被認定為sloppy模型,而非sloppy模型的寬度一般約等于2。此時參數的stiff和sloppy屬性可以通過分析Hessian矩陣Hmn的特征值進行確定。因為Hessian矩陣具有正定及對稱的特征,因此它的特征值和特征向量都是實數。分析Hessian矩陣對應的近似曲面可以看出和系統響應的偏離。該界面是一個Np維度的橢球體,Np是模型中參數的數目,橢球的主軸是Hessian矩陣的特征向量,橢球沿著每個主軸的寬度正比于對應特征值λi平方根的倒數,如式(5)所示[17]。

(5)
其中最窄的軸對應stiff屬性對模型行為有很大影響,最寬的軸對應sloppy屬性對模型行為有微小的影響[4]。
對式(2)做近似處理,省略掉第二部分,就得到了Fisher信息矩陣[18],如式(6)所示,其中J 是衡量參數敏感度的Jacobian矩陣。

(6)
Dufresne研究小組組合代數與幾何知識,在參數空間引入等價關系,借助等價關系給出sloppy屬性的統一數學框架,將其所能描述的模型類型也從依賴于時間尺度的模型擴展到了統計模型[18]。
定義sloppy屬性時,基于Hessian矩陣或Fisher信息矩陣值的判斷是依賴于它所評價的參數空間的。當采用MCMC(Markov Chain Monte Carlo)后分布得到的多個參數集合進行計算時,盡管會得到相似的特征值譜但卻有不同的特征值。由此可見,這種sloppy屬性判定方法是基于局部特征,因此不夠精確。主成分分析可用于對點空間中的協方差矩陣進行特征分解,第一主成分就是最大特征值對應的特征向量,對應著點變化量最大的方向且各成分間彼此正交。因此可以用主成分分析類比Hessian矩陣。通過使用主成分分析MCMC參數集合或中間參數集合[9],則可得到分析sloppy屬性的全局視角。
由于參數估計遇到了困難,研究者們才將參數劃分成了sloppy和stiff類型。因此對于sloppy屬性的起源、本質及消除的探索一定是和參數估計聯系在一起的。
Waterfall小組基于“損失函數對稱依賴于模型參數”這一強假設前提,探索sloppy屬性的起因[19]。在此假設下將損失函數中的殘差r寫成參數多項式和的形式如式(7)所示。

(7)
再假定參數變化都被限定在一個微小的范圍內pi∈[p±ε],可以得到εi=pi-p,則Jacobian矩陣可以改寫為式(8)所示。
(8)

當K無窮大時,Hessian矩陣可以分解為H=JTJ=VTATAV,這里的V就是范德蒙矩陣。通過比較sloppy和非sloppy屬性的范德蒙特征值發現,對于非sloppy模型來說,當ε →0時相鄰參數的相對空間是寬度趨近于1的固定值。但真實世界中的sloppy模型并不總是滿足此假設前提,由此可見,sloppy的產生是因為實驗的封裝或描述的需要扭曲了參數的自然屬性而造成的,而這種扭曲則是為了達到描述復雜模型的目的。
同樣是針對Hessian矩陣的特征值譜,Tnsing研究小組針對多領域中普遍采用的ODEs(ordinary differential equations)模型進行研究[20]。無需知道系統結構以及任何測量觀察信息,他們使用隨機矩陣理論分析協方差矩陣的結構發現,當敏感矩陣的平均特征值寬度達到0.985的時候,模型即可呈現出清晰的非sloppy屬性。因此消除sloppy屬性,本質就是控制Hessian矩陣特征值譜的寬度。具體可以采用的方法有:1)只選擇有特色的數據點,以使敏感矩陣中變量之間的相關性變得簡單,進而抑制sloppy屬性的發生[21];2)選擇最優實驗方法或執行特定的實驗擾動,使得敏感矩陣的水平方向結構收斂到每個參數自身,也會降低特征值譜的寬度,從而將sloppy屬性減弱到最小。該研究小組從他們的研究結果出發,認為sloppy屬性的出現只是實驗設計引發的一種巧合,因此在不討論實驗設計的前提下就說某模型具有sloppy屬性是不準確的。
實驗例證是尋找模型特性的一種常用方法,通過類比大量模型的共有特征,也可發現sloppy屬性的起源。Gutenkunst小組從文獻中抽取17個典型系統生物學模型,通過構建預測模型檢測預測結果,總結出sloppy屬性產生的原因如下[22]:1)參數空間中的裸參數和控制系統行為的特征參數之間存在著特殊的坐標變換關系,這可能是sloppy屬性產生的最根本原因,因此可以通過實施坐標變換予以消除;2)sloppy屬性和它要擬合的實驗數據相關。如果實驗數據不充分,屬性間的耦合性會增強,造成模型的sloppy屬性也會增強。此外在擬合具有時間序列特征的實驗數據時,Tafintseva小組使用主成分分析法分析發現,sloppy屬性和特定的非線性子空間結構之間有著特定的對應關系[23]。上述情況都可以通過增加實驗的數據量,達到解耦待估參數之間的耦合性或消除此特定子結構的目的,進而達到消除sloppy屬性的效果。很多非線性模型同時又具有多時間尺度特性,對這樣的模型進行參數擬合時,變量的變化軌跡可以明顯的區分為跳躍性變化的快片和緩慢變化的慢片,快片對應的是stiff屬性方向,而慢片對應的是sloppy屬性方向。通過將研究初始條件敏感度的李雅普諾夫指數(Lyapunov exponents)和Hessian矩陣做類比,發現李雅普諾夫指數空間既可以解釋指數范圍的sloppy參數空間,也可以解釋具有相同尺度的非sloppy空間,因此在系統層面上將時間尺度和sloppy屬性的敏感性建立了聯系,進而認定多參數系統中出現sloppy屬性可以歸因于動態變化的多時間尺度屬性。此時通過時間尺度切分即可消除sloppy屬性。3)一些簡單模型會因為不同參數組合的冗余性呈現出sloppy屬性,這是因為研究者對系統理解的不夠充分造成的,此時sloppy的消除可以通過獲取先驗知識加深對系統的理解予以消除。
信息幾何組合信息理論和差分幾何理論來探索參數化的模型,通過更多地關注數據空間而不是參數空間來理解模型的屬性,因此更能達到使用數字技術探索模型本質的目的。本質上來說,模型是從參數空間到數據空間的一種映射,因此可以將模型看做嵌入到數據空間的一個流形[9]。
從信息幾何角度看待sloppy模型時發現,Hessian矩陣的特征值在某些情況下具有層次結構,即嵌入到數據空間D的模型流形M所對應的預測流形有邊界,使得橫斷面的寬度呈現層次結構,所以整體形成了一個長而窄的超脊形結構[24]。而超脊結構的產生是因為實驗者對其所研究系統的本質特性了解的不夠深入,使得選擇的參數化模型違背了數學規律造成的,這也是sloppy屬性產生的原因。因此可以通過對模型進行重新參數化或通過修訂實驗、測量標準來降低sloppy屬性的產生。
Quinn小組在前人工作的基礎上,采用更一般的多項式方法探求超脊結構的成因[6]。假定有非線性模型連續依賴輸入參數θ={θ1,θ2,…θk},由該模型產生的預測結果為yθ(t),假定有多項式基為{Φi}i=0,則預測結果可以表示為式(9)

(9)
讓P(θ)=(P0,…PN-1)定義模型的流形,其中

(10)
t是時間序列t={t0,…tN-1}T,則預測模型可以改寫為
P(θ)=Xb
(11)
其中,Xij=Φij(ti-1),b=(b0(θ),…bN-1(θ))T,因此X構成了從參數空間到預測空間的線性映射。假定‖b‖2 使用數學模型描述真實系統時有如下兩種選擇:大而復雜模型可能和真實情況更接近,但因為參數眾多會存在參數的不確定性,簡單模型只抽取最本質構成,但模型本身會有不確定性。Sloppy模型是復雜模型,因此對該類模型進行參數估計時面臨的最大挑戰就是因為參數的不確定性而引發的病態問題(ill-condition)[25]。參數的病態源于對噪聲數據的高敏感性,這種病態對模型而言是固有的但對數據卻不是。因此一些研究者認為模型應該具有唯一性才能克服病態性[26]。還有些研究者認為在參數估計之前應該先認定冗余參數以避免病態模型或者錯誤的收斂過程[27]。 在實驗數據有限的前提下要對復雜模型中的參數進行估計,有兩種可行的方法:一種是通過實驗設計產生出更多的數據;另一種是執行模型規約,在保留模型核心工作機制的前提下使得模型可以和提供的數據相匹配。實驗設計就是決定對哪個組件實施擾動,以及在哪個時間點進行測量。其本質就是如何獲取最大化信息,使用的方法可以是基于貝葉斯后取樣[28],信息理論以及敏感分析[29]。而不同方法的區別在于如何定義最大化的信息,貝葉斯標準是最大化期望值,信息論的方法是利用熵和交互信息定義額外信息量,敏感度分析是希望找到最大化減小待估參數不確定性和方差的實驗,常用的衡量實驗好壞的標準就是A-optimality和D-optimality。而模型規約可以是基于時間尺度[30]、基于模塊性、也可以是基于敏感性[31]。 這兩種參數估計方法看似無關但實際上有很深的聯系,使用模型流形和子集似然(profile likelihood)這個統一框架可以將二者聯系起來[32]。從幾何角度來講,實驗數據是數據空間中的一個點,數學模型是存在于數據空間的流形,參數估計是數據點到流形上的投影,通過檢測投影點在流形投影附近的特征值,既可以執行實驗設計也可以進行模型規約。實驗設計認定新的實驗點,因此可以擴展流形并且移走奇異點。而模型規約認定的是流形最近的邊界,它是最近的特異點,所以是執行規約模型的最合適形式。 故此針對sloppy模型,進行參數估計的思路也可歸結為這兩大類,再加上對已有優化算法的改進,下面就從這三個方面進行介紹。 模型規約就是使用低精度模型代替原始復雜模型,但低精度模型保留了原始復雜模型的核心機制。模型規約廣泛應用于航空、水文地質及石油鉆采等多個領域。 從統計學集合角度解釋來看,Sloppy模型中幾個剛性參數的組合可以被理解為原始模型的低維有效模型,這自然引發了使用低維模型近似高維模型的模型規約問題。規約后的模型有利于發現系統行為的新興控制機制,這種規約不同于為了避免參數過適應效果而討論的模型簡化。流形中超脊結構的存在使得模型流形邊界具有層次結構,因此可以利用這種層次性來實現模型規約。Transtrum研究小組據此提出MBAM算法(Manifold Boundary Approximation Method)實現模型規約[33],該方法分為4步:1)基于Fisher信息矩陣解析認定最小敏感度參數組合;2)數值構建模型流形測地線認定流形邊界;3)如果發現了流形的邊界,則初始模型的近似模型得以認定 4)通過讓近似模型擬合初始模型的行為來認定參數的值。Pare研究團隊使用MBAM到系統的不同參數集合得到不一樣的近似結果[34],說明模型規約也會產生不同的近似模型,而這些近似模型本質上是對應著一個流形的同一個邊界,進而驗證了模型流形是模型參數的一個特定選擇結果且模型流形是嵌入到樣例空間的。MBAM方法不僅被用于研究生物系統,還被用于探索微生物控制土壤時碳循環系統中的參數認定問題以及核能密度函數中sloppy模型的規約及函數的約減,以及電力系統模型的規約問題。 Sloppy模型除了具有超脊結構之外,還有一些呈現出多峰值結構,此時模型流形的適應能力比參數數目所表示的能力要大得多,同時也為參數擬合提出了更高的挑戰。多峰值模型在參數估計時面臨的主要問題是需要為了跳出局部最小值而增加搜索參數空間的范圍,但很多常用的搜索算法因為只能找到一個局部最小值且不是全局最小值而對多峰值問題失效[35]。另外此類sloppy模型的高有效維度也反映出已有的度量標準不能精確捕獲模型中感興趣的信息。Francis研究小組針對這種高有效維度sloppy模型參數估計問題,從構建新的相似性標準開始,引入信號處理方法解決該問題[36]。具體做法是: 首先對參數進行敏感度分析;再根據參數的尺度行為對參數組合進行分類;對于Hessian特征值來說,不同的尺度行為對應著損失界面的不同結構及模流形,因此再根據最大特征值行為對模型進行分類。引入winding frequency和模型流形上的曲率來估計參數空間中局部最小值的密度,通過合適的選擇距離度量尺度,模型流形不僅可以移除局部最小值而且保持距離的相對物理解釋,更有助于認定復雜系統中的未知結構。 減少待估參數數目在一定程度上也有助于在有限的實驗數據下提高參數估計的準確性,因此也是模型規約的一種。Tafintseva研究團隊通過在不同初始條件下提供的大量實驗數據集合,通過多輪擬合確認參數中的sloppy參數,以達到減少待估參數的目的[23]。Kardynska等基于sloppy/stiff參數敏感度分析方法創建參數階排序,以此來找到重要的參數以降低需要精確估計的參數數目[17]。但使用Fisher信息矩陣計算的參數敏感性是基于局部信息的,它只有在測量不確定性特別小的前提下才有效果。同樣是基于敏感度對參數在系統中的角色進行認定,Liu研究組針對噪聲數據下很難直接對所有參數進行認定的問題,基于敏感度認定結果,采用三階段策略實現對sloppy系統的參數估計[37]。首先采用一個比較粗糙且計算費用低的算法為sloppy參數初步指定參數值,其次采用更嚴格的取樣接受標準來估計stiff參數值,最后在近似貝葉斯計算框架下使用自適應算法逐步縮減錯誤誤差。針對測量的不確定性不可忽略的情況,Raman小組引入多尺度sloppy屬性方法,將敏感性的各向異性定義為擾動長度尺度相對于固定數據集或模型預測的函數,從而為不可認定性檢測問題提出了將參數空間的不可認定橫截面作為優化控制問題的數值解決方法,為模型簡化和參數約減提供支持[38]。此外還給出了似然率檢測和多尺度sloppy之間的理論關系如式(12)所示,其中δ 是相對于θ帶來的擾動θ*的長度尺度。 (12) 在貝葉斯統計分析里,先驗一般是指參數空間的先驗可能分布,該分布給出了隨著參數變化時模型的可能密度信息。因為先驗可以最大化參數和預測之間的交互信息,從有限的數據里學習最多的知識。因此先驗不僅有助于在模型選擇時找到最有效低維模型,而且在參數識別過程中更有助于得到更快的收斂速度以及更小的認定錯誤[39]。同時先驗信息還可以阻止優化過程中參數組合引發的參數蒸發問題[24]。 Transtrum組通過將參數擬合問題看做插值過程,從差分幾何角度分析sloppy參數估計過程發現,基于最小平方損失函數進行數據擬合的困難主要源于模型流形的層次邊界中存在很窄的邊界。當參數擬合執行到這些窄邊界時,優化收斂過程變得緩慢,外在表現就是sloppy參數值變化很大但損失函數卻變化很小。為了克服窄邊界的局限性,研究者引入參數空間圖來構建模型圖,既可以移除流形圖的邊界問題也可以克服參數空間圖移動不連續問題,同時也提供了一種解釋數據空間和參數空間自然方向的方法。通常使用下列式(13)定義模型圖。 (13) 其中第一部分是模型流形的度量,第二部分是參數空間的度量。當模型圖無效的時候,可以引入先驗。為每個參數增加兩個先驗,如式(14)示[24]。 (14) 前者用來懲罰大值,后者用來懲罰小值。增加先驗后,模型圖修訂為式(15)所示。 (15) Mikhail研究小組發現已有的實驗先驗信息在點估計時并不能提高參數的估計效果,究其原因是因為數據內容提供的信息量過少[40]。據此他們提出基于組合實際數據和人工生成數據共同作為實驗先驗的全貝葉斯變體方法,以達到限制參數分布的目的。全貝葉斯實驗先驗方法是之前實驗先驗點估計的直接擴展,直接擬合池化后的每層后驗分布,該擴展使得參數估計不確定性可以直接反映在實驗先驗中。由于每個變量都對應多個數據點,使得以組合方式估計多變量部件中的每一個變量的協方差成為可能。但該方法并沒有在參數估計時表現出更明顯的優勢,因此研究者們建議應該把目標轉向到如何獲取或提升實驗獲得的量方面 L-M(Levenberg-Marquardt)算法被廣泛應用于非線性函數的參數估計問題。該方法主要用來處理Jacobian矩陣秩的虧損,同時也為高斯牛頓算法提供了一個全局的策略[41]。將置信區間方法應用到高斯-牛頓算法中用于近似Hessian矩陣,即可基于式(4)得到L-M迭代更新參數公式為式(16)。 δθ=-(JTJ+λDTD)-1g (16) 其中λ是拉格朗日乘子用來控制步長的邊界,而g=JTr是梯度。如果λ和步長選擇的合適,甚至可以達到全局收斂的效果。 L-M算法有很多優點,比如在原子能模擬領域,通過將L-M算法合并到常用的potfit方法里,將其作為求解局部最小值的最新算法,使得構建出來的原子間勢能更擬合sloppy模型。但多數情況下,如果將L-M直接應用于sloppy模型的參數估計有很大困難,因為超脊結構下參數估計會面臨在平坦寬闊區域參數消失、在狹窄尋優區域進展緩慢、以及優化結果對初始值依賴程度大等問題[42]。Transtrum小組對標準L-M算法從三個角度進行修訂以克服上述困難[42]。1)在假定模型圖形的外曲率非常小的情況下,對殘基引入泰勒近似的二階項來調節L-M算法的步長,以幫助L-M算法對初始條件保持魯棒性,使得在降低計算Jacobian矩陣耗費的情況下能以很高的成功率找到最優值;2)針對狹窄區域搜索緩慢但卻很少發散的特征,適度接受上坡的移動可能有助于加快尋優的進程;3)因為每輪迭代都需要重新計算Jacobian矩陣,以往的研究者們采用不同的方法減輕此計算負擔,如使用Jacobian矩陣的主子矩陣,對Jacobian分區切塊處理,同時擾動Jacobian矩陣。Transtrum研究小組則采用擬牛頓根發現方法替代Jacobian矩陣的每輪計算,公式如式(17)所示,只在1-2次拒絕接受步長后再重新啟動計算過程,也可以節省計算時間。 (17) Transtrum小組在L-M殘基中引入高階項之后,又提出將高階項作為測地線加速的方法[43]。通過差分幾何導出測地線加速項,這里的測地線加速并沒有試圖提高高斯-牛頓近似的Hessian矩陣,而是將小殘基近似擴展到了立方階。在導出測地線加速時,小殘基近似被小曲率近似替代,后者為高斯牛頓近似和L-M算法提供了更寬廣的調整空間。即使最好擬合時殘基特別大也可以調整,因為這是模型的屬性而不是數據適應的屬性,這個思想貫穿到算法的整個階段而不只是在最優值附近。為了節省計算負擔,該算法還將測地線加速中需要計算的二階導數替換為二階方向導數,只需對殘基進行一次評價計算即可完成。 Brunel小組研究發現[44],L-M在尋找最優參數時敏感矩陣扮演了至關重要的角色。即使在提供大量實驗數據的前提下,如果參數θ在狀態Xθ是稀疏取樣,也會對擬合結果造成很大的偏差。因此特異敏感矩陣的存在是參數估計反問題成為不適定性問題的元兇。據此,針對ODE模型,該研究小組基于廣義光滑算法[45]定義了一個兩步程序,通過改寫ODE方程為其近似形式如式(18)。 (18) 再通過使用被殘基u(t)控制的ODE的軌跡Xθ,u達到規避求解Fisher矩陣,明確控制估計的近似偏差,以及獲得偏差測量的目的。 參數估計又稱參數可認定性,是指從一個已知系統的實驗及信息中獲得所有未知參數值的能力[27]。可認定性分為結構可認定性與實際可認定性[46],結構可認定性是指從實驗數據得到的參數值具有唯一性,實際可認定性是指參數估計值的置信區間具有有限尺寸。一個參數在結構可認定基礎上,仍然可能是實際不可認定的,這歸因于兩個點,一是所提供實驗數據的質和量不夠充分,二是由于測量時間點的選取不合適。此時,盡管有時似然估計目標值對這個參數具有最小值,但置信區間卻無限大,因此估計得到的參數值變得沒有意義。當參數之間有補償效果的時候,通過以和的方式作為目標函數來認定模型中的每一個參數是困難的[16]。 參數估計值的不確定性是指以多大的可信度確認參數值的準確性,參數估計的結果當然是希望不確定性越小越好。但參數估計的不確定性受到模型的復雜度、數據的充分性、數據的噪聲以及sloppy屬性等諸多因素的影響[21]。降低參數估計不確定性的方法主要集中在對數據集的處理,如通過不斷對調控參數的數據增加擾動[13],使得一個數據集中參數不確定性大的方向對應另一個數據集中參數不確定性小的方向,即讓不同的數據集之間具有互補效果[16,19],或者進一步探索實驗不確定性和實驗條件之間的關系。 模型中的未知參數需要基于實驗中觀察到的數據進行估計,但相對于模型的復雜性而言,當實驗提供的數據數目有限的情況下可能不足以限制住參數[47]。因此截然不同的數據集可能會產生相同擬合效果的參數集[23],這就是模型復雜性和數據之間信息差異的顯現。那么是否提供足夠多的實驗數據,就可以認定模型中的sloppy參數?實驗設計對參數估計有什么樣的影響?不同學者從不同的角度進行了探索。 一些研究者發現,sloppy屬性和“結構不可認定”之間不存在等價關系[5,14]。通過增加實驗數據的確可以提高參數估計的精確性[12],而且在sloppy區域的誤差也很小,在可提供噪聲自由的實驗數據條件下,有可能為待估參數找到唯一的值,但基于此模型的預測結果和實際實驗結果偏差卻很大。該情況說明在模型構建時細節沒有考慮清楚的條件下,為了估計出參數需要不斷補充實驗數據,使得之前模型中不相關的部分變得相關同時也引入了系統錯誤。因此,與其一味地增加實驗數據提高參數的可估計性,不如在參數估計前先確定哪些參數和模型的運行機制密切相關,再做參數認定能更有效。從這點來看,實驗數據的增加應該讓位于模型規約以及參數化簡。再有,因為sloppy屬性和模型結構之間的關系還不能完全被研究者掌握,因此依據一定的可信度計算出待估參數的值比唯一認定參數值更具有現實意義。 實驗方案的選擇同樣對參數估計結果有影響,研究者們提出了很多實驗方案的改進方法以有利于參數估計[48]。Chis研究小組發現在不同的實驗實現條件下,sloppy參數的估計值不同[5,14],針對不同的最優實驗標準,相對置信區間的分布也不同。因此對所有參數而言提高認定比例在某種程度上一定會使置信區間降低,但sloppy屬性仍會保持不變,因此實驗設計應該使用E-優化[49]或D-優化[50]而不是追求sloppy最小化。限制實驗中的噪聲可能會將sloppy模型轉換為非sloppy模型,但并不意味著參數的可靠性估計不能被計算。而且經過精心選擇取樣時間對于sloppy屬性消除的效果好于單純增加實驗數目的效果。Apgar和Chachra小組則發現,當實驗數據通過不同方式產生時,所有數據均能以較高的精確度對參數進行認定(真實值的10%范圍內),也就是實驗方法的多樣性更有助于參數認證[13]。因為此時不同數據集合之間是互補關系,每個集合都包含了其他集合成員不能提供的信息,此時一個實驗大的不確定性方向對應著至少其他一個實驗的小確定方向,因此就數據整體來說所有的信息都是充分的。 Transtrum小組還針對參數估計問題給出了實驗選擇算法[51]。他們首先定義參數估計精度的公式如下式(19)所示: (19) 據此提出對參數擬合而言的實驗應通過如下步驟得到: 1)找到提供的所有數據中,參數擬合最好地那組數據;2)假定1)中得到的參數就是參數的真實值,據此對所有其它數據再次執行擬合過程;3)根據參數估計精度公式對潛在的實驗重新進行評價;4)對每個實驗找到降低擬合錯誤的方法;5)不斷增加新數據重復實驗直到估計錯誤足夠小時停止。 構建數學模型一方面是研究系統的工作機理,另一方面就是對系統未來的行為進行預測,因此參數估計結果的好壞也影響著模型預測的準確性[13]。即使模型中的每個參數只有一個適度的錯誤,都會導致預測結果在一個很寬的范圍[52]。當一個模型中包含很多參數,即使每個參數都只有很少的精確性,只要在模型預測時把這些不精確性的相關性考慮進去,也能產生有用的預測[16]。集合性適應一定數量的數據可以嚴格的限制模型的行為但卻無法限制參數的組合效果,此時在沒有關于每個參數的精確值時,可能會做出低確定性的預測,因此精確的參數值對于可靠性預測而言至關重要[21]。 并不是所有的參數對該預測都重要,因此如果一個模型在某個特定預測時只和某些參數組合相關,則參數認定時只認定這些參數即可[13]。而且實際情況是,sloppy模型下的參數估計都有不確定性,那么參數值的變化能在多大程度上影響預測的結果,這就需要一種能評價預測能力的評價方法。參數敏感度分析研究的是參數值的變化對模型輸出的影響程度[53],因此評價預測效果的方法一定和敏感度分析息息相關。還有的研究人員通過定義相對剛性敏感度和相對敏感度如式(20-21)所示來探索此問題[54]。 (20) 其中 (21) s=J′JW是常數 當預測模型比擬合模型更敏感時RSS可能會提供更多信息,而RS通常適用于參數只負責預測情況的場合。當這兩個相對測量值趨近于0時,表明參數估計是從非常低精確率的擬合中得來的,因此不足以給出有效的預測。 為了考慮參數間的相關性這種模型不確定性的來源,他們又定義了相關性測量公式如式(22)所示。同樣,趨近于0的RCM表明參數認定效果差會影響預測的精確性。 (22) 模型的過度參數化會導致基于模型的預測性能的退化,因為預測性能依賴于模型參數的精確估計而每個參數的不確定性疊加又會造成預測性能的降低[55]。因此,一開始建模時就面臨這樣一個兩難的選擇:是選擇增加參數的數目提高數據擬合的效果還是減小參數數目以提高模型預測的效果?在考慮這兩點因素情況下的預測性能優化通常可以使用AIC(Akaike information criterion)[56]或BIC(Bayesian information criterion)[57]最小化進行度量。但這些標準在很多應用中失效,失效的根本原因無非是參數的不確定性以及模型的多峰值性[58],而這兩個特性對sloppy模型來說都存在。當Sloppy模型中存在參數的不確定性時,此時AIC會高估真實情況的復雜性,如果sloppy模型有多峰值時,AIC又會低估真實系統的復雜性。針對此情況Lamont小組提出一個新的模型選擇標準FIC[59]: FIC(X,Μ)≡h(X|X)+R (23) 其中h的負無偏定義及R定義為 (24) 該標準是AIC的更一般形式,不僅在數據量有限時效果優于AIC,而且不受ad hoc先驗分布和正則的影響,因此特別適用于貝葉斯模型的選擇,即使模型沒有解析表達式提供的情況下,計算效率也有優勢。 近20年間,數學模型Sloppy屬性的特征、起因、與模型其它屬性的關系及由此引發的參數估計及模型預測問題得到了廣大研究者的廣泛關注和深入研究。這些研究的發展及取得的研究成果使得人們在面對sloppy模型屬性時有可以借鑒的理論依據及有效的解決方法。在本文中,基于所能接觸到的文獻對sloppy屬性的相關工作進行了綜述總結,從分析sloppy屬性在各類數學模型中的普遍性及廣泛用途,到判斷該屬性的方法,以及從不同角度分析該屬性產生的起因及消除,然后針對具有該屬性特征的模型如何進行有效的參數估計都做了總結。基于以上的綜述,針對該問題提出一些研究主題,以便持續推進該領域的未來發展。 1) 針對sloppy屬性估計的特定優化算法研究 前述討論優化算法的目標函數多采用點估計的最小平方和形式,對已有算法的改進也是從如何讓最小平方和形式更有效的角度出發的。對于參數之間具有補償效果的情形而言,和形式作為目標函數并不是一個很好的選擇。那么針對sloppy參數估計而言,什么樣的目標函數才是一個好的目標函數卻幾乎沒有文獻予以討論。有效低維和有效高維有何判定特征,以及如何針對不同特征設計高效的參數估計算法也是未來值得探討的問題。 2) sloppy屬性全局評判標準研究 研究者們都意識到基于Hessian矩陣或Fisher矩陣認定sloppy屬性是和特定數據相關的,因此是一種局域性的判定標準。盡管有研究指出可以使用主成分分析多數據集以獲得全局視角,但分析多少數據集是足夠的?是否有可以脫離數據集而存在的全局視角也是未來深入探討的問題之一。 3) 保障模型預測精確性的參數估計標準定義 模型規約及增加實驗數據都可以提高參數估計的精確性,但精確到什么程度的參數估計可以保證使用該模型預測的結果也是精確的,二者之間的定量關系怎樣,目前研究涉及到的很少。 4) 一體化參數估計及模型預測的框架研究 模型構建以及基于模型進行預測是基于模型研究真實系統的兩個不同階段,二者相輔相成。但目前的認知通常把二者截然分開,且認為構建好的模型在預測過程中不應改變。這也是造成擬合好的模型預測效果差的原因之一。應該從一體化的角度構建這兩個階段的模型調控框架,讓彼此之間有反饋和鏈接才能更好提升模型的預測效果。這樣兩個階段的模型都是可以動態調整的, 5) 人工合成數據對參數估計及預測的影響研究 實驗條件的限制造成能獲取到的實驗數據就那么多,有時因為成本的原因,甚至最優實驗設計也未必能實施。因此使用人工合成數據提高參數估計和模型預測的準確率就變得尤為重要,但人工方式合成的實驗數據對參數估計和模型預測是否有影響以及有怎樣的影響,這方面的研究幾乎沒有涉及,因此也是未來的研究方向之一。3 Sloppy模型的參數估計
3.1 模型規約

3.2 借助先驗信息



3.3 改進優化算法


4 參數估計相關問題
4.1 可認定性與不確定性的影響
4.2 實驗數據與實驗設計的影響


4.3 對模型預測的影響




5 總結及未來研究方向展望