徐靜安
技術講壇
第二講試驗研究中的優選法簡介和討論
徐靜安
優選法涵蓋領域廣泛,包括優化試驗、優化計算、優化設計、優化控制等,本文側重優化試驗討論。將試驗研究對象看作一個總體,根據已有條件和需求,可以進行機理性、經驗性、統計性研究。本文著重于統計性實驗研究。直白地表述:在研究對象的總體范圍內,選擇少量有代表性的實驗點樣本,對總體的響應最優值(較優值)及其規律統計模型作出有效的推斷預報。如何選擇實驗樣本點構成實驗方案,就是優化試驗方法的內容。
優化試驗方法一般分為兩大類:間接分析法和直接分析法。間接分析法就是預先設計實驗方案,進行多個樣本點實驗,用回歸分析等數據處理方法,構造一類函數來逼近這些實驗值,再用優化方法計算函數極值,進行統計分析并通過實驗進行驗證。直接優化法是在初始實驗基礎上按一定模式(規則),根據前面實驗點的結果,比較分析推算優化方向和下一個實驗點,而不求出具體的統計模型。該方法是逐步逼近最優點的方法,又稱“循序試驗法”、“序貫試驗法”,在最優化理論中頗受重視,可處理沒有數值解析的表達式,也可以求復雜函數的最優解。
一般來說,實驗室小試、模式由于實驗條件處于專業可控范圍內,考察的變量因素范圍可適當寬泛,所以都采用間接分析法。而對于中試、示范裝置、工程化裝置,一則研究對象復雜,二則為避免惡劣工藝條件組合產生安全技術風險,可從可用的初始條件起步,按一定模式進行小步長序貫尋優試驗。
(中點)平分法適用于單調函數。美國Kiefer于1953年提出的黃金分割法(0.618法)及分數法僅適用于單峰函數。分數法利用菲波那契數列,類同于0.618法進行操作。該類方法后一個實驗點的安排需依賴前面實驗結果的對比,然后順序進行。
在實際實驗研究時,要求對研究對象的內在規律——函數特性作出先驗判斷。所以在難以判斷對象特性時,大都在實驗范圍內按等步長安排實驗點。
需要強調的是,利用單因素試驗考察的實驗點(或稱水平數)L≥5時,用二次多項式、三次多項式進行擬合,可得近似最優點。
在生物學試驗中,涉及到環境條件(光照、溫度、水分、通風、營養等)中難以嚴格控制的非變量因素,如田間試驗土壤基礎肥力的差異等。為了降低試驗誤差,與一般的理化實驗不同,在隨機、重復的基礎上增加“局部控制”的“區組”,使考察處理的外部環境更為接近。按這樣的概念構成的試驗方案中行數、列數二者相等,該正方形試驗方案又用拉丁字母表示,故稱為拉丁方設計,具體應用時可查拉丁方設計表。表1所示為考察三個變量因素A、B、C的3×3拉丁方的具體方案。任意兩個因素的不同水平各搭配一次,比較均衡。

表1 3×3拉丁方設計方案
實驗樣本量是行或列水平數的平方,即N=L2,所以拉丁方設計考察的變量及其水平數不能太多;拉丁方設計采用方差分析處理數據,樣本量也不能太少,否則會因誤差自由度過小而影響實驗結果檢驗的靈敏度。
拉丁方區組因素的試驗設計是最古老的試驗設計方法,由英國人Fisher R A于20世紀30年代提出,是由理論研究驅動的技術創新。拉丁方設計廣泛應用于農業田間試驗,并由此開創了試驗設計這一新的領域,具有里程碑式的意義。
實際研究對象影響目標響應值大都是多個變量因素。在試驗方法中,多因素問題帶來的復雜性是變量因素間的交互作用和多維空間函數的多峰性。降維法是將多維問題進行簡化的方法,其中坐標(因素)輪換法是應用較廣泛的方法。對其他變量先賦值,降維至一維,進行單因素考察,找到好點,“從好點出發”依次輪換坐標進行單因素考察。
圖1為研究對象的等高線圖,考察因素A、B各包括6個水平,這在系統研究前是未知的。進行降維單因素考察時,假定先賦值A3,對B進行考察,A3B4為好點;固定B4輪換考察A,結果A3B4仍為好點,則得出Y=7,完成一輪降維法單因素考察。

圖1 高等線圖
若考察變量數為M,其水平數為L,則全面組合試驗次數N=LM,降維法考察一輪實驗點的次數N'=M*L。但是,供選擇的降維方案有n=L(M-1)種,不同方案得到的結果是不同的。
該方法簡單明了,符合一般的思維習慣,每個因素對目標響應值Y的影響均具有可解釋性,因此應用廣泛。但是對于多維復雜問題,利用一輪降維單因素考察法盡管也可得到“好點”,卻無法考察變量因素間的交互作用,易落入局部優化的陷阱。圖1直觀地顯示了方法的局限性,如果隨機地采用一輪降維單因素考察結果來描述研究對象是存在技術風險的。顯然,不同的降維方案(即對A不同的賦值)會產生不同的結果。目前該方法大都用于研發工作前期的探索試驗,為主體優化試驗作技術準備。
模式法就是按照規定的一些模式進行實驗,比對計算后尋得優化方向,探索前進。在諸多模式法中,正規單純形模式法較有代表性。
單純形概念由美國數學家丹齊克G B于1947年提出,單純形優化法由Spendly于1962年提出。單純形是指多維空間的一種凸圖形,在幾何構圖時所需頂點數最少。二維正規單純形為正三角形,三維的為正四面體,即其頂點數是圖形的維數加1。高維的圖形無法幾何描述,而在笛卡爾直角坐標系中頂點坐標可用代數方法表述。
圖2為正規單純形模式方法圖解。選定步長a,以正三角形的三角頂點P0,P1,P2為起始實驗點,比較結果表明P0為最差點。按“差點的對稱點為好點的方向”的原則,求得P3點,構成P1,P2,P3組成的新單純形,以此類推,序貫進行,直到找到滿意的結果。

圖2 正規單純形模式法
該方法概念清晰,在多維空間坐標中頂點的坐標值可通過計算公式獲得。適合大規模生產裝置的工藝優化,從現有工藝條件P0出發,控制步長a不致于引起工藝條件的過大波動,逐步尋優。模式法中還包括直角單純形法、矩形調優法及步長加速法等。
1978~1979年,筆者在化工部蘭州化工機械研究院工作期間,參與廣州氮肥廠重油氣化攻關工作時,與上海化工研究院的同仁合作,在氣化爐的工藝調優中曾學習、探索過該方法。由于現場控制儀表的精度不夠,導致P點值的波動過大而影響判斷結果。
對于多峰函數,該方法仍有可能落入局部優化的陷阱。
根據優選概率,對多因素考察范圍隨機選點,形成樣本量為N的實驗方案,對N個實驗結果直接對比,達到優選的目的。
圖3為兩個變量因素的隨機點方案。對變量考察范圍,按實驗可能的控制精度,等步長地劃分網格,再用隨機數形成實驗方案。根據期望獲得的“好點”概率,可以計算出需要的實驗點樣本量N。

圖3 統計實驗法方案
該方法對目標函數沒有過多要求,可以是單峰,也可以是多峰,在多因素時具有相對優勢。隨機試驗法在文獻中被稱為蒙特卡洛法,于20世紀40年代由烏拉姆與馮·諾依曼提出,可將復雜對象的分析問題轉化為統計模擬問題。
由于試驗設計的發展,用數論方法找到的偽隨機數比蒙特卡洛法中的隨機數更均勻,所以不作進一步介紹。但在多因素隨機法中,隨機調優法可用于目標函數復雜、變量因素不限的優化問題,且因素越多該方法越有優勢,應予以關注。
隨機數的產生可借助MATLAB軟件中的Rand函數。在實驗研究統計模型預報功能時,可調用Rand函數在考察范圍內產生隨機化的驗證點集。
在試驗設計方法中,除了廣義的“序貫試驗法”外,另辟專門的序貫設計法。此法的特點是在研究決策問題(統計推斷或選擇)時,不預先固定實驗樣本量,而是逐次取樣安排實驗,直到樣本提供足夠的信息,能正確作出決策為止。也就是說實驗方案的樣本量是隨機的,逐點利用前次獲得的信息決定下次的實驗,樣本是一個一個逐次得到的序貫樣本。
1947年,Wald A的奠基性著作《Sequetial analysis》出版以來,序貫分析研究廣泛,被認為是對統計學發展史的重大貢獻。
序貫法有兩個要素:停止法則與判別法則。停止法則告訴我們在對總體進行逐次抽樣實驗過程中何時停止;判別法則根據停止時得到的序貫樣本實驗數據,對總體作出推斷或選擇(接受或拒絕一個假設、估計參數等)。
早在1943~1945年,Wald A在序貫分析中提出序貫概率比檢驗SPRT,為適應美國二次大戰中軍火生產的質量控制,對經典檢驗進行了重大改進。經典檢驗是:某統計量>臨界值,拒絕假設;某統計量<臨界值,接受假設。改進的基本思想是當統計量不太大也不太小時,不急于下結論,而再抽樣實驗一次,采用序貫樣本的方法,直到統計量足以下結論為止。推而廣之,當同時檢驗幾個統計量,部分統計量不大不小而不能全部通過時,亦可采用該方法。計算結果證明,在相同的犯錯誤概率α下,相對于固定樣本量方案,SPRT所需平均序貫樣本量最小,即效率較高。
對實驗研究可能的競爭性模型(理論模型、經驗模型、統計模型)進行篩選,是我們感興趣的問題。序貫設計過程為:(1)根據模型待定參數先在考察范圍內隨機進行相應實驗點(待定參數個數+1)的初始預實驗,求得模型初始參數;(2)用最優化方法求判別式Δmax時的下一個實驗點;(3)實驗并得到響應值Y進行判別,依此進行序貫分析直到滿足預定的精度。
筆者認為可對序貫設計法的選優思路作進一步引申和改進,將初始預實驗的隨機點集改為更有效率的較小樣本量的均勻設計(創立序貫法時尚無均勻設計),求得模型參數及相應統計量;由于樣本量較小及實驗誤差等的影響,模型預報精度及統計量不能滿足時,引入SPRT概念,再行抽樣進行下一個實驗(對模型進行學習、修整),直到滿足預定的精度,作相應的統計推斷并進行驗證。探索驅動了新方法的萌芽。從理論上分析,先驗地安排固定的較大樣本量時存在實驗點富余的可能性。把均勻設計和序貫分析相耦合的設計方法效率更高,姑且稱之為序貫均勻設計方法,筆者和同仁已在多個項目中成功應用。
二次大戰后,拉丁方設計基本技術引入日本,以田口玄一教授為首的研究人員于1949年起開發了各種正交試驗設計,1957年進一步開發了信噪比S/N設計和三次設計等,這些設計方法成為質量管理的重要工具,是當年日本“質量立國”戰略的技術基礎,也是試驗設計領域發展的第二座里程碑。正交實驗設計是由市場驅動的創新。
正交試驗設計是利用數理統計學觀點,應用正交性原理,在研究考察范圍內選擇一定樣本量的具有代表性的實驗點,構成正交表的一種設計方法。
圖4為M=3,三個因素A,B,C的水平L=3的正交試驗實驗點分布。全面組合實驗次數N=LM=27,正交試驗次數N=L2=9,均為具有代表性的實驗點。選用L9(34)正交表(見表2)。在考察范圍內實驗點布點均勻能獲得更多信息,每兩個因素之間是L2的全面組合試驗。

圖4 正交試驗試驗點分布

表2 L9(34)表的具體方案
正交試驗設計具有“均衡分散、整齊可比”的特點,可以得到優化的ABC組合條件。表格化的設計方案、程序化的方差分析、直觀化的結果顯示,受到不同專業研究人員的歡迎。
表2是L9(34)表的具體方案,A,B,C分別安排在1,2,3列。每張正交表都有相對應的兩列間交互作用表,供使用時進一步的表頭設計。L9(34)表為考察4個變量因素、3水平的試驗設計表,使用該表時存在交互作用和主效應間的混雜現象。
從表3可見,L9(34)表安排2個因素,交互作用不混雜,但此時A,B是全組合試驗,沒有正交試驗的特色;安排3個因素可節省實驗工作量,但交互作用對主效應A,B,C部分混雜;安排4個因素可大大節省實驗量,但交互作用全面混雜。概括地說,如有先驗的經驗判斷或者抓主要矛盾(即僅求取較優工藝條件),則那些交互作用可以忽略。正交試驗設計正是忽略了交互作用的考察,才“節省”了實驗次數,這是正交設計的不足。

表3 L9(34)表安排不同因素數的具體方案
此外,正交設計樣本量N=L2甚至更大,對于變量考察范圍較大,水平數大于5的多水平場合,實驗量較大。而硬性地將水平數壓縮為2,3時,用大步長離散網格來篩選優化點,存在較優條件漏網的風險。
由此可見,正交試驗設計比較適用于多因素、小范圍且對因素間交互作用有所了解的研究對象,尤其是從現有工藝出發,進行小范圍調優及質量控制研究具有相對優勢。
筆者在蘭州化工部化工機械研究院工作期間,于1980年7月、1988年8月以《正交試驗法》為教材,于1984年7月以《技術數理統計方法》為教材,三次舉辦培訓班主講并推廣正交試驗法。正交設計法還包括正交表并列設計(混合水平)、擬因子設計、部分追加法、裂區法等。鑒于當前已有更為先進的均勻設計法,不再進一步展開。
上述正交試驗設計通過極差分析、方差分析得到較優的條件組合,但不能通過統計模型對離散水平之間可能的優化組合作出可靠的預報和對交互作用進行全面考察。數理統計求取統計模型一般應用最小二乘原理,利用回歸分析建立變量和響應的統計方程。回歸分析和正交試驗設計是互相獨立的應用數學分支,但二者耦合構成回歸正交試驗設計。解決局限、不足驅動了新的方法產生。
回歸正交設計在二水平正交試驗點基礎上,擴充增加星號試驗點和零號試驗點,構成試驗設計方案。試驗點分布見圖5、圖6,變量因素水平需增添為L=5,增加了實驗樣本量。如前述三因素案例,構筑三元二次回歸正交設計的方案實驗次數N=15。

圖5 二元二次回歸正交組合設計試驗點分布
由于當年計算機及回歸分析軟件還不普及,回歸正交設計利用正交性、通過編碼轉換,不需要進行矩陣轉置、求逆運算,僅依靠計算器進行表格式的運算即可求得經典的全回歸模型,一度受到關注。
筆者認為回歸正交試驗設計現已失去優勢。從試驗設計的角度分析,既然研究對象允許變量水平擴充為多水平(L=5),均勻設計的效率更高;從數據處理的角度分析,軟件化的逐步回歸已取代經典的全回歸分析。
由于近年出版的不少教材仍有關于回歸正交試驗設計的章節,所以本文也單獨對其進行討論,讀者僅作科普性了解即可。

圖6 三元二次回歸正交組合設計試驗點分布
因子設計是一種多因子(變量因素)試驗設計方法,經方差分析可以量化各因子及其交互作用對Y響應的效應。該方法主要用于對大量因子(M>5)進行研究的初期探索階段,即進行因子篩選。
在一項新領域的研究工作中,科研人員的先驗經驗不足,需要考察的因素量M可能很多,但最終可能只有少數因素對響應值Y有實際影響(效應稀疏性)。利用因子設計法經初期因子篩選后,對保留的因子可以進行更為細微的主體優化設計試驗。但是,因子設計實際上是個全組合實驗方案,包括2M、3M因子設計,將研究因子范圍粗定為2水平、3水平,2水平為線性簡化。假定考察M=3,因子水平L=3,分別為0,1,2。如圖7所示33因子設計布點,該設計實際上是N=33=27的全組合實驗。如果M=5,L=3,則N=35=243,僅僅是初期的篩選試驗,就有這樣大的實驗工作量。所以多因子篩選邏輯上的合理性和實驗上的可操作性有很大矛盾。
筆者認為因子設計是試驗設計技術發展過程中曾經出現過的一種方法,與當前的均勻設計和逐步回歸設計技術相比,已無特色、優勢,僅作瀏覽即可。

圖7 33設計的處理組合
英國統計學家Box G和Wilso于1951年提出響應曲面法(RSM),隨著計算機數據處理技術的發展,能給出2個變量對響應Y的圖形。便于直觀判別優化區域的RSM,一度得到了關注。
當多因素試驗在初期篩選因子后,只留下為數不多的因子(M=2~4),并搜索到優化區域,再采用RSM進行實驗、建模和數據圖形處理。一階響應曲面是作了線性簡化,二階響應曲面為了二次多項式擬合建模需要,對實驗方案及實驗點作了與回歸正交試驗設計相類似的技術處理,將變量水平擴展為L=5,見圖5、圖6。
筆者認為,凡是能統計建模的試驗設計,加上圖8所示計算機作圖(響應曲面、等高線圖)功能,均可達到RSM的效果。

圖8 二因素的三維響應曲面
一階、二階響應曲面法,包括1960年推出的二階響應曲面的改進Box-Behnken設計,在當今試驗設計中并無系統的優勢。
至于建模后圖形處理和顯示,現有MINITAB等軟件均有較強的功能模塊給予支持。
1978年王元、方開泰用數論方法(或稱偽蒙特卡洛法)開發出了均勻設計。該方法被成功應用于多因素多水平的導彈設計問題,并獲得推廣應用。均勻設計被國際數理統計界公認為先進的試驗設計方法,是一種穩健設計方法,也是用于大系統計算機仿真試驗設計的重要方法之一[國外還有“拉丁超立方體抽樣(LHS)”方法]。
正交設計的特點:“均衡(勻)分散”使實驗點具有代表性;“整齊可比”使實驗數據可以直觀進行比對分析。為了保證“整齊可比”,正交設計的兩個因素間必須全面進行組合實驗,即最低實驗次數N=L2。而均勻設計在實驗考察范圍內只考慮均勻分布,數據處理依靠回歸分析(逐步回歸),所以實驗點可進一步降低,每個水平只做一次實驗,樣本N=L,實驗設計方案效率更高;回歸分析也有助于對變量間的交互作用作深入考察。
對均勻設計的樣本量,數據處理系統(DPS)建議N=3M,筆者推薦N=(2~2.5)M,可根據研究對象的復雜程度及實驗誤差的控制水平選用均勻設計表。
表4 表及其配套的使用表

表4 表及其配套的使用表
U7*(74)表1 2 3 4 1 1 3 5 7 2 2 6 2 6 3 3 1 7 5 4 4 4 4 4 5 5 7 1 3 6 6 2 6 2 7 7 3 3 1 U7*(74)表的使用表因素數列號D 2 1 3 0.158 2 3 2 3 40.213 2
若以本文在不同試驗設計中列舉的因素M=3、水平L=5為例,進行設計方案分析,則
全面組合實驗次數N=LM=53=125;
降維單因素考察一輪實驗次數N=L×M=5× 3=15,忽略交互作用,陷入局部優化;
正交設計實驗次數N=L2=52=25,選用L25(56)正交表,忽略交互作用,效應混雜;
正交回歸設計實驗次數N=15,選用三元二次回歸正交設計;
均勻設計在多因素多水平研究問題中,顯示出突出的優勢。
20世紀80年代,導彈設計中有個項目是5個變量(M=5),試驗水平數不少于10(L≥10),而實驗總次數又不能超過50(N≤50)。這是一個多因素多水平的研究對象,由于無法采用正交設計及其他試驗設計方法,研究工作面臨困境。
王元、方開泰于1978年受當時的第七機械工業部委托,用數論方法開發出了新的均勻設計,實驗量N=31,取得了成功。這是由需求驅動的創新。
20世紀90年代中后期,筆者曾支持院科研處外請專家來院講授均勻設計,教材是方開泰著的《均勻設計與均勻設計表》,該書我保留至今,時常翻閱。多年來也努力應用并推廣均勻設計。30多年來,均勻設計從軍工系統向民用系統擴散、轉移,得到迅速發展和應用。均勻設計方法受到普遍關注。隨著試驗設計和數據處理技術的發展,均勻設計還包含有定性因素的均勻設計、混料均勻設計、均勻序貫設計,以及均勻設計和其他數值計算技術的耦合優化,如UD+Fluet、UD+ASPEN等。均勻設計作為當代優化試驗設計的主流技術,值得學習、應用、推廣。
在科學研究、工農業生產中,混料——配方問題是廣泛涉及的研究對象。混料試驗中分量組分至少有三種(p≥3),每個組分χi的質量分數總和等于1,即

實驗響應值Y僅與xi的占比有關,而與其總量無關。由于Σχi=1約束條件的存在,和以往試驗不同,變量因素——組分xi是不獨立的,所以試驗研究的設計方法、數據處理技術均有根本性的差異,因此試驗設計就包括專門的混料設計。
在混料設計中,要以單形坐標系而不是笛卡爾直角坐標系來進行描述。單形是指頂點數與坐標空間維數相等的凸圖形,一般采用正單形,如正三角形、正四面體等。P維單形即P-1單純形,P=3即高為100%(1)的平面正三角形,構成三線坐標圖。正三角形內任意一點R(具體的實驗點)都有三個組成的含量坐標,且x1+x2+x3=1,如圖9、圖10所示。P=4為正四面體,P≥5時無直觀圖形,用數學描述。

圖9 混料設計約束圖

圖10 混料設計三線坐標圖
Scheffe于1958年在正單形坐標體系基礎上提出單純形格子點法,1963年提出單純形質心法。Cormell提出了軸設計法,并在1990年對經典的混料設計作了綜合介紹。MINITAB軟件有相應模塊支持單純形質心法、單純形格點法、極端頂點設計法,只要輸入實驗條件計算機即可生成混料設計方案。

圖11 單純形設計圖
圖11為利用極端頂點設計法分析某個阻燃劑案例的實驗點分布。
在經典混料設計法應用過程中,發現了新的問題:(1)實驗布點局部密集,點集TP布點不均勻;(2)界面點過多,在無下限約束中,實驗時某個組分為零,造成化學反應不發生或生成另一種產物,非實驗所求。問題驅動創新,王元、方開泰在1978年提出的均勻設計基礎上,于1990年提出混料均勻設計,2000年完善為條件分布法的混料均勻設計。DPS軟件中有相應模塊支持混料均勻設計。
表5為無上下限約束的P=5的混料均勻設計表,實驗點組分沒有零值,布點更均勻。

表5 無上下限約束的P=5的混料均勻設計表
本文對講座涉及的試驗設計方法等作概括介紹,對主要的現代技術,今后將專題作應用性介紹。
最近筆者閱讀了《中國人才》(2015年11期),國外知名職業人士社交網站Linkedin對全球超過3.3億用戶的工作經歷和技能進行了大數據分析,公布了2014年最受雇主喜歡、最炙手可熱的25項技能,其中“統計分析和數據挖掘”技能位列榜首。具體到人是“具備IT技術能力、數據統計能力以及本專業過硬的復合型人才”。
腳踏實地、眼望星空。愿青年科研人員結合崗位工作,學習、應用數理統計方法、數字化技術,提高研發水平和技術創新能力。
(略)