吳宇桐 蔡霞 陳亞慧



摘要:顯著效應識別是部分因析設計中一個非常重要的研究內容, 但按照傳統方法識別出的交互作用項往往很難解釋。在傳統分析方法的基礎上, 結合LASSO方法, 本文提出一種在三水平部分因析設計中條件主效應的變量選擇方法, 并將其與傳統方法做了分析比較。結果表明, 基于LASSO回歸的條件主效應分析方法得到的模型項數更少, p值更小, 擬合程度更高, 選取的條件主效應項更容易解釋。
關鍵詞:試驗設計;條件主效應;LASSO回歸;變量選擇;部分因析設計
中圖分類號:O212.6文獻標志碼:A文章編號: 1001-2443(2023)06-0511-05
部分因析設計是工業、農業、生物等領域中最常用的工具之一,近年來,得到了許多學者和專家的廣泛關注[1-6]。基于二水平部分因析設計,Wu首次提出將條件主效應(Conditional Main Effect, 簡記為CME)替代交互作用作為變量選擇的基礎函數[7]。CME的提出不僅解決了二水平部分因析設計中的別名問題, 還在實際應用中有很好的工程解釋[8]。Su和Wu根據CME的定義和性質,給出二水平部分因析設計中重要因子識別的分析策略[9]。Mak和Wu基于CME coupling和CME reduction兩個原則提出二水平部分因析設計中CME變量選擇的新方法:cmenet。與傳統的交互作用分析方法相比,cmenet變量選擇法可以得到更簡潔的模型和更高的預測精度[10]。但是,到目前為止,有關三水平部分因析設計中CME變量選擇的方法在國內外很少有人研究。
在三水平部分因析設計中,Picinbono和Devaut引入了線性-二次系統的概念,證明了線性-二次系統的最優檢測和最優估計之間存在著很強的關系[11]。Sabbaghi等人指出,可以利用線性-二次系統來構建指標函數,應用于研究三水平部分因析設計的別名問題,引入了一個代數運算來計算指標函數的系數,有助于為交互作用的可估性建立簡單條件[12]。在國內,劉長玉利用了線性-二次系統將CME分析推廣到三水平定量因子上,并根據效應之間的關系給出了CME分析策略[13]。
本文把三水平部分因析設計中CME分析看作變量選擇問題,利用LASSO回歸篩選出顯著效應。LASSO不僅有稀疏矩陣的有利特性,還可以實現龐大變量數目下的變量選擇,廣泛地應用在各種統計模型中[14-18]。LASSO回歸可以處理變量數目遠遠超過運行數的試驗設計,相比于壓縮變量的嶺回歸,其表現更為出色[19]。三水平部分因析設計中CME變量選擇在實際問題中有很大的研究意義。本文在三水平部分因析設計中基于條件主效應去構造新的效應組,利用LASSO回歸對新的效應組進行變量選擇,進而給出一個新的CME變量選擇方法。
本文的組織結構如下:第一節給出三水平部分因析設計中CME的定義,第二節基于LASSO回歸提出新的CME變量選擇方法,第三節給出兩個三水平部分因析設計的實例來具體闡述所提出的變量選擇方法,并與現有的CME變量選擇方法進行比較進而說明基于LASSO回歸的CME變量選擇方法的有效性,第四節總結全文,并提出未來的研究方向。
2 基于LASSO回歸的CME分析方法
第一節給出了三水平部分因析設計中CME的定義,本節首先選擇主效應和條件主效應來建立模型矩陣,再利用LASSO回歸進行變量選擇,進而構建一個新的模型。首先介紹LASSO 回歸的選擇準則。
3.2 瞬時制動試驗
考慮一個含有四個因子的[34-1]設計,定義關系為[I=ABCD2]。四個因子均為三水平因子,取值分別為: 卷曲機的水壓(A)為1100,1400 和1700磅,模板的位置(B)為10.0,10.2和10.4毫米,卷曲的長度(C)為18,23和27毫米,制動位置(D)為P74,P75和P76。試驗的目的是找到瞬時制動的最小值,設計矩陣和瞬時制動數據見文獻[1]。
試驗中,因子A,B和C是定量因子,因子D是定性因子。根據第二節基于LASSO 回歸的CME變量選擇策略,用對照[Al]和[Aq],[Bl]和[Bq],[Cl]和[Cq]分別作為定量因子A,B和C的主效應,用[D01],[D02] 和[D12]作為定性因子D的主效應。由表3 可知,一共有81個條件主效應,將所有主效應和條件主效應的對照作為候選變量建立初始模型,根據交叉驗證得到[λ=0.111],識別出以下模型:
[y=13.666+0.749Al-0.252Cl+0.384Al|C0+0.273Bl|A1-0.581Cl|A2-0.171Cl|B2-0.306Cl|D2+0.209Cq|B1 。]
LASSO回歸的詳細分析結果見表5,此時模型的[R2]值為0.967,p值為3.62e-13,此時模型的擬合優度很好,選擇出來的變量也很顯著。并且識別后的模型只有8項,與含有81項的原始模型相比,此時的模型更簡潔。
4 結論
本文基于LASSO回歸的思想提出一種三水平部分因析設計的CME 變量選擇方法,首先寫出全部效應項的對照向量,用定量因子和定性因子的所有主效應和條件主效應建立初始模型,再基于LASSO 回歸識別出重要的效應項。實例研究表明,本文提出的CME變量選擇策略得到的最終模型的擬合度高,相比于現有的CME 分析策略無論是擬合度還是顯著性均有了很大的提高。除此之外,條件主效應比交互作用有更好的工程解釋。
然而,到目前為止,有關高水平部分因析設計的條件主效應分析的研究還較少,可以將當前的設計推廣到混合水平的部分因析設計。還可以考慮將提出的方法適用于壽命試驗中,這是我們將來的研究方向。
參考文獻:
[1]WU C F J, HAMADA M S. Experiments: Planning, Analysis, and Optimization[M]. New York: Wiley, 2021: 267-317.
[2]CHENG C S. Theory of Factorial Design[M]. Leiden: Chapman and Hall/CRC, 2016: 15-79.
[3]GUNST R F, MASON R L. Fractional factorial design[J]. Wiley interdisciplinary reviews: computational statistics, 2009, 1(2): 234-244.
[4]VAN GERREWEY T, AMELOOT N, NAVARRETE O, et al. Microbial activity in peat-reduced plant growing media: Identifying influential growing medium constituents and physicochemical properties using fractional factorial design of experiments[J]. Journal of Cleaner Production, 2020, 256: 120323.
[5]WAKJIRA T G, NEHDI M L, EBEAD U. Fractional factorial design model for seismic performance of RC bridge piers retrofitted with steel-reinforced polymer composites[J]. Engineering Structures, 2020, 221: 111100.
[6]ELAZAZY M S, ISSA A A, AL-MASHREKY M, et al. Application of fractional factorial design for green synthesis of cyano-modified silica nanoparticles: Chemometrics and multifarious response optimization[J]. Advanced Powder Technology, 2018, 29(5): 1204-1215.
[7]WU C F J. Post-Fisherian experimentation: from physical to virtual[J]. Journal of the American Statistical Association, 2015, 110(510): 612-620.
[8]MONTGOMERY D C. Design and analysis of experiments[M]. New York: John Wiley and Sons, 2017: 33-60.
[9]SU H, WU C F J. CME analysis: a new method for unraveling aliased effects in two-level fractional factorial experiments[J]. Journal of Quality Technology, 2017, 49(1): 1-10.
[10]MAK S, WU C F J. Cmenet: a new method for bi-level variable selection of conditional main effects[J]. Journal of the American Statistical Association, 2019, 114(526): 844-856.
[11]PICINBONO B, DEVAUT P. Optimal linear-quadratic systems for detection and estimation[J]. IEEE Transactions on Information Theory, 1988, 34(2): 304- 311.
[12]SABBAGHI A, DASGUPTA T, WU C F J. Indicator functions and the algebra of the linear-quadratic parametrization[J]. Biometrika, 2014, 101(2): 351-363.
[13]劉長玉. 高水平因子的條件主效應分析[D]. 曲阜:曲阜師范大學,2019.
[14]TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1996, 58(1): 267-288.
[15]TIBSHIRANI R. The lasso method for variable selection in the Cox model[J]. Statistics in Medicine, 1997, 16(4): 385-395.
[16]HANS C. Bayesian lasso regression[J]. Biometrika, 2009, 96(4): 835-845.
[17]ALHAMZAWI R, ALI H T M. The bayesian adaptive lasso regression[J]. Mathematical Biosciences, 2018, 303: 75-82.
[18]WU L, ZHOU B, LIU D, et al. Lasso regression-based diagnosis of acute st-segment elevation myocardial infarction (stemi) on electrocardiogram (ecg)[J]. Journal of Clinical Medicine, 2022, 11(18): 5408.
[19]WU T T, LANGE K. Coordinate descent algorithms for lasso penalized regression[J]. The Annals of Applied Statistics, 2008, 2(1): 224-244.
[20]FRIEDMAN J, HASTIE T, TIBSHIRANI R. Regularization paths for generalized linear models via coordinate descent[J]. Journal of Statistical Software, 2010, 33(1): 1-22.
Variable Selection of Conditional Main Effect in the three-Level Fractional Factorial Designs
WU Yu-tong,CAI Xia,CHEN Ya-hui
(School of Science, Hebei University of Science and Technology, Shijiazhuang? 050018, China)
Abstract:Significant factor identification is a very important study in fractional factorial designs, but the interaction terms identified according to the traditional method are often difficult to interpret. Combined with the LASSO method, this paper proposes a variable selection method for conditional main effect in a three-level fractional factorial design. The results show that the conditional main effect analysis method based on LASSO regression yields fewer model terms, smaller p-values, better fit, and the selected conditional main effect terms are easier to explain.
Key words:experimental design; conditional main effect; LASSO regression; variable selection; fractional factorial design
(責任編輯:馬乃玉)
收稿日期: 2022-11-09
基金項目:國家自然科學基金項目(12001155);河北省自然科學基金項目(A2022208001).
作者簡介:吳宇桐(1995—),女,河北承德市人,滿族,碩士研究生,研究方向為試驗設計;通訊作者:蔡霞(1982—),女,河北石家莊市人,博士,副教授,碩士生導師,研究方向為數理統計、試驗設計,E-mail:caixiasjz@163.com.
引用格式:吳宇桐,蔡霞,陳亞慧.三水平部分因析設計中條件主效應的變量選擇[J].安徽師范大學學報(自然科學版),2023,46(6):511-515.