李 靜 于 輝 王金甲
(*燕山大學理學院 秦皇島 066004) (**燕山大學信息科學與工程學院,河北省信息傳輸與信號處理重點實驗室 秦皇島 066004)
目前高維數據回歸問題的稀疏性使線性方法如Lasso獲得了巨大的成功[1]。Lasso是L1罰的最小二乘回歸,也可以推廣到廣義線性模型[2],例如L1罰的loGistic回歸用于分類[3]。響應變量是預測變量的線性加權和,加權系數可通過坐標下降法求解[4]。在分析高維數據時響應變量可能不能用預測變量的線性加權和來解釋,那么就需要使用2次模型和高次模型。這有可能說明存在特征交互問題[5]。例如單核苷酸多態性(SNPs)間的交互被認為在癌癥和其他疾病診斷中起著重要的作用[6]。線性模型可解釋性好、計算簡單的優點使得考慮特征交互的模型成為研究熱點和難點[7]。特征交互的分層模型的方法可以分為3類:第1類是多步驟方法。一旦交互特征對應的預測變量在模型中,那么交互特征也必須在模型中[8]。或者先考慮變量選擇后考慮交互[9],采用修正的最小角回歸算法求解分層模型[10]。第2類是貝葉斯方法,例如改進隨機搜索變量選擇方法用于分層模型[11]。第3類是基于優化的方法,將稀疏交互分層模型用公式表示為非凸優化問題[12],進一步將非凸優化表達為凸優化問題如Lasso[13]和Group Lasso問題[14]。在結構稀疏文獻中[15],復合絕對處罰(composite absolute penalties ,CAP)也能獲得分組和交互稀疏,但是交互特征系數被罰了2次[16]。文獻[17]的方法解決了在非線性交互問題上的分層稀疏性。也有文獻研究特征交互但不分層的方法,如考慮二值變量高階交互的loGistic回歸方法[18],從高維數據中選擇交互特征的研究[19],從高維數據中的多元數據圖表示的交互特征中采用遺傳算法優選特征[20]。……