基于Lasso與禁忌搜索的患者檢查需求預測

2021-11-18 04:09:12祝延紅

計算機仿真 2021年1期

卿玥，耿娜，祝延紅

(1. 上海交通大學機械與動力工程學院，上海 200240；2. 上海交通大學中美物流研究院，上海 200030；3. 上海交通大學附屬第一人民醫院，上海 200080)

1 引言

及時的圖像檢查對于患者病情診斷和后續手術安排至關重要。準確預測患者需求，有利于圖像檢查資源的能力分派，減少患者術前等待時間，縮短住院時長，提高病床利用率。

患者需求預測問題，現有研究主要集中在急診患者需求預測，預測方法可分為線性和非線性方法。大部分相關研究均采用線性預測，常用方法有多元回歸分析和時間序列分析。文獻[1]發現相較單變量季節Holt-Winters指數平滑法，多變量向量自回歸模型在預測急診患者需求時準確度更高。文獻[2]應用基于條件極大似然法的泊松自回歸模型預測急診患者日需求。文獻[3]考慮氣候、時間因素和患者分類，對比簡單季節指數平滑、三次指數平滑、季節自回歸差分移動平均(SARIMA)和多元SARIMA四種方法預測急診患者需求的效果。文獻[4]對急診部門住院患者需求和住院時長進行短期預測，對比了移動平均、簡單指數平滑和自回歸差分移動平均模型(ARIMA)的預測效果。文獻[5]采用ARIMA模型對兩類急診患者需求及其總需求進行預測。文獻[6]綜述了預測急診和門診患者需求的歷史文獻，對比分析了帶有時間變量的回歸分析和時間序列模型。

非線性方法以神經網絡模型為主。文獻[7]應用回歸分析和人工神經網絡(ANN)對急診患者需求進行短期、中期和長期預測，發現ANN在中短期預測中占優。文獻[8]提出基于ANN的三階段方法論，用于預測急診患者日需求并量化預測變量的相對重要程度。文獻[9]針對三家不同規模醫院的急診患者日需求預測，分析比較了多元線性回歸、SARIMA、指數平滑和ANN多種方法的預測效果。

現有文獻對患者需求的研究主要采用單個預測方法進行預測，常用方法各有優劣：多元回歸模型和時間序列分析具有技術理論成熟與算法簡單等優點，但均基于線性分析，不能準確擬合非線性關系；BP神經網絡模型(BPNN)能擬合復雜的非線性關系，但容易陷入過擬合。為綜合利用各方法優點并避免單個方法的局限性，很多學者采用組合預測方法進行預測[10]。傳統的組合預測方法僅考慮單一的預測性能指標。但預測方法在某一性能指標上表現好，不能就此說明其預測性能好。基于此，有必要同時考慮多個性能指標，并提出有效的預測方法以實現多個性能指標的平衡。另外，檢查需求預測與急診患者需求預測有一定相似性，但檢查項目和患者需求的多樣性使其受到多種因素影響，導致預測模型的輸入變量較多。為減少非關鍵變量的影響，有必要通過適當的方法，減少預測模型的輸入變量。

因此，本文擬引入Lasso方法進行輸入變量的降維，基于多元線性回歸模型(MLR)[11]、BPNN[8]和多元自回歸差分移動平均模型(ARIMAX)[12]等常用的患者需求預測方法進行組合預測，并在此基礎上，提出禁忌搜索對組合中的權重進行優化，解決了傳統組合預測方法難以同時考慮多個性能指標的問題。

2 基于Lasso降維與禁忌搜索權重優化的組合預測方法

2.1 預測框架

提出的基于Lasso降維與禁忌搜索權重優化的組合預測方法的預測框架如圖1所示。數據準備與預處理模塊從醫院數據中提取歷史患者檢查需求，并進行數據預處理以保證樣本數據的可靠性。Lasso降維模塊從候選變量中選擇最優輸入變量子集，剔除冗余和不相關的變量。然后將最優輸入變量子集分別輸入MLR、BPNN、ARIMAX和Na?ve[13]模型，對所選輸入變量與檢查需求之間的關系進行建模。最后，用禁忌搜索優化各單預測方法的權重，并基于該權重進行多預測方法組合預測。禁忌搜索算法是鄰域搜索方式的一個拓展，由一個初始解開始，在劃定的空間內朝著使目標函數值最優的方向進行迭代變換，通過一種動態的記憶結構來設定相應的禁忌準則，避免陷入局部最優[14]。

圖1 預測框架

2.2 Lasso方法

將與響應變量無關的預測變量作為輸入變量，會增加預測模型復雜度、降低模型解釋力并導致龐大的計算量。Lasso方法通過系數縮減進行變量選擇，能有效降低模型復雜度并顯著提高預測準確度[11]。

Lasso的系數β通過求解下式的最小值得到

(1)

I為樣本觀測個數，J為輸入變量個數，i用于索引樣本觀測(從1到I)，j用于索引輸入變量(從1到J)，yi表示第i個觀測的響應變量值，β0表示所有X為零時Y的均值，βj表示第j個預測變量和響應變量之間的關聯，xij表示第i個觀測的第j個輸入變量值，λ是調節參數(λ≥0)。

式 (1) 中，第一項為殘差平方和，與最小二乘法相同；第二項為壓縮懲罰，當β1，…，βJ接近零時較小，具有將βj估計值往零的方向進行壓縮的作用。調節參數λ，控制這兩項對回歸系數估計的相對影響程度，綜合權衡偏差與方差，通過交叉驗證法確定取值。

2.3 基于禁忌搜索的權重優化方法

(2)

(3)

確定每種模型的權重系數是建立組合預測模型的關鍵。以最小化絕對誤差之和為目標的優化問題如下：

(4)

本文提出了基于禁忌搜索的權重優化方法，以優化訓練集的性能指標值為目標函數，為每種預測方法賦予適當的權重以提升預測效果。

圖2 基于禁忌搜索的權重優化流程圖

基于禁忌搜索的權重優化方法流程如圖2所示。首先設置禁忌表長度、候選解數量、每次迭代保留的最佳候選解個數以及最大迭代步數。主要步驟如下：

1) 隨機產生多組權重組合

2) 組合預測

用 1) 產生的權重組合，基于MLR、BPNN、ARIMAX和Na?ve四個方法的預測值，得到該組權重組合下的組合預測結果(目標性能指標值)。

3) 計算指標值

計算每個權重組合對應的目標性能指標值。

4) 選擇當前最佳權重組合

5) 在鄰域內產生多組新的權重組合

將 4) 產生的當前最佳權重組合作為當前解，然后在當前解的鄰域中搜索若干候選解，取使得目標性能指標值最優的候選解作為新的當前解。為避免已搜索過的局部最優解的重復，用禁忌表記錄已搜索的局部最優解的歷史信息。通過特赦準則赦免一些被禁忌的較好解，從而保證多樣化的有效搜索。

6) 算法終止準則

3 數值實驗

3.1 實驗設計

3.1.1 數據預處理

本文基于上海某三甲綜合醫院2014年1月1日到2014年12月31日的住院患者檢查需求數據，考慮CT、磁共振和彩超三種圖像檢查，將患者分為七類，如表1所示。預測模型均采用10折交叉驗證進行數據重抽樣。

表1 患者分類

實驗數據集時間范圍為2014年1月1日到12月31日，共365天，無缺失值。由于檢查科室在節假日只接收急診患者，故節假日需求作為異常值被剔除。實驗采用最小-最大歸一化方法[16]統一輸入變量的數據范圍。

3.1.2 性能指標

1) 決定系數(R2)

(5)

2) 平均絕對百分誤差(MAPE)

(6)

3) 均方根誤差(RMSE)

(7)

3.1.3 影響圖像檢查需求的候選輸入變量選擇

結合相關文獻、數據可得性和對檢查科室醫務人員的訪談，選擇時間、氣候和檢查需求量相關的30個候選變量如表2所示。針對每類患者的需求數據，應用Lasso方法從候選變量中選取對檢查需求有重要影響的輸入變量。七類患者檢查需求的降維結果詳見附錄A。

表2 候選變量

3.1.4 參數設置

禁忌搜索算法中，禁忌表長度選取10，鄰域中的候選解數量為15，每次迭代保留10個最佳候選解，最大迭代步數設置為30(經實驗觀測，此設定可使算法收斂)。

三層神經網絡具有良好的逼近性能[17]，故本文采用三層BPNN。用試錯法確定最優的隱藏層神經元個數。

根據自相關和偏自相關函數圖，通過試錯法確定ARIMAX模型的參數值：差分次數d，自回歸項階數p以及移動平均項階數q。

假定患者檢查需求呈星期規律，Na?ve方法即為預測日的檢查需求量等于上周相同工作日的歷史檢查需求量。

3.2 實驗

3.2.1 實驗1：組合方法與單方法的預測性能比較

表3 最優權重組合

表4 第1類患者預測性能對比

表5 第5類患者預測性能對比

表6 第7類患者預測性能對比

基于七類患者檢查需求的預測結果，圖3進一步對比了組合方法和四種方法的性能。柱形條表示對應預測模型根據特定性能指標生成的最優指標值的患者類型數量。以組合方法(Com)為例，其對應的R2(test) 柱形條表示組合方法在5類患者需求數據的測試集的R2指標值比MLR、BPNN、ARIMAX和Na?ve方法更優。

圖3 組合方法與單方法性能比較

結合預測結果，組合方法的R2、MAPE和RMSE指標值優于單方法或接近最佳取值。例如，表4所示第1類患者需求預測結果，組合方法在訓練集的R2指標值比單方法改善了2%及以上，在測試集的R2指標值和訓練集的RMSE指標值改善了1%及以上，在訓練集的MAPE指標值改善了9%及以上，而測試集的MAPE指標值0.15與其最佳取值0.14接近、測試集的RMSE指標值10.61與其最佳取值9.47接近。由此可見，本文所提組合預測方法綜合了四種方法的優勢，實現了R2、MAPE和RMSE三個性能指標的平衡，預測性能優于單方法預測。

3.2.2 實驗2：禁忌搜索與Lasso降維對預測性能的影響

為進一步驗證本文提出的組合預測方法的性能，以第1類患者檢查需求數據為例，運用傳統的權重組合預測方法[15]進行預測，兩種組合方法的預測性能對比如表7所示，Com*行表示傳統線性加權組合預測方法。兩種組合方法的MAPE和RMSE指標值接近，而本文所提組合預測方法在訓練集和測試集的R2指標值分別改善了52%和53%。由于傳統線性加權組合預測方法是以最小化絕對誤差之和為單一目標，不難理解其預測結果會在與優化目標高度相關的指標MAPE和RMSE上表現較好，而在R2指標的效果差。本文所提出的組合預測方法，考慮了多個性能指標的平衡，能同時優化R2、MAPE和RMSE三個指標，提升了預測精度。

表7 兩種組合方法預測性能對比

基于第1類患者檢查需求數據，表8所示，星號行(*)表示未進行Lasso降維的模型預測結果，其余行表示采用Lasso降維后的結果。以測試集的三個指標為例，R2改善了至少5%，MAPE改善了4%～26%，RMSE改善了3%～19%。Lasso降維后，無論是單方法還是本文所提出的組合預測方法，在R2、MAPE和RMSE指標的預測性能均優于未降維的結果。

表8 Lasso降維對預測性能的影響

4 結論

本文針對住院患者圖像檢查的多需求預測問題，采用Lasso降維篩選輸入變量，結合常用患者需求預測模型提出組合預測方法進行預測。實驗結果表明，該組合方法吸收了單模型的優點，綜合考慮了多個性能指標的平衡，在R2、MAPE和RMSE三個指標上，預測性能相比單模型預測有所提升，并驗證了禁忌搜索與Lasso降維能有效改善預測精度。基于本文對圖像檢查需求的預測結果，可進一步研究檢查設備的能力分派與患者調度。