劉曉靜
(河北北方學院附屬第一醫院,河北張家口 075000)
隨著數字化建設的高速發展,現代化醫院每天均會產生大量的數據,這其中就包括人力資源數據。現階段,員工一年的工作量已無法用幾個指標進行簡單的量化。而傳統的數理統計方法僅依靠簡單的指標公式對員工的績效進行衡量,例如層次分析法(Analytic Hierarchy Process,AHP)[1]使用主觀評價的方式對員工進行評價,其主觀性較強、無統一標準,且無法處理當今海量的數據。因此,需使用現代化的數理算法構建一套標準的員工績效評價體系。近年來,云計算、大數據與人工智能等技術的應用[2]大幅提升了醫院快速處理海量數據的能力。該文設計了一種改進的SVM 算法,并將其應用于醫療人力資源數據的分析與處理,最終建立了一套客觀且科學的員工績效數據分析系統。
支持向量機(Support Vector Machine,SVM)[3-6]于1995 年提出,并被廣泛應用于數據回歸與分類中,其本質是一種監督機器學習的方法。支持向量機不僅可彌補傳統統計學方法的不足,還能夠解決數據維度高、線性度較差及樣本數量少而導致的訓練準確度偏低等問題。
支持向量機通過非線性變換將輸入數據矩陣升維,進而在該高維空間內求解最優線性分類面。其分類函數的結構近似于神經網絡,具體如圖1 所示。

圖1 支持向量機結構
支持向量機所實現的功能,即將傳統統計學算法無法正確分類的數據使用特定函數向特征空間內投影,同時在該特征空間中找尋最優的分類超平面對數據進行切分,分類超平面切分數據如圖2 所示。

圖2 分類超平面
因此,問題的關鍵在于尋找最優的分類超平面。假設兩類數據為(xi,yi),i=1,2,…,n,分類超平面可用wx+b=0 表示。其中,w、b均為平面函數權值。此時,該超平面需滿足的約束條件為:


需使用拉格朗日函數對式(2)進行求解,構建的函數如下所示:

式中,L為拉格朗日變換算子,a為構造函數權值。基于數理知識,該求解問題可轉化為:

由式(4)可計算得到最優的參數w*和b*,二者的計算公式為:

因此,由式(5)-(6)可推導得到最優分類函數為:

式中,sgn 為符號函數。由此可見,對于線性可分的數據,使用以上公式即可推導得到最優分類函數。若數據是線性不可分的,需在函數表達式中加入懲罰因子C,則式(2)將變為:

式中,ζ為拉格朗日乘子。為求解式(8),需引入核函數K(xi,x),此時可將線性劃分切換到非線性劃分,得到最終的優化分類函數為式(9)所示。此外,具體是使用線性公式或非線性公式需依據實際數據情況界定。

SVM 算法可對非線性的數據映射及少量樣本數據進行學習,但該算法的時序性較差,故無法挖掘時序性較強的數據。人力資源管理數據通常包含有整個年度的數據,且具備一定的時序性,因此使用長短時神經網絡(Long Short-Term Memory,LSTM)對數據進行特征挖掘與訓練,并使用SVM 算法作為分類器對數據進行分類輸出。
LSTM[7-11]也被稱為長短時循環神經網絡,該網絡由循環神經網絡(Recurrent Neural Network,RNN)改進而來,其主要特征是在RNN 網絡的各單元中加入了各種特征門以實現算法的完整功能。
特征門包括輸入門、遺忘門與輸出門等。通過這些特征門,LSTM 便可實現記憶網絡狀態、存儲網絡時間特征等功能[12-13]。長短時神經網絡的神經元組成結構如圖3 所示。

圖3 LSTM神經元結構
遺忘門的作用是對上一時刻數據神經單元的狀態ct-1進行選擇性存儲或遺忘,同時將該數據ct輸出迭代至當前狀態。遺忘門結構的表達式為:

式中,Wf為遺忘門的特征因子矩陣,bf為遺忘門的偏置常數項,ft為遺忘門數據輸出函數。
輸入門為數據的輸入端,其作用是將網絡的輸入數據保存至單元狀態。輸入門的結構公式為:

式中,Wi為輸入門的特征因子,bi為輸入門的偏置項,it為輸入門的輸入函數。
輸出門為LSTM 單元狀態的輸出值,該單元的表達式如下:

式中,ot為輸出門的輸出函數,Wo為輸出門的特征因子,bo為輸出門的偏置項。
LSTM 網絡的最終輸出由輸出門與最終時刻的單元狀態共同決定,輸出的公式為:

式中,°表示哈密爾頓積運算。
系統設計以醫院人員績效評估體系為例,構建了基于SVM 和LSTM 算法的績效評估系統。該系統共分為四個模塊,分別為人員數據采集模塊、數據預處理模塊、基于LSTM 的數據訓練模塊與基于SVM 算法的結果分析模塊,具體的系統架構如圖4所示。

圖4 系統結構
人員數據采集模塊按照DRGs(Diagnosis Related Groups)標準醫院評價指標體系進行采集,DRGs 可從多個維度對醫生進行評價。評價指標包括一級與二級指標,具體的數據指標和指標權重,如表1 所示。需要說明的是,設計指標權重為歸一化數值,因此數據預處理模塊需要對人力資源數據進行初步處理,并實行歸一化。人力資源數據量化后,便可輸入至處理模塊中加以訓練。

表1 數據采集種類
基于LSTM 的數據訓練模塊能對數據的各方面特征進行學習,并最終輸出特征區分顯著的人力資源績效特征數據集合。基于SVM 的分類數據模塊訓練特征數據,并對這些人力資源數據進行分類評分,進而得到排名結果。
為了能對實驗進行客觀評價,選擇以下評價指標對實驗結果加以評估。實驗指標分別為ACC(平均準確率)、MAPE(平均絕對百分比誤差)、MSE(均方誤差)及RMSE(均方根誤差)值。表達式分別如式(14)-(17)所示:

在上述表達式中,T和F分別表示判斷正確和錯誤的事件數,為實驗正確率值,yi為理論正確率值,n為樣本總數量。四項指標可從算法準確率與穩定性兩方面對算法進行評估。
文中使用的數據集為某公司在2015-2020 年間某項目人力分配及產出數據。首先對該數據進行預處理操作,之后再完成特征分類。數據測試的環境如表2 所示。

表2 測試的軟硬件環境
在算法對比仿真中,從算法的性能及效率兩個方面進行綜合評估。
在算法性能測試方面,文中使用的對比算法為算法1(傳統統計學方法)、算法2(RNN-SVM 算法)以及算法3(LSTM-Softmax 算法)[14-16]。算法性能測試則使用ACC、MAPE、MSE 及RMSE 指標值進行評估。
由表3 可以看出,所提算法的準確率ACC 均領先于其他算法,說明其可以對人力資源數據進行有效的績效評估。同時,所提算法的MAPE、MSE 及RMSE 誤差指標在所有算法中均為最小,證明所提算法的穩定度良好,綜合性能也較為優越。

表3 各算法測試指標值
除算法性能外,算法效率也是評價中較為重要的指標,其是算法是否能夠進行實時性交互的直觀體現。該實驗使用2016 年的數據對所有算法的運行時間進行了測試,時間統計標準為算法訓練完數據并對分類結果進行輸出的時間。各算法的運行時間如表4 所示。

表4 實時性測試結果
由表4 可以看出,傳統統計學算法的運行時間為122 s,在所有算法中排名最后。而所提的LSTM-SVM算法在所有算法中運行最快,說明其結合了LSTM與SVM 算法的優勢,因此算法效率有所提升。
績效評估通過多項指標體系對醫務工作者進行綜合評價,隨著醫院信息化規模的發展,科學、有效的績效評估將成為醫療系統高效運行的重要保障。以層次分析法為例的傳統數理統計方法僅依靠簡單的指標公式對人員的績效進行主觀的衡量,無統一標準,同時也難以處理現代化醫療體系中產生的海量數據。文中通過LSTM 算法融合改進了SVM 算法,并將新的算法用于人力資源數據的訓練與分析,彌補了傳統SVM 算法無法訓練時序數據的不足。實驗測試結果表明,所提算法具備較為理想的性能及良好的運行效率,具有一定的應用價值。