秦常程,喻洪流,李素姣,倪 偉,鄭金鈺,李 平,楊宇輝
(1上海理工大學 康復工程與技術研究所,上海 200093;2上海康復器械工程技術研究中心,上海 200093;3民政部 神經功能信息與康復工程重點實驗室,上海 200093)
脊髓損傷是由車禍、墜落、暴力和體育運動等原因導致的脊椎結構和功能上的損傷。根據相關調查,中國每100萬人中就有20~60例脊椎損傷病例。在脊髓損傷患者的全面康復中,合理的康復治療方案可以幫助脊髓損傷患者促進身體功能恢復,提高生活自理能力。
康復治療方案的決策是建立在對患者充分的康復評估基礎上,由多種康復治療技術組成。目前,中國還沒有獨立的康復治療方案決策服務體系,而線下康復治療方案的決策存在效率低下且標準不一等問題。
在線的醫療智能處方決策可以彌補線下的不足。如:Douglas D等人設計了一套可以在線量表評估,并給腦卒中患者提供康復建議的專家系統REPS。Danial-Saad A等人提出了一種使用計算機輔助技術實現的康復輔具處方推薦算法。雖然在線醫療智能處方決策理論可以彌補線下的不足,但是在實際操作中仍然存在如下問題:
(1)在線的醫療智能處方決策應依賴推理模型和大樣本醫療數據集,但是鑒于脊椎損傷的發病率和醫院對患者的隱私保護,往往不會形成大樣本醫療數據集;
(2)醫療數據集通常存在樣本類別不平衡問題,各類別之間存在嚴重的數量傾斜。
綜上所述,本文在醫療智能處方決策算法設計的基礎上,針對脊髓損傷患者的智能康復治療方案決策及其病例數據集樣本類別不平衡等問題,提出一種用于脊髓損傷智能康復治療處方的UPE-SVM推理模型。該模型有效克服了數據集的樣本類別不平衡問題,提高了智能康復治療處方的決策準確率。
康復治療方案決策算法的主要流程包括患者信息輸入、基于UPE-SVM模型預測、治療方案生成和模型在線學習。決策算法流程如圖1所示。

圖1 康復治療方案決策算法流程Fig.1 Flow chart of rehabilitation program decision algorithm
患者信息特征包括:AISA殘損指數、損傷性質、神經節段分類、損傷平面、最低感覺平面、左上肢肌力、右上肢肌力、左下肢肌力、右下肢肌力,這9個特征是由治療師確定的顯著表現病人病情的特征。
基于UPE-SVM模型預測將患者的9個特征進行數值映射和特征歸一化處理。特征歸一化的目的是避免特征的不同量綱對決策結果產生負面影響,然后輸入到UPE-SVM模型,進行前向推理預測,得到初始治療方案。特征歸一化的計算公式為:

治療方案的生成是由治療師進行判斷初始治療方案是否適合當前患者,如果適配病例,直接用于患者,并保存到病例數據庫;如果不適配,則修正治療方案后用于患者,并將最終治療方案保存到病例數據庫。
模型在線學習使用更新后的病例數據庫,對UPE-SVM模型進行在線訓練,保持模型對陌生病例的敏感性,提高模型的學習能力和泛化能力。
在此給出1個示例,說明上述智能康復治療方案決策算法的決策過程。假設一患者具有如表1所示的9個輸入特征。

表1 示例患者的9個輸入特征Tab.1 Nine input characteristics of the sample patient
這9個特征值經過數據處理后,輸入到UPESVM模型進行預測,程序以列表的形式給出初始治療方案:[“針灸”,“康復踏車”,“站立訓練”,“脈沖磁療”,“氣壓式血液循環驅動”],供治療師參考和修正,并將最終治療方案保存到數據庫,用于更新模型。
本文使用的脊椎損傷病例數據集包含124條樣本,劃分為包含100條樣本的訓練集和包含24條樣本的測試集,每條樣本由輸入特征和康復治療方案組成。康復治療方案作為目標值,包含6類康復治療技術,每條樣本的康復治療方案為6類康復治療技術的部分組合,因此該分類屬于多標簽分類任務。針對該數據集,本文提出一種用于脊髓損傷康復治療方案決策的新型推理模型——UPE-SVM(Undersampling Parallel Ensemble Support Vector Machines)。
在模型預測方面,UPE -SVM模型基于集成學習,采用SVM(Support Vector Machines)作為子分類器。針對本文數據集,UPE-SVM模型設置6簇分類器,分別對應數據集的6類康復治療技術,每簇分類器單獨預測1類目標值,把復雜的多標簽分類轉化為簡單的二分類。每簇分類器設置多個子分類器,子分類器之間平權投票,決定該簇分類器的預測結果。子分類器的數量為模型超參數,與多數樣本和少數樣本的數量比值相關。集合6簇分類器的預測結果,得到康復治療方案。
給定脊髓損傷病例數據集{,,,…,x},第簇分類器包括個子分類器,分別是(),(),(),…,f(),則對于樣本x的第簇分類器的預測結果為:

對于全部樣本的康復治療方案預測結果為:


對于每個子分類器,通過調節核函數和懲罰系數,選擇效果好的SVM作為子分類器。SVM超參數值域見表2。

表2 SVM超參數值域Tab.2 SVM hyper parameters and range
核函數是一種將非線性任務轉變為線性任務的方法。其中,linear為線性核函數;poly為多項式核函數;rbf為高斯核函數;sigmoid為雙曲正切核函數。
懲罰系數用來控制損失函數懲罰力度,懲罰系數越大,對錯誤分類的懲罰越大。經實驗驗證,本文核函數選擇poly,懲罰系數為155。
脊髓損傷病例數據集來自中國康復研究中心,篩選自2019年入院的124個病例作為數據集,劃分為包含100條樣本的訓練集和包含24條樣本的測試集,每條樣本由癥狀和康復治療方案組成,癥狀為UPE-SVM模型的輸入特征,康復治療方案為目標值。
癥狀是由治療師基于臨床經驗選取的患者特征,其中包括:AISA殘損指數、損傷性質、神經節段分類、損傷平面、最低感覺平面、四肢肌力等,見表3。

表3 脊椎損傷癥狀及值域Tab.3 Symptoms and range of spinal injury
表3中,根據鞍區功能的保留程度,將損傷性質分為完全性損傷和不完全性損傷;根據脊髓損傷神經學分類國際標準,AISA殘損指數分為A~E共5個等級;根據解剖學,損傷神經節段分為頸椎損傷、胸椎損傷、腰椎損傷、骶椎損傷和尾椎損傷;根據損傷節段和功能,損傷平面和最低感覺平面分為31類,分別對應31對脊神經;根據改良Asworth分級,四肢肌力分為0~5共6個級別。
康復治療方案是由治療師根據患者具體癥狀給出,包含30種康復治療技術,每種康復治療技術的出現頻率不同,其中19種康復治療技術出現頻率少于10次,3種康復治療技術出現頻率超過80次。由于數據集存在嚴重的類別不平衡問題,導致訓練得到的模型效果不佳,模型容易過擬合。因此對康復治療方案進行種類選定,選擇出現頻率超過20次的康復治療技術,作為模型的目標值,見表4。

表4 選定的康復治療技術及其出現頻率Tab.4 Selected rehabilitation techniques and their frequency
本文以值和作為主要評價指標,以精確率和召回率作為次要評價指標,來評估模型性能及衡量模型克服類別不平衡的能力。值為曲線下方的面積,取值范圍在01,取值越大,表示模型性能越好。
現有解決數據集樣本類別不平衡的常用方法,包括兩個層面:算法層面和數據層面。算法層面主要采用損失函數Focal Loss,數據層面主要采用SMOTE重采樣。
為了驗證UPE-SVM模型在脊椎損傷病例數據集上的性能,本文將解決樣本類別不平衡的常用方法進行對比,設計了5組對照實驗,分別是:采用交叉墑損失的多層感知機、采用Focal Loss的多層感知機、采用SMOTE重采樣的SVM、采用無放回采樣的UPE-SVM和采用隨機有放回采樣的UPE-SVM。
除給出5組對照實驗的結果外,本文還統計了分別采用無放回采樣和隨機有放回采樣的UPESVM模型在每一類康復治療技術上的具體表現。
3.4.1 5組對照實驗結果分析
從表5中可以得出,采用交叉熵損失的多層感知機分類效果最差,采用Focal Loss的多層感知機效果略好于前者,Focal Loss對本文數據集的樣本類別不平衡有一定的效果;采用SMOTE重采樣的SVM效果略好于前兩者;第四、五組實驗表明,UPE-SVM模型克服樣本類別不平衡的性能遠遠超過采用Focal Loss的多層感知機和采用SMOTE重采樣的SVM,且隨機有放回采樣策略優于無放回采樣。

表5 對照實驗的結果Tab.5 Results of the control experiment
3.4.2 無放回采樣/隨機有放回采樣的UPE-SVM對6類目標值分類性能結果分析
從表6和表7的對比中可以得出,與無放回采樣相比,隨機有放回采樣的UPE-SVM模型在“康復踏車”、“站立訓練”、“脈沖磁療”、“氣壓式血液循環驅動”上的分類效果更優,在“作業康復”上的效果持平,在“針灸”上的效果略低。從總體的分類性能上看,隨機有放回采樣的策略優于無放回采樣。

表6 無放回采樣的UPE-SVM分類性能結果Tab.6 Classification performance results of UPE-SVM without sampling back

表7 隨機有放回采樣的UPE-SVM分類性能結果Tab.7 UPE-SVM classification performance results with random sampling back
相比其它克服類別不平衡的常用技術,UPESVM模型使用所有的少數樣本,采樣與少數樣本數量相同的多數樣本,組成訓練子集,保證了每個訓練子集是樣本均衡的,因此訓練得到的子分類器能夠有效避免樣本類別不平衡影響。
相比無放回采樣策略,隨機有放回采樣的UPESVM模型表現更加優異。當采用無放回采樣訓練子分類器時,即劃分多數樣本為固定的若干份,每份樣本之間不存在交集,訓練得到的子分類器是有缺陷的,不利于集成學習平權投票。通過理論分析和測試集驗證,隨機有放回采樣的訓練策略更能提高UPE-SVM模型的性能表現。
本文設計的脊髓損傷康復治療方案決策的UPE-SVM推理模型,有效解決了采用醫療數據集訓練模型時,經常出現的樣本類別不平衡問題,并在測試集上取得較好的效果,提高了康復治療方案的決策準確率。這種技術的應用有望幫助解決脊髓損傷患者的康復治療方案決策的不足,同時對其它中小型復雜數據集的多標簽分類任務有一定的參考意義。