劉 超,張步振,桑秀麗,李清竹
(1.昆明醫科大學,云南 昆明 650031;2.解放軍昆明總醫院,云南 昆明 650000;3.昆明理工大學,云南 昆明 650000)
● 醫院管理 ●
基于因子分析和BP神經網絡的單病種費用預測研究
劉 超1,2,張步振2,桑秀麗3,李清竹1
(1.昆明醫科大學,云南 昆明 650031;2.解放軍昆明總醫院,云南 昆明 650000;3.昆明理工大學,云南 昆明 650000)
單病種付費的預測問題一直是關乎醫療改革方向和進度的關鍵。針對單病種費用預測中影響因素多、關系復雜的問題,依托云南省某三甲醫院的醫院管理信息系統中惡性直腸腫瘤醫療費用數據,首先采用因子分析法對單病種費用影響因素進行降維,然后采用BP神經網絡對單病種費用進行預測。預測結果表明,單病種費用的三個公因子能夠闡釋原始數據中86.928%信息;單病種費用預測模型的預測精度到達92.15%。因此,該模型的預測精度能夠滿足醫院對單病種費用管理的實際需求。
因子分析;BP神經網絡;預測;單病種付費
單病種付費方式是醫療保險費用支付方式之一,單病種付費能夠擴大醫療保險費用的覆蓋率,讓有限的衛生資源合理高效的利用。單病種付費作為我國現階段一種常用的控制醫療費用的方法,能夠有效降低醫療成本、降低平均住院日、有效利用醫療資源、提高患者滿意度。到目前為止,對于單病種費用的研究相對較少,或者其研究僅限于小樣本量的一般性描述,缺乏一個合理、可行的費用參照體系[1]。此外,醫療保險預付款制度以及醫院衛生經濟管理也迫切需要制訂各單病種費用標準。因此,研究單病種醫療費用模型的建立,具有重要的現實意義。
目前單病種費用測算是目前世界科研工作者研究的熱點問題之一,目前開展的工作主要采用的方法有傳統的回歸分析法[2-3]。傳統的線性回歸分析方法雖然被廣泛運用于單病種費用影響因素的分析中,但是對正態性、獨立性與方差齊性的要求比較嚴格,而病種診療過程的復雜性和變異性,單病種費用預測越來越呈現影響因素多和非線性,費用資料具有呈偏態分布、受復雜因素影響、相關因素之間存在關聯性等特點[4-5]。因此,采用傳統回歸模型測算單病種費用在理論上存在一定的缺陷,致使很多測算結果不足以令人信服。
智能算法也開始被廣泛的應用于單病種的測算與預測,其中BP神經網絡模型最為廣泛,這主要是因為神經網絡模型對費用數據信息在分布上沒有特殊要求,且具有一定的容錯性和相關因素的識別能力,對分析住院病人的費用資料更具優勢[6]。但是在實際中發現,僅依靠神經網絡進行預測,預測結果誤差較大,測算精度有待提升。筆者認為這主要是現有模型對單病種費用影響因素估計不足,即對數據的前期噪聲的研究及處理需要進一步加強。研究表明,因子分析方法能夠較好的處理數據中噪聲信息[7]。因此,筆者在前輩研究的基礎上,以直腸惡性腫瘤為例,依托采用因子分析方法處理單病種費用數據中噪聲,然后構建BP神經網絡模型對單病種費用進行測算和預測。
2.1 因子分析理論
因子分析(Factor Analysis,FA)是多元統計分析中處理維數的一種有效方法,它是將具有錯綜復雜關系的多個變量經分析處理后變為較少的幾個變量即因子[5]。
2.1.1 因子分析的基本原理
因子分析是利用“降維”的思想,通過研究多個變量之間的內部依賴關系,尋求觀測數據中的基本結構,并且用少數幾個“抽象”的變量去表示它的基本數據結構。
2.1.2 因子分析模型



通過模型 X =AF+ε以F代替X,從而達到實現降維的目的。F1, F2, Λ ,Fm為公共因子,ε1, ε2, Λ,εp為特殊因子,aij為因子載荷,因子分析的主要問題就是要確定因子載荷。
上述模型中,模型參數的統計意義主要體現在因子載荷和公共因子的方差貢獻率兩個方面。
(1)因子載荷的統計意義
若X是各分量已經標準化的隨機向量,那么

式中:aij表示Xi與Fj的相關系數。
(2)公共因子的方差貢獻率的統計意義
BP(Back Propagation)神經網絡是 1986年由Rumelhart和McCelland為首的科學家小組提出,是一種按誤差逆傳播算法訓練的多層前饋網絡,是目前應用極為廣泛的神經網絡模型之一。它是實際輸出與期望輸出之差對網絡的各層連接權由后向前逐層校正的一種計算方法[6-7]。理論上,這種方法可以使用于任意多層的網絡。由于具有工作狀態穩定、結構簡單的特點,是眾多的神經網絡模型中應用最為廣泛、發展最為成熟的網絡模型,見圖1。

圖1 神經網絡結構
一對新的學習樣本提供給BP網絡后,它的神經元的激活值將從輸入層經各個中間層向輸出層傳播,在輸出層的各神經元輸出對應于輸人模式的網絡響應。然后,按減少預期輸出與實際輸出誤差的原則進行不斷的學習和訓練,從輸出層經各中間層,最后回到輸入層逐層修正各連接權,周而復始的訓練直到輸出值與目標值間的誤差達到系統原本要求的誤差范圍為止[7]。
BP網絡模型由為輸入層、隱層和輸出層,層與層之間用權值表示連接程度,并通過學習不斷調整權值。用W1,W2分別表示輸入層與隱層、隱層與輸出層之間的連接權值,b1,b2分別表示隱層、輸出層的偏差。設訓練集T=[T1,T2,Λ,Tn],檢驗集 P=[P1,P2, Λ, Pn],網絡輸入U,隱層輸出A,網絡輸出V。其實現步驟為:(1)網絡訓練:對于隱層 A=f(UW1+b1),對于輸出層 V=f(UW2+b2),其中U=T,訓練參數設為:學習速率0.05,動量常數0.95,最大迭代次數1000,期望誤差 10-3;網絡經 1000次迭代后,權值調整為W1=W1', W2= W2'。(2)網絡預測:隱層A =f(U W1'+b1),對于輸出層 V =f(UW2'+b2),其中U=P。
3.1 單病種費用組成
影響惡性腫瘤醫療成本費用的因素很多,一般從患者的人口社會學特征和基于臨床路徑的單病種費用兩個方面來考慮[3]。依據可靠性、科學性、充分性、合理性、可操作性等原則,結合醫院臨床實踐,選定以下指標作為影響因子。

表1 單病種費用組成
3.2 數據檢驗與分析
為了消除因子量綱對分析結果產生的影響,需要對原始數據進行標準化處理,而SPSS中如下形式的zscore函數可以幫助完成此次操作[9]。
首先考察單病種費用變量之間是否存在一定的線性關系,是否適合采用因子分析研究單病種費用變量間的關系。借助SPSS 18.0,巴特萊特球度檢驗和KMO檢驗分析結果如表2所示。

表2 巴特萊特球度檢驗和KMO檢驗
由表2可知,巴特萊特球度檢驗統計量的卡方值為183.9,相應的概率Sig值接近于0。如果顯著性水平為0.05,由于值小于顯著性水平,則應拒絕原假設,認為相關系數矩陣與單位陣差異有統計學意義。同時,KMO值為0.874,根據Kaiser的衡量標準可知,原變量具有很好的適切性,適合做因子分析。
3.3 對單病種費用影響因素進行降維
借助SPSS 18.0實現主成分分析法提取因子,結果如表3所示。

表3 因子分析中的變量共同度
表3顯示了所有的變量共同度數據。第一列數據是因子分析初始解下的變量共同度,它表明:如果對原有8個變量采用主成分分析方法提取所有特征值(8個),那么原有變量的所有方差都可被解釋,變量的共同度均為1(原有變量標準化后的方差為1)。事實上,因子個數小于原有變量的個數才是因子分析的目標,所以不可能提取全部特征值。第二列數據是在按指定提取條件(這里為特征值大于1)提取特征值時的共同度。從表4中可知,綜合醫療服務費、治療費用、西藥費用、醫用耗材費用等變量的絕大部分信息(80%以上)可被公因子解釋,這些變量丟失的信息較少。整體來看,所有變量的信息 50%均可以被公因子解釋,因此,本文不再重新指定特征值的標準。

表4 因子解釋原有變量中方差的情況
從表4可知,所有變量的86.928%信息能用3個公因子進行解釋。總體上來看,原有變量的信息丟失較少,因子分析效果較為理想。
4.1 網絡設計與參數確定
在經過降維處理后,利用降維后的數據進行單病種費用預測。鑒于馬克威軟件處理BP神經網絡問題更為便捷,筆者利用馬克威軟件作為該預測模型的計算平臺。基本步驟如下[10]:(1)訓練樣本和測試樣本的確定:將前120個數據作為訓練樣本,后14個數據作為測試樣本。(2) 模型參數的確定:訓練函數為 trainlm;學習函數為 learndm;性能函數為 MSE;隱含層傳遞函數為tansig;輸出層傳遞函數為purelin。輸入層節點數為3,輸出層節點數為1,迭代次數為1000,慣量因子為0.5,訓練目標誤差為10~3,學習率為0.85。(3)隱含層神經元數目的確定:該層神經元數目采用試算法確定,即以5為初值向上遞增,檢驗模型的訓練誤差,直到找到誤差最小的值,經驗證隱含層神經元數目為8時,訓練效果最佳。
4.2 網絡訓練及仿真
經馬克威軟件訓練,待誤差達到容許范圍之后,得到實際值與擬合值的訓練擬合圖2。

圖2 訓練擬合圖
4.3 模型預測及誤差分析
將測試樣本向量輸入做預測,由預測數據與原始數據的分析來看,期望輸出與實際輸出曲線擬合度較高,具有較高的精度。其中部分預期輸出與實際輸出存在較大誤差,其主要原因是模型參數選擇時所依據的樣本系列尚不能代表總體,加之 BP神經網絡模型輸入層節點數、隱含層節點數、節點轉換函數類型、模型訓練方式等都會對模型的模擬精度產生影響。為了檢驗模型的預測性能,采用平均絕對誤差(Average Absolute Deviation, AAD)和平均相對誤差(Average Absolute Relative Deviation, AARD)對模型的預測性能進行評價,同時,為了保證模型的泛化性能,隨機選取 60和90個單病種費用數據進行對比。

表5 費用模型預測結果
從表5中可知,在90個數據時,測試樣本預測平均絕對誤差為182.895,預測的相對平均誤差為0.0785,即預測的精度達到92.15%。證明模型的預測精度較高,能夠較好的預測出該病種的費用情況。
筆者針對惡性直腸腫瘤醫療成本費用預測問題,首先利用 SPSS軟件中的因子分析功能對原始數據進行降維處理,然后再利用馬克威軟件中的BP神經網絡功能對預處理后的樣本數據進行逼近處理和預測。得到的主要結論有:
(1)利用因子分析方法對原始數據進行預處理,提取3個公共因子,降低了變量維數,減少了輸入的節點數,提高了程序運行效率;
(2)具有局部逼近特征和較強非線性映照能力的BP神經網絡適于處理具有復雜變量的現實問題,基于因子分析的BP神經網絡簡化了網絡輸入樣本,消除了網絡輸入之間的相關性,提高了網絡的收斂速度,其網絡的學習能力和預測精度比對樣本數據不進行預處理的情形更為理想;預測精度高達 90%以上,能夠較好的滿足實際中醫院單病種費用管理需求。
[1] ZWEIFEL P,BREYER F.Health economics[M].New York:Oxford University Press,1997.
[2] 陶紅兵.基于單病種管理的醫院住院病人費用控制的管理策略研究[D].武漢:華中科技大學,2008.
[3] 吳三兵,湯質如,潘愛斌,等.銅陵市單病種住院費用相關因素分析[J].中國農村衛生事業管理,2008,28(3):176-179.
[4] 王澤民.綜合醫院單病種住院費用影響因素研究[D].沈陽:中國醫科大學,2009.
[5] 于秀林,任雪松.多元統計分析[M].北京:中國統計出版社,2010.
[6] 魯 俊.基于BP神經網絡的單病種質量控制自動預警系統模型[J].甘肅科技縱橫,2013,(4):22-25.
[7] 李 惠,劉子先,張美麗,等.基于GA-BP神經網絡的單病種成本預測研究[J].中國農村衛生事業管理,2012,32(5):445-447.
[8] 高 雋.人工神經網絡原理及仿真實例[M].北京:機械工業出版社,2007.
[9] 盧紋岱.SPSS統計分析(第4版)[M].北京:電子工業出版社,2012.
[10] 黃 暉,李鴻琪.馬克威統計分析與數據挖掘應用案例[M].北京:中國統計出版社,2012.
(本文編輯:何慶節)
Study on single disease cost forecasting based on factor analysis and BP neural network
LIU Chao1,2, ZHANG Bu-zhen2, SANG Xiu-li3, LI Qi-zhu1
(1. Kunming Medical University, Kunming Yunnan 650031, China; 2. Genenal Hospital of PLA, Kunming Yunnan 650000, China; 3. Kunming University of Science and Technolgy, Kunming Yunnan 650000, China)
Single disease forecasting has being the key issue which relates to medical reform direction and progress. Aim at the problems of many influence factors and complex relation single disease cost forecasting. This study is based on malignancy retal tumor expense data from the HIS of a hospital in Yunnan province. First, reduces dimensions to single disease cost influence factors by factor analysis method, then forecasts the single disease cost by BP neural network. The predicted results show that the three common factors of single disease cost can explain 86.928% information of original data, the forecasting accuracy of single disease cost model gets to 92.15. Therefore, the forecasting accuracy of single disease cost model can meet the actual demand for single disease cost management in hospitals.
factor analysis, BP neural network, forecasting, single disease cost
R197.3
A
1003-2800(2014)11-0704-05
2014-06-24
國家自然科學基金資助項目(713636063);云南省應用基礎研究計劃重點項目(2013FA058)
劉 超(1989-),男,四川達州人,在讀碩士研究生,主要從事社會醫學與衛生事業管理方面的研究。
張步振(1961-),男,重慶人,主任醫師,教授,主要從事醫療糾紛、技術創新、醫療資源配置等方面的研究。