張和華 向 華 吳 旋 萇飛霸 徐 力 尹 軍*
數據挖掘技術在醫療設備行業中的應用研究
張和華①向 華①吳 旋①萇飛霸①徐 力①尹 軍①*
目的:分析我國各地區醫療設備領域的發展狀況,掌握醫療設備行業發展現狀與趨勢,提出采用數據挖掘(DM)技術管理醫療設備的措施。方法:利用DM技術,通過對我國部分地區醫療設備投資額、研究設計人員數目及當年總產值等數據進行挖掘分析。結果:我國醫療設備管理的發展勢頭在華東、華北地區較為明顯,西南和西北地區則相對較為落后。結論:數據挖掘技術對于醫療設備的管理與研究具有一定的參考價值,而基于決策樹的分類方法可應用于我國醫療設備行業的管理。
數據挖掘;醫療設備;行業;決策樹;分析
[First-author’s address] Department of Medical Engineering, Institute of Surgery Research, Daping Hospital, Third Military Medical University, Chongqing 400042, China.數據挖掘(data mining,DM),即數據庫中的知識發掘(knowledge discovery in data,KDD),是指利用大量數據進行分析,從中提取潛在的、有效的、新穎的及最終可理解的模式過程[1-3]。DM的本質是從大量模糊的、隨機的和無規律的行為數據中尋找其背后隱藏的規律或規則,分析特定領域中一些已有數據的含義,并預測其在某個階段的發展方向。近年來,基于數據庫的DM技術已成為目前DM領域較為熱門的研究課題,在科學界及相關產業界引起較大關注,并作為一個新興的學科逐步崛起,DM有著較為龐大的數據系統及相關的知識[4-5]。目前,我國的醫療設備市場日益壯大,在世界范圍內的醫療設備市場中仍最具發展前景,通過DM的相關技術能夠在我國醫療設備管理應用中的大量數據進行較為明確的分類,提取有用信息。本研究通過對遴選的18個省、市自治區醫療信息數據統計,并通過數據挖掘技術進行分析,獲取有用的信息和結論。
1.1 數據集的選擇與處理
參考2013年《中國高技術統計年鑒》,分析2012年醫療設備行業情況。采用SPSS 18.0統計學軟件對我國不同地區的投資額、研究設計人員數目總量進行有目的的分類;對入選的18個省、市、自治區根據所在區域進行泛化。其中黑龍江省、吉林省和遼寧省隸屬東北地區;北京市、天津市和河北省隸屬華北地區;上海市、浙江省和福建省隸屬華東地區;陜西省、甘肅省和寧夏回族自治區隸屬西北地區;重慶市、四川省和貴州省隸屬西南地區;河南省、湖北省和廣東省隸屬中南地區。根據6地區醫療設備投資額的不同,依次分為低、中、高3類。研究設計人員數目分為稀少、少、中、多4個層次。從數據統計結果來看,各地區醫療設備投資額、研究設計人員數目情況呈現不同的特點。
1.2 決策樹的生成步驟
(1)從大量數據中挑選一個較為適宜的屬性作為研究中“樹”的“根”。假設X和Y為樣本的兩大類,即一棵樹上的兩個信息源,如果屬性A被選作決策樹的“根”,其值可用A1、A2、A3、A4…分別表示,樣本集C則被分配成C1、C2、C3、C4…不同類型,其中Ci在一定程度上包括樣本集中C的屬性A的值Ai。若Ci包含屬于T類的Ti個樣品,那么對于Ci形成的“子樹”所需信息量為H(Xi,Yi)。以屬性A形成的樹所需的信息量則表示為公式1:

則A的分支獲得信息增益表示為公式2:

(2)選擇子樹的根。方法及過程同上。
(3)決策樹的修剪。在建立一棵決策樹的過程中,要盡可能地排除混入的無用的噪聲數據。建樹所需的信息量表示為公式3:

鑒于研究設計人員增益的特殊屬性,根據決策樹的生成步驟,選其為決策樹的“根”。首先創建一個與其相關的結點,利用研究設計人員顯示標記,同時再分出不同的枝,利用對樣本的劃分對各分支行遞歸運算分析后形成最終的決策樹(如圖1所示)。

圖1 最終決策樹框圖
研究結果顯示,我國醫療設備管理的發展勢頭在華東、華北地區較為明顯;西南和西北地區則相對較為落后,其中研究設計人員和投資額均在一個較低的水平,其原因是區域的地理位置偏僻;就發達程度比較而言,西南和西北處于相對較閉塞的地區,再加之氣候、環境及土壤等自然條件也比較惡劣,以上客觀原因均可導致其研究設計人員比例過少、投資額不高等現象,這在很大程度上導致了這些地區醫療設備管理水平下的總產值較低。因此,可以運用決策樹對我國醫療設備領域中的相關指標數據進行分類,針對連續等數據行聚類分析來做離散化處理,再通過對其行決策樹分類分析,建立與我國醫療設備行業情況較為適合的決策樹。
DM技術是由多種學科技術凝練而成,具有一定的廣泛性,可涉及到數據庫技術、高性能計算、統計學、機械學、信息檢索、圖像與信號識別等領域[6-7]。近年來,隨著科技的不斷進步,針對DM技術的研究逐漸廣泛,已經成為業界公認的信息產業中最具前途及前景的一門交叉融合學科[8]。DM技術不僅可以幫助決策者在對現有的信息總結的基礎上來預測未來的發展,還可以根據相應發展趨勢做出決策。常采用的主要方法有關聯規則、決策樹、神經網絡、遺傳算法、粗糙集以及聯機分析處理(on-line analytical processing,OLAP)方法等[9-12]。
目前,我國的DM技術尚未形成較大的規模,發展尚未完善,還處于起步階段,對于數據的研究分析也僅集中于電信、保險及金融等較為知名、規模較大和發展較成熟的行業,在與醫學相關的領域則較為欠缺[13]。因此,研究DM技術對于我國醫療設備管理有一定的理論和實踐意義,尤其是隨著新能源、新材料和其他一些高科技領域的騰飛發展。在研究設計人員的選擇方面,DM技術的結果具有一定的指導性。在醫療設備的高利潤、高投入的大背景下,進行市場的推廣需要較大的成本付出,這些因素導致了醫療設備管理上對資金依賴程度較大。
基于決策樹的分類方法適用于我國醫療設備行業的管理情況。在醫療設備管理發展的過程中應充分利用DM技術加強對醫療設備的管理,加大技術設備、資金的投入比例,改善人才匱乏的技術環境,通過建設高新區、招商引資等不同的途徑吸引更多的人才,從而促進我國醫療設備管理領域綜合實力的提高。
[1]伍平陽,林意群,林木炎,等.基于數據挖掘技術的醫療設備績效預測方法的應用研究[J].南方醫科大學學報,2008,28(2):222-224.
[2]張月,張奕,皇甫德俊,等.醫療設備監測系統軟件架構設計[J].南京廣播電視大學學報,2013(2):91-94.
[3]翟鳳杰,費曉璐,洪松林,等.醫學科研數據倉庫的建設[J].中國醫療設備,2013,28(12):80-82.
[4]于春華.基于數據挖掘技術的醫院器材管理決策支持系統[J].醫療衛生裝備,2005,26(10):37-38.
[5]王丹.基于數據挖掘的醫療設備購買可行性評估系統構想[J].科技信息,2010(27):492,456.
[6]魏繼勇.數據挖掘技術在用戶流失分析模型中的應用[J].中國醫學裝備,2009,6(3):17-19.
[7]伍平陽,林意群,林木炎,等.基于數據挖掘技術的決策樹算法在醫療設備績效預測中的應用[J].中國組織工程研究與臨床康復,2008,12(9):1689-1692.
[8]霍洪波,何必仕,吳斌,等.基于數據倉庫的醫療設備績效統計分析[J].中國醫療設備,2013,28(9):27-30.
[9]史今馳.數據挖掘技術在醫院信息系統中的應用[J].中國醫療設備,2012,27(1):86-88.
[10]伍平陽.基于數據挖掘技術的醫療設備績效預測方法的應用研究[D].南方醫科大學,2008.
[11]郝麗俊,莫國民,王艷,等.基于數據挖掘技術的AD腦電定征輔助檢測技術探討[J].中國醫學裝備,2011,8(2):1-3.
[12]蘇韶生,程敏婷,張淑娟,等.大型醫院開展數據挖掘項目存在的問題及對策[J].中國醫療設備,2010,25(8):59-60,84.
[13]楊曉鵬.淺談信息系統在醫療設備管理中的應用[J].醫學信息(中旬刊),2011,24(9):4601-4602.
Discussion on the application of data mining technology in the medical equipment industry
ZHANG He-hua, XIANG Hua, WU Xuan, et al// China Medical Equipment,2015,12(1):48-50.
Objective: To analyze the expenditure about investment of technical, staff and annual production situation in the field of medical equipment in different regions of China, grasp the development status and trend of medical equipment industry, put forward measures and suggestions of value. Methods: Analyze the output of medical equipment investment in some areas of China, R&D and staff by data mining technology (DM). Results: Medical equipment management development momentum in East China, North China area is obvious, relatively speaking; the southwest and northwest regions are relatively backward. Conclusion: Data mining technology has some reference value to the research of management of medical equipment, which can be used in Chinese medical equipment industry management from the classification based on decision tree.
Data mining; Medical equipment; Industry; The decision tree; Analysis
張和華,男,(1982- ),博士,工程師。第三軍醫大學大坪醫院野戰外科研究所醫學工程科,從事醫學裝備的管理及醫療器械開發工作。
1672-8270(2015)01-0048-03
R197.324
A
10.3969/J.ISSN.1672-8270.2015.01.015
2014-06-10
①第三軍醫大學大坪醫院野戰外科研究所醫學工程科 重慶 400042
*通訊作者:gaiety@126.com