王逸夫 李川
(四川大學計算機學院,四川 成都 610065)
?
基于數據挖掘的臨床醫學研究系統的設計與實現
王逸夫李川△
(四川大學計算機學院,四川 成都610065)
摘要目的:通過分析傳統臨床醫學研究方法的現狀與問題,理解臨床醫學研究對數據挖掘的需求,進而提出基于數據挖掘的臨床醫學研究系統的設計思想,并提出系統的評估方法,最后總結了基于數據挖掘的臨床醫學研究系統的應用價值。
關鍵詞:數據挖掘;臨床醫學;醫學研究系統
在臨床醫學研究上,傳統的研究命題與假說主要來源于工作實踐和相關科研文獻[1]。一方面,醫學工作者每天接待、診治大量病人,從這些醫療活動中總結、推理、歸納逐步形成經過驗證的知識;另一方面,醫學工作者需要通過大量閱讀相關醫學文獻,進一步提煉成新的研究命題與假設。無論采用哪種方式,都會產生、使用到大量的研究數據,而在數據應用方面,尤其是復雜嚴謹的數理統計設計,由于很多醫學工作者沒有專業的統計學背景,造成統計設計不嚴謹甚至錯誤,將導致整個研究成果的可信度下降,影響成果發表的水平和檔次。隨著醫療信息化的進一步完善,國內現在各大醫療機構、科研單位存在海量電子化臨床數據,由于缺乏專業的數據挖掘和數據分析的知識與技術,且受到傳統研究思維所局限,很多醫學研究者沒有意識到這些海量臨床數據的潛在價值。本文基于以上臨床醫學研究存在的問題和需求分析,設計了一個面向各類醫療機構、醫學科研單位的基于數據挖掘的臨床醫學研究系統。通過該系統,能夠為不熟悉復雜統計知識和數據挖掘技術的醫學工作者帶來了更多的研究線索與思路,同時也能夠加快實驗設計與分析,高質量的利用各類海量的研究數據,進而節省下大量研究成本,預期有良好的應用前景。
1實驗系統設計
臨床醫學研究的基本方法是“三要素”、“四原則”[3]?!叭亍笔侵秆芯咳巳骸⑻幚硪蛩睾陀^察結果,“四原則”是指要求研究設計滿足隨機、對照、重復和均衡的原則?;谏衔膶Ξ斍芭R床醫學研究存在問題和需求的分析,本文設計了如圖1所示的系統框架。

圖1 基于數據挖掘的臨床醫學研究系統功能框架
按照臨床科學研究的普遍需求,系統的功能劃分為五個模塊:①分布研究,即研究臨床數據的客觀分布。主要使用的數據挖掘技術是聚類分析,具體設計為:聚類檢驗和聚類疾病。②關系研究,即研究事物之間的關聯關系,以及變量之間的影響關系。主要使用的數據挖掘技術是關聯規則挖掘,具體設計為:合并癥關聯規則、檢驗因子權重及疾病因子權重。③預測研究,即根據有限的數據集推測目標變量的未知值。主要使用的數據挖掘技術是分類預測和回歸預測,具體設計為:指標預測及疾病預測。④異常研究,即研究由高維變量表達的事物的離群個案。主要使用的數據挖掘技術是異常偵測,具體設計為:多維指標負向異常點偵測和多維指標正向異常點偵測。⑤特征研究,即研究由高維變量表達的事物的主題特征。主要使用的數據挖掘技術是特征抽取,具體設計為:合并癥特征抽取。
2系統應用及結果
2.1基于數據挖掘技術的應用
2.1.1疾病聚類分析
主要用于對各類疾病/慢病在年齡、性別和其他一些常見個體屬性特征上的聚類分析,發現各種疾病不同的年齡、性別和其他一些常見個體屬性特征;用于對各類疾病/慢病在其相關的各種生理指標上進行聚類分析,研究各種疾病相關生理指標的分布。
2.1.2疾病關聯分析
用于對各類疾病在各種合并癥上進行關聯規則分析,分析發生某一合并癥的條件下發生另一種合并癥的概率;用于對各類慢病在各種風險因素上進行關聯規則分析,探索慢病危險因素的關聯關系和因果關系。
2.1.3疾病分類/回歸預測分析
用于挖掘疾病中多變量的高維數學模型,探索疾病的顯示或非顯示回歸模型,并進行驗證與評估,從而揭示疾病內在規律;用于訓練慢病分類預測模型,從數據挖掘角度完成先預測,再探索內在規律的臨床醫學研究新思路。
2.1.4疾病異常偵測分析
用于在各類疾病高維變量中挖掘離群點,探索疾病特殊病例的特征和規律等。
2.1.5疾病特征抽取分析
用于對各類疾病最可能發生的多種合并癥模型進行特征提取分析,研究模型中各種合并癥分量間的權重和關系,抽取特征。
2.2系統評價方法
為了保證數據挖掘系統的可用性,對其進行評價非常重要,其中運用統計學進行驗證是一個實踐證明很有效的方法。針對不同的數據挖掘技術,有相應的評價方法[4]。
關聯規則是形如X->Y的蘊涵表達式,其中X和Y是不相交的項集,即X∩Y=?。支持度(s)確定規則可以用于給定數據集的頻繁程度,置信度(c)確定Y在包含X的事務中出現的頻繁程度,提升度(lift)是為了解決置信度度量忽略了規則后件中出現的項集的支持度而在某些高置信度下產生的誤導。定義形式如下:
s(X->Y)=σ(X∪Y)/N
c(X->Y)=σ(X∪Y)/σ(X)
lift(X->Y)=c(X->Y)/s(Y)
其中,σ(X)表示項集X的支持度計數。
在評價關聯規則是否有價值時,我們通??紤]以下幾種統計指標:①具有高支持度、高置信度、高提升度的規則:高支持度說明關聯規則的前后件的相關現象很普遍,高置信度表示規則的可信度高,是強關聯規則,高提升度是大量事件隨機產生的強規則。②具有低支持度、高置信度、高提升度的規則:低支持度表示發生這種現象的實例數量少,高置信度表示規則有高可信度,該情況說明挖掘到的關聯規則可能是某種平時靠小數據樣本和個人醫學工作者無法察覺的現象。這種情況下需要根據專業知識和經驗設置一個可接受的最低支持度閾值。
2.3疾病關聯規則應用實現結果
在臨床醫學研究中,很多情況下需要做有關病因學方面的研究,如某種合并癥是否是導致另一種合并癥的誘因。數據挖掘中的關聯規則挖掘技術正好適合這類研究需求。關聯規則技術最大特點就是,從大量的隨機并發事件中,找到強關聯的規則,即在某件事發生的前提下,另一件事發生具有很高的概率。例如通過來源于四川某三甲醫院的數據,在系統中設置數據預處理條件,如性別、年齡和疾病名稱等,篩選出一組心絞痛病人共1908例。采用關聯規則的挖掘方法,判定這1908例病患不同合并癥之間的聯系,結果如表1所示。
表1中的關聯規則挖掘結果只選取了提升度大于1的前10個,并且按置信度降序排列。其中,支持度表示事件發生的概率,置信度表示前件發生時,后件發生的概率,提升度大于1的規則能更好預測結果,而不是基于數據中的頻繁程度猜測結果項是否會出現。第1條規則說明,患有不穩定心絞痛的病人,在出現非胰島素依賴型糖尿病的情況下,發生冠狀動脈粥樣硬化性心臟病的概率為0.9201。通常,支持度在0.1至0.2之間比較有參考意義,表中大部分支持度小于0.1,是因為心絞痛病的合并癥維度非常大,造成數據矩陣稀疏。因此,要挖掘出更有研究價值的關聯規則,需要由醫學專業的研究人員根據專業知識,制訂一些規則對數據進行預處理,包括但不限于降維等操作。
從表1中可以看出,第1條規則的置信度為0.9201,說明這條規則的可信度較高。支持度為0.1106,說明在出現非胰島素依賴型糖尿病的情況下,發生冠狀動脈粥樣硬化性心臟病的案例較為普遍。提升度為1.7764,說明此規則具有較好的實際意義。

表1 某三甲醫院按條件篩選后心絞痛病人關聯分析結果
通過對基于數據挖掘的臨床醫學研究系統在實際應用中的觀察和總結,我們得出如下結論:①更多的研究工作收益。通過基于數據挖掘的大數據分析探索工具,帶來了更多的研究線索與思路,科研立題更加廣泛和新穎,并且提供了更多的分析手段?;谏鲜鰞烖c,醫學工作者可以申請到更多的國家級和省市級課題,最終獲得的成果和論文也將成倍增長。②更快的研究工作進程。由于系統提供了試驗數據與數據挖掘統計分析工具的高度集成,因此,各種預實驗可以隨時、大量、反復地進行,進而各類研究試驗工作可以更快、更好地完成。③更好的研究質量和研究水平。該系統是基于當今熱門的大數據領域——數據挖掘技術設計開發,突破了傳統醫學研究手段,使高層次的臨床醫學研究更易于普及,也大大增加了醫學工作者重大科研發現的可能性。④更省研究成本。實踐表明,一個完善的基于數據挖掘的臨床醫學研究系統,能為醫院等科研機構節約很大一部分研究成本。這是因為完善的系統功能以及強大的數據處理能力,首先從人力成本上就省下不少一筆開支。
本研究還需充分考慮臨床數據高緯度特性可能會導致部分數據挖掘算法效率較低,從而限制數據挖掘技術和算法在醫學研究領域的實用性,今后將在此方面進行深入研究,更好地為醫務工作者的臨床和研究工作提供服務。
參考文獻
1熊國強,鄧瑞姣. 醫學科研中假設的形成及其檢驗[J]. 醫學臨床研究, 2000, 17(1): 47-50.
2周達生. 臨床醫學科研中數學模型的應用[J]. 現代醫學, 1983, (6): 7-11.
3胡良平. 實驗設計的三要素和四原則[J]. 中華醫學信息導報, 2003, 18(8): 18-18.
4Pang-Ning Tan, Michael Steinbach and Vipin Kumar.數據挖掘導論[M]. 北京: 人民郵電出版社, 2011, 228-230.
Design and implementation of clinical medical research system based on data mining
Wang Yi-fu, Li Chuan△
(College of Computer Science, Sichuan University, Sichuan Chengdu 610065)
Abstract:Through the analysis of the present situation and problems of the traditional clinical research methods, we understand the requirements of the clinical research of data mining, and then propose the design of the clinical medical research system based on data mining. Next in this paper, we propose the evaluation method for the system, finally, summarize the application value of the clinical medical research system based on data mining.
Key Words:Data Mining; Clinical Medicine; Medical Research System
作者簡介:王逸夫,男,碩士研究生,主要從事數據挖掘應用,醫療大數據,Email:JonathanWang@163.com。 △通信作者:李川,男,副教授,主要從事信息網絡,圖數據挖掘,Email:lcharles@scu.edu.cn。
(收稿日期:2016-3-25)