丁 鴻 李水明 李少珍 廖如燕
1 深圳市龍崗區疾病預防控制中心,廣東 深圳 518172;2 深圳市第三人民醫院,廣東 深圳 518112;3 廣州出入境檢驗檢疫局,廣東 廣州 510000
我國的公共衛生應急處置系統目前處于探索階段,尚未形成完備體系。一般而言,公共衛生應急處置系統應包括應急處置輔助查詢、現場處置、相關疾病輔助診斷等功能。傳染病的診斷主要依據患者的癥狀、體征及實驗室檢查結果,其診斷結果的準確性受診斷醫生的個人經驗、知識水平和實驗室檢測等影響較大。尤其是當發生傳染病疫情時,在疫情現場沒有實驗室結果的支持下,主要靠醫生的經驗和知識水平進行判斷。而傳染病種類繁多、病原體復雜、在不同地區和時間上分布具有差異性,這些特點使醫生們在做出診斷時,由于考慮不全或知識有限的情況下,往往發生漏診、誤診等現象。
突發性傳染病疫情的直接表現是傳染病的流行,傳染疾病的早期診斷常常依據流行病調查、臨床上的癥狀及體征和實驗室檢驗結果等病情資料,盡管疾病的最后確認有待實驗室病原學結果,但是在沒有快速診斷技術的前提下,就早期診斷,采取控制措施而言,前者的作用不可替代。如今,隨著計算機和信息技術應用領域的全方位擴展,傳染性疾病的預測預報及診斷防治工作有了新的發展方向和工具,即運用計算機及互聯網技術,可以使疾病的診斷和治療在精確數量化的基礎上,用計算機實現自動化,有助于提高傳染病疫情診斷的準確性,減少漏診、誤診。這不但能大大減輕一線專業人員的日常工作量,而且具有極強的交互性、便捷性,能有效提高工作效率及質量。
準確判斷是突發傳染病疫情處置的關鍵一步,判斷準確與否將決定疫情控制的效果和效率。由于突發傳染病疫情現場情況十分復雜,實驗室的病原學檢測需要時間,為了贏得疫情控制的時間,往往需要現場人員綜合現場情況對疫情做出初步判斷。根據疫情中流行病學調查、癥狀、體征和部分臨床檢驗結果等信息,對傳染病疫情早期智能輔助判別。利用數據設計原理與方法,設計傳染病輔助判別數據庫的概念模型和物理模型,以專業書籍、文獻報道、全國疾病監測網絡和傳染病診斷標準數據來源,建立各種傳染病的流行病學特征數據庫和癥狀、體征、實驗室檢測數據庫;研究常見癥狀、體征、實驗室檢驗結果和流行病學指標在各種傳染病中的概率分布;選擇適合數據特點的判別模型,建立模型算法并進行優化,用文獻報道的數據對模型進行驗證;建立反饋模型,對輔助診斷的疾病反過來驗證疫情中流行病學調查結果、癥狀、體征。
當前常用的傳染病預測模型有:回歸模型、時間序列模型、灰色理論模型、Markov模型、神經網絡模型和組合預測模型。
回歸預測法就是運用回歸分析的方法,通過對大量觀察數據的統計處理與分析,找出預測對象與影響因素之間的數量關系。建立回歸模型并進行預測的研究方法,包括一元線性回歸預測法、多元線性回歸預測法和非線性回歸預測法。理論上多元線性回歸要求資料總體服從多元正態分布且協方差相同,而流行病學資料難以滿足此條件,很多影響疾病的因素是 0,1分布或等級分布,此時可采用Logistic 回歸模型對疾病進行預測。有季節規律的時間序列用線性或非線性回歸模型進行預測顯然是牽強的[1-3],事物的發展不僅受長期趨勢支配,而且還受到隨機擾動和周期波動的影響,從而呈現出以趨勢為中心的變動軌跡,作為隨機方程的回歸預測模型,在組織建模時由于受到隨機擾動和周期波動因素的干擾,降低了預測的精度。
它是指一系列反映包括時間動態依存關系的數學模型,不僅可以從數量上揭示某現象與其他現象的發展變化規律或從動態的角度刻畫某現象與其他現象之間的內在數量關系及變化規律性,而且能夠預測與控制現象的未來行為。如果時間序列呈趨勢性且無明顯的季節性,則可用分析事物發展漸進過程的趨勢外推法,分析方法有線性、指數曲線、多次曲線等趨勢預測模型[4]。
灰色模型[5],是用時間數據序列建立系統的動態模型。隨著預防醫學和計算機科學的發展,許多研究者應用灰色預測模型對各種慢性病的發病率和死亡率進行預測,尤其應用在惡性腫瘤的研究當中[6-7]。灰色模型由于其預測效果好,適應性強,廣泛應用于疾病流行趨勢的預測。但由于灰色模型中的指數型變化是單調的( 單調上升或下降) ,因此長期預測的預測值就會偏高或偏低,特別隨著時間的推移,未來一些擾動因素對系統的影響,對隨機性、波動性較大的數據擬合較差,預測精度降低,這是灰色預測的不足之處。
Markov 鏈 (Markov chain)[9]是一種隨機事件序列,它將來的取值只與現在的取值有關,而與過去的取值無關,即Markov 鏈為無后效性的離散性隨機過程。Markov 鏈預測是區間預測,雖然降低了預測的精確度,但卻提高了預測的準確度。因此預測發病率實際值的范圍,對防病具有現實的意義,而且通過區間預測可給出實際值出現的范圍。該模型過程簡明,易于操作,短期預測精度高,特別適用于有波動性改變的資料。
神經網絡[9]或稱人工神經網絡 ( Artificial Neural Network,ANN) 以模擬生物的神經網絡結構和功能為出發點,逐漸演變成為一門對信息處理的方法學。人工神經網絡在流行病學領域的應用主要集中于疾病的診斷和預后、預測和預報以及病因識別等方面。人工神經網絡模型對復雜的大規模數據,無先驗知識的資料,資料不全、用傳統統計學方法無法解決或解決效果不好的問題,提供了一個全新而有效的解決途徑。但它仍存在一些問題,主要包括: 網絡初始值及閾值的確定,網絡學習速率的選取,網絡隱節點個數的確定等等。
單個預測模型進行預測時會存在一些缺陷,如信息源的不廣泛性、對模型設定形式敏感等。組合預測就是綜合利用各種單個預測模型所提供的信息,以其適當的加權平均形式得出組合預測模型。它可以綜合利用各種方法所提供的信息,盡可能地提高預測精度。組合預測仍處于發展之中,理論上還不夠十分完善。作者認為,可以將模糊控制理論、專家系統及人工智能中的一些方法和理論引用到組合預測領域中來,以降低算法的復雜性,提高預測精度。
目前常用的計量診斷方法有決策樹分類、貝葉斯分類、人工神經網絡方法。
決策樹是一個類似流程圖的樹形結構,是以實例為基礎從一組無次序、無規則的元組中推理出決策樹表示形式的分類規則[10-11]。它采用自頂向下的遞歸方式,樹的每個節點對應于一個屬性名或一個特定的測試,該測試在此節點根據測試結果對訓練集進行劃分,葉結點是要學習劃分的類。從根到葉結點的一條路徑就對應著一條規則,整個決策樹就對應著一組析取表達式規則。
決策樹算法的優點主要是:(1)可以生成可以理解的規則;(2)計算量相對來說不是很大;(3)可以處理連續和種類字段;(4)可以清晰的顯示那些字段比較重要。
其缺點主要是:(1)對連續性字段比較難預測;(2)對有時間順序的數據,需要很多與處理有關的工作;(3)當類別太多時,錯誤可能就會增加的比較快;(4)一般的算法分類的時候,只是根據一個字段來分類。
人工神經網絡[12]是近年來提出的一種機器學習的算法。人工神經網絡的原理是通過模擬生物的神經網絡結構和功能,實現對各種信息的有效處理。它通常包含輸入層、輸出層以及一個或幾個隱含層,它的基本組成單位為神經元。輸入層接受外界信號,不對其進行加工和處理,直接將其引入神經網絡;隱含層位于網絡的輸入層和輸出層之間,可包括多層,對輸入的信息進行處理并將處理后的信息傳給輸出層(或下一個隱含層);輸出層則輸出經隱含層處理后的結果。人工神經網絡不需要精確的數學模型,而是通過模擬人的聯想推理和抽象思維能力,來解決傳統自動化技術無法解決的許多復雜的、不確定性的、非線性的自動化問題。
人工神經網絡的缺點就是很難解釋,目前還沒有能對神經網絡做出顯而易見解釋的方法學。需要嚴格衡量神經網絡的方法,以防神經網絡學習過度,訓練一個神經網絡需要的時間比較長,從實用的角度來考慮,用大規模的BP 網絡來處理大規模的復雜問題在目前還是不現實的。
貝葉斯是一種判別分析方法,根據一批分類明確的樣品制定出一個分類標準,用于指導其后新樣品的歸類,在醫療衛生工作中越來越多的用于疾病診斷、預報、療效估計等。
貝葉斯原理:設 X 是未標示類別的樣本,H 為某種假定,如樣本 X 屬于某個特定的類。分別用 P(H|X)、P(X|H)、P(H)、P(X)表示條件 X 下 H 的后驗概率、條件 H 下 X 的后驗概率、H 的先驗概率、X 的先驗概率。通過先驗概率的大小推出后驗概率大小。
與決策樹和神經網絡相比,此類算法在分類準確性、運算效率等方面均較高,適合大型數據分類。主要有三種算法:樸素貝葉斯分類、線形貝葉斯判別、貝葉斯網絡。樸素貝葉斯算法成立的前提是各屬性之間相互獨立,當滿足這種獨立性假設條件時,與其它所有分類算法相比,樸素貝葉斯分類是最精確的。
傳染性疾病輔助診斷是公共衛生應急處置系統中最基礎也是最重要的一個核心模塊,其設計與實現的優劣將直接影響整個應急處置系統的成敗。其核心問題包括:數據源的獲取、數據庫的設計以及智能診斷算法的設計。其中,數據源必須從廣度和深度兩個層面上來獲取,在本系統中數據庫涵蓋大部分傳染病疾病特征和實驗室檢查等判別依據,基本可以滿足大部分突發公共衛生事件的現場需求。智能診斷算法是整個疾病智能診斷系統的核心部分,診斷算法的優劣將直接影響整個診斷的效率和準確性。下一步將進行算法的優化選擇。
[1]李立明.流行病學[M].北京:人民衛生出版社,1999,9: 111-119.
[2]章揚熙.醫學統計預測[M].北京:中國科技技術出版社,1995.64- 90.
[3]徐國強.胡清友.統計預測和決策[M].上海:上海財經大學出版社,2001.113- 131.
[4]王文昌,尹全煥,許汝福,等.季節性時間序列資料預測的線性方法[J].數理醫藥學雜志,1998,11 (2) : 103- 104.
[5]姚莉.灰色數列預測模型在傳染病死亡率研究中的應用[J].數理醫藥學雜志,2002,15 (2):103- 104.
[6]汪愛勤,魚敏.灰色預測方法在疾病預測中的應用[J].中華流行病志雜志,988,9 (1) : 49- 52.
[7]段瓊虹,聶紹發,仇成軒,等.灰色系統殘差 GM模型應用于前列腺癌流行趨勢預測[J].數理醫藥學雜志,2000,13( 5) :385- 386.
[8]朱彩蓉,倪宗瓚.Markov 狀態轉移模型在慢性患者平均壽命預測中的應用[J].中國衛生統計,2004,21 (4) : 212- 213.
[9]周利峰,高爾生,金丕換.BP 神經網絡與 Logistic 回歸對比初探[J].中國統計衛生,1998,15 (1) : 1- 4.
[10]閃四清,成茵,程雁,等譯.數據挖掘-概念、模型、方法和算法[M].北京:清華大學出版社,2003.80-195.
[11]韓家煒,主編.數據挖掘概念與技術[M].北京:科學技術出版社,2000.162-196.
[12]韓彥峰,段向前.人工神經網絡在數據挖掘中的應用.西安建筑科技大學學報(自然科學版),2005,37(1):11-123.