毛曉健,王和勇
肺炎是5歲以下兒童第1位的死亡原因[1]。通過對肺炎患兒臨床特征的分析幫助了解其分布特征與規律,對兒童肺炎的臨床防治工作有著重要意義。關聯規則是數據挖掘中一種重要的研究方法,其優點是能夠發現數據中存在的隱含知識。關聯規則已經被應用于臨床醫學研究中,且大多運用Apriori算法進行關聯規則分析研究[2-6]。廣義規則歸納 (GRI)是關聯規則中算法的一種[7],該算法的基本思路是依據深度優先搜索策略進行分析,可更有效地發現數據中存在的隱含信息,以幫助發現數據中隱藏的規律。將GRI算法用于臨床數據分析中的文獻不多[8-11],且目前使用GRI算法研究肺炎患兒臨床特征與病原的關聯的文獻較少。本研究采用GRI算法研究肺炎患兒臨床特征與不同病原的關聯,為兒童肺炎不同病原的臨床特征研究提供新的思路。
1.1 資料來源 選取2005—2009年廣州市兒童醫院住院的肺炎患兒6 290例為研究對象;年齡1 d~14歲;住院時間2~44 d。
1.2 診斷標準 肺炎診斷標準參考第7版《兒科學》[12],患兒均有咳嗽等臨床癥狀,肺部檢查有實變體征和 (或)濕啰音,胸部X線檢查顯示片狀、斑片狀浸潤性陰影或間質性改變,并排除肺結核、肺部腫瘤、肺膿腫、肺血管栓塞、肺出血等。
1.3 方法
1.3.1 建立病例數據庫 用Excel建立6 290份原始病例資料數據庫,保留性別、年齡、年度等臨床特征資料和肺炎病原數據。
1.3.2 GRI算法 根據建立的病例數據庫文件,利用GRI算法進行臨床特征資料和病原數據的相關性分析。GRI算法的基本思路[7]是依據深度優先搜索策略進行分析。它從后項入手,逐個分析后項,分析完一個后項再分析一個后項;在分析每個后項的過程中,逐個分析后項所包含的具體類別,分析完一個類別后再分析一個類別;在分析每個類別的過程中,逐個分析前項,分析完一個前項后再分析一個前項;在分析每個前項的過程中,逐個分析前項所包含的具體類別,分析完一個類別后再分析一個類別。支持度 (support,%)代表給定數據集在所有的數據集中出現的頻率;置信度 (confidence,%)代表一個數據集在包含另一個數據集的事務中出現的頻繁程度。
1.3.3 構建網絡圖 采用Clementine 12.0統計軟件運行得到網絡圖,直線連接兩個單元則說明兩種單元有共同出現的概率,共同出現的概率越高則連接線越粗。
2.1 病原分類 住院肺炎患兒中喘息性支氣管肺炎2 095例,占33.31%;呼吸道合胞病毒肺炎1 377例,占21.89%;支原體肺炎1 221例,占19.41%;衣原體肺炎503例,占8.00%;腺病毒性肺炎461例,占7.33%;流行性感冒病毒肺炎437例,占6.95;克雷伯桿菌性肺炎137例,占2.18%;銅綠假單胞菌性肺炎32例,占0.51%;重癥肺炎27例,占0.43%。
2.2 性別與病原相關性 男性和女性患兒關聯度最高的均是喘息性支氣管肺炎和呼吸道合胞病毒肺炎 (見圖1、2)。

圖1 性別與病原相關性Figure 1 Association relationships between gender and pathogen
2.3 年齡與病原相關性 將患兒劃分為以下幾個年齡段:嬰兒期:0歲<年齡≤1歲;幼兒期:1歲<年齡≤3歲;學齡前期:3歲<年齡≤6歲;學齡期:6歲<年齡≤14歲。嬰兒期和幼兒期患兒關聯度最高的是喘息性支氣管肺炎和呼吸道合胞病毒肺炎;學齡前期和學齡期患兒關聯度最高的均是支原體肺炎 (見圖3、4)。2.4 年份與病原相關性 2005年關聯度最高的是喘息性支氣管肺炎和支原體肺炎;2006年關聯度最高的是喘息性支氣管肺炎和呼吸道合胞病毒肺炎;2007年關聯度最高的是呼吸道合胞病毒肺炎;2008年關聯度最高的是呼吸道合胞病毒肺炎;2009年關聯度最高的是流行感冒病毒肺炎 (見圖5、6)。

圖2 性別與病原相關性網絡圖Figure 2 Association relationship networks between gender and pathogen

圖3 年齡與病原相關性Figure 3 Association relationships between age and pathogen

圖4 年齡與病原相關性網絡圖Figure 4 Association relationship networks between age and pathogen

圖5 年份與病原相關性Figure 5 Association relationships between year and pathogen

圖6 年份與病原相關性網絡圖Figure 6 Association relationship networks between year and pathogen
GRI是關聯規則中算法的一種。和 Apriori算法不同[2-6],GRI算法是基于某項指數抽取了最大信息量的規則,可以處理數字輸入和符號輸入字段,并考慮了規則的普遍性 (支持度)和準確性 (置信度),幫助發現數據中隱藏的規律。目前使用GRI算法研究肺炎患兒臨床特征和病原的關聯的文獻較少。本研究采用GRI算法研究肺炎患兒臨床特征和不同病原之間的關聯,為肺炎患兒臨床特征和病原相關性研究提供了新的思路,研究成果對肺炎患兒臨床防治工作提供了一定的科學依據。
本研究結果顯示,住院肺炎患兒病原中喘息性支氣管肺炎、呼吸道合胞病毒肺炎、支原體肺炎占據前3位,細菌性肺炎所占的比例較少。嚴永東等[13]研究表示,呼吸道合胞病毒是誘發兒童喘息的第一位因素,其次是肺炎支原體、肺炎衣原體等。提示在肺炎患兒病原中呼吸道合胞病毒占據最重要的作用,此外應注意支原體在肺炎患兒病原學中的作用[14-16],對肺炎患兒應盡量明確病原,根據病因進行相應治療,防止抗生素濫用。
本研究結果顯示,不同年齡段肺炎患兒病原不相同。對3歲之下的肺炎患兒,最重要的病原是呼吸道合胞病毒;對3歲之上的肺炎患兒,最常見的病原是支原體。這些與楊曉麗等[17]、姚歡銀等[18]的研究結果一致,和楊建環等[19]的研究結果既有一致性又有差異,可能與地域差異有關。
此外,本研究還表明,不同年度住院肺炎患兒的病原組成有所不同,這與既往用Apriori算法及其他研究方法研究的結果一致[6],進一步說明GRI算法可以用于分析肺炎患兒臨床特征與病原的相關性;也和孫漢慶[20]研究具有一定的相同之處,進一步提示在進行不同年度肺炎患兒防治工作時,應根據本年度肺炎患兒的病原學特點進行。
本文研究了GRI算法挖掘肺炎患兒臨床特征與不同病原的關聯,利用了Clementine軟件進行相關實驗,實驗結果與相關文獻基本吻合,說明了GRI算法可以探索肺炎患兒臨床特征與不同病原之間的多重相關性。但是,本研究僅采集了2005—2009年的數據,今后還要繼續采集其他年份數據,以便進一步發現肺炎患兒臨床特征與不同病原的關聯。
1 Rudan I,Boschi PC,Biloglav Z,et al.Epidemiology and etiology of childhood pneumonia[J].Bull World Health Organ,2008,86(5):408-416.
2 Mahmoodian H,Hamiruce MM,Abdulrahim R,et al.Using fuzzy association rule mining in cancer classification[J].Australas Phys Eng Sci Med,2011,34(1):41-54.
3 He Y,Zheng X,Sit C,et al.Using association rules mining to explore pattern of Chinese medicinal formulae(prescription)in treating and preventing breast cancer recurrence and metastasis [J].J Transl Med,2012,10(Suppl 1):S12.
4 Czibula G,Bocicor MI,Czibula IG.Promoter sequences prediction using relational association rule mining [J].Evol Bioinform Online,2012,8:181-196.
5 馮秀珍,賀小紅,馮變玲.基于關聯規則的ADR預警系統及實證研究[J].科技管理研究,2012,32(9):194-197.
6 毛曉健,王和勇,安東.基于關聯規則的肺炎患兒病原分析研究[J].生物醫學工程學雜志,2012,29(6):1073-1077.
7 薛微,陳歡歌.Clementine數據挖掘方法及應用[M].北京:電子工業出版社,2010:256-258.
8 劉璐,高穎,馬斌.缺血性中風急性期證候特征與生物學指標的關系[J].中華中醫藥雜志,2011,26(5):1086-1090.
9 馮變玲,魏芬,楊世民,等.心腦血管用藥不良反應與用藥人群間的關聯關系分析[J].中國藥房,2011,36(3):3389-3391.
10 Ebrahimi M,Ebrahimie E,Shamabadi N,et al.Are there any differences between features of proteins expressed in malignant and benign breast cancers?[J].J Res Med Sci,2010,15(6):299 -309.
11 Huang LT.An integrated method for cancer classification and rule extraction from microarray data [J]. J Biomed Sci,2009,16:25.doi:10.1186/1423-0127-16-25.
12 沈曉明,王衛平.兒科學[M].7版.北京:人民衛生出版社,2008:272-281.
13 嚴永東,王宇清,陳正榮.嬰幼兒喘息與呼吸道病毒、肺炎支原體、肺炎衣原體感染及過敏的關系 [J].蘇州大學學報 (醫學版),2009,29(3):577-579.
14 楊征,吳亞軍,安靜,等.嬰幼兒肺炎支原體肺炎63例臨床特點研究 [J].實用心腦肺血管病雜志,2011,19(12):2110.
15 徐哲,陳華英,馬兵,等.小兒支原體肺炎病情輕重的相關因素研究 [J].中國全科醫學,2012,15(1):262.
16 厲敏香,范錚,方成超.小兒肺炎支原體肺炎診治體會[J].中國全科醫學,2011,14(3):996.
17 楊曉麗,武靜.布地奈德吸入預防呼吸道合胞病毒感染后哮喘的療效觀察 [J].實用心腦肺血管病雜志,2011,19(8):1316.
18 姚歡銀,王偉,王小仙,等.特應質對呼吸道合胞病毒毛細支氣管炎患兒鼻咽吸出物IL-4和IL-12及干擾素-γ水平的影響[J].中國全科醫學,2011,14(3):913.
19 楊建環,董琳,何時軍,等.溫州地區兒童重癥肺炎病原學分析[J].國際流行病學傳染病學雜志,2011,38(4):252-256.
20 孫漢慶.2006~2010年肺炎支原體肺炎發病情況調查分析 [J].安徽醫藥,2012,16(2):222-224.