孫文橋 石 磊* 何 健
腦卒中又稱“中風”、“腦血管意外”,是由于腦部血管突然破裂或因血管阻塞導致血液不能流入大腦而引起的腦組織損傷,包括缺血性和出血性卒中,且患者年齡多在40歲以上,男性多于女性,嚴重者可引起死亡,是當今威脅人民生命健康的主要疾病之一。高血壓是腦卒中諸多危險因素中最重要的因素,糖尿病、吸煙、血脂異常等因素也被許多研究證實與卒中發生具有直接關聯[1-2]。腦卒中病死率與致殘率均相當高,已經成為我國第一位病死原因,也是我國成年人殘疾的首要原因。目前,對于腦卒中由于一直缺乏有效的治療手段,因此對腦卒中的預防和預測尤為重要[3]。為此,本研究通過大規模腦卒中初篩數據分析,對腦卒中發病的危險因素規則模式進行研究。
研究數據來源于國家腦卒中篩查與防控數據中心(China Stroke Screening and Prevention Databank Rev:2012.03),數據采集于北京、河南、山東等11個省份,共取得862 244份腦卒中風險初篩社區評估表。該評估表為衛生部腦卒中防治委員會制定的卒中危險因素初篩表,針對>40歲的人群,依據危險因素進行卒中風險評估。
篩選的腦卒中危險因素共9個,其中包括:①既往有短暫性腦缺血發作(transient ischemic attack,TIA);②高血壓病(血壓≥140/90 mmHg或正在服用降壓藥);③房顫或瓣膜性心臟病;④吸煙;⑤血脂異常;⑥糖尿病;⑦體育鍛煉很少或輕體力勞動者;⑧明顯超重(BMI≥26 kg/m2);⑨腦卒中家族史。根據每個受調查者所具有的危險因素,評估工具將調查者分為高危人群、中危人群和低危人群[4-5]。
危險因素初篩表數據來源于北京、河南、山東、山西、四川、陜西等11個省份的86萬份數據。其中,男性397 765人,占總人數的46.1%;女性464 479人,占總人數的53.9%。所有初篩表中,有477 972項來源于城市人群,占55.4%;384 272項來源于農村人群,占44.6%。所有受調查者中,腦卒中患者為16 862人,占總人數的2.0%。
(1)通過對86萬份數據的分析,統計出各危險因素在人群中所占的比例。同時,使用Pearson相關系數檢驗各危險因素與腦卒中發病的關聯,結果發現,TIA和高血壓與腦卒中發病的相關系數分別為0.198和0.163,均>0.1,屬于弱相關;腦卒中家族史的相關系數為0.098,可近似認為與腦卒中發病弱相關。其余各危險因素均不直接相關,見表1,如圖1所示。

表1 腦卒中危險因素數據在人群中的分布(條)

圖1 危險因素在人群中分布情況統計圖
(2)每個人所具有的危險因素數量從0項到9項,隨著個人所具備的危險因素增加,腦卒中患病率有顯著增長,見表2。

表2 具有不同數量危險因素人員腦卒中發病情況
2.2.1 單一規則分析
(1)關聯規則挖掘算法用于發現數據背后事物之間可能存在的關聯或聯系,該算法屬于無監督學習,用以學習一個事物中,各事件同時出現的規律和知識模式[6]。在分析腦卒中各危險因素與腦卒中發病的規律和模式的問題中,9個危險因素和腦卒中發病共10個事件被視為“項目集合(項集)”,即項集I={TIA,高血壓,房顫或瓣膜性心臟病,吸煙,血脂異常,糖尿病,體育鍛煉很少,明顯超重,腦卒中家族史,腦卒中發病}。本研究針對9個危險因素和腦卒中發病的10個事件,分析與腦卒中發病共同出現的危險因素,其規則是形如X->Y的蘊含表達式,其中X和Y是不相交的項集。X是前9項危險因素的任意組合,也可稱為規則先導;Y={腦卒中發病},也可稱之為后繼。如患有TIA且腦卒中發病的規則可表示為{TIA}->{腦卒中發病}。
(2)本研究通過關聯規則挖掘中3個重要的參數來判斷規則的有效性。針對規則X->Y,支持度(Support)定義為Support(X->Y)=P(X∪Y),置信度(Confidence)定義為Confidence(X->Y)=P(Y|X),提升度(Lift)定義為Lift(X->Y)=P(Y|X)/P(Y)。支持度(Support)描述該規則的重要程度,可信度(Confidence)描述規則的準確程度,提升度(Lift)是一種相關性度量,反映該危險因素出現對腦卒中發病發生了多大的變化。提升度等于1(Lift=1)時,表示該危險因素與腦卒中發生是獨立且不相關;提升度>1(Lift>1)時,表示該危險因素與腦卒中發病正相關。在數據挖掘中,當提升度>3時才認為挖掘出的關聯規則有價值。
(3)分析單個危險因素對腦卒中發病的支持度,置信度,提升度,其結果見表3。

表3 單個危險因素與腦卒中發病的關聯規則
表3顯示,TIA、高血壓、糖尿病和腦卒中家族史提升度>3,與腦卒中發病明顯相關,所有危險因素提升度均>1,也即與腦卒中發病有一定程度的相關性。
(4)年齡在某種意義上也屬于腦卒中發病的危險因素[7]。隨著年齡增長,機體的功能和活力都有不同程度的下降與損傷,同時,年齡增長也會伴隨著以上探討的數個危險因素的出現。本研究統計不同年齡段人群的腦卒中發病情況,同時也使用關聯規則算法計算了年齡對腦卒中發病的支持度與置信度,其結果見表4。
表4顯示,發病率情況與置信度相同。從提升度數據可知,60歲以上對腦卒中發病有影響,結合重要性(支持度)和準確性(置信度)數據發現,年齡作為腦卒中發病的危險因素,影響力大于吸煙、血脂異常、體育鍛煉很少或輕體力勞動以及明顯超重這4個傳統危險因素。
2.2.2 多規則分析
(1)本研究使用Apriori算法分析腦卒中發病的多因素關聯規則挖掘,由于9個危險因素的所有組合數量候選集數量較大,Apriori算法可以使用頻繁項集的先驗知識,逐層搜索迭代,最終在所有頻繁集中找出強規則。算法的閾值選擇中,由于所有受調查者中腦卒中發病率為2%,因此最小支持度必須<2%。本研究選擇最小支持度為0.1%,最小置信度為10%,其結果見表5。

表5 腦卒中發病模式規則
(2)對于計算出的規則模式,以最后一條規則(高血壓,明顯超重,腦卒中家族史)為例,如果受調查者同時具有以上3條危險因素,其患有腦卒中的概率為12.52%,這條規則與腦卒中發病關聯性較強。從發現的腦卒中發病規則模式中,本研究發現高血壓和TIA出現在了所有有價值的規則當中。9個初篩危險因素中,吸煙和房顫或瓣膜性心臟病這2個因素分別只出現了1次和2次,其重要性低于腦卒中家族史、血脂異常、明顯超重等因素。在所有挖掘出的腦卒中發病規則中,越接近右上角、顏色越深圓圈大小越大的規則越重要(如圖2所示)。

表4 不同年齡段腦卒中發病的情況

圖2 腦卒中發病危險因素規則圖
腦卒中發病與多個危險因素相關,除了危險因素初篩表中所列舉的9個因素以外,血液病[8]、感染、同型半胱氨酸、頸動脈病變等因素都與腦卒中發病相關[9-12]。同時,本研究發現,當年齡>60歲時年齡成為影響腦卒中發病的重要危險因素。根據關聯規則挖掘算法分析,TIA、高血壓、糖尿病和腦卒中家族史和年齡是影響腦卒中發病的最主要的危險因素,各危險因素對腦卒中發病的影響為TIA>房顫或瓣膜性心臟病>腦卒中家族史>高血壓>糖尿病>年齡60歲以上>明顯超重>血脂異常>體育鍛煉很少或輕體力勞動者>吸煙。
本研究發現,21個與腦卒中發病有較強關聯的發病規則模式,傳統的高位規則中,吸煙和房顫或瓣膜性心臟病這2個因素在發現的21個規則中重要性不高,而腦卒中家族史、血脂異常、明顯超重等因素在發現的規則中頻繁出現。但另一方面,各危險因素與腦卒中關聯并未完全清楚,各危險因素之間的相互關聯也需要進一步研究。根據本研究發現的新規則,加強對具有相關危險因素人員的篩查與監測,能夠一定程度降低腦卒中的發病率,并且能夠早發現早治療,提升腦卒中高危人群的生活質量與治療效果。
[1]Mosley WJ,Greenland P,Garside DB,et al.Predictive utility of pulse pressure and other blood pressure measures for cardiovascular outcomes[J].Hypertension,2007,49(6):1256-1264.
[2]Zhang XF.Prevalence and Magnitude of Classical Risk Factors for Stroke in a Cohort of 5092 Chinese Steelworkers Over 13.5 Years of Follow-up[J].Stroke,2004,35(5):1052-1056.
[3]Zhao D,Liu J,WANG W,et al.Epidemiological Transition of Stroke in China:twenty-oneyear observational study from the Sino-MONICA-Beijing Project[J].Stroke,2008,39(6):1668-1674.
[4]Go AS,Mozaffarian D,Roger VL,et al.Executive summary:Heart Disease and Stroke Statistics-2014 Update:a report from the American Heart Association[J].Circulation,2014,129(3):399-410.
[5]Wolf PA,D'Agostino RB,Belanger AJ,et al.Probability of stroke:a risk profile from the Framingham Study[J].Stroke,1999,22(3):312-318.
[6]Agrawal R,Imielinski T,Swami A,et al.Mining association rules between sets of items in large databases[J].Int Conf Manag Data,1993,22(2):207-216.
[7]Lewington S,Clarke R,Qizilbash N,et al.Agespecific relevance of usual blood pressure to vascular mortality:a meta-analysis of individual data for one million adults in 61 prospective studies[J].Lancet,2002,360(9349):1903-1913.
[8]王維治,矯毓娟.血液病與缺血性卒中[J].中國神經免疫學和神經病學雜志,2001,8(1):40-43.
[9]孟昭遠.腦卒中危險因素研究進展[J].中國慢性病預防與控制,2008,16(5):549-551.
[10]Wiberg B,Sundstrom J,Arnlov J,et al.Metabolic Risk Factors for Stroke and Transient Ischemic Attacks in Middle-Aged Men A Community-Based Study With Long-Term Follow-Up[J].Stroke,2006,37(12):2898-2903.
[11]李丹波.腦卒中患者危險因素的相關性分析[J].中國醫藥導報,2010,7(1):162-163.
[12]Jenkins AJ,Rowley KG,Lyons TJ,et al.Lipoproteins and diabetic microvascular complications[J].Curr Pharm Des,2004,10(27):3395-3418.