,,
環境健康是醫學領域研究發展的一個重點交叉領域,環境對健康產生的影響近年來已受到國家重視,環境健康研究積極持續開展是實現“健康中國2030”的重要保障,尤其一些區域性高發疾病與該地區環境狀況密不可分。
本文以美國環境和健康領域開放科學數據為例,研究一般空氣污染物、細顆粒物、氣象條件、有毒物質等環境因素與肺癌、哮喘等疾病的關聯關系,同時結合實際應用場景可視化展示環境與疾病科學數據關聯分析結果,幫助公眾了解環境條件變化容易引發某些疾病,有助于提升公眾的疾病預防意識,為復雜環境條件下疾病的預防控制提供理論依據,對我國環境與健康關聯關系的研究提供借鑒,也是實現“健康中國2030”的重要保障。
本文采用來自美國疾病控制與預防中心網站[1]、美國國家環境保護署網站[2]開放獲取的科學數據。數據資源分為疾病數據和空氣污染數據兩部分,疾病數據主要涉及呼吸系統疾病(如哮喘、肺癌等)、慢性病(如糖尿病)等,空氣污染數據包括一般空氣污染物氣體、細顆粒物與有毒物質,此外還有氣象數據。其中1999-2013年美國肺癌發病率數據,包括美國全國及其各州的全種族肺癌發病率、白種人肺癌發病率、黑種人肺癌發病率、西班牙裔肺癌發病率,其中2013年數據如表1所示。

表1 2013年美國肺癌發病率數據實例(每10萬人)
從美國國家環境保護署網站獲取1990-2016年美國環境數據,分別包括各州按年度、按月份、按天記錄的一般污染物氣體(如臭氧Ozone、二氧化硫SO2、一氧化碳CO、二氧化氮NO2)、細顆粒物(如PM2.5、PM10)、氣象指標(風速、溫度、大氣壓等)、有毒物質(有毒空氣污染物、揮發性有機污染物、氮氧化合物等)。
2016年數據如表2所示。

表2 2016年美國空氣污染物數據實例
利用美國呼吸系統疾病數據、慢性病數據和環境記錄科學數據等資源,采用空氣污染與疾病科學數據關聯分析與應用。首先對開放獲取得到的美國疾病和環境數據進行數據預處理,其次把兩個領域的數據資源整合到一起,再對整合后數據資源進行關聯分析,以及結果的應用場景分析。整個過程主要包括數據資源預處理、數據資源整合、數據關聯分析和應用。
由于分別通過美國疾病控制與預防中心網站、美國國家環境保護署網站開放獲取得到疾病數據和環境數據資源,存在數據存儲格式多樣、空缺值、數據單位不一致等問題,會給數據資源整合及關聯分析等帶來一些不便。因此首先對不同存儲格式的數據文件進行格式轉化,統一存儲格式。然后針對環境數據中的空缺值采用均值法,進行空缺值彌補;同時針對疾病數據資源中確實缺失的空缺值,進行去除空缺值處理。環境數據中針對同一環境指標單位不統一的問題,進行不同單位之間換算,轉換成統一單位。
疾病數據資源和環境數據資源是來自兩個領域的資源,需要對其進行跨領域數據資源整合。首先按照區域把某一地區的疾病數據和該地區的環境數據對應整合起來,再按時間(年、月、日)把該地區對應時間內疾病情況進行整合,最終形成時間、地區、疾病情況、空氣污染物、細顆粒物、氣象條件、有毒物質等維度的整合數據資源集。
對整合后的數據資源進行關聯分析,首先采用C4.5分類算法從空氣污染物、細顆粒物、氣象條件、有毒物質等多種危險因素中尋找對疾病發生影響較大的因素[3-4],進而利用關聯分析方法構建這些危險因素分別與疾病發生之間的關聯關系,再把這些關聯關系進行可視化形式展示,最后結合關聯結果進行分析,同時研究成果在中國工程科技知識中心醫藥衛生知識服務系統中得以應用。
本文利用關聯分析發現隱藏在整合后的環境與疾病數據集中眾多危險因素與疾病發生之間的聯系。關聯關系的挖掘主要包括兩步:一是找出所有的頻繁項集,這些項集的每一個頻繁出現的次數至少與最小支持計數一樣;二是由頻繁項集產生強關聯規則,這些規則必須滿足最小支持度和最小置信度[5]。
Apriori算法是一種常用的頻繁項集挖掘算法。本文采用Apriori算法,使用逐層搜索的迭代方法,其中k項集用于探索(k+1)項集[5]。首先,通過遍歷掃描數據庫,累計每個項的計數,并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記為L1。然后,使用L1找出頻繁2項集的集合L2,使用L2找出L3,如此下去,直到不能再找到頻繁k項集。找到每個Lk需要一次數據庫的完整掃描。由找出的頻繁項集產生強關聯規則,強關聯規則滿足最小支持度和最小置信度,置信度計算公式如式(1)。

(1)
用項集的支持度計數表示置信度,其中suppport_count(A∪B)是包含項集A∪B的數目,suppport_count(A)是包含項集A的數目。由于關聯規則是由頻繁項集產生的,所以每個規則都自動地滿足最小支持度,本文使用Weka 3.5.8軟件,設置最小支持度閾值為60%,最小置信度閾值為70%,生成的頻繁項集(如{PM2.5}、{PM2.5,PM10}、{PM10,NO2,SO2}等)和它們的支持度可預先存放在散列表中,便于它們被快速訪問,具體關聯關系展示見下文。
本文針對一般污染物氣體、細顆粒物、氣象因素、有毒物質等環境因素與肺癌、哮喘等疾病開展關聯分析,同時把分析結果應用到項目實踐中。
通過分別對1999-2013年美國各個州肺癌發病率與空氣污染物、細顆粒物、氣象指標、有毒物質等進行關聯分析,得到如下結果。
關聯規則前件{PM2.5,PM10}、{PM2.5,SO2}、{PM2.5,SO2,NO2}、{PM10,Ozone, CO},可以推導出后件{肺癌},置信度分別為93%、81%、84%、79%,可以看出一般污染物氣體(Ozone、SO2、CO、NO2)和細顆粒物(PM2.5、PM10)對肺癌發病率影響較大,且隨著空氣污染物濃度和細顆粒物濃度變大,肺癌發病率也隨之增加,尤其是細顆粒物濃度對肺癌發病率的影響更加明顯,如圖1所示。
從總體趨勢上看2013年美國各個州的PM2.5濃度從低到高遞增,肺癌發病率隨之升高(但不排除個別州的PM2.5濃度高而肺癌發病率偏低的情況出現)。與一般污染物氣體和細顆粒物相比,風速、溫度、大氣壓等氣象指標對各州肺癌發病率的影響不太明顯。

圖1 2013年美國各州肺癌發病率與PM2.5濃度關聯關系
對1995-2010年美國加利福尼亞州哮喘病患病率與空氣污染物、細顆粒物、氣象指標、有毒物質等進行關聯分析,可以看出以下3點。
1995-2010年加州哮喘病患病率總體呈現緩慢上升趨勢,而在這16年間,臭氧濃度基本穩定,二氧化硫、一氧化碳、二氧化氮濃度呈現下降趨勢明顯,尤其是2000年以后二氧化硫、一氧化碳、二氧化氮等一般污染物氣體濃度下降顯著,所以1995-2010年加州哮喘病患病率增加與一般污染物氣體關聯不太大。
1995-2010年間細顆粒物對加州哮喘病患病率增加有影響,尤其是PM2.5對患病影響明顯。如圖2所示,1995-2010年加州PM2.5濃度呈上升趨勢,尤其1997-1999年PM2.5濃度上升明顯,期間哮喘病患病率也在增加;2006-2008年PM2.5濃度逐年上升,哮喘病患病率也在增加;2000-2004年間哮喘患病率逐年增加,可能與1997-1999年PM2.5濃度快速上升引發患病的時滯性有關。
1995-2010年氣象指標(風速、溫度、大氣壓等)和有毒物質與加州哮喘病患病率關聯不太明顯。

圖2 1995-2010年美國加州哮喘患病率與PM2.5關聯關系
本文基于美國疾病控制與預防中心和美國國家環境保護署的開放科學數據,開展環境與疾病關聯分析,同時利用MyEclipse軟件實現分析結果的可視化展示,并把涉及的一般空氣污染物氣體、細顆粒物、氣象因素、有毒物質與疾病之間的關聯分析結果已應用到中國工程科技知識中心醫藥衛生知識服務系統中環境健康板塊,其中2013年美國各州肺癌發病率分布、2013年美國各州NO2濃度排序分別如圖3、圖4所示。

圖3 2013年美國各州肺癌發病率分布

圖4 2013年美國各州NO2濃度排序
本文基于美國開放科學數據,整合處理空氣污染物、細顆粒物、氣象因素、有毒物質等環境條件與肺癌、哮喘等疾病的跨領域數據資源,研究環境與疾病之間的關聯關系,并結合實際應用場景可視化展示關聯分析結果,利于增進公眾對環境條件變化易引發某些疾病的了解,有助于公眾提升疾病預防的意識。為我國環境健康領域研究有序開展提供借鑒,為實現“健康中國2030”的提供重要保障。近年北美和歐洲在環境健康領域都已開展了大量的研究[6-8]。美國國家疾控中心已成立專門機構長期開展環境健康研究,對環境與高發疾病的影響進行深入挖掘。歐洲空氣污染與健康項目(Air Pollution and Health:A European Approach)研究溫暖季節里,臭氧濃度增加與每天新增死亡人數的關系[9],以及與心血管疾病、呼吸系統疾病死亡人數增加之間的關系[10]。Brooke A.在美國亞特蘭大、達拉斯、圣路易斯等多個城市中,研究環境空氣污染引起急診門診哮喘病就診量的變化,發現年齡是哮喘發病的敏感因素,在學齡兒童中更加明顯[11]。近年來我國也逐漸關注地域、氣象、環境等與疾病的關聯影響[12-14]。殷永文等人研究上海市霧霾期間PM2.5、PM10污染與呼吸科、兒科呼吸科日均門診人數的相關性,發現PM10日均濃度每增加50μg/m3,呼吸科、兒科呼吸科日均門診人數分別增加3%和0.5%;PM2.5日均濃度每增加34μg/m3,呼吸科、兒科呼吸科日均門診人數分別增加3.2%和1.9%,而且PM2.5、PM10污染對門診人數影響的滯后累積效應大于當日效應[15]。安愛萍等人對近年來我國大氣環境現狀對人體健康影響進行了綜述,涉及大氣污染物對身體健康的急、慢性作用、氣象要素變化誘發心腦血管疾病、呼吸系統疾病與免疫系統功能的影響[16]。
與之前研究不同,本文采用基于Apriori算法的關聯分析方法,不僅從眾多污染物中提取與疾病關聯關系明顯的污染物,且實現了結果的可視化展示,有利于加深公眾對環境健康問題更直觀的理解。
由于本文利用開放數據開展關聯分析,暫沒有獲取到患者的既往病史、家族史、是否吸煙等信息,是目前研究的不足。同時本文側重在已有數據基礎上,研究分析以往時間段內環境對疾病的影響,但如果利用已有數據預測未來疾病發生的趨勢,將利于醫院等衛生醫療機構有序應對環境變化引起的病患增加,進而合理安排布局醫療資源,因此如何預測未來疾病的發病趨勢是仍然需要不斷研究的方向。