摘要:CMAQ(Community Multiscale Air Quality)涉及海量空間數據、復雜的處理模型和苛刻的時間需求,但高密集的計算操作使得串行CMAQ面臨計算瓶頸問題,昂貴的巨型高性能專用機對于普通研究者望塵莫及,因此基于Linux Cluster的并行CMAQ研究是解決該問題的重要途徑。本文以開源CMAQ為研究對象,探討基于Linux Cluster的并行CMAQ的計算模式、體系結構、并行模式、軟件框架等,并構建了相應的原型系統。實驗表明相對于傳統的串行架構,所提出的并行架構在計算效率上有了顯著提高。
關鍵詞:空氣質量;并行計算;CMAQ;基于Linux Cluster的并行CMAQ
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2010)05-1236-02
Preliminary Study on Parallel CMAQ Based Linux Cluster
FU Wei-ya
(College of Computer Science, Shanxi Normal University, Xi'an 710062, China)
Abstract: Facing to the problems of computation and I/O intensive, resulted from the massive volume of geo-spatial data, complexity of processing algorithms or models, and the time-critical demand in CMAQ applications, the challenge that arises is how to make CMAQ present high performance capability in those applications. We adopt CMAQ as object, and put forward the conception of cluster-based parallel CMAQ. The related theory not only includes its parallelism computing mode, architecture and software framework, but also comprises varies parallelization patterns. From the test in the primary system, it can be concluded that the parallel system has better efficiency than conventional system.
Key words: air quality; parallel computing; CMAQ Linux cluster-based parallel CMAQ
1 概述
隨著社會經濟的高速發展,汽車尾氣、工廠的各種排放物已經成為空氣污染的主要排放源。在經濟發展的同時空氣污染的加劇給人類社會帶來了巨大的災害。研究表明,高濃度的臭氧、二氧化氮、二氧化硫及可吸入顆粒物對人類身體健康和環境都具有嚴重的負面影響 [1-2]。并在很大程度上對全球大氣化學和氣候變化也產生重要影響[3]。
2 CMAQ模式簡介
90年代開始,隨著計算機性能的增強,特別是高性能計算與通信計劃的實施,更復雜的考慮多種大氣過程、多尺度的空氣質量模式的開發工作在美國展開。模式中需要考慮多種排放源,如工業、電廠、交通、生物排放等過程,研究的污染物和污染問題包括首要污染物、臭氧、顆粒物、能見度、酸沉降等。90年代末開發的代表目前國際領先水平的綜合多尺度空氣質量模式Models-3/CMAQ(Community Multi-scale Air Quality),本著“一個大氣”(One Atomosphere)的設計理念,融入了許多當前大氣化學和大氣環境領域的最新研究成果,將區域對流層大氣作為整體,周密的考慮所有已知的物理和化學過程,綜合考慮了不同物種之間的相互影響與轉化,最大限度的模擬真實的大氣環境,可用于局地到區域多種尺度光化學煙霧,區域酸沉降、大氣顆粒物質等大氣污染問題的理論研究與業務預報。Models-3為Third-Generation Air Quality Modeling System的通稱,由中尺度氣象模式、污染排放模式和多尺度空氣質量模式三部分組成,其核心是Community Multiscale Air Quality(CMAQ)模式系統,所以也可以稱其為Models-3/CMAQ模式。[4-5]CMAQ的最大特色在一個大氣(One-Atmosphere)的觀念,打破了傳統模式對單一物種的模擬。將復雜的空氣污染情況如對流層的臭氧、PM、有毒物質、酸沉降及能見度等問題綜合處理,用于多尺度、多污染物的空氣質量預報、評估和決策政策等多種途徑。美國環保局研制的未來第四代空氣質量模型系統,將盡可能考慮氣圈、水圈、和生物圈之間的互相作用,以便提供一個更加全面的方法對整個生態系統中的污染物的輸送和消亡過程進行預報和評估。
CMAQ是目前國際領先水平的空氣質量模型系統。CMAQ模型被應用于美國大陸,在美國大陸的應用范圍主要分為兩個不同的時間段:1999年6月15日至1999年7月16日以及2002年1月4日至2月19日。這次模擬包含了一個冬季,因為在美國許多區域,盡管臭氧主要是溫熱季節的空氣質量問題,但是冬天的PM2.5是一年中空氣質量最大的問題。在休斯敦加爾維斯頓空氣區域高濃度臭氧事件的應用,由于石油加工廠污染排放物導致嚴重的空氣質量問題呼吸道刺激物會嚴重影響健康而且被懷疑提高了特殊人群患口腔癌的風險。在國內,楊素英等利用CMAQ模型分析了周邊污染對北京大氣PM10的影響。結果表明,外來污染物輸送對北京大氣PM10 濃度影響較大,在采暖季和非采暖季外來影響分別為23.4%和40.0%。在周邊各省市中,河北、天津、山西等地污染源排放對北京市大氣PM10 均具有不同程度的影響。李莉等利用CMAQ模型模擬了長江三角洲地區大氣臭氧和可吸入顆粒物質的區域污染特征。這些研究對我國空氣污染治理提供了有利的科學依據。
如圖1所示,[6]CCTM(化學傳輸模型)是CMAQ模型的核心程式。輸入數據由以下幾個子程式生成:經過MCIP(氣象化學接口模塊)對MM5模擬結果從水平和垂直方向上提取SMOKE和CMAQ模塊所需區域的氣象資料,在垂直方向上可以插值,同時還可以診斷出CMAQ需要而MM5沒有產生的要素,如污染物的干沉降速度等。編譯處理后的氣象模型(MM5)數據;經過排放模型(SMOKE等)處理過的排放源數據,其中大點源的排放數據還需要經過包含子網格PinG(煙羽網格模型)的PDM煙羽動力模型處理;ICON(初始條件處理器)和BCON(邊界條件處理器)生成的初始與邊界條件數據;JPROC(光解速度處理器)計算得出的光解速率常數。
上述生成CCTM輸入數據的子程式基本沒有涉及到復雜大氣化學反應的計算,因此,其運算速度較快。但CMAQ的核心程式CCTM需要進行擴散效應、云程序機制、氣/液相化學反應機制、氣溶膠動力與粒徑機制、煙流化學效應、氣溶膠干/濕沉降速率仿真等海量、復雜的物理和化學反應運算,因此在順序計算時CCTM速度非常慢,是CMAQ模型運算效率的瓶頸,并阻礙了CMAQ在實際空氣質量模擬中的推廣應用。上述瓶頸可以通過并行計算技術來解決。
3 實驗理論基礎
隨著計算機技術的發展,計算機設備得到廣泛普及,研究者使用特定連接方式可以用比超級計算機便宜許多的計算機設備結合起來形成cluster,提供與超級計算機性能相當的并行處理技術[4]。加之CMAQ模式都采用開放源碼技術,可以在網站上免費下載,這大大方便了廣大學者進一步研究和發展CMAQ模式。Custer一般分為高可用集群系統(High Available Cluster)和高性能計算集群系統(High Performance Computing Cluster)。高性能計算(High Perfermance Computing)集群,簡稱HPC集群,也稱為科學計算集群。在這種集群上運行的是專門開發的并行應用程序,它可以把一個問題的數據分布到多臺的計算機上,利用這些計算機的共同資源來完成計算任務,從而可以解決單機不能勝任的工作(如問題規模太大,單機計算速度太慢)。這類集群致力于提供單個計算機所不能提供的強大的計算能力。如天氣預報、石油勘探與油藏模擬、分子模擬、生物計算等。CMAQ的并行計算主要通過MP ICH程序進行。MP ICH是MP I的可移植執行程序,目前它同時支持MP I-1和MPI-2。同時由于Linux系統的開發性、系統穩定性、網絡安全性等特點,使得以Linux平臺構建高性能計算集群系統成為主流。
CCTM/CMAQ系統是利用基于netCDF數據存儲格式的IOAP I 3.0來進行輸入/輸出數據的管理。CCTM/CMAQ并行計算數據是通過主服務器在局域網內NFS共享目錄方式存取。一次并行計算任務由主服務器分發給自身及各從服務器同一時間序列的計算任務和計算輸入數據;各計算節點將計算任務完成后所得結果異步寫入主服務器的內存中,然后由CMAQ中的PARIO進行拼接后再順序寫入主服務器惟一的netCDF文件中為本次并行計算任務的結束;這之后再開始新一輪的并行計算。
4 模式安裝簡介
本實驗在參考CMAQ V4.6用戶手冊的基礎上,結合實際硬件環境來完成,最后采用CMAQ軟件自帶的測試數據,對模型進行驗證。輸出數據用VERDI (Visualization Environment for Rich Data Interpretation)軟件顯示圖形化結果。
除過PGI為計費軟件外,其余均可以在網上免費下載。CMAQ軟件安裝過程非常復雜,由于目前CMAQ官方網站還沒有給出CMAQ4.7的用戶手冊,因此除了參照CMAQ4.6用戶手冊之外,還需要有扎實的Linux知識。如表1所示。
硬件環境:本實驗硬件環境采用4臺服務器,其中一臺主服務器,負責為自身和其他三個從服務器分配任務,一臺千兆交換機,由于實驗數據是采用測試數據,數據量不是很大,將CMAQ模型運算的數據通過NFS局域網內共享目錄方式存放在主服務器的硬盤中。
整個CMAQ的運行都是在C shell下,每次模擬將產生六個輸出文件,六個輸出文件分別為:CONC(小時即時濃度)、ACONC(小時平均濃度)、DRYDEP(小時干沉降)、WETDEP(小時濕沉降)、AEROVIS小時能見度、CGRD(下一天模擬初始化文件)。此六個文件均放在CCTM文件夾中。執行VERDI軟件,將輸出數據加載進去,可以對數據進行可視化分析。如圖2所示。
5 總結與展望
文章對CMAQ模型做了概述,同時對集群環境的搭建方法做了介紹,由于專業的空氣質量模擬都是在高端的超級計算機上運行,其價格非常昂貴,不適合普通研究者使用,這樣嚴重阻礙了模式的發展和完善。本文利提供了一個廉價的、高性能的模擬方法,可以為廣大普通學者提供參考。
參考文獻:
[1] Englert,N., Fine particles and human health—a review of epidemiological studies. Toxicology Letters 2004. 149: 235–242.
[2] Koop, G., Tole, L., An investigation of thresholds in air pollution mortality effects. Environmental Modelling and Software, 2006. 21: 1662–1673.
[3]Jenkin, M.E., Clemitshaw, K.C., Ozone and other secondary photochemical pollutants: chemical processes governing their formation in the planetary boundary layer. Atmospheric Environment , 2000.34:2499–2527.
[4] Byun DW,JKS Ching,et al,Development and Implementation of the ERA’s Models-3 Initial Operating Version :Community Multi-scale Air Quality Model, Air Pollution Modeling and its application, 1998, Plenum Publishing Coorp: 357-368.
[5] Byun DW, J Yong,et al, Description of the Models-3 Community Multiscale AirQuality Model: Proceedings of the American Meteorological Society 78th Annual Meeting Phoenix, 1998, 264-268.
[6] Byun Already D W, Ching JKS .Science Algorithms of the EPA MODELS-3 Community Multiscale Air Quality(CMAQ) Modeling System.EPA/600/R-99/030,US Environmental Protection Agency,1999.