潘爭(zhēng)光, 趙 奎, 王鴻亮, 王俊霖
?
基于實(shí)時(shí)技術(shù)的大氣顆粒物在線分析系統(tǒng)①
潘爭(zhēng)光1,2, 趙 奎2, 王鴻亮2, 王俊霖3
1(中國(guó)科學(xué)院大學(xué), 北京 100049)2(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所, 沈陽(yáng) 110168)3(大連理工大學(xué)軟件學(xué)院, 大連 116024)
針對(duì)環(huán)境監(jiān)測(cè)中, 難以實(shí)時(shí)在線處理海量顆粒物數(shù)據(jù)的問(wèn)題, 提出了一種基于實(shí)時(shí)技術(shù)的大氣顆粒物在線分析系統(tǒng), 實(shí)現(xiàn)了顆粒物統(tǒng)計(jì)、濃度變化、來(lái)源解析等功能. 該系統(tǒng)利用實(shí)時(shí)數(shù)據(jù)庫(kù)來(lái)實(shí)時(shí)采集、存儲(chǔ)海量大氣數(shù)據(jù), 解決了環(huán)境監(jiān)測(cè)中數(shù)據(jù)的海量問(wèn)題; 同時(shí), 引入自適應(yīng)共振神經(jīng)網(wǎng)絡(luò)算法和邏輯回歸模型進(jìn)行數(shù)據(jù)分析, 成功降低數(shù)據(jù)規(guī)模, 提升數(shù)據(jù)分析速度. 實(shí)踐表明, 該在線分析系統(tǒng)能在合理時(shí)間內(nèi)得到準(zhǔn)確的分析結(jié)果, 具有重要的實(shí)際意義.
實(shí)時(shí)技術(shù); 海量數(shù)據(jù); 聚類分析; 在線分析; 環(huán)境監(jiān)測(cè)
當(dāng)前, 大氣環(huán)境污染問(wèn)題日益嚴(yán)重, 大氣中各種細(xì)小顆粒物對(duì)人體健康極為有害. 速度開(kāi)展環(huán)境狀況及影響分析, 已經(jīng)是擺在科研人員面前的緊迫任務(wù). 傳統(tǒng)的環(huán)境數(shù)據(jù)分析方法是以人工的方式進(jìn)行數(shù)據(jù)采集、手動(dòng)或半自動(dòng)化地進(jìn)行數(shù)據(jù)分析、最后以靜態(tài)的表格形式存儲(chǔ), 整個(gè)過(guò)程費(fèi)時(shí)費(fèi)力; 再者我國(guó)經(jīng)濟(jì)處于高速發(fā)展的階段, 環(huán)境數(shù)據(jù)更新迅速, 這就對(duì)環(huán)境數(shù)據(jù)分析方法提出了時(shí)效性要求; 另外一方面, 隨著現(xiàn)在環(huán)境監(jiān)測(cè)手段的多樣化、自動(dòng)化, 比如質(zhì)譜儀每分鐘采集到數(shù)百的質(zhì)譜數(shù)據(jù), 如何高效、自動(dòng)化地存儲(chǔ)分析數(shù)據(jù)顯然十分必要[1,2].
本系統(tǒng)利用實(shí)時(shí)數(shù)據(jù)庫(kù)來(lái)采集、存儲(chǔ)、管理海量顆粒物數(shù)據(jù), 再通過(guò)相應(yīng)的數(shù)據(jù)庫(kù)接口, 提供給上層數(shù)據(jù)分析系統(tǒng), 上層數(shù)據(jù)分析系統(tǒng)再?gòu)暮A看髿庑畔⒅? 通過(guò)各種數(shù)據(jù)分析方法, 實(shí)現(xiàn)海量大氣顆粒物的統(tǒng)計(jì)譜圖、粒徑分布、濃度變化曲線圖、自動(dòng)命名、源解析等分析功能, 實(shí)時(shí)、在線地提取有效信息, 助力環(huán)境中心的空氣污染監(jiān)測(cè).
2.1 實(shí)時(shí)技術(shù)與實(shí)時(shí)數(shù)據(jù)庫(kù)
實(shí)時(shí)技術(shù)具有低延遲、快速反應(yīng)、實(shí)時(shí)處理的特點(diǎn), 實(shí)時(shí)數(shù)據(jù)庫(kù)技術(shù)自上世紀(jì)80年代開(kāi)始飛速發(fā)展, 其作為數(shù)據(jù)庫(kù)系統(tǒng)的一個(gè)分支, 是傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)與實(shí)時(shí)技術(shù)結(jié)合的產(chǎn)物, 它具有高實(shí)時(shí)性、高數(shù)據(jù)吞吐量等特點(diǎn), 是各種信息監(jiān)測(cè)系統(tǒng)的基礎(chǔ), 廣泛應(yīng)用在工業(yè)生產(chǎn)現(xiàn)場(chǎng)的信息采集、裝置監(jiān)控、歷史數(shù)據(jù)管理[3], 已經(jīng)在各行業(yè)的實(shí)時(shí)在線系統(tǒng)中扮演重要角色.
2.2 大氣顆粒在線分析方法
現(xiàn)行多種大氣顆粒物數(shù)據(jù)分析方法, 比如顆粒物總體分析和單顆粒分析[4]. 總體分析是以采集樣本的總體作為研究對(duì)象. 通過(guò)X射線熒光光譜或者中子活化分析法來(lái)對(duì)顆粒物中的元素進(jìn)行檢測(cè), 分析出樣本整體表現(xiàn)出的光譜或化學(xué)特征, 從而得到總體數(shù)據(jù); 單顆粒分析法以單個(gè)空氣顆粒為分析單位, 利用空氣動(dòng)力學(xué)和光學(xué)相關(guān)知識(shí), 能夠?qū)蝹€(gè)顆粒的粒徑和化學(xué)成分進(jìn)行分析, 精確程度較高, 但會(huì)產(chǎn)生海量離子、譜圖數(shù)據(jù).
2.3 顆粒物聚類分類方法
單顆粒分析法在分析大氣顆粒物時(shí), 會(huì)產(chǎn)生海量數(shù)據(jù), 因此需要利用數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行高效的、自動(dòng)化的數(shù)據(jù)分析.
數(shù)據(jù)挖掘中有多種聚類算法, 適用于質(zhì)譜儀數(shù)據(jù)的聚類算法多采用基于密度的聚類方法, 如K-means算法、模糊c均值、ART-2a(自適應(yīng)共振神經(jīng)網(wǎng)絡(luò))等, 綜合考慮大氣數(shù)據(jù)特征與算法效率特征, 本系統(tǒng)采用的是ART-2a算法.
3.1 系統(tǒng)需求分析
本系統(tǒng)旨在實(shí)現(xiàn)一個(gè)基于實(shí)時(shí)技術(shù)的大氣顆粒物在線分析系統(tǒng), 主要包含以下功能子模塊: 數(shù)據(jù)來(lái)源配置、化學(xué)成分分析、顆粒物來(lái)源解析、查詢統(tǒng)計(jì)等模塊[5]. 具體功能劃分如圖1所示.
3.2 架構(gòu)設(shè)計(jì)
本系統(tǒng)采用C/S架構(gòu), 在架構(gòu)設(shè)計(jì)上分為表示層、邏輯層和數(shù)據(jù)層, 如圖2所示.

圖1 功能模塊圖
3.2.1 數(shù)據(jù)服務(wù)層
數(shù)據(jù)服務(wù)層是系統(tǒng)的基石, 在本系統(tǒng)中, 采用某品牌實(shí)時(shí)數(shù)據(jù)庫(kù)與MySQL數(shù)據(jù)庫(kù)結(jié)合的方式來(lái)構(gòu)建數(shù)據(jù)采集、存儲(chǔ)和管理系統(tǒng), 解決了海量大氣顆粒數(shù)據(jù)監(jiān)測(cè)中的實(shí)時(shí)性需求和海量數(shù)據(jù)存儲(chǔ)需求, 為上層的業(yè)務(wù)邏輯層提供高速的數(shù)據(jù)服務(wù).
3.2.2 業(yè)務(wù)邏輯層
業(yè)務(wù)層是各種數(shù)據(jù)分析過(guò)程的具體實(shí)現(xiàn), 是整個(gè)系統(tǒng)的核心部分, 包含眾多的數(shù)據(jù)分析過(guò)程, 如數(shù)據(jù)導(dǎo)入導(dǎo)出、顆粒物聚類、顆粒物自動(dòng)命名、統(tǒng)計(jì)分析、濃度變化曲線圖、顆粒物來(lái)源解析等.
圖3是對(duì)空氣顆粒物進(jìn)行來(lái)源解析的流程圖.

圖3 源解析流程圖
本系統(tǒng)基于Visual Studio 2010平臺(tái), 采用C++語(yǔ)言, 使用某品牌實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)做實(shí)時(shí)數(shù)據(jù)采集和存儲(chǔ), 使用MySQL數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)分析結(jié)果和存儲(chǔ)本系統(tǒng)的管理數(shù)據(jù)[6].
本系統(tǒng)具有多種優(yōu)點(diǎn): (1)界面友好、操作方便; (2)可以對(duì)海量大氣數(shù)據(jù)進(jìn)行快速分析; (3)對(duì)分析結(jié)果以圖表的形式進(jìn)行展示, 并可以對(duì)結(jié)果進(jìn)行導(dǎo)入導(dǎo)出; (4)對(duì)數(shù)據(jù)分析的參數(shù)可以動(dòng)態(tài)配置; (5)可以對(duì)顆粒物聚類結(jié)果實(shí)現(xiàn)自動(dòng)命令, 高度自動(dòng)化, 節(jié)省人力物力; (6)提供管理員等多角色管理功能.
下面主要介紹數(shù)據(jù)服務(wù)層、數(shù)據(jù)預(yù)處理、數(shù)據(jù)聚類分類分析、數(shù)據(jù)統(tǒng)計(jì)等四個(gè)關(guān)鍵模塊的實(shí)現(xiàn).
4.1 數(shù)據(jù)服務(wù)層的實(shí)現(xiàn)
實(shí)時(shí)數(shù)據(jù)采集和歷史數(shù)據(jù)都可以通過(guò)相應(yīng)的API或者數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)完成, 其提供C/C++二次開(kāi)發(fā)API讓客戶很方便地對(duì)實(shí)時(shí)采集和歷史數(shù)據(jù)進(jìn)行增刪查改, 如goh_get_archived_values可獲取單個(gè)標(biāo)簽點(diǎn)一段時(shí)間內(nèi)的存儲(chǔ)數(shù)據(jù), goh_get_single_value獲取某標(biāo)簽?zāi)硶r(shí)間點(diǎn)的數(shù)據(jù), goh_update_value可修改某標(biāo)簽?zāi)硶r(shí)間段的數(shù)據(jù)值, goh_remove_values可刪除某標(biāo)簽一段時(shí)間內(nèi)的數(shù)據(jù)值, goh_get_cross_section_values可獲取批量標(biāo)簽點(diǎn)的數(shù)據(jù)值.
用MySQL數(shù)據(jù)庫(kù)可以存儲(chǔ)數(shù)據(jù)分析后的結(jié)果, 方便數(shù)據(jù)的存儲(chǔ)、查詢、導(dǎo)入、導(dǎo)出.
4.2 數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)預(yù)處理階段, 主要是針對(duì)實(shí)時(shí)采集的顆粒物數(shù)據(jù), 從中提取到系統(tǒng)數(shù)據(jù)分析模塊所需要的電離離子的峰高、峰面積、相對(duì)峰面積等數(shù)據(jù), 并根據(jù)需求選擇一個(gè)指標(biāo)作為后續(xù)處理的基準(zhǔn).
4.3 顆粒物聚類分析
本系統(tǒng)通過(guò)ART-2a自適應(yīng)共振神經(jīng)網(wǎng)絡(luò)算法來(lái)將相似的顆粒物聚集到同一個(gè)分組中, ART-2a神經(jīng)網(wǎng)絡(luò)是一種無(wú)監(jiān)督的矢量分類器, 能有效地處理大數(shù)據(jù)集和高維數(shù)據(jù)集, 大大降低數(shù)據(jù)的規(guī)模. 并且當(dāng)某個(gè)數(shù)據(jù)點(diǎn)與當(dāng)前存在的所有分類都沒(méi)有達(dá)到預(yù)設(shè)的相似度時(shí), ART-2a為其自動(dòng)產(chǎn)生一個(gè)新的類別, 而不影響其它已經(jīng)存在的顆粒物聚類, 因此該算法很適用于質(zhì)譜儀數(shù)據(jù)聚類分析[7].
ART-2a算法的流程如下:
1). 利用數(shù)據(jù)矩陣, 隨機(jī)初始化輸入向量;
2). 對(duì)輸入向量進(jìn)行歸一化處理;
3). 計(jì)算輸入向量與已存在的感知器進(jìn)行相似度計(jì)算, 即向量?jī)?nèi)積計(jì)算;
4). 若相似度達(dá)到閾值參數(shù), 則該顆粒物屬于該分組, 并進(jìn)行共振, 更新感知器位置; 若未達(dá)到相似度閾值, 則自動(dòng)產(chǎn)生新類;
5). 將所有的顆粒重復(fù)上面的步驟, 并進(jìn)行多輪迭代直到分類結(jié)果穩(wěn)定.
聚類效果如圖4所示.

圖4 聚類效果示意圖
4.4 顆粒物自動(dòng)命名
本模塊給出了基于邏輯回歸模型的分類系統(tǒng), 來(lái)實(shí)現(xiàn)對(duì)顆粒物自動(dòng)命名. 主要思路是: 以離子信息的峰高、峰面積、相對(duì)峰面積等參數(shù)作為特征值, 通過(guò)訓(xùn)練樣本來(lái)調(diào)整分類器的參數(shù), 在訓(xùn)練樣本充足的情況下, 會(huì)得到相應(yīng)顆粒物的回歸模型, 隨著后期用戶的不斷反饋, 進(jìn)行在線學(xué)習(xí), 可以進(jìn)一步更新模型參數(shù), 提高分類精確度[8].

圖5 回歸模型
邏輯回歸模型用于二分類問(wèn)題, 大氣中常見(jiàn)的有七種顆粒: 元素碳(EC)、鈉鉀(NaK)、鉀(K)、礦物質(zhì)(M)、重金屬(HM)、大分子有機(jī)物(HOC)、有機(jī)碳(OC). 因此, 我們需要對(duì)此七種顆粒物分別建立模型, 需要相應(yīng)的回歸模型. 在對(duì)實(shí)際數(shù)據(jù)進(jìn)行分類測(cè)試時(shí), 只需分別對(duì)每個(gè)顆粒物進(jìn)行二分類即可.
自動(dòng)命名結(jié)果如圖6所示.

圖6 自動(dòng)命名示意圖
4.5 顆粒物數(shù)據(jù)統(tǒng)計(jì)
為更加宏觀直觀地顯示空氣數(shù)據(jù), 需要對(duì)分析后的數(shù)據(jù)進(jìn)行統(tǒng)計(jì), 以便制定應(yīng)對(duì)方案, 助力環(huán)境保護(hù). 圖7是顆粒物粒徑分布圖; 圖8表示顆粒物濃度變化曲線圖; 圖9表示顆粒物來(lái)源分布餅狀圖.

圖7 顆粒物粒徑分布圖

圖8 顆粒物濃度變化曲線圖

圖9 顆粒物來(lái)源分布餅狀圖
根據(jù)顆粒物來(lái)源分布餅狀圖, 可以進(jìn)一步對(duì)顆粒物來(lái)源進(jìn)行解析, 判斷出可能的污染源, 如: 生物質(zhì)燃燒、工業(yè)、尾氣、燃煤等.
本系統(tǒng)測(cè)試服務(wù)器配置如下: Intel Xeon E4-1235v2 CPU、64G內(nèi)存、Windows Server2008(64位), 然后于遼寧大學(xué)、沈撫新城等位置獲取12W、22W、32W組顆粒物測(cè)試數(shù)據(jù), 分別測(cè)試數(shù)據(jù)預(yù)處理、聚類分析、自動(dòng)命名等模塊的運(yùn)行時(shí)間.

圖10 來(lái)源分析結(jié)果
本文中以采用MySQL數(shù)據(jù)庫(kù)為系統(tǒng)優(yōu)化前的速度, 采用實(shí)時(shí)數(shù)據(jù)庫(kù)后為系統(tǒng)優(yōu)化后的速度, 下面是兩者在各階段的處理性能, 數(shù)據(jù)規(guī)模單位為W(萬(wàn)組), 時(shí)間指標(biāo)單位為min(分鐘).

表1 系統(tǒng)性能測(cè)試
由上表可以看出, 本系統(tǒng)在未優(yōu)化前, 時(shí)間分別為46分、85分、119分, 對(duì)比于半自動(dòng)化或者手動(dòng)數(shù)據(jù)分析, 整個(gè)系統(tǒng)分析速度提升數(shù)十倍以上; 同時(shí), 采用實(shí)時(shí)技術(shù)的優(yōu)化策略后, 本系統(tǒng)的運(yùn)行時(shí)間為30分、50分、76分, 系統(tǒng)運(yùn)行速度提升35%.
在本文中, 一種基于實(shí)時(shí)技術(shù)的大氣顆粒物在線分析系統(tǒng)被實(shí)現(xiàn), 該系統(tǒng)采用實(shí)時(shí)數(shù)據(jù)庫(kù)來(lái)解決大氣監(jiān)測(cè)中的海量數(shù)據(jù)和數(shù)據(jù)存儲(chǔ)的實(shí)時(shí)性兩大問(wèn)題, 上層數(shù)據(jù)分析中采用了ART-2a自適應(yīng)共振神經(jīng)網(wǎng)絡(luò)算法和邏輯回歸模型等數(shù)據(jù)分析方法來(lái)降低數(shù)據(jù)規(guī)模, 提升數(shù)據(jù)分析速度, 成功地處理海量大氣顆粒物數(shù)據(jù).
實(shí)驗(yàn)數(shù)據(jù)表明, 本在線分析系統(tǒng)可以有效地處理大氣監(jiān)測(cè)中的海量數(shù)據(jù)問(wèn)題, 同時(shí)整個(gè)系統(tǒng)的運(yùn)行速度在期望范圍內(nèi), 滿足環(huán)境監(jiān)測(cè)中的實(shí)時(shí)性需求. 在實(shí)際測(cè)試中, 分組數(shù)據(jù)的正確性能達(dá)到80%; 同時(shí), 采用實(shí)時(shí)數(shù)據(jù)庫(kù)優(yōu)化后, 相比基于MySQL的傳統(tǒng)分析系統(tǒng)能提升35%的速度. 由此可見(jiàn), 本系統(tǒng)對(duì)于自動(dòng)化分析大氣顆粒數(shù)據(jù)具有重要實(shí)際應(yīng)用意義和價(jià)值.
1 尹洧.大氣顆粒物及其組成研究進(jìn)展(上).現(xiàn)代儀器,2012, 18(2):1–5.
2 張莉.基于單顆粒氣溶膠質(zhì)譜信息的分類方法研究及其應(yīng)用[碩士學(xué)位論文].上海:上海大學(xué),2013.
3 翟明玉,王瑾,吳慶曦,等.電網(wǎng)調(diào)度廣域分布式實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)體系架構(gòu)和關(guān)鍵技術(shù).電力系統(tǒng)自動(dòng)化,2013,37(2): 67–71.
4 楊新興,尉鵬,馮麗華.大氣顆粒物PM2.5及其源解析.前沿科學(xué),2013,7(2):12–19.
5 王丹.遼寧省大氣環(huán)境監(jiān)測(cè)數(shù)據(jù)分析系統(tǒng)研究[碩士學(xué)位論文].沈陽(yáng):東北大學(xué),2009.
6 Yin YF, Gong GH, Han L. Air-combat behavior data mining based on truncation method. Journal of Systems Engineering and Electronics, 2010, 10: 827–834.
7 李法運(yùn),陳亮.基于改進(jìn)BP網(wǎng)絡(luò)的網(wǎng)絡(luò)論壇熱點(diǎn)主題挖掘. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(3):113–118.
8 曹占峰,劉海濤,張啟偉.智能統(tǒng)計(jì)分析系統(tǒng).計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(7):41–45.
Atmospheric Particle Online Analysis System Based on Real-Time Technology
PAN Zheng-Guang1,2, ZHAO Kui2, WANG Hong-Liang2, WANG Jun-Lin3
1(University of Chinese Academy of Sciences, Beijing 100049, China)2(Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China)3(School of Software Technology, Dalian University of Technology, Dalian 116024, China)
For environmental monitoring, the existing online analysis system is difficult to deal with massive atmospheric particle data. In this paper, we propose an atmospheric particle online analysis system based on real-time technologies, which aims to achieve atmospheric particle statistics, concentration change and the source analysis. The system adopts real-time databases to realize real-time capturing, stores massive atmospheric particle data, and solves the massive data problem in environmental monitoring. Besides, to accelerate data analysis and reduce data scale, the system adopts the ART-2a neural network algorithm and logistic regression model. The experiment results prove that the online analysis system could get accurate analysis result within a reasonable time. Besides, the experiment demonstrates the practical significance of our system.
real-time technology; massive data; clustering analysis; online analysis; environmental monitoring
國(guó)家水體污染控制與治理科技重大專項(xiàng)(2012ZX07505003)
2016-04-26;收到修改稿時(shí)間:2016-06-21
[10.15888/j.cnki.csa.005532]