朱小明
(河海大學 計算機與信息學院,江蘇 南京 211100)
河流和水庫是目前世界上最重要的淡水資源,在調整支流,農業灌溉,工業和生活用水,全球生態平衡,防洪排水,溝通航運中具有重要的作用,是全球經濟可持續發展與人類生存和發展的重要保證。國內區域廣袤,河流水庫眾多,水庫數目超過100 000座[1]。但是由于前期大力發展重工業,未處理過渡排放的工業廢水,以及民眾對環境保護的意識薄弱,未處理過渡排放的生活污水,導致水生態系統被嚴重破壞,河流湖泊污染嚴重,部分水域富營養化,浮游藻類大量繁殖,形成水華等現象,給國家帶來了巨大的經濟損失[2]。根據國家環境監測總站數據顯示,國內水域污染等級為IV類、V類、劣V類嚴重污染的占總水域的80%以上,其中最嚴重的事例為2007年5、6月的太湖藍藻污染事件[3],造成了巨大的經濟損失。因此,水質污染問題急需解決,而水質污染監測[4]是其中一項重要環節。
通常對水域質量進行質量分析評價是判斷水域污染程度的有效方法。傳統的水質監測是對水域進行污染分析監控,國內外學者對此進行了大量研究。例如,黃耀明等采用監測點現場水體采樣、提取、分析對海港水域進行污染監測[5];黃建清等使用基于無線傳感器網絡的水體數據提取進行水質監測[6];CF Iscen等對Uluabat湖的采樣數據進行成分分析以判定水質[7]等。
隨著遙感衛星領域的快速發展,遙感圖像在各類研究中應用廣泛,其中不同的星載遙感圖像的光譜段不同,主要有反射紅外遙感、熱紅外遙感、微波遙感三種類型。其具有探測范圍大,收集數據速度快,圖像信息豐富,動態監測地面信息等優點,因此在城市規劃監測、水庫變化監測、災害監測、地面資源環境監測等方面應用廣泛[8]。其中X Guan等[9]采用SDT模型對Simcoe湖的TM衛星遙感圖像進行水質研究分析;汪小欽等[10]采用基于TM影像的波段視反射率進行研究,探討TM影像第四波段,第三波段與水體污染關聯的研究等。
而后隨著機器學習[11]的發展,國內外學者又將機器學習帶入水質監測研究。例如,J Cao等提出基于DAGSVM的水質評估方法對水質進行監測[12];宓云軿等[13]建立LM-BP神經網絡和支持向量機模型對水質有機污染物濃度進行監測等。
基于上述研究,針對現有水質污染監測研究的時空局限性和監測效果不足以及遙感衛星使用年限等問題,提出基于高分一號WFV(wide field of view)遙感圖像對水域進行定性監測,并引入極限學習機方法,搭建基于集成ELM模型對水域進行異常監測。
文中研究的水域為太湖蘭山嘴地區和洪澤湖盱眙淮河大橋地區。太湖是中國第三大淡水湖,位于長三角地區南緣,橫跨江、浙兩省,北臨無錫,南瀕湖州,西依宜興,東進蘇州。太湖水域的面積為2 338 km2,流域面積為36 500 km2,水域周邊居民人數大約為3 500萬,其生產總值約占全國八分之一。是國內工業最發達,城鎮化水平最高的地區之一。太湖水域平均深度為1.89 m,最大深度約為4.8 m,平均年出湖徑流量約為75億立方米,其中太湖的蓄水量為44億立方米。在周邊城市經濟發展,生活用水,交通運輸中太湖具有很大的作用。但由于近年來周邊城市的工業發展過于迅速,忽略了環境污染問題,導致大量未經處理的污染物流入太湖,使太湖每年都會大面積爆發春夏藍藻,嚴重影響了周邊城市的生活質量和經濟發展。2007年5、6月,太湖藍藻污染爆發,造成無錫全城自來水污染,導致周邊城市生活用水嚴重短缺,造成了大量經濟損失和環境污染。因此太湖的水污染治理受到了政府的高度重視,而水污染監測是其中一項重要環節。
洪澤湖是中國第四大淡水湖,位于江蘇省西部淮河下游,蘇北平原中部西側,處于淮安宿遷兩市境內,為淮河中下游結合部。洪澤湖水域面積大約為2 069 km2,是“南水北調”工程東線部分的組成部分,水域周邊居民人數大約為1 000萬。洪澤湖水域為過水性湖泊,水位波動不穩定,因此水域面積的變化也比較大。洪澤湖大部分情況下蓄水位為12.5 m,水域容積大約為31億立方米。洪澤湖平均水深為1.5 m,水域容量最大時是5 m,由于地勢較高,洪澤湖湖底高度一般在10 m左右,因此洪澤湖也被稱為“懸湖”。由于近年來周邊城市發展過快,未經處理的污水大肆排放,有研究表明,洪澤湖從2000年到2008年,其水域質量大部分時間段都處于嚴重污染狀況。由此可見,洪澤湖水域也需要進行相應的水質污染監測。
由于太湖的蘭山嘴和洪澤湖盱眙淮河大橋這兩個位置均處于太湖和洪澤湖的上游,水域的污染物大部分都從這兩處流入,造成嚴重污染,因此國家在此處設立了國家水質自動監測站,可以實時獲取這兩處的水質信息。其中水域遙感圖像的數據選擇及處理在Zhu H等研究[14]的基礎上重新實驗及改進。
(1)太湖蘭山嘴(31.216°N,119.913°E)。本次實驗從中國資源衛星應用中心數據庫挑選了由高分一號衛星(GF-1)拍下的13幅成像效果比較好的16 m分辨率的WFV遙感圖像,其中這13幅圖像為每天一幅,其成像時間為2013年到2016年。從每幅WFV圖像中選取了位于蘭山嘴附近的10*10(100)個像素點的遙感波段值,數據集總共為1 300條數據,每條WFV數據由藍色、綠色、紅色、近紅外四個波段組成。同時根據蘭山嘴國家水質自動監測站發布的實測數據,將獲取到的13幅遙感圖像根據水質狀況分為Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類、劣Ⅴ類。根據相關規定,等級為Ⅱ類、Ⅲ類的水質為正常水質,等級為Ⅳ類、Ⅴ類、劣Ⅴ類的水質為污染水質,實驗測試中將正常水質數據標記為“+1”,共有600條數據,將污染水質數據標記為“-1”,共有700條,如表1所示。

表1 太湖蘭山嘴WFV圖像日期與污染等級
(2)洪澤湖盱眙淮河大橋(33.030°N,118.495°E)。本次實驗從中國資源衛星引用中心數據庫挑選了由高分一號衛星(GF-1)拍下的15幅成像效果比較好的16 m分辨率的WFV遙感圖像,其中這15幅WFV圖像為每天一幅,其成像時間為2013年到2016年。由于水域快讀限制,實驗從每幅WFV圖像中選取了位于洪澤湖盱眙淮河大橋附近的5*10(50)個像素點的遙感波段值,數據集總共為750條數據,每條WFV數據由藍色、綠色、紅色、近紅外四個波段組成。同時根據洪澤湖國家水質自動監測站發布的實測數據,將所獲取到的15幅遙感圖像根據水質狀況分為Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類、劣Ⅴ類。根據相關規定,等級為Ⅱ類、Ⅲ類的水質為正常水質,等級為Ⅳ類、Ⅴ類、劣Ⅴ類的水質為污染水質,實驗測試中將正常水質數據標記為“+1”,共有500條數據,將污染水質數據標記為“-1”,共有250條,如表2所示。

表2 洪澤湖盱眙淮河大橋WFV圖像日期與污染等級
文中圖像數據是從中國資源衛星應用中心獲取,是由高分一號(GF-1)所拍攝,但由于所拍攝圖片干擾輻射較多,所以需要先進行以下矯正:
(1)輻射定標。校正傳感器本身的誤差,使用ENVI5.1軟件的Radiometric Calibration工具對光譜圖像進行相應的輻射定標。
(2)大氣校正。校正大氣散射引起的誤差,使用ENVI5.1軟件的FLAASH模型工具對光譜圖像進行相應的大氣校正。
(3)正射校正。校正圖像中的地形影響,使用ENVI5.1軟件的RPC Orthorectification工具進行相應地正射校正。
極限學習機(extreme learning machine,ELM)是一種單隱層神經網絡算法[15],廣泛應用于回歸與分類領域[16],其相比于其他單隱層前饋神經網絡(SLFNs)具有學習速度快,不會陷入局部最優且泛化性能好的優點。
極限學習機的原理是在學習過程中網絡隨機初始化生成輸入權值和偏置值,只需設置網絡的隱層節點個數,求解最優輸出矩陣,使得誤差最小。ELM網絡結構如圖1所示。

圖1 ELM網絡結構
假設有N個任意樣本(Xj,tj),那么對于圖1中含有L個隱層節點的ELM網絡可以表示為:
(1)
其中,g(x)為激活函數;Wi為輸入層與隱含層權值;bi為輸入層與隱含層偏置;βi為隱含層與輸出層的連接權值。
該網絡的學習目標是讓網絡的輸出與樣本誤差最小,表示如下:
(2)
由此可推出,存在βi,Wi,bi,使得:
(3)
使用矩陣表示為:
Hβ=T
(4)
其中,H為該網絡隱層節點的輸出;β為隱含層與輸出層的連接權值;T為樣本期望輸出。
H=
(5)
由此可知,當激活函數可微時,由于之前隨機的輸入權重和偏置固定,可以推出解為:
β=H+T
(6)
其中,H+為H矩陣的廣義逆(Moore-Penrose)。
由于單個ELM模型的穩定性可能存在不足,故文中選擇N個ELM模型對訓練樣本進行訓練,最后利用極限學習機集成方式對所有數據進行預報,以獲得較高的預報精確度和穩定性。
基于ELM集成的水域質量監測方法的步驟為:
Step1:根據訓練樣本訓練N個極限學習機;
Step2:使用訓練好的N個極限學習機對訓練樣本進行預測,根據N個ELM模型預測下的正確率,選取并記錄前k個模型的正確率αi(i=1,2,…,k);
Step3:使用挑出的前k個模型對測試樣本進行預測,記錄結果為Qi(i=1,2,…,k);
Step4:采用加權平均法對k個極限學習機進行集成,根據Step2的正確率αi確定模型的權值Wi,正確率αi越高,權值Wi越大,公式如下:
(7)
Step5:根據Step3的預測結果Qi和Step4的權值Wi,計算得到最終的預測結果Q。
(8)
實驗流程如圖2所示。

圖2 實驗流程
文中使用集成極限學習機搭建模型分別對太湖蘭山嘴和洪澤湖盱眙淮河大橋進行實驗,模型中N取值為15,每條數據預測出的結果如果大于0則為1,小于0則為-1。
實驗一:從高分一號所獲得的WFV圖像數據中,分別將兩個地點的總數據集中隨機分為4等份,搭建ELM模型,使用k-折交叉驗證,k=4,得出實驗預測像素點污染準確率,結果如表3所示。

表3 實驗一分類準確率 %
實驗二:將高分一號所獲得的太湖蘭山嘴WFV數據,按天分為13等份,每天一幅WFV圖像,搭建ELM模型,使用k-折交叉驗證,k=13,得出實驗預測準確率。將高分一號所獲得的洪澤湖盱眙淮河大橋WFV數據,按天分為15等份,每天一幅WFV圖像,搭建ELM模型,使用k-折交叉驗證,k=15。其中每幅圖像中重度污染的像素點數大于60%,則該圖像所在區域當日為重度污染,反之則為正常水質。實驗結果如表4所示。

表4 實驗二分類準確率 %
從表3可以看出,水質污染與水質的遙感光譜圖像具有一定的相關性,而集成極限學習機模型可以很好地通過該水質的光譜數據對水質污染程度進行區分;從表4可以看出,集成ELM對水質的預測效果比較好,而其中洪澤湖盱眙淮河大橋比太湖蘭山嘴的準確率低,其原因可能是淮河大橋那邊的水體由于在城鎮附近,干擾物比較多,總體來說實驗準確率比較高。
文中提出了一種結合高分一號光譜圖像和機器學習極限學習機模型對水質進行監測的新方法,采用該方法對太湖蘭山嘴和洪澤湖盱眙淮河大橋進行實驗監測。結果表明,該方法能夠定性地判別一個地區當日是否嚴重污染,在訓練樣本相同的情況下,該模型與使用單個極限學習機判別預測相比,具有更好的準確率和穩定性,與其他機器學習模型如SVM模型相比具有更好的速度和泛化性,與傳統模型相比具有更好的即時性和操作簡便性。因此,該方法可以有效地對水質進行污染監測,具有一定的參考價值。