陳汪洋
(中國水務投資有限公司,北京 100053)
絮凝是凈水工藝中的重要環節,絮凝過程中準確控制絮凝劑的投加量是關鍵[1]。絮凝劑投加調控面臨著幾個主要問題。首先是非線性關系[2],投加量和效果之間并非簡單線性關系,存在飽和效應或非線性響應。其次,絮凝過程具有較大的遲滯效應[3],投加量的變化不會立即反映在效果上。最后,絮凝過程受到多個變量因素的影響[4],需要考慮這些因素的相互作用和影響關系。為解決這些問題,需要采用系統辨識和模型預測控制等技術,建立準確的非線性模型,并考慮遲滯效應和多變量影響,通過優化算法和控制策略實現準確的投加量控制,以達到最佳效果。
近年來,基于機器學習和深度學習技術的礬花圖像識別技術逐漸應用于絮凝優化控制過程[5-6]。機器學習和深度學習的應用可以實現礬花圖像的特征提取、分類和目標檢測,幫助運營人員發現異常情況,優化投加量,提高絮凝效果和水質穩定性,進一步提升水處理系統的運行效率和可靠性[7]。
然而,基于機器學習或深度學習的礬花圖像識別研究仍面臨挑戰。主要問題包括維數災難、遷移性差和魯棒性差。為了解決這些問題,本文提出了基于深度模糊非參數映射(DFM)模型的礬花圖像識別增強算法,具有較高的計算效率、識別準確率和魯棒性,提高了礬花識別的準確性和穩定性。
礬花采集實驗平臺是由水下攝像機、固定支架、通訊線纜、圖像處理器組成。其中,水下攝像機搭載500萬像素、工業級、定焦、自動補光的攝像頭,具有防水和自動清洗的功能。通過調整鏡頭焦距,確保礬花圖像清晰,并將此焦距作為統一的拍攝標準。水下攝像機的安裝位置取決于礬花生成位置和絮凝工藝結構。礬花是由絮凝藥劑投加后逐步形成的絮體。因此,礬花圖像的拍攝主要集中在礬花成熟狀態,即位于絮凝反應池末端,尚未進入沉淀池的過渡區域,如圖1所示。水下攝像機應安裝在水深為0.5~1.0 m的位置。

圖1 絮凝沉淀池中水下攝像機的安裝位置
將礬花主體從背景中分離出來是礬花識別的第一步,分離效果會對后續礬花識別的精度有較大影響。本研究測試并比較了目前常見的圖像分割算法,包括直方圖分割[8]、Log算子分割[9]、Canny算子分割[9]、Otsu算子分割[10]等,結果如圖2(a)~圖2(f)所示。其中Otsu算法在性能和精度上相較其他算法在本研究試驗數據集中取得了最優的效果,如圖2(f)所示。Otsu算子能夠提取礬花圖像中高對比度的線條,這些線條在描繪礬花的輪廓同時還包含間隙,有利于分離形態復雜的礬花。因此,Otsu算子作為本次研究的圖像分割算法。

圖2 礬花原圖與各種圖像分割算法對比
在礬花圖像分割的基礎上,本研究進一步提取礬花圖像特有的統計特征,作為訓練模型的輸入,以提高礬花分類的準確率,包括礬花的平均絮凝體尺寸(基于平均費雷特直徑)、礬花絮凝體面積、礬花絮凝體面積方差、整體占比、最大片占比、礬花數量、面積中位數、花絮凝體周長、礬花圓形度以及礬花分形維數等。傳統對礬花形態的研究主要集中在面積和周長等指標,本研究引入分形維數,分形維數有助于描述歐幾里得幾何沒有很好定義的大型、不規則、多孔聚集體的粗糙表面特征。在分形幾何中,面積和體積不是以標準特征長度來表征,而是以整數冪來表征。具有不規則邊界的非均勻形態可以通過非線性關系來定義,其中物體的特性隨著特征長度維度的增加而縮放,其冪被稱為分維。分形維數的計算方法如式(1)[10]。
lnA=DflnL+lna
(1)
其中:A——絮體顆粒的投影面積,m2;
L——投影的最大長度,m;
a——比例常數;
Df——絮體在二維空間的分形維數。
絮體分型維數能夠反映混凝階段,可以將其作為混凝投藥量控制的反饋參數。
本研究基于舟山某水廠絮凝池圖像采集系統構建了一個包含不同種類的礬花圖像數據集。該數據集的構建經過精心設計和標注,涵蓋了典型的礬花形態和顏色變化(表1)。數據集中包含了各種光照條件下的礬花圖像,以及不同絮凝劑投加量和池水渾濁度的情況。該數據集的構建為礬花圖像識別算法的研究提供了寶貴的資源和平臺。研究者們可以利用這個數據集進行算法的訓練和評估,提出新的方法和技術來改進礬花圖像的識別準確性和穩定性。此外,該數據集還可以用于驗證不同算法的泛化能力和實際應用效果。

表1 礬花圖像標簽及說明
本研究礬花圖像數據采集覆蓋24 h,同時結合舟山某水廠智慧加藥系統接入水質參數,包括進水渾濁度、電導率、COD、pH等。研究階段共采集圖像10萬余張,對采集圖像進行各種特征值的均值,同時剔除異常數據,特征屬性如表2所示。

表2 礬花提取特征屬性值
本文使用DFM對礬花圖像進行識別,DFM由若干個DFM單元組成,如圖3所示[11]。

圖3 多輸入多輸出DFM
圖3為一個典型的多輸入多輸出DFM模型,其中mx=[mx1,mx2,…,mxn]T∈Rn表示n維無噪音輸入向量;x=[x1,x2,…,xn]T∈Rn表示n維有噪音輸入向量(觀測值);υx=[υx1,υx2,…,υxn]T∈Rn表示n維輸入噪音向量,xi=mxi+υxi(i∈1,2,…,n);y=[y1,y2,…,yp]T∈Rp表示p維包含噪音的輸出向量;ν=[ν1,ν2,…,νp]T∈Rp表示p維輸出噪音向量,yj=Fj(x)+νj(j∈1,2,…,p);Fj(·)表示y第j個輸出對應的輸入向量x的模糊映射。本文中輸入向量x和輸出向量y分別對應礬花圖像和圖像標簽,mx、υx和ν參數未知,其特征通常使用模糊隸屬函數(例如:高斯隸屬函數或伽馬隸屬函數)來描述。

(2)
(3)
其中:ζ——實數,取值為0~2;
mj——平均向量;
Kxx——N×N協方差矩陣。
Kxx第i行第j列元素如式(4)。
(4)
其中:σ——方差;
wk——權重。
本文所提出的模糊映射是一個非參數模型,因為它沒有參數形式的特征,而是通過選擇核函數k(xi,xj)來定義其特征。將有限個圖3所示的DFM單元組合在一起,形成了深度DFM模型(圖4)。

圖4 深度DFM模型(L層)

(5)
(6)
(7)
(8)

hl-1,i——第l-1層樣本i輸入向量;

Λ∈Rp×p——基于奇異值分解(SVD)算法得到的特征值對角矩陣(由大到小排序);
U∈Rp×p——Λ對應的特征向量矩陣;
Al-1——U前nl行組成的矩陣;


為了驗證深度DFM模型在礬花圖像識別中的性能,本文選用支持向量機(support vector machine,SVM)模型[12]、反向傳播(back propagation,BP)神經網絡模型[13]、ResNet模型[14]和AlexNet模型[15]與DFM模型進行對比。
4.2.1 SVM模型
SVM是一種廣泛應用于分類和回歸分析的機器學習方法[12]。SVM的核心思想是通過將數據映射到高維特征空間,使得數據在該空間中線性可分,該映射基于核函數來實現,常用的核函數有線性核函數、多項式核函數和高斯徑向基函數。在高維特征空間中,SVM通過最大化支持向量到超平面的間隔來確定最優決策邊界。
4.2.2 BP神經網絡模型
BP神經網絡是一種基于反向傳播算法的人工神經網絡模型[13]。它是一種多層前饋神經網絡,具有強大的非線性擬合能力和適應性。BP神經網絡的原理是通過訓練數據來調整網絡的權值和偏置,從而實現對輸入數據的映射和分類。BP神經網絡由輸入層、隱藏層和輸出層組成,通過反向傳播算法實現參數訓練,并計算梯度和調整權值,逐步減小誤差,直到BP神經網絡的輸出與真實值之間的誤差達到預定的精度要求。
4.2.3 ResNet模型
ResNet是一種深度殘差網絡模型,被廣泛應用于圖像識別和計算機視覺任務中[14]。ResNet通過引入殘差連接來解決深層網絡中的梯度消失和網絡退化問題,實現了深度網絡結構的有效訓練。深度殘差神經網絡的基本結構由殘差塊組成,使用隨機梯度下降(SGD)算法進行優化。在訓練過程中,通過最小化損失函數來調整網絡的權值,使得網絡能夠更好地擬合訓練數據。
4.2.4 AlexNet模型
AlexNet是第一個將深度卷積神經網絡成功應用于大規模圖像分類任務的模型[15]。它采用了卷積層和池化層的交替結構,通過卷積操作提取圖像的特征,并通過池化操作減小特征圖的尺寸。卷積層使用較小的卷積核對輸入圖像進行滑動窗口操作,提取出不同的特征。池化層則用于降低特征圖的尺寸和參數數量,減少計算復雜度。為了進一步提高模型的性能,AlexNet采用了數據增強和Dropout技術。數據增強通過對訓練數據進行平移、旋轉、翻轉等操作,擴充了訓練集的規模,減少了過擬合風險。Dropout技術則在訓練過程中隨機關閉一部分神經元,以減少神經元之間的依賴關系,提高模型的泛化能力。
本文采用2種方案對上述圖像識別方法的性能進行對比:(1)方案1,礬花圖像數據集不經過處理,直接將原始礬花圖像與標簽分別作為模型的輸入和輸出;(2)方案2,使用本文提出的方法首先提取礬花圖像特征值,將特征值作與標簽分別作為模型的輸入和輸出。
SVM模型、BP神經網絡、ResNet模型、AlexNet模型和DFM模型的相關參數設置如表3所示。

表3 相關模型參數設置
針對上述模型,數據集按7∶3比例隨機分為訓練集和測試集,訓練集用于訓練模型參數,測試集用于驗證模型的識別精度,礬花圖像識別性能對比如表4所示。

表4 不同方法礬花圖像識別準確率
由表4可知,在圖像未經過任何處理的情況下,DFM模型仍然具有80%以上的分類準確率。對圖像進行預處理,并將特征作為輸入,DFM模型能夠達到95%以上的識別準確率,表明本文提出的基于DFM模型的礬花圖像識別方法具有更高的準確率和穩定性,能夠應用于實際工程中。
目前,基于DFM模型的礬花圖像識別技術已經成功應用在舟山某水廠凈水工藝過程中(圖5)。本項目加藥系統使用前饋+反饋復合加藥控制算法(圖6)。前饋專家控制器可根據原水的渾濁度、溫度、COD等推算出大致的加藥量。反饋比例控制器根據礬花識別的狀態對沉淀池后水渾濁度反饋作微調,最后,結合實時流量算出最佳加藥量。

圖5 水廠智慧加藥系統

圖6 絮凝加礬系統優化控制過程:前饋+反饋流程
前饋控制:首先將水廠現狀及該水廠的水質因素進行分析研究,然后以影響出水水質主要因素為輸入,如原水流量、原水池度、原水溫度及原水值為輸入,混凝劑投加量為輸出,建立混凝投藥量通用寄存器(general purpose register,GPR)前饋控制系統。
反饋控制:被控量實際輸出與設定值存在偏差,控制器通過檢測到的差值,有針對性地進行調節的過程。本方案反饋控制以礬花圖像算法為基礎,水下圖像采集裝置以500萬~1 000萬像素工業相機為傳感器,以PC為主控器,連續采集水廠處理池中礬花圖像。根據本文描述的圖像分割-特征提取-算法識別過程實時分析礬花形態(圖7),評判水質參數,用于自動監測水廠凈水處理過程中的絮凝狀態,反饋調節加礬量,同時減少絮凝過程中檢測絮凝效果的時滯。采用反饋校正和在線滾動優化指標的策略,能夠有效克服受控對象的時延、時變和不確定性等因素的動態影響,并使系統具有良好的穩定性和魯棒性。

圖7 礬花識別系統:圖像采集+分割+特征提取+識別算法
圖8為出水渾濁度達標率的對比,系統12月1日開始測試,數據取自2022年7月——2023年5月,間隔周期為10 min。如圖8所示,使用前后,沉后水渾濁度波動明顯降低,水質更加穩定,系統投用后沉后水渾濁度達標率(小于1 NTU)占比由82.2%上升為95.6%,具體數據如表5所示。

表5 不同方法礬花圖像識別準確率

圖8 出水渾濁度達標率對比
圖9為出水渾濁度穩定性的對比,2023年1月18日目標值由0.7 NTU調到0.25 NTU,1月29日調到0.7 NTU,2月10日調到0.6 NTU,3月3日調到0.35 NTU,伴隨著沉后渾濁度真實值隨目標值變化。數據做目標值與真實值的差值對比,引入偏差值。偏差值在±0.2 NTU的數據,占數據總量的91.5%,沉后渾濁度控制精度保持在90%以上時間達到±0.2 NTU以內。

圖9 2022年12月—2023年5月出水渾濁度穩定性對比
表6為系統藥耗使用量對比分析,加藥量對比需要在相同的進水水質下作藥劑對比分析,因此,選用相同的時間段和進水水質,采用原有的控制方式和智慧加藥對比。2022年11月,采用了智慧加礬控制的4#和原有的控制的1#~3#進行對比,1#~4#沉淀池出水渾濁度均值分別為0.67、0.72、0.64、0.69 NTU,1#~3#藥耗均值為30.48 mg/L,4#為23.84 mg/L。在1#~3#與4#出水渾濁度均值在0.6~0.7 NTU的情況下,4#的藥劑消耗較1#~3#的藥劑消耗降低21.78%。

表6 系統藥耗使用量分析
(1)分割算法方面分別對直方圖分割、Log算子分割、Canny算子分割、Otsu算子分割加線性變化等算法并進行比較,結果表明Otsu算法結合線性變化在性能和精度上相較其他算法在本研究試驗數據集中取得了最優的效果。
(2)特征提取方面:計算了礬花的平均絮凝體尺寸(基于平均費雷特直徑)、礬花絮凝體面積、整體占比、最大片占比、礬花絮凝體周長,礬花圓形度以及礬花分形維數。結果表明,從礬花圖像中提取密度特征和尺寸特征作為模型輸入,能夠達到最好的識別效果。
(3)識別算法方面:將上述特征作為識別模型輸入參數,將礬花狀態細分為密實、中片、大片、不均和稀疏5種類型,采用SVM、BP神經網絡和深度學習方法(ResNet和AlexNet模型)和研究團隊自主開發的深度DFM算法。結果表明,DFM模型在多次試驗中能夠達到95%以上的識別準確率,明顯優于傳統的機器學習和深度學習方法。
(4)基于DFM模型的礬花圖像識別技術已在舟山某水廠應用,采用礬花狀態進行絮凝加藥量的反饋調教,應用前后絮凝劑平均投加量由原來的11 mg/L降低為8.5 mg/L,沉淀池平均出水渾濁度由原來的0.9 NTU降低為0.4 NTU。
(5)本項目使用數據來自單一地區原水水質,后續工作將采集更多不同水質條件下數據,進一步研究礬花圖像與水質參數相關性的通用性特征量。