王思懋,陳昱吉
(1 中國礦業大學( 北京) 機電與信息工程學院 北京 100083)
(2 北京外國語大學國際關系學院 北京 100089)
煤礦資源是我國重要的基礎能源,富煤、貧油、少氣是我國能源資源的主要特點。盡管中國煤炭資源種類豐富,但優質焦煤較為稀缺,人均占有量低。礦井內地質環境復雜,開采條件惡劣,開采過程仍需人工干預,空氣中大量粉塵不僅對人的身體健康產生嚴重危害,同時還會模糊操作人員的視野,存在安全隱患。利用井下視頻監控,可以實時監測井下狀況,解放人力。
井下工作面在綜采和綜掘過程產生大量粉塵,導致圖像模糊不清,操作人員無法對細節部分進行準確判斷,這不僅是礦井監控的難題,也是圖像處理的困難。傳統超分辨率重建技術是將圖像進行線性插值或樣條函數插值,只能簡單縮放圖像,未對細節部分做任何優化。由此衍生出長橢球波函數法、線性外推法、疊加正弦模板法等;到21 世紀,Yang 提出使用圖形patch 的稀疏字典表示實現超分辨率。隨著深度學習的發展,神經網絡得到廣泛運用,將采集到的低分辨率圖像輸入所設計的神經網絡中便能生成高分辨率圖像,不再需要人為收集先驗知識或構造復雜的數學轉換模型,只需利用訓練好的網絡模型,就能實現端到端的超分辨率重構[1]。
2014 年,受到神經網絡的啟發,香港中文大學Dong等首次將卷積神經網絡應用于單張圖像超分辨率重建上,發表SRCNN,開啟超分辨率領域的新篇章。隨后研究人員發現適當增加網絡深度,進行多尺度特征融合能夠得到更好的實驗效果[2]。在上述框架下,基于生成對抗概念,衍生出新的網絡結構—GAN,通過生成器和判別器相互博弈,達到平衡狀態,生成的圖像不但在客觀參數指標上更優,而且更符合人眼視覺感受,處理速度也更快[3]。
GAN 網絡由生成網絡和判別網絡兩部分組成,生成網絡將輸入的低分辨率圖像生成高分辨率圖像,判別網絡分辨高分辨率圖像的真偽性,通過訓練讓整個網絡處于平衡狀態,使判別器無法判定圖像是生成的還是真實的[4]。整個網絡結構圖見圖1 所示。

圖1 GAN 網絡結構圖
隨著網絡層數的增加,訓練效果也會相應提高,但深度到了一定程度,隨之也會引入梯度消失或爆炸問題,為了解決這個難題,引入恒等映射,通過擬合殘差,從而突出細微的變化[5]。殘差網絡結構圖見圖2 所示。

圖2 ResNet 網絡
生成器是將輸入的低分辨率圖像轉換為高分辨率圖像,本文設計的生成網絡是以ResNet 為基礎,選取大小為3*3 的卷積核,步長為1,經過20 個殘差塊提取特征信息后輸入至UpSampling 層中,將圖像放大至指定尺寸,生成網絡結構見圖3 所示。

圖3 生成網絡
判別器是將高分辨率圖像經過網絡模型提取特征信息,判斷該幅圖像是否真實,若為真,則輸出“1”,否則輸出“0”。本文設計的判別網絡采用大小為4*4 的卷積核,步長為2,網絡深度為10,再將提取到的高維特征信息輸入至全連接層進行判別,輸出一維標量,判別網絡結構見圖4 所示。

圖4 判別網絡
本次實驗使用的是DIV2K 數據集和對井下攝像機拍視頻進行取幀得到的2000 張544*960 大小的樣本圖像,每張照片分為低分辨率圖像和放大4 倍后的2K 高清圖,其中2400張照片作為訓練,300張作為驗證,300張作為測試。
使用的損失函數如下所示:

此損失函數包含兩部分minG 和maxD,maxD 部分保持生成器G 不變,使判別器D 盡可能分辨出圖像的真偽,其中x 是服從真實分布,而z 是服從隨機分布;minG 部分保持判別器D 不變,使得生成的高分辨率圖像被盡可能認為是真實的,最終生成器和判別器達到博弈平衡,判別器無法準確分辨出輸入圖像。
采用峰值信噪比PSNR 作為客觀評價標準,PSNR 公式如下所示[6]:

其中MSE 為原高清圖像與生成高清圖像之間的均方誤差,公式如下:

將訓練樣本輸入網絡,損失函數計算預測值與真實值之間的誤差,再通過隨機梯度下降法(SGD)反向傳播更新網絡權重,直至誤差趨于穩定趨勢,最終效果圖見下圖5、圖6 所示。

圖5 礦下低分辨率實景

圖6 生成高分辨率圖像
清晰度細節對比:

圖7 低分辨圖像細節

圖8 生成圖像細節
圖7 為低分辨圖像的細節部分,圖8 為生成高分辨率圖像的細節部分。
針對井下拍攝低分辨率圖像縮放后細節模糊的問題,利用基于GAN 的超分辨率重建技術,在生成網絡中引入殘差塊,加深網絡層數,提取單幀圖像細節,然后經過上采樣層將圖像進行放大;在判別網絡中設計多層卷積神經網絡層,提取圖像特征信息,最后在全連接層輸出對圖像真偽的判斷。利用訓練完畢的模型,便能端到端將低分辨率圖像生成高分辨率圖像,利用此網絡生成的高分辨率圖像在細節部分更清晰,更符合人眼視覺感官,能減少因操作者判斷失誤而造成損失的風險。