基于語義分割和像素非線性核的視頻去模糊?

2019-11-12 06:38:54馬源源

計算機與數字工程 2019年10期

董飛馬源源

（陜西鐵路工程職業技術學院電氣與信息工程系渭南 714000）

1 引言

視頻去模糊技術取得了顯著進展并得到了廣泛應用［1］。然而，大多數去模糊方法都是針對單個圖像［2］開發，而對視頻去模糊［3］的關注則相對較少，其中模糊是由相機抖動、物體運動和深度變化等因素造成。由于相互作用和復雜的運動，傳統的均勻模糊［4］或非均勻模糊［5］模型無法很好地模擬視頻去模糊。同時，由于大多數現有的視頻去模糊方法都是基于捕獲的靜態場景［6］，這些方法不能處理由突然運動引起的模糊，并且通常會產生顯著偽影。

為了解決這些問題，文獻［7］采用分割去模糊算法對視頻模糊進行處理，但該算法需要精確的目標分割來進行核估計。文獻［8］采用運動變換去模糊算法對視頻模糊進行處理，但該算法在很大程度上取決于是否可以跨幀提取清晰的圖像補丁進行恢復。文獻［9］使用雙向光流來估計像素模糊內核，但去模糊的結果仍然包含包含一些偽影。

本文在統一的框架內同時解決語義分割、光流估計和視頻去模糊問題，利用語義分割來考慮遮擋和模糊邊緣，以實現精確的光流估計，并提出了像素非線性核（PWNLK）模型來近似視頻中的運動軌跡，其中模糊核是在非線性假設下由光流估計得到。研究表明，運動模糊不能簡單地用光流來模擬，而光流的非線性假設對視頻去模糊具有重要意義。

2 光流的運動模糊模型

視頻去模糊的主要問題是從圖像中估計像素方式的模糊內核。如圖2 所示，光流反映了相鄰幀之間像素的移動線性方向，其實質與運動軌跡不同。因此，單一地基于線性假設使用光流模擬運動模糊并不準確。運動模糊軌跡通常呈現平滑性，其形狀可以通過二次函數來近似得到。為了模擬運動模糊軌跡t，本文使用以下參數建立PWNLK模型：

其中，f=(u，v)是相鄰幀的光流估計，a，b 和c 是所要確定的參數。運動模糊軌跡可以用PWNLK模型很好地近似。將幀i 的像素x 處的每個核ki(x)參數化為雙向光流的二次函數［10］：

利用模糊核ki的參數化形式，則模糊幀yi可以表示為

其中，li表示第i 個潛在幀，ε 表示噪聲。基于模糊幀模型（3），本文提出了一種有效的視頻去模糊方法，并對算法進行了詳細的分析。

3 視頻去模糊模型

基于PWNLK 模型（1），模糊幀模型（3）和標準的最大后驗框架［11］，本文的視頻去模型定義為

其中，fik=(uik，vik)和sik分別表示第i 幀的第k 層中的光流和分割。 Ed表示數據保真度項，即去模糊幀li應該與觀察幀yi一致。 Em表示編碼兩個假設的運動項。首先，如果相鄰像素屬于相同的語義分割層，則它們應具有相似的運動。其次，來自每個層k 的像素應該共享全局運動模型f(θik)，其中θik隨時間變化并且取決于每個層k 的參數。 Et表示時間正則化項，用于確保相鄰幀之間的亮度恒定。Es表示偽影和光流的空間正則化項。

3.1 基于PWNLK模型的數據項

文獻［11］表明，在數據保真度項中使用偽影和模糊圖像的梯度可以減少環形偽影。因此，本文的數據保真度項定義為

當根據式（1）中的運動模糊軌跡計算模糊核ki時，數據保真度項（5）涉及參數a，b 和c。為了獲得穩定的解，本文需要調整這些運動模糊參數。Tikhonov 正則化在圖像去模糊中已經得到了廣泛的應用［6］，然而運動模糊具有與光流類似的屬性。例如，如果估計的光流具有可分割特性，則估計的運動模糊將具有相同的屬性。即如果某些區域?fi=0，則可以得到?(aif2i +bifi+ci)=0。基于這個假設，可以得到bi=-2aifi。當?fi=0 時，fi應為常數C 。利用此屬性可對參數a 和b 使用以下正則化：

其中，β 和γ 表示正則化項中每個項的權重。

3.2 運動項

運動項應滿足以下兩個條件：1）像素的相同分割層sik應共享全局運動模型f(θik)；2）相同分割層sik中的相鄰像素應具有相似的光流。因此，本文的運動項定義為

其中，Nx表示像素x 的四個最近鄰居，ρaff表示魯棒懲罰函數，其強制相同分割中的像素具有相同的仿射運動模型。此外，δ(*)表示指示函數，即如果表達式為真，則等于1，否則，等于0。

3.3 空間正則化項

空間正則化項旨在緩解不適定的逆問題。本文假設空間正則化項應滿足以下兩個條件：1）約束具有相同顏色的像素使其位于相同的分割層sik內；2）在潛在幀和光流中增強空間相關性。根據這些假設，空間正則化項的定義如下：

其中，權重gi(x)表示邊緣圖［10］，以保持邊緣處光流的不連續性。此外，ωx，r是x 和r 之間相似性的權重。類似于光流估計方法［6］，本文將其定義為

其中，σ 為常數。對于給定的像素x，如果知道其他相鄰的像素r 具有與x 相似的顏色，則將它們設置為相同的分割。

3.4 時間正則化項

人類視覺系統對視頻中出現的時間不一致很敏感。為了提高時間相關性，首先利用光流在局部時間窗口[i-N，i+N]中找到相鄰幀之間的對應像素，并確保對應像素平穩變化。強制相鄰幀之間的對應像素應該屬于同一分割。因此，時間相關的定義是：

其中，n 表示第i 幀相鄰圖像的索引，μn是正則化項的權重。此外，x'=x+fi，i+n是根據運動fi，i+n的下一個第n 幀的對應像素。本文使用式（10）中的L1范數正則化對異常值和遮擋進行魯棒估計［10］。

4 模型的算法求解

在上述分析的基礎上，得到了所提出的視頻去模糊模型。雖然目標函數是非凸的多變量函數，但可以使用交替最小化方法［10］來求解。

4.1 潛在幀估計

利用光流f 、分割s 和參數a，b 和c，對li進行問題優化：

與文獻［10］類似，本文使用原始對偶更新方法優化潛在幀子問題式（11）。

4.2 語義分割

語義分割估計可以通過求解如下公式實現：

本文使用文獻［12］中的方法優化式（12）。語義分割區域為運動模糊目標提供了潛在光流信息，其主要用于引導光流估計，而不是直接在每個分割上去模糊。

4.3 光流估計

在得到l 和s 之后，關于f 的優化問題可轉化為

本文使用文獻［10］和文獻［13］中的方法求解公式（13）。在得到fi后，利用它來估計基于非線性假設的模糊核，而不是直接用雙向光流作為模糊核。

4.4 運動模糊軌跡參數估計

對于每個模糊幀yi，可得到其相應的清晰參考li及其雙向光流fi。利用每個圖像對和相應的光流，分別求出運動模糊核ai、bi和ci的參數。

這是最小二乘最小化問題，本文分別對參數a、b 和c 的閉式解。

與現有方法類似，本文使用帶有圖像金字塔［10］的粗糙Tofine方法來實現更好的性能。算法1給出了在圖像金字塔基礎上進行視頻去模糊的主要步驟。

算法1 提出的視頻去模糊算法

輸入：模糊幀y，占空比τ ，初始化光流f 和語義分割s。

從粗略到精細圖像金字塔層級重復以下步驟：

1.通過最小化式（14）求解參數a、b 和c；

2.通過最小化式（13）求解光流f ；

3.通過式（2）求解基于PWNLK模型估計模糊內核k ；

4.通過最小化式（11）求解潛在幀l；

5.通過最小化式（12）求解分割s；

輸出：潛在幀l，模糊核k ，光流f 和分割s

5 實驗結果

本文首先分析并展示了語義分割和PWNLK模型的結果。然后在合成視頻和現實世界模糊視頻上評估所提出的算法。本文將所提出的算法與基于運動變換［14］、均勻核［15］、分割核［16］和像素線性核［10］的方法進行比較。

在所有實驗中，本文設定參數λ=μn=250 ，β=γ=0.5λ，σ=7，N=2。將二次雙向光流的參數初始化為a=c=0，b=1。為了進行公平比較，本文使用基于TV-L1的方法［17］初始化光流，具體步驟參照文獻［10］所示。本文還使用最先進的語義分割方法［5］對圖像進行分割，并根據所提出的算法對結果進行優化。此外，本文還使用文獻［10］中的方法估算相機占空比τ。

5.1 PWNLK模型分析

文獻［10］直接使用線性雙向光流來恢復清晰的圖像。由于視頻中的運動軌跡不同于光流，因此該方法的效果較差，如圖3 所示。圖3（a）給出了通過仿射變換生成模糊圖像的示例［16］。本文首先通過圖3（c）中基于分割核的方法［16］給出了消除模糊的結果。由于分割不準確，大象邊界周圍存在明顯的偽影。如圖3（d）所示，實況光流（圖3（b））使用像素線性核方法［10］生成的恢復圖像含有顯著的環形偽影，這表明線性雙向光流不能很好地模擬運動模糊。

圖3 文獻［10］中線性假設的局限性

圖4 給出了能夠證明PWNLK 模型有效性的示例。本文使用相同的光流來估計像素方式的線性和非線性核。其中，每個像素的運動模糊的線性假設在實際圖像中不成立，如圖4（a）所示。對放大區域采用線性近似的運動模糊核估計幾乎呈現直線，相應的去模糊結果在字母D 的直線上含有失真偽影，通過所提出的非線性近似方法估計的運動核的軌跡與實際運動模糊軌跡很好地吻合，相應的去模糊圖像更清晰且偽影更少，如圖4（b）所示。這表明所提出的模糊模型（1）能較好地近似真實場景中的運動軌跡。

圖4 PWNLK分析

5.2 語義分割分析

語義分割以多種方式改進視頻去模糊，這是因為它可用于估計模糊核的光流。首先，語義分割可提供有關目標邊界的區域信息。其次，當不同目標的移動方式不同，語義分割可用于約束每個區域的光流估計。如圖5（b）所示，當不使用語義分割時，估計的光流在自行車周圍被過度平滑。因此，背景和道路區域的模糊結果被過度平滑。相比之下，所提出的算法的語義分割結果能夠很好地描述邊界，并且有助于生成準確的光流。如圖5（f）所示，所提出的算法的去模糊圖像清晰，且具有細分割效果。

圖5 語義分割對去模糊的影響

此外，本文還進行了更多的實驗來檢驗語義分割對光流估計的影響。盡管如圖6（a）所示初始化的分割不準確，但所提出的算法可以精確地分割運動物體，如圖6（b）所示，并且可為光流估計提供更準確的運動邊界信息，從而有助于視頻去模糊處理。

圖6 語義分割的定性分析

5.3 真實數據集

本文根據文獻［18，20］中關于真實序列的視頻去模糊方法［14，18～20］與所提出的算法進行對比分析。首先將提出的算法與文獻［14］提出的基于變換的方法進行比較。如圖7（b）的第一列所示，基于變換的方法不能恢復移動自行車的模糊，這是由于物體運動較大并且附近的幀中沒有清晰的圖像。相比之下，所提出的算法能夠處理移動物體造成的模糊，并生成清晰的圖像，如圖7（c）的第一列所示。基于變換的方法不能處理大型攝像機捕捉的運動模糊，如圖7（b）第二列所示。這是由于這種基于轉換的方法引入了不正確的補丁匹配（如果沒有清晰的圖像或可用補丁），因此，書本序列的恢復文本包含了顯著的失真偽影。相比之下，基于估計光流的方法不需要清晰的圖像或補丁，并且模糊的結果在視覺上更達到清晰分辨，尤其是對于文本。

本文將所提出的算法與基于均勻核的多圖像去模糊方法進行比較［15］，如圖8 所示。在街道序列中，通過所提出的算法可以從去模糊圖像中清晰地識別出標志牌和窗戶的結構，而基于多圖像的方法不能恢復這些細節。此外，所提出的算法可以恢復嬰兒序列中清晰的邊緣和細節。然而，基于多圖像的去模糊方法不能生成清晰的圖像。這是由于基于多圖像的方法估計出的均勻核不考慮具有非均勻模糊的復雜場景。同時，這種多圖像去模糊方法的去模糊結果取決于相鄰幀的對齊是否準確。

圖7 與基于變換方法的比較

圖8 基于均勻核方法的比較

所提出的方法與基于分割的視頻去模糊方法［16］的去模糊結果，如圖9 所示。雖然基于分割的去模糊方法生成的圖像很清晰，但由于分割不準確，在圖像邊界周圍仍然包含一些失真偽像，如圖9（b）中右下角的雜志邊界。相比之下，圖9（c）中的去模糊圖像表明，所提出的方法能夠恢復雜志的清晰邊緣。此外，文獻［16］在單詞“NEW”處的恢復與所提出的算法生成的結果相比更加模糊。

圖9 基于分割的視頻去模糊方法比較

所提出的方法與文獻［10］提出的基于像素線性核的視頻去模糊方法進行比較，如圖10 所示。基于像素線性核的去模糊結果包含模糊的邊緣和失真偽影，如圖10（b）所示。例如，由于內核估計不準確，圖10（b）第二列的指示牌左下角有失真偽影。相比之下，由于所提出的運動模糊模型能夠近似真實的運動模糊軌跡，恢復的圖像包含了精細的細節。其中，在圖10（c）中，利用所提出的算法，第一列和第二列中的去模糊字母更加清晰。

圖10 基于像素線性核的視頻去模糊方法比較

最后分析是否使用PWNLK模型和語義分割的去模糊結果，并與基于變換［14］、基于像素線性核［10］和基于深度學習［18］的視頻去模糊方法進行比較，如圖11 所示。基于變換的視頻去模糊方法［14］不能生成如圖11（c）和圖11（e）所示的清晰圖像。基于像素線性核方法［10］可以生成清晰的圖像，但道路區域被過于平滑，如圖11（d）所示。在圖11（f）中，道路區域可成功恢復，但由于內核估計不完善，輪胎周圍存在一些視覺偽影。圖11（g）給出了不執行語義分割的模糊結果。雖然輪胎去模糊效果較好，但道路區域被過于平滑。與圖11（h）中的圖像相比，圖11（f）和圖11（g）的視覺質量較低，這說明了所提出的PWNLK模型（1）和語義分割正則化的重要性。

圖11 是否使用PWNLK模型和語義分割的去模糊結果

5.4 局限性分析

當輸入視頻包含顯著的模糊以及錯誤的初始分割時，所提出的算法表現不佳，如圖12 所示。圖12（c）和圖12（d）分別是圖12（a）和圖12（b）的連續模糊幀的初始分割結果。由于式（8）和式（10）中假定的空間和時間約束在分割圖像中不成立，因此，圖12（e）中的最終分割結果不具有任何語義信息。此外，所提出的方法退化為文獻［10］中的傳統光流估計，并產生類似的去模糊結果，如圖12（g）和圖12（h）所示。

圖12 局限性分析

6 結語

本文利用語義分割和PWNLK模型提出了一種有效的視頻去模糊算法。所提出的分割算法將不同的運動模型應用于不同的目標，這可以顯著改善光流估計，尤其是在目標邊界處。PWNLK 模型基于非線性假設，能夠模擬運動模糊與光流之間的關系。此外，本文還分析了傳統的基于運動變換、均勻核、分割核和像素線性核無法模擬由相機抖動、物體運動和深度變化的組合而產生的復雜空間變化模糊。在合成視頻和真實視頻中進行的實驗結果表明，所提出的算法在視頻去模糊方面優于其他方法。