安彤, 賈迪,2*, 張家寶, 蔡鵬
(1.遼寧工程技術大學 電子與信息工程學院, 遼寧 葫蘆島 125105;2.遼寧工程技術大學 電氣與控制工程學院, 遼寧 葫蘆島 125105)
光流估計是計算機視覺的核心問題之一,在視頻理解[1]、動作識別[2]、目標跟蹤[3]、全景拼接[4]等領域具有重要的應用,在各類視頻分析任務中可以更好地反映目標的運動信息,被認為是一種重要的視覺線索。然而,目前的光流估計網(wǎng)絡仍存在過度平滑、缺乏細粒度、無紋理曲面難以準確估計的問題。
傳統(tǒng)光流估計方法常基于亮度一致性和空間平滑度能量最小化的方式獲得光流估計結果。Horn等[5]采用全局方法估計圖像的稠密光流場,基于亮度恒定與光流場平滑假設構造能量函數(shù)提出一種光流變分框架。Black等[6]提出一種魯棒的光流估計框架,對違反空間平滑和亮度恒定這兩個約束條件進行統(tǒng)一處理。為了解決二次方懲罰項偏差較大的問題,TV-L1[7]采用替換L1數(shù)據(jù)項和總變差正則化較好地剔除了異常值。一些學者又通過結合能量最小化以及描述符匹配策略建立區(qū)域?qū)哟谓Y構[8],引入新的高階正則化項解決了該框架中的相關問題。
近年來,基于深度學習的光流估計方法取得了快速進展。可通過訓練好的神經(jīng)網(wǎng)絡直接對幀間光流進行預測,缺點是會產(chǎn)生局部噪聲和模糊結果。針對該問題,Simonyan等[9]采用變分法、Ilg[10]等采用疊加多網(wǎng)絡的思想來進行改進,較好地解決了該問題。此后,Ranjan等[11]結合傳統(tǒng)算法中的金字塔理念提出SpyNet網(wǎng)絡,由粗到精地完成了光流估計,更好地處理了光流算法中的大位移問題。Sun等[12]提出PWC-Net網(wǎng)絡同樣采用了由粗到精的金字塔思想,引入經(jīng)典算法中的相關體處理(Cost Volume),以端到端的訓練方式完成了網(wǎng)絡性能的提升。Yang等[13]提出的VCN網(wǎng)絡進一步改進了相關體處理方法,通過引入4D卷積提高了光流估計的準確性。這些方法均采用由粗到精的金字塔處理方式進行迭代優(yōu)化,并在迭代中不共享權重。
與以上方法相比,建立在FlownetS和PWC網(wǎng)絡架構基礎上的IRR[14]網(wǎng)絡能夠細化網(wǎng)絡間的共享權重,但由于該網(wǎng)絡過大(38M參數(shù)),只能完成5次迭代。Devon等[15]給出一種更加精細的模塊設計(2.7M參數(shù)),在推理過程中可以進行上百次迭代,獲得更加精確的結果。
隨著深度學習的發(fā)展,許多工作將視覺問題轉化為優(yōu)化問題,將優(yōu)化的思想融入到網(wǎng)絡體系結構中。Amos等[16]提出的OptNet網(wǎng)絡將優(yōu)化問題作為單個層嵌入到深度網(wǎng)絡中,并提供了更好的反向傳播功能,使該網(wǎng)絡具備較強的學習能力。Agrawal等[17]在求解優(yōu)化過程中引入更為嚴格的參數(shù)化編程,較好地避免了可微應用中使用凸優(yōu)化存在的問題。Zachary Teed等[18]提出一種光流估計網(wǎng)絡(RAFT),結合以上算法思想,提取像素級特征,為所有像素建立多尺度4D關聯(lián)信息,循環(huán)迭代更新光流場,有效提高了光流估計的準確率。但RAFT也存在著一些待解決的問題:首先,由于RAFT在高分辨率和低分辨率的條件下為所有特征對都建立了相關體積,每次更新都需要獲得全像素位移的信息導致引入過多誤差信息,降低了后續(xù)光流估計的準確率。其次,在迭代更新模塊部分,RAFT依賴于靜態(tài)濾波器融合光流和相關體積,這也使得最終的光流預測圖產(chǎn)生過于平滑的結果。
為了解決上述RAFT中存在的問題,本文在構建4D相關體前,對輸入的連續(xù)兩幀特征圖進行分區(qū)處理,以強弱相關的方式計算稠密的視覺相似度,以此計算建立更為精細的4D相關體積。在迭代更新階段,本文在卷積門循環(huán)單元(ConvGRU)模塊的基礎上加入了殘差卷積濾波器和細粒度模塊,在融合光流信息和相關體信息前盡可能地保留更多的局部小位移信息。
本文通過特征提取模塊、計算視覺相似度模塊和光流迭代更新模塊獲得最終的光流估計結果,本文的主要貢獻如下:
(1)提出采用分區(qū)處理強弱相關信息的方法,能夠較好地剔除誤差,建立更為精細的4D相關體,從而獲得更加準確的相關體信息;
(2)引入殘差卷積濾波器,使光流信息不會隨著卷積濾波器的迭代加深而出現(xiàn)過于平滑的結果;
(3)采用細粒度模塊,在盡可能擴大感受野的同時,使模塊更加關注局部小位移的特征信息。
圖1為本文給出的光流估計網(wǎng)絡結構,由特征提取模塊、視覺相似度計算模塊和迭代更新模塊3部分構成。

圖1 光流估計網(wǎng)絡結構Fig.1 Optical flow estimation network structure
特征提取器模塊由特征編碼器和全局編碼器兩部分構成。輸入的前后幀圖片經(jīng)過特征提取器模塊分別提取下采樣8倍的特征圖和上下文信息。視覺相似度計算模塊由分區(qū)強弱相關計算和相關金字塔構成。分區(qū)強弱相關計算會對特征圖進行特征權重的空間重構,并通過相關金字塔得到不同尺度的相關體積。迭代更新模塊由基準移動編碼模塊和卷積門控循環(huán)單元構成。光流信息會通過對不同尺度的相關體積進行按位查詢,得到與預測光流位移相對應的相關體,查詢得到的相關體和光流位移經(jīng)過基準移動編碼模塊(圖1中B標識模塊)進行信息的融合。最終,輸出融合結果將與上下文信息一起作為卷積門控循環(huán)單元的輸入,迭代12次后得到更為精細的光流預測圖。
對給定的輸入連續(xù)兩幀圖像,分別表示為Ia與Ib。輸入圖像的寬和高分別記為H和W。
特征提取模塊由特征編碼器和全局編碼器兩部分構成。特征編碼器以權重共享的方式作用于Ia與Ib,并以1/8的分辨率輸出編碼后的特征Fa、Fb∈RH/8×W/8×D,其中Fa、Fb分別為圖像Ia、Ib的輸出,D為特征圖的維度。
此外,全局編碼器網(wǎng)絡的體系結構與特征編碼器網(wǎng)絡相同。它將從第一張輸入圖像Ia上提取特征,并輸出編碼后的特征Fc∈RH/8×W/8×D。編碼器的網(wǎng)絡設計如圖2所示。

圖2 編碼器結構Fig.2 Encoder structure
計算視覺相似度是光流估計中的一個核心步驟,在整體結構中起到了至關重要的作用,但之前的許多工作并沒有在這一步投入太多關注,計算方式大多以直接做全局特征向量的內(nèi)積為主。全局的特征匹配往往是直接對兩張?zhí)卣鲌D以像素點為單位計算點積,即取所有特征向量對之間的點積形成相關體。當給定特征圖Fa的像素坐標(u,v)和特征圖Fb的像素坐標(x,y),相關體積C即可通過矩陣運算獲得:
在光流估計任務中,連續(xù)兩幀圖像間,大位移的像素點占比極少,遠距離的像素相關性較小,即第一幀圖像中位于上方的像素通常情況下不會位移到第二幀圖像的下方。在這種情況下,做全局的相關計算就會引入許多誤差信息。但若直接忽略遠距離的特征點,一些大位移像素的相關關系將被完全清零,這可能導致一些更致命的誤差。經(jīng)過上述的分析,本文提出了基于分區(qū)思想的強弱相關計算方法。該方法可以在構建相關金字塔的基礎上,強化對局部區(qū)域的關注度,從而減少對全局信息的錯誤判斷。
如圖3所示,輸入的特征圖會被橫向切分成2n個區(qū)域(Region),通過區(qū)域間的范圍閾值來設定兩幀間像素的映射。在本文中,分條區(qū)域的個數(shù)被設置成偶數(shù),這種做法的原因是當對圖片進行分區(qū)處理時,選擇偶數(shù)計算更為方便。對特征提取模塊求出的特征圖Fa和Fb,分區(qū)(Region)的表達方式如式(2)所示:

圖3 橫向切分做邊緣區(qū)域點映射的強-弱相關與中心區(qū)域點映射的強-弱相關(以分條顏色的深淺表示相關的強度,對應位置區(qū)域認定為強相關,相關因子置1,其余顏色越弱,相關性越弱)。Fig.3 Strength-weakness correlation of the edge-region point mapping with the center-region point mapping done by the horizontal cut (The strength of the correlation is indicated by the shade of the color of the bars, The correlation factor is set to 1 when the corresponding position area is identified as strong correlation. The weaker the rest of the color,the weaker the correlation).
其中,i和j分別表示Fa和Fb的分條區(qū)域索引。
對于不同映射關系的像素點,本文通過設置相應的可學習相關因子來強化兩幀區(qū)域內(nèi)的強弱相關性。這種方法的好處在于既能獲得全像素對的相關信息,降低對大位移像素離群值的敏感性,又能極大程度地減少區(qū)域外的誤相關帶來的誤差。加入強弱關系后的相關體積Cfinal的計算方式如式(3)和式(4)所示:
其中:h(·)表示幀間各個分條區(qū)域間的映射關系,與之對應的λj是可學習的自適應相關因子,用來表示不同程度的相關性;?為幀間對應區(qū)域內(nèi)像素的點積;C′ij表示區(qū)域i和區(qū)域j加入強弱關系后的相關體積。本模型利用sigmoid函數(shù)將λj的取值范圍約束在0~1之間。
至此,對于Fa中的每一個特征點,均計算出Fb中所有特征點與它的相關關系,即相關體積Cfinal,其維度為w×h×w×h。需要說明的是這里的w和h是原始圖片的下采樣8倍后的寬和高,即之后本文采用4個不同大小(卷積步長分別為1,2,4,8)的卷積核對相關體積的后兩個維度進行降采樣得到4層金字塔相關金字塔標號q與其維度的關系如式(5)所示:

圖4 基于相關金字塔的查詢操作。橙色部分為不同尺度下的查詢點的鄰域點集。Fig.4 Lookup operator based on correlation pyramid. The orange part is the neighborhood dot product of the query points at different scales.
其中:dp為查找范圍且取整數(shù);r為搜索半徑,設定為4像素;Z為正整數(shù)集。將該鄰域內(nèi)的所有點看作是Ia中像素點p在Ib上的潛在位置。后續(xù)在迭代更新光流的過程中,可借助插值查詢操作從相關金字塔中索引得到像素級別的相關特征信息,最后將不同金字塔層的查詢結果在特征維度上進行合并,得到最終的相關體Clast。
綜上所述,本文以分條區(qū)域做強弱相關的方式計算視覺相似度,其好處在于既能獲得全像素對的相關信息,又能極大減少由全局匹配所引入的錯誤信息,進而獲得更加準確的相關體信息,為后續(xù)光流場迭代更新計算提供支持。
本文主要通過迭代更新模塊中的光流序列{f1,…,fN}完成光流估計,其迭代更新過程可以描述為:
其中:Δfk為每次迭代后的更新量,fk為當前光流,fk+1為更新后的光流,k為迭代更新次數(shù)。
迭代更新模塊主要由基準移動編碼模塊和卷積門控循環(huán)單元(ConvGRU)構成。本文使用卷積門控循環(huán)單元對上下文信息和光流信息進行迭代更新,并且提出了基準移動編碼模塊來增強光流預測圖的細粒度。
如圖5所示,在基準移動編碼模塊中,輸入為:(1)根據(jù)當前光流位移(fk)在相關金字塔中檢索出的相關體Clast;(2)當前光流位移(fk)。

圖5 基準移動編碼模塊結構設計Fig.5 Basic motion encoder module structure design
相關體Clast經(jīng)過卷積濾波器來融合不同相關金字塔層的信息,但基于卷積的基準移動編碼模塊會產(chǎn)生過于平滑的結果。為了緩解小位移運動在卷積堆疊運算后難以維持局部細致化的問題,本文在卷積濾波器的基礎上加入了殘差連接(圖5中的紅色線),用于修正局部的小位移運動,增強最終光流預測圖的細粒度。最終卷積濾波器的輸出Coutput計算方式如式(8)所示:
此外,對當前光流位移(fk)采用細粒度模塊進行處理。細粒度模塊由3個核大小為3的卷積核并行構成。并行3個小卷積核不僅彌補了感受野小的不足,同時使得模塊更加關注局部的小運動特征。具體處理方法如式(9)和式(10)所示:
其中:flow_i(i=1 , 2 , 3)為光流位移(fk)由3個并行的3×3卷積核經(jīng)不同輸出通道處理獲得的光流特征,F(xiàn)output為光流特征拼接結果,cat(·)為拼接操作,relu為激活函數(shù)。卷積濾波器的輸出Coutput和細顆粒模塊的輸出Foutput在特征維度上進行拼接,成為基準移動編碼模塊的輸出Boutput。
ConvGRU是門控激活單元(GRU)中的全連接層被卷積代替而形成的,同時也是迭代更新的核心算子。采用ConvGRU完成光流估計的主要過程如下:首先輸入上一時刻的隱藏狀態(tài)ht-1(初始化為0)和當前時刻信息xt,之后經(jīng)過重置門和更新門,最終輸出當前時刻的隱藏狀態(tài)ht,將該隱藏狀態(tài)ht經(jīng)過兩層卷積即可得到Δf,完成光流的更新操作。具體如式(11)~(14)所示:
其中:xt為第t時刻的基準移動編碼模塊的輸出Boutput和上下文信息Fc在特征維度合并的結果,ht-1為t-1時刻的隱藏狀態(tài),ht為t時刻的隱藏狀態(tài),h′為t時刻的候選隱藏狀態(tài),r為重置門,rt表示t時刻重置門狀態(tài),z為更新門,zt表示t時刻更新門狀態(tài),W為權重,σ(·)為激活函數(shù),tanh為非線性激活函數(shù)。
在ConvGRU的基礎上融合基準移動編碼模塊可以捕獲更多的細粒度特征,使結果更加有效地逼近真實光流,最終輸出更為準確和精細的光流場。此外,由于在特征提取階段輸出的是1/8分辨率的特征圖,因此,迭代更新部分得到的初始光流預測圖的分辨率也是原圖的1/8。本文通過上采樣操作得出與原圖相同分辨率的光流場景,與此同時,ConvGRU利用了卷積操作學習上采樣的權值。在上采樣之后的光流結果中,每一個像素點的值都是其9個粗分辨率鄰接區(qū)域的凸組合。
3.1.1 數(shù)據(jù)集
KITTI-2015數(shù)據(jù)集[19]是在真實的交通環(huán)境下的街景數(shù)據(jù)集,其中包含394組訓練數(shù)據(jù)集,395組測試數(shù)據(jù)集。
MPI-Sintel光流數(shù)據(jù)集[20]是一個基于動畫電影的合成數(shù)據(jù)集,該數(shù)據(jù)庫分為Clean和Final兩個數(shù)據(jù)集。Clean數(shù)據(jù)集包括大位移、弱紋理、非剛性大形變等困難場景;Final數(shù)據(jù)集添加運動模糊、霧化效果以及圖像噪聲更加貼近現(xiàn)實場景。MPI-Sintel光流數(shù)據(jù)集包含1 041組訓練數(shù)據(jù)集,552組測試數(shù)據(jù)集。
3.1.2 評價指標
在KITTI-2015數(shù)據(jù)集上,采用兩種指標評估光流估計結果,分別為光流估計中的標準誤差度量(EPE)和光流異常值百分比(Fl)。端點誤差(end-point-error,EPE)是光流估計中標準的誤差度量,表示所有像素點的真實標簽值和預測出來的光流之間差別距離(歐氏距離)的平均值,公式如式(15)所示:
其中:Fi表示預測的光流值,F(xiàn)gi表示地面真實值。同時,F(xiàn)l是KITTI-2015數(shù)據(jù)集中圖像整體區(qū)域中光流異常值(>3 px或>5%誤差)的比率。
在MPI-Sintel數(shù)據(jù)集上,以EPE和1,3,5 px為性能度量,其中1,3,5 px分別表示整幅圖像中EPE<1、EPE<3、EPE<5的像素所占的比例。
3.1.3 訓練
本文網(wǎng)絡采用端到端方式,對數(shù)據(jù)集進行常規(guī)數(shù)據(jù)增強(添加隨機噪聲、隨機翻轉等),并通過一次性訓練構造樣本集。運行環(huán)境采用PyTorch和Adamw優(yōu)化器,令Adamw優(yōu)化器的參數(shù)值wdecay為0.000 01,顯卡為NVIDIA3090,批量大小為5,對KITTI-2015數(shù)據(jù)集進行50 000輪訓練、MPI Sintel數(shù)據(jù)集進行120 000輪訓練,初始學習率為0.000 1,每5 000輪學習率減少0.000 01。
通過預測值和地面真實流之間的l1距離來監(jiān)督網(wǎng)絡,損失函數(shù)如公式(16)所示:
其中:T為12表示迭代次數(shù),初始化光流f0=0,fi為光流序列即{f1,...,fN},F(xiàn)g為地面真實流,γ初始權重設置為0.8,由公式(16)可得權重隨著迭代次數(shù)呈指數(shù)增長。
3.2.1 KITTI-2015數(shù)據(jù)集的實驗結果
在KITTI-2015數(shù)據(jù)集上的評估結果如表1所示,其中4分條和6分條分別在EPE和Fl上表現(xiàn)較好。相較于先前結果最好的RAFT(Zachary Teed 等人,2020),通過公式(17)、(18)計算可得,本文方法在EPE指標上降低了8.2%,在Fl指標上降低了0.14%。

表1 不同方法在KITTI-2015測試集上的光流估計性能(↓:數(shù)值越小,表現(xiàn)越好)Tab.1 Optical flow estimation performance of different methods on KITTI-2015 test set (↓:The smaller the value, the better the performance)
其中:ηEPE表示EPE降低的比率,EPERAFT表示RAFT的EPE數(shù)值,EPEOur(n)表示n分條時EPE數(shù)值,F(xiàn)1Our(n)表示n分條的Fl數(shù)值,n取4,6,8。PCTFl表示Fl降低的百分點,F(xiàn)lRAFT表示RAFT的Fl數(shù)值。
本文記錄了KITTI-2015數(shù)據(jù)集訓練過程中EPE指標和Fl指標的收斂曲線。以8分條方法為例,如圖6所示,模型的EPE和Fl指標在分別迭代36 k和46 k個Epoches后超過了RAFT,并在訓練結束時分別達到0.707 347和1.862 571。

圖6 KITTI-2015上的收斂曲線。(a)EPE指標收斂曲線;(b)Fl指標收斂曲線。Fig.6 Convergence curve on KITTI-2015.(a) Convergence curve on EPE index; (b) Convergence curve on Fl index.
圖7為在KITTI-2015驗證集上的光流預測結果。由圖7中的第二行圖像可見,RAFT僅構建出欄桿的大致輪廓,而本文方法清晰地構建出欄桿處的細節(jié),如圖中紅框所示。此外,由圖7中的后三行圖像可見,在RAFT構建的光流圖中,車的整體輪廓和邊緣處均有缺陷,而本文方法預測得到的光流圖無論是車身,還是車的細節(jié)方面均更貼近真實圖像,且更為清晰、完整。

圖7 KITTI驗證集上的光流估計結果(4,6,8分別為本文提出的4分條區(qū)域、6分條區(qū)域、8分條區(qū)域)。Fig.7 Optical flow estimation results on the KITTI validation set (4, 6, and 8 are the 4-point, 6-point, and 8-point methods proposed in this paper, respectively).
3.2.2 MPI-Sintel數(shù)據(jù)集的實驗結果
在MPI-Sintel數(shù)據(jù)集上的評估結果如表2所示,其中8分條和4分條分別在MPI-Sintel(Clean)和MPI-Sintel(Final)上的EPE數(shù)值較好,相較于先前結果最好的RAFT,通過公式(17)計算可得,EPE分別降低了6.15%和5.87%。除此之外,本文分條策略中的1,3,5 px相較于基準方法均有所提高,從性能度量上來看,本文得到的結果中小誤差占比更大。從這個角度分析,本文方法得到的結果魯棒性更強且在處理局部細粒特征時具有更強的競爭力。

表2 不同方法在MPI-Sintel測試集上的光流估計性能(↓:數(shù)值越小,表現(xiàn)越好;↑:數(shù)值越大,表現(xiàn)越好)Tab.2 Optical flow estimation performance of different methods on MPI-Sintel test set (↓:The smaller the value, the better the performance; ↑:The greater the value, the better the performance)
在MPI-Sintel(Final)數(shù)據(jù)集中,本文記錄了訓練過程中8分條方法的EPE,1,3,5 px指標的收斂曲線如圖8所示。為了便于描繪指標的變化趨勢,圖8中紅色陰影部分為實際記錄的指標數(shù)據(jù),紅色折線則為局部平滑后的結果。模型在整個訓練過程中逐步收斂,在78k個Epoches后,EPE指標超過RAFT,并在訓練結束時達到0.877 59。

圖8 MPI-Sintel上的收斂曲線。(a)EPE指標收斂曲線;(b)1 px指標收斂曲線;(c)3 px指標收斂曲線;(d)5 px指標收斂曲線。Fig.8 Convergence curve on MPI-Sintel. (a) Convergence curve on EPE index; (b) Convergence curve on 1 px index;(c) Convergence curve on 3 px index; (d) Convergence curve on 5 px index.
在MPI-Sintel驗證集上預測得到光流結果如圖9所示。其中前五行為Clean數(shù)據(jù),由圖9可見,本文方法在手臂輪廓、腿部輪廓等邊緣細節(jié)處結果明顯優(yōu)于RAFT,尤其是第五行中RAFT未捕捉到空中兩只鳥的光流信息,而本文方法所捕獲的鳥邊緣信息更為準確。此外,由后兩行的Final數(shù)據(jù)集的預測結果可見,即使面對帶有運動模糊的場景,本文方法依然可以很好地將武器以及手部邊緣光流信息完整地預測。

圖9 MPI-Sintel驗證集上的光流估計結果(4,6,8分別為本文提出的4分條區(qū)域、6分條區(qū)域、8分條區(qū)域)。Fig.9 Optical flow estimation results on the MPI- Sintel validation set (4, 6, and 8 are the 4-point, 6-point, and 8-point methods proposed in this paper, respectively).
通過消融實驗驗證本文提出的各部分模塊的有效性,包括分區(qū)強弱相關計算、細粒度模塊以及殘差卷積濾波器,分別采用MPI-Sintel和KITTI-2015數(shù)據(jù)集進行消融實驗。在消融實驗中,所有不同的方法組合均采取了相同的訓練參數(shù)設置和訓練輪數(shù)。令A(4)、A(6)、A(8)代表4分條區(qū)域、6分條區(qū)域、8分條區(qū)域,B代表使用細粒度模塊,C代表使用殘差卷積濾波器。實驗結果如表3所示,其中BC代表模型使用細粒度模塊和殘差卷積濾波器的組合,BA(n)表示使用細粒度模塊和強弱相關計算方法的組合,CA(n)表示使用殘差卷積濾波器和強弱相關計算方法的組合,n取4,6,8。

表3 在KITTI-2015和 MPI-Sintel數(shù)據(jù)集上的消融實驗Tab.3 Ablation experiments on KITTI-2015 and MPI-Sintel datasets
表3中,在使用不同方法的組合進行訓練的情況下,使用細粒度模塊和殘差卷積濾波器的組合構建的光流預測結果獲得了最佳的表現(xiàn)。這表明細粒度模塊和殘差卷積濾波器不僅優(yōu)化了后期光流和相關體的信息融合過程,并且保留了更多的光流局部的細粒度,使最終的光流預測圖在局部小物體中表現(xiàn)得更好,如圖7和圖9所示。在細粒度模塊和殘差卷積濾波器組合的基礎上,加入8分條的強弱相關計算較為明顯地降低了端點誤差,并且也獲得了最多的最優(yōu)指標。在KITTI數(shù)據(jù)集中,BA(6)與BCA(8)的實驗結果相差最大,證明殘差卷積濾波器在獲得更精準的光流信息方面起到了重要的作用,其余實驗結果相近。綜上,在本文給出的3種方法和模塊共同作用下,可以更好地完成光流圖的構建。
本文融合序列影像相關區(qū)域信息給出一種光流估計網(wǎng)絡模型,其中計算相似度模塊采用分區(qū)處理強弱相關信息的方法,能夠剔除大量誤差信息;迭代更新模塊采取了殘差卷積濾波器和細粒度模塊,緩解了光流結果缺乏局部細粒度的問題。在KITTI-2015和MPI-Sintel光流數(shù)據(jù)集的實驗表明,本文提出的網(wǎng)絡模型能夠有效提高光流估計的準確率,較好地解決了過度平滑、缺乏細粒度和小物體快速運動估計不夠準確的問題。未來的工作將集中在優(yōu)化模型的運行時間成本和減少參數(shù)量方面。