龔猷龍
(重慶廣播電視大學電子信息工程學院,重慶 401520)
視頻分割是一個具有挑戰性的問題,旨在將給定視頻的所有幀中的前景像素和背景像素分開。過去幾年來,它一直是計算機視覺的活躍研究領域,潛在的應用包括視頻編輯、媒體診斷和自動駕駛等。
近年來,由于深度學習的發展,基于多尺度分析和數據增強的圖像分割已用于提供可接受的分割結果??沼颉r域和通道域中的上下文是提高分割有效性的重要因素。圖1 顯示了DAVIS16 數據集的域內關系示例。頂行綠色箭頭顯示時域內相關性,中間行紫色箭頭顯示單個圖像空間內相關性,底行紅色箭頭顯示不同通道的相關性??梢园l現,不同通道中的高激活區域(在紅黃色區域)與對象的不同部分(例如人的腳和頭)有關,這種不同部分之間的關系提供了附加的語義線索,可用于改善語義分割結果。但是,如何同時捕獲空域、時域和通道域中的非局部關系,仍然是視頻分割中的重要問題。

圖1 DAVIS16 數據集中時域(上行)、空域(中行)和通道域(下行)中的關系
為了在特定域中對關系建模,非局部神經網絡通過使用像素之間的相似度來學習空間域中的非局部依賴性。需要將這種機制靈活地擴展到不同域的方法,并設計一種新方法來適當地融合來自多個域的上下文特征,以增強在逐像素分類任務(如視頻分割)中的特征辨識能力。
在本文中,提出一種新的三重注意網絡,如圖2所示。過去幀和當前幀學習時域注意圖,并捕獲記憶信息和當前觀察值之間的時域依賴性。……