999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于深度學習的實時視頻圖像背景替換方法

2021-11-25 02:25:08謝天植雷為民李志遠
東北大學學報(自然科學版) 2021年11期
關鍵詞:語義背景特征

謝天植, 雷為民, 張 偉, 李志遠

(東北大學 計算機科學與工程學院, 遼寧 沈陽 110169)

視頻會話類業務已經成為人與人交流中不可缺少的部分,視頻會話方便了交流的同時也帶來了隱私泄露的問題,尤其最近一年新冠疫情使居家辦公成為一種常態,這使得隱私泄露問題變得更加嚴重,通過語義分割將人像提取后進行背景替換,可以很好地保護會話人的隱私.

傳統的圖像分割[1-2]算法主要有閾值分割法[3]、光流法[4]、邊緣檢測算法[5]等,這些算法都是根據圖像的特征完成圖像分割.首先是分析圖像的特征,對每一個特征設定一個特定的提取器,最后根據特定提取器對圖像進行分割.但傳統算法對圖像的分割缺少語義上的理解,無法對特定的人像進行提取,而是將所有前景全部提取出來,不能滿足視頻會話業務中背景替換任務的需求.

語義分割任務是一項對圖像進行語義理解后進行特定目標分割的深度學習任務,為視頻會話中人像提取提供了新思路,它是計算機視覺中的一個重要方向,實現由粗推理到精推理的步驟,完成目標的分類與定位,預測并推斷圖像中的所有像素,實現細粒度的推理[6],即實現了對視頻圖像的語義理解.

近年來,深度學習發展迅速,語義分割已經在自動駕駛、室內機器人導航等方面[7-8]得到了廣泛的應用.全卷積神經網絡[9](fully convolutional networks, FCN)改進分類深度卷積神經網絡結構,用卷積層替換原始網絡末端的全連接層,最終得到兩通道的特征圖(feature map),將特征圖輸入Softmax層后得到視頻圖像中每個像素點的分類信息,完成分割.該網絡忽略了低維的特征圖,導致邊緣信息的丟失,分割效果較差,并且在速度上無法達到實時.文獻[10]使用了編解碼結構提升分割效果,通過編碼器獲取深層次的語義信息,使用解碼器將淺層的空間信息與深層語義信息相融合,進而恢復邊緣與細節的信息;Deeplabv2[11]使用空洞卷積替換普通卷積,空洞卷積設置適宜特征圖尺寸的膨脹率,使卷積核在不增大參數量的情況下獲取更大的感受野,獲取相對于普通卷積更豐富的上下文信息,對分割大目標以及精準分割提供了思路;Deeplabv3[12]網絡舍棄了條件隨機場,在空洞卷積金字塔池化模塊中加入批量歸一化操作,加入平均池化層解決空洞卷積膨脹率過大導致的“權值退化”問題也增加了全局特征.OSVOS[13]網絡、STM[14]網絡以及SAT[15]網絡利用了幀間相關信息提升分割性能,但網絡模型整體較復雜,很難達到實時處理速度或需要高性能顯卡進行支持.

上述模型大而復雜,對于實時視頻會話業務場景是難以應用的,這些場景需要極低的處理時延.為了提升語義分割的實時性,用于特征提取的骨干網絡可以采用小而高效的輕量級網絡結構. BiSeNet[16]為減少計算量提升運算速度加入語義路徑和空間路徑兩個步驟,力圖實現速度與精確度的平衡;MobileNetV1[17]網絡用深度可分離卷積替換掉普通卷積,降低參數量,提升了速度;MobileNetV2[18]通過加入殘差結構提升效果,并在子模塊初始部分加入卷積調整通道數提升性能與速度.

現階段語義分割在部分特定任務上已經達到了很好的效果,但語義分割所處的實時視頻會話背景替換場景與這些特定任務場景存在明顯的不同,視頻會話實時背景替換場景中視頻幀率較快并且分割的目標在視頻圖像中所占比例較大.本文針對此場景,以提取視頻會話中的人物并達到實時效果為任務,提出了一種深度學習背景替換方法.該方法有語義分割以及背景替換兩部分,語義分割部分完成視頻會話中人像與背景的分離,該部分中編碼器使用多分支結構,每個分支設置不同的膨脹率獲取更多的感受野.為更好地提取大目標,并通過這種網絡結構加快分割速度,加入注意力機制模塊以及空洞卷積金字塔池化模塊提升性能,主要卷積方式為深度可分離卷積提升速度.最后將分割結果進行處理后輸入背景替換部分完成背景替換.實驗結果表明,本文模型可以很好地完成實時背景替換,性能達到較高的水準.

1 背景替換網絡構建

本文目標是實現視頻會話圖像實時背景替換,以精準的分割以及實時的處理速度為標準,以深度卷積神經網絡為主體搭建背景替換網絡.本節將詳細介紹背景替換網絡的搭建,并對網絡的每一模塊進行詳細介紹.

1.1 整體網絡結構

本文設計的深度學習網絡模型如圖1所示,整體架構采用編解碼結構,該結構常被用于語義分割網絡的搭建.編解碼結構包括編碼端與解碼端兩部分.具體來說,編碼端的任務是在給定輸入圖像后,通過神經網絡的學習得到輸入圖像的特征圖;解碼端使用由編碼端輸出的特征圖逐步實現對視頻圖像中所有像素的標簽標注,完成分割.在深度學習網絡中,淺層網絡提取的特征更偏向于局部信息如邊緣紋理等,即淺層特征圖保留的是高分辨率的細節信息;深層網絡提取的特征偏向于全局信息,即高維特征圖保留的是整個圖像上下文的語義信息.因此為了使圖像的全局語義信息與局部細節信息相融合,本文網絡將淺層模塊輸出的特征圖通過帶有調整模塊的跳躍連接后輸出到解碼端.

圖1 實時視頻圖像背景替換網絡

1.2 語義分割編碼端

整個編碼端由4個部分構成:編碼器模塊、注意力模塊、空洞卷積金字塔池化模塊和增益模塊.

1.2.1 語義分割編碼器模塊

編碼器模塊采用3分支結構,如圖2所示.分支結構借鑒了MobileNetV2的模塊思路,通過在不同的分支中使用不同膨脹率的空洞卷積,對同一特征圖從不同維度上提取特征,增加了上下文信息,并使用殘差結構減少信息的丟失.編碼器第一層為用于調整通道數的1×1卷積層,此操作將特征圖通道數提高,有利于提取到整體的足夠多的信息;第二層為特征提取層,此部分為3×3深度可分離卷積,Stride默認為1,網絡第一次使用某一數量分支編碼器模塊時設置Stride為2,并去掉殘差結構,對特征圖進行下采樣;第三層為空洞卷積層,對同一模塊中各分支依次編號為1到n,每個分支根據編號設置不同的膨脹率,速率為2n-1,由于特征圖的維度隨著網絡的加深而變小,所以編碼器分支由三分支逐漸降為一分支,膨脹率范圍的選取也逐漸變小,由[1,2,4]逐漸降為[1].在不同分支上的輸出串聯形成一個包含多尺度信息的特征圖,最后再經過1×1卷積進行通道調整操作,將通道數降低,以優化處理速度.連續應用編碼器模塊捕獲多層信息.

圖2 3分支編碼器模塊

特征圖通道數較低時,非線性激活函數會濾除掉很多有用的信息,因此使用了線性激活函數代替了非線性激活函數,每個分支的結構總體是一個先提升通道數再降低通道數的結構,這樣既減少了信息的丟失,最終輸出也降低了參數量.

1.2.2 注意力模塊

注意力模塊用于在特征圖中提取對當前目標更關鍵的信息.分類網絡在全連接層(fully-connected,FC)前加入全局池化層,形成最終的概率向量,進而選取關鍵信息,這是一種典型的注意力模型.借鑒此思路,本文注意力模塊將特征圖先進行全局池化后,再使用FC層和1×1卷積層減少通道來匹配編解碼器輸出的特征圖,然后通過N×C×1×1編碼向量按照輸入方式與輸入特征圖相乘.注意力模塊結構如圖3所示.

圖3 注意力模塊

1.2.3 空洞卷積金字塔池化模塊

空洞卷積金字塔池化模塊(atrous spatial pyramid pooling,ASPP)是語義分割網絡中的常用模塊.模塊使用不同的膨脹率分支提取特征圖的多尺度信息,膨脹率的選取相比于編碼器模塊的膨脹率選取范圍更大,旨在獲取更加全面的信息.通過研究發現當膨脹率接近特征圖分辨率時,3×3卷積由于空洞的填充所覆蓋的區域已經遠遠大于特征圖,只有中心區域能起到作用,其作用本質上是一個1×1卷積,因此ASPP模塊將其直接替換為一個1×1卷積.同時加入全局平均池化分支對特征圖上所有元素進行整合.將以上各分支得到的特征圖串聯輸入到一個1×1卷積層后,傳入到下一個模塊中. ASPP結構如圖4所示.

圖4 ASPP模塊

1.2.4 增益模塊

增益模塊位于整個編碼端的末尾處,該模塊使用深度可分離卷積對特征圖相鄰像素的特征關系進行提取,以減弱編碼器模塊與ASPP模塊因使用連續的空洞卷積對特征圖中信息的連續性造成的影響.增益模塊結構如圖5所示.

圖5 增益模塊

1.3 語義分割解碼端

在輸入上,解碼端有兩種輸入的特征圖,除輸入編碼端輸出的特征圖外還輸入了編碼端中部分模塊輸出的特征圖,這部分特征圖通過跳躍連接輸入解碼端.在結構上,整個解碼端由三部分組成,分別為解碼器模塊、調整模塊、編碼器模塊.

解碼器模塊的作用是通過上采樣操作將特征圖恢復到輸入視頻圖像的分辨率.編碼端一共進行了4次下采樣操作,需進行4次×2操作才能將特征圖恢復原始視頻圖像分辨率,因此使用了4次解碼器模塊.解碼器中上采樣操作使用了轉置卷積的方式,逐漸減少通道,提升分辨率.解碼器模塊結構如圖6所示.

圖6 解碼器模塊

編碼端中第一個三分支編碼器模塊的輸出特征圖與第一個兩分支編碼器模塊的輸出特征圖跳躍連接輸入到解碼端,并分別與同分辨率的解碼器輸出特征圖融合傳入解碼端下一個模塊.本文跳躍連接中編碼端特征圖與解碼端特征圖的結合方式與以往語義分割網絡中兩種特征圖直接進行結合的方式不同,本文使用調整模塊對兩者進行結合,模塊中加入了深度可分離卷積層進一步提取特征圖信息,再與上采樣信息連接在一起,對提取到的有效信息進一步細化,這一思路借鑒了SharpMask算法[19-20]中的Refinement模塊.調整模塊結構如圖7所示.

圖7 調整模塊

調整模塊的輸出特征圖與解碼器模塊輸出特征圖直接連接后,在上采樣操作恢復原始圖像尺寸操作前復用編碼器模塊進行特征融合,這樣解決了上采樣操作無法增強對臨近值的預測問題,與編碼端中的編碼器結構不同的是由于在上采樣解碼階段,應保持特征圖分辨率不再變小,所以該模塊不再有Stride=2的卷積層.

1.4 替換端

替換端的作用是完成最終的背景替換操作,將分割好的掩碼圖像與輸入的視頻圖像輸入該模塊,使用OpenCV庫中的API進行處理,首先得到人物在分割好的掩碼圖像中所處的位置,再標記到原始視頻圖像中的相同位置,最后將視頻圖像中未被標記的像素點用替換背景同位置點代替,完成背景替換操作.

2 實驗及結果分析

2.1 實驗數據集

1) Supervisely Person數據集[21]包含了5 711張圖像,每張圖像都標注了人物的位置,共有6 884人像目標,每張圖像被分為前景與背景兩部分.

2) Aisegmentation數據集[22]是由網絡公司搜尋的圖像制作而成的數據集,數量為34 427.

3) Adobe deep image matting dataset[23],在該數據集中挑選了420張人物分割數據集.

4) 由本實驗室人員自行拍攝圖片,進行處理后得到的數據集,該數據集包含了5 982張圖片,分別對每張圖片中的人物進行提取.

本文共收集了46 540張人物圖像,為了獲得更多的數據集以增加模型的魯棒性,將已有的圖像進行水平方向翻轉,得到同樣數量的新圖像加入訓練集.將分辨率設置為256×256,并將圖片按照8∶1∶1的比例分為訓練集、驗證集、測試集.

2.2 評價標準

本文網絡模型選用平均交并比(mean intersection-over-union,mIoU)、圖像處理速度FPS(幀/s)以及像素精確度作為性能指標.

mIoU為語義分割的標準度量,其計算所有類別交集和并集之比的平均值,這兩個交集與并集為真實值和預測值,計算公式如公式(1) 所示:i為真實值,j為預測值,pij表示將i預測為j.

(1)

圖像處理速度計算公式如式(2)所示,N為圖像數量,t為處理每幅圖像所用的時間.

(2)

像素精確度(ACC)定義為預測正負樣本像素正確的個數的和與總樣本像素總數的比值,其中FP代表的是正樣本預測結果為正確的數目; FN代表的是負樣本被預測為正樣本的數目; TP代表的是正樣本被預測為負樣本的數目;TN代表的是負樣本預測結果為正確的數目,計算公式如式(3)所示.

(3)

2.3 訓練參數

實驗操作系統為Ubuntu18.04,64位操作系統,顯卡為NVIDIA GTX1080Ti 和 NVIDIA GTX1060.編譯器設置為Python3.6.5,使用TensorFlow1.8.0深度學習框架作為實驗平臺,并使用自適應矩估計優化器進行訓練,每次迭代24張圖片,共訓練200個Epoch,學習率設置為0.000 075.

2.4 性能分析與比較

本文的分割結果在速度和精確度上與以MobileNetV2為主干網的Deeplabv3網絡模型和BiseNet網絡模型對比.

2.4.1 網絡模型整體分析

圖8和圖9給出了本文網絡模型的mIoU和像素精確度隨Epoch訓練輪次增加的變化曲線.從實驗結果可以看出,隨著Epoch的增加,曲線逐漸平滑,mIoU值以及像素精確度維持在一定水平上下浮動.

圖8 mIoU與Epoch關系圖

圖9 像素精確度與Epoch關系圖

2.4.2 網絡模型性能比較

將語義分割網絡Deeplabv3以及BiseNet在本文所使用數據集上進行訓練.

本文選用的Deeplabv3網絡是以MobileNetV2為主干網的,Deeplabv3的作者選用了ResNet[24]作為主干網,通過研究發現使用ResNet作為特征提取網絡的模型在圖像細節分割效果上要好于使用MobileNetV2的模型,但是在整體的效果上二者分割效果大體相似,由于MobileNetV2使用深度可分離卷積,在顯存占用方面優勢明顯,可被并行處理的圖像數量增多,其分割速度相對于ResNet會有顯著提升.因此本文并未選用以ResNet為主干網的Deeplabv3作為對比網絡.

在 NVIDIA GTX1080Ti實驗環境下進行訓練, mIoU與Epoch之間的關系如圖8所示,兩個對比網絡以及本文研究網絡隨著Epoch的增加效果逐漸變好,但是相比之下本文網絡模型性能要高于另外兩種網絡.在圖9像素精確度曲線圖上可以看到,本文網絡模型的像素精確度以及BiseNet網絡像素精確度基本在同一精確度線上下浮動,并且高于Deeplabv3網絡像素精確度,但本文網絡模型的像素精確度曲線浮動相較于BiseNet更平穩,像素精確度更加穩定.

在GTX1060實驗環境中對訓練好的模型在統一的測試集下查看測試結果,如表1所示.本文研究的網絡的mIoU優于BiseNet以及Deeplabv3網絡模型,雖相較于BiseNet處理速度稍差,但仍然滿足實時要求, Deeplabv3在使用MobileNetV2作為主干網后達到了實時分割速率,但其mIoU低于其他兩個網絡.總體上看,本文所研究的網絡在性能與速度上達到了一個較好的平衡,能夠滿足實時背景替換方法的要求.

圖10為本文網絡模型的語義分割模塊與其他網絡效果圖比較,本文網絡相較于另外兩個網絡對邊緣提取更精細,并且提取出的人物并未出現殘缺,得到的分割圖更接近于真實分割圖.

圖10 語義分割模塊與其他網絡效果對比圖

2.5 背景替換效果演示

將訓練好的模型進行測試,如圖11所示,首先設置兩個顯示窗口begin和segmentation,begin窗口用于顯示輸入視頻,segmentation窗口用于顯示背景替換后的視頻.將模型運行后結果進行顯示, 從 segmentation 窗口中可以看到背景替換效果圖,并與begin窗口中的顯示進行比較,可以看到本文網絡能將人物與背景相分離,并將背景替換為一個不相關的圖片,網絡模型運行處理速度達到42.5幀/s,性能與速度上都有很好的表現.

圖11 背景替換效果演示

3 結 語

本文實現了一種基于深度學習的實時視頻圖像背景替換方法,用于實時視頻會話背景替換,達到了隱私保護的目的.此方法對視頻圖像進行特征提取,利用人像的語義信息,使人像與背景相分離,實現背景替換.該方法不管在已有公開數據集或本文制作數據集上都有不錯的效果,在GTX1060這一類普通性能的顯卡上運行仍然滿足實時要求,具有較強的實際應用價值.但該方法仍有一定的局限性,如在未配置GPU的設備上的速度仍然無法滿足實時,邊緣信息不夠準確等,因此,在未來還將進一步對網絡結構進行調整優化.

猜你喜歡
語義背景特征
“新四化”背景下汽車NVH的發展趨勢
《論持久戰》的寫作背景
當代陜西(2020年14期)2021-01-08 09:30:42
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
晚清外語翻譯人才培養的背景
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 成色7777精品在线| 国产精品视频白浆免费视频| 极品国产在线| 久久狠狠色噜噜狠狠狠狠97视色| 亚洲第一成人在线| 亚洲性视频网站| 日本午夜视频在线观看| 国产成人精品优优av| 中字无码av在线电影| 国产jizz| 午夜欧美理论2019理论| 啪啪免费视频一区二区| 亚洲精品无码日韩国产不卡| 国产福利微拍精品一区二区| 欧美成人手机在线视频| 日韩国产综合精选| 日日噜噜夜夜狠狠视频| 亚洲一道AV无码午夜福利| 香蕉eeww99国产精选播放| 国产全黄a一级毛片| 亚洲欧洲天堂色AV| 最近最新中文字幕在线第一页| 1级黄色毛片| 国产人碰人摸人爱免费视频| 久久精品娱乐亚洲领先| 美美女高清毛片视频免费观看| 最近最新中文字幕在线第一页| 美女一区二区在线观看| 韩日无码在线不卡| 亚卅精品无码久久毛片乌克兰| 亚洲一区二区无码视频| 熟妇丰满人妻| 操操操综合网| 亚洲精品天堂在线观看| 成人在线观看不卡| 热99re99首页精品亚洲五月天| 久久美女精品| 亚洲天堂久久新| 制服丝袜亚洲| 尤物在线观看乱码| 亚洲国产天堂久久九九九| 国产高清无码第一十页在线观看| 国产午夜一级淫片| 一区二区三区四区在线| 亚洲一级毛片免费观看| 2019年国产精品自拍不卡| 亚洲日韩精品无码专区| 天天躁狠狠躁| 91麻豆国产精品91久久久| 成人日韩视频| 国产va视频| 午夜福利在线观看入口| 四虎国产永久在线观看| 国产黄在线免费观看| 五月婷婷伊人网| 亚洲欧美不卡视频| 国产精品视频a| 青青草国产一区二区三区| 精品成人一区二区| 日本不卡在线| 人妻免费无码不卡视频| 超薄丝袜足j国产在线视频| 精品视频在线一区| 不卡视频国产| 国产99视频精品免费视频7| 日韩国产精品无码一区二区三区| 在线va视频| 欧洲一区二区三区无码| 国产主播在线观看| 成人午夜精品一级毛片| 丝袜国产一区| 伊人久久大香线蕉影院| 国产日本欧美在线观看| 午夜精品福利影院| 国产午夜无码专区喷水| 欧美成人第一页| 国产精品高清国产三级囯产AV| 99久视频| 美女被操91视频| 国产精品男人的天堂| jizz亚洲高清在线观看| 国产在线观看91精品亚瑟|