朱 威,王東洋,歐全林,鄭雅羽
1(浙江工業大學 信息工程學院,杭州 310023)2(浙江省嵌入式系統聯合重點實驗室,杭州 310023)
隨著圖像采集與顯示技術的快速發展,高清視頻已經普及,4K/8K超高清視頻正逐漸進入我們的工作和生活,視頻傳輸與存儲的數據量越來越大.新一代的視頻壓縮標準HEVC雖然較前一代的H.264提高了一倍左右的壓縮比[1],但由于視頻圖像分辨率越來越高,壓縮后的視頻數據量仍然較大,而且目前的網絡帶寬資源仍然比較有限.現有的視頻編碼標準在對視頻圖像區域進行編碼處理時,沒有考濾人眼視覺特征,對于那些不符合人眼視覺特性的區域,卻消耗不少的碼率資源和計算資源.因此,如何在有限的網絡帶寬和存儲空間下合理分配碼率資源至關重要.針對上述問題,目前有效的解決方法是對視頻圖像中感興趣與非感興趣區域采用不同的編碼策略,其中感興趣區域(Region of Interest,ROI)的提出與應用主要利用了人類視覺系統(Human Visual System,HVS)的特征[2].HVS在面對一個復雜視頻場景時優先將注意力集中在少數具有顯著視覺特征的對象上,對場景中的不同區域給于不同的關注程度[3].因此視頻編碼過程可以在HVS的指導下,調整感興趣區域和非感興趣的碼率分配,提升感興趣區域的圖像質量,保證用戶的視覺體驗,同時降低整體壓縮碼率[4,5].
如何快速準確地檢測和提取用戶感興趣的目標區域是實現感興趣區域編碼的重要環節,傳統的提取方法主要是把運動區域當作ROI區域,采用幀差、光流和運動能量檢測等方法雖然可以提取目標區域,但容易受運動噪聲和光照等因素的影響,適用的場景有一定限制.在最新的研究中,文獻[6]針對全局運動場景的運動目標檢測提出了一種基于ORB特征點匹配方法,首先為圖像全局運動建立旋轉參數模型,然后采用隨機采樣一致性方法篩選出最佳匹配點對,最后用幀差法得出運動目標.文獻[7]從視頻碼流中提取出運動矢量,對運動矢量場進行空間濾波、Mean-Shift聚類等處理得到運動目標.文獻[8]針對高清監控視頻,提出平均網格化背景建模法,該方法首先對每幀視頻圖像進行網格化切分,然后對網格視頻幀圖像運用多線程并行處理進行背景建模,最后通過魯棒主成分分析(RPCA)方法求解提取目標對象.文獻[9]在傳統視頻編碼框架基礎上,結合人類視覺系統感知特征,根據當前編碼宏塊的幀間預測模式和運動矢量的大小判決ROI區域.文獻[10]主要針對高分辨率視頻,利用視頻編碼得到的運動矢量信息進行權重值劃分,根據相鄰前景塊的數量,檢測出前景與背景,但整體效果不佳,運算也較為復雜.文獻[11]在壓縮域中進行視頻顯著性檢測,使用移動窗口中的離散余弦變換系數和運動信息改善視覺顯著模型,并取得了一定的效果.上述方法主要是對運動的目標選定感興趣區域,無法知曉目標的類型,并且也不能確定靜止場景下的感興趣目標區域.近年來,深度學習在圖像分類、人臉識別等領域取得了重大突破[12],利用深度學習技術檢測感興趣的目標對象,可以提高ROI區域檢測效果,對視頻場景的適應性更好,同時支持的感興趣目標對象更加靈活,可以較好的解決現有方法在感知靈活性和準確度上存在的問題.
根據上述分析,本文提出了一種基于智能目標檢測的HEVC感興趣區域編碼方法.該方法首先利用卷積神經網絡提取感興趣目標對象所在的區域;接著對當前圖像的平坦紋理區域、結構化紋理區域和復雜紋理區域進行提取,計算得到CTU的紋理感知權重;然后在HEVC整數變換域設計自適應頻率系數壓制方法;最后對非ROI區域頻率系數進行自適應壓制,對ROI區域調低編碼量化參數,實現了比特資源合理分配,保證ROI區域的圖像質量.
HVS對視頻場景中的不同區域會給予不同的關注程度,同時對視覺信號的失真也具有不同的敏感度[13].目前提取感興趣目標所涉及的視覺特征和感知機制主要包括:運動信息、人臉和膚色信息、視覺敏感度、視覺掩蓋效應和中央凹感知機制[14].視覺感知領域根據研究內容不同可以分為低級視覺、中級視覺和高級視覺[15].傳統的運動感知模型如圖1所示,HVS是按照從低級到高級的順序對運動視覺信息進行感知[16],在大腦的初級視皮層(VI)等視覺處理區域,主要對局部運動視覺特征比較敏感,例如運動速度和運動方向;隨著視覺信號向更高級大腦區域傳輸,在大腦的hMT+等區域,HVS會對全局性的運動視覺特征比較敏感;在大腦的顳上溝(STS)等區域,HVS會對特定目標的運動特征比較敏感,比如人臉的運動.

圖1 傳統的運動感知模型Fig.1 Traditional motion perception model
雖然對于非全局運動和背景紋理簡單的視頻數據,利用運動視覺特征可以提取ROI區域,但對于全局運動場景,移動的前景對象包含的視覺信息最為豐富,HVS對運動的前景對象具有較高的敏感度,為了提取圖像區域的運動視覺特征,需要對運動對象進行檢測和分割.但現有的方法在確定運動前景對象上還存在很多不足,特別是在光照變化和攝像頭運動的情況下,檢測效果不佳.除此之外,對于非運動區域,傳統方法主要是利用紋理特征提取ROI區域,存在區域范圍過大和目標不明確等問題.
高級視覺領域主要涉及的是對視頻內容的識別與理解,在不同的視頻場景中,人眼會有選擇性的關注場景中感興趣的目標和內容,這種現象稱為HVS視覺注意工作機制[17].現有視覺注意機制主要是通過對輸入視頻場景進行分析,提取圖像的初級視覺特征,再結合HVS視覺感知機制,構建出多種視覺信息的特征圖,最后采用時間域或空間域特征融合的方式計算出顯著性圖來表示每個位置的視頻顯著性[18].利用HVS視覺注意模型雖然能夠獲取ROI區域,但HVS視覺注意模型比較復雜,只通過初級視覺特征并不能完全模擬HVS處理視覺信息的整個過程.隨著人工智能技術的快速發展,具有代表性的深度學習技術可以利用大量的訓練樣本深入地學習圖像的抽象信息,更加靈活和準確地獲取圖像特征,實現對視頻圖像內容的理解和識別,為在高級視覺領域實現感興趣區域編碼提供了一種可行的途徑.
為了解決傳統ROI區域編碼方法在目標對象識別上的不足,提高感興趣目標檢測的靈活性,本文提出了一種基于智能目標檢測的HEVC感興趣區域編碼方法,該方法主要應用于視頻監控領域,其感興趣目標對象的類型是由用戶根據視頻場景預先確定,總體流程如圖2所示.首先輸入一幀視頻圖像,利用卷積神經網絡檢測感興趣目標位置,生成感興趣目標區域;接著根據像素的紋理方向分析當前幀的紋理復雜度,根據當前編碼樹單元(CTU)的紋理復雜度計算其紋理感知權重值;然后在已有碼率控制算法和HEVC壓縮域下,非ROI區域根據紋理感知權重值對DCT系數進行壓制,減少該區域的碼率資源分配,ROI區域根據紋理感知權重值對QP參數值進行下調,增加ROI區域的碼率,從而提高ROI區域的圖像質量,實現智能視頻編碼.

圖2 本方法流程圖Fig.2 Flow chart of the proposed method
最近幾年,隨著深度學習技術的快速發展,大量基于深度卷積神經網絡的目標檢測算法被提了出來,使得目標檢測的效果取得了較大的突破.目前常用的基于區域的目標檢測方法,如Fast-RCNN、Faster-RCNN、R-FCN等雖然在檢測精度上取得了大幅提升[19],但檢測速度較慢且僅在大目標的檢測效果較好.而基于回歸的目標識別方法,如SSD、YOLO等方法[20],采用的是端到端的目標檢測與識別,在檢測精度和檢測速度上均獲得了很大的提升,可以滿足實時性的要求.

圖3 YOLO V3網絡結構Fig.3 Network structrue of YOLO V3
為了保證目標檢測的速度和識別的準確率,并考慮到YOLO網絡在檢測速度上要優于SSD網絡[21],因此本文方法采用YOLO 進行感興趣目標檢測.YOLO是一種基于回歸的目標識別方法,目前已經發展到了第三代網絡YOLO V3,該網絡不僅保持了YOLO V2的檢測速度,還在小目標的檢測和識別的準確率上得到了大幅提升[20],非常適合監控視頻中的目標識別.YOLO V3網絡結構如圖3所示,該網絡模型使用多個表現良好的3×3和1×1卷積層,借鑒殘差神經網絡的思想和Faster R-CNN中使用的anchor boxes思想[22],引入多個殘差網絡模塊,利用多尺度預測的方式改善了YOLO V2對小目標識別的不足.
在不同的監控視頻場景中,目標對象的重要程度有所不同,因此本文方法在檢測感興趣目標對象前,由用戶根據監控需求預先確定感興趣目標對象的類型.在視頻編碼過程中,將視頻數據輸入到YOLO神經網絡模型中檢測感興趣目標,若當前幀檢測到感興趣目標對象,則提取所有感興趣目標對象的位置坐標、置信度最大的目標對象類別及置信度值,為后續感興趣區域編碼提供參考;若檢測不到感興趣目標對象,則認為不存在ROI區域,即整幀圖像為非ROI區域.將卷積神經網絡應用于感興趣目標提取,不僅可以檢測運動的感興趣目標對象,還可以檢測靜止的感興趣目標對象,相比于傳統的感興趣目標檢測方法,采用卷積神經網絡可以提高感興趣目標檢測的靈活性.圖4為Kimono序列第62幀視頻圖像經過YOLO神經網絡對人形目標對象經過VOC數據集訓練之后的檢測結果,矩形方框為檢測框.Kimono序列是攝像頭全局移動拍攝的場景,從圖4中可以看出,即使在全局運動的場景中卷積神經網絡仍然可以準確檢測到人的位置.

圖4 Kimono序列第62幀目標檢測結果Fig.4 Target detection result of the 62th frame for Kimono sequence
由于HEVC編碼器是根據當前幀的視頻圖像內容自適應劃分編碼單元大小,一幀圖像可劃分多個64×64、32×32、16×16和8×8大小的編碼單元(CU),而卷積神經網絡檢測出的目標區域是像素級的,因此需要對檢測出的ROI區域邊緣進行擴展處理.根據最大CU塊的大小,對目標區域邊緣點坐標進行調整,即將檢測到的目標區域矩形框上下左右四條邊向外擴展到最近的64倍數像素邊界作為ROI區域,其它區域為非ROI區域.
在上節獲得ROI區域和非ROI區域之后,本文方法進一步對ROI區域和非ROI區域中的紋理復雜度進行分析.HVS在關注視頻場景時,一方面會對邊緣方向單一的結構化紋理區域進行優先關注,而對邊緣方向種類較多的復雜隨機紋理區域如花草、樹木等關注度較低;另一方面,由于HVS視覺掩蓋效應,隨機紋理區域的視覺信號失真難以被發現,而結構化的紋理區域視覺信號失真具有較低的掩蓋能力[23].因此,如何根據HVS對圖像紋理的視覺敏感度及掩蓋效應,實現紋理區域的類型劃分,對實現感興趣區域視頻編碼具有重要的意義.本節通過分析圖像像素的方向特性,將當前圖像劃分為平坦紋理區域、結構化紋理區域和復雜紋理區域,并生成紋理感知圖,為后續視頻圖像編碼提供參考.紋理感知圖的生成過程主要包括以下三個步驟:
像素級的邊緣檢測.使用四組方向不同的5×5高通濾波器分別計算每個像素點在0°、45°、90°和135°方向的邊緣強度,高通濾波器模板如圖5所示.若每個像素點在四個方向的邊緣強度都小于閾值t_s,則認為該點不包含邊緣點,否則把邊緣強度最大值所對應的方向作為該點的方向屬性.
CU級的紋理復雜度檢測.統計32×32 CU塊區域內的方向種類數及其邊緣點數,若某一方向上的邊緣點數大于給定的閾值e,則認為該區域存在這個方向的紋理信息,總的方向數用d表示.若總的邊緣點數大于給定閾值s,則說明邊緣復雜度較高,置邊緣復雜度參數c為1,否則將c設為0.

圖5 四個方向上的高通濾波器Fig.5 High-pass filters under four directions
CTU級的感知圖生成.將權重值設置為高、中、低三檔,對應的數值分別為2、1和0,首先根據32×32 CU塊中的紋理方向總數d計算該像素塊的紋理感知權重值T32,如式(1)所示.若d值為0,表示當前像素塊中無明顯方向,紋理比較平坦,HVS對該區域具有中等敏感度,感知權重值設為1;若d值為1,表示當前像素塊中只有一個方向,是比較明顯的結構化紋理,HVS對該區域具有較高的敏感度,感知權重值設置2;若d值為2,表示當前塊中有兩個顯著紋理方向,在高感知權重的基礎上使用邊緣復雜度參數c進行調整,c為1則感知權重降為1;若d值為3,表示當前塊中有三個明顯方向,方向數較多,因此在中感知權重的基礎上同樣使用邊緣復雜度參數c進行調整;若d值大于3,表示當前塊中包含的方向數較多,內部很有可能為隨機性紋理,HVS對該區域敏感度比較低,因此將感知權重設為最小值0.
(1)
T32的大小是以32×32像素塊為單位的,為了得到CTU級的64×64像素塊大小的紋理感知圖T64,需要對T32進行后處理操作.首先統計每個64×64像素塊中的四個32×32像素塊的紋理復雜度,參數z和t分別表示感知權重值為0和2的32×32像素塊個數,然后按式(2)得到T64.
(2)
圖6為Kimono序列第62幀原始視頻圖像經過紋理復雜度分析生成的紋理感知圖.從圖6中可以看出,以檢測框為分界線,非ROI區域和ROI區域中不同的灰度值代表不同的紋理感知權重,灰度值越亮的區域敏感度越高.圖6中大部分紋理復雜的區域(背景的松樹葉)都識別為較低的感知權重區域,而邊緣方向單一的區域(前景的人物)都被識別為較高的感知權重區域,檢測結果能夠較好地反映視頻圖像中各個區域的紋理感知效果.

圖6 Kimono序列第62幀紋理感知圖Fig.6 Texture perception map of the 62th frame for Kimono sequence
HEVC繼承了傳統視頻編碼中的預測殘差DCT變換方法,經DCT變換后,絕大部分能量都集中于矩陣左上角的低頻系數中,圖像中較多的細節信息會分散在高頻區域.考慮到HVS對高頻信號的失真敏感度較低,本文方法在HEVC變換域上,對人眼視覺敏感度較低的區域進行較高強度的頻率系數壓制,對人眼視覺敏感度較高的區域采用較低強度的頻率系數壓制或不進行壓制,整體壓制策略如式(3)所示:
(3)

(4)
在頻率系數壓制時,本文方法使用三種頻率系數壓制矩陣實現從高頻到低頻的過渡,可根據編碼塊的視覺重要程度選擇不同級別的Sn進行壓制.針對4×4、8×8、16×16和32×32變換塊設置了三種候選頻率系數壓制矩陣,候選頻率系數壓制矩陣組按式(5)計算得到.
(5)
式中i和j分別為矩陣元素的橫縱坐標,取值范圍都為[0,n-1],k為n×n大小的3種壓制矩陣的索引,取值為1、2和4,壓制強度依次增強,m為偏移量,本文取值為0;其中以8×8塊壓制矩陣為例,3種候選頻率系數的壓制矩陣組如圖7所示.

圖7 8×8候選壓制矩陣組Fig.7 8×8 Candidate suppression matrixs
現有編碼方法中的碼率控制技術主要是為了控制碼率大小而進行比特資源分配,沒有考慮到不同區域的視覺差異.為了優先保證ROI區域的圖像質量,本文根據ROI區域的紋理感知權重,對ROI區域QP值進行不同程度的下調,對于每個待編碼CTU,根據其紋理感知權重值T,計算其QP參數下調值DQP,如式(6)所示.若T64等于0,則表示當前CU為隨機紋理區域,DQP取值為2;若T64等于1,則表示當前CU為平坦區域,DQP取值為4;若T64等于2,則表示當前CU為結構化紋理區域,DQP取值為6.由于I幀只采用幀內預測,其平均編碼字節數是P幀的數倍,為了不進一步加重峰值碼率,本方法不對其QP進行下調.
(6)
由于HVS對非ROI區域的關注程度不高,本文方法對非ROI區域進行頻域系數壓制.對于非ROI區域每個CTU根據其紋理感知權重值選擇頻率系數壓制矩陣對其DCT頻率系數進行不同程度的壓制,對隨機紋理區域進行高強度壓制,對平坦區域進行中等強度壓制,對結構化紋理區域進行較低強度壓制,具體壓制方法如式(7)所示.若T為0,則選擇Sn(1)對隨機紋理區域進行較強壓制;若T為1,則選擇Sn(2)對平坦區域進行中等強度壓制;若T為2,則選擇Sn(4)對結構化紋理區域進行較弱強度壓制.由于I幀是后續P幀的參考基礎,如果I幀失真后面的P幀將會受到影響,為了保證整體視頻圖像的質量,本方法不對I幀的非ROI區域進行系數壓制.此外,為了進一步減少預測誤差擴散,本文方法只對奇數幀進行壓制,即進行隔幀壓制,減少非ROI區域壓制對ROI區域圖像質量影響.
(7)
本實驗采用YOLO V3神經網絡進行智能目標檢測,模型訓練和測試所使用的軟硬件平臺如下:OS:Ubuntu 16.04 LTS;CPU:Intel Core i7-8700K CPU@3.70GHz;GPU:NVIDIA GeForce GTX1080 Ti x 2;內存:32G.由于人是最為常見的監控目標,本文選擇的感興趣目標對象類型為人形目標,并選擇VOC2012數據集中的人形目標進行訓練.
本實驗HEVC編碼軟件為X265_1.8,開發環境為Visual Studio2012,測試平臺的處理器為Intel Core i5-2520,主頻2.5GHz.X265編碼器的配置如下:幀率30fps,IPP模式,I幀間隔為100,DCT系數壓制采用奇數幀壓制.實驗選取了四個全高清的HEVC參考視頻序列Kimono、BasketballDrive、Poznan_CarPark和Tennis驗證本文方法的有效性,每個序列選取前100幀進行統計分析.實驗中,本文方法中的閾值t_s設為3,閾值e設為100,閾值s設為400,使用VOC2012數據集訓練好的YOLO V3網絡模型對上述序列進行檢測并輸出檢測結果,用于提取后續的ROI區域.
在模型的訓練過程中,初始學習率設為0.01,衰減系數設置為0.00050,訓練集的目標置信度設為0.5.為了防止過擬合現象,訓練階段采用動量為0.9的異步隨機梯度下降,實驗訓練次數為100000次.為了測試最佳的權重文件,訓練時采用每1000次迭代保存一次權重文件.為了提高檢測精度,將訓練圖像的分辨率從默認的416×416提高到618×618,訓練集使用VOC2012-trainval數據集,測試集使用VOC2017-test數據集.將YOLO V3網絡在數據集上進行測試,測試集的目標置信度設為0.25,最終計算得出準確率為0.84,召回率為0.80.圖8為訓練凍結之后YOLO對測試集的檢測結果,從圖中可以看出YOLO V3網絡能夠對不同尺度的人形目標進行有效地檢測.

圖8 YOLO V3對測試集的檢測結果Fig.8 Detection result of YOLO V3 for the test set
本實驗使用兩種方法對所選的視頻序列進行編碼:第一種為X265參考編碼方法;第二種為本文提出的感興趣區域編碼方法.這兩種方法分別在固定QP和固定碼率條件下進行實驗對比,其中QP分別設置為24、27、30,目標碼率分別設置為2048 kbps、4096 kbps、6144 kbps.固定QP條件下的測試主要是衡量本文方法中頻域系數壓制部分在降低碼率方面的性能,固定碼率條件下的測試主要是衡量本文方法整體的處理效果.通過比較本文方法相對于參考方法對感興趣區域的PSNR增益,可以衡量本文方法的編碼效果.
表1為本文方法與參考方法在固定QP條件下的性能對比.從表中可以看出,相比于參考方法,本文方法的整幀PSNR平均降低0.32dB,ROI區域的PSNR平均僅降低了0.11dB,而實際輸出碼率平均減少了5.67%.因此,從降低碼率的角度來說,本文方法中的頻率系數壓制部分在保證ROI區域圖像質量降低較小的情況下,節省較多的比特資源.圖9為Tennis序列在QP為24的配置下第30幀兩種方法的重建圖像主觀質量對比.對于該序列,本文方法相對于參考方法的ROI區域PSNR平均僅降低了0.014dB,整幀PSNR平均降低了0.696dB,消耗的平均碼率減少了7.17%.從圖9中可以看出,經本文方法編碼后圖像的非ROI區域(背景區域)與參考方法編碼后圖像的主觀質量差異較小,對于ROI區域,也就是運動員所在的區域,本文方法和參考方法視覺感知質量基本一致.因此在固定QP條件下,雖然本文方法編碼的整幀圖像的PSNR相對于參考方法略有下降,但由于引起PSNR下降部分的區域主要為非ROI區域,從降低碼率角度而言本文方法在保證ROI區域信息失真較小的情況下,可以節省較多的比特資源.由于本文方法采用的是隔幀進行壓制,即使壓制幀出現明顯的視頻失真,后一幀在編碼時也會將出現的失真進行改善,并且兩幀之間的時間間隔較短,能夠對失真進行掩蓋.此外,本文方法主要是針對高頻分量進行壓制,對圖像的主觀質量影響較小,這符合人眼對視覺感知編碼的實際需求.

圖9 Tennis序列第30幀下的定QP主觀質量比較(QP=24)Fig.9 Comparison of subjective quality under QP24 for the 30th frame of Tennis sequence
表1 本文方法與參考方法在固定QP下的性能比較
Table 1 Performance comparison between the proposed method and the anchor method under fixed QPs

序列QP本文方法參考方法實際碼率(kbps)整幀圖像PSNR(dB)ROI區域PSNR(dB)實際碼率(kbps)整幀圖像PSNR(dB)ROI區域PSNR(dB)ΔPSNR_ROI(dB)ΔPSNR(dB)ΔBit(%)Kimono2427308540.135673.914015.7641.47940.64539.06541.7840.7739.1048954.685858.364059.1241.76140.85339.73441.77640.7739.5870.0040-0.483-0.282-0.208-0.669-4.63%-3.15%-1.07%BasketballDrive24273012591.196775.074189.3239.01638.05337.12438.71137.33736.24613567.057090.364321.6339.31638.25137.26638.71237.33836.243-0.01-0.010.003-0.3-0.198-0.142-7.19%-4.45%-3.06Poznan_CarPark2427303232.711802.31196.2939.96939.05438.10139.72838.23636.7583704.641974.561279.9540.19139.20538.20940.0938.47136.913-0.362-0.235-0.155-0.222-0.151-0.108-12.74%-8.72%-6.54%Tennis24273010902.547118.284846.8939.94638.99337.93340.8739.69538.43411744.497504.995058.440.64239.51338.3240.88439.71138.457-0.014-0.016-0.023-0.696-0.52-0.387-7.17%-5.15%-4.18%Average5907.0339.1138.976259.8539.4439.08-0.11-0.32-5.67%
表2 本文方法與參考方法在固定碼率下的性能比較
Table 2 Performance comparison between the proposed method and the anchor method under fixed bit rates

序列目標碼率(kbps)本文方法參考方法實際碼率(kbps)整幀圖像PSNR(dB)ROI區域PSNR(dB)實際碼率(kbps)整幀圖像PSNR(dB)ROI區域PSNR(dB)ΔPSNR_ROI(dB)ΔPSNR(dB)ΔBit(%)Kimono2048409661441981.243974.346001.1436.3338.79539.9537.11339.48240.6711895.73754.685632.1936.63239.26640.53336.4439.01340.3470.6730.4690.32-0.302-0.471-0.5834.51%5.85%6.55%BasketballDrive2048409661442173.324363.096460.2834.99236.88437.57934.26636.25537.0492097.194263.76413.2535.11937.14537.97433.77235.89836.8070.4940.3570.242-0.127-0.261-0.3953.63%2.33%0.73%Poznan_CarPark2048409661441751.893790.615811.2837.41239.31840.0137.54639.58540.2661719.113749.45778.1237.4839.40840.08636.98539.05839.6990.5610.5270.567-0.068-0.09-0.0761.91%1.10%0.57%Tennis2048409661442049.614129.746182.1734.66537.10838.27135.38138.1239.4591959.123947.175953.7834.74837.27538.62334.3337.05538.5091.0511.0650.95-0.083-0.167-0.3524.62%4.63%3.84%Average4055.737.6137.933930.2837.8637.330.61-0.253.36%
表2為本文方法和參考方法在固定碼率配置下的性能對比.從表2中可以看出四個視頻序列在設置的固定碼率下本文方法相對于參考方法的ROI區域平均PSNR增益達到0.61dB,整幀平均PSNR僅減少了0.25dB.其中Tennis序列的ROI區域編碼圖像質量改善最為顯著,這主要是因為該視頻序列的非ROI區域包含大量的復雜紋理區域,而參考方法在編碼這部分區域消耗了較多的比特資源,而本文方法根據ROI區域進行比特資源優化,獲得了較好的編碼效果.Kimono、BasketballDrive和Poznan_CarPark這三個序列的ROI區域PSNR的提升也較為明顯,這是因為這三個序列的非ROI區域的面積較大,并且背景視頻信號的噪聲也較強,可以節省較多的比特資源分配給ROI區域,進而提升ROI區域的圖像質量.圖10為本文方法與參考方法在Kimono序列第11幀的編碼重建圖像主觀質量對比,從圖10中可以看出,采用本文方法編碼后獲得的ROI區域主觀圖像質量要明顯好于參考方法:女士的衣服、頭發、眼角、下巴等部位更為清晰.從上述實驗數據可以看出,相對于參考方法,本文方法的ROI區域PSNR得到了提升,整幀PSNR相對于參考方法有所下降,但由于引起PSNR下降的區域是屬于視覺不重要的區域,對主觀視覺的影響較小.因此從整體效果來看采用本文方法有效地改善了視頻圖像的視覺感知效果.

圖10 Kimono序列第11幀下的定碼率主觀圖像質量比較(2048 kbps)Fig.10 Comparison of subjective quality under 2048 kbps for the 11th frame of Kimono sequence
本文利用深度學習視覺檢測技術,提出了一種基于智能目標檢測的HEVC感興趣區域編碼方法.首先通過卷積神經網絡檢測視頻圖像中感興趣目標,生成ROI區域;接著通過分析像素級的方向屬性生成紋理感知圖;最后利用紋理感知圖,對非ROI區域的DCT頻率系數進行多級壓制,對ROI區域的QP值進行不同程度地下調,在已有碼率控制框架的基礎上,保證了ROI區域的圖像質量,減少非ROI區域的碼率資源消耗,從而實現智能視頻編碼.與傳統的ROI編碼方法相比,本文方法對感興趣目標檢測方面具有更好的靈活性,彌補了傳統方法在ROI區域提取過程使用初級視覺特征的局限性,編碼后的重建圖像更加符合HVS的高級視覺感知要求.當然本文方法還存在一些問題,尤其是場景中存在較多的感興趣目標對象時,處理效果還需要提升,我們將在后續的工作中進一步研究和完善.