劉 立,豐洪才,黃 清
(1.武漢輕工大學,a.數(shù)學與計算機學院;b.網(wǎng)絡(luò)與信息中心,武漢 430023;2.武漢市東西湖職業(yè)技術(shù)學校信息技術(shù)系,武漢 430023)
水果種植是現(xiàn)代農(nóng)業(yè)生產(chǎn)的重要組成部分。在鄉(xiāng)村振興背景下,新媒體開啟了新時代的農(nóng)村發(fā)展之路[1],新媒體使得視頻傳播農(nóng)作物種植技術(shù)以及病蟲害防治技術(shù)成為可能。如何高效地從海量的涉農(nóng)視頻中找出感興趣的視頻鏡頭,是一個亟待解決的問題。
鏡頭是視頻的基本組成單位,也是視頻的最小語義單元,包含了一次連續(xù)拍攝的幀序列。視頻鏡頭分割的主要目標是檢測出鏡頭的邊緣,將一段視頻分割成若干個獨立的鏡頭。視頻鏡頭的邊界檢測是基于內(nèi)容的視頻檢索(Content-based video retrieval,CBVR)的基礎(chǔ)技術(shù)和關(guān)鍵步驟。因此,視頻鏡頭邊界檢測的研究與應(yīng)用一直受到人們的關(guān)注,也是視頻領(lǐng)域的研究熱點之一。視頻中鏡頭的變化主要有突變和漸變兩種,突變(切變)是視頻中鏡頭最常見的轉(zhuǎn)換方式,是指一個鏡頭不采用任何編輯效果直接切換到下一個鏡頭的切換方式,該過程一般在兩幀之間完成。漸變(緩變)是鏡頭之間通過某種過渡方式,從一個鏡頭逐漸切換到另一個鏡頭的轉(zhuǎn)換方式,該變化過程可能在幾幀或幾十幀之間完成。
視頻鏡頭邊界檢測通常根據(jù)視頻相鄰幀的物理特征差異來實現(xiàn),因此需要檢測、提取視頻幀的物理特征并對他們進行比較。在實際應(yīng)用中,視頻幀的物理特征檢測和提取通常可以分為壓縮視頻域和非壓縮視頻域兩大類方法。非壓縮域方法是基于視覺特征的算法,如基于直方圖法[2]、像素法[3]、邊緣形狀[4]、運動[5]以及正交多項式[6]的方法。而基于壓縮編碼算法主要包括離散余弦變換(Discrete cosine transform,DCT)[7]、宏塊編碼[8]、HEVC(High efficiency video coding)編碼[9]。此外,還有一些融合了壓縮域和非壓縮域的多種特征[10,11]的算法。鏡頭邊界檢測的方法主要有基于模型的方法[12]、基于距離相似度的方法[13]、基于機器學習的方法[14]、基于深度學習方法[15]等,這些鏡頭邊界檢測方法都有各自不同的研究角度,并面向特定場景應(yīng)用領(lǐng)域,但面向涉農(nóng)領(lǐng)域內(nèi)的視頻鏡頭分割算法研究甚少。本研究根據(jù)農(nóng)業(yè)知識視頻的特點,以水果病蟲害知識視頻為例,提出了一種農(nóng)業(yè)知識視頻鏡頭分割方法。
農(nóng)業(yè)知識視頻無論是從選題、拍攝內(nèi)容、拍攝環(huán)境以及角度都是由人們精心策劃的,生動形象真實、貼近農(nóng)業(yè)生產(chǎn)活動,且具有傳播速度快、覆蓋面廣等特點。對于水果病蟲害知識視頻來說,具有以下特點:
1)視頻拍攝對象主要為受到病蟲侵害的水果作物。水果作物發(fā)生病蟲害,最早可以追溯到果樹病蟲害,具有一定突發(fā)性,雖然增加了識別病蟲害的難度,但是果樹在發(fā)病初期,一般會出現(xiàn)早期癥狀,如患輪斑病的蘋果,初期果葉呈現(xiàn)褐黑色小斑點,后期病斑中間部位呈褐白色,最終造成果葉穿孔侵害果實,果葉的顏色特征和紋理特征可以作為水果是否發(fā)生病蟲害的重要標識,為通過農(nóng)業(yè)知識視頻識別水果是否發(fā)生病蟲害提供了依據(jù)。
2)水果病蟲害知識視頻鏡頭變化以突變?yōu)橹鳎泊嬖谝曨l鏡頭漸變的現(xiàn)象,在視頻鏡頭邊界檢測方案中,兩種變化都需要考慮。
3)水果病蟲害知識視頻幀具有高度的重復(fù)性和時間冗余性。為檢測水果病蟲害知識視頻是否發(fā)生病蟲害,若直接對視頻中連續(xù)幀比較其差異性,需要花費大量重復(fù)的計算時間。
本研究以水果病蟲害知識視頻為例,使用了雙重檢驗的方法(圖1)進行視頻鏡頭檢測。該方法的初檢階段采用改進分塊的方法提取顏色特征,并結(jié)合自適應(yīng)跳略方法篩選出視頻鏡頭邊界候選幀,進而由其構(gòu)成新的視頻幀序列;復(fù)檢過程使用HSV(Hue,Saturation,Value)顏色空間特征和局部二值模式LBP(Local binary pattern)紋理特征融合的方法計算幀間差,然后將幀間差值與采用自適應(yīng)方法確定的閾值進行比較,檢測出視頻鏡頭中的突變鏡頭和漸變鏡頭。

圖1 視頻鏡頭檢測框架
1.1.1 顏色空間 顏色特征作為一種全局特征,描述了水果視頻幀對應(yīng)的景物表面性質(zhì)[16]。如成熟的蘋果多為紅色且色澤光亮,而患褐腐病的蘋果果面呈灰褐色。因此,顏色可以作為識別水果成熟度以及發(fā)生病蟲害的依據(jù)之一。顏色特征的描述通常是建立在顏色空間的基礎(chǔ)上,常用的顏色空間有RGB(Red,Green,Blue)、HSV(Hue,Saturation,Value)、LAB(Hue,Saturation,Intensity)等。
水果病蟲害知識視頻以色度影響為主,基于HSV顏色空間符合人眼視覺感知[17],HSV顏色空間包含:色調(diào)(Hue)、飽和度(Saturation)和亮度(Value)3個通道,且各通道可以獨立感知各顏色分量的變化。但在現(xiàn)實生活中,人們?nèi)庋鬯芸吹降念伾蒖GB3種基本顏色構(gòu)成,因此需要將RGB顏色空間轉(zhuǎn)換到HSV顏色空間,如式(1)、式(2)、式(3)所示:

由于一幅視頻幀的顏色非常多,顏色直方圖的維度也較高。為減少計算量,本研究采用式(4)的非等間隔量化技術(shù),將色調(diào)H分為8份,飽和度S和亮度V各分為3份,對HSV顏色空間非均勻量化。

將非均勻量化后HSV顏色空間的3個顏色分量合成一個72維的顏色特征向量P,如式(5)所示:

1.1.2 非均勻分塊 根據(jù)心理學認知規(guī)律,人們在對物體進行觀察時,人眼對圖像各區(qū)域的識別是非均勻的。當視網(wǎng)膜在采樣信息時,其中心區(qū)域的分辨率較高,而除此之外的區(qū)域分辨率較低。本研究采用優(yōu)化分塊方法(圖2),視頻幀被不均勻地劃分為3×3大小的子塊,且塊的水平和垂直尺寸分割比均為1∶3∶1,非均勻分塊加權(quán)直方圖方法可以有效地抑制視頻四周插入字幕對視頻鏡頭檢測產(chǎn)生的影響,考慮到本研究對象是與水果相關(guān)的視頻,且水果主要呈現(xiàn)在視頻鏡頭中央,包含了一幅幀圖像的主要信息。因此,本研究將視頻幀中心區(qū)域的權(quán)重設(shè)置為6,視頻幀4個角對于整個視頻鏡頭邊界檢測影響不大,因此將視頻幀4個角點的權(quán)重設(shè)置為0,四周的權(quán)重設(shè)置為1。

圖2 視頻幀直方圖分塊優(yōu)化
本研究使用絕對距離來度量不同幀對應(yīng)子塊的直方圖差異,分別用Hi,k(P)、Hj,k(P)表示第i幀和第j幀在子塊k上的顏色直方圖,其中,P表示亮度區(qū)間,P∈[0,71],因此兩個子塊的直方圖距離可以表示:

分別用w1,w2,w3,…,w9表示每幀圖像的9個子塊,設(shè)加權(quán)矩陣為W,可以用式(7)來表示:

則從式(6)和式(7)可以計算出第i幀與第j幀的分塊加權(quán)直方圖差值為:

視頻鏡頭檢測算法通常采用逐幀計算幀間差并研究其變化值(圖3),該方法最大的缺點是算法的時間復(fù)雜度和空間復(fù)雜度較高,尤其在視頻鏡頭邊界幀數(shù)遠小于視頻總幀數(shù)的情況下,算法效率極低。為提高鏡頭檢測算法的總體效率,本研究算法在鏡頭邊界檢測初始階段,就將視頻幀進行初次檢驗的處理,除去冗余的視頻幀,篩選出包含鏡頭邊界的視頻幀序列。采用Hua等[18]提出的自適應(yīng)跳略算法對鏡頭進行初次檢驗,利用同一個視頻鏡頭內(nèi)幀間特征具有連續(xù)性和相似性及不同鏡頭特征明顯不相似的特點,忽視不必要的比較計算,減少算法執(zhí)行時間。第一種方法采用固定間隔d幀進行比較計算,該方法雖然簡單易行,但是每個視頻最優(yōu)值d可能不同,固定間隔的幀數(shù)難以適用于所有的視頻;第二種方法是采用動態(tài)確定d值的自適應(yīng)跳略方法,在自適應(yīng)跳略規(guī)則中,每次迭代計算時,算法通過比較當前d值和上一次d值來確定下一次的d值。如果當前d值與上一次d值相似,則增大d值;如果不相似,則減少d值。此外,如果某輪比較中兩幀的幀間差值較大變化時,說明兩幀圖像越不相似,則表明兩幀處于兩個不同鏡頭中,就使用逆向自適應(yīng)跳略方法查找計算視頻鏡頭邊界。一旦確定了鏡頭邊界,可以再次使用相同的方法繼續(xù)向前查找。

圖3 鏡頭邊界檢測方法
對長為N幀的視頻V進行檢測,預(yù)選出所有可能發(fā)生鏡頭變換的視頻幀位置的集合,記為視頻序列V。采用自適應(yīng)跳略方法進行鏡頭檢測的時間復(fù)雜度為O(N/d),其中N為待檢測視頻的長度,d為動態(tài)變化間隔幀數(shù),而傳統(tǒng)的逐幀比較算法的復(fù)雜度為O(N)。自適應(yīng)跳略方法降低了初次檢驗的運算量,有利于提高視頻鏡頭檢測的效率。
除了顏色可以作為水果表征外,紋理也是水果的重要特征之一。紋理是指視頻幀像素灰度呈空間分布特性,其中包含大量信息。紋理反映水果果面是否有傷痕以及缺陷的程度。患炭疽病的蘋果,發(fā)病初期果面上出現(xiàn)淡褐色小斑點,后逐漸擴大成深淺相間的同心輪紋狀排列。常用的紋理特征提取方法有基于局部二值模式(LBP,Local binary patterns)、基于灰度共生矩陣(GLCM,Gray-level co-occurrence matrix)、基于小波變化方法等。
LBP局部二值模式是一種用來描述圖像局部紋理特征的算子,具有灰度不變性和旋轉(zhuǎn)不變性等優(yōu)點[19],該算法因其簡單高效,被廣泛使用。原始的LBP算子被定義在3×3的窗口內(nèi),將中心像素點的灰度值作為該鄰域的閾值,再對鄰域內(nèi)各像素點的值進行二值化操作處理。即將周圍鄰域內(nèi)各像素點灰度值與閾值進行比較,如果鄰域內(nèi)某像素點值大于等于中心像素點的值,則該像素點的位置被標記為1,否則標記為0。得到的二進制的值,按順時針方向,再對不同位置像素點的值與對應(yīng)像素的權(quán)重先相乘再相加的結(jié)果為該區(qū)域中心像素點的LBP值,并用該LBP值來代表該3×3區(qū)域的紋理信息(圖4)。

圖4 原始LBP值的定義
原始的LBP算子僅對比了范圍內(nèi)中心點與鄰域內(nèi)其他點的灰度變化,在該計算過程中沒有考慮到中心像素點的灰度值,造成一定的信息丟失,且無法表示更廣區(qū)域。為了使LBP特征不再局限于3×3的鄰接區(qū)域,對原始LBP進行了擴展,假設(shè)一個半徑為R(R>0)的圓形鄰域內(nèi)有P(P>0)個像素點,以圓心為中心點,在半徑為R的圓上等間隔地采樣P個點,用P個點的灰度值與中心點的灰度值進行二值化比較(圖5)。

圖5 不同取值的P、R對應(yīng)的圓形鄰域
其公式可以表示為:

式中,P代表半徑為R的圓形鄰域內(nèi)像素點的個數(shù),中心像素點的灰度值用bc表示,bi為以bc為中心點且半徑為R的圓上第i個像素點的灰度值。s(x)用來判斷bi-bc的值,如果bi-bc值大于0,則s(x)為1,否則s(x)為0。
與國際先進水平相比,我國的碳會計披露理論尚處于初步發(fā)展階段,知識技術(shù)大多停留在概念外延及書面上,缺乏對實際工作的指導性和應(yīng)用性。理論研究成果無法實際應(yīng)用到現(xiàn)實案例中,也是碳會計信息披露面臨的巨大挑戰(zhàn)。
隨著半徑的增大,各像素的相關(guān)性逐步減小,即在較小的鄰域中獲得大部分的紋理信息。對應(yīng)的LBP(P,R)會產(chǎn)生2p種模式,以R=1,P=8為例,此鄰域內(nèi)會產(chǎn)生28=256種二進制模式。隨著采樣點的增加,模式種類也會隨之增加。在特征提取的過程中形成冗余,也會消耗大量的計算時間。
為了解決這一問題,優(yōu)化等價模式(Uniform pattern)來對擴展的LBP算子進行降維處理,當某種LBP模式對應(yīng)的循環(huán)二進制數(shù)在0到1或1到0之間,且最多進行兩次跳變,那么該LBP模式所對應(yīng)的二進制稱為一個等價LBP模式。如:000 111 11(1位跳變)、110 011 11(2位跳變)它們屬于統(tǒng)一模式,而010 100 10(6位跳變)不是統(tǒng)一LBP模式,這種模式被歸為混合模式類。用式(11)可以表示為:

式中,u表示循環(huán)二進制數(shù)在0到1之間跳變的次數(shù)。
在不丟失任何信息的情況下,二進制模式的數(shù)量大大減少,從2p種減少到p×(p-1)+2種,其中p表示鄰域集內(nèi)的采樣點數(shù),假設(shè)半徑R為1,采樣點為8,由此計算得出LBP直方圖維度數(shù)目為58。58個Uniform Pattern為一類,其他所有值為第59類,等價LBP模式不僅減少了紋理特征向量的維度數(shù)量,還減少了高頻噪聲帶來的影響。
針對視頻幀序列N’,構(gòu)建HSV特征空間和LBP特征空間,并根據(jù)HSV顏色特征提取法和LBP紋理特征提取法,針對單幀圖像按圖2優(yōu)化分塊,分別提取其HSV特征向量P和LBP特征向量Q。
1.4.1 特征向量的歸一化 由于提取的兩種特征向量表示范圍可能不同,需要對各特征向量進行歸一化操作[20],如式(12)所示:

式中,ui為初始特征向量,Ui為歸一化的特征向量,n為特征向量個數(shù),m為初始特征向量的均值,σ為初始特征向量的標準差,σ2為方差。
1.4.2 特征融合 為突顯視頻幀的主要信息,將歸一化后的兩種特征向量,以一定的比例融合,得到該塊特征直方圖,如式(13)所示:


圖6 多特征融合直方圖
采用X2直方圖匹配法計算相鄰兩幀中對應(yīng)塊相似度,如式(14)所示:

式中,h(a,b,i)表示第i幀圖像中第a行第b列的特征直方圖,L表示視頻幀的灰度級。
根據(jù)各分塊權(quán)重系數(shù)wn,加權(quán)計算各塊的特征向量,使其構(gòu)成一個復(fù)合向量作為整個視頻幀的特征,并用式(15)計算相鄰兩幀圖像之間的相似度(即相鄰兩幀直方圖距離),并形成視頻相鄰幀間差集合為S={S1,S2,S3,…,Sn}(用Si表示第i幀與第i+1幀的幀間差)。

以MP4格式視頻為例,輸入一段視頻序列V,設(shè)該序列中包含有N個視頻幀。首先,用式(1)、式(2)、式(3)將視頻序列從RGB顏色空間轉(zhuǎn)換為HSV顏色空間,然后利用式(4)對HSV顏色特征分量進行非均勻量化,再將量化后的HSV顏色空間的3個分量,用式(5)構(gòu)成一個72維的顏色特征向量P。
采用優(yōu)化分塊的方法分塊加權(quán),用式(6)分別計算不同視頻幀在子塊k上的顏色直方圖距離dijk,結(jié)合式(7)中wn值代入到式(8)中得出,整個視頻序列中第i幀與第j幀的幀間差Dij。根據(jù)同一個鏡頭內(nèi)幀間差具有相似性的原則,采用自適應(yīng)跳略方法,忽略鏡頭內(nèi)幀間一些不必要相似性的計算,進而獲得新的視頻幀序列V’,包含了視頻幀數(shù)為N’。
對于新視頻幀序列V’中的每一幀圖像,結(jié)合式(4)、式(5)中的HSV顏色特征提取法及式(9)、式(10)、式(11)中提取LBP特征紋理法,針對單幀圖像采用優(yōu)化分塊,分別提取其HSV特征向量P和LBP特征向量Q。由于以上兩種特征向量的取值范圍有可能不同,因此需按式(12)分別對各特征向量進行歸一化處理。將歸一化處理后的顏色特征向量P和紋理特征向量Q以6∶4的比例融合,按式(13)得到子塊的特征直方圖。結(jié)合式(7)和式(14)加權(quán)計算各塊的特征向量,使其構(gòu)成一個復(fù)合特征向量,再利用式(15)計算出新視頻序列N’中相鄰幀幀間差集合S。
采用雙閾值法能同時檢測視頻鏡頭中的突變鏡頭和漸變鏡頭,并結(jié)合活動窗口調(diào)節(jié)自適應(yīng)的局部閾值,具體復(fù)檢過程如下:
假設(shè):高閾值系數(shù)為λH,低閾值系數(shù)為λL,初始窗口為W,二次檢測窗口為w,相鄰幀幀間差為Si,平均幀間差savg=,幀間差函數(shù)為Dif(i,j)。則低閾值為TL=λLsavg,高閾值為TH=λHsavg,令突變集合為cut,漸變開始幀的集合為grab,漸變終止幀的集合為grae,作如下判斷比較:
Step 1:如果Si≥TH,則在第i+1幀處有可能發(fā)生鏡頭的突變,但也有可能是閃光燈引起的誤判,所以還需進一步判斷;通過對大量視頻鏡頭檢測試驗,表明閃光幀長一般維持在4~10幀間[21]。針對這一特點,從第i+2幀開始,取一個長度為w的小窗口,再判斷此窗口內(nèi)平均幀間差值是否大于高閾值,如果s'avg≥TH,則第i+1幀為突變幀,并將其寫入到集合cut中,否則說明沒有發(fā)生鏡頭突變,該步驟完成突變鏡頭和閃光的判斷(圖7)。

圖7 鏡頭突變檢測
Step 2:如果TL 圖8 鏡頭漸變檢測 Step4:結(jié)束運算,輸出集合cut、grab、grae的值,從而得出突變幀和漸變序列。 試驗視頻素材均來源于《農(nóng)廣天地》節(jié)目,從欄目中選取5段不同水果病蟲害知識視頻作為試驗素材。每期節(jié)目大約25 min,幀速率為25幀/s,視頻的格式為MP4(圖9至圖11)。 圖9 視頻素材展示 圖11 芒果病蟲害防治視頻中鏡頭漸變 美國國家標準與技術(shù)研究院(National institute of standards and technology,NIST)為鏡頭邊界檢測給出了一種標準的估計方案,主要以鏡頭變換的查全率(Recall)和查準率(Precision)2個評價指標來檢驗視頻鏡頭邊界的結(jié)果,定義如下: 用MATLAB2020a仿真軟件對5段視頻進行鏡頭邊界檢測的仿真試驗,試驗前對每段視頻的鏡頭進行人工標注,與試驗分割效果進行對比,試驗結(jié)果如表1所示。 圖10 芒果病蟲害防治視頻中部分鏡頭 從表1可以看出,5段水果病蟲害知識視頻鏡頭分割查全率分別高達95.5%、93.4%、93.1%、93.0%、92.7%,查準率分別達到93.9%、92.5%、94.7%、92.3%、93.4%。查全率平均大于93.5%,查準率平均大于93.4%,較好地兼顧了視頻鏡頭分割的實時性和準確性。 表1 不同水果病蟲害視頻片段的仿真試驗結(jié)果 借助視頻分割技術(shù),著力拓寬農(nóng)業(yè)科教知識的傳播渠道,針對水果病蟲害知識視頻特點,運用雙重檢驗的視頻鏡頭分割方法。將視頻序列中幀間差的變化值作為自適應(yīng)跳略方法中跳幀值的依據(jù),提高了算法的整體檢測效率。復(fù)檢階段采用顏色特征和紋理特征的融合,突出顯示視頻幀的主要內(nèi)容,同時采用了自適應(yīng)雙閾值選取方式,避免了人工設(shè)定閾值存在的誤差。該方法分割速度較快,效果較為理想(查準率高于93.4%),提高了水果病蟲害知識視頻鏡頭檢索效率,使得廣大農(nóng)友掌握病蟲害防治技術(shù),進而提高水果作物的產(chǎn)量和質(zhì)量。視頻鏡頭分割技術(shù)也可推廣到其他農(nóng)作物的視頻處理上,進一步加大視頻分割技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用,從而推動農(nóng)業(yè)信息化。
3 結(jié)果與分析
3.1 試驗素材


3.2 結(jié)果分析




4 結(jié)論