李 健,馬延周,胡瑞娟
(戰(zhàn)略支援部隊信息工程大學(xué),河南 洛陽471003)
深度學(xué)習(xí)是人工智能領(lǐng)域中的重要研究方向之一,深度學(xué)習(xí)的快速發(fā)展得到了學(xué)術(shù)領(lǐng)域與工業(yè)領(lǐng)域的重點關(guān)注[1-3]。因為深度學(xué)習(xí)具備卓越的特征選擇與提取能力,在機器翻譯、目標(biāo)識別等很多領(lǐng)域中存在著不可忽視的應(yīng)用效果。且在自然語言處理(Natural Language Processing,NLP)、計算機視覺(Computer Vision,CV)、語音識別(SpeechRecognition,SR)領(lǐng)域均存在較好的應(yīng)用效果。自然語言處理屬于人工智能領(lǐng)域中的常見問題,怎樣使用深度學(xué)習(xí)技術(shù)處理自然語言問題,是目前人工智能領(lǐng)域的棘手問題。
而目前常用的自然語言處理方法,如自然語言生成多表SQL查詢語句技術(shù)、復(fù)雜產(chǎn)品協(xié)同設(shè)計流程的多視圖自然語言文本生成方法等對語義特征提取得不夠充分,且生成時間較長,不具備較好的自然語言描述生成效果與效率[4,5],因此,本文以視頻圖像為研究對象,提出基于深度學(xué)習(xí)的輕量級自然語言描述生成算法,旨在提升視頻圖像自然語言描述生成效果及其應(yīng)用價值。
語義特征對視頻圖像的輕量級自然語言描述存在著十分關(guān)鍵的影響,視頻圖像里的語義特征主要用于描述視頻圖像中非動態(tài)目標(biāo)和場景,幀流里的語義特征能夠描述時間動態(tài)[6,7]。因此,需要依次提取視頻圖像中的語義特征與幀流里的語義特征,以此實現(xiàn)視頻特征的充分提取。
2.1.1 圖像語義特征
為了得到視頻圖像中的圖像語義特征,通過多示例學(xué)習(xí)的形式構(gòu)建語義特征檢測模型。將視頻圖像中一個語義特征設(shè)成ga,若ga處于視頻圖像L的標(biāo)注文本描述里,則視頻圖像L屬于一個正包(正類多示例包);反之,視頻圖像L屬于一個負(fù)包(負(fù)類多示例包)。先把各個包輸入到視頻圖像語義特征檢測模型里,之后運算圖像語義特征?a的包CL存在的概率:

(1)

2.1.2 幀流語義特征
當(dāng)下常用的視頻幀流語義特征提取方法分為:
1)直接分解幀流,將視頻圖像各幀設(shè)成訓(xùn)練樣本,導(dǎo)入視頻圖像語義特征檢測模型。考慮到幀流是通過一系列變動較大的視頻幀組建而成,所以在此類簡單的視頻幀流里,采樣幀生成視頻級的自然語言描述會存在語義變換,語義特征學(xué)習(xí)時存在顯著的噪聲;
2)基于圖像語義特征檢測模型,設(shè)定一個幀流語義特征檢測模型,以此學(xué)習(xí)視頻幀流里的語義特征,但此類方法對視頻圖像和幀流語義特征的提取效果較差[9,10]。
針對傳統(tǒng)視頻幀流語義特征提取方法存在的不足,使用遷移學(xué)習(xí)里的深度域適應(yīng)方法,把模型遷移至視頻幀流數(shù)據(jù)集中,建立新的語義特征檢測模型,獲取視頻圖像的幀流語義特征,完成視頻圖像兩個域的語義特征深度提取。
在此模型里,源域即為視頻圖像樣本組建的域,目標(biāo)域是幀流樣本組建的域。此模型的實現(xiàn)目標(biāo)是:在目標(biāo)域中,輸入的視頻幀流是a,可獲取幀流語義特征是q,另外在訓(xùn)練時,針對各個輸入的視頻幀流a而言,除了必須預(yù)測的幀流語義特征之外,還必須預(yù)測幀流語義特征標(biāo)簽c。如果幀流語義特征標(biāo)簽c的值是0,那么輸入的視頻幀流a屬于源域。如果幀流語義特征標(biāo)簽c的值是1,那么視頻幀流a屬于目標(biāo)域。新的語義特征檢測模型能夠分解成3部分,詳細(xì)做法是:
1)通過映射Fg把輸入的視頻幀流a映射成一個y維特征向量gb,βg是其映射參數(shù)向量;
2)通過映射Fq把特征向量映射成語義特征gq,βq是映射參數(shù)向量;
3)通過映射Fc把特征向量gb映射成域標(biāo)簽c,βc是映射參數(shù)向量。
新的語義特征檢測模型在訓(xùn)練時,模型的首要目標(biāo)是基于源域中的最小化特征預(yù)測損耗,保證語義特征檢測模型在源域中不出現(xiàn)應(yīng)用質(zhì)變。之后保持幀流語義特征gq不出現(xiàn)變動,保證源域中通過映射Fg所獲取的特征和目標(biāo)域所提取特征存在近似度,以此讓目標(biāo)域中的語義特征預(yù)測精度和源域一致。
處理上述問題的核心是判斷視頻圖像兩域特征的近似度,使用深度域適應(yīng)方法通過分類器的損失計算近似度,進而將域分類器的損耗降低為最小值[11]。此處使用了對抗式網(wǎng)絡(luò)模式,需要使用合理的參數(shù)βq,要想讓語義特征預(yù)測器的損失為最小值,則必須將符合要求的3個參數(shù)建立為一個鞍點O(βg,βq,βc)

(2)

2.2.1 特征融合
特征融合的步驟是:
1)特征拼接
將2.1小節(jié)所獲取的視頻圖像特征向量設(shè)成ga+gb=Gi,i代表第i種特征。將特征組合拼接為Gfusion,則基于多特征融合的輕量級自然語言描述生成模型的特征輸入是
Gfusion=(g1,g2,…,gn)
(3)
2)加權(quán)求和
對所獲取的視頻圖像特征實施長度對齊,設(shè)定權(quán)值向量是?=(?1,?2,…,?n),將特征實施加權(quán)求和,融合后特征設(shè)成多特征融合的輕量級自然語言描述生成模型的輸入
Gfusion=(?1g1+?2g2+…+?ngn)
(4)
其中,Gfusion表示融合后的視頻圖像特征。
2.2.2 視頻自然語言描述模型
視頻自然語言描述模型是使用兩層長短期記憶模型構(gòu)建的,兩層長短期記憶模型的功能分別是編碼與解碼。編碼是把輸入的視頻特征變換成向量,解碼是把視頻特征向量變成單詞序列。長短期記憶模型可以處理長度存在差異的視頻,可以生成差異化長度的自然語言描述,可以通過學(xué)習(xí)獲取視頻前后幀在時間中的依賴關(guān)聯(lián)性。
視頻自然語言描述模型生成輕量級自然語言描述的步驟是:
1)長短期記憶模型訓(xùn)練時,長短期記憶網(wǎng)絡(luò)底層輸入的特征由2.1小節(jié)提取的特征、融合后的視頻特征向量Gfusion、自然語言描述視頻的句子變成和特征向量長度一致的向量所構(gòu)成。把視頻圖像語義特征向量和視頻圖像的幀流語義特征向量實施鏈接,以此獲取視頻特征融合后需要生成輕量級自然語言描述的嵌入特征[12]。
2)將步驟(1)中獲取的嵌入特征導(dǎo)入長短期記憶模型進行網(wǎng)絡(luò)訓(xùn)練。
3)長短期記憶模型首層對視頻實施編碼,第二層主要用來解碼,將長短期記憶模型的接收隱含層設(shè)成kt,并將其解碼成單詞序列,在解碼階段,長短期記憶模型使用最大化對數(shù)似然函數(shù)計算kt和前一個單詞μ,以此預(yù)測后續(xù)單詞生成概率。假定輸出單詞序列是V=(v1,v2,…,vn),則長短期記憶模型是

(5)
其中,μ′表示輸出單詞。
在長短期記憶模型中,一個長短期記憶單元存在一個記憶細(xì)胞?,此記憶細(xì)胞的輸出值受目前時間t、輸入特征、輸出單詞μ′和前一個記憶細(xì)胞?t-1四種因素所影響。一個長短期記憶單元由輸入門、輸入調(diào)制門、忘記門、輸出門構(gòu)成。忘記門準(zhǔn)許長短期記憶單元忽略前一個記憶細(xì)胞,輸出門可控制多個記憶傳輸至隱含層。
4)測試時期
使用訓(xùn)練完畢的長短期記憶模型生成輕量級自然語言描述時,使用加權(quán)求和方法,設(shè)置權(quán)值向量,并實施微調(diào)。分別固定一個權(quán)值后,把1-?i分配至m個自然語言單詞序列生成過程中,最小權(quán)值是0.01。在符合式(6)的條件下,分別運算各組權(quán)值下所生成自然語言描述的評估分?jǐn)?shù),獲取最優(yōu)權(quán)值向量?i。則

(6)
5)使用訓(xùn)練完畢的長短期記憶模型在最優(yōu)權(quán)值向量?i的條件下,生成視頻圖像的輕量級自然語言描述,由此完成基于深度學(xué)習(xí)的輕量級自然語言描述生成算法設(shè)計。
為測試所提基于深度學(xué)習(xí)的輕量級自然語言描述生成算法在輕量級自然語言描述生成問題中的應(yīng)用效果,使用視頻描述數(shù)據(jù)集MSVD對所提算法進行應(yīng)用性能測試。在該數(shù)據(jù)集中選取部分運動類視頻圖像和美食類視頻圖像作為研究對象,先對所提算法所生成的輕量級自然語言描述效果進行分析。其中,運動類視頻圖像的分辨率是0.5m/pixel,美食類視頻圖像的分辨率是0.8 m/pixel。
使用表1的評估標(biāo)準(zhǔn)評價所提算法對視頻圖像的輕量級自然語言描述生成效果,評估標(biāo)準(zhǔn)詳情如表1所示。

表1 評估標(biāo)準(zhǔn)
因文章格式的限制,以視頻圖像截圖的形式顯示運動類視頻圖像、美食類視頻圖像。詳情如圖1所示。

圖1 視頻圖像樣例
使用所提算法對圖1所示的視頻圖像生成輕量級自然語言描述,結(jié)果如表2所示。

表2 所提算法自然語言生成效果
根據(jù)表2顯示,所提算法對不同種類視頻圖像的輕量級自然語言描述生成結(jié)果評估等級均為A,評估級別較高,說明運用所提算法對視頻圖像進行自然語言描述生成時,生成描述結(jié)果基本上不存在錯誤,生成結(jié)果可靠性較高。
測試所提算法在生成輕量級自然語言描述之前,對不同類型視頻圖像的特征融合效果,融合效果主要通過METEOR指標(biāo)測試進行評價。METEOR指標(biāo)所體現(xiàn)的是所提算法在進行視頻圖像特征融合時,對視頻圖像特征的掌握程度,METEOR指標(biāo)越高,表示所提算法對視頻圖像特征融合效果越好,說明對視頻圖像特征存在充分的理解與融合處理。特征融合效果結(jié)果如表3所示。

表3 所提算法的特征融合效果
根據(jù)表3可知,所提算法在融合不同類型視頻圖像特征后,伴隨視頻圖像數(shù)量的增多,METEOR指標(biāo)的分值始終大于0.95,分值較高,表示所提算法的特征融合效果較好,能夠?qū)崿F(xiàn)對特征的充分理解與融合處理。
測試所提算法在提取視頻圖像語義特征、幀流語義特征時的提取效果,提取效果主要以查全率為測試指標(biāo),測試結(jié)果如圖2、圖3所示。

圖2 圖像語義特征

圖3 幀流語義特征
根據(jù)圖2、圖3顯示,所提算法在提取視頻圖像語義特征、幀流語義特征時,對視頻圖像特征的查全率均大于95%,說明特征提取結(jié)果較為充分,提取效果佳。
輕量級自然語言描述生成效率,對視頻圖像翻譯人員的工作效率存在著直接影響,為此,測試所提算法在處理不同數(shù)量的視頻圖像自然語言描述問題時,是否存在嚴(yán)重的卡頓情況,此問題的判斷主要通過生成時延來體現(xiàn),測試結(jié)果如圖4所示。

圖4 所提算法生成時延測試結(jié)果
根據(jù)圖4測試結(jié)果顯示,所提算法在生成不同類型視頻圖像輕量級自然語言描述時,生成時延低于500ms,時延遠(yuǎn)低于1s,不存在明顯的卡頓情況。
提出基于深度學(xué)習(xí)的輕量級自然語言描述生成算法,該算法通過視頻描述特征提取、自然語言描述生成兩步驟,實現(xiàn)視頻圖像的輕量級自然語言描述生成。經(jīng)過實驗測試,該算法對不同的運動類圖像、美食類視頻圖像所生成的輕量級自然語言描述均符合視頻圖像內(nèi)容,不存在錯誤。在不同類型的視頻圖像、不同視頻圖像數(shù)量的條件下,所提算法對視頻圖像生成的輕量級自然語言描述也不存在錯誤,且生成時延低于500ms。所提算法在生成輕量級自然語言描述之前,對不同類型視頻圖像的特征融合后,METEOR指標(biāo)的分值伴隨視頻圖像數(shù)量的增多,METEOR指標(biāo)分值始終大于0.95,融合效果較好。對視頻圖像特征的查全率均大于95%,特征提取較為充分。
即使深度學(xué)習(xí)已經(jīng)在很多領(lǐng)域里應(yīng)用過卓有成效,但是深度學(xué)習(xí)屬于一個還未發(fā)展成熟的新興技術(shù),還存在很多研究難點急需鉆研。