楊睿 王昊宇 劉歡嫻 張琳 楊宇萌


摘要:隨著自媒體短視頻行業的興起,視頻配樂所涉及的問題也越來越突出,尤其舞蹈類短視頻中背景音樂與舞蹈動作千篇一律的情況常常出現。為解決這一問題,本文基于動作語義提取方法,實現對視頻中人物關節點的跟蹤和動作語義的提取,并利用搜索引擎得到背景音樂,為自媒體短視頻背景音樂與舞蹈動作的多樣性做出了貢獻。
關鍵詞:人工智能;動作識別;語義研究;自動配樂
1、 緒論
通過人物的表情、動作、語言等識別人物的情緒狀態是機器視覺中的熱門領域,早在20世紀90年代美國麻省理工學院就有相應研究。
目前對于表情、語音識別技術的研究相對成熟,而動作識別還只是新興的研究方向。動作識別已被嘗試應用在眾多現實場景中,如機器人視覺、人機交互、智能監控及體感游戲等,在人們生產生活中發揮了巨大的促進作用。
舞蹈類短視頻配樂領域主要有三個亟待解決的問題:如何從視頻中識別人體運動,如何通過運動特征識別人類動作語義,以及如何將動作語義轉化為高層語義并用搜索引擎找到音樂。
2、 問題分析及系統設計與實現
2.1問題分析
在基于動作語義識別的背景音樂匹配系統研究中,主要工作是從運動視頻中提取動作特征、構建動作語義集合并建立動作與動作語義之間的映射關系模型,實現從運動視頻中識別人的動作信息。
首先,從靜態姿態特征和動態運動特征兩方面提取特征數據;然后,根據當前人類情緒識別領域和行為心理學領域研究成果,本文構建了包含“開心”、“憤怒”、“悲傷”、“恐懼”和“中立”這五種動作語義的語義集合。并通過引入“不確定”的識別結果,為后續進行語義識別提供便利。
當完成舞蹈視頻的語義分析后,將獲得的動作語義進行簡單變換并通過搜索引擎找到與該視頻匹配的音樂,從而完成配樂功能。
2.2系統設計與實現
智慧配樂師功能包含舞蹈語義識別和背景音樂匹配兩部分,具體設計如圖1所示。
下面詳細介紹各功能的原理及具體情況。
(1)舞蹈語義識別功能
①提取人體二維輪廓
幀間差分法作為最常用的運動目標檢測方法之一,其基本原理就是采用基于像素的時間差分在圖像序列相鄰的兩幀或三幀之間,通過閉值化提取出場景中的運動區域。
我們將相鄰幀相減得到差分圖像,在保證環境亮度變化不大的條件下,選定一個閾值,根據像素值變化與閾值的大小關系對差分圖像二值化。利用幀間差分法更新速度快、算法簡單、計算量小等優點,得到人體二維輪廓。
②定位人體關節點
人體被看成是由骨骼及關節點構成的剛性系統,骨骼的位置由關節點決定,因此人體運動可以用關節點表征。
在以往的研究中,手動標定視頻第一幀的方法雖然簡單易行,但在面對大量未知數據時并不可行。為避免人工定標浪費時間,我們根據醫學人體比例約束,實現自動定位關節點的效果。
③光流法關節點跟蹤
光流法常用來跟蹤點的運動,光流的變化能夠反映圖像灰度在時間上的變化與景象中物體結構及其運動的關系,其中LK光流算法在跟蹤人體各關節點的運動方面表現更好。
光流法通過特征匹配求關節點處的流速,利用計算量小、快速靈活的特點,能夠快速檢測到運動對象。
④動作特征的提取
在提取人體動作過程中,我們將人體動作特征分為兩類:靜態姿態特征,包含重心傾斜狀態、頭部彎曲度、頭部彎曲度、肘部彎曲度及胸腔彎曲度;動態運動特征,包含重心移動速度與關節點相對速度。
動作速率一定程度上反應人的情緒信息,由于肩部節點、肘部節點和手部節點相對于重心變化較為獨立,反映信息較為明顯,可作為關節點速率的主要計算依據,用關節點相對運動速率與重心絕對運動速率的比值作為動態運動特征參數。
⑤動作語義識別
在獲取特征數據后,分別計算出對應的語義,再根據映射關系得到最終的語義識別結果。使用雷達圖展現各語義所占概率,通過選取單幀雷達圖中概率超過 27%的前兩種語義作為代表語義,用概率值作為對應權重,統計有效幀在各語義中的加權平均值,最終得到輸入視頻的語義雷達圖。
(2)背景音樂匹配功能
在多媒體的檢索中,最自然直接的辦法就是用人類的語義概念進行檢索,通過語義方式的搜索達到比視覺底層特征更直接和更有效的效果。經過動作特征提取、構建動作語義集合、建立動作與動作語義之間的映射關系模型最終分析得到人們日常思維中的高層語義概念——動作語義。通過舞蹈語義識別部分得到結構化標簽,利用搜索引擎實現背景音樂的搜索查找,最終完成配樂功能。
圖2是基于動作語義識別的背景音樂匹配過程圖。
3、 系統創新點
“智慧配樂師”以舞蹈動作意義為切入點,利用人工智能技術尋找最佳配樂,體現了如下創新點:
(1)利用人工智能技術挖掘舞蹈運動特征數據。通過幀間差分法實現人體初步識別,再根據醫學領域人體結構比例約束標定必要關節點,并使用光流法挖掘出特征數據。
(2)構建特征映射模型獲取舞蹈動作語義。通過對視頻數據的分析,構建出特征數據與動作語義之間的映射模型,獲得視頻中舞蹈動作語義。
(3)依據動作語義為舞蹈片段分類。利用語義雷達圖選取單幀中概率超過預設閾值的前兩種語義作為該幀的代表語義進而確定舞蹈片段的節奏和風格。
4、 結語
本文通過研究基于舞蹈類短視頻的動作語義提取方法,實現了對視頻中人物關節點的跟蹤,并計算得到運動特征,再根據已構建的語義映射模型提取動作語義,最后利用搜索引擎得到背景音樂。由于個體性差異,語義的肢體表達方式也有不同,如何根據個體性差異進行針對性的識別是未來研究的一個難點。目前,語義識別正向著多信號融合的方向發展,人體面部表情與肢體動作相結合的多信號語義識別系統將為人機交互領域的應用帶來更多可能。
參考文獻:
[1]劉艷,劉鼎家,韓智攀.基于動作識別的情緒提取方法研究[J].計算機工程,2015,41(05):300-305.
[2]門鑫. 基于深度學習的視頻內容識別和搜索算法研究[D].北京郵電大學,2019.
課題項目:本文為沈陽師范大學校級大學生創新創業訓練計劃資助項目《基于人工智能動作語義識別的背景音樂匹配系統——“智慧配樂師”》(項目編號:202113066)成果.