吳月娥 邊后琴
摘 要:智能行為分析是計算機視覺領域的核心問題,行為分析的最大難點在于表示的基本元素跨度極大,而且物體的圖像又是千變萬化,因此在智能行為分析系統中必須結合語義與統計信息。針對建立智能行為分析系統的需求,首先建立既能表達用戶語義,又能表達千變萬化的場景和物體統計信息的“圖像語法”;然后通過將學習過程理解為迭代投影過程,建立一個統一的機器學習方法,實現較復雜的場景和行為的分析和識別。
關鍵詞:智能視頻監控;語義信息;統計學習;圖像語法
中圖分類號:TP391
0 引 言
近年來,視頻監控系統隨著它的需求的發展而飛速發展,其應用也越來越廣泛,在保安、交通、金融、水利、電力等各行業都發揮著不可替代的作用。智能視頻監控的關鍵技術集中在對視頻內容的分析處理上。目前,多數情況下監控系統只充當了錄像的功能,都是在發生異常事件后,重新回放,進行人工分析。而真正賦予視頻監控全新意義的變革,在于當前正在推進的智能視頻監控技術。其中“智能”是指通過多個網絡攝像頭自動識別和跟蹤場景、行人、車輛等目標,從海量的視頻錄像中識別和提取復雜的行為和事件,及時供決策者使用和查詢[6[CD*2]8]。
研發智能行為分析系統的復雜度遠遠超過了人們的預期,這主要是因為各種應用場景十分復雜(街道、大院、房間、公路等),場景的人物、物體、車輛等千變萬化,光照、天氣變化無常,根本無法預先設定和控制。特別是用戶的需求不僅精確度高而且多種多樣,某個行為和事件是否正常,與其所發生的場合或時間有關,必須由用戶根據具體需要和當前任務來靈活決定,而且異常行為極少出現。因此建立智能行為識別與分析系統的一個關鍵技術是融合語義和統計信息‐[4,9]。語義信息是指系統必須提供一個可視化的符號語言或者事件語法,通過一組圖形化的語義符號來表達用戶根據不同場景、不同時間段而設定的其所感興趣的物體和行為;統計信息是指通過統計學習方法建立的圖像語法和統計模型,該模型將抽象的語義符號與千變萬化的視頻信號相結合。
1 融入隨機上下文的圖像語法表示
自然場景是高度復雜又高度結構化的,這種結構化正是圖像語法的根源。圖像語法的直觀意思是:從統計的觀點來看,圖像中的某些元素在一起出現的概率很高,通過一些組合規則它們形成新的,更大的結構元素,如人眼,鼻,嘴,耳在自然圖像中通常是一起出現的,它們共同構成了人臉這種視覺模式;通過對這一現象建模,即可利用與或圖來建立圖像語法,如┩1所示。與或圖中包含三種節點:用實線圓圈表示的與節點,如┩1中獳,E,F等節點,與節點的孩子結點必須同時出現才能構成其本身;或節點,用虛線圓圈表示,如圖1中獴,C,D等,或節點每次只選擇一個孩子節點參加構造,表示一種實例;終端節點,用方框表示,如圖中1,2,3等。與節點表示分解過程,或節點表示開關變量作用,用來選擇一種配置,終端節點表示某個層次上的一種圖結構;一個與或圖包含多個解譯樹,通過在或節點處選擇不同的孩子節點可以得到不同的解譯樹,圖中粗線所示即為一種解譯樹。
一個與節點要么直接終結為一個終端節點,或能分解成幾個構造部分:
式中:V璗={t1,…t﹎(T)獇是終端節點集,包含各種視覺字典的元素,如圖像基元、子圖和物體部分等;[WTHT]R[WTBX]是定義在節點間上的關系集,Ъ幢硎窘詰慵淶暮嵯蛄系:
Σ表示所有由與或圖生產的有效配置,即與或圖的語言:
玴是定義在與或圖上的概率模型,包含定義在或節點上的隨機上下文無關語法(SCFG)概率模型以及定義在不同節點之間關系的能量約束。
可知,與或圖實際上是定義了一種隨機上下文相關語法,用來表示圖像語法,其中V璗是其字典,V璑表示其產生規則,Σ表示其語言,R表示上下文信息;與或圖表示中,字典中元素的個數,以及產生規則的個數都很小,但是其語言表示能力強,即能表示的配置數目很大:¬璑∪V璗顋Σ|。
在融入圖像語法的與或圖中,通過對所有或節點處進行選擇,可以得到一個解譯圖。就融入事件語法的時空與或圖來說,通過對其中所有或節點進行選擇,并將同一物體在時間維上的運動情況用軌跡描述,可以得到(x,y,t)坐標系下一個軌跡圖,如圖2所示。每幀圖像表示為一個場景分解的解譯圖,以物體為基本描述單元,它們的運動由幀間軌跡表示。 圓圖表示的是運動中發生的一些離散的行動,即:①為行人上車;②為行人下車;③為車輛進入場景;④為車輛離開場景。具體表現為軌跡的分合。對應于解譯圖,一個軌跡圖就代表一個場景的一段視頻實例,如圖3所示。對于圖中左邊的一段視頻,對其中感興趣物體(行人、車輛)進行識別和跟蹤,從而可以在(x,y,t)坐標系下,得到對應的運動軌跡,形成軌跡圖;這相對于在關于該場景的融入事件語法的時空與或圖中,對所有或節點進行一次選擇(通過識別和匹配),并將同一物體在時間維上的運動情況用軌跡描述,也可以生成一個軌跡圖。同時對任一給定的時刻t,從軌跡圖就可到對應幀圖像的解譯圖,如圖中右下角圖所示。基于軌跡圖中各個物體軌跡之間的各種關系,就可以對行為和事件進行分析。И
下一步的問題是如何在與或圖上定義概率模型來對實際的場景和視覺模型進行建模,給定與或圖,其概率模型定義為如下Gibbs分布形式:
2 統一機器學習
統一機器學習分為兩步:
(1) 學習終端節點集V璗,即從自然圖像中學習視覺字典,如衣服中的衣領等;
(2) 基于學到的V璗,通過構造,學習非終端節點V璑,Ъ囪習自然圖像中的產生規則。
終端節點有兩種類型:一種表示高熵模式,如各種紋理,來自圖像空間的隱式流形,即可以通過隱式函數來描述,其維度比較高;另一種表示一些低熵模式,如各種剛性結構物體,卡通等,來自圖像空間的顯式流形,即可以通過顯式函數來描述,其維度一般都比較低。
對終端節點的學習,即在它們所處的流形子空間上建立概率模型。在此通過有監督的方式來學習。給定Ω﹐bs1,定義在|∧珅=5×7到11×11上的原始圖像塊集合作為訓練樣本集,記f(I)為I在樣本集中的出現頻率,p(I)為所要學習的概率模型,通過最小化它們之間的KL[CD*2]測度:
式中:獷璮表示關于f的數學期望。根據極大似然估計,使用樣本均值逼近數學期望,可得:
式中:Ω璸為求解空間,實際學習過程是通過逐漸逼近求解:
學習了終端節點,相當于建立了與或圖表示的字典。下一步通過構造,即在字典集上對各種關系進行測試,逐級向上學習各種非終端節點。
通過建立20類場景和100類物體的與或圖表示,相當于建立圖像語義解譯的表示知識庫:字典和關系庫,形成了20類場景和100類物的產生式模型庫Δゞen:
3 實驗結果
圖4所示為一個普通交通路口中約3 min的視頻錄像,第一行中最左邊為一段視頻示意圖,中間為視頻所對應的場景中物體(車和行人)在坐標系(x,y,t)中運動軌跡圖,不同顏色代表不同類別的物體.最右邊為┮歡為時間內所有運動物體軌跡的二維投影;第二行中,顯示的是抽取的4幀圖象中物體之間關系空間、運動方向以及相對速度等示意圖。通過對物體運動軌跡的跟蹤和分析,根據不同軌跡之間的空間和時序上的關系,場景的屬性(是否紅燈狀態等)和物體本身的屬性(速度、運動方向等),可以對各種事件(是否有車闖紅燈、兩車是否可能會碰撞、車是否在正確的行駛路段上等)進行檢測和分析,并給出判斷。
以街道十字路口的交通場景為例
4 結 語
在針對通用智能視頻行為分析系統的應用,研究了開發該系統所需的關鍵技術,建立一個既能表達用戶高層語義,又能表達千變萬化的場景和物體統計信息的統一知識表達及其模型,并通過機器學習方法來完善這個統一模型的結構與參數。通過對場景全局信息和運動