曹志強,鄭世寶,張重陽
(1.上海交通大學圖像通信與信息處理研究所,上海 200240;2.上海數字媒體處理與傳輸重點實驗室,上海 200240)
基于中層語義對象的時空關系提取和對象目標運動趨勢的估計將圖像處理等技術結合在一起,是現今多媒體研究的一個很有前途的方向。
圖像語義包括了底層的特征語義、中層的對象語義和高層的抽象語義,本平臺旨在對對象語義層通過識別和推理進而找出圖像中的具體對象以及它們之間相互的關系,進行分析研究然后給出語義表達[1](見圖1)。

圖1 圖像語義層次模型
多層次模型的圖像,包括顏色、紋理、形狀、空間關系的圖像語義內容。比起底層特征語義如顏色、紋理等,使用的對象之間的空間關系這一中層語義的圖像識別更符合人們的識別習慣。
因此不同于使用顏色、紋理、形狀等視覺特征,本研究中基于MPEG-7標準[2-3]的中層語義是對目標圖像最直接的語義描述,其導出的特征亦是通過對圖像中所描述對象進行某種程度的邏輯推理而得到的,進而對圖像中所包含物體的含義和場景的描述進行大量的高層次的推理。
此前的研究主要強調目標對象的空間拓撲關系研究,例如在文獻[4]中,主要概括了兩個空間所有可能對象關系。而本文在空間關系研究的基礎上,更側重通過與時間關系的結合,即對實時監控中運動目標進行實時標定,測得目標相互之間如上下左右的位置,并結合前后等時間關系,自動組合推理出如目標相遇等高層次的邏輯語義。
文獻[5]將空間關系(Spatial Relationship)概括為尺度特征、認知特征、層次特征(Interval Relationship)、拓撲特征(Geometry Relationship)等。
在本文的研究中主要使用的是二維模型,以一個簡單的二維對象模型進行建模。而以三維空間現象為重點的空間關系以及具有更不確定性的多層次的復雜空間關系的空間推理也將會是未來在時空關系領域的發展研究的重要方向之一。
本文在空間上構建了如下空間關系:之上(higher),之下(lower),之左(left),之右(right),嚴格之上(above),嚴格之下(below),嚴格之左(left of),嚴格之右(right of)。圖像目標之間的拓撲空間關系如圖2所示。

圖2 圖像目標之間的拓撲空間關系
除了上述利用空間點集拓撲關系來定性表示的空間拓撲關系,圖像目標對象之間關系還有投影關系和幾何關系等[6]。其中空間幾何關系則是通過圖像目標的坐標來判斷距離與夾角來定量表示。
當敘述一個監控視頻對象的時間先后關系時,主要是為了描述事件發生的時間點或時間段內事件涉及目標對象的先后變化。時間關系的表示方式主要有幾種,在此研究中選擇的時間表示為時間區間和時刻相結合的方式以更方便地判斷時間關系,因為這種表示方式既兼顧了時間區間的結構,也包含了時間點所發生事件的信息。
任何兩個時間區間X和Y的時間關系可定義為13種[7],這13種時態關系可以用兩個時間區間的相交情況重新定義。設X= < t 1,t 2>,t 1≤t 2,Y= < t 3,t 4>,t 3≤t 4,可定義如下13種時間區間的時態關系。
1)之前(before):定義X before Y,僅當t 2<t 3;
2)之后(after):定義X after Y,僅當t 4<t 1;
3)相遇(meet):定義X meet Y,僅當t 2=t 3;
4)覆蓋(overlap):定義X overlap Y,當t 1<t 3,且t 3< t 2,t 2< t 4;
5)終點重合(finish):定義X finish by Y,當t 3<t 1且t 2=t 4;
6)包含(contains):定義X contains Y,當t 1<t 3且t 4<t 2;
7)起點重合(starts):定義X starts Y,當t 1=t 3且t 2<t 4;
8)等價(equals):定義 X equals Y,當 t1=t3且t2=t4;
9)被包含(during):定義X during Y,當t 3<t 1且t 2< t 4,以及相對應的 started by,finished by,overlaped by,meet by等4種關系,這4種關系在實現上則是將X和Y的順序顛倒;
10)被終點重合(finished by):定義X finished by Y,當t 1<t 3且t 2=t 4;
11)被起點重合(started by):定義X finished by Y,當t 4<t 2且t 1=t 3;
12)被相遇(met by):定義X met by Y,當t 1=t 4;
13)被覆蓋(overlaped by):定義X overlapped by Y,當t 3<t 1且t 1<t 4,t 4<t 2。
將時間關系與空間關系相結合得到對應的組合邏輯關系:例如將前后兩幀物體相對位置改變定義為經過換邊,若相對位置不改變,則可進一步定義接近遠離等關系此外,亦可定義更高級的組合邏輯事件,例如路口闖紅燈與滯留物品。
若檢測到前一時間幀內一個人(entity)與一個物體(object)相對距離小于一個值,則判定為接近(near),而后一時間幀內兩者相對距離逐漸拉遠,可認為是對滯留物品事件的近義檢測。
本實驗中采取了一段自行拍攝的監控視頻序列,從中選取2幀畫面進行空間關系判斷,如圖3和圖4所示。


本實驗采取的是VIA_1.0標定工具,以畫面左上角為原點(0,0),選用對象矩陣左上角點坐標,并輔助矩陣寬和高信息得到四點坐標。例如圖3中對象1的坐標信息分別為<X 392 Y 99寬57高106>,對象2坐標信息分別為<X 512 Y 84寬65高69>,對象3的坐標信息分別為<X 586 Y 78寬44高59>。通過計算矩形中心點坐標判斷上下左右空間關系,通過比較4個頂點坐標判斷相交相離包含等拓撲關系,程序實現上皆用bool函數判斷真假,例如:
bool geo_2D_rectleft(rectangle s1,rectangle s2){if(s1.center.x < s2.center.x)return 1;else return 0;}
上述代碼當對象目標S 1在S 2左邊時則返回真值再作判斷。
在選擇的這兩例幀中,程序讀入監控視頻圖像標定文檔可自動輸出以下信息:前一幀,對象1在對象2之左,對象2在對象3之左,對象2在對象3之左且靠近相交;后一幀,對象3在對象1之左,對象1在對象2之左,對象1在對象2之左且靠近相交。
在單幀的空間關系判斷的基礎上,通過加入多幀的時間關系,可以預測出更復雜的時空組合邏輯關系。在此事件中,可定義出相遇、遠離、接近等組合邏輯關系。例如當檢測在兩幀內兩對象目標都處于同一邊時,判斷兩者相隔距離的變化,若變大則是遠離變小則接近;若檢測到處于不同邊時則可判斷為相遇并遠離。
就檢測的2幀圖像而言,通過輸入目標文件,程序可輸出以下信息:對象3接近,經過對象2并遠離;對象3接近,經過對象1并遠離;對象2接近對象1(可預測出即將經過)。
通過對時空關系的組合判斷,可定義并預警更加高級的邏輯事件,如圖5和圖6所示。

圖5 視頻監控序列幀例3

圖6 視頻監控序列幀例4
在此視頻對象目標檢測中,通過空間關系的判斷,可輸出在相鄰多幀之中,對象1與對象2都處于“相鄰”關系,位置關系伴隨著“之左”和“之右”的變化,將此邏輯關系可定義為“徘徊”。在之后幀檢測中目標對象1與對象2的位置關系逐漸“遠離”,超過預定的閾定數值,兩對象目標間同時出現“徘徊”和“遠離”的邏輯事件即可定義出“滯留物品”事件。
本文基于監控視頻內容中中層語義模型的構建,結合以往對目標對象空間關系的研究基礎對監控視頻中層對象語義提取進行進一步的研究。本研究在已實現的簡單的時間關系與空間關系函數的基礎上,定義此類基于中層語義的復雜邏輯事件并組合時空關系函數加以實現,達到運動目標檢測和趨勢估計的效果。
[1]CHANG S,SIKORA T,PURI A.Overview of MPEG-7 standard[J].IEEE Trans.Circuits and Systems for Video Technology,2001,11(6):1007-1016.
[2]NACK F,LINDSAY A T.Everything you wanted to know about MPEG-7:part 1[J].IEEE Multimedia,1999,6(3):65-77.
[3]陳晞,楊軼,董育寧.用于圖像檢索的MPEG-7形狀描述子[J].電視技術,2003,27(4):18-21.
[4]杜世宏,王橋,秦其明.空間關系模糊描述與組合推理[D].北京:科學出版社,2007.
[5]章毓敏,基于內容的視覺信息檢索[M].北京:科學出版社,2003.
[6]汪彥龍,劉金華,王麗萍.基于對象空間關系的圖像檢索方法研究[J].計算機技術與發展,2006,16(1):62-66.
[7]ALLEN J F.Maintaining knowledge about temporal intervals[J].Communications of the ACM,1983,26(11):832-843.