一種具有聽覺功能的智能視頻監控系統

2014-09-17 10:26:52張治中

電視技術 2014年1期

關鍵詞：智能信號系統

劉剛，張治中

（南寧職業技術學院a.現代教育技術中心;b.信息工程學院，廣西南寧 530008）

一種具有聽覺功能的智能視頻監控系統

劉剛a，張治中b

（南寧職業技術學院a.現代教育技術中心;b.信息工程學院，廣西南寧 530008）

基于圖像的智能視頻監控系統由于視角有限，當目標不在攝像頭視場范圍時，易出現監控盲區，為了解決該難題，利用聲源定位的優點，提出一種具有聽覺功能的智能視頻監控系統。首先采集傳聲器線性陣列，采用時延估計技術對聲源進行定位，然后根據聲源位置驅動攝像頭，使其轉動到聲源位置并采集視頻信息，最后采用圖像檢測程序對目標進行實時定位和跟蹤，并通過仿真測試驗證該系統的可行性，結果表明，該系統具有較好的定位和跟蹤精度。

聲音信息;視頻信息;智能監控;傳聲器陣列;到達時間差

智能監控系統是指在沒有人為干預的情況下，對采集的圖像序列進行自動分析，對監控場景中目標進行定位、識別和跟蹤，從而對異常情況及時發出警報或提供有價值的參考信息，在安防系統中得到廣泛應用［1］。

目前智能監控系統主要對視頻圖像進行分析和處理，然后通過相應的軟件提取其中的關鍵信息，實現對目標的識別和跟蹤［2－3］。由于視頻監控的范圍受限，無法對監控場景的信息進行全方位的采集，從而出現大量的盲區，導致視頻監控系統難以滿足要求［4］。近年來，傳聲器陣列信號處理技術日益成熟，出現基于傳聲器陣列的聲源定位系統［5］。從定位原理來分，目前傳聲器陣列定位技術主要分為三類:基于最大輸出功率的可控波束形成技術，基于高分辨率譜估計技術，基于到達時間差（Time Difference of Arrival，TDOA）技術［6］。其中可控波束形成技術對初值敏感，而且需要知道聲源和噪聲先驗知識，實時處理性能差;高分辨率譜估計技術計算量大，無法處理相關度比較高的信號;TDOA技術具有計算量小、容易實現，成為近年研究的熱點［7］。由于在真實聲場環境下，存在大量的抗噪聲、混響，TDOA的抗噪和混響能力不強，影響聲源定位精度，目標實時定位和跟蹤的誤差較大［8］。小波變換可以將含有噪聲的聲音信號進行不同尺度分解，然后重構消除噪聲信息，從而增強聲音信號［9］。一些學者將其引入到智能視頻監控系統中，通過傳感器對聲音信號的實時采集，然后對聲音信號進行分析，確定聲源位置，從而對聲源目標進行實時定位和跟蹤，拓寬了智能監控系統的監控范圍［10］。

為了提高智能視頻系統的監控效果，更加有效地對目標進行實時定位和跟蹤，提出一種具有聽覺功能的智能視頻監控系統。首先采集傳聲器線性陣列，采用時延估計技術對聲源進行定位，然后攝像頭根據聲源位置調整方向，使其轉動到聲源位置并采集視頻信息，最后采用圖像檢測程序對目標進行實時定位和跟蹤，并通過仿真實驗對系統的性能進行測試。

1 智能視頻監控系統

1.1 硬件系統

智能視頻監控系統主要包括硬件系統和軟件系統兩部分，其中硬件系統主要由處理器、存儲器、攝像頭、視頻編碼電路、音頻設備等組成，具體如圖1所示。

圖1 硬件系統結構

1.2 軟件系統

1.2.1 傳聲器陣列模型

對于一個遠場窄帶零均值的入射信號，用單位矢量α表示信號入射方向，矢量pi表示陣元坐標，其陣列幾何結構如圖2所示。

圖2 陣列幾何結構示意圖

α可以表示為

式中:θ表示俯仰角;φ表示方位角。陣元坐標pi可表示為

式中:i表示陣元序號，i=1，2，…，N。

原點位置接收信號的復數表示為

式中:n0（t）代表噪聲信號。

整個陣列接收到的信號矢量可以表示為

定義波數矢量為

由此可以表示陣列流形矢量為

考慮陣列信號處理—般是在基帶進行，信號中已經沒有載波分量，接收信號可以表示為

1.2.2 聲音信號消噪

正交小波基的濾波器系數為h0k和h1k，尺度函數和小波函數分別為φ（）t和ψ（）t，其尺度關系為

為了對高頻成分觀察更仔細，采用db3小波包對聲音信號進行三級分解，分解過程如圖3所示。

圖3 聲音信號的小波分解

通過設置一個合適的閾值，僅利用超過閾值的小波系數來重構聲音信號，去除噪聲，閾值選擇為

式中:j為小波變換的尺度;C在3.0～4.0之間。

式中:Mj為尺度j上的各小波系數絕對值的均值。

從圖4可知，采用小波變換對聲音去噪后，噪聲大部分已被去掉，同時保留了有用的聲音信息。

圖4 小波去噪效果

1.2.3 聲音信號端點檢測

設語音波形時域信號為x（l），第n幀語音信號為xn（m），則xn（m）滿足下式

式中:0≤m≤N－1。

式中:N為幀長;T為幀移長度。

xn（m）的短時能量譜En定義為

過零率Zn定義如下

sgn［x］定義如下

聲音信號端點檢測的結果如圖5所示。

圖5 音頻信號的端點檢測

1.2.4 TDOA 估計時延

設聲源信號為s（t），傳聲器接受到第m個和第n個的聲音信號分別為

式中:um（t）和un（t）為加性噪聲;an和am是衰減系數。

聲音信號的時延間差為

當信噪信比大的條件下，2個傳聲器接收信號的互相關函數為

2個傳聲器接收到信號的時延估計為

1.2.5 聲源的位置估計

聲源S（x，y，z）到傳聲器Mi間的距離為ri，τij表示聲源到傳聲器Mi與Mj間的時延，d為傳聲器陣元到原點距離，C為聲速，r，θ［0°，90°］，φ［0°，360°］分別表示聲源到坐標原點的距離、俯仰角和方位角。

利用距離和速度公式建立如下方程組

解方程，可以得到

綜上可知，具有聽覺功能的智能視頻監控系統工作流程如圖6所示。

圖6 智能視頻監控系統的工作流程

2 仿真實驗

2.1 聲源方向估計精度

系統上電后，說話者以傳聲器序列為中心，一邊說話一邊來回走動，通過聲音驅動攝像頭轉動，聲源實際方位與估計方位如圖7所示。從圖7可知，通過本文算法估計的方位與聲源實際位之間的誤差相當小，結果表明，采用本文聲源估計算法可以較準確地對目標位置進行定位。

圖7 角度對比圖

2.2 消噪前后聲源方向估計精度對比

與沒有小波消噪定位算法進行對比實驗，估計誤差結果如圖8所示。從圖8可知，對比算法由于沒有對聲音信號進行消澡處理，定位誤差比較大，本文算法利用小波變換對聲音信號進行不同尺度的分解，消除了噪聲對聲音信號端點檢測的不利影響，重構的聲音信號便于后續的時延估計，增強了算法抗噪能力，從而大幅度提高了聲源的定位精度。

圖8 消噪前后的定位精度對比

2.3 與其他方法的跟蹤性能對比

采用單一音頻信息、單一視頻信息對目標進行定位和跟蹤，并與本文方法進行對比，采用誤跟率作為性能優劣評價標準，得到的結果如表1所示。

從圖1可知，采用單一音頻信息的目標定位精度不高，跟蹤效果最差，誤跟率高;相對于音頻信息，視頻信息的目標定位精度有所提高，誤跟率降低，并且跟蹤結果更加穩定，但是誤差仍然較大，而本文方法通過聲音信號對驅動攝像頭轉動，融合了音頻和視頻信息，目標跟蹤效果更優，降低了誤跟率，魯棒性更強。

表1 不同方法的誤跟率比較

3 總結

針對當前智能視頻監控存在的監控盲區的問題，提出一種具有聽覺功能的智能視頻監控系統。首先利用傳聲器陣列的聲源定位對目標方向進行檢測，然后根據目標位置驅動攝像頭轉動，仿真結果表明，該系統提高了目標定位和跟蹤精度，有效減少誤報和漏報現象，在現代安防領域中具有一定的應用價值。

［1］駱云志，劉治紅.視頻監控技術發展綜述［J］.兵工自動化，2009，28（1）:1－3.

［2］鄭世寶.智能視頻監控技術與應用［J］.電視技術，2009，33（1）:94－96.

［3］DVORKING T，GANNOT S.Time difference of arrival estimation of speech source in a noisy and reverberant environment［J］.Signal Processing，2005（5）:177－204.

［4］張亞，周孟然，陳君蘭，等.基于聲源定位技術的智能視頻監控系統［J］.電子技術應用，2011（4）:90－93.

［5］杜要鋒，尹雪飛，陳克安.一種修正的近場聲源定位時延估計方法［J］.電聲技術，2010，34（2）:47－50.

［6］李承智，曲天書，吳璽宏.一種改進的ADOA聲源定位及跟蹤算法［J］.北京大學學報:自然科學版，2005，4l（5）:809－814.

［7］張亞，周孟然，陳君蘭，等.應用聲光聯合定位技術的智能視頻監控系統［J］.電視技術，2010，34（3）:88－91.

［8］王振濤，郝忠孝，賀洪江.基于傳聲器陣列的聲源定位系統的研究［J］.華北電力大學學報，2009，36（5）:103－106.

［9］HU J S，LEE M T，YANG C H.An embedded audio－visual tracking and speech purification system on a dual－core processor platform［J］.Microprocessors and Microsystems，2010（34）:274－284.

［10］方帥，遲健男，徐心和.視頻監控中的運動目標跟蹤算法［J］.控制與決策，2005，20（12）:1388－1391.

Intelligent Monitoring System with Auditory Function

LIU Ganga，ZHANG Zhizhongb

（a.Modern Educational Technology Center;b.School of Information Engineering，Nanning College for Vocational Technology，Nanning 530008，China）

Intelligent video monitoring system based on image is limited by view angle，when the target is not in the view range of camera，monitoring blind area is easy occurred.In order to solve the problem，an intelligent video monitoring system is proposed based on voice localization.Firstly，microphone linear array is acquired，and the position of the sound source is location by the time delay，and then cameras are turning to the sound source position by the sound source message and collect video information.Finally，the target is real－time positioned and tracked by image detection，and the simulation experiments are carried out to test the feasibility of the system.The results show that the proposed system has high location precision.

audio information;video information;intelligent monitoring;microphone array

TM930.12

【本文獻信息】劉剛，張治中.一種具有聽覺功能的智能視頻監控系統［J］.電視技術，2014，38（1）.

2013南寧職業技術學院科研項目（2013YB348）

劉剛（1980— ），碩士，講師，主要研究領域計算機應用、教育信息化;

張治中（1977— ），碩士，副教授，主要研究領域為物聯網。

責任編輯:任健男

2013－06－28