莫世鴻,范冰冰
(華南師范大學計算機學院,廣東廣州510631)
近幾年,隨著各地城市監控視頻建設的持續投入,監控攝像頭在城市的部署數量以每年超過30%的復合速率增長,同時從以往的標清逐步向現在的高清過度,大量視頻監控設備產生海量視頻及其相關的數據,如交通卡口和電子警察記錄數據,視頻監控領域大數據時代已來臨。盡管目前各類視頻壓縮編碼技術已經十分成熟,但是,城市視頻大數據的數據量增長速度遠遠超過視頻壓縮編碼技術的發展速度,從而造成所需的存儲開銷呈指數級增長。根據美國國際數據公司(IDC)的估計,數據每2年翻1番,10年將增長50倍[1]。
除重要點或案件相關等監控視頻外,由于受存儲空間限制,國內絕大部分監控視頻一般保存時長為30天,沒有考慮監控視頻價值量的差異性,造成價值量不高的視頻占用了大量存儲空間,價值量較高的視頻保存時長過短而缺失歷史數據,對大數據應用產生不可彌補的損失。因此,希望面向應用對城市監控視頻進行差異化的存儲管理。在無法把所有視頻數據保存下來的條件下,首先,不同的攝像頭價值量會有所差異,其次,同一攝像頭在一天的不同時段價值量會有所差異。基于監控視頻價值實現動態存儲管理分配與優化,對監控視頻大數據應用具有重大意義。
目前,國內外對于視頻價值量的研究幾乎空白,相關的研究有關于通用數據價值的研究。文獻[3-5]給出了數據價值的簡單定義。關于數據價值的評定方法,文獻[6]等人介紹了基于應用程序的方法對數據價值進行評估。文獻[7]介紹了一種基于信息使用的最近時間判斷信息的價值。文獻[8]等基于電子文件的完整性、真實性、有效性4個指標建立了電子文件價值評估模型。文獻[9]提出的usage-time(UT)模型同時考慮了最近使用時間和使用度兩個因素,基于訪問時間距離當前時間的遠近程度賦予訪問量不同的權值,從而對總使用度作出一個綜合評價,并且經過案例驗證了其有效性和健壯性。文獻[10]等通過按比例計算數據的固有屬性和預期價值,得出數據價值的量化指標。文獻[11]等提出了一種基于數據本身重要性和潛在價值的數據價值評估模型。然而,針對監控視頻,視頻數據往往是以數據流的方式寫入和存儲的,無法基于文件的方式獲取上述信息。此外,上述模型并未考慮監控視頻特有的攝像頭布點重要性因素和時間戳因素。
此外,還有部分關于視頻質量評價或者視頻熱度分析預測的相關文獻[12-15]。在視頻質量評價方法上,只回答了視頻“可看性”問題,而并未回答視頻內容價值量多少的問題。視頻熱度的相關研究在多媒體視頻領域(例如電影電視劇等)分析了哪些視頻會更吸引用戶的注意,在監控視頻領域的研究則是空白。
如何基于監控視頻價值量解決存儲優化問題,是本文的研究點。據此,在監控視頻價值量的評價上,仍存在以下問題:首先,目前對于監控視頻價值量的概念缺乏一個明確的定義;其次,對于監控視頻價值量的評價缺乏一個科學的評估體系。
綜合考慮前人對價值的定義以及監控視頻的特性,給出監控視頻價值量定義:監控視頻價值量是其所包含信息量多少、所含信息可能應用價值、以及其對應攝像頭重要性的綜合體現。所謂信息量多少,主要指的是監控視頻中特征對象出現率,如車、人等,即對象出現率越高,價值量越高。攝像頭重要性主要取決于所處區域或位置,例如,若一個攝像頭處于交通要道,或在重點目標監控區域(例如大使館等),則該攝像頭所含的信息就越重要,價值量也越高。信息的應用價值主要通過用戶的訪問、使用來體現,一段監控視頻序列訪問度越高,則其價值量越高。
基于上述監控視頻價值量的概念,評估體系應分為兩個部分:首先,要針對監控攝像頭的各項訪問指標,建立一套評價單個攝像頭總體價值量的模型;然后,針對高價值量的攝像頭,對一天的不同時段進行分組,采用一定的計算方法,最后篩選出這些攝像頭一天中價值量最高的時段。兩個部分分別定義為攝像頭篩選模型與時間段篩選模型,如圖1所示。

圖1 監控視頻價值評估體系
設計評估體系基于以下4個要素,其一,監控視頻數據的價值是通過其使用來實現和體現的;其二,監控視頻的價值會隨著橫向時間的推移而有所差異;其三,不同類別攝像頭的數據價值量應有所差異;其四,監控視頻數據在每天不同時段其價值量是有明顯差異的。
基于UT模型,加入攝像頭類別重要性因素,對監控視頻價值量評價模型做出適應性改進,提出CUT(camera-usage-time)模型對攝像頭價值進行評估,如圖2所示。

圖2 CUT模型
該模型具體描述如下:


這里,vt(d)指的是攝像頭d在時間t的價值,時間t是宏觀上的,精確度是某一天。評估周期用vp表示,持續時間為[t-Nt×s,t],s是每個活躍期的長度,Nt是活躍期的個數。f(Ui(d))表示攝像頭d在活躍期i的使用值,此處數值是進行歸一化處理后的數值,在[0,1]區間內。w(i)是每個活躍期i的權值進行標準化后的數值,權值總和為1。權值w(i)通過上述權值函數指定。i越小,表示活躍期距離現在越近,該權值函數可以表明,距離當前時間越近的活躍期,具有越高的權值。z為每類攝像頭的重要級別,由人為指定,取值為1,2,3…,c(z)是每種類別的權重,級別越高,權重越大,q是人為定義的總類別數。最后,把價值尺度vt(d)利用公式(5)標準化為一定區間[ls,us]內(例如[1,10])。

在確定高價值量攝像頭的基礎上,進一步對一天不同時段價值量進行分析比較,把一天分為多個時間段T1、T2、T3…Tn,針對不同的應用領域,確定不同的評價參數k1、k2…kn,記ck1T1表示參數k1某一天在時間段T1的值,為了使評價結果更加準確,對同一時段多天的數據取平均,記天數為CUT模型中一個活躍期的天數s,可對每個參數在每個時間段取值利用公式(6)取平均,并由此可得到多維矩陣(7):

基于這些參數對不同時間段的價值量進行區分,可考慮采用聚類算法,本文使用的是K-means聚類算法[16]。
3.3 中醫健康宣教的重要性 小米粥營養價值豐富,有“代參湯”之美稱,一般患者及家屬對小米的飲食功效都比較熟悉,但是對于小米其他的作用就了解比較少。我院是中醫醫院,對患者進行中醫健康宣教是護理工作的一個重要組成部分,也是護理質量考核的一個指標。所以對入選本課題的壓瘡高危患者講解小米的中醫作用是不可或缺的一部分,讓患者了解小米的作用后,在知情同意的情況下愿意配合使用小米墊,真正從心里接受此實驗方法,符合醫學倫理范疇。
K-Means是一種基于距離的排他的聚類劃分方法。K-means算法是硬聚類算法,是典型的基于原型的目標函數聚類方法的代表,它是數據點到原型的某種距離作為優化的目標函數,利用函數求極值的方法得到迭代運算的調整規則。K-means算法以歐式距離作為相似度測度,它是求對應某一初始聚類中心向量V最優分類,使得評價指標J最小。假設給定集合R={Xm|m=1,2,…,total},對于R中的每個樣本給定d個描述屬性A1,A2,…,Ad來表示,運用多維向量表示數據樣本Xm所擁有屬性為:Xm=(Xm1,Xm2…,Xmd),其中Xm1,Xm2…,Xmd是數據樣本Xm的具體取值。樣本Xi和Xj之間的相似度通常用它們之間的距離d(Xi,Xj)來表示,距離越小,樣本Xi和Xj越相似,差異度越小;距離越大,樣本Xi和Xj越不相似,差異度越大。歐氏距離公式如下:

算法采用誤差平方和準則函數作為聚類準則函數。算法是將樣本聚類成k個簇(cluster),具體算法描述如下:
1)隨機選取k個聚類質心點(cluster centroids)為:μ1,μ2,…μk∈Rn,

算法流程圖如圖3所示。

圖3 K-means算法流程圖
本章將基于交通應用領域對提出的價值評估體系進行分析和驗證,為此,對500路交通監控攝像頭3個月內(9.1-11.30)的訪問數據進行跟蹤,并利用這些數據進行驗證和分析輸出結果。
對CUT模型各參數定義如下:首先把交通領域攝像頭按重要級別分為4類,如表1所示。

表1 攝像頭類別與對應重要性
則公式(4)中q=4,并取y=2,然后對式(1)~(3)、(5)采用文獻中[9]UT模型的默認參數,則:

ls=1,us=10,價值尺度為[1,10]
Ui(d)=訪問量,

2.1.1 橫向時間因素
根據3種不同的訪問狀態對攝像頭進行分類:突發性訪問,周期性訪問和常量性訪問。如果對一個攝像頭所有的訪問只發生在很短的時間內,則認為這類攝像頭是一個突發性訪問攝像頭。如果訪問發生在某個固定的時間間隔,則該攝像頭是周期性的。如果攝像頭在整個評估期間不斷被訪問,則該攝像頭具有不變的訪問模式。從每種訪問類別中隨機選擇3個同一重要類別的攝像頭,并使用60天的評估期計算不同日期的攝像頭價值,并默認所有其他參數,輸出結果如圖4所示,累計訪問量如表2所示。

圖4 3種類型攝像頭價值隨時間變化折線圖

表2 累計訪問量統計
具有周期性和恒定訪問模式的攝像頭隨著時間的推移具有微小的價值變化。突發性訪問攝像頭顯示出相對顯著的價值變化。此外,盡管在某些時段突發性攝像頭的累計訪問量高于常量性攝像頭,但是其價值輸出結果卻不如常量性攝像頭,這是由于該模型對不同的橫向時間段賦予不同的權值決定的,充分證明了該模型能反映橫向時間推移對監控視頻價值的影響。
2.1.2 布點重要性因素
從2.1.1節具有常量性訪問特征的攝像頭里隨機選取4個類別不同的攝像頭,同樣使用60天的評估期計算不同日期的攝像頭價值,并默認所有其他參數,顯然重要級別越高的攝像頭,其整體價值量越高,如圖5,重要級別從高到低的平均價值量分別為:7.8、4.5、3.9、1.7,然而,在某些日期不同重要性的攝像頭擁有相近的價值量,甚至在11/5、11/12會出現重要級別較低的攝像頭價值量反而較高的情況,這是訪問度因素導致的,當某段時間訪問度大量提高時,由于訪問度對結果的影響大于布點重要性對結果的影響,因此這種情況布點重要性因素會對模型輸出結果的敏感度降低。

圖5 不同重要性攝像頭整體價值量折線圖
2.1.3 訪問量因素
對模型的輸出結果根據價值尺度(1~10)劃分為4個部分,攝像頭價值量分布圖如表3所示,根據對模型的輸出結果進行分類,可以看出該模型能把不同價值量的攝像頭從宏觀上較好地區分開來,價值尺度高的攝像頭雖然所占比例少,但擁有高訪問量。其中,價值量為6~10的攝像頭占總攝像頭數量的4%,但是其訪問量占據了總訪問量50%以上,價值量3~6的攝像頭占總攝像頭數量8%,其訪問量占總訪問量的18%;相反,價值量為1的攝像頭雖然占總攝像頭數量的67%,但是其訪問量僅占總訪問量的3%。顯然,該模型對訪問量因素具有很好的敏感度。

表3 攝像頭價值與訪問量分布情況
2.2.1 特征值選擇和數據預處理
針對高價值量攝像頭進一步進行時間分布性分析,隨機選取其中一路高價值攝像頭(對應2.1.3節中價值量為(6,10]的攝像頭),根據1.3節理論基礎,取T=2小時,即把一天分為12個時間區間。針對交通領域,主要的研究對象為車輛。此外,違章檢測作為智能交通的重要應用研究,保存大量具有違章行為的視頻序列,對智能交通的研究具有重要意義。因此選定評價參數車流量c和違章標記數目p,利用公式(7)對多天同一時段的數據取均值,得到基礎數據如表4(括號外數據)。由于這兩個特征值的度量單位不一致,它們具有不同的量綱和量綱單位,這種情況可能會導致數據分析結果不準確,而且收斂速度慢。為了消除指標之間的量綱影響,解決數據指標之間的可比性,加快模型收斂速度,需要進行數據標準化處理。對原數據以列為單位經過線性變換,進行標準化處理,使得結果均落在[0,1]區間內。以平均車流量c為例,轉換如下,并得標準化數據如表4(括號內數據):

2.2.2 仿真實驗結果
取K值為3,利用matlab進行聚類仿真,得到如圖6結果。
可見,通過聚類后可以把一路視頻大致分為3類:分別為高價質量時間時間段,中價值量時間段,低價質量時間段。其中高價質量視頻數據為第5組與第10組,中價值量視頻數據為第4、6、7、9組,低價質量視頻數據為第1、2、3、12組。最后,可以篩選出該路視頻價值量最高的時間段是8:00-10:00與18:00-20:00。

表4 各時段車流量與違章均值數據

圖6 聚類結果
本文對監控視頻價值評定問題進行了研究,分析了監控視頻價值評估過程涉及的關鍵因素,提出了監控視頻價值量概念及其評估體系。通過實驗驗證,該評估體系具有以下4個特點:1)捕獲攝像頭價值隨時間的變化而變化;2)捕獲不同攝像頭類別數據之間價值的差異;3)從宏觀上把不同價值的攝像頭區分開來;4)把同一個攝像頭一天中不同時段的價值量區分開來。據此可為基于監控視頻價值量實現動態存儲管理分配與優化提供理論基礎。然而,該評估體系仍然具有一定的局限性,在CUT模型中對攝像頭布點的重要性依靠人為指定,缺乏一定的客觀性,考慮的因素不夠全面,在這方面可繼續深入考慮人口(例如外來人口、宗教信仰、年齡結構等)、建筑(例如建筑檔次、建筑密度等)、經濟(例如人均收入、貧富差距等)等因素對攝像頭布點重要性的影響。此外,在攝像頭篩選階段,未考慮到關聯性因素,相關的攝像頭之間可能存在大量重復冗余的數據。因此,下一步研究方向應對上述問題繼續深入探討。