李心怡,石 旭,李 輝,姚世嚴,李天宇,鄭劍飛
(北京軌道交通路網管理有限公司,北京 100101)
傳統視頻分析方法主要依靠人工持續觀察監控視頻,非常消耗時間和人力資源。為了有效分析和利用海量的視頻數據,智能視頻監控(Intelligent Video Surveillance)應運而生[1]。通過機器學習和計算機視覺等領域的相關技術,利用人工智能方法對視頻內容進行自動分析,不但能解放人力,而且也可以實現對視頻中目標的檢測、識別和跟蹤,行人特征識別、行為分析、姿態檢測等多項功能。隨著智能視頻監控在各個領域的廣泛應用,如何提高相關算法的準確度,更加準確和快速地分析處理視頻內容,是近年來研究的重點。
行人重識別(Person Re-IDentification,ReID)算法是智能視頻監控中的一項重要技術,其目標是快速在多個不具有重疊區域的攝像場景中實現行人的檢索[2]。2014年以來,行人重識別技術的數據庫趨于大規模化,國內外一些高校(如西安交通大學、麻省理工學院)、研究所(如中科院)以及一些廠商(如曠視科技、依圖科技)的研究持續深入,使行人重識別技術得到了飛速的發展。此技術可以通過判斷圖像或者視頻序列中是否存在目標行人,實現對乘客軌跡的追蹤,進一步實現對客流的精確劃分,在軌道交通行業中有重要的應用價值。盡管人臉識別技術也可以完成目標行人的查找,但由于單位監控區域的像素低、人員流動性強、擁擠、遮擋嚴重、攝像機角度等原因,難以捕獲清晰的人臉,從而大大增加了依靠人臉識別實現乘客軌跡追蹤的難度。
然而,現階段行人重識別數據集的規模和數量還不成熟,當前國內外僅有4個較大的公開數據集:MSMT17、DukeMTMC-ReID、Market1501、CUHK01,最大規模的樣本庫僅包含4千人的20萬張行人圖片[3]。因此,基于國內外現有先進樣本采集和標注研究基礎,結合海量的視頻樣本,建立軌道交通行業的樣本庫有利于加強對乘客出行特征方面的數據挖掘,有利于加速由原始數據到產品的轉化過程,有利于推動行人重識別技術與地鐵行業深度融合,為智慧地鐵建設提供助力。人工智能產品研發生態鏈如圖1所示。

圖1 人工智能產品研發生態鏈
行人重識別系統的整體框架由相機網絡、行人檢測和行人重識別系統三部分組成[4]。行人重識別系統整體框架示意圖如圖2所示。

圖2 行人重識別系統整體框架示意圖
(1)相機網絡:基于軌道交通全路網7.4萬路攝像頭可實現目標區域的完全覆蓋,組成的相機網絡可以將監控視頻數據通過有線方式(如以太網)和無線方式(如5G網絡)進行傳播。
(2)行人檢測:通過相機網絡采集到的視頻圖像,利用無監督和對比學習算法生成預標注結果,自動檢測目標行人并用矩形將行人拉框標記。
(3)行人重識別:行人重識別算法包含圖像預處理、圖像特征提取和特征間相似度匹配等環節,目的是在候選圖像合集中檢索出與查詢目標一致的行人,并追蹤其在系統中的行走路徑。
人工智能時代,數據是燃料,算法是引擎,數據標注是將數據原油轉化為驅動算法迭代的數據燃油。因此,樣本標注是模型訓練前的關鍵步驟。現在,許多互聯網廠商(如百度等)專注人工智能領域數據采集和數據標注服務,擁有專業的標注團隊、審核機制和標注基地,為企業提供專業數據綜合解決方案,圖3展示了完善的視頻樣本標注流程。

圖3 完善的視頻樣本標注流程
在實際標注過程中,首先,標注人員將采集到的原始圖像或視頻數據,依據監控數量和角度進行場景選擇,捕獲有效視頻片段。其次,技術人員用算法自動過濾無效視頻,區分難易數據,進行初步的視頻清洗,根據清洗結果確定抽幀頻率。再次,標注人員利用標注工具,根據行業標注規范進行預標注和人工標注,在圖像中用矩形框出人頭和人體所在區域或用打點方式標注得到標注結果。最后,審核人員利用算法初審和人工復審的方式,保證標注質量,并應用到后續的模型研發、訓練和測試。
基于深度學習的行人重識別方法,大致可分為以下三個不同階段。
(1)圖像輸入階段。通過對原始輸入圖像進行轉換、添加額外的輸入信息等方式,改進深度網絡的輸入。
(2)網絡特征提取階段。通過網絡結構的設計,如添加多個網絡分支、設計新的網絡結構等方式,提取更好的特征表示。
(3)網絡優化階段。通過損失函數的設計以及使用不同訓練策略對網絡優化過程進行控制,得到更好的特征空間分布和網絡優化結果。
基于表征學習的方法是行人重識別的重要模型算法。現階段的科研人員主要通過成對一致隨機丟棄(Pairwise-Consistent Dropout)的方法提取更具有魯棒性的鑒別特征對行人進行表示。從輸入圖像中提取多個關鍵幀圖像,對保持一致或擬合度過高的圖像進行隨機丟棄,保證丟棄的特征維度相同,且滿足剩余的圖片仍然可以融合全局和局部特征進行行人重識別。
卷積神經網絡包含輸入層和輸出層兩部分。輸入層是根據輸入的圖像進行特征提取,內部有多個卷積核,其中組成卷積核的每個元素都對應一個權重系數和一個偏差量。卷積核在工作時,有規律地掃過輸入特征,在感受野內進行矩陣求和并疊加偏差量[5]。
在圖像識別過程中,需要將圖像轉換成像素值,輸入到模型中進行學習,機器通過卷積和池化操作不斷地利用不同的卷積提取圖像中的不同特征,從而實現在減少輸入尺寸的同時,提取圖像中最主要的內容。如圖4所示。
由于公共安全和智慧通行的迫切需求,ReID算法技術在智能監控系統中應用勢在必行,具有重大的研究價值和現實意義。但ReID算法技術仍然面臨著很大挑戰,主要體現為地鐵內實際的模型部署、動態更新的攝像機點位及相機網絡、陌生的測試場景、增量模型的更新和乘客換衣服等問題[6]。
構建軌道交通特定場景下的人員ReID系統通常需要以下5個主要步驟[7],如圖5所示。

圖5 為特定場景構建人員ReID系統的5個主要步驟
(1)數據采集。從監控攝像頭獲取原始視頻數據是實際視頻調查的首要要求,但全路網的7.4萬路攝像頭通常位于不同環境下的不同地方,數據背景煩雜。
(2)邊界框生成。通過行人檢測或跟蹤算法,從原始視頻數據中提取包含人物圖像的邊界框。
(3)訓練數據注釋。需要在每個新場景中對訓練數據進行注釋(如注釋跨相機名稱、場景、攝像機角度等)。
(4)模型訓練。利用模型從訓練數據中盡可能挖掘行人的隱藏特征表達模式。
(5)行人檢索。對訓練好的模型進行應用場景測試,檢驗模型效果。
魯棒性(Robustness)[8]:魯棒性要求算法能適應多場景,能夠在不同的視頻片段中都有較高性能。準確性(Accuracy)[9]:偏移(Deviation)、誤檢(False Positive)、漏檢(False Negative)是三個反應跟蹤準確性的三個指標。
(1)偏移:單個測量值與固定值的差異值。
(2)誤檢:檢測結果錯誤,并且結果呈現陽性;預測為正例,實際為負例。
(3)漏檢:即檢測結果錯誤,并且結果呈現陰性;預測為負例,實際為正例。
在實際研究中,盡管行人重識別的模型和算法趨于成熟,但在軌道交通行業,適合于特定場景的智能視頻分析樣本庫、行人視覺表觀差異、地鐵內非理想場景的行人重識別技術依然是計算機視覺領域中一個極具挑戰性的課題。
基于以上行人重識別技術存在的問題和挑戰,未來在收集跨時間、多場景的視頻數據樣本時,需簡化背景,盡力使乘客進出站時特征(例如,衣著、帽子、眼鏡、發型等)保持一致。車廂內采用魚眼攝像頭,擁有不同的拍攝視角,減少人員遮擋,提高圖像質量,減少光照變化,從而緩解位置偏移問題。基于本項目研發的樣本庫,建立代表性強、適用性強的大數據平臺,擴大樣本的規模,可以增加模型的魯棒性[10]。未來不僅可以更好地挖掘沉睡的海量視頻資源的價值,促進智能視頻分析技術更好地在地鐵行業應用落地,實現降低人工成本投入、保護乘客出行安全、提升乘客服務水平等目標,還可以為人工智能廠商提供算法學習和訓練的基礎環境,具有較強的經濟價值和社會效益。■