陳雪健, 秦水介, 白忠臣, 郭媛君, 楊之樂
(1 貴州大學 大數據與信息工程學院, 貴陽 550025;2 貴州大學 貴州省光電子技術及應用重點實驗室, 貴陽 550025;3 中國科學院深圳先進技術研究院, 廣東 深圳 518055)
在現代施工現場,已經基本實現了監控攝像頭的全面覆蓋。 因此,圖像和視頻數據不僅記錄了非法入侵施工現場的信息,還包括各種設備和建筑工人的活動。 但是這些視頻數據的提取利用并不完善。 近年來,機器視覺領域取得巨大研究進展[1-2],相關機器視覺模型被廣泛應用在各個方面,例如能見度測定[3]、基于手勢識別的手部康復系統[4]、輔助駕駛[5]以及用圖象識別的方法代替電阻等傳統火焰檢測技術[6]。 近年來,Transformer 在自然語言處理、計算機視覺等人工智能領域取得了可觀成果。并且因為其強大的全局信息捕捉能力被廣泛應用在了計算機視覺研究中。 土方挖掘機作為一種全地形施工設備,現已成為了土方作業中不可或缺的重要設備。 并且土方作業運營成本大部分都來自于大型施工設備,因此對于施工設備進行監控并輔以相應調整是提高設備生產率的最佳手段[7-11]。
本研究的主要貢獻體現在以下幾個方面。 首先,將計算機視覺這個領域的先進技術(目標識別、動作分割)結合起來,應用于施工現場施工設備的活動分析,自動監控與分析施工現場大型設備的工作。 與最近的研究相比,本文提出的模型基于長視頻的動作分割模型,將未裁剪的長視頻直接應用于訓練和識別。 此外,本文還提出了一種根據挖掘機動作計算挖掘機工作效率的方法。 該方法更適合通過挖掘機動作來計算挖掘機的工作效率,同時,該監控系統還可以幫助施工管理人員直觀地了解土方挖掘機在一段時間內的詳細活動信息,管理人員可以使用自動化監控手段更好地調度施工設備,促進項目的開展與實施。
本文提出的深度學習方法主要包含2 個階段,框架如圖1 所示。 由圖1 可知,首先使用Faster RCNN[12]模型對挖掘機視頻進行處理,檢測視頻中是否存在卡車或挖土機。 然后,采用三維卷積神經網絡提取其時序特征,并將結果輸入到ASFormer[13]模型中,對挖掘機的動作序列進行訓練和識別。 最后,計算挖掘機土方作業的工作效率。

圖1 框架流程圖Fig. 1 Workflow of the proposed framework
這個過程的目的是確定挖掘機和卡車在視頻的每一幀中的位置。 為了識別視頻中的挖掘機和卡車,本文采用了快速循環卷積神經網絡(Faster R-CNN)該模型由Ren 等學者[12]開發,并已廣泛應用于各個領域。 在建筑領域,以往的研究已經證明了該模型在惡劣施工條件下檢測施工工人和設備的巨大潛力[14]。
Faster R-CNN 中使用了卷積神經網絡(CNN)。該網絡使用卷積層、激活層和池化層堆疊來提取圖像 的 特 征 圖, 隨 后 的 Region Proposal Networks(RPN)和全連接層共享該部分提取的特征圖。 其中,RPN 網絡用于生成區域特征。 隨后,RoI 池化層的功能是通過整合信息提取出proposal feature map,發送給后續的全連接層,并對目標類別做出判斷。最后,利用proposal feature map 計算類別,再次獲得復選框的最終精確位置。
另外,在實際的施工現場,土方挖掘機在作業過程中會有各種動作,因此在識別挖掘機的過程中,要考慮到工作中挖掘機的各種動作識別。 本文采用3種不同的長寬比(1 ∶1、1 ∶2、2 ∶1)進行標記,使所提出的模型能夠檢測到動作不斷變化的土方挖掘機。 同時,為了提高模型的魯棒性,本文從現場不同角度采集了不同外觀土方挖掘機的工作視頻。 除此之外,還使用了常用的數據增強方法,在標記圖像時進行縮放、旋轉和鏡像,以擴充數據集。
在挖掘機的動作分割識別過程中,本研究應用了ASFormer 模型。 由于在施工現場獲得的視頻是未經編輯的長視頻,一個視頻包含多個需要識別的動作。 并且土方挖掘機的工作狀態總是一系列動作序列,所以挖掘機的動作識別與動作分割任務目標高度重合。 考慮到 ASFormer 模型應用了Transformer 結構,其動作分割的性能得到了很大的提高。 ASFormer 的模型如圖2 所示。 由圖2 可知,ASFormer 使用帶有編碼器- 解碼器結構的Transformer 模型。 編碼器首先根據預先提取到的視頻的時序特征預測每幀的初始動作概率。 然后由連續的解碼器對初始預測結果進行優化。

圖2 動作分割網絡Fig. 2 Action segmentation network
編碼器的輸入為預先提取的視頻的時序特征,大小為T × D,其中T為視頻幀數,D為預先設定的特征維數。 編碼器在第一層使用全連接層,輸出用作后面一系列編碼器塊的輸入。 此后再將編碼器塊的輸出送入全連接層以獲得初始預測結果。 每個編碼器塊由前饋層和帶有殘差連接的單頭自注意層組成。
對于解碼器,首先其輸入來自編碼器的初始預測。 解碼器的第一層由一個調整輸入大小的全連接層開始,隨后是一系列解碼器塊。 解碼器的結構類似于編碼器。 前饋層為時序卷積,交叉注意層為分層結構。 與編碼器結構中的自注意層相比,交叉注意層的主要區別在于查詢Q和鍵值K是由編碼器的輸出和上層的輸出串聯獲得的。 這樣做的目的是為了讓解碼器中的每個位置都可以參與編碼器的初始預測結果的細化。 最后通過堆疊這些單獨的解碼器來細化結果。 為了逐步減少外部信息對預測結果的影響,避免誤差積累,在解碼器接收每一個輸入之前,增加加權殘差連接前饋層和交叉注意層:
其中,out為前饋層輸出;x為前饋層輸入;α為交叉注意層系數。 對第一個解碼器設定α =1,而后對其余的解碼器α則采用了指數增加策略。
在施工過程中,挖掘機通常與大卡車等其他施工設備一起工作。 例如,在土方挖掘工作中,挖土機挖掘土壤,并將其裝入卡車的鏟斗中。 當卡車滿載時,挖掘機將土壤移至傾卸區,繼而在裝貨區等待重新裝貨。 如果單獨研究土方挖掘機,其工作過程主要分為“挖掘”、“擺動”和“裝載”。 因此,將“挖掘-旋轉-裝載-旋轉”定義為挖掘機的一個工作循環。另外,土方挖掘機還具有“移動”和“靜止”兩種作用狀態。 當挖掘機開始工作時, “移動”和“靜止”對工作效率幾乎沒有貢獻,因此本研究將2 個動作列為其他動作,不在工作循環中,當計算挖掘機工作效率時只考慮工作循環中的動作類型。 挖掘機的工作狀態如圖3 所示。

圖3 挖掘機工作狀態及流程Fig. 3 Working state and process of the excavator
在土方挖掘過程中,當挖掘機鏟斗載荷一定時,挖掘機的工作效率可以用單位時間內的工作循環次數來表示。 在工作循環中,挖掘機的挖掘和傾倒對挖掘機的工作效率貢獻最大。 除此之外,挖掘機的工作效率還受到擺動動作時間占比例的影響。 例如:當擺動時間占比較高時,其效率會受到影響而降低。 經過以上分析,本文將挖掘機工作效率計算公式定義如下:
其中,c表示工作循環數;tc、ts分別表示工作循環總時間和旋轉動作總時間;EWP表示挖掘機的生產率,即單位時間的工作循環數。
為了訓練深度學習模型,本研究使用普通光學相機和智能手機采集實際土方開挖現場的視頻流數據,采集的視頻數據可以記錄挖土機的所有作業類型,所收集的視頻數據示例如圖4 所示。 為了避免光照和拍攝角度對結果的影響,實驗人員在不同的時間和不同的角度進行視頻采集工作。 在視頻采集過程中,使用了6 個普通光學攝像頭和2 部智能手機,總共收集了97 min 的視頻數據。 經過選擇,最終選取分辨率為380?640、幀率為30 fps、總圖像幀數約80000幀的44 min 視頻數據進行分析。 對于識別任務的數據,本研究進一步將數據分為訓練集數據(約60000 片)和測試集數據。 在動作分割模型的訓練過程中,將選出的44 min 視頻大致分成4 部分,其中3/4 作為訓練集數據,其余作為測試集數據。

圖4 數據集示例Fig. 4 Examples of the dataset
本研究訓練的深度學習模型在挖掘機和卡車識別任務中表現良好,準確率為93.81%。 識別結果如圖5 所示。 對于挖掘機的活動識別部分,本研究訓練的模型在測試集中達到了93.25%,F1值分別為0.87、0.856、0.75。 測試集中某段視頻的分割結果如圖6 所示。 在圖6 中,從上到下展示了視頻實例的真實分割、分割結果以及幀動作類別的可能性。 另外,挖掘機和卡車識別模型可以在大多數環境中準確識別和檢測這2 種類型的施工設備。 在分析挖掘機的活動時,動作分割模型能夠準確識別其各種工作狀態,包括:挖掘、傾卸、擺動、停止、移動。

圖5 目標檢測結果Fig. 5 Excavator and truck identification results

圖6 挖掘機動作分割結果Fig. 6 Excavator action segmentation results
本文提出的模型具有良好的性能,但仍存在一些不足。 例如,在挖掘機、卡車識別過程中,若施工設備被大面積遮擋,識別就會產生較大的誤差。 在施工現場,這種遮擋通常發生在設備之間,模型不能對這種情景進行有效的判斷,此時可以通過調整光學攝像機的位置來解決。
挖掘機的生產率通過分析計算挖掘機動作分割的結果得來。 挖掘機活動識別的結果可以直觀地展示其活動的順序。 模型輸出的識別結果對應于每個視頻幀,因此可以通過視頻的幀率來計算每個動作的持續時間,以獲得各動作持續的準確時間以及次數。 將這些數據應用到1.3 節提出的方法中,能夠計算挖掘機的工作效率,從而可以進一步評價其對整個建設項目的貢獻。 2 臺挖掘機的工作效率分析結果見表1。 由表1 的計算結果可知,挖掘機1 的工作效率為1.18 個工作循環/min,挖掘機2 的工作效率為1.22 個工作循環/min。 可以看出,挖掘機2的效率要高于挖掘機1 的效率。 表2 所展示的是對挖掘機的動作進行人工識別結果,以及對挖掘機生產率的估算。 通過將表1 與表2 內容對比,可以看出通過視頻自動處理得到的結果與人工識別精度相當,當需要監測的設備較多時,借助機器視覺的方法可以大大節省人力成本,同時也能保證分析的準確度。

表1 挖掘機生產率分析結果Tab. 1 Analysis results of excavator productivity

表2 挖掘機動作人工識別結果Tab. 2 Manual segmentation results of excavator action
本文提出了一種基于計算機視覺的挖掘機作業和生產率自動化監測框架,該框架集成了基于長視頻的挖掘機檢測、動作識別和生產率計算模塊。 檢測模塊識別挖掘機在視頻幀中的位置。 動作分割模塊對長視頻中的挖掘機活動進行分割。 最后,根據識別出的挖掘機活動信息計算挖掘機的生產率。 本研究對施工監控視頻進行識別分析,并將分析結果與人工分析結果進行了對比。 對生產率分析的結果表明,應用生產率監測系統得到的挖掘機的工作效率的準確率與人工分析得到的準確率的誤差很小,當施工工地監測設備較多時,機器視覺處理視頻數據的速度比人工速度快,能夠大大降低施工現場管理的人工成本,提高設備使用效率,降低安全風險,為智慧工地數字化提供了可靠的技術途徑。