趙希聰,黃凱,陳成軍,李東年
(青島理工大學機械與汽車工程學院 山東青島 266520)
裝配動作識別對于手動裝配監控、人機協作和裝配操作的人體工程學分析具有重要意義??紤]到用戶對產品多樣化需求的不斷增長,大規模定制已成為制造業的趨勢。在大規模定制的裝配過程中,存在各種具有不同結構型號的個性化產品,裝配過程中一旦缺少組裝步驟甚至工人的不規范操作都會對產品質量產生不利影響。因此,應在裝配線上監測或識別工人操作的規范性。目前根據裝配動作采集數據的方式不同,大致可分為兩類:基于機器視覺的動作識別技術和基于可穿戴設備的動作識別技術。
在基于機器視覺的動作識別技術方面,已經取得了一些成果。王天諾等使用3D卷積神經網絡模型在裝配動作視頻數據集上進行測試,準確率達到88.5%。CHEN等基于目標檢測和姿態估計算法對重復裝配動作進行識別?;谝曈X的動作識別技術,不需要穿戴傳感器等設備,只需要攝像頭對圖像進行捕捉,通過特定的機器視覺算法提取動作特征,從而進行裝配體動作識別,但這種技術往往受到光照、復雜的背景、視角遮擋等的影響。
在基于可穿戴設備的動作識別方面,KUTAFINA等采用HMM和ANN識別戴著MYO臂章的醫務人員的洗手動作,準確率達98.3%;OGRIS等采用隱馬爾可夫模型分類器,利用超聲波和IMU信號識別自行車維護場景中的工人活動,后來他們提出了一種基于字符串匹配的分割和分類方法,該方法使用多個IMU傳感器來識別汽車制造任務中工人的活動。KOSKIMAKI等使用腕戴式IMU傳感器捕捉手臂運動,并使用KNearest Neighbors模型對工業裝配線的5種活動進行分類;MAEKAWA等提出了一種無監督的測量方法,該方法使用帶有IMU傳感器的智能手表的信號來估算工廠的交貨時間。
通常動作識別技術分為兩個步驟:動作特征的提取和動作的分類。PHINYOMARK等在頻域上基于EMG功率譜密度的統計參數計算頻域特征。CHANG等提出了一種基于一個慣性測量單元(IMU)傳感器和兩個表面肌電圖(sEMG)傳感器的分層手勢識別方法,準確率可達到95.6%。針對動作分類,學者們已經提出了多種方法,例如支持向量機(SVM)、隨機森林、線性判別分析和主成分分析等。為了學習最有用的特征,JIANG和YIN提出了一種基于卷積神經網絡的方法,將sEMG信號作為網絡的輸入信號,以進行活動識別。
針對工人裝配動作識別問題,本文作者將手臂部位提取的表面肌電信號和慣性信號的動作特征以及卷積神經網絡的動作識別方法相結合,提出一種基于注意力時空特征融合網絡(Spatiotemporal Feature Fusion Network,SFFN)的裝配動作方法,在此基礎上不斷訓練網絡模型,從而實現對裝配動作的識別和分類。
在生產作業車間尤其是工件的組裝與裝配車間中,為了保證裝配動作的規范和完整,需要對裝配過程中人員的行為進行監管。在這些工件裝配過程中,雖然車間中有一套完整的裝配規范,但仍有部分員工無法按照標準的裝配流程進行操作,其中不乏經驗豐富的老員工。為了減少乃至杜絕由于裝配動作不規范而造成的產品質量問題,本文作者設計一套能夠對工人裝配動作進行識別的方案,以此對車間人員裝配動作進行智能監測。
該方案中,裝配動作識別主要由裝配動作數據采集、裝配動作數據預處理、裝配動作模型構建和裝配動作識別與評估4部分構成。
(1) 裝配動作數據采集??紤]到肌電信號能夠表達工人裝配動作類型,通過在手臂上佩戴MYO臂環來采集這種信號,并進行預處理和動作識別。
(2) 裝配動作數據預處理。通過MYO臂環采集到的裝配動作原始數據與理想的數據之間存在一定偏差,這些偏差主要是由MYO臂環傳感器自身的精度和實驗人員自身因素造成的。為此需要進行一些預處理操作來降低這些因素的影響。
(3) 裝配動作模型構建。針對預處理后的肌電信號,構建神經網絡模型,對工人裝配動作進行識別。
(4) 裝配動作識別與評估。本文作者使用自建裝配動作數據集對上述方法進行測試,并基于實驗結果提出結論和改進的方向。
加拿大Thalmic Labs公司于2014年推出MYO臂環,該臂環由8塊傳感器組成,分別對應采集8個通道的肌電信號數據。MYO臂環具有低成本、低延遲、佩戴舒適的特點,具有良好的適應性。
使用Thalmic Labs的MYO傳感器以200 Hz的采樣率采集8個通道的sEMG,采集的信號范圍為[-128,127],這些信號代表相應裝配動作所對應的肌肉激活水平。
裝配動作數據集由抓取零件、磨、銼、錘、擰螺絲、刷共6個裝配動作組成,每個動作的數據采集由5名23~25歲的健康實驗者完成。為避免在采集數據時不同實驗者佩戴的MYO傳感器的通道位置錯雜而造成干擾,在實驗之前規定MYO傳感器統一佩戴在前臂靠近肘關節上方的肌肉凸起位置,臂環LED標識向下。
表面肌電信號(sEMG)是指當骨骼肌收縮時,肌纖維所產生的微弱電信號在皮膚表面的募集。這是一種微弱的信號,頻率一般為10~500 Hz。肌電信號在采集過程中往往會受到一些噪聲的干擾,因此在進行裝配動作識別之前需要對它進行預處理以減小這些因素的影響。本文作者首先使用滑動窗口對200 Hz的sEMG信號進行采樣,滑動窗口的長度為200個時間戳,兩步之間的重疊率為75%;其次,設計一個頻率為50 Hz低通陷波濾波器用于處理sEMG信號以消除sEMG信號中由本地電源頻率引起的干擾,和一個頻率為30 Hz的零相移高通濾波器用于消除sEMG信號中手動操作產生的噪聲;最后,通過全波整流將sEMG信號全部轉換為正值,并將肌電信號的幅值歸一化到[0,1]范圍內。肌電信號預處理流程如圖1所示。

圖1 肌電信號預處理流程
本文作者提出的基于通道注意力的時空特征融合網絡模型由數據輸入層、時空特征提取層、注意力模塊、全連接分類層組成,如圖2所示。

圖2 基于注意力時空特征裝配動作模型
(1)數據輸入層:裝配動作表面肌電信號由測試者佩戴MYO臂環經過濾波等預處理成200×8的數據矩陣;
(2)裝配動作特征提取層:本文作者構造三層卷積神經網絡提取裝配動作的空間特征,通過反向傳播算法不斷優化網絡參數,再構造兩層時間卷積網絡提取時序特征,經過注意力模塊強化網絡的特征提取能力;
(3)分類層:將網絡提取的時空特征輸入到全連接層,經過SoftMax激活函數輸出裝配動作的分類結果。
為有效進行裝配動作的分類,需要從肌電信號中提取有利于動作分類的特征信息,但人工提取特征往往依賴相關領域的專家,有較大的局限性。隨著深度學習以及計算機性能的快速發展,應用深度學習方法可以自動提取特征的優勢逐漸顯現出來。因此,文中裝配動作信號的空間特征提取模塊則基于卷積神經網絡構建,由二維卷積層和ReLU激活函數以及最大池化層構成。每一個卷積層(Conv2d)中的具體參數如表1所示。

表1 Conv2d層網絡參數
在每一個卷積神經網絡后邊添加最大池化層,即使用某一位置的相鄰區域的最大值作為網絡在該位置的輸出,從而對特征進行壓縮、簡化網絡復雜度。池化層網絡參數如表2所示。

表2 MaxPooling層網絡參數
裝配動作具有連續性的特點,上一時刻的動作狀態對下一時刻的動作有較大影響,因此為提取裝配動作信號的時序特征,構建兩層TCN網絡架構作為時間序列特征的提取模塊。TCN網絡結構如圖3所示,它是一種融合了因果卷積和擴張卷積的殘差模塊堆疊序列建模結構,每個殘差模塊有兩層因果空洞卷積,并對卷積核權重進行規范化,使用ReLU激活函數增加層與層之間的非線性關系,同時添加Dropout層以減小過擬合。

圖3 TCN網絡結構
由MYO臂環采集的肌電信號是多通道的,不同通道之間的信號對特定動作的貢獻不相同。因此,應該優先選擇包含豐富裝配動作信息、裝配動作變化較明顯的通道來實現分類。本文作者通過添加SE Block模塊來學習自動獲取每個通道的重要性。根據此重要性來增強有用通道信息所占的比重并抑制對當前任務不太有用的通道信息。圖4所示為SE Block模塊的結構。

圖4 SE Block模塊
(1)Squeeze操作。通過全局池化操作沿空間維度將輸入數據的特征維度由[,,]壓縮為比例為[1,1,];
(2)Excitation操作。通過引入可學習參數來為每個特征通道生成對應的權重,并通過sigmoid函數對權重歸一化,完成建模特征通道間的相關性;
(3)Scale操作。將Excitation的輸出權重看做是經過選擇后的每個特征通道的重要性,實現通道維度上對原始特征的重標定。
然后,通過可學習的參數生成每個通道的權重并將每個權重值歸一化到0~1之間,對輸入特征數據進行逐層加權,并在通道維度上重新校準輸入特征的權重;最后,經過Scale操作使得輸入數據和輸出數據的維度一致。
實驗中使用的CPU是Intel Xeon E5-2630,GPU顯卡為 NVIDIA TITAN Xp。深度學習框架為Keras、深度學習模型的batch size為128、迭代次數為50。使用ADAM優化器,損失函數為交叉熵損失函數。在訓練過程中,不斷優化網絡參數,將訓練好的模型參數保存以用于模型的測試,進而評判模型對裝配動作的分類性能。
采用幾種常用的指標來評估分類性能,具體指標如下:

(1)

(2)

(3)

(4)
其中:表示正樣本被正確檢測個數;表示正樣本被漏檢個數;表示負樣本被正確檢測個數;表示負樣本被誤檢個數。
為驗證文中所構建的基于注意力時空特征網絡模型在裝配動作分類任務方面的優勢,文中還使用雙流CNN網絡模型和LSTM網絡模型進行對比實驗。為保證模型對比的有效性,3種網絡模型均采用相同的數據集、迭代次數、優化器、批處理大小。3種深度學習模型的準確率曲線如圖5所示。隨著迭代次數的增加,3種模型的準確率均不斷上升,文中所設計的網絡模型約迭代到10次時,網絡模型的準確率達到收斂,最高的識別率可以達到96.1%;CNN網絡模型準確率相對低一些,為94.2%;LSTM模型的識別準確率最低,在測試階段準確率波動也較大。文中構建的網絡模型準確率最高,而且波動較小,與CNN和LSTM相比,所設計的模型充分學習了數據的空間特征和時間特征,時空特征的融合更有利于裝配動作的識別。

圖5 3種模型的準 確率曲線
本文作者同時比較了3種網絡模型在準確率、精確率、召回率、得分方面的表現,如表3所示。CNN網絡模型相比LSTM網絡在準確率、精確率、召回率、得分方面均有提升。而文中提出的模型在準確率、精確率、召回率、得分方面性能表現最佳,比CNN神經網絡分別提高1.9%、2.5%、1.9%、2.2%。因此,所提的融合注意力機制的時空特征網絡模型在裝配動作識別任務中有良好的性能。

表3 3種網絡模型的分類表現 單位:%
本文作者還對每個特定的裝配動作進行了測試,最終融合模型的識別結果也以混淆矩陣的形式進行了展示,如表4所示。其中,每一行代表真實類,每一列代表預測類,斜對角線上的數字則代表各類裝配動作正確的識別結果。從結果來看:絕大多數裝配動作的識別準確率都在95%以上;單個動作中錘的識別率最高為99%,而銼的裝配動作識別率較低為94%,其中4%的動作被認為是刷。經過分析,造成這樣結果的原因是2種裝配動作相對其他動作而言有一定的相似度?;谶@個原因,神經網絡不能很好地學習到這兩類動作的特征。

表4 裝配動作識別混淆矩陣 單位:%
對工人裝配動作的識別是實現企業高效生產的重要方法。本文作者提出基于注意力時空特征網絡的裝配動作識別方法,并在開發的肌電信號裝配動作數據集上驗證了該方法的有效性。盡管研究取得了初步成果,但仍有一些工作有待進一步解決。設計出裝配動作識別準確率更高、適用于更多裝配動作的網絡模型是未來的研究方向。