胡偉棟,王占奎,董彥輝,張 召,朱永偉
(1.南京航空航天大學 機電學院,南京 210016)
(2.河南科技學院 機電學院,河南 新鄉 453003)
固結磨料研磨墊(fixed abrasive pad,FAP)是將微米級金剛石磨粒均勻分散到高聚物基體中,經過固化成形制備出的一種含磨粒的研磨墊[1]。FAP 在研磨加工中的表面形態直接影響被加工工件的材料去除率和被加工表面的表面質量。FAP 表面主要由金剛石、孔隙、金剛石脫落坑以及高聚物基體組成。其中,高聚物基體作為FAP 的主要成分,其硬度對FAP 的加工性能有著重要影響。明舜等[2]研究了磨粒尺寸和基體硬度對FAP 拋光YAG 晶體的影響,試驗表明:隨著基體硬度增大,YAG 晶體表面粗糙度先減小后增大,材料去除率增大。此外,金剛石磨粒的尺寸、分布等都會影響FAP 的加工性能。在采用固結金剛石聚集體磨料研磨墊加工石英玻璃時,金剛石聚集體磨粒的一次顆粒尺寸和二次顆粒尺寸對石英玻璃材料加工性能影響占比很大[3]。金剛石磨粒的脫落是影響固結磨粒研磨墊加工性能的另一個重要因素。由于FAP 原始表面較為光滑,且金剛石與基體的結合能力較弱,受到正應力和切向力的循環作用時,金剛石容易與基體分離而脫落,造成金剛石的浪費,縮短研磨墊使用壽命,并使其去除率下降[4]。孔隙的分布同樣影響著FAP 的加工性能。朱永偉等[5]通過在FAP 中添加不同粒徑的硫酸鎂晶體制造了3 種不同孔隙分布的研磨墊,試驗表明研磨墊的孔隙分布直接影響著FAP 的加工性能。
由于固結磨料工具的表面形態與其加工性能之間存在著緊密的聯系,所以對于固結磨料工具表面形態的識別與重構一直是研究的熱點。付杰[6]為研究FAP磨粒的保持特性,對FAP 表面的金剛石分別采用了RGB 法、閾值法、邊緣檢測法3 種方法進行識別。為準確地評價砂輪表面形貌,霍鳳偉等[7]提出了一種識別細粒度金剛石砂輪表面磨粒分布的方法,該方法依據磨粒輪廓頻率特征、磨粒間距和磨粒曲率半徑識別砂輪表面金剛石磨粒。賈坡等[8]提出了一種基于機器視覺的滾拋磨塊缺陷檢測方法,利用圖像灰度化、閾值分割、形態學處理提取磨塊區域和黑心缺陷區域,該方法能夠對燒結型球狀磨塊的圓度和黑心缺陷進行數字化檢測。趙玉康等[9]提出的金剛石線鋸全表面圖像磨粒分布密度檢測方法能提高其磨粒分布密度在線檢測精度,相較于單相機檢測結果,誤差大大降低。
為了更好地了解FAP 表面形態,對FAP 表面的金剛石、孔隙以及金剛石脫落坑進行目標檢測和分割。目標檢測一直是計算機視覺領域研究的熱點[10],其主要任務是完成目標的分類及定位。傳統的目標檢測方法通常有3 個步驟:首先,在圖像上選擇一些候選區;然后,人工對這些候選區進行特征提取;最后,送入分類器進行分類。其中,人工提取特征的質量直接影響檢測的準確性。由于實際圖像受干擾較多,而且一旦目標特征比較抽象,背景較為復雜,就不能很好地提取目標特征,所以人工特征提取往往存在一定局限性。而基于深度學習的目標檢測算法則是讓網絡通過訓練自己提取目標特征,利用龐大的數據量使算法具有較高的泛化能力。典型的深度學習目標檢測算法有R-CNN、Faster R-CNN、Mask R-CNN 等。其中,Mask R-CNN 是近些年來興起的一款深度學習模型,相較于其他模型,Mask R-CNN 更加小巧、靈活、通用,其不僅可對圖像中的目標進行檢測,還可以對每一個目標給出一個高質量的分割結果,因此廣泛應用于各個領域中。
楊智宏等[11]利用Mask R-CNN 對鐵譜圖像中的磨粒進行識別,試驗結果表明:模型可以實現單一圖像中多個目標磨粒的識別,識別結果達到主流水平。肖瀟[12]構建了一個基于改進Mask R-CNN 的遙感圖像檢測系統,利用公開的遙感圖像房屋數據集和手動標注的飛機數據集對構建的網絡模型進行訓練與測試,測試結果表明:該系統能夠有效提高遙感圖像目標識別的準確率,可用于遙感圖像目標的識別與分割領域。張娟娟等[13]提出一種改進的Mask R-CNN,實現了碳纖維增強復合材料的掃描電子顯微鏡圖像的自動化分割。
考慮到固結磨料研磨墊表面圖像背景較為復雜,所需檢測的目標,尤其是孔隙以及金剛石脫落坑的特征較為抽象,采用傳統的目標檢測算法很難有效地對目標進行識別。因此,采用深度學習模型Mask R-CNN對固結磨料墊表面圖像中的金剛石、孔隙以及金剛石脫落坑進行檢測和分割,輔助研究人員正確預測固結磨料研磨墊的加工性能。
Mask R-CNN 是由REN 等[14-16]提出的實例分割算法,是一款通用對象實例分割框架,可以添加不同的分支完成目標檢測、語義分割等任務。
Mask R-CNN 網絡總體結構如圖1所示,其是一個二階段目標檢測網絡,總體分為2 個階段。第1 階段,利用特征提取層對圖像進行特征提取,特征提取層的主干網絡采用的是殘差網絡(簡稱“ResNet”)。提取特征之后,結合特征金字塔網絡(feature pyramid network,FPN)生成多尺度特征圖。得到多尺度特征圖之后,候選區域生成網絡(region proposal network,RPN)生成目標圖像的候選區域,并將候選區域映射到相應的特征圖上。第2 階段,將得到的候選區域映射到特征圖后傳入ROIAlign層,ROIAlign 層將得到的候選區域進行下采樣得到固定維數的特征向量,再將特征向量送入全連接層進行分類和檢測邊框回歸。同時,模型在ROIAlign 層后面連接了一個用于生成目標掩碼的掩碼分支。

圖1 Mask R-CNN 結構圖Fig.1 Mask R-CNN structure diagram
理論上,神經網絡的性能與其層數是成正比的;但實際上,層數過多的網絡會出現網絡退化和梯度消失的問題,效果反而不如較淺的網絡。ResNet 的提出就是為了解決深層網絡的網絡退化和梯度消失的問題。ResNet 的基本思想是:隨著網絡的層數增加,網絡的性能是先提升后下降,那么一個網絡一定存在一個最優的層數,但并不知道最優的層數是多少,因此所設計的深層次網絡有很多網絡為冗余層。希望這些冗余層至少能夠完成恒等映射,這樣就可以保證模型性能不會因為這些冗余層而下降。至于哪些層屬于冗余層,需要網絡訓練時學習及判斷。ResNet 的核心是殘差模塊,其結構如圖2所示。通過加入恒等映射,殘差塊變得更加容易優化,從而在一定程度上解決了深層網絡退化和梯度消失的問題[14]。

圖2 殘差模塊Fig.2 Residual block
特征金字塔網絡(FPN)是Mask R-CNN 模型的核心組成部分,FPN 的提出是為了解決目標檢測中檢測多尺度目標時檢測精度不足的問題[17]。采用FPN 可以有效處理檢測過程中多尺度變化的問題。ResNet 結合FPN 的結構如圖3所示,包括3 個部分:自底向上連接、自頂向下連接和側向連接。自底向上連接就是簡單的特征提取過程,將ResNet 作為骨架,得到不同尺度的特征圖C1,C2,C3,C4,C5。自頂向下連接是從最高層開始上采樣得到高分辨率的特征圖M5,M4,M3,M2。側向連接就是將上采樣的結果和與之相對的自底向上生成的大小相同的特征圖進行融合,得到P2,P3,P4,P5。此外,M5 還經過下采樣生成P6(P6 在圖3中并未畫出),P6 只會送入候選區域生成網絡提取候選框,并不會在P6 上切出感興趣區域送入后續網絡。

圖3 FPN+ResNet 結構圖Fig.3 FPN+ResNet structure
候選區域生成網絡(RPN)是基于FPN 得到的特征圖P2,P3,P4,P5,P6,在特征圖上生成大小、比例不同的錨框。首先,RPN 會對生成的錨框進行修正;然后,根據前后景置信度,采用非極大值抑制的方法篩選出較為精準的錨框作為候選區域。得到不同候選區域之后,具體在哪張特征圖上切出感興趣區域,由式(1)決定。

式中:k值含義是在Pk(指P2,P3,P4,P5,P6)上切出感興趣區域;k0默認等于4;w,h分別是候選框的寬和高。
大尺度的候選區域從低分辨率的特征圖上切,有利于檢測大尺度目標;小尺度的候選區域要從高分辨率的特征圖上切,有利于檢測小尺度目標。
由于全連接層的輸入向量維數是固定的,所以在獲取候選區域之后,需要將其轉化為固定維度的特征向量,才能送入后續的全連接層進行分類和邊界框回歸。在Mask R-CNN 之前,這一步都由傳統的池化算法完成,其過程需要進行2 次量化,包括將浮點數的候選區域邊界量化為整數坐標值,以及將量化后的候選區域邊界分割成k×k個單元,再對每一個單元進行量化。2 次量化誤差造成特征圖上候選區與原圖不能準確對應,影響了分割的準確性。ROIAlign 則是采用雙線性插值的方法獲得浮點數坐標值,取消其量化過程,從而大大減小量化誤差,極大地提高了小目標分割的準確性。
要得到泛化能力較強的FAP 表面圖像檢測模型,就要求模型訓練所需的圖像數據不能太過相似。為得到表面特征差異較大的FAP,制作3 張磨粒粒徑、不同成孔劑占比不同的FAP,選擇碳酸氫鈉作為成孔劑,其占比決定了研磨墊中孔隙的多少。FAP 制備過程如下:配置合適比例的磨料與高聚物基體以及成孔劑混合物,經機械攪拌均勻后,注入模具熱固成形,最后進行固化。3 張FAP 磨粒大小與成孔劑占比如表1所示。

表1 固結磨料墊磨粒粒徑與成孔劑占比Tab.1 Abrasive particle sizes and pore forming agent proportions of FAP
新制備的FAP 表面的金剛石被高聚物包裹,為了使金剛石出露,并形成一定數量的金剛石脫落坑,在對固結磨料墊上的凸起進行圖像采集之前,需要對FAP進行修盤處理。修盤的具體操作如下:將SiC 粉末均勻撒在FAP 上,然后將油石壓在研磨墊上,反復打磨10 min,再清潔磨盤。修盤完成后,利用顯微鏡觀察FAP 表面,確保FAP 表面的金剛石已經出露后,將每個FAP 均勻劃分為4 個區域。在每個區域上選取5 個凸起,3 張墊共得到60 個凸起。利用徠卡顯微設備對每個凸起進行圖像采集,圖像放大后得到FAP 表面原始圖像共160 張。FAP 表面圖像如圖4所示。
得到原始研磨墊表面圖像后,利用OpenCV+Python3 對其進行鏡像翻轉、旋轉、調節亮度與對比度、平移等操作,然后進行預處理和擴充,擴充后,共得到500 張FAP 表面圖像。再利用Labelme 標注工具標注圖像中的目標類別,其中的研磨墊表面的金剛石亮度較高,有明顯金屬光澤、折線輪廓;孔隙亮度較低,有圓弧輪廓;金剛石脫落坑亮度較低,有折線輪廓,尺寸相較于孔隙較大。類別特征描述如表2所示,標注好的目標類別和掩碼如圖5所示。

圖5 目標類別與掩碼Fig.5 Target category and mask

表2 類別特征描述Tab.2 Categorical characterization
最后,利用Labelme,將標注好的500 張研磨墊表面圖像制作成可用于訓練和測試的數據集。并隨機抽取圖像的20%作為測試集,用來評估模型的性能。剩下80%的圖像作為訓練集,用來訓練模型。訓練集中隨機抽取圖像的25%作為驗證集,用于在訓練過程中調整模型的參數。
利用深度學習框架TensorFlow 搭建Mask R-CNN模型。Mask R-CNN 是一個龐大的模型,擁有大量的參數,若采用常規的方法初始化模型,需花費大量的時間訓練模型。MS COCO 數據集是一個大規模的數據集,擁有海量的數據。Mask R-CNN 模型經過MS COCO 數據集訓練后,所得到的模型參數是比較通用的初始化模型時所采用的參數。采用遷移學習的方法將其用于模型的初始化,既節省大量的時間,又能得到一個較好的結果。試驗所采用的優化器是帶學習動量的隨機梯度下降優化器,為了適應FAP 表面形態的識別任務,相比于原模型,采用了更小的錨框尺寸以減少RPN 生成的候選區個數。模型的部分超參數設定如表3所示。

表3 模型部分超參數Tab.3 Some hyper parameters of the model
訓練時,將迭代次數設置為30 次,每次迭代設置步數為400 步,批尺寸設置為1,訓練過程中損失函數值隨迭代次數變化如圖6所示。

圖6 損失函數值隨迭代次數變化圖Fig.6 Loss function value changes with the number of iterations
Mask R-CNN 的損失函數值由3 個部分組成:分類誤差、檢測誤差、分割誤差,總的損失函數值是這三者之和。訓練過程中模型的初始損失函數值為65.3,1 個迭代周期之后下降到10.1,之后下降速度變緩,模型的損失函數值在迭代20 次之后趨于穩定,值在2.3 上下,模型收斂。
在目標檢測任務中,為找到所有正樣本的能力,常用查全率ξRe評價模型;為預測準確的程度,用查準率ξPr評價模型。其計算公式如式(2)~式(3)所示:

式(2)~式(3)中:ξTP即真正例,為模型和人工標注均提取到的目標數;ξFP即假正例,為模型能提取到而人工未進行標注的目標數;ξFN即假負例,為進行人工標注而模型未能提取到的目標數。
由式(2)~式(3)可以看出:查全率和查準率越高,模型的性能越好。但實際上兩者不可兼得,為了兩者兼顧,可以通過模型的PR曲線來評價模型的綜合性能。PR曲線是通過改變置信度閾值,查準率隨著查全率變化的曲線,PR曲線所包圍的面積為精度ξAP,而所有類別的平均精度即ξmAP值反映了模型的綜合性能,是目標檢測模型中最重要的評價指標。試驗建立的FAP表面表征模型以模型在測試集上的ξmAP為評價指標。
模型在測試集上的ξmAP評價指標的結果為78.9%,已達到主流目標檢測算法水平(約70.0%)。
測試集中1 張圖像識別結果如圖7所示,相較于原圖,模型生成了各個目標的類別、位置框、置信度以及掩碼,本次試驗模型僅顯示置信度在0.600 以上的目標。從圖7中可以獲得FAP 表面的大體特征,具體的金剛石分布、孔隙分布以及金剛石脫落率等參數可進一步在此識別結果的基礎上進行研究。

圖7 識別結果Fig.7 Recognition result
(1)利用深度學習目標檢測框架Mask R-CNN對FAP 表面的金剛石、孔隙、金剛石脫落坑進行識別與分割,完成了端到端的過程,避免了傳統識別方法的復雜性,為從固結磨料墊表面形態預測其加工性能創造了有利條件。
(2)Mask R-CNN 模型能對單一固結磨料墊表面圖像中多目標進行有效分割與識別,主要評價指標平均準確率達到78.9%,達到了圖像識別的主流水平。