李晟,周超
(福州大學 機械工程及自動化學院,福建 福州 350116)
鈦及其合金具有耐腐蝕、導熱率低及生物相容性好等特點,在航天、航空、醫療等領域廣泛應用,是具有特殊戰略意義的高性能金屬材料[1]。采用不同工藝加工的鈦合金表面具有不同的幾何形貌,其對零部件的摩擦、磨損、潤滑等性能的影響越來越大,已成為決定零部件性能的重要因素之一[2-3]。
不同工藝加工的零件表面形貌存在結構性差異,正確選用評定參數對定量表征加工表面質量從而進一步指導改進加工工藝具有重要意義。由于粗糙表面的三維本質,傳統的二維輪廓評定參數不能全面表征表面質量,越來越多的研究工作者選用三維參數評價表面質量[4]。ISO 25178-2: 2012給出了5類共40多個三維參數,必須針對特定應用從中選取合適的參數集,方能準確、全面地評定表面質量。例如,吳乙萬等[5]利用三維參數分析超精密光學表面,認為Sq、Sdr、Sdq能很好地表征光學表面性能。楊潔等[6]基于機器視覺對不同工藝處理的金屬樣塊進行研究,認為Sq、Ssk、Sds可作為三維表面粗糙度評價的可靠參數;趙登超等[7]選取三維參數中的高度類、空間類和混合類中的12個參數進行聚類分析,發現Sa、Sq對于識別不同拋光工藝的紫銅表面的貢獻度最大。
本文采用超聲滾壓、車削、磨削、拋光、銑削5種不同工藝加工鈦樣本表面,使用三維輪廓儀測量表面幾何形貌;基于機器學習中的隨機森林算法,以表面的三維參數Sa、Sq、Ssk、Sku、Sp、Sv、Sz、Sal、Str作為研究特征,進行表面的自動分類、特征篩選(上述表征參數的意義及算法,參見文獻[5]),發現Sa(算術平均高度)、Sq(均方根高度)和Ssk(偏斜度)組成的參數集具有表征表面質量的最高重要性,并可精準區分不同加工表面。
隨機森林(random forest,RF)算法由LEO Breiman[8]提出,將CART決策樹與Bagging算法相結合,形成一種集成學習算法(ensemble learning)。CART決策樹是二元分類器[9],其通過兩個隨機過程進行構建:1)有放回地從訓練樣本數據集中隨機抽取固定數目的樣本作為訓練樣本集合;2)每棵樹使用的特征集是從總數據集中隨機選取的少數特征。通過組合多棵決策樹,最終求平均值獲得預測結果。
CART決策樹的構建由非葉節點開始,選擇特征的隨機子集中的最佳分割點將數據二分類,且不斷生長,當數據到達葉節點后不再劃分。為將特征元素更合理地分布在非葉節點上,CART決策樹通常采用基尼系數使信息增益最大化:
(1)
式中:IG為基尼系數;s為待分類特征;Dp為父節點;Nl為左子節點樣本數量;Np表示父節點中樣本數量;Nr為右子節點樣本數量;Dl為左子節點;Dr為右子節點。
對于特征s,在決策樹生長過程中,利用式(1)計算出節點劃分前后的不純度之差,便得到不純度衰減量。平均所有決策樹得到的平均不純度衰減量,最終得到該特征的重要性[10]。對每個特征進行此操作,便得到所有特征的重要性,從而進行排序、篩選。
本文選用直徑為20 mm的鈦棒,分別采用車削、超聲滾壓、銑削、磨削以及拋光5種工藝加工其圓端面,每種工藝加工2個試樣,總計10個試樣。車削使用外圓車刀,轉速為300 r/min,進給量為80 mm/min,背吃刀量為0.2 mm;球頭超聲滾壓的加工深度為0.2 mm,進給量為250 mm/min;銑削使用球頭銑刀,轉速為10 000 r/min,進給速度為550 mm/min,切削深度為0.15 mm;磨削使用1500號砂紙;拋光使用絲絨拋光布,粒度為1.5 μm的鉆石膏,拋盤轉速為1 400 r/min。采用三維輪廓儀測量樣品表面中范圍為10 mm×10 mm的區域,采樣間隔為4 μm,每個表面測得2 500×2 500個高度點數據。
對測量的原始數據做預處理。根據文獻[11],經小波變換濾除測量基準面、高頻噪聲和異常值點;在每個測量表面隨機選取50個128×128個采樣點組成的正方形區域,總計500個表面樣本。
編寫相關粗糙表面三維參數的計算程序。為適用模型訓練,將計算所得所有三維參數制成數據集。表1給出了表面三維參數Sa(算術平均高度)、Sq(均方根高度)、Ssk(偏斜度)、Sku(峰態)、Sv(最大谷深度)、Sz(最大高度)、Sp(最大峰高度)、Sal(自相關長度)和Str(紋理特征比),具體幾何定義見文獻[4],并展示了數據集中部分數據,每一行代表一個樣本表面。

表1 鈦棒加工表面三維參數
在數據集中,包含500個樣本表面及其9個三維參數,記作500×9維的矩陣,即X∈R500×9:
(2)
其中每一個xi(j)代表三維參數的具體值。
類似地,用1個500維的列向量表示5種加工工藝的類形標記:
(3)
其中每一個y(i)代表1個樣本的類標,取值分別為1—超聲滾壓;2—車削;3—磨削;4—拋光;5—銑削。
將數據集按照3∶7的比例分為訓練集和測試集,保證兩者同分布。為得出合理、可靠的結果,需優化算法模型,因此繪制決策樹數量的驗證曲線,分析最佳決策樹數量取值,如圖1所示。

圖1 決策樹數量的驗證曲線
由圖1(灰色部分為方差)可見,隨著決策樹數量上升,模型預測準確率總體上升直至平坦。決策樹數量上升,雖然預測準確率上升,但模型復雜度升高,過擬合愈加嚴重,同時選用不同決策樹數量帶來的分類以及重要度的計算成本隨之增加。因此需在計算成本與降低過擬合之間權衡。利用K折交叉驗證法對算法進行評估,選擇合理的決策樹數量,量化預測準確率與泛化性能,如圖2所示。

圖2 決策樹數量得分曲線
由圖2可知,當決策樹數量<10,準確率高但方差也高,說明過擬合程度較高;>60時,預測準確率下降而方差卻升高,說明過擬合程度也較高;而在30~40之間時,準確率與方差的差別很小。因此考慮到計算效率與計算成本,選擇30棵決策樹較為合理。
利用優化好的隨機森林模型對數據進行擬合并繪制學習曲線,分析模型性能如圖3所示。

圖3 學習曲線
由圖3可見,隨著訓練樣本數增加,模型在訓練集上擬合良好,而在驗證集上則是初始準確率上升較快,而后趨于平穩上升,在樣本數250之后趨于穩定;模型的泛化性能穩步提升,最后與訓練準確率只相差2.23%,說明模型對訓練數據有輕微過擬合。
利用優化好的模型,計算9種三維參數對分類表面的重要度并排序,得到圖4所示結果。

圖4 特征重要性及排序
由圖4可知,Sa的重要性得分最高,為0.23,其次是Sq和Ssk,分別為0.15和0.14。從得分情況看,選擇Sa、Sq和Ssk作為評定參數集較為合理。為驗證合理性,以Sa、Sq和Ssk作為空間三坐標軸,對分類結果做可視化展示,分析合理性,詳見圖5。

圖5 三維參數分類結果
由圖5可知:對于超聲滾壓、拋光、銑削及車削、磨削、銑削,數據在Sa、Sq和Ssk組成的三維空間中呈線性可分態,說明分類效果良好;滾壓和車削呈線性不可分態,可能是由于滾壓在車削后加工,未能完全去除殘余特征;拋光和磨削之間參數差距較小,可能是因為拋光的切削深度小,兩者留下的特征較為接近。從表面分類來看,Sa、Sq和Ssk有良好的分類效果,作為評定參數集是合理的;從樣品表面分析,由于128×128個點組成的正方形區域面積較小,表面紋理特征較為簡單,因此Sa、Sq和Ssk可以更好地評定表面質量,同時有計算簡便的優勢。
本文提出采用隨機森林算法篩選三維參數用以評定鈦加工表面的方法。結果表明:只需向隨機森林算法提供加工試樣表面的小部分區域和部分三維參數,就能自動、準確分辨不同表面;隨機森林算法能夠定量計算三維參數在分類表面過程中的貢獻度大小,對于5種加工工藝而言,Sa、Sq和Ssk有最大的重要性,分別達到了0.23、0.15和0.14;由Sa、Sq和Ssk組成的空間中,超聲滾壓、拋光、銑削(車削、磨削、銑削)工藝的整體區分效果良好,說明此3種參數即可分類不同加工工藝,因此選用Sa、Sq和Ssk參數集定量評定鈦加工表面質量是合理的,并可為提高加工質量、優化加工工藝提供定量依據。