李冬陽,張 張,徐志剛,白鑫林
(1.中國科學(xué)院沈陽自動化研究所機器人國家重點實驗室,遼寧 沈陽 110179:2.東北大學(xué)機械工程與自動化學(xué)院,遼寧 沈陽 110819;3.中國科學(xué)院機器人與智能制造創(chuàng)新研究院,遼寧 沈陽 110169;4.上海航天化工應(yīng)用研究所,浙江 湖州 313000)
航空工業(yè)的快速發(fā)展,對導(dǎo)彈或航天飛行器的動力裝置和關(guān)鍵部件固體火箭發(fā)動機的生產(chǎn)制造提出了更高的要求。藥柱作為發(fā)動機重要組成部分,在加工過程中的每個流程都需要嚴格把控,既要保證加工質(zhì)量,又要確保安全生產(chǎn)。藥柱是在儲存裝藥的殼體中燃燒,發(fā)生器內(nèi)壓強比較低,為了解決燃速偏低,燃面爬升較長的問題,需要在藥柱端面鉆盲孔[1]。復(fù)合固體推進劑是一種非晶體高聚物,在工作狀態(tài)下會出現(xiàn)彈性和粘性同時變形的存在,屬于粘彈性材料[2]。在傳統(tǒng)的方法無法滿足特殊產(chǎn)品加工需求的情況下,以傳統(tǒng)方法做參考,用現(xiàn)代技術(shù)手段做深入的研究,才能得到更加穩(wěn)定和可靠的結(jié)果。
由于對粘彈性材料的鉆削溫度預(yù)測研究是十分稀少的,可以參考其他相似的預(yù)測方法進行研究。文獻[3]利用埋入式k型熱電偶對切削刃附近的溫度進行了實驗測量。根據(jù)切削能量引起的熱輸入,計算主切削力和切削速度,模擬切削刃的溫度轉(zhuǎn)變過程。文獻[4]同時運用了傳統(tǒng)TCD 算法以及改進TCD 算法對45#鋼缺口試樣的疲勞壽命進行了預(yù)測,與實驗結(jié)果進行比較,改進的TCD算法取得了比較滿意的效果。文獻[5]以BP神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),分析初值、不同速度及不同軌跡對模型的影響。結(jié)果表明基于合適的BP神經(jīng)網(wǎng)絡(luò)方法可以將軌跡誤差控制在3mm內(nèi),提高軌跡精度。文獻[6]理論研究探討了鉆頭與骨間傳熱、鉆頭與周圍環(huán)境的熱對流以及鉆頭初始溫度對熱場發(fā)展的影響。文獻[7]采用回歸分析方法和人工神經(jīng)網(wǎng)絡(luò)方法對加工過程中刀具-切屑界面溫度隨切削參數(shù)變化的預(yù)測進行了研究,對模型的實際作用進行驗證性分析。文獻[8]提出了一種基于模擬退火-粒子群算法優(yōu)化支持向量機參數(shù)的連鑄漏鋼預(yù)報算法,結(jié)合某鋼廠連鑄現(xiàn)場歷史數(shù)據(jù)對提出的連鑄漏鋼預(yù)報算法進行了測試,預(yù)報算法準確率可達98.8%。
針對已有的研究基礎(chǔ),機器學(xué)習(xí)在相似領(lǐng)域的應(yīng)用都取得了不錯的效果,機器學(xué)習(xí)作為一種數(shù)據(jù)驅(qū)動的建模方法,嘗試作用于鉆削粘彈性材料領(lǐng)域。通過鉆削加工理論分析,可以得到影響藥柱鉆削加工溫度的主要因素為:主軸轉(zhuǎn)速、進給速度、環(huán)境溫度、鉆削深度。
鉆削加工屬于材料去除過程中比較復(fù)雜的一類,切削熱主要來源于材料變形產(chǎn)生的熱量、刀具與材料接觸摩擦生成的熱量和熱輻射。大部分機械能轉(zhuǎn)化為熱能,以熱量的形式使加工區(qū)域溫度升高。前刀面與后刀面交接的小范圍區(qū)域處于一個相對封閉狀態(tài),熱量聚多散少,溫度較高。切削過程中的熱能機理,如圖1所示。

圖1 熱能機理示意圖Fig.1 Schematic Diagram of Thermal Mechanism
這里實驗環(huán)節(jié)采用專一為藥柱成形加工設(shè)計的鉆削一體加工單元,為實現(xiàn)藥柱在成形加工過程中快速自主夾緊、放松,在成形加工過程中不會對設(shè)備產(chǎn)生附加擾動力,發(fā)明了一種藥柱成形加工時的固定裝置。還配備有溫度檢測模塊,孔深測量模塊,視覺檢測模塊等。刀具的刃口與工件在工作階段沒有穩(wěn)定接觸點,因此無法直接測量刀具鉆頭溫度,采用精度較高的熱電偶測溫法[9]。
通過K 型熱電偶與溫度控制儀、數(shù)據(jù)采集模塊、SIMATIC WinCC過程監(jiān)控系統(tǒng)和計算機軟件共同完成溫度數(shù)據(jù)的采集與處理,其加工單元,如圖2所示。

圖2 加工單元和刀具圖Fig.2 Machining Unit and Cutting Tool Drawing
根據(jù)已有的加工條件,為確保加工安全性,加工過程中的最高溫度不能超過50℃。以防加工過程中溫度的驟變,一般留有5℃左右的余量。選用參數(shù)在主軸轉(zhuǎn)速為(100~300)r∕min,進給速度為(0~3)mm∕s,環(huán)境溫度為(10~40)℃,以鉆頭的減少長度轉(zhuǎn)換為鉆削深度值,記錄不同鉆削深度值時對應(yīng)的溫度。在較合適的參數(shù)范圍下,已通過實驗得到了360組數(shù)據(jù)。根據(jù)已有加工經(jīng)驗,得到在主軸轉(zhuǎn)速150r∕min,進給速度1.3mm∕s,環(huán)境溫度為20℃時的最高溫度為28.9℃,對應(yīng)此時的實時監(jiān)控界面和實物圖,如圖3所示。

圖3 實時監(jiān)控界面和實物圖Fig.3 Real-Time Monitoring Interface and Real Object Diagram
加工生產(chǎn)的數(shù)據(jù)采集過程中,有可能出現(xiàn)個別數(shù)據(jù)缺失的問題,只有部分機器學(xué)習(xí)模型具有自動處理缺失數(shù)據(jù)的能力。為了避免選擇的數(shù)據(jù)出現(xiàn)缺失的情況,首先可以構(gòu)造一個lambda函數(shù)來查看缺失值,然后查看有多少行缺失。如果缺失量不大,可以通過查找定位,直接刪除異常項。如果缺失量比例占樣本比例超過20%則需要對數(shù)據(jù)進行分析和重新選擇合適的數(shù)據(jù)集。處理完缺失值,將采用多變量異常值處理-聚類法對數(shù)據(jù)集中可能出現(xiàn)的異常值進行進一步處理。利用聚類法將數(shù)據(jù)對象分成多個簇,具有較高相似度的對象在同一簇中,對比分析挖掘孤立點作為噪點數(shù)據(jù),并通過蓋帽法進行剔除。
在數(shù)據(jù)集中,特征值有不同的數(shù)值范圍,直接將數(shù)據(jù)輸入模型進行計算,某個特征的方差較大,影響其他特征的正常計算,影響預(yù)測精度。采用數(shù)據(jù)標準化的方法,將原始特征向量更改為更適合進行機器學(xué)習(xí)模型的形式。正常情況下,當數(shù)據(jù)中存在一些離散值時,對數(shù)據(jù)進行合理的縮放使機器學(xué)習(xí)的算法更加顯著。使用MinMaxScaler來實現(xiàn)將特征縮放到給定的最小值和最大值之間。轉(zhuǎn)換函數(shù)為:
式中:x—任意數(shù)據(jù)點;min—樣本據(jù)的最小值;max—樣本數(shù)據(jù)的最大值。這里對原始數(shù)據(jù)是進行的線性變換,將數(shù)據(jù)歸一到[0,1]中間。進行這種標準化縮放的目的可以使不同數(shù)量級的特征具有可比性,而且不影響數(shù)據(jù)的分布,從而實現(xiàn)特征極小方差對系統(tǒng)參數(shù)擾動的不敏感性。
建立預(yù)測模型的機器學(xué)習(xí)算法一般都是屬于有監(jiān)督學(xué)習(xí)。先要識別數(shù)據(jù),然后再將識別的結(jié)果作用于待識別數(shù)據(jù)加上標簽的方法就是有監(jiān)督學(xué)習(xí)[10]。有監(jiān)督學(xué)習(xí)方法必須要同時具有訓(xùn)練集與測試樣本,在訓(xùn)練集中找規(guī)律,把這種規(guī)律使用測試集進行驗證。通過實驗得到的數(shù)據(jù)集隨機抽取其中的70%作為訓(xùn)練集,剩下的30%作為測試集。數(shù)據(jù)是隨機選取的,但是數(shù)據(jù)都只是利用了一次,沒有利用充分。為了更加準確的評估模型的準確率,尋找更好的超參數(shù)組合,選擇K折交叉驗證方法。將原始數(shù)據(jù)隨機分成K份,每次選擇(K-1)份作為訓(xùn)練集,剩余的1份作為測試集。重復(fù)K次進行交叉驗證,把K次預(yù)測結(jié)果的平均值作為最終模型的評價標準。這種方法,可以有效改善過擬合和欠擬合的情況。選取的數(shù)據(jù)集并不算太小,綜合效率和準確度的影響,選擇K值為3。
這里的四個自變量為(主軸轉(zhuǎn)速、進給速度、環(huán)境溫度、鉆削深度),用數(shù)學(xué)表達式表示為={x1,x2,x3,x4},因變量為鉆削溫度,表示為。選取了三種計算原理完全不同的三種算法,以建立比較理想的溫度預(yù)測模型。
線性回歸是一種經(jīng)典的回歸算法,可以準確描述當自變量和因變量是線性關(guān)系時,數(shù)據(jù)之間的線性關(guān)系。線性回歸的模型為:
式中:w—權(quán)重系數(shù);b—截距。
該算法就是想找到合適的權(quán)重系數(shù)和截距,通常使用均方誤差作為回歸模型的損失函數(shù)。均方誤差是由殘差平方和除以樣本數(shù)量得到的,這里的殘差平方和代表的是點到直線平行于y軸的距離,而不是直接使用垂線距離。損失函數(shù)公式如下:
為了突出數(shù)據(jù)特點,體現(xiàn)算法原理差異性,這里選擇隨機森林算法。隨機森林是由bagging算法和決策樹算法組合而成的,將兩個弱監(jiān)督模型組合來得到一個更好的強監(jiān)督模型。隨機森林是bagging算法改進,但是這里的弱學(xué)習(xí)器都是決策樹。而且這里的數(shù)據(jù)取樣不僅是樣本的隨機取樣而且也是特征的隨機取樣。隨機森林算法的出現(xiàn)主要是為了解單一決策樹可能出現(xiàn)的很大誤差和容易過擬合的問題。隨機森林算法的損失函數(shù)為:
式中:MSE—均方誤差;MSEbag—bagging 算法的均方差;yj—第j顆決策樹的輸出值;xi—向量;yi—實際負荷值。
這里為提高計算精度,采用多層感知機神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的基本原理是在學(xué)習(xí)的過程中不斷突觸的權(quán)重值來達到合適的條件,具有一定的自適應(yīng)能力。
神經(jīng)網(wǎng)絡(luò)的具體構(gòu)成:(1)輸入層,用于樣本數(shù)據(jù)的輸入;(2)隱藏層,對上一層的信號進行函數(shù)處理,神經(jīng)網(wǎng)絡(luò)的隱藏層個數(shù)可以一層或者多層;(3)輸出層,對隱藏層的結(jié)果進行處理達到條件即可輸出結(jié)果。這里說的函數(shù)處理,就是激活函數(shù),有很多的形式,常用的有Sigmoid函數(shù)、Tanh函數(shù)和ReLU函數(shù)等。BP神經(jīng)網(wǎng)絡(luò)的回歸問題,優(yōu)化目標的損失函數(shù)有很多種,這是選擇均分誤差的方法:
式中:n—樣本個數(shù);yi—樣本對應(yīng)的樣本實驗值;—算法的預(yù)測值的輸出值。
選擇基于python語言的兩個常用框架Scikit-learn和Tensorflow,這兩個框架非常適合機器學(xué)習(xí)的使用,具有很強的可移植性。前者的對象接口簡單,可以通過一些數(shù)值計算庫高效的實現(xiàn)算法應(yīng)用,幾乎涵蓋了所有主流機器學(xué)習(xí)傳統(tǒng)算法。而另一個更加偏向于算法的開發(fā)和應(yīng)用,易于數(shù)據(jù)的深度挖掘和分析,對神經(jīng)網(wǎng)絡(luò)的超參數(shù)調(diào)節(jié)和算法優(yōu)化都是十分有利的。因此,這里選用前者進行線性回歸和隨機森林回歸預(yù)測,利用后者進行BP神經(jīng)網(wǎng)絡(luò)預(yù)測。
在線性回歸算法中,以最小二乘法擬合可以得到線性函數(shù)表達式中的各個權(quán)重和截距,通過對訓(xùn)練集數(shù)量的調(diào)整和不斷優(yōu)化,最終得到h(x)=0.014x1+7.35x2+0.90x3+0.96x4-12.25。利用折線圖和線性回歸散點圖來描述預(yù)測數(shù)據(jù)與真實數(shù)據(jù)實際的擬合情況。其中帶圓圈的折線真實值,帶三角的折線代表預(yù)測值??梢酝ㄟ^折線圖明顯的看出測試集每一個點的擬合情況,以及預(yù)測值與真實值的差值為多少。通過回歸散點圖可以得到每個數(shù)據(jù)點在擬合所得直線附近的分布情況。
線性回歸似乎對本模型有一定的擬合能力,而且在一部分點的真實值與預(yù)測值都有比較好的重合度,如圖4所示。但是仔細觀察發(fā)現(xiàn)在很多數(shù)據(jù)點有比較大的差值,比如在樣本數(shù)(60~100)之間一段相當一部分的數(shù)據(jù)差值在5℃附近,對于溫度差值域30℃來說,其擬合效果較差。主要原因還是與線性回歸的本質(zhì)有關(guān),默認幾個自變量和因變量之間是線性關(guān)系,在面對非線性函數(shù)關(guān)系時,存在擬合能力不足的問題。

圖4 線性回歸折線圖和散點圖Fig.4 Linear Regression Line Diagram and Scatter Diagram
首先利用重采樣的方式隨機生產(chǎn)子測試集,作為算法輸入,開始在每個節(jié)點隨機的選擇特征進行分裂,實現(xiàn)多個樹的成形。最終將多個模型的均值作為預(yù)測輸出,即使個別的回歸樹模型出現(xiàn)錯誤,也能彌補回來,這里我們選擇50個回歸決策樹進行計算。
隨機森林模型在測試集上的準確率相比于線性回歸模型有明顯的提升,不管在數(shù)據(jù)集的低密度點還是高密度點,都有相當好的擬合效果,如圖5所示。因為其集成兩種算法的優(yōu)點再加上引入的兩個隨機特性,使其具有一定的抗噪能力和處理高維度數(shù)據(jù)的能力。對數(shù)據(jù)集的要求較低,既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù)。每棵樹獨立生成互不影響,便于做并行計算,提高計算效率。解決了單個決策樹回歸的過擬合問題,具有較好的普適性。

圖5 隨機森林回歸預(yù)測圖Fig.5 Random Forest Regression Prediction Diagram
神經(jīng)網(wǎng)絡(luò)適合求解內(nèi)部復(fù)雜機制的非線性問題,與隨機森林相比,它具有更多的超參數(shù)。通過不斷調(diào)節(jié)超參數(shù)組合,獲得最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型如下。網(wǎng)絡(luò)結(jié)構(gòu)為四個輸入層,一個輸出層和兩個隱層。每個隱層神經(jīng)元的個數(shù)為17,激活函數(shù)為ReLU 函數(shù),損失函數(shù)采用均方誤差。在訓(xùn)練的過程中選擇迭代次數(shù)為3000,初始化函數(shù)為Xavier,學(xué)習(xí)為0.01和具有高效性能的Adam優(yōu)化算法。
真實值與預(yù)測值重合很高,就算中間一段數(shù)據(jù)有比較大的數(shù)據(jù)波動,也可以得到較好的預(yù)測精度,如圖6所示。在計算時,網(wǎng)絡(luò)結(jié)構(gòu)的選擇是十分復(fù)雜難定的,需要根據(jù)已有的經(jīng)驗不斷調(diào)節(jié)參數(shù)。在計算時也會出現(xiàn)不收斂,過擬合和輸出結(jié)果不穩(wěn)定等問題。但是其強大非線性擬合能力和特征提取能力,使其具有高精度的非線性逼近連續(xù)函數(shù)的能力和自動學(xué)習(xí)數(shù)據(jù)間規(guī)則的能力,可以獲得更高精度。同時需要注意過擬合現(xiàn)象,提高泛化能力。

圖6 BP神經(jīng)網(wǎng)絡(luò)預(yù)測圖Fig.6 BP Neural Network Prediction Diagram
通過三種算法預(yù)測折線圖可以大致的看出各個模型的擬合情況,但是需要更加明確的量化指標來表現(xiàn)這種差距,這里選擇決定系數(shù)和均分誤差來進行定量計算。決定系數(shù)是擬合優(yōu)度的統(tǒng)計量,表示輸入模型的解釋變量對自變量的聯(lián)合程度影響。而均方誤差是對預(yù)測值與真實值之間差異程度的一種度量。決定系數(shù)的表達式為:
均分誤差的表達式,如式(5)所示。將決定系數(shù)和均方誤差兩個衡量指標作用三個不同的模型,計算可得出對應(yīng)的指標數(shù)據(jù),如表1所示。整體來看,三種算法的決定系數(shù)都是在0.6量級以上,三種算法都有重要的參考價值。雙隱藏層的BP神經(jīng)網(wǎng)絡(luò)算法經(jīng)過不斷的優(yōu)化,決定系數(shù)可以達到0.989,說明該算法的解釋性最好,而線性回歸為0.674,隨機森林在為0.906。從均方誤差來看,BP神經(jīng)網(wǎng)絡(luò)算法的值遠小于其他兩種算法,說明其擬合能力最強。綜上可得,神經(jīng)網(wǎng)絡(luò)的計算和超參數(shù)調(diào)節(jié)比較復(fù)雜,但是在測試集上兩個指標都是最理想的。

表1 三種算法模型的性能對比圖Tab.1 Performance Comparison Diagram of the Three Algorithm Models
在藥柱鉆削加工過程中,切削位置的溫度關(guān)系影響整個成形制造單元的安全性,同時也是提高成形過程高效性的重要參數(shù)指標。若切削過程中溫度過高,包覆藥柱會發(fā)生燃爆,導(dǎo)致嚴重的安全隱患;若切削溫度過低,切削過程的生產(chǎn)效率會受到較大制約,無法滿足生產(chǎn)任務(wù)的緊迫需求。因此需要建立高精度的溫度預(yù)測模型,可以在給定的參數(shù)約束下,不斷尋求最優(yōu)的參數(shù)組合方案。在建立較高精度模型的基礎(chǔ)上,針對同一材料不同深度的加工批次都可以實現(xiàn)提前防控的目的。
(1)利用線性回歸、隨機森林回歸和BP神經(jīng)網(wǎng)絡(luò)三種機器學(xué)習(xí)算法,建立了四種加工參數(shù)和鉆削溫度之間的關(guān)系模型。
(2)線性回歸的擬合效果最差,決定系數(shù)只有0.674,也側(cè)面說明該模型不是簡單的線性模型。隨機森林算法對比于線性回歸擬合效果有較大的提升,決定系數(shù)提升至0.906,均方誤差減少至5.283。
(3)BP神經(jīng)網(wǎng)絡(luò)算法得益于其自動學(xué)習(xí)數(shù)據(jù)間規(guī)則的能力,決定系數(shù)和均分誤差都取得了比較理想的效果,分別為0.989和0.612,預(yù)測精度最高。超參數(shù)眾多造成的模型容量大,超參數(shù)調(diào)節(jié)比較復(fù)雜等問題,后續(xù)可以通過一些智能算法進行優(yōu)化,但是滿足特殊加工產(chǎn)品的高精度要求。