戴佳斌 張 潔 吳立輝
1.東華大學人工智能研究院,上海,201620 2.東華大學信息科學與技術學院,上海,201620 3.上海應用技術大學機械工程學院,上海,201418
晶圓制造系統具有制造設備多、在制品規模大、工藝路線復雜、多層重入等特點,是典型的復雜制造系統[1]。晶圓加工周期是晶圓制造系統的關鍵生產指標,對晶圓加工周期進行準確預測有利于晶圓制造企業提前預估訂單完成時間、合理制定生產計劃、優化生產排程,對提高晶圓準時交貨率與客戶滿意度等具有重要意義[2]。
晶圓加工周期受大規模、復雜關聯的生產特征數據影響,準確預測困難[3]。國內外學者圍繞晶圓加工周期預測開展了大量研究。TAI等[4]、YANG等[5]采用統計分析方法估計晶圓加工周期的分布規律,構建概率統計分布模型預測加工周期,但該方法對晶圓加工周期數據集高度敏感,預測模型的穩定性與準確性較差。YANG等[6]、HSIEH等[7]采用仿真分析方法構建晶圓制造系統模型,通過仿真分析預測晶圓加工周期,然而該方法需要大量時間構建生產仿真模型,預測結果的時效性不足,預測模型的適應性不強。SCHELASIN[8]、CHUANG等[9]采用了排隊論或排隊網絡等數學分析方法對晶圓加工周期進行建模預測,然而該方法的建模需大量時間,且預測精度較低。
近年來,隨著工業互聯網技術的發展,晶圓制造系統中與晶圓加工周期相關的設備狀態、工藝參數、物流搬運系統狀態、在制品等大規模生產特征數據被實時采集與存儲,構建了良好的大數據基礎平臺。以各類神經網絡為基礎的數據驅動方法逐漸用于晶圓加工周期的預測。WANG等[10]設計了一種雙邊長短期記憶的新型循環神經網絡,通過挖掘晶圓層與層之間的相似性,較準確地預測了晶圓的單層加工周期。CHEN等[11]結合PCA、FCM和BPN構建了一種模糊神經網絡模型用于晶圓加工周期預測。CHIEN等[12]提出了基于高斯-牛頓回歸法與BPN的晶圓加工周期預測方法。TIRKEL[13]利用數據庫中發現的知識與BPN神經網絡構建了晶圓加工周期預測模型。WANG等[14]采用網絡反卷積去除晶圓特征間的間接相關性,建立了預測晶圓加工周期的BPN模型。
相較于傳統的統計分析、仿真分析、數學分析等方法,基于長短期記憶神經網絡、BPN網絡的數據驅動方法具有較好的適應性與預測穩定性,然而這些數據驅動方法存在以下不足:①晶圓制造過程中,大量生產特征數據內部及關鍵生產特征數據與晶圓加工周期之間具有復雜的相關性,現有的數據驅動預測模型設計未充分考慮上述復雜相關性的影響,難以有效保障晶圓加工周期的預測精度;②相同批次晶圓在加工過程中經歷的加工設備及采用的加工工藝存在相似性,所獲得的晶圓生產特征數據樣本之間的時間相關性強,現有的數據驅動晶圓加工周期預測模型未考慮樣本的相關性因素,模型訓練效率較低。
為此,本文提出一種融合雙重注意力機制與并行門控循環單元(dual attention mechanism and gated recurrent unit, DAM-GRU)的晶圓加工周期預測方法,在數據預處理的基礎上,通過構建并行GRU網絡挖掘生產特征數據樣本之間的時間相關性,設計DAM來學習關鍵生產特征的相關度信息,從而提高晶圓加工周期的預測精度與預測效率。
數據驅動的晶圓加工周期預測問題以晶圓制造過程中采集的生產特征數據集合X={x1,x2,…,xL}為輸入參數,以預測的晶圓加工周期y為輸出指標。生產特征數據包括設備負載率、各工序的加工時間、晶圓優先級、物流搬運系統狀態、在制品數量。這些數據具有以下特點:
(1)大規模特性。晶圓制造需數十次重入氧化、外延、光刻、蝕刻等加工區,加工工序多達300~1000道。每道工序需要專用設備加工,與加工周期相關的設備、工藝、物流、在制品等相關生產特征參數達數千個。
(2)生產特征數據關聯的復雜性。晶圓逐層加工,每一層電路的加工需重入各加工區內的相同設備組 ,采用大量相似工藝,導致部分設備的狀態與工藝相關的生產特征數據存在強關聯性。由于加工過程中的工藝約束,工藝路線上下游設備間的耦合性強,導致晶圓制造過程中采集的生產特征數據強關聯。
(3)生產特征數據樣本相關性強。晶圓制造過程中,相同批次的晶圓lot通常同時進入晶圓加工車間,因此采用的加工工藝、經歷的加工設備、對應的物流狀態、系統在制品狀態等具有強相似性,導致晶圓的生產特征數據樣本在時間上具有較強的相關性。
基于DAM-GRU的晶圓加工周期預測方法框架如圖1所示。數據預處理包括兩個環節:特征提取與特征數據樣本集分類。特征提取基于Relief-F方法對生產特征數據集進行降維處理,篩選與加工周期相關的關鍵特征子集,獲得關鍵特征的關聯矩陣W、特征與加工周期關聯的向量F。特征數據樣本通過模糊C均值(fuzzy C-means, FCM)算法實現基于工藝相似性的分類,將生產特征數據樣本集合分解為多個并行數據樣本子集合。

圖1 基于DAM-GRU的晶圓加工周期預測方法框架
通過樣本數據子集合構建并行DAM-GRU預測模型,各DAM-GRU由輸入層、特征關聯層、注意力(Attention)層、預測輸出層構成。輸入層主要從數據樣本子集合獲取輸入數據樣本,并對數據進行最大-最小值[1]歸一化處理,消除特征量綱差異的影響。特征關聯層由并行GRU單元網絡構成,并通過模擬同批次晶圓的加工過程與加工工藝相似性,挖掘晶圓生產特征數據樣本之間的時間相關性,提高預測模型的訓練效率。注意力層通過設計關鍵生產特征間的相關注意力及特征與加工周期相關的注意力網絡,強化關鍵生產特征對加工周期的貢獻差異,提高預測模型的精度。預測輸出層為全連接網絡層,通過對注意力層輸出的隱藏狀態向量進行加權求和,實現對晶圓加工周期的預測輸出。
2.1.1基于Relief-F的特征選擇
晶圓制造生產特征數據的大規模、復雜關聯等特點導致預測模型訓練效率低、預測精度差等問題,因此需對生產特征數據進行降維去冗余處理。Relief-F算法的計算時間復雜度與生產特征數量線性正相關,可量化關鍵生產特征間及特征與預測目標間的復雜相關性,且特征子集能保留數據原始信息[15],適用于晶圓加工周期預測問題的生產特征提取?;赗elief-F的晶圓生產特征與加工周期關聯向量Fin=(F(x1),F(x2),…,F(xL))的計算公式為
(1)
(2)
式中,xi為第i個生產特征;F′(xi)為前一輪計算所得特征xi與晶圓加工周期的相關值;q為特征選取迭代次數;R為每次隨機選取的生產特征數據樣本;Hj為與樣本R所屬子集相同的第j臨近樣本;B為與樣本R所屬集合不同的其他數據集合;Mj(B)為集合B中與樣本R第j臨近的樣本;k為與樣本R最臨近的樣本數量設定值;P(B)為集合B中的樣本個數占總樣本的數量比例;P(class(R))為R樣本所在集合class(R)中的樣本個數占總樣本的比例。
關聯向量Fin歸一化處理后,通過設定的閾值篩選出高相關性特征,形成關鍵生產特征與加工周期的關聯向量F=(F(x1),F(x2),…,F(xN)),其中,N為關鍵生產特征數量?;贔計算特征間關聯矩陣[Wi,j]:
(3)
其中,softmax(*)為歸一化指數函數。
2.1.2基于FCM的數據集聚類
由于晶圓制造系統加工產品的多樣性,晶圓生產特征數據樣本集合會因加工批次及加工工藝的差異而具有明顯的分類特性。本文從加工工藝相似性角度出發,采用FCM算法[16]對生產特征數據樣本進行工藝相似性聚類處理,為提高并行DAM-GRU預測模型的學習效果奠定數據基礎。
基于FCM的生產特征數據樣本聚類步驟如下:
(1)設定聚類中心的數量C與模糊系數k,隨機初始化隸屬度矩陣:
(4)
式中,up,q為樣本Xp屬于第q類的隸屬度,p=1,2,…,i;q=1,2,…,j。
(2)基于式(3)計算聚類中心:
(5)
式中,m為生產特征樣本數;
(3)基于聚類中心cj更新隸屬度矩陣U1,更新后的隸屬度ui,j為
(6)
(4)重復步驟(2)、步驟(3),直至
(7)

2.2.1輸入層
輸入層主要從預測模型對應的生產特征數據樣本聚類子集合中獲取輸入數據樣本X=(X1,X2,…,Xm)T,針對數據樣本Xm=(x1,m,x2,m,…,xN,m)各特征數據度量單位多、差異大的特點,采用最大-最小值方法[1]對其進行歸一化處理以消除特征量綱差異性影響:
(8)

2.2.2特征關聯層
特征關聯層針對輸入層生產特征數據樣本對應的晶圓加工工藝相似性及數據樣本之間的時間相關性,構建基于并行GRU單元的特征關聯網絡。GRU是一種用于處理序列數據的循環神經網絡,能保證預測精度和較高的計算效率[17]。并行GRU特征關聯網絡能模擬晶圓的加工工藝相似性,挖掘晶圓生產特征數據樣本之間的時間相關性,具有較高的模型訓練效率。


圖2 GRU單元結構
zt=σ(Wz[ht-1Xt])
(9)
rt=σ(Wr[ht-1Xt])
(10)
(11)
(12)
2.2.3注意力層
注意力層從特征關聯層獲得隱藏狀態向量,基于生產特征間關聯矩陣W構建關鍵特征間相關Attention,通過特征間相關性實現對隱藏層信息的升維。利用升維后的信息生成Attention權重,實現特征間相關性作用下的第一次注意力分配。在此基礎上,通過基于關鍵生產特征與加工周期關聯向量F構建特征與加工周期相關Attention,強化關鍵生產特征對加工周期的貢獻差異,完成全局信息下的生產特征第二次注意力分配,提高預測模型的精度。注意力層結構設計如圖3所示,雙重注意力的具體實現步驟如下:

圖3 注意力層結構圖
(1)將特征關聯層輸出的隱藏狀態向量ht與生產特征間關聯矩陣W進行哈達瑪積相乘,獲得細粒度化后的隱藏狀態相關矩陣WH:
WH=Hadamard(W,ht)
(13)

(14)
(4)依次抽取WH的各個列向量,并重復步驟(2)、步驟(3),獲得各個特征相關性作用下的注意力分配矩陣。
(5)對各個特征相關性作用下的注意力分配矩陣進行累加平均處理,獲得各個特征相關性作用下的注意力分配均值矩陣:
(15)
實現特征間相關性作用下的注意力分配。
(6)將WD進行降維處理:
(16)
(7)將注意力分配均值向量Wd和特征與加工周期關聯向量F進行哈達瑪積相乘,實現特征與加工周期間的相關性作用下的第二次注意力分配。形成的雙重注意力機制作用下的隱藏狀態向量h′t=Hadamard(F,Wd)可輸出至特征關聯層與全連接輸出層。
2.2.4預測輸出層
預測輸出層為全連接網絡層,它對注意力層輸出的隱含狀態向量h′t進行加權求和處理,實現對晶圓加工周期yt的預測輸出。全連接層的計算公式為
yt=h′t·vt
式中,h′t為注意力層輸出;vt為全連接網絡權重;t為預測樣本的序號。
為驗證本文提出的晶圓加工周期預測方法的有效性,采用某晶圓制造企業的歷史生產數據進行實驗分析。該歷史生產數據(共20000條)集包括晶圓在各設備中的等待與加工時間、晶圓的在制品數量、物料搬運系統的負載、晶圓優先級等775個生產特征參數,輸出為晶圓加工周期。
實驗驗證涉及的參數設置主要包含Relief-F閾值0.6、FCM設定參數(模糊系數2、迭代次數100、迭代終止設定值ε=10-8)、DAM-GRU神經網絡學習參數等。DAM-GRU神經網絡的學習采用梯度下降法[3],學習參數設置如下:學習率為0.1,動量為0.9,動量抑制因子為0.5,權重衰減為0.01,迭代次數為200。評價指標為均方根誤差、平均絕對誤差、平均絕對百分比誤差以及模型訓練時間。
預處理晶圓制造的歷史生產數據集,基于Relief-F方法獲得46個關鍵生產特征;為驗證并行GRU網絡與DAM的有效性,分別從并行GRU預測模型與DAM這兩個功能模塊對DAM-GRU預測模型進行消融實驗;為保證實驗結果的可靠性,采用10倍交叉驗證方法[10]選取訓練數據集與驗證數據集。
3.2.1DAM的有效性驗證
利用DAM-GRU、Self-Attention-GRU和GRU分別構建預測模型進行消融試驗,實驗結果如圖4、表1所示。圖4表明,40個測試集樣本下,DAM-GRU的預測值更接近晶圓加工周期的真實值,DAM-GRU的預測模型具有更高的預測精度。表1中,DAM-GRU預測模型的訓練時間為10.3 s,優于Self-Attention-GRU預測模型的訓練時間16.6 s。以上結果表明,雙重注意力機制能通過強化網絡計算過程中的特征相關性差異,提高加工周期的預測精度,且相較于自注意力機制,雙重注意力機制具有更高的訓練效率。

表1 不同模型的訓練時間

圖4 不同預測模型的結果
3.2.2GRU的有效性驗證
將DAM-GRU與DAM-LSTM進行對比消融試驗,結果如圖5、表1所示。圖5表明,相較于DAM-LSTM,DAM-GRU在精度上有小幅提升。表1中,DAM-GRU的訓練時間為10.3 s,相較于DAM-LSTM的14.4 s,訓練效率提高約30%,這對提高晶圓加工車間動態調度的實時響應能力具有重要意義。以上結果表明,GRU網絡通過模擬晶圓lot在時間相關性上的關聯與傳遞特性,挖掘樣本的關聯關系,能在保持晶圓加工周期預測精度的同時,提高預測模型訓練效率,即本文設計的并行GRU網絡是有效的。

圖5 基于DAM-GRU和DAM-LSTM的預測模型結果
將DAM-GRU與基于BPN、PCA-BPN[11]、MLP[18]、RandomForest的晶圓加工周期預測方法進行對比,驗證DAM-GRU方法在預測精度與預測效率的優勢。其中,PCA-BPN將數據集特征降低到46個(與DAM-GRU相同),其余預測方法保留原有數據集的775個特征進行模型的訓練與測試,同樣采用10倍交叉驗證確保實驗結果的可靠性。對比結果如表2所示。

表2 DAM-GRU與傳統預測模型的結果
從表2中可知:①相較于PCA-BPN,DAM-GRU預測結果的均方根誤差從12.12 h降低到9.43 h,平均絕對誤差從8.96 h降低至7.45 h, 平均絕對百分比誤差從4.52%降低到3.71%,模型訓練時間從13.41 s降低至10.27 s,這證明DAM-GRU較PCA-BPN具有更高的預測精度與預測模型訓練效率;②RandomForest方法的均方根誤差、平均絕對誤差、平均絕對百分比誤差分別為10.98 h、7.89 h和3.98%,與DAM-GRU具有相近的預測精度,但模型訓練效率遠低于DAM-GRU;③DAM-GRU在預測精度及預測模型訓練效率上明顯優于MLP、Bagging、DecisionTree、SVM。以上對比分析結果表明,基于并行DAM-GRU的晶圓加工周期預測方法是有效的。
為提高晶圓加工周期的預測精度與預測效率,本文提出一種基于DAM-GRU的晶圓加工周期預測方法。該方法在對數據進行預處理的基礎上,通過構建并行GRU神經網絡挖掘相鄰晶圓樣本之間的時間相關性,以提高模型預測效率;通過設計雙重注意力機制學習關鍵特征間及特征與加工周期的相關度信息,強化特征對加工周期的貢獻差異,提高模型預測精度。實例研究表明,DAM-GRU方法是有效的。下一步將繼續挖掘晶圓制造生產特征的關系及其在預測模型訓練過程中的作用,以提高晶圓加工周期預測模型的預測精度及其魯棒性。