基于深度殘差網絡的恒星光譜類別預測

2021-05-11 07:23:26王天翔范玉峰王曉麗王傳軍

光譜學與光譜分析 2021年5期

王天翔，范玉峰，王曉麗，龍潛，王傳軍

1.中國科學院云南天文臺,云南昆明 650011 2.中國科學院大學，北京 100049

引言

LAMOST，全稱“大天區面積多目標光纖光譜望遠鏡”，是世界上光譜獲取率最高的望遠鏡，可同時獲得4 000個天體光譜[1]。目前LAMOST已經發布7季數據，在最新發布的DR7中光譜數量已經高達1 448萬條，如何對海量光譜進行有效利用成為亟待解決的問題。對這些光譜進行分類是天文數據處理的重要一環。通過對恒星光譜的分類，研究人員可以從中獲取有效溫度、質量和半徑等物理信息，也可以研究銀河系的結構和演化過程[2]。目前主流的恒星分類系統是MK光譜系統。每個恒星都根據其有效溫度由高到低排序，依次分為O,B,A,F,G,K和M七種光譜型，每種光譜型又根據溫度從高到低細分為0—9的次型光譜，本文不涉及光度型分類。

目前光譜自動分類的方法主要有三種類別，分別是基于距離度量的方法、機器學習的方法和基于模糊邏輯知識系統的專家系統。Schierscher等[3]將Artificial Neural Network(ANN)運用在對Sloan Digital Sky Survey(SDSS) DR7恒星光譜的分類上。Liu等[4]對LAMOST數據使用線指數和SVM算法對恒星光譜進行MK分類。其中SVM方法對A，F和G型恒星分類效果達到90%的準確率，對O，B，K和M型恒星只有52%的準確率。Kaushal等[5]針對已標注數據太少，難以訓練深層神經網絡分類器的問題，提出一種半監督方法。該方法在無監督學習階段使用自動編碼器對無標簽數據進行提取特征和聚類，用有標簽數據進行微調，最后在主要光譜類別的平均準確率達到89%。在涉及光譜次型的分類模型上，Gray等[6]提出一種專家系統，通過直接與MK分類標準對比來將恒星光譜分類。在信噪比大于100的數據集上可以達到0.6個光譜次型的精度。劉蓉等[7]使用非參數回歸的方法在分類精度上達到了2.2個光譜次型。Kheirdastan等[8]使用ANN,SVM,K-means方法，分別達到1.39，1.53，1.65個光譜次型的精度，光譜次型的分類精度尚待提高。本文參照He等[9]提出的殘差網絡提出一種基于深度學習的方法來實現光譜次型高精度預測，并分析網絡的預測依據。

本文的主要貢獻有兩個，第一是提升了光譜次型的預測精度，在LAMOST數據集上平均絕對誤差為0.3個光譜次型。第二是讓模型定位光譜特征，對光譜分類結果有一定的解釋能力。

1 方法

模型主要由卷積層、激活層、最大池化層、平均池化層、全連接層和恒等映射組成。在第一個卷積層使用形狀為1*7的較大的卷積核來提取光譜的總體特征，并使用內核為1*3的最大池化層進行特征篩選。最大池化層可以在盡可能保留特征的同時減少參數，防止過擬合，提高模型的泛化能力。后面卷積層的卷積核大小可以在1*3，1*5和1*7等形狀中選擇，文章將在第2節分析使用不同形狀卷積核得到的結果。模型采用GELU作為激活函數，可根據光譜數據分布進行非線性激活，表達式可以近似為

(1)

在最后一個卷積層使用平均池化層對特征圖的參數求均值，得到一個Channel*1的向量作為全連接層的輸入，其中Channel為特征圖的通道數。全連接層的輸出是一個標量，作為對輸入光譜的預測結果。由于激活函數的不可逆性，以及卷積核提取光譜特征時或多或少會有信息丟失，深層模型存在退化問題。文獻[9]中提出的殘差結構的恒等映射使這個問題得到緩解。在訓練網絡時，由于殘差結構的存在，反向傳播可以同時沿著殘差連接進行傳播，提高了訓練效率。如圖1所示，這里以1*5的卷積核為例，其中黃色方塊為卷積層，紅色方塊為最大池化層，粉紅色為平均池化層，橙色為GELU激活層，紫色為全連接層。鑒于LAMOST數據集有非零幾率存在錯誤標簽，本文使用Log-Cosh作為損失函數來降低壞樣本影響。Log-Cosh函數定義見式(2)

圖1 模型總體架構Fig.1 Model architecture

(2)

2 實驗部分

2.1 數據

實驗采用的數據來自于LAMOST DR5中的部分恒星光譜。從星表中隨機抽樣，選取共80 000條恒星光譜，并剔除掉紅移偏差為-999以及信噪比在u，g，r，i和z任一波段內為-999的異常數據，確保數據的有效性，數據集詳情見Github(https://github.com/HubCatt/LAMOST-)。對數據集所有光譜截取3 699～8 750 ?波段，然后進行max-min光譜流量歸一化

(3)

其中x為原始數據，min和max分別為光譜的最小、最大流量，X*為歸一化后的光譜。歸一化可以加快梯度下降求最優解的速度，加速模型收斂。個別類別缺乏數據，但由于本實驗采用的是回歸模型，所以并不影響訓練效果。使用0.0～6.9來標記光譜類型，其中整數部分表示光譜型，小數部分表示光譜次型。例如2.2表示A2型恒星光譜。O型光譜由于數量較少，在本實驗中都標記為0，各類別光譜數據按照7∶1∶2分為訓練集、驗證集和測試集。

2.2 光譜次型回歸

使用訓練集對模型進行訓練，并在驗證集上進行超參數調整。最后在測試集上對模型進行評估。定義以下三種誤差來衡量模型性能。

最大絕對誤差

i=1,2,…,n

(4)

式(4)中，n為樣本個數。

平均絕對誤差

(5)

標準差

(6)

為了選擇最優的卷積核形狀，本文對4種不同卷積核的網絡在測試集上的預測結果進行對比，結果如表1所示。實驗表明：網絡使用1*5的卷積核時所得結果平均絕對誤差小，預測誤差分布集中在較小值。可以取得較好的結果，91.4%的光譜預測誤差在0.5個光譜次型內，平均絕對誤差降低到了0.3個光次譜型。

表1 各形狀卷積核實驗結果Table 1 Experimental results of convolution kernels with different shapes

將預測值作為橫坐標，標簽作為縱坐標畫一個平面，平面上的一個點代表一條光譜，對測試集上共16 249個點作二階非線性擬合，設置置信度為95(如圖2所示)，可以看出，所得到的函數基本可以看作斜率為1的直線，并且置信區間與直線基本重合，這表示模型可以很好的預測光譜型和光譜次型。

圖2 二階非線性擬合Fig.2 Second-order nonlinear fitting

將文獻[7-8]中使用的非參數回歸、K-Means方法，以及Adaboost CART回歸樹算法運用在本文中的訓練集和測試集上。表2為深度殘差網絡與上述三種方法的預測誤差統計，圖3為深度殘差網絡與其余三種方法預測誤差的分布情況。可見深度殘差網絡性能遠優于非參數回歸等方法。由于非參數回歸中的核寬采用自適應方式，取待預測樣本與訓練集各個樣本的最小距離，故在大樣本數據集上耗時過大。與非參數回歸相比，訓練良好的深度殘差網絡預測速度快，并且準確率更高，誤差更小，更符合大數據時代光譜處理的要求。相較于Adaboost算法需要訓練多組弱回歸(分類)器，本文的深度殘差網絡只需訓練一個模型即可。

表2 深度殘差網絡與非參數回歸等方法的預測誤差統計Table 2 The statistical error of prediction by Deep residual network, Nonparametric regression, et al.

圖3 深度殘差網絡與非參數回歸等其他方法預測誤差分布情況Fig.3 The error distribution of prediction by Deep residual network, nonparametric regression et al.

2.3 模型分析

利用文獻[10]中提出的類別激活映射(CAM)方法分析模型在給一條光譜預測時所關注的一些特征,通過此分析模型可以對分類結果做出解釋。將得到的CAM進行偽彩色變換，拉伸，并與光譜圖像加權求和，便可得到圖4所示的類別特征映射圖像，其中顏色越接近紅色的波段對分類越重要。實驗中從A,F,G,K各抽取2條光譜畫出CAM圖像，并在每幅圖下給出了各類別的分數。對于A型恒星光譜，模型關注的區域為H原子吸收線存在的波段，紅色精確覆蓋了Hbeta，Hgamma和Hdelat，但忽視了Halpha，初步推斷是Halpha較弱的原因。對于F型恒星光譜，模型的關注區域為一階Ca離子線存在的波段，H原子吸收線存在的波段，以及一階S離子線存在的波段。在F型恒星中，中性H原子譜線和一階金屬離子譜線都是比較明顯的。對于G型恒星光譜，模型關注區域大致在3 800～4 400 ?波段，G型星中Ca離子線達到了最強，并且出現一階Fe離子線與一階Ti離子線，這些譜線存在于這個波段。對于K型恒星光譜，其主要以金屬譜線為主，模型主要以Mg線5 179 ?附近以及3 699～4 390 ?波段為判別依據。

圖4 類別特征映射圖(CAM)Fig.4 Class activation mapping

3 結論

光譜分類是天文數據處理的重要一環，目前被廣泛使用的模板匹配方法存在計算冗余、依賴數據質量等問題，其他一些方法大都沒有涉及光譜次型的分類。本文提出基于深度殘差網絡的深度學習模型來對光譜類別進行預測，并賦予了模型可解釋性。實驗結果表明，本方法在所使用的LAMOST數據集上可以將91.4%光譜預測誤差保證在0.5個光譜次型以內，預測平均絕對誤差為0.3個光譜次型。與非參數回歸等方法相比有更高的準確率和預測速度。在模型分析中，本文討論了模型分類依據，主要包括Balmer線系、金屬離子譜線。對比文獻[4]中線指數分類提出的，Hgamma，Fe和Mg的組合對O-G分類較好，Fe，TiO2和G4300的組合對晚期恒星分類較好，本文CAM圖像與文獻[4]的結果基本相符，下一步工作將通過修改模型輸出維度來提高CAM的定位精度。