















摘" " 要: 針對礦物類別眾多、存在環境雜質等干擾信息以及部分拉曼光譜存在相似性等問題,結合拉曼光譜時域和頻域上多尺度特征信息,提出一種基于卷積結構和自注意力結構的雙分支分類網絡RT-Net(Residual-Transformer Net)。該網絡利用卷積塊搭建局部特征提取模塊,引入通道注意力增強局部特征提取能力;利用自注意力結構學習拉曼光譜頻域中的雙向依賴關系來提取全局特征信息,由注意力融合模塊進行多尺度特征融合用以分類。實驗結果表明:RT-Net實現了對于1 321類礦物拉曼光譜快速準確的分類,分類準確率達到90.31%;此外,在精準率、召回率和F1得分3個評估指標上分別達到了0.878 1、0.906 6和0.897 2,進一步驗證了RT-Net的有效性。
關鍵詞: 礦物分類;拉曼光譜;頻域;注意力機制;多尺度融合
中圖分類號: TP391.4" " " " " " 文獻標志碼: A" " " " " " " " 文章編號:" 1671-024X(2025)01-0053-09
Classification method of Raman spectra of mineral based on
convolution and Transformer
GENG Lei1,2, QIU Huaizhi2,3, XIAO Zhitao1,2, ZHANG Fang1,2, WU Jun2,3
(1. School of Life Sciences, Tiangong University, Tianjin 300387, China; 2. Tianjin Key Laboratory of Optoelectronic Detection Technology and Systems, Tiangong University, Tianjin 300387, China; 3. School of Electronics and Information Engineering, Tiangong University, Tianjin 300387, China)
Abstract: To address the problems of many mineral categories, the existence of environmental impurities and other interference information, and the similarity of some Raman spectra, a two-branch classification network RT-Net (Residual-Transformer Net) based on convolutional structure and self-attentive structure is proposed by combining the multi-scale feature information in the time and frequency domains of Raman spectra. The network uses convolutional blocks to build a local feature extraction module and introduces channel attention to enhance the local feature extraction ability; the self-attentive structure is used to learn the bidirectional dependencies in the frequency domain of Raman spectra to extract global feature information, and the attentional fusion module is used for multi-scale feature fusion for classification. The experimental results show that RT-Net achieves fast and accurate classification of 1 321 types of mineral Raman spectra with an accuracy of 90.31%. In addition, the three evaluation indexes of precision, recall and F1 score reached 0.878 1, 0.906 6 and 0.897 2, respectively, further validating the effectiveness of RT-Net.
Key words: mineral classification; Raman specta; frequency domain; attentional mechanisms; multi-scale integration
礦物識別在地質分析、資源勘探以及許多工程應用中都是極為關鍵的一環。拉曼光譜能夠提供豐富的物質分子信息,具有反映物質分子“指紋”特征的特性,能夠獲取被測物質的分子振動、轉動能級信息并進行分析,已被廣泛應用于各場景下的礦物質分析和識別任務中[1]。然而,自然界中礦物的種類繁多,其拉曼光譜具有一定的相似性,且因其成長環境不同,成分結構復雜不統一,同類礦物的拉曼光譜也存在一定差異性。這些問題都對礦物的分類造成許多困難,因此建立一個快速準確的礦物拉曼光譜分類模型有著重要的價值。
近年來,深度學習技術不斷發展, 被廣泛應用于圖像分類[2]、 語音識別[3]、 醫學信號處理[4]等領域。深度神經網絡能夠將原始數據的特征從低維空間映射到高維空間,具有優異的特征學習能力。對于多分類任務,深度神經網絡能夠很好地學習到樣本間差異區分度較小的特征。已有學者將該技術應用于礦物拉曼光譜的識別任務上,并取得了一定效果。Liu等[5]采用包括特征提取的金字塔形卷積層和用于分類的2個全連接層的LetNet變體的深度卷積神經網絡對拉曼光譜數據分類的方法,在RRUFF(礦物拉曼光譜數據庫)上取得很好的分類效果。郭志琦[6]針對192類的礦物拉曼光譜多分類問題,提出了一種輕量級神經網絡模型FMCNN(factorization machine combined neural network),達到了98.8%的分類精度。Sang等[7]基于VGG19的網絡結構構建了深層卷積神經網絡(CNN)模型1DCNN,在RRUFF數據庫上構建的類別數為192和1 332的2個數據集上,準確率分別達到了97.72%和87.91%。由于CNN架構的步長特征限制了感受野的范圍,難以覆蓋全部拉曼光譜,導致部分特征信息丟失。
礦物拉曼光譜的光譜信息在波段之間是高度相關的,關注大范圍的波段關系有助于拉曼光譜特征的提取。Transformer架構利用多頭注意力機制提取到時序向量間的隱含關系,很好地解決了長距離依賴關系問題。Behinaein等[8]通過級聯卷積結構與自注意力結構的方式對心電信號進行分類,其特點是通過卷積操作提取心電信號中的特征信息,從而提供給自注意力結構進行后續分類。孫嘉瑤[9]提出一種雙分支網絡結構,各分支結構都使用卷積與自注意力層級聯的方式,分別從時間維度和通道維度挖掘信號中的特征。除了級聯卷積與自注意力的方式,葛君偉等[10]提出將卷積結構和自注意力結構進行并行連接,從2種不同的角度捕獲特征信息。
針對礦物拉曼光譜存在的類間相似性和存在干擾性信息等問題,本文提出了一種同時提取時頻域特征的多尺度信息融合雙分支網絡RT-Net。主要研究內容有以下幾個方面:
(1) 為提取礦物拉曼光譜中強度較小的次特征峰,解決雜質、環境等干擾性信息問題,設計了一種利用擴張卷積塊搭建的局部特征提取模塊,對小特征峰進行特征提取,同時通過將通道注意力模塊嵌入卷積網絡的不同階段,抑制低級語義特征。
(2) 針對部分礦物的拉曼光譜較為相似的問題,結合時頻域特征信息,設計了一種由卷積和Trans-former并行連接的雙分支網絡,學習光譜多尺度的特征信息。利用卷積網絡提取光譜時域上的局部特征信息,捕獲益于分類的拉曼特征峰信息;通過Transfor-mer學習光譜頻域上的全局依賴關系,融合局部特征信息用以分類。
(3) 利用注意力融合模塊,將提取的局部特征信息和全局信息在保留各自最大信息完整性的同時進行充分融合。
(4) 通過實驗驗證了本文方法的有效性,并與傳統光譜分類算法進行比較。
1 基于RT-Net網絡的礦物拉曼光譜分類法
本文提出的RT-Net網絡整體結構如圖1所示。
RT-Net是由SRNet分支和TrNet分支并行的雙分支網絡,能夠精確分類具有1 321類的礦物拉曼圖譜。礦物的拉曼光譜有許多波峰和波谷,包含許多特征信息,因此在SRNet分支,利用其善于捕捉卷積感受野范圍內的特征的優勢,提取拉曼光譜的局部特征信息用以分類。由于某些礦物的拉曼光譜有相似的特征峰,依靠局部特征難以區分,因此TrNet分支借由Transformer的自注意力機制對全局依賴關系的學習能力,學習拉曼光譜的全局特征信息。網絡從局部和全局對礦物的拉曼光譜進行特征提取,通過注意力融合模塊(AFM),將各分支的特征信息進行融合分類。下面將對各分支網絡和注意力融合模塊進行更為詳盡的敘述。
1.1 SRNet分支網絡
SRNet分支是由1個1 × 7的一維卷積層和1個1 × 3的最大池化層,對拉曼光譜時域數據進行下采樣,降低維數并保證數據基本特征的完整性。共8個特征提取模塊分為4個階段對拉曼數據進行時域特征的細分,結構如圖2所示。
每個特征塊有2個相同輸出通道數的3×3卷積層,每個卷積層后接1個批量規范化層和ReLU激活函數。然后通過跳過2個卷積層,將輸入直接加在ReLU激活函數前。假設輸入為x,通過2個卷積層后的輸出為f(x),convolutional_block模塊由于第1個卷積層步長為2,跳躍連接的輸入x需要經過1個卷積層調整通道維度與f(x)相匹配,輸出Hc(x)的的計算公式為:
Hc(x) = f(x) + Wx(1)
式中:W為卷積矩陣。identity_block模塊是2個步長為1的卷積層,因此跳躍連接的輸入x通道維度與f(x)相一致,輸出Hi(x)的計算公式為:
Hi(x) = f(x) + x(2)
每個特征提取模塊中都加入了Squeeze-and-Excitation (SE)模塊[11],通過提取特征圖通道之間的相關性信息,自適應的動態學習并加以調整,對每個通道施加不同的權重,選擇性的突出利于識別的特征并抑制無用特征。
1.2 TrNet分支網絡
Transformer網絡主要應用于自然語言處理領域,由于礦物拉曼光譜數據符合時間序列數據特點,故使用Transformer模塊作為礦物拉曼光譜全局特征的主要特征提取器,通過自注意力機制學習其長距離雙向依賴關系。同時,Transformer網絡含有Encoder編碼器和Decoder解碼器2部分,分別負責對輸入模型信號進行編碼和解碼,而礦物拉曼光譜分類任務并不涉及Decoder解碼操作,故將Transformer中的Encoder結構作為分支網絡TrNet的基礎,用于提取礦物拉曼光譜全局特征。由于自注意力模型在對當前位置的數據信息進行編碼時,易過度的集中注意力在自身的位置而忽視了其他的位置,因此在Transformer中引入了多頭注意力機制(Multi-Head Attention)來解決該問題,其完整計算過程如公式(3)所示:
MultiHead(Q,K,V) = Concat(head1,…,headk)WO
where headi = Attention(CWiQ,CWiK,CWiV)(3)
由于礦物種類數量較多,部分礦物類別的拉曼光譜存在相似性,特征峰在時域上面難以區分,頻域則可以更好地從全局上表征礦石的特征。因此,通過將輸入進行快速傅里葉變換(FFT)轉換到頻域,進而利用Transformer來學習全局依賴關系,其結構如圖3所示。
首先對TrNet的輸入進行時頻域轉換,通過1個卷積核大小為1 × 1且通道數為128的一維卷積層,改變輸入的維度大小以及提供礦物拉曼光譜的空間信息。然后將編碼后的礦物拉曼光譜數據送入Transformer的Encoder結構中,在多頭注意力層后接入1個前饋神經網絡為模型增加非線性表達的能力,其計算公式如公式(4)所示:
FFN(x) = ReLU(0,xW1 + b1)W2 + b2(4)
式中:x表示經過多頭注意力層后的輸出特征。
同時,在多頭注意力層和前饋網絡層周圍都使用了殘差連接(Residual Connection)的方式并進行層歸一化(Layer Normalization,LN)操作。殘差連接能夠幫助網絡底層特征信息有效的傳遞到網絡的高層,增加了信息的傳遞效率并且增強網絡的表達能力。層歸一化操作是為了在激活函數之前,將輸入轉換為均值為0且方差為1的數據,避免出現梯度消失或者梯度爆炸。
1.3 注意力融合模塊
為了將SRNet和TrNet在拉曼光譜數據中提取的局部特征與全局特征在保持各自信息完整度最大化的同時能夠充分融合,利用多頭注意力機制搭建了1個注意力融合模塊(AFM),其結構如圖4所示。
由于2個分支輸出特征的維度不一致,因此在特征融合前要先進行維度統一。SRNet分支網絡輸出的特征尺寸為Tc × C,其中Tc表示礦物拉曼光譜通過SRNet的卷積操作之后的輸出長度,C表示最后1個特征提取模塊中卷積操作的通道數。TrNet分支網絡輸出的特征尺寸為T × C,其中T表示原始輸入序列的長度,N代表輸入的礦物拉曼光譜的空間維度。超參數C和N的值統一設置為128,保證了2個分支網絡輸出的特征通道維度相同,然后分別通過2個卷積核大小為1 × 1的卷積層,將SRNet分支卷積操作后的輸出長度Tc與TrNet分支原始輸入序列的長度T進行統一。
將SRNet與TrNet輸出的特征分別對應矩陣Q和矩陣K來計算注意力得分,計算得到的注意力得分包含了局部特征與全局特征融合后的對應關系,注意力得分越高表明該位置的特征與總體特征的匹配程度越高,使用融合了全局特征與局部特征的對應關系的注意力得分標定SRNet的局部特征,計算過程如公式(5)所示:
式中:XTrans和XCNN分別代表SRNet的輸出和TrNet的輸出。
2 實驗結果分析
2.1 實驗數據
本次實驗使用的數據集是RRUFF數據庫中的礦物拉曼光譜數據集,該數據集包含5 267組光譜數據和1 687種礦石物質。由于訓練模型時至少要劃分1個樣本用作測試集,因此篩除掉只有1個樣本的礦石類別后剩余1 321類。
2.1.1 樣條插值
RRUFF數據庫中收集的光譜數據因采集條件不同,導致拉曼位移及頻率不同,光譜數據點的數量各不相同。因此,需要對光譜數據進行插值處理。
采用一階樣條插值法對各個光譜數據進行處理。通過估算插值點相鄰的2個數據點,僅對1個小區間進行插值,插值結果如圖5所示。經過插值處理后的光譜數據,可以得到均勻分布在0~1 700 cm-1拉曼位移上的1 024個數據點及對應強度,對某些類礦石拉曼位移未覆蓋的區間用0進行填充。
2.1.2 數據增強
大部分礦石類別在選用的RRUFF數據集中樣本數量比較少,而數據量過少對模型的訓練會帶來過擬合等一系列不利影響,因此采用數據增強的方式減輕對模型訓練的不利影響。
在每一類礦石數據中隨機抽選1個拉曼光譜樣本放入測試集,剩余數據按照3 ∶ 1的比例劃分訓練集和驗證集。劃分后訓練集所含數據量為3 580,測試集所含數據量為1 321。然后對訓練集中的數據采用以下操作進行數據增強:
(1) 平移操作:固定拉曼強度序列不變,將拉曼位移在0~0.4 cm-1之間左右平移,對每一類礦石進行不同次數的操作,使每類礦石數據量在10個樣本左右。
(2) 曲線加噪聲:對平移后的拉曼光譜曲線在位移和強度序列中加入高斯噪聲。每一條拉曼曲線中的每一個點都在X和Y軸方向上加入1個隨機噪聲,該噪聲符合均值為0、標準差為0.5的正態分布,處理后每類礦石的數據量在20個樣本左右。
2.1.3 歸一化
同一礦物在不同激發光功率下會有不同的峰強,為了避免在模型訓練時強度大小對拉曼曲線的影響,使模型只關注光譜圖上特征峰之間的相對強度,對所有樣本數據的強度序列分別進行了Min-Max歸一化處理,計算方式如公式(6)所示:
式中:x表示輸入的強度值。
2.2 評價指標
本次實驗使用4種評價指標判斷RT-Net網絡模型能否對礦物拉曼光譜進行1 321類的精確分類。準確率是對模型效果最直觀的評價指標,即測試集中正確樣本占總樣本的比例。此外,對于礦物拉曼數據的多分類問題,增加精確率、召回率和F1分數,從而盡可能的客觀和全面的評估模型的性能。本文使用P和N表示正樣本和負樣本,用T和F表示正確預測和錯誤預測,4項評價指標的公式如下所示:
式中:TP、FP、TN和FN分別表示真正、假正、真負和假負。
2.3 實驗環境及超參數設置
硬件配置為:GPU,2個NVIDIA 2080Ti顯卡。深度學習框架為:TensorFlow 2.0+python3.7。網絡在訓練時采用Adam優化器訓練模型,權重衰減系數為1e-4,初始學習率為0.000 1,batch size為64。由于模型訓練時其收斂速度會隨著迭代輪次的增加而減緩,出現學習停滯的現象,通過降低學習率能有效改善此現象,因此設置訓練的迭代輪次為200,當模型訓練時的迭代輪次達到20且驗證集準確率并未提升時,學習率將被調整為上輪迭代學習率的1/2。
2.4 實驗結果與分析
2.4.1 各分支網絡有效性驗證
為了分析網絡模型對礦物拉曼光譜的學習能力,通過將網絡深層的特征集合與池化層獲得的權重系數矩陣相乘,最終映射得到一個能夠表征特征關注度的熱力圖。
SRNet在殘差結構中通過堆疊擴張卷積塊,能夠有效的對礦物拉曼光譜中拉曼峰的特征信息進行提取并用以分類。本文隨機選取了3類礦物的拉曼光譜曲線,通過SRNet對其特征提取并進行了特征熱力圖可視化,結果如圖6所示。
由圖6可以看到,SRNet能夠對每類礦物拉曼光譜中特征峰的特征信息進行提取,并且對最明顯的主拉曼峰關注程度最高,對次拉曼峰的關注程度相對較低。由此可以證明,SRNet能夠很好捕獲到每一類礦物的局部特征信息,從而有效地對其進行分類。
TrNet沿用Transformer-Encoder結構通過多頭注意力結構和前饋神經網絡級聯的方式,利用自注意力機制對輸入進行全局特征信息的特征提取。由于頻域的變換結果是通過FFT得到的,其頻域信息是時域波形對應頻率下的幅度特征,通過對全局特征信息進行學習,并映射回原始拉曼光譜用于分類。選取了3類礦物進行了特征可視化分析,結果如圖7所示。
由圖7可看出,TrNet通過提取全局特征信息能夠關注到拉曼頻移在500 ~1 200 cm-1之間的較小的拉曼峰,在主次特征峰拉曼頻移和形狀極為相似的情況下,可以憑借其余較小的特征峰進行正確區分。然而某些礦物拉曼光譜在時域上較為相似,在頻域則是具有差異性信息,考慮到時序數據可以從時域轉換到頻域獲取頻域信息,網絡能夠通過學習光譜頻域上的特征信息映射回原始拉曼光譜,在提取主特征峰的前提下學習多尺度的特征信息用于分類。
為驗證頻域特征信息對于網絡模型的性能影響,設置了消融實驗來進行分析驗證,實驗結果如表1和表2所示。由表1可以看出,在時域上,SRNet對礦物拉曼光譜上的局部特征提取能力較強從而有較高分類精度,而在頻域上,TrNet通過學習拉曼光譜全局特征信息進行分類效果較好。再與表2對比可知,RT-Net的2個分支選擇為SRNet提取時域特征信息和TrNet提取頻域特征信息時,礦物拉曼光譜分類任務模型性能最優。
2.4.2 SRNet中通道注意力機制有效性驗證
為了驗證通道注意力模塊對殘差網絡的性能影響,通過消融實驗和特征可視化進行分析。消融實驗依照控制變量法的原則分別對未引入通道注意力模塊和引入通道注意力后的殘差網絡進行訓練和測試,實驗結果如表3所示。由表3可見,引入通道注意力模塊對于殘差網絡模型的整體性能有提升,并且4個評估指標都優于未引入通道注意力模塊得網絡模型。
除了從評價指標能夠直觀的表現通道注意力模塊對網絡性能的提升,還可以通過引入通道注意力模塊前后的特征圖進行可視化,從而具體地分析通道注意力模塊對殘差網絡帶來的性能提升。將上述2種情況的SRNet網絡中最后1個卷積層的特征進行可視化,將其輸入展開為一維向量,該向量是網絡模型從礦物拉曼光譜中提取的一組抽象特征,其可視化如圖8所示。
圖8(a)將未引入通道注意力模塊的SRNet的各通道輸出特征進行可視化,其中各個通道的特征強度關系都相對獨立。圖8(b)將通過引入通道注意力模塊來增強SRNet的通道輸出特征進行可視化,各通道的特征強度變化是因為通道注意力結構通過學習通道間的依賴關系來判斷通道的重要程度,根據特征重要程度使網絡模型更關注利于分類的有效特征。該實驗驗證了引入通道注意力模塊能夠很好的幫助SRNet對礦物拉曼光譜進行精準分類。
2.4.3 RT-Net整體網絡學習能力可視化分析
為了驗證RT-Net對礦物拉曼光譜的特征學習能力,通過將深層神經網絡的特征集合與全局平均池化層求得的權重系數矩陣做乘法運算,在映射到拉曼光譜上得到1張能夠表征特征關注度的熱力圖,模擬網絡模型在分類過程中對特征信息的關注度,此方法能夠直觀的將網絡模型的特征學習能力進行可視化。
選取任意4類礦物中各一條拉曼光譜曲線,將RT-Net模型的特征學習能力進行了可視化分析。特征熱力圖是按照拉曼光譜曲線趨勢的散點構成,其中的散點的顏色反應了模型對該位置關注度的高低。對于網絡模型判定類別的作用越大的取樣點,其對應的顏色越紅,從而反應RT-Net對礦物拉曼光譜分類時依靠的那些特征區域。而隨著對應顏色由深紅色逐漸到淺白色最后到深藍色,則表明模型認為該特征對于類別判斷的作用是逐漸減小的甚至是無用的。RT-Net對拉曼光譜特征學習能力可視化結果如圖9所示。
圖9中:第1列分別是4種礦物Ankinovichite、Copiapite、Juangodoyite以及PyrosmaliteMn 的拉曼光譜曲線;第2列是SRNet在礦物拉曼光譜時域上對特征信息關注程度的可視化結果,觀察發現,SRNet通過擴張卷積能夠學習到拉曼光譜中的局部特征峰;第3列是TrNet在拉曼光譜頻域上學習到的特征信息映射到原始圖譜上的可視化結果圖,觀察發現,TrNet利用自注意力結構有效地學習到礦物拉曼光譜的全局信息;第4列是RT-Net對輸入拉曼光譜的特征關注程度的可視化結果圖,相比較于支路模型,RT-Net通過注意力模塊將雙分支提取到的局部特征信息和全局信息有效融合后,能夠更加全面的關注最有利于類別判斷的特征信息。該實驗也驗證了設計RT-Net的初衷,通過卷積網絡和自注意力機制并行的雙分支網絡結構對1 321類礦物拉曼光譜實現精準分類。
2.4.4 RT-Net與其他分類算法性能對比
為驗證RT-Net對礦物拉曼光譜分類的可行性,選用幾類經典的機器學習算法進行對比試驗分析。利用PCA算法將礦物拉曼光譜數據進行降維處理,將其高維空間特征映射到低維特征空間,然后將樣本數據的主要特征分量進行提取,輸入到分類器中用以分類。最終在各模型在測試集上的性能比較如表4所示。
由表4可知,RT-Net準確率遠高于其他經典機器學習分類方法。分類算法按照其各自的分類準對礦物拉曼光譜進行類別劃分,但由于本文數據集中礦物拉曼光譜類別數量較多,且其特征信息極為相似,導致拉曼光譜數據在特征空間分布較為密集,傳統的機器學習分類算法難以找到準確的決策面,因而難以精準分類。
本文將RT-Net與其他深度學習算法以及同類任務的分類網絡進行了對比試驗,在同一數據集上的實驗結果如表5所示。
從表5中可以看出,LSTM和GRU兩類算法的性能在數據集上表現并不理想,是因為對礦物拉曼光譜而言,局部特征峰是進行類別判斷的首要特征信息,而RNN結構的深度學習算法善于學習中長距離序列的依賴關系,導致沒能有效學習到有價值的特征信息。相較于單一的RNN結構,TCN算法加入了卷積結構對礦物拉曼光譜的局部特征進行學習,能夠對有利于類別判斷的特征信息進行提取,實驗也表明其性能要優于RNN。原始的Transformer-Encoder結構在數據集上進行了訓練測試,能夠學習礦物拉曼光譜的全局特征信息用以分類,表現出較好的性能。對于礦物拉曼光譜分類這一特定任務領域的算法CNN、1DCNN和FMCNN,在該數據集上表現的效果并不理想。由于上述3種算法都是基于CNN結構提取礦物拉曼光譜的局部特征信息進行分類的,而礦物拉曼光譜數據集中樣本類別為1 321類,類別數量更多且存在許多同譜異物的樣本數據,僅憑借CNN結構提取樣本中的局部特征信息難以判別這些“困難”樣本數據。但是RT-Net具備局部特征提取和全局特征提取的能力,并且引入了頻域特征信息,在數據集上展現出強大的分類能力,各項評價指標均為最高。
3 結束語
本文提出了一種基于卷積和Transformer的雙分支網絡RT-Net拉曼光譜分類模型,實現了1 321類礦物拉曼光譜的精確分類。通過卷積網絡分支在局部特征提取模塊引入通道注意力機制來抑制低層語義信息,聚焦深層語義信息;利用Transformer使光譜特征建立全局依賴關系,增強全局前后文建模能力。與傳統分類算法和深層卷積網絡模型相比,RT-Net能夠全面地提取多尺度特征信息,利用注意力融合模塊將時域特征和頻域特征進行多尺度融合從而實現精準分類。實驗結果表明,RT-Net是一種性能優異的礦物拉曼光譜分類模型,相比于傳統光譜分類算法無需進行預處理和特征提取等步驟,具有簡單快速、分類精度高的優點,為更多類別的礦物拉曼光譜分類任務提供了新思路。
參考文獻:
[1]" " VENERANDA M, MANRIQUE J A, LOPEZ-REYES G, et al. Spectroscopic study of olivine-bearing rocks and its relevance to the ExoMars rover mission[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 223:117360.
[2]" " 余東行, 張保明, 趙傳, 等. 聯合卷積神經網絡與集成學習的遙感影像場景分類[J]. 遙感學報, 2020, 24(6):717-727.
YU D X, ZHANG B M, ZHAO C, et al. Remote sensing image scene classification based on combined convolution neural network and ensemble learning[J]. Journal of Remote Sensing, 2020, 24(6):717-727(in Chinese).
[3]" " JIA G M, CHENG F Y, YANG J F, et al. Intelligent checking model of Chinese radiotelephony read-backs in civil aviation air traffic control[J]. Chinese Journal of Aeronautics, 2018, 31(12):2280-2289.
[4]" " YU M X, SUN Y C, ZHU B F, et al. Diverse frequency band-based convolutional neural networks for tonic cold pain assessment using EEG[J]. Neurocomputing, 2020, 378:270-282.
[5]" " LIU J C, OSADCHY M, ASHTON L, et al. Deep convolutional neural networks for Raman spectrum recognition:A unified solution[J]. Analyst, 2017, 142(21):4067-4074.
[6]" " 郭志琦. 基于深度學習的拉曼光譜分析與應用研究[D]. 烏魯木齊:新疆大學, 2021.
GUO Z Q. Analysis and application of Raman spectroscopy based on deep learning[D]. Urumqi:Xinjiang University, 2021 (in Chinese).
[7]" " SANG X C, ZHOU R G, LI Y C, et al. One-dimensional deep convolutional neural network for mineral classification from Raman spectroscopy[J]. Neural Processing Letters, 2022, 54(1):677-690.
[8]" " BEHINAEIN B, BHATTI A, RODENBURG D, et al. A transformer architecture for stress detection from ECG[C]//2021 International Symposium on Wearable Computers. Virtual, USA: ACM, 2021:132-134.
[9]" " 孫嘉瑤. 深度學習注意力機制在腦電信號分類中的應用[D]. 深圳:中國科學院大學(中國科學院深圳先進技術研究院), 2021.
SUN J Y. Application of deep learning attention mechanism in EEG signal classification[D]. Shenzhen:University of Chinese Academy of Sciences (Chinese Academy of Sciences Shenzhen Advanced Technology Research Institute), 2021(in Chinese).
[10]" 葛君偉, 涂兆昊, 方義秋. 基于融合CNN和Transformer的分離結構機器翻譯模型[J]. 計算機應用研究, 2022, 39(2):432-435.
GE J W, TU Z H, FANG Y Q. A machine translation model with separate structure based on fusion CNN and Transformer[J]. Application Research of Computers, 2022, 39(2):432-435(in Chinese).
[11]" HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:7132-7141.
[12]" YAN X, GE H, YAN Q. SVM with RBF kernel and its application research[J]. Computer Engineering and Design, 2006, 27(11): 1996-1997.
[13]" KRAMER O. K-Nearest Neighbors[C]//Dimensionality Reduction with Unsupervised Nearest Neighbors. Berlin, Heidelberg:Springer, 2013:13-23.
[14]" MYLES A J, FEUDALE R N, LIU Y, et al. An introduction to decision tree modeling[J]. Journal of Chemometrics: A Journal of the Chemometrics Society, 2004, 18(6): 275-285.
[15]" RISH I. An empirical study of the naive Bayes classifier[C]//IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. Seattle, WA, USA: IJCAI, 2001: 41-46.
[16]" THARWAT A. Linear vs. quadratic discriminant analysis classifier: A tutorial[J]. International Journal of Applied Pattern Recognition, 2016, 3(2): 145-180.
[17]" GUO G D, WANG H, BELL D, et al. KNN Model-based approach in classification[C]//MEERSMAN R, TARI Z, SCHM-IDT D C. Lecture Notes in Computer Science.Berlin. Heidelberg:Springer Berlin Heidelberg, 2003:986-996.
[18]" HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[19]" CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. ArXiv e-Prints, 2014:arXiv:1406.1078.
[20]" ZHAO B D, LU H Z, CHEN S F, et al. Convolutional neural networks for time series classification[J]. Journal of Systems Engineering and Electronics, 2017, 28(1):162-169.
[21]" ZHA B, VANNI A, HASSAN Y, et al. Deep transformer networks for time series classification: The NPP safety case[J]. ArXiv preprint arXiv: 2021. 2104. 05448.
本文引文格式:
耿磊, 仇懷志, 肖志濤, 等. 基于卷積和Transformer的礦物拉曼光譜分類方法[J]. 天津工業大學學報, 2024, 44(1): 53-61.
GENG L, QIU H Z, XIAO Z T, et al. Classification method of Raman spectra of mineral based on convolution and Transformer[J]. Journal of Tiangong University, 2024, 44(1): 53-61(in Chinese).
收稿日期: 2023-03-01
基金項目: 天津市科技計劃項目(20YDTPJC00110)
通信作者: 耿" " 磊(1982—),男,博士,教授,主要研究方向為機器視覺、深度學習等。E-mail:genglei@tiangong.edu.cn