基于TBTA網絡的高光譜圖像分類

2023-03-11 05:00:44羅小玲閆偉紅

計算機仿真 2023年1期

唐婷，潘新*，羅小玲*，閆偉紅

(1. 內蒙古農業大學計算機與信息工程學院，內蒙古呼和浩特 010018；2. 中國農業科學院草原研究所，內蒙古呼和浩特 010020)

1 引言

高光譜圖像(Hyperspectral Image，HSI)作為一種特殊類型的高光譜分辨率遙感圖像，在光譜維度和空間維度[1]上都包含了豐富的信息，并已被廣泛應用于許多領域，包括環境檢測[2]、精細農業[3]和海洋水文檢測[4]等。監督分類是HSI的一項基本任務，是上述應用中常用的技術，然而，過度冗余的光譜波段信息和有限的訓練樣本，給HSI分類帶來了巨大的挑戰。

早期的HSI分類是基于光譜特征，包括支持向量機(SVM)[5]、多項logistic回歸(MLR)[6]和隨機動態子空間[7]。但是基于光譜的方法沒有考慮到高光譜圖像豐富的空間信息，導致特征提取不夠完整。另外，大多數方法都需要花費大量的人力和時間去判別和標注數據。

深度學習(Deep Learning，DL)在自動提取非線性和層次特征方面表現出強大的能力，近年來被廣泛應用于高光譜遙感圖像分類中，如深度信念網絡(Deep Belief Network，DBN)[8]和棧式自編碼器(Stacked Autoencoder，SAE)[9]網絡。然而，在上述方法中，輸入是一維的，雖然利用了空間信息，但卻破壞了初始結構。由于卷積神經網絡(CNN)可以在保留原有結構的同時利用空間特征，一些引入CNN的新的解決方案被提出。Lee等[10]提出了一種具有更深更廣網絡的CDCNN，可以通過聯合利用相鄰單個像素向量的局部時空關系來優化探索局部上下文的相互作用。Chen等[11]提出了融合正則化的3D-CNN特征提取模型，用于提取光譜空間特征進行分類。結果表明，3D-CNN的性能優于1D-CNN和2D-CNN。

DL雖然給HSI分類帶來了很好的改進，但是DL對訓練樣本的需求是巨大的，而人工標注HSI的成本是非常昂貴的。一般來說，更深的網絡可以捕獲更精細的特征，但卻增加了訓練的難度。殘差網絡(ResNet)[12]和密集卷積網絡(DenseNet)[13]的出現緩解了深度網絡的訓練難度。受ResNet的啟發，Zhong等[14]提出了一種頻譜空間殘差網絡(SSRN)，該網絡在訓練樣本有限的情況下更有效。Wang等[15]提出了一種用于高光譜圖像分類的端到端快速密集光譜-空間卷積(FDSSC)算法。

Ma等[16]提出了一種由卷積塊注意模塊(CBAM)[17]驅動的雙分支多注意機制網絡(DBMA)，并獲得了最佳的分類結果。該網絡有兩個分支分別提取光譜和空間特征，以減少這兩種特征之間的干擾，并針對這兩個分支的不同特征，在這兩個分支中分別應用了兩種類型的注意力機制，確保更有區別地利用光譜和空間特征，然后融合提取的特征用于分類。

受DBMA算法和自適應自注意機制雙注意網絡的啟發，本文設計了用于HSI分類的三分支三注意機制網絡(Triple-Branch Ternary-Attention，TBTA)。該網絡包括光譜、空間X、空間Y三個分支，首先分別捕捉光譜和空間X、Y特征。其次，采用光譜注意機制、空間X注意機制和空間Y注意機制對特征圖進行細化。然后，通過連接三個分支的輸出，得到融合的光譜空間特征。最后，確定分類結果使用softmax的方法。本文的三個重要貢獻如下：

1)基于DenseNet和3D-CNN，本文提出了一種基于三分支三注意力機制的端到端的網絡(TBTA)用于HSI分類。該網絡的光譜分支、空間X分支和空間Y分別提取光譜、空間X和空間Y特征，可以將三種特征分離開。

2)在光譜、空間X和空間Y上分別引入了其特征方向的注意力機制。針對信息豐富的光譜波段設計了光譜注意塊，針對信息豐富的像素點分別設計了空間X和空間Y注意塊。

3)在訓練數據有限的情況下，該方法在四個數據集中取得了最好的分類精度。

2 相關工作

本節將介紹TBTA中使用的基本模塊，包括帶BN(Batch Normalization，BN)的3D-CNN、ResNet和DenseNet、注意力機制。由于HSI頻譜的數量和卷積核通道的數量都可以被稱為通道，所以將HSI頻譜的數量稱為光譜，將卷積核通道的數量稱為通道，以避免混淆。

2.1 帶BN的3D-CNN

傳統的基于單個像素的分類算法僅使用光譜信息進行分類，而基于立方塊的算法同時使用光譜和空間信息。基于單個像素的方法僅使用光譜信息來訓練網絡，而基于3D立方塊的方法則以目標像素及其相鄰像素作為輸入。一般來說，基于單個像素的方法與基于3D立方塊的方法的區別是前者的輸入大小為1×1×b，后者的輸入大小為p×p×b，其中p×p為相鄰像素的個數，b為光譜帶的個數。之所以使用基于立方塊的方法，是因為空間中相鄰塊的信息對于分類也有借鑒作用。

就像激活函數層、卷積層、全連接層、池化層一樣，BN也屬于網絡的一層，主要用于卷積層后的數據正則化處理。帶BN的3D-CNN[18]是基于3D立方塊的深度學習模型中的常見元素。1D-CNN和2D-CNN只使用了光譜特征或只捕捉了像素的局部空間特征，3D-CNN同時使用了光譜和空間信息對HSI進行分類。因此，TBTA采用3D-CNN作為基本結構，此外，在每個3D-CNN層中增加了BN層，以提高數值穩定性。

對于pm×pm×bm大小的nm特征圖，一個3D-CNN層中，包含大小為αm+1×αm+1×dm+1的km+1個通道，生成尺寸為pm+1×pm+1×bm+1的nm+1輸出特征圖。第(m+1)個帶BN的3D-CNN層的第i個輸出計算為

(1)

(2)

2.2 ResNet和DenseNet

通常，卷積層越多，網絡的性能就越好。然而，太多的圖層可能會使漸變消失和爆炸的問題更加嚴重。ResNet[12]和DenseNet[13]是解決這一難題的有效方法。

在ResNet中，一個跳躍連接被添加到傳統的CNN模型中。跳躍連接可以看作是將前面層的信息和后面層的信息直接連接起來，這樣可以避免信息經過網絡流動后丟失。殘差塊是ResNet的基本單位，第l殘差塊的輸出可以計算為

xl=Hl(xl-1)+xl-1

(3)

DenseNet基于ResNet，直接連接各層，確保網絡各層之間的信息流動最大。DenseNet不像ResNet那樣通過累加來組合特性，而是通過在通道維度上連接它們來組合特性。密集塊是DenseNet中的基本單位，第l個密集塊的輸出計算為

xl=Hl[x0，x1，…，xl-1]

(4)

其中Hl是一個包含卷積層、激活層和BN層的塊，x0，x1，…，xl-1表示生成的密集塊，連接越多，密集網中的信息流就越多。具體來說，層數為L的密集網絡有L(L+1)/2個連接，而層數相等的傳統卷積網絡只有L個直接連接。

2.3 注意力機制

3D-CNN的一個缺點是所有的空間像素和光譜波段在空間域和光譜域中擁有等價的權值。顯然，不同的光譜波段和空間像元對提取特征的貢獻是不同的。注意力機制是解決這一問題的有力手段。注意力機制受人類視覺感知過程的驅動，更多地關注信息區域，而較少考慮非必要區域。注意力機制已經被用于圖像分類[19]，在圖像標題、文本圖像合成、場景分割等領域也得到了很好的應用。在一些研究中采用光譜注意塊和空間注意塊來增強光譜和空間的權重，以下將詳細介紹這兩部分內容。

2.3.1 光譜注意塊

如圖1光譜注意塊所示，光譜注意力映射X∈Rc×c是直接從初始輸入A∈Rc×p×p計算出來的，其中p×p是輸入的塊的大小，c表示輸入通道的數量。首先，將A與AT進行矩陣乘法運算，得到通道注意映射X∈Rc×c，將softmax層連接為

(5)

其中xji表示第i個通道對第j個通道的影響。其次，將XT與A的矩陣乘法結果變形成Rc×p×p。最后，通過尺度α的參數對重構后的結果進行加權，并加上輸入A，得到最終的光譜注意圖E∈Rc×p×p

(6)

式中α初始化為零，可以逐步學習。最終的圖E包含了所有通道特征的加權總和，可以描述一個依賴關系，增強特征的可辨別性。

2.3.2 空間注意塊

圖1 光譜注意塊和空間注意塊的細節

如圖1空間注意塊所示，給定一個輸入特征圖A∈Rc×p×p，采用兩個卷積層分別生成新的特征圖B和C，其中{B，C}∈Rc×p×p。首先，將B和C變形成Rc×n，其中n=p×p為像素數目。其次，在B與C之間進行矩陣相乘，隨后附加一個softmax層，計算空間注意特征圖S∈Rn×n：

(7)

其中sji表示第i個像素到第j個像素的影響。兩個像素的特征表示越接近，代表它們之間的相關性越強。

將初始輸入特征A同時送入卷積層，得到一個新的特征映射D∈Rc×p×p被變形為Rc×n。最后在D和ST之間進行矩陣的乘法運算，結果被變形為Rc×p×p：

(8)

式中β初始值為零，可以逐步學習并分配更多的權重。由式(8)可知，將所有的位置和原始特征加上一定的權重，得到最終的特征E∈Rc×p×p。因此，將空間維度上的上下文信息被模型化為E。

3 TBTA算法

TBTA(Triple-Branch Ternary-Attention，TBTA)算法的過程包含三個步驟：數據集生成、訓練和驗證以及預測。圖2說明了本文方法的整個算法流程。

假設HSI數據集X由N個標記像素{x1，x2，…，xn}∈R1×1×b組成，其中b為波段，對應的類別標簽集為Y={y1，y1，…，y1}∈R1×1×c，其中c為土地覆蓋類別數。

在數據集生成步驟中，從原始數據中選取中心像素xi的p×p鄰近像素，生成三維立方塊的集合{z1，z2，…，zn}∈Rp×p×b。如果目標像素位于圖像的邊緣，則將缺失的相鄰像素值設置為零。在TBTA算法中，p為補丁大小，設置為9。然后，將三維立方塊集隨機分為訓練集Ztrain、驗證集Zval和測試集Ztest。相應的b標簽向量分為Ytrain、Yval、Ytest。由于相鄰像素的標簽對網絡是不可見的，所以只使用目標像素周圍的空間信息。

圖2 三分支三注意(TBTA)的算法流程

在訓練和驗證步驟中，訓練集用于更新多次迭代的參數，而驗證集用于監控模型的性能并選擇訓練最好的模型。

在預測步驟中，選擇測試集來驗證訓練模型的有效性。在HSI分類中，常用的衡量預測結果與真實值之間差異的定量指標是交叉熵損失函數，定義為

(9)

3.1 TBTA網絡結構

TBTA網絡的整體結構如圖3所示。為了方便起見，將上面的分支叫做光譜分支，下面的分支分別叫做空間X分支和空間Y分支。分別輸入光譜支路、空間X支路和空間Y支路，得到光譜特征圖和空間特征圖。然后采用光譜、空間X特征圖和空間Y特征圖的融合運算得到分類結果。以下部分以Indian Pines (IP)數據集為例，介紹了光譜分支、空間分支以及光譜與空間的融合操作。樣本立方塊大小為9 × 9 × 200，如下提到的矩陣(9×9×97，24)，9×9×97表示3d立方塊的高度、寬度和深度，24表示由3D-CNN生成的3D立方塊的數量。IP數據集包含145 × 145像素，200個光譜波段，即IP的大小為145 × 145 × 200。只有10249個像素有相應的標簽，其它像素是背景。

TBTA網絡的結構，設計了由密集光譜塊和光譜注意塊組成的光譜分支來捕捉光譜特征，利用空間特征，設計由密集空間塊和空間注意塊構成空間X分支和空間Y分支

3.1.1 三分支前的降維層

由于HSI的光譜通道特別多，其對于分類來說是冗余的，通常HSI分類算法都會先進行降維操作，減小冗余，從而提高分類正確率。TBTA則使用了一個卷積核大小為1 × 1 × 7的3D-CNN層，步幅設為(1，1，2)，以減少通道數量，捕獲(9×9×97，24)的特征圖作為三分支的輸入特征圖。

3.1.2 帶有光譜注意塊的光譜分支

在降維層的特征圖后添加帶BN的3D-CNN Dense光譜塊，每個Dense光譜塊的3D-CNN有12個通道，卷積核大小為1×1×7。經過Dense光譜塊后，由式(5)計算得到特征圖的通道增加到60條，此時特征圖的大小為(9×9×97，60)。接下來，在最后一個卷積核大小為1 ×1 × 97的3D-CNN之后，生成一個(9×9×1，60)的特征圖。然而，這60個通道對分類做出了不同的貢獻。為了細化光譜特征，采用了2.3.1節介紹的光譜注意塊，其強化了有用信息的權重，削弱了冗余信息的權重。在得到加權的光譜特征圖后，采用BN層和dropout層來提高穩定性和魯棒性。最后，通過全局平均池化層，得到1×60的特征圖。

3.1.3 帶有空間注意塊的空間分支

圖3 TBTA網絡整體結構圖

同時，將(9×9×97，24)的特征圖輸入到空間X分支，然后添加帶BN的3D-CNN Dense空間X塊。每個3D-CNN在Dense空間X塊中有12個通道，卷積核大小為3 ×1 × 1。接下來，將(9 × 9 × 1，60)的特征圖輸入到空間X注意塊中，利用注意塊，對每個像素的系數進行加權，得到更具判別性的空間X特征圖。在獲取加權的空間X特征圖后，通過BN層、Dropout層和全局平均池化層得到1×60的空間X特征圖。

同樣的，將(9×9×97，24)的特征圖輸入到空間Y分支，然后添加帶BN的3D-CNN Dense空間Y塊。每個3D-CNN在Dense空間Y塊中有12個通道，卷積核大小為1 ×3× 1。將(9 × 9 × 1，60)的特征圖輸入到空間Y注意塊中，利用注意塊，對每個像素的系數進行加權，得到更具判別性的空間Y特征圖。在獲取加權的空間特征圖后，通過BN層、Dropout層和全局平均池化層得到1×60的空間Y特征圖。

3.1.4 光譜與空間融合用于HSI分類

結合光譜分支、空間X分支和空間Y分支，得到了光譜特征圖、空間X特征圖和空間Y特征圖，然后，連接三個特征圖進行分類。另外，采用串聯運算而不是相加運算的原因是，光譜特征、空間X特征和空間Y特征都在不相關的域中，串聯運算可以使光譜特征、空間X特征和空間Y特征保持獨立，而相加運算則會使光譜特征、空間X特征和空間Y特征混合在一起。最后，通過全連接層和softmax層得到分類結果。

對于其它數據集，網絡實現原理是相同的，唯一的區別是光譜帶的數量不同。

3.2 防止過擬合的措施

過多的訓練參數和有限的訓練樣本導致網絡容易出現過擬合，因此，本文采取了一些措施來防止過擬合。

3.2.1 Mish激活函數介紹

激活函數給神經網絡帶來了非線性的概念，適當的激活函數可以加快網絡的反向傳播和收斂速度。TBTA采用的激活函數是Mish，這是一個自正則化的非單調激活函數，而不是傳統的ReLU(x)=max(0，x)。Mish的公式是：

mish(x)=x×tanh(softplus(x))

=xi×tanh(ln(1+ex))

(10)

其中x表示輸入。Mish為上界無界，下界范圍為[≈-0.31，∞]。Mish的微分系數定義為

(11)

其中ω=4(x+1)+4ex+e3x+ex(4x+6)，δ=2ex+e2x+2

ReLU是一個截斷所有負輸入的分段線性函數。因此，如果輸入是非正的，那么神經元就會“死亡”，不能再被激活，即使負的輸入可能包含有用的信息。負輸入被Mish保留為負輸出，可以更好的保證信息傳播及網絡稀疏性。

3.2.2 Dropout層、最優權重的選擇和動態調整學習速率

在光譜分支、空間X分支和空間Y分支的最后，BN層和全局平均池化層之間分別使用了Dropout層[20]。Dropout是一種簡單但有效的方法，可以防止過擬合，經過交叉驗證，隱含節點dropout率等于0.5的時候效果最好，原因是0.5的時候dropout隨機生成的網絡結構最多。因此，在TBTA中p被選為0.5。

關于最優權重的選擇，在訓練過程中，驗證集上的準確率高的優先，如果驗證集的準確率一致，則選擇在訓練集上損失最小的。

學習速率是訓練網絡的一個重要超參數，動態學習速率可以幫助網絡避免局部極小值。采用余弦退火方法動態調整學習速率，如下式

(12)

4 實驗

為了驗證所提模型的準確性和有效性，在4個數據集上進行了實驗，并與其它4種方法進行了對比。采用綜合精度(OA)、平均精度(AA)和Kappa系數(K)三個定量指標來衡量每種方法的精度。具體來說，OA表示單個類別的平均準確率。AA表示所有類別的平均準確率。Kappa系數反映了真實標簽與分類結果的一致性。三個度量值越高，分類結果越好。

對于每個數據集，從標記數據中按一定百分比隨機選取一定數量的訓練樣本和驗證樣本，其余數據作為測試樣本。由于TBTA主要解決小樣本高光譜圖像分類問題，因此將訓練樣本和驗證樣本的數量設置在較低水平。

4.1 關于數據集的介紹

本文采用4個廣泛使用的HSI數據集，即Indian Pines (IP)數據集、Pavia University (UP)數據集、Salinas Valley (SV)數據集和博茨瓦納數據集(BS)進行實驗。

深度學習算法是數據驅動的，依賴于大量帶標簽的訓練樣本，輸入訓練的標記數據越多，準確率就越高。然而，更多的數據意味著更多的時間消耗和更高的計算復雜度。本文提出的TBTA能夠在訓練樣本非常缺乏的情況下保持良好的性能。因此，在實驗中，訓練樣本和驗證樣本的大小被設定在較小的水平。對于IP和BS，選擇3%的樣本進行訓練，3%的樣本進行驗證。由于UP和SV的每一類都有足夠的樣本，所以只選取0.5%的樣本進行訓練，0.5%的樣本進行驗證。

4.2 實驗設置

為了驗證TBTA的有效性，將基于深度學習的分類器CDCNN、SSRN[14]、FDSSC[15]和最先進的雙分支多注意機制網絡(DBMA)[16]與本文提出的算法進行了比較，此外，還對比了RBF核支持向量機[9]。每個分類器的滑動窗口大小按照其原始論文設置。實驗都在相同的平臺上執行，配置16GB內存和NVIDIA GeForce RTX 1080Ti GPU。所有基于深度學習的分類器使用PyTorch實現，支持向量機使用sklearn實現。

CDCNN、SSRN、FDSSC、DBMA，以及本文提出的方法TBTA，批處理大小均設為16，優化器設為Adam，學習率為0.0005。關于最優權重的選擇，迭代次數均設為150，并使用3.2.2節中最優權重選擇的方法進行實驗和測試。

4.3 分類圖及分類結果

4.3.1 IP數據集的分類圖和分類結果

表1展示了IP數據集使用不同方法的分類結果，其中各類最佳精度用粗體表示，不同方法的分類圖和真實標簽如圖4所示。

本文提出的算法得到了最佳的結果，OA為95.40%，AA為94.30%，Kappa為0.9475。

表1 使用3%訓練樣本的IP數據集的分類結果

基于RBF的SVM方法準確率最低，OA僅達到了68.76%。FDSSC采用密集連接代替剩余連接，提高了網絡的性能，在OA方面比SSRN提高了0.58%。DBMA由于樣本極度缺乏，DBMA可能對訓練數據產生了過擬合，即使使用了注意力機制，其OA依然不理想。然而，當訓練樣本非常缺乏時，本文提出的TBTA網絡，通過靈活、自適應的注意力機制、適當的激活功能以及其它防止過擬合的措施，在有限數據的情況下能夠實現穩定可靠的性能。

圖4 使用3%訓練樣本的IP數據集的各個方法分類圖

4.3.2 UP數據集的分類圖和分類結果

對于UP數據集，使用不同方法的分類結果如表2所示，其中各類最佳精度用粗體表示，不同方法的分類圖和真實標簽如圖5所示。

表2 使用0.5%訓練樣本的UP數據集的分類結果

從表2可以看出，本文提出的方法在三個指標上均取得了最好的結果。雖然不能使每個類的精度都達到最好，但對每個類的精度都超過了91%，這意味著本文的方法能夠捕捉到不同類之間的特征。由于UP數據集中的樣本是足夠的，所以僅選擇了0.5%的數據作為訓練集。

圖5 使用0.5%訓練樣本的UP數據集的各個方法分類圖

4.3.3 SV數據集的分類圖和分類結果

對于SV數據集，使用不同方法的分類結果如表3所示，其中各類最佳精度用粗體表示，不同方法的分類圖和真實標簽如圖6所示。

表3 使用0.5%訓練樣本的SV數據集的分類結果

從表3中可以看出，本文提出的方法在三個指標上均取得了最好的結果，OA為95.19%，AA為96.66%，Kappa為0.9465。其中OA比DBMA高出1.6%。

圖6 使用0.5%訓練樣本的SV數據集的各個方法分類圖

4.3.4 BS數據集的分類圖和分類結果

不同方法對BS數據集的分類結果如表4所示，其中各類最佳精度用粗體表示，不同方法的分類圖和真實標簽如圖7所示。

表4 使用3%訓練樣本的SV數據集的分類結果

由于BS數據集很小，只有3248個標記樣本，當訓練樣本為3%時能更好地區分算法性能，所以本文選擇3%的樣本作為訓練集，3%的樣本作為驗證集。盡管如此，本文提出的方法獲得了98.30%的OA性能，比DBMA高出1.51%，原因之一是本文的方法可以更有效地捕捉空間和光譜特征。

圖7 使用0.5%訓練樣本的SV數據集的各個方法分類圖

5 討論

在這一部分，將對TBTA進行進一步的評估。首先，將不同比例的訓練樣本輸入網絡，結果表明，該方法在訓練樣本非常有限的情況下仍能保持有效性。其次，消融實驗結果證實了注意力機制的必要性。最后，不同激活函數的結果表明，在TBTA中，Mish優于ReLU。

5.1 不同訓練樣本對實驗的影響

由于深度學習是一種數據驅動的算法，依賴于大量高質量的標記數據集。在這一部分，將對不同比例的訓練樣本進行研究，對于IP和BS數據集，分別使用0.5%、1%、3%、5%和10%的樣本作為訓練集。對于UP和SV數據集，分別使用0.1%、0.5%、1%、5%和10%的樣本作為訓練集。實驗結果如圖8-11所示。

圖8 各種方法不同訓練樣本比例在IP數據集上的實驗結果

圖9 各種方法不同訓練樣本比例在UP數據集上的實驗結果

圖10 各種方法不同訓練樣本比例在SV數據集上的實驗結果

隨著訓練樣本數量的增加，準確率也會提高。所有基于3D-CNN的方法，包括SSRN、FDSSC、DBMA以及所提出的算法，只要提供足夠的樣本(約占整個數據集的10%)，就可以獲得近乎完美的性能。同時，隨著訓練樣本的增加，不同模型之間的性能差距逐漸縮小。盡管如此，本文提出的方法還是優于其它方法，尤其是在樣本不足的情況下。由于標記數據集的成本較高，因此該方法可以節省人工和成本。

圖11 各種方法不同訓練樣本比例在BS數據集上的實驗結果

5.2 注意力機制的有效性

為了驗證注意力機制的有效性，將分別去除TBTA的光譜-注意力模塊、空間-注意模塊力和兩個注意力模塊，并比較這三個“不完全TBTA”和“完全TBTA”的表現。

從圖12可以看出，光譜注意力機制和空間注意力機制的存在確實提高了4個數據集的分類準確性。

在四個數據集上，注意力機制平均提高了4.20%的OA。在大多數情況下，單一空間注意力機制(平均提高2.35%)優于單一譜注意力機制(平均提高1.08%)。

圖12 注意力機制的有效性

5.2 激活函數的有效性

在第3.2.1節中，說明了為什么采用Mish激活函數，而不是通常使用的ReLU。在這里，將對基于Mish的TBTA和基于ReLU的TBTA的性能進行比較。圖13顯示了它們的分類OA。

如圖13所示，基于Mish的TBTA優于基于ReLU的TBTA。其中，IP、UP、SV和BS數據集的OA分別提高了2.22%、2.16%、4.14%和1.34%。因為Mish可以加速反向傳播，所以就產生了性能上的差異。

圖13 激活函數的有效性

6 結論

本文提出了一種基于三分支三注意力機制的端到端的網絡TBTA用于HSI分類。TBTA網絡的輸入是原始的3D像素數據，沒有任何繁瑣的預處理來降維。基于BN密集連接的3D-CNN層，設計了三個分別捕捉光譜特征、空間X特征和空間Y特征的分支。同時，在其特征方向上分別引入了注意力機制。引入Mish作為加速反向傳播和收斂過程的激活函數。為了防止過擬合，還采用了動態學習率、最優權重的選擇和Dropout層。

大量的實驗結果表明，本文提出的TBTA算法優于目前分類效果比較好的DBMA算法，特別是在訓練樣本有限的情況下。同時，與FDSSC和DBMA相比，注意塊和激活函數Mish加速了模型的收斂速度，減少了時間消耗。因此，通過實驗結果可以得出，即使在訓練集匱乏的情況下，本文提出的方法依然能保持良好的HSI分類性能。