



摘要:巖石薄片分類在地質學、礦產資源勘探、油氣資源評價、地質災害預警以及地質科技進步等方面具有重要意義。然而,巖石薄片的組成成分和結構構造復雜多樣,肉眼觀察不僅耗時且易受人為因素干擾。因此,開發(fā)一種基于計算機技術的自動化分類方法成為當前研究的熱點。本研究提出了一種基于改進MobileNetV3的巖石薄片分類方法。通過引入注意力機制,融合了巖石薄片圖像的全局特征信息,改進后的網絡模型分類準確率為96.64%,較原MobileNetV3網絡提高了2.61%。
關鍵詞:巖石薄片;分類算法;輕量化網絡;MobileNetV3
中圖分類號:TP18" " 文獻標識碼:A
文章編號:1009-3044(2025)07-0026-03
開放科學(資源服務) 標識碼(OSID)
0 引言
巖石薄片分類是一種科學、準確的巖石分類方法。在地質學領域,通過觀察和分析巖石薄片圖像中礦物的比例、分布、質地、孔隙空間、膠結成分等因素,對巖石進行分類和命名,可以為油氣勘探開發(fā)的工程實踐提供基礎性指導。在工程地質領域,巖石薄片分類可以幫助評估地基巖石的穩(wěn)定性和承載力,從而判斷其是否適合作為工程地基。因此,巖石薄片分類在地質學、礦產資源勘探、油氣資源評價、地質災害預警以及地質科技進步等方面都具有重要意義[1]。
傳統(tǒng)的巖石薄片分類方法主要依賴于地質學家的肉眼觀察和經驗判斷,這種方法不僅費力耗時,而且易受人為因素干擾,導致分類結果的準確性和可靠性不足。隨著計算機技術和人工智能的快速發(fā)展,基于深度學習的圖像分類方法在各個領域取得了顯著成效[2]。MobileNet作為一種輕量級的卷積神經網絡模型,具有參數少、計算量小、運算速度快等優(yōu)點,在圖像分類任務中表現出色。因此,將MobileNet應用于巖石薄片分類任務中,有望提高分類的準確性和效率,為地質分析提供更加可靠的技術支持。
然而,直接將MobileNet應用于巖石薄片分類任務仍存在一些問題。首先,巖石薄片圖像中的礦物成分復雜多樣,且存在大量的微小細節(jié)和紋理特征[3],這對模型的特征提取能力提出了較高的要求。其次,巖石薄片分類任務中的數據集往往不均衡,某些類別的樣本數量較少,這容易導致模型在訓練過程中出現過擬合或欠擬合的問題。
針對以上問題,本研究提出了一種基于改進MobileNetV3的巖石薄片分類方法。該方法在MobileNetV3的基礎上進行了優(yōu)化和改進,以提高模型對巖石薄片圖像的特征提取能力和分類準確性,為地質勘探、礦產開采以及油氣資源評價等領域提供更加可靠的技術支持。同時,本研究也為深度學習在地質分析領域的應用提供了新的思路和方法[4]。
1 MobileNet
MobileNet是一種輕量級卷積神經網絡(CNN) 架構[5],專為移動設備和邊緣計算場景設計,能夠在保持較高性能的同時顯著降低計算成本和模型體積。
1.1 MobileNetV1
谷歌在2017年提出了MobileNet,其最大的創(chuàng)新點是深度可分離卷積[6]。傳統(tǒng)卷積[7]使用一個固定大小的卷積核,該卷積核同時作用于輸入特征圖的所有通道。深度可分離卷積分為深度卷積和逐點卷積兩個部分。
1) 深度卷積:深度卷積不同于普通卷積的每個卷積對監(jiān)測圖像的所有通道進行卷積,它的每個卷積核都只負責一個通道,最終產生的特征圖的尺寸不變,與輸入圖像一致。
2) 逐點卷積:在深度卷積之后,應用一組1×1的卷積核,對深度卷積后的特征圖進行線性組合。這一步的目的是跨通道融合特征,以生成新的特征表示,并調整輸出通道數。逐點卷積通過1×1的卷積核實現了不同通道之間的信息交互。
1.2 MobileNetV2
MobileNetV2在V1的基礎上,引入了倒殘差和線性瓶頸。這使得MobileNetV2能夠在較少的計算量下實現更高的準確率。
倒殘差:傳統(tǒng)殘差塊[8]是通過直接在輸入和輸出之間引入快捷連接來緩解深層神經網絡的梯度消失問題,從而實現更深層次的訓練。倒殘差[9]與傳統(tǒng)殘差塊的設計思想正好相反,它先通過降維卷積減少通道數,然后進行深度卷積操作,最后再通過逐點卷積恢復通道數。輸入通道數較高時,降維操作先減小特征通道維度,再進行深度卷積,從而大大減少運算量。
線性瓶頸:在卷積神經網絡中,瓶頸是指在特征通道維度上進行壓縮的層。這種壓縮主要目的是減少計算量,同時保留關鍵信息。線性瓶頸將傳統(tǒng)非線性激活函數從瓶頸層移除,使用純線性變換進行維度壓縮。
1.3 MobileNetV3
MobileNetV3發(fā)表于2019年,結合了深度學習最新的網絡設計技術,實現了較高的性能,同時大幅減少了模型參數量和計算開銷。
在V2網絡的基礎上,V3的改進措施有:1) 使用NAS神經架構搜索確定網絡結構。神經架構搜索是一種自動化的技術,旨在通過機器學習自動搜索出最優(yōu)的神經網絡結構[10]。NAS可以自動設計卷積神經網絡或其他類型神經網絡的最佳架構,從而減少人工設計網絡所需的時間和經驗依賴。MobileNetV3通過自動化的神經架構搜索技術來優(yōu)化網絡結構。與MobileNetV2依賴于手動設計不同,NAS自動搜索出最合適的卷積層類型、通道數和結構,并根據實際應用需求自動調整計算復雜度和性能之間的平衡,從而避免手動參數調整的時間成本和經驗依賴,提高了MobileNetV3在不同任務場景下的適應性,獲得更高的性能和更低的計算開銷。2) 引入了SE注意力機制。SE注意力機制[11]是一種用于提升卷積神經網絡性能的通道注意力機制。SE注意力機制的核心思想是通過建模通道間的依賴性,使神經網絡能夠動態(tài)地重新校準各通道特征的重要性,從而提升網絡對關鍵特征的表達能力。MobileNetV3引入了SE注意力機制,用于增強特征通道間的依賴性。SE模塊通過對通道特征進行動態(tài)加權,使網絡能夠自主學習哪些通道更具代表性。
圖1闡述了SE注意力機制的工作原理。對于一個形狀為[3,2,2]的輸入特征圖,首先通過全局平均池化操作,將每個通道的所有像素值求平均,從而獲得一個形狀為[3,1,1]的新特征圖,這個過程主要用于減少參數數量、提高泛化能力和避免過擬合。這個新特征圖中的藍色像素點代表原輸入特征圖中藍色通道所有像素值的平均值,黃色和紫色通道的處理方式相同。
接下來,將形狀為[3,1,1]的特征圖轉換為一維向量,并將其輸入到兩個連續(xù)的全連接層中,以產生對應于每個通道的權重值。最后,使用這些通道權重對原始輸入特征圖進行加權平均處理,生成最終的輸出特征圖。這一過程有效地增強了模型對關鍵特征通道的關注度,同時減弱了非關鍵特征的影響。
2 構建改進MobileNetV3模型
2.1 數據收集與處理
巖石薄片[12]是一種經過特殊制備的巖石樣品,厚度通常在30微米至50微米之間,足夠薄以便通過光學顯微鏡或偏光顯微鏡觀察研究巖石的礦物組成、結構、成分和形成歷史。
通過對現有的巖石薄片圖像數據集進行調研與分析,本文最終選定以科學數據銀行(Science Data Bank, ScienceDB) 數據庫為基礎收集一些巖石薄片圖像數據集。為了方便對網絡進行訓練,輸入網絡的圖像統(tǒng)一采用224×224的大小。通過數據增強來增加訓練樣本的多樣性并提高模型的魯棒性,避免過擬合。本文對收集到的巖石薄片圖像采用裁剪、旋轉、調節(jié)圖片對比度等操作,最終得到2 663張224×224的圖片。之后將數據集劃分為訓練集和測試集,隨機抽取1 776組數據作為訓練集,占總數據的80%;隨機抽取887組數據作為測試集,占總數據的20%。這樣劃分數據集的目的是更好地評估模型的泛化能力和預測效果。
2.2 SGE通道注意力
SGE通道注意力機制是一種輕量化且高效的注意力模塊。SGE的設計靈感是通過對通道特征進行“全局壓縮”操作,并通過通道交互關系建模來自動調整通道權重,從而優(yōu)化特征表達。
SGE通道注意力機制的關鍵思想如下,1) 全局池化操作:對輸入通道進行壓縮;2) 全局通道權重學習:利用全局統(tǒng)計信息進行通道之間的交互;3) 高效實現:相比于傳統(tǒng)的SE注意力機制,SGE具有更少的參數和更低的計算開銷,同時可以保持較強的通道建模能力。
2.3 分類模塊的改進
MobileNetV3的網絡結構圖如圖2所示。
在MobileNetV3基礎上,使用RFA卷積替換InvertedResidual中的第一個卷積。目的是在下采樣前盡可能收集更大感受野的信息,以保證后續(xù)下采樣時不會損失太多上下文信息。RFA是一種新型的注意力機制,它不僅關注接收野的空間特征,還為大尺寸卷積核提供了有效的注意力權重,從而全面解決卷積核參數共享的問題。
2.4 模型訓練與測試
使用訓練集循環(huán)訓練300次,然后使用測試集對訓練好的模型進行測試,計算模型在測試集上的準確率等指標,從而評估模型的預測能力和穩(wěn)定性。通過對模型在測試集上的表現,評估模型的性能和泛化能力,并對模型的預測結果進行分析和解釋。
3 實驗結果與分析
3.1 實驗環(huán)境搭建
本實驗平臺的相關配置如表1所示。
3.2 分類評價指標
為了更全面地評估本文改進的模型,將本文模型與其他模型進行對比,用準確度、精確度、召回率和F1值進行綜合評價。
混淆矩陣是在分類問題中用于評估模型性能的表格,它展示了模型對樣本的分類情況。基于混淆矩陣,可以計算許多其他評估指標。
1) 準確度,是指在圖片分類過程中,能夠正確分類的比例:
[Accuracy=(TP+TN)(TP+FP+TN+FN)]
2) 精確度,是指在圖片分類過程中,判斷為陽性樣本中真陽性所占的比例:
[Precision=TPTP+FP]
3) 召回率,是指圖片分類過程中,實際陽性樣本中真陽性所占的比例:
[Recall=TPTP+FN]
4) F1值,F1值綜合了精確率和召回率的表現,取值范圍是[0,1],數值越大代表模型的性能越好、泛化能力越強。F1值計算公式為:
[F1=2p×RP+R]
3.3 實驗結果分析
在本實驗中,筆者基于MobileNetV3網絡進行了改進,用于巖石薄片的分類任務。首先,在原網絡基礎上加入SGE通道注意力;其次,使用RFA卷積替換了原本InvertedResidual中的第一個卷積。通過改進,模型與原模型進行對比,在準確度、精確度、召回率和F1值方面均有所提高。將這兩個改進結合起來,得到的改進MobileNetV3在準確度、精確度、召回率和F1值方面展現出的數據效果最好。不同的優(yōu)化方法對模型的影響如表2所示。
1) 準確率提升。SGE注意力機制通過分組、平均池化、標準化和激活函數等一系列操作,增強了特征的表達能力。RFA卷積通過感受野注意力和特征融合,進一步增強了模型對輸入圖像的特征提取能力。綜合改進的MobileNetV3在整體數據集上的準確率從標準MobileNetV3的94.03%提升到了96.64%。這表明本文的改進方法有效地增強了模型對巖石薄片圖像特征的學習能力。
2) 精確率與召回率的提升。通過改進,精確率與召回率都有所提升。綜合改進的MobileNetV3與標準MobileNetV3相比,精確率從92.62%提升到95.48%,召回率從93.14%提升到95.42%。這說明改進后模型在分類任務中表現更穩(wěn)定,且分類結果更具魯棒性。
3) F1值優(yōu)化效果。加入SGE注意力機制后,F1值提升2%;加入RFA卷積后,F1值提升2.4%。綜合改進模型的F1值從標準的92.06%提高到95.05%。F1值的提升反映了改進后模型在精確率和召回率之間達到了更好的平衡。
4 結論
本文基于MobileNetV3模型,構建了一種改進的MobileNetV3巖石薄片分類模型。本次研究實驗結果表明,通過對MobileNetV3網絡模型的不斷調整,改進的MobileNetV3模型最終實現了對三種巖石薄片圖像的自動分類,分類準確率最高可達到96.64%。
通過加入SGE注意力機制和RFA卷積,本文最終的模型能夠有效地捕捉圖像的全局特征。在一些需要綜合考慮圖像上下文信息進行分類的領域,能夠發(fā)揮優(yōu)秀的性能。
由于實際巖石薄片圖像比較復雜,并且相關數據集也比較有限,因此在未來的研究中還有一定的進步空間。未來工作可以進一步通過引入更多的巖石薄片樣本、繼續(xù)優(yōu)化網絡模塊或與其他特征提取方法結合,同時對模型進行遷移學習、知識蒸餾等特征學習方法研究,進一步提高模型的學習能力,提升模型的魯棒性和準確性。
MobileNetV3專為移動設備設計,采用深度可分離卷積技術,有效減少了計算量,顯著提升了模型的運行速度。將來可以在內存小的可移動設備上進行實驗,實現可移動式的巖石薄片分類系統(tǒng),為巖石薄片分類任務提供更廣泛的應用支持。
參考文獻:
[1] 劉顯陽,李士祥,郭芪恒,等.鄂爾多斯盆地延長組長73亞段泥頁巖層系巖石類型特征及勘探意義[J].天然氣地球科學,2021,32(8):1177-1189.
[2] 張野,李明超,韓帥.基于巖石圖像深度學習的巖性自動識別與分類方法[J].巖石學報,2018,34(2):333-342.
[3] 白林,姚鈺,李雙濤,等.基于深度學習特征提取的巖石圖像礦物成分分析[J].中國礦業(yè),2018,27(7):178-182.
[4] GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge, MA: MIT Press, 2016.
[5] 高淑萍,趙清源,齊小剛,等.改進MobileNet的圖像分類方法研究[J].智能系統(tǒng)學報,2021,16(1):11-20.
[6] 張珂,馮曉晗,郭玉榮,等.圖像分類的深度卷積神經網絡模型綜述[J].中國圖象圖形學報,2021,26(10):2305-2325.
[7] 張馳,郭媛,黎明.人工神經網絡模型發(fā)展及應用綜述[J].計算機工程與應用,2021,57(11):57-69.
[8] 張珂,馮曉晗,郭玉榮,等.圖像分類的深度卷積神經網絡模型綜述[J].中國圖象圖形學報,2021,26(10):2305-2325.
[9] 王紅霞,張永善,宋邦,等.融合跨階段連接與倒殘差的NAS-FPNLite目標檢測方法[J].中國圖象圖形學報,2023,28(4):1004-1018.
[10] 孟子堯,谷雪,梁艷春,等.深度神經架構搜索綜述[J].計算機研究與發(fā)展,2021,58(1):22-33.
[11] 張宸嘉,朱磊,俞璐.卷積神經網絡中的注意力機制綜述[J].計算機工程與應用,2021,57(20):64-72.
[12] 馮丹.巖石薄片的制作方法淺談[J].發(fā)明與創(chuàng)新·職業(yè)教育,2020(1):153.
【通聯編輯:唐一東】