















摘要: 以常見(jiàn)的5種巖石薄片作為研究對(duì)象構(gòu)建數(shù)據(jù)集, 提出一種新的基于混合專(zhuān)家模型的巖石薄片圖像分類(lèi)模型. 該模型從薄片圖像中學(xué)習(xí)到每種巖石圖像的特征, 并對(duì)其進(jìn)行分類(lèi). 首先, 使用多個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer的圖像分類(lèi)模型(ResNet50,MobileNetV3,InceptionV3,DeiT等)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練; 其次, 選取效果較好的模型, 通過(guò)構(gòu)建混合專(zhuān)家模型, 得到最終的預(yù)測(cè)結(jié)果, 其巖性識(shí)別準(zhǔn)確率(ACC)和AUC在驗(yàn)證集上達(dá)到85.33%和96.69%, 在測(cè)試集上達(dá)到87.16%和96.75%; 最后, 通過(guò)混合專(zhuān)家模型結(jié)合多個(gè)模型, 綜合各模型的優(yōu)勢(shì), 平衡各模型間的貢獻(xiàn), 提高分類(lèi)結(jié)果的準(zhǔn)確性和魯棒性, 使得到的分類(lèi)結(jié)果更可靠、 穩(wěn)定.
關(guān)鍵詞: 巖石薄片分類(lèi); 混合專(zhuān)家模型; 圖像分類(lèi)
中圖分類(lèi)號(hào): TP391" 文獻(xiàn)標(biāo)志碼: A" 文章編號(hào): 1671-5489(2024)04-0905-10
Classification of Rock Thin Section ImagesBased on Mixture of Expert Model
ZHOU Chengyang1, LIU Wei2, WU Tianrun1, LI Ao1, HAN Xiaosong1
(1. College of Software, Jilin University, Changchun 130012, China;2. CNPC Engineering Technology Ramp;D Company Limited, Beijing 102206, China)
Abstract: We proposed a new classification of rock thin section images based on mixture of expert model by using" five common" rock thin sections as the research object to construct a dataset. The model learned the characteristics of each rock image from the thin section images and classified them. Firstly, multiple image classification models based on convolutional neural network(CNN) and Transformer (such as ResNet50, MobileNetV3, InceptionV3, DeiT, etc.) were used to train the data. Secondly, models with better performance were selected," a mixture of experts model was built to obtain the final prediction result. The" ACC and AUC of lithology recognition reached 85.33% and 96.69% on the validation set and 87.16% and 96.75% on the test set. Finally, by combining a mixture of experts model with" multiple models, combining" advantage of each model," balancing their contributions between each model, we improved the accuracy and robustness of classification results, making the obtained classification results "more reliable and stable.
Keywords: classification of rock thin section; mixture of expert model; image classification
巖石是地殼的主要組成部分, 是由礦物和天然玻璃組成的具有固定外形的穩(wěn)定集合體. 目前, 自然界中已發(fā)現(xiàn)超過(guò)3 000種巖石, 如砂巖、 灰?guī)r、 板巖、 花崗巖等. 巖性識(shí)別是地質(zhì)學(xué)和資源勘探開(kāi)發(fā)任務(wù)中的一項(xiàng)基礎(chǔ)而重要的工作, 它涉及對(duì)巖石的類(lèi)型、 成分、 結(jié)構(gòu)和成因特征進(jìn)行判斷和分類(lèi). 巖石薄片圖像是巖性識(shí)別過(guò)程中的重要數(shù)據(jù)來(lái)源.
傳統(tǒng)巖性識(shí)別過(guò)程依賴(lài)人工觀(guān)察確定巖石的類(lèi)別等信息, 該過(guò)程耗時(shí)耗力且依賴(lài)于領(lǐng)域知識(shí), 受個(gè)人主觀(guān)因素影響較大, 識(shí)別準(zhǔn)確率較低.
隨著計(jì)算機(jī)科學(xué)技術(shù)的不斷發(fā)展, 巖石薄片的圖像識(shí)別領(lǐng)域中引入了深度學(xué)習(xí)的方法.
目前, 對(duì)巖石薄片分類(lèi)的研究已有許多成果. 袁穎等[1]用主成分分析(PCA)方法提取評(píng)價(jià)指標(biāo)的主成分, 并通過(guò)遺傳算法優(yōu)化支持向量機(jī)(SVM), 對(duì)火成巖進(jìn)行了分類(lèi)訓(xùn)練; 馬隴飛等[2]用基于GBDT(gradient boosting decision tree)算法的識(shí)別模型識(shí)別多種泥巖和砂巖, 準(zhǔn)確率達(dá)92%; 賀金鑫等[3]結(jié)合巖石光譜特征和4種機(jī)器學(xué)習(xí)分類(lèi)模型進(jìn)行投票, 對(duì)遼寧省興城地區(qū)的經(jīng)典巖石樣本進(jìn)行分類(lèi), 準(zhǔn)確率達(dá)99.17%; Marmo等[4]通過(guò)圖像處理技術(shù)和人工神經(jīng)網(wǎng)絡(luò)(ANN)對(duì)碳酸鹽巖薄片進(jìn)行識(shí)別, 識(shí)別準(zhǔn)確率為93.5%; Singh等[5]采用與文獻(xiàn)[4]相同的方法, 提取27維數(shù)值作為神經(jīng)網(wǎng)絡(luò)的輸入, 對(duì)玄武巖薄片圖像的分類(lèi)精度達(dá)92.22%; Chatterjee[6]提出了一種基于SVM的算法, 從原始的189個(gè)特征中選擇40個(gè)特征作為模型輸入, 對(duì)6種石灰?guī)r類(lèi)型進(jìn)行識(shí)別, 識(shí)別準(zhǔn)確率達(dá)96.2%; Khorram等[7]提出了一個(gè)石灰?guī)r分類(lèi)模型, 將SVM和Bayes技術(shù)用于分類(lèi), 實(shí)現(xiàn)了在不同采礦階段對(duì)巖性進(jìn)行分類(lèi); Mlynarczuk等[8]利用偏振顯微鏡獲取了9種巖石樣本的薄片數(shù)字圖像, 使用4種模式識(shí)別方法自動(dòng)識(shí)別巖石樣本.
上述方法大部分將機(jī)器學(xué)習(xí)方法用在巖石類(lèi)型分類(lèi)中, 顯示出一定優(yōu)勢(shì). 但這些方法嚴(yán)重依賴(lài)于研究人員提取的數(shù)字特征質(zhì)量, 直接決定了模型的最終性能. 近年來(lái), 隨著深度學(xué)習(xí)算法的發(fā)展, 許多研究人員將其應(yīng)用于巖石薄片識(shí)別并取得了重大突破. 譚永健等[9]改進(jìn)了InceptionV3網(wǎng)絡(luò)中卷積操作, 引入殘差連接和遷移學(xué)習(xí)的思想, 對(duì)10類(lèi)巖石樣本進(jìn)行分類(lèi), 準(zhǔn)確率達(dá)86%; 許振浩等[10]結(jié)合監(jiān)督目標(biāo)檢測(cè)網(wǎng)絡(luò)以及ResNet-101網(wǎng)絡(luò)對(duì)巖石圖像進(jìn)行遷移學(xué)習(xí), 準(zhǔn)確率達(dá)90.21%; 程國(guó)建等[11]利用輕量卷積神經(jīng)網(wǎng)絡(luò)SqueezeNet訓(xùn)練巖石薄片圖像分類(lèi), 在驗(yàn)證集上的準(zhǔn)確率達(dá)90.88%; 張野等[12]對(duì)InceptionV3模型進(jìn)行遷移學(xué)習(xí), 在巖石巖性分類(lèi)識(shí)別上準(zhǔn)確率超過(guò)90%; Li等[13]使用改進(jìn)的TradaBoost算法對(duì)不同區(qū)域采集的微觀(guān)砂巖圖像進(jìn)行識(shí)別; Polat等[14]利用兩個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)6種類(lèi)型的火山巖進(jìn)行自動(dòng)分類(lèi), 并對(duì)4種不同優(yōu)化器的分類(lèi)效果進(jìn)行了評(píng)價(jià); Dos Anjos等[15]提出了4種卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型, 利用微觀(guān)Thin數(shù)學(xué)剖面圖像識(shí)別了3種巴西鹽下湖相碳酸鹽巖.
目前, 關(guān)于巖石薄片識(shí)別的研究已取得了很多成果. 混合專(zhuān)家(mixture of experts, MoE)通過(guò)將多個(gè)專(zhuān)家模型組合形成一個(gè)整體模型, 以利用每個(gè)專(zhuān)家模型的優(yōu)勢(shì). 每個(gè)專(zhuān)家模型可以專(zhuān)注于解決特定的子問(wèn)題, 而整體模型則能在復(fù)雜任務(wù)中獲得更好的性能. 本文通過(guò)搭建多個(gè)基于CNN和Transformer的分類(lèi)模型, 如ResNet50,MobileNetV3,InceptionV3,DeiT, 使用這些模型在較大數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù), 再對(duì)每個(gè)巖石薄片圖像進(jìn)行特征學(xué)習(xí), 并用于分類(lèi)任務(wù). 在單模型分類(lèi)的基礎(chǔ)上, 引入MoE的方法將各模型視為不同專(zhuān)家, 動(dòng)態(tài)決定哪個(gè)專(zhuān)家模型應(yīng)該被激活以生成最佳預(yù)測(cè), 進(jìn)一步提高巖石薄片圖像分類(lèi)模型的性能.
1 深度學(xué)習(xí)方法
1.1 ResNet-50
ResNet-50是一種深度殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[16], 在圖像處理任務(wù)中常用于特征提取, 旨在解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中隨網(wǎng)絡(luò)層數(shù)增加, 由于梯度消失或梯度爆炸導(dǎo)致的網(wǎng)絡(luò)性能飽和或退化問(wèn)題. 通過(guò)引入殘差模塊的概念, 可有效解決上述問(wèn)題. 在殘差模塊中, 每個(gè)輸入有兩個(gè)主要路徑: 主路徑和殘差路徑. 主路徑通過(guò)若干卷積層學(xué)習(xí)特征, 而殘差路徑則直接連接主路徑的輸入和輸出, 完成跳躍連接, 將輸入直接添加到主路徑的輸出中, 使信息可直接傳到更深層, 促進(jìn)信號(hào)在向前和向后路徑的傳播. 圖1(A)為一個(gè)殘差模塊, 其中主路徑由兩個(gè)卷積層組成; 圖1(B)為Resnet-50的網(wǎng)絡(luò)結(jié)構(gòu), 其中有50個(gè)卷積層.
1.2 MobileNetV3
MobileNet[17]是一種專(zhuān)為移動(dòng)設(shè)備和嵌入式設(shè)備設(shè)計(jì)的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型, 其目標(biāo)是在保持較高準(zhǔn)確率的同時(shí), 顯著減少網(wǎng)絡(luò)參數(shù)量和計(jì)算量.
MobileNet在設(shè)計(jì)中提出了一種深度可分離卷積代替?zhèn)鹘y(tǒng)卷積的方案[18], 如圖2所示.
深度卷積階段在每個(gè)輸入通道上分別應(yīng)用一個(gè)小型的卷積核, 可極大減少計(jì)算量. 逐點(diǎn)卷積階段使用1×1的卷積核對(duì)深度卷積的結(jié)果進(jìn)行線(xiàn)性組合, 從而實(shí)現(xiàn)通道間的交互和特征融合. 這種深度可分離卷積的設(shè)計(jì)使MobileNet在減少參數(shù)量的同時(shí), 仍能保持較高的感受野和表達(dá)能力.
MobileNetV3是對(duì)MobileNet的改進(jìn)版本, 網(wǎng)絡(luò)結(jié)構(gòu)列于表1, 參數(shù)量為5.4 M, 其中引入了幾個(gè)關(guān)鍵的改進(jìn): h-swish激活函數(shù)、 SE通道注意力機(jī)制和網(wǎng)絡(luò)架構(gòu)搜索.
h-swish是一種針對(duì)MobileNetV3特別設(shè)計(jì)的激活函數(shù), 它結(jié)合了線(xiàn)性和非線(xiàn)性特性, 具有高計(jì)算效率和模型可訓(xùn)練性. h-swish通過(guò)引入剪切的ReLU函數(shù), 提供了良好的非線(xiàn)性變換和梯度傳播, 增強(qiáng)了網(wǎng)絡(luò)的表達(dá)能力和訓(xùn)練效果. SE通道注意力機(jī)制先通過(guò)全局平均池化層得到一個(gè)通道數(shù)較小的特征向量, 再用全連接層和激活函數(shù)得到一個(gè)注意力向量, 最后將注意力向量和原始特征圖相乘, 得到一個(gè)經(jīng)過(guò)注意力調(diào)整的特征圖. 網(wǎng)絡(luò)架構(gòu)搜索利用強(qiáng)化學(xué)習(xí)和進(jìn)化算法等技術(shù), 搜索算法可以在給定的計(jì)算約束下, 自動(dòng)搜索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù), 其提供了一種高效的方式設(shè)計(jì)出性能更好的模型.
1.3 InceptionV3
Inception[19]是一種深度卷積神經(jīng)網(wǎng)絡(luò), 又稱(chēng)GoogLeNet, 其主要特點(diǎn)是引入了Inception模塊. Inception模塊包含了1×1,3×3和5×5的卷積層以及3×3的最大池化層. 這些操作并行進(jìn)行, 并在最后通過(guò)連接進(jìn)行組合, 如圖3所示. 為減少計(jì)算量, Inception在3×3和5×5的卷積操作前使用1×1的卷積作為瓶頸層進(jìn)行降維, 有效減少了網(wǎng)絡(luò)的參數(shù)數(shù)量和計(jì)算復(fù)雜度. Inception模塊的這種設(shè)計(jì)使網(wǎng)絡(luò)在每個(gè)層級(jí)都能自動(dòng)學(xué)習(xí)并適應(yīng)不同尺寸的特征. InceptionV3[20]對(duì)于Inception模塊設(shè)計(jì)上更復(fù)雜, 引入了更多的卷積和池化操作, 在更小的卷積操作中引入了非線(xiàn)性激活, 以增加模型的表達(dá)能力; 并將大卷積核拆分成多個(gè)小卷積核, 如將5×5的卷積核拆解成3×3的卷積核, 在保持相同感受野的同時(shí)縮小模型數(shù)量, 如圖3(B)所示. 同時(shí), InceptionV3使用了平滑標(biāo)簽技術(shù).
DeiT(data-efficient image transformer)[21]是一種基于Transformer的視覺(jué)圖像分類(lèi)模型, DeiT給出了一種新的訓(xùn)練方式, 稱(chēng)為知識(shí)蒸餾(knowledge distillation), 使模型在數(shù)據(jù)較少的情況下也有很好的性能. 知識(shí)蒸餾是一種模型訓(xùn)練技術(shù), 旨在通過(guò)傳遞一個(gè)大型教師模型的知識(shí)訓(xùn)練一個(gè)小型學(xué)生模型.
該方法的目標(biāo)是使學(xué)生模型能獲得與教師模型相似的性能, 同時(shí)減少學(xué)生模型的復(fù)雜性和計(jì)算成本, 通過(guò)傳遞教師模型的知識(shí), 可以在小型模型上實(shí)現(xiàn)接近教師模型性能的效果. DeiT不僅要使學(xué)生模型在分類(lèi)任務(wù)上的輸出接近教師模型的輸出, 而且還要使學(xué)生模型在注意力分布上接近教師模型. 通過(guò)模仿教師模型的注意力分布, 學(xué)生模型可學(xué)習(xí)到如何聚焦于圖像中的重要部分. DeiT模型結(jié)構(gòu)如圖4所示.
DeiT還引入了一種新的位置編碼方式, 稱(chēng)為2D相對(duì)位置編碼. 這種位置編碼方式考慮了每個(gè)patch與其他所有patches在2D空間中的相對(duì)位置, 使模型能更好地理解圖像的空間結(jié)構(gòu). 此外, 為進(jìn)一步提高模型的性能, DeiT還引入了token mixing策略. 在訓(xùn)練過(guò)程中, DeiT會(huì)隨機(jī)選擇一些圖像區(qū)域, 并對(duì)它們進(jìn)行局部調(diào)整, 從而使模型更好地處理輸入中的局部變化. 這種隨機(jī)性的引入可增加模型的魯棒性和泛化能力.
2 巖石薄片圖像分類(lèi)模型
巖石薄片圖像分類(lèi)旨在從眾多的巖石薄片圖像中學(xué)習(xí)到每種巖石圖像的特征, 并對(duì)其進(jìn)行分類(lèi). 本文引入混合專(zhuān)家模型的思想, 首先使用多個(gè)基于CNN和Transformer的圖像分類(lèi)模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練, 通過(guò)將效果較好的多個(gè)單模型進(jìn)行組合, 綜合各模型的預(yù)測(cè)結(jié)果, 從而得到更準(zhǔn)確和具有魯棒性的分類(lèi)結(jié)果, 模型結(jié)構(gòu)如圖5所示.
圖5中藍(lán)線(xiàn)框內(nèi)使用多個(gè)基于CNN和Transformer的圖像分類(lèi)模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練, 用這些模型在較大數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù), 再對(duì)每個(gè)巖石薄片圖像進(jìn)行特征學(xué)習(xí), 并用于分類(lèi)任務(wù). 在驗(yàn)證集上評(píng)估各單模型的性能, 通過(guò)對(duì)結(jié)果預(yù)測(cè)的準(zhǔn)確性比較各模型, 選取性能優(yōu)秀的模型后續(xù)使用. 紅線(xiàn)框內(nèi)選擇性能最佳的模型, 先用每個(gè)模型對(duì)圖像樣本進(jìn)行分類(lèi)預(yù)測(cè), 再通過(guò)Softmax輸出各類(lèi)別的概率結(jié)果. 然后通過(guò)混合專(zhuān)家模型為選中的每個(gè)專(zhuān)家模型分配一個(gè)權(quán)重, 通過(guò)模型在驗(yàn)證集上的預(yù)測(cè)結(jié)果得到各專(zhuān)家模型在分類(lèi)任務(wù)中的貢獻(xiàn)進(jìn)行結(jié)果融合, 尋找混合專(zhuān)家模型中各專(zhuān)家模型的最優(yōu)權(quán)重集合, 最終進(jìn)行結(jié)果預(yù)測(cè).
2.1 巖石薄片圖像收集與處理
本文巖石薄片圖像數(shù)據(jù)來(lái)自中國(guó)實(shí)物地質(zhì)資料信息網(wǎng)的實(shí)物地質(zhì)資料圖像數(shù)據(jù)庫(kù)(https://www.cgsi.cn/). 首先對(duì)巖石薄片圖像進(jìn)行分類(lèi)和統(tǒng)計(jì). 在數(shù)據(jù)庫(kù)中選擇3個(gè)較大的巖石薄片圖像產(chǎn)地, 共得到1 539組巖石薄片圖像樣本, 其中包含11 370張巖石薄片圖像. 對(duì)這些圖像按巖石的名稱(chēng)進(jìn)行分類(lèi), 統(tǒng)計(jì)每個(gè)類(lèi)別中的圖像數(shù)量, 并按數(shù)量進(jìn)行排序, 結(jié)果列于表2. 巖石薄片圖像如圖6所示.
得到圖像后對(duì)圖像進(jìn)行尺寸調(diào)整, 使其大小一致, 并進(jìn)行顏色標(biāo)準(zhǔn)化操作, 消除由于不同圖像采集設(shè)備、 光照條件和色彩校準(zhǔn)等因素導(dǎo)致的顏色偏差, 以提高模型對(duì)圖像特征的識(shí)別能力.
為評(píng)估分類(lèi)模型的性能, 將數(shù)據(jù)集按14∶3∶3的比例劃分為訓(xùn)練集、 驗(yàn)證集和測(cè)試集. 為增加模型的泛化能力, 對(duì)訓(xùn)練集和驗(yàn)證集中的每張圖片進(jìn)行隨機(jī)裁剪、 旋轉(zhuǎn)、 翻轉(zhuǎn)及顏色抖動(dòng)等處理, 以生成更多樣的訓(xùn)練樣本, 擴(kuò)展數(shù)據(jù)集的多樣性, 并使模型對(duì)圖像的變化有更好的適應(yīng)能力.
2.2 單模型巖石薄片圖像分類(lèi)
搭建多個(gè)基于CNN和Transformer的分類(lèi)模型, 如ResNet50,MobileNetV3,InceptionV3,DeiT. 使用這些模型在較大數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù), 再對(duì)每個(gè)巖石薄片圖像進(jìn)行特征學(xué)習(xí), 并用于分類(lèi)任務(wù). 對(duì)每個(gè)模型, 采用端到端的訓(xùn)練策略. 首先, 將巖石薄片圖像樣本輸入到模型中, 對(duì)圖像進(jìn)行特征提取和表示學(xué)習(xí); 其次, 通過(guò)反向傳播算法和優(yōu)化方法, 對(duì)模型的參數(shù)進(jìn)行調(diào)整和更新, 使模型能更準(zhǔn)確地預(yù)測(cè)巖石薄片圖像的類(lèi)別; 最后, 采用多個(gè)模型, 并對(duì)不同模型采用不同的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置, 以考察不同模型的特征表示能力和學(xué)習(xí)能力.
為評(píng)估模型性能, 使用交叉熵作為損失函數(shù). 在多類(lèi)別分類(lèi)任務(wù)中, 交叉熵?fù)p失可衡量模型的預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的差異程度. 通過(guò)最小化損失函數(shù), 模型逐漸調(diào)整參數(shù), 提高對(duì)巖石薄片圖像的分類(lèi)準(zhǔn)確性. 交叉熵?fù)p失函數(shù)的計(jì)算公式為
Lt=∑Ni=1ytilog(pti),(1)
其中y表示圖像的真實(shí)標(biāo)簽, N表示圖像的總數(shù)量, L為損失函數(shù)的值.
通過(guò)訓(xùn)練多個(gè)單模型, 并計(jì)算每個(gè)模型對(duì)圖像樣本的預(yù)測(cè)結(jié)果, 最終獲得多個(gè)獨(dú)立的分類(lèi)模型. 這些模型具有不同的架構(gòu)和參數(shù)設(shè)置, 能對(duì)巖石薄片圖像的不同特征進(jìn)行學(xué)習(xí)和表示.
2.3 混合專(zhuān)家模型巖石薄片圖像分類(lèi)
在單模型分類(lèi)的基礎(chǔ)上, 引入混合專(zhuān)家模型進(jìn)一步提高巖石薄片圖像分類(lèi)的性能. 通過(guò)將效果較好的多個(gè)單模型進(jìn)行組合, 綜合各模型的預(yù)測(cè)結(jié)果, 從而得到更準(zhǔn)確和具有魯棒性的分類(lèi)結(jié)果. 混合專(zhuān)家模型的過(guò)程主要由一組專(zhuān)家模型和一個(gè)門(mén)控模型組成. 基本理念是將輸入數(shù)據(jù)根據(jù)任務(wù)類(lèi)型分割成多個(gè)區(qū)域, 并將每個(gè)區(qū)域的數(shù)據(jù)分配一個(gè)或多個(gè)專(zhuān)家模型. 每個(gè)專(zhuān)家模型可專(zhuān)注于處理輸入這部分?jǐn)?shù)據(jù), 從而提高模型的整體性能.
門(mén)控模型主要由稀疏門(mén)網(wǎng)絡(luò)組成, 它接收單個(gè)數(shù)據(jù)元素作為輸入, 然后輸出一個(gè)權(quán)重, 這些權(quán)重用于表示不同專(zhuān)家模型在處理輸入數(shù)據(jù)時(shí)做出的貢獻(xiàn), 一般采用Softmax門(mén)控函數(shù)通過(guò)專(zhuān)家對(duì)概率分布進(jìn)行建模. 例如, 如果模型有3個(gè)專(zhuān)家, 輸出的概率可能為0.6,0.3,0.1, 則表示第一個(gè)專(zhuān)家對(duì)處理此數(shù)據(jù)的貢獻(xiàn)為60%, 第二個(gè)專(zhuān)家為30%, 第三個(gè)專(zhuān)家為10%.
混合專(zhuān)家模型還包含一組專(zhuān)家模型, 在訓(xùn)練過(guò)程中, 門(mén)控模型將輸入的數(shù)據(jù)分配到不同的專(zhuān)家模型中進(jìn)行處理, 不同的專(zhuān)家被分配到處理不同種類(lèi)的輸入數(shù)據(jù); 在推理過(guò)程中, 被門(mén)控選擇的專(zhuān)家會(huì)針對(duì)輸入的數(shù)據(jù)產(chǎn)生相應(yīng)的輸出. 這些輸出最后會(huì)與每個(gè)專(zhuān)家模型處理該特征的能力分配的權(quán)重進(jìn)行加權(quán)組合, 形成最終的預(yù)測(cè)結(jié)果. 混合專(zhuān)家模型在訓(xùn)練過(guò)程中通過(guò)“因材施教”的思想構(gòu)建門(mén)控模型, 進(jìn)而在推理過(guò)程中實(shí)現(xiàn)各專(zhuān)家模型的優(yōu)勢(shì). 在混合專(zhuān)家模型中, 處理輸入數(shù)據(jù)時(shí)只有少數(shù)專(zhuān)家模型被激活或使用, 而大部分專(zhuān)家模型處于未被激活狀態(tài), 這種狀態(tài)即為稀疏. 稀疏性是混合專(zhuān)家模型的主要優(yōu)點(diǎn), 也是提升模型訓(xùn)練和推理過(guò)程效率的關(guān)鍵.
圖7為混合專(zhuān)家模型的原理, 一個(gè)門(mén)控模型用于分配每個(gè)專(zhuān)家模型的輸出權(quán)重. 對(duì)一個(gè)輸入樣本c, 第i個(gè)專(zhuān)家模型的輸出為oic, 真實(shí)數(shù)據(jù)為dc, 則其損失函數(shù)可表示為
Ec=∑ipci(dc-oci)2,(2)
其中pci表示門(mén)控模型分配給每個(gè)專(zhuān)家模型的權(quán)重, 將pci放于括號(hào)外部使每個(gè)專(zhuān)家模型都能單獨(dú)計(jì)算損失函數(shù), 鼓勵(lì)不同的專(zhuān)家模型進(jìn)行競(jìng)爭(zhēng).
每個(gè)專(zhuān)家模型都會(huì)對(duì)圖像樣本進(jìn)行分類(lèi)預(yù)測(cè), 并輸出各類(lèi)別的概率結(jié)果. 通過(guò)為每個(gè)專(zhuān)家模型分配的權(quán)重表示該模型對(duì)最終分類(lèi)結(jié)果的重要性. 通過(guò)驗(yàn)證集將門(mén)控網(wǎng)絡(luò)計(jì)算的權(quán)重進(jìn)行加權(quán)聚合, 每個(gè)專(zhuān)家模型的輸出乘以相應(yīng)的權(quán)重, 并將這些加權(quán)的輸出求和, 從而得到最終模型輸出的預(yù)測(cè)結(jié)果. 混合專(zhuān)家模型得到的結(jié)果為=1N∑Nt=1ptyt," ∑Nt=1pt=1,(3)
其中p表示每個(gè)專(zhuān)家模型對(duì)應(yīng)的權(quán)重, y表示每個(gè)模型預(yù)測(cè)各類(lèi)別概率的結(jié)果, 表示多個(gè)結(jié)果的加權(quán)和, N表示進(jìn)行加權(quán)的模型數(shù)量.
要求所有模型的權(quán)重之和等于1, 并使最終概率和仍等于1.
在混合專(zhuān)家模型學(xué)習(xí)的過(guò)程中, 通過(guò)合理設(shè)置權(quán)重平衡各模型之間的貢獻(xiàn). 性能更好的模型會(huì)被分配更高的權(quán)重, 而性能較差的模型則會(huì)被分配較低的權(quán)重. 通過(guò)調(diào)整權(quán)重, 可有效結(jié)合各模型的優(yōu)勢(shì), 提高模型整體的分類(lèi)性能和魯棒性. 通過(guò)引入混合專(zhuān)家模型, 可充分利用多個(gè)單模型的優(yōu)勢(shì), 其加權(quán)組合機(jī)制使模型能在不同的輸入下自適應(yīng)地選擇哪個(gè)專(zhuān)家模型能更有利于當(dāng)前輸入, 從而彌補(bǔ)單個(gè)模型的不足, 提高巖石薄片圖像分類(lèi)的準(zhǔn)確性和可靠性.
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)計(jì)
實(shí)驗(yàn)以Python3.8.10作為編程語(yǔ)言, 以PyTorch作為學(xué)習(xí)框架, 版本為1.11.0, GPU選擇RTX 3090, 顯存為24 GB, CPU是Intel Xeon Gold 6330, 內(nèi)存為25 GB. 采用分批次訓(xùn)練方法, 批次大小為64, 所有訓(xùn)練圖像在模型中完成一次計(jì)算即為一次迭代. 網(wǎng)絡(luò)初始學(xué)習(xí)率為0.001, 衰減步長(zhǎng)為10, 衰減因子為0.9.
3.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用準(zhǔn)確率(ACC)和AUC作為評(píng)價(jià)指標(biāo). ACC是衡量模型在所有預(yù)測(cè)中正確分類(lèi)的比例, 假設(shè)TP,TN,F(xiàn)P,F(xiàn)N分別為真正例、 真反例、 假正例、 假反例的數(shù)量, 則ACC的計(jì)算公式為
ACC=TPTP+FP.(4)
AUC是基于ROC曲線(xiàn)(receiver operating characteristic curve)計(jì)算得出的一個(gè)指標(biāo), 用于評(píng)估模型在不同閾值下的分類(lèi)性能. 二分類(lèi)的AUC的計(jì)算方式是通過(guò)以假正例率(FPR)為橫坐標(biāo)、 真正例率(TPR)為縱坐標(biāo)繪制出的ROC曲線(xiàn)下的面積得出. 其中, FPR和TPR的計(jì)算公式分別為FPR=FPFP+TN,(5)TPR=TPTP+FN.(6)
多分類(lèi)的AUC通過(guò)計(jì)算多個(gè)種類(lèi)的二分類(lèi)AUC的值平均得出, 計(jì)算公式為
AUC=mean(AUC1,AUC2,…,AUCn).(7)
3.3 單模型收斂性實(shí)驗(yàn)
選擇ResNet50,MobileNetV3,InceptionV3,DeiT 4個(gè)模型進(jìn)行訓(xùn)練, 4個(gè)模型在200次迭代中的損失值、 ACC值、 AUC值變化曲線(xiàn)如圖8所示. 由圖8可見(jiàn), DeiT的效果最好, 在隨機(jī)變換后驗(yàn)證集上的準(zhǔn)確率達(dá)80%以上, ResNet-50效果最差.
3.4 混合專(zhuān)家模型權(quán)重實(shí)驗(yàn)
構(gòu)建混合專(zhuān)家模型, 觀(guān)察使用該方法后模型對(duì)巖石薄片的分類(lèi)預(yù)測(cè)準(zhǔn)確率對(duì)比單模型是否有提升. 由上述實(shí)驗(yàn)結(jié)果可知, ResNet50模型的效果比其他模型相差較多, 并且與其他模型結(jié)構(gòu)的重復(fù)度較高, 故選擇剩余的MobileNetV3,InceptionV3和DeiT作為專(zhuān)家模型構(gòu)建混合專(zhuān)家模型.
由于樣本分布不均勻, 最大類(lèi)別與最小類(lèi)別數(shù)據(jù)量約相差6倍, 故選擇AUC最大值作為專(zhuān)家模型的選取, 選擇專(zhuān)家模型后, 分別對(duì)經(jīng)過(guò)Softmax的結(jié)果進(jìn)行加權(quán)求和, 在驗(yàn)證集采用網(wǎng)格搜索的方式尋找混合專(zhuān)家模型中各專(zhuān)家模型最佳的權(quán)重集合, 其中Softmax加權(quán)網(wǎng)格搜索的效果如圖9所示.
由圖9可見(jiàn),當(dāng)DeiT,InceptionV3,MobileNetV3的權(quán)重分別為0.67,0.27,0.06時(shí)模型效果最好. 對(duì)3個(gè)專(zhuān)家模型, 構(gòu)建混合專(zhuān)家模型在驗(yàn)證集上的最佳模型, 混合專(zhuān)家模型和單模型在驗(yàn)證集和測(cè)試集上的測(cè)試效果列于表3.
由表3可見(jiàn), 通過(guò)最佳權(quán)重集合構(gòu)建的混合專(zhuān)家模型在測(cè)試集和驗(yàn)證集上的性能均較好, 對(duì)比最優(yōu)秀的單一分類(lèi)模型DeiT, 在驗(yàn)證集和測(cè)試集上的準(zhǔn)確率分別高出0.006 2和0.005 1.
實(shí)驗(yàn)結(jié)果表明, 在驗(yàn)證集上得到的模型在測(cè)試集上性能也較好, 可有效增加模型預(yù)測(cè)的準(zhǔn)確率. 對(duì)最終的混合專(zhuān)家模型, 其對(duì)測(cè)試集的圖像預(yù)測(cè)熱力圖如圖10所示, 其中從左到右的類(lèi)別分別為板巖、 灰?guī)r、 砂巖、 礫巖、 花崗巖. 由圖10可見(jiàn), 模型對(duì)各巖石類(lèi)別的預(yù)測(cè)效果相對(duì)較好, 但也存在一些問(wèn)題. 當(dāng)預(yù)測(cè)標(biāo)簽為砂巖一列時(shí), 模型可能會(huì)將其他類(lèi)別的圖像錯(cuò)誤地預(yù)測(cè)為砂巖, 這可能是因?yàn)樯皫r類(lèi)別在巖石分類(lèi)中屬于一個(gè)廣泛的類(lèi)別, 包含了多種不同的樣本, 即使部分巖石的名稱(chēng)被定義為其他巖石, 可能最終類(lèi)別仍在砂巖類(lèi)中, 導(dǎo)致模型產(chǎn)生混淆.
綜上所述, 本文基于多個(gè)CNN和Transformer的單模型分類(lèi)器, 通過(guò)端到端訓(xùn)練對(duì)巖石薄片圖像進(jìn)行特征提取和學(xué)習(xí), 以預(yù)測(cè)巖石的類(lèi)別. 通過(guò)引入構(gòu)建混合專(zhuān)家模型的思想合理設(shè)置權(quán)重, 平衡各模型之間的貢獻(xiàn), 提高了模型整體的分類(lèi)性能和魯棒性. 使用中國(guó)實(shí)物地質(zhì)資料信息網(wǎng)的巖石薄片圖像數(shù)據(jù)庫(kù)構(gòu)建數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)的結(jié)果表明, 在單個(gè)模型的預(yù)測(cè)準(zhǔn)確率達(dá)86.65%, 在MoE模型中達(dá)87.16%.
參考文獻(xiàn)
[1] 袁穎, 李紹康, 周愛(ài)紅. 基于PCA-GA-SVM的火成巖分類(lèi)方法研究 [J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2017, 47(12): 121-128. (YUAN Y, LI S K, ZHOU A H. Research on Igneous Rock Classification Method Based on PCA-GA-SVM [J]. Mathematics Practice and Understanding, 2017, 47(12): 121-128.)
[2] 馬隴飛, 蕭漢敏, 陶敬偉, 等. 基于梯度提升決策樹(shù)算法的巖性智能分類(lèi)方法 [J]. 油氣地質(zhì)與采收率, 2022, 29(1): 21-29. (MA L F, XIAO H M, TAO J W, et al. Lithology Intelligent Classification Method Based on Gradient Boosting Decision Tree Algorithm [J]. Oil and Gas Geology and Recovery Factors, 2022, 29(1): 21-29.)
[3] 賀金鑫, 任小玉, 陳圣波, 等. 融合學(xué)習(xí)模型的巖石光譜特征自動(dòng)分類(lèi) [J]. 光譜學(xué)與光譜分析, 2021, 41(1): 141-144. (HE J X, REN X Y, CHEN S B, et al. Automatic Classification of Rock Spectral Features Based on" Fusion Learning Model" [J]. Spectroscopy and Spectral Analysis, 2021, 41(1): 141-144.)
[4] MARMO R, AMODIO S, TAGLIAFERRI R, et al. Textural Identification of Carbonate Rocks by Image Processing and Neural Network: Methodology Proposal and Examples [J]. Computers amp; Geosciences, 2005, 31(5): 649-659.
[5] SINGH N, SINGH T N, TIWARY A, et al. Textural Identification of Basaltic Rock Mass Using Image Processing and Neural Network [J]. Computational Geosciences, 2010, 14(2): 301-310.
[6] CHATTERJEE S. Vision-Based Rock-Type Classification of Limestone Using Multi-class Support Vector Machine [J]. Applied Intelligence, 2013, 39(1): 14-27.
[7] KHORRAM F, MORSHEDY A H, MEMARIAN H, et al. Lithological Classification and Chemical Component Estimation Based on the Visual Features of Crushed Rock Samples [J]. Arabian Journal of Geosciences, 2017, 10(15): 324-1-324-9.
[8] MLYNARCZUK M, GRSZCZYK A, S'LIPEK B. The Application of Pattern Recognition in the Automatic Classification of Microscopic Rock Images [J]. Computers amp; Geosciences, 2013, 60: 126-133.
[9] 譚永健, 田苗, 徐德馨, 等. 基于Xception網(wǎng)絡(luò)的巖石圖像分類(lèi)識(shí)別研究 [J]. 地理與地理信息科學(xué), 2022, 38(3): 17-22. (TAN Y J, TIAN M, XU D X, et al. Research on Rock Image Classification and Recognition Based on Xception Network [J]. Geography and Geo\|Information Science, 2022, 38(3): 17-22.)
[10] 許振浩, 馬文, 林鵬, 等. 基于巖石圖像遷移學(xué)習(xí)的巖性智能識(shí)別 [J]. 應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報(bào), 2021, 29(5): 1075-1092. (XU Z H, MA W, LIN P, et al. Intelligent Identification of Lithology Based on Rock Image Transfer Learning [J]. Journal of Applied Basic and Engineering Sciences, 2021, 29(5): 1075-1092.)
[11] 程國(guó)建, 李碧, 萬(wàn)曉龍, 等. 基于SqueezeNet卷積神經(jīng)網(wǎng)絡(luò)的巖石薄片圖像分類(lèi)研究 [J]. 礦物巖石, 2021, 41(4): 94-101. (CHENG G J, LI B, WAN X L, et al. Research on Rock Thin Section Image Classification Based on SqueezeNet Convolutional Neural Network [J]. Minerals and Rocks, 2021, 41(4): 94-101.)
[12] 張野, 李明超, 韓帥. 基于巖石圖像深度學(xué)習(xí)的巖性自動(dòng)識(shí)別與分類(lèi)方法 [J]. 巖石學(xué)報(bào), 2018, 34(2): 333-342. (ZHANG Y, LI M C, HAN S. Automatic Identification and Classification Method of Lithology Based on Deep Learning of Rock Images [J]. Acta Petrologica Sinica, 2018, 34(2): 333-342.)
[13] LI N, HAO H Z, GU Q, et al. A Transfer Learning Method for Automatic Identification of Sandstone Microscopic Images [J]. Computers amp; Geosciences, 2017, 103: 111-121.
[14] POLAT O, POLAT A, EKICI T. Automatic Classification of Volcanic Rocks from Thin Section Images Using Transfer Learning Networks [J]. Neural Computing and Applications, 2021, 33(18): 11531-11540.
[15] DOS ANJOS C E M, AVILA M R V, VASCONCELOS A G P, et al. Deep Learning for Lithological Classification of Carbonate Rock Micro-CT Images [J]. Computational Geosciences, 2021, 25(3): 971-983.
[16] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[17] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications [EB/OL]. (2017-04-17)[2023-01-10]. https://arxiv.org/abs/1704.04861.
[18] HOWARD A, SANDLER M, CHU G, et al. Searching for Mobilenetv3 [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2019: 1314-1324.
[19] SZEGEDY C, LIU W, JIA Y Q, et al. Going Deeper with Convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9.
[20] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the Inception Architecture for Computer Vision [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 2818-2826.
[21] TOUVRON H, CORD M, DOUZE M, et al. Training Data-Efficient Image Transformers amp; Distillation through Attention [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2021: 10347-10357.
(責(zé)任編輯: 韓 嘯)