999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SMOTE和Inception-CNN的種植和組培金線蓮鑒別

2024-01-12 05:55:04柴琴琴李玉榕
光譜學與光譜分析 2024年1期
關鍵詞:培育優化模型

藍 艷,王 武,許 文,柴琴琴*,李玉榕,張 勛

1. 福州大學電氣工程與自動化學院,福建 福州 350108 2. 福建中醫藥大學藥學院,福建 福州 350122

引 言

金線蓮是一種珍貴的中藥材,具有抗腫瘤、 抗糖尿病、 抗病毒、 抗肝炎等療效[1],被廣泛應用于臨床治療。 然而,金線蓮自然生長率低,生長條件嚴苛,由于人工過度開發,其野生資源日益短缺[2],無法滿足市場需求,為了解決供不應求的問題,人工培育金線蓮規模不斷擴大。 根據生長方式的不同,金線蓮可分為種植品、 組培品。 種植品由于營養物質的累積效應其多糖[3]、 微量元素[4]等有效成分遠遠高于組培品; 就市場價值,種植品每公斤8 000~20 000元不等,組培品每公斤1 150~1 500元不等。 不難發現,金線蓮種植品、 組培品的藥用價值和市場價值差異顯著。 種植品和組培品難以辨認的現象嚴重影響金線蓮處方療效以及市場秩序,因此尋找一種快速有效的種植品、 組培品鑒別方法已成為中藥質量監管中迫切需要解決的問題。

中藥材的鑒別通常借助于分子生物學鑒定法[5]、 HPLC指紋圖譜法[6]等化學分析方法,然而,這些方法存在專業性強、 操作要求高、 費用、 時間成本高、 對樣本有損壞等不足,限制了該方法在市場環境中的應用。 為了克服上述方法的不足,具有快速、 無損、 低成本特點的近紅外光譜技術(near-infrared spectroscopy,NIRS)應運而生,其與模式識別方法的結合已被廣泛應用在中藥材鑒別中。 文獻[7]構建PLS-DA模型對純葛根與葛根摻假物進行快速鑒別,鑒別準確率可達100%; 文獻[8]基于PLS-DA方法建立了性能良好、 模型穩定的藏紅花摻假鑒別模型; 文獻[9]提出了一種改進樸素貝葉斯分類器快速有效地實現了不同產地三葉青的鑒定,上述研究在不同品系或產地的中藥材分類中表現出良好的效果。 由于采集的近紅外光譜數據的高維特性,傳統模式識別方法需要首先進行特征提取來簡化和提高模型分類精度,特征提取和分類算法的分離增加了鑒別模型復雜度和難度,導致模型的泛化性能差。

針對近紅外光譜數據特點,學者們提出了基于深度學習方法的品系或產地鑒別方法。 文獻[10]提出了一種端到端自適應的一維卷積神經網絡用于馬兜鈴酸及其類似物的鑒別; 文獻[11]構建了一維卷積神經網絡模型用以提取茶葉的特征并進行產地分析; 在金線蓮及其偽品的鑒別中,文獻[12]基于1D-Inception-CNN構建了一個高精度的鑒別模型。 研究結果表明上述模型的分類性能遠超基于傳統機器學習方法的模型,然而上述研究僅針對不同品系或產地等單一差異下的品系或產地鑒別,對于不同品系、 不同產地且不同培育時間等復合差異下的培育方式鑒別少有報道。

本研究對象為種植、 組培兩種培育方式下生長的金線蓮,包含不同品系、 不同產地、 不同培育時間等復雜情況的樣本,因此,本研究中的培育方式鑒別相比偽品鑒別具有更復雜的區分性,直接應用文獻[12]的模型存在特征提取能力不夠的問題,導致識別精度差。 本文針對不同品系、 產地、 培育時間的金線蓮培育方式的鑒別需求,基于金線蓮的NIR數據,提出改進1D-Inception-CNN的金線蓮鑒別模型,并通過實驗對比驗證該模型的有效性。

1 實驗部分

1.1 樣本制備

實驗所使用的金線蓮樣品數據均由福建中醫藥大學提供,一共收集了91批金線蓮,其中,組培品18批,種植品73批。 樣本中包含了本地、 尖葉、 小圓葉、 大圓葉、 臺灣銀線蘭等不同品系; 樣本來自寧德、 漳州、 泉州、 三明、 南平、 福安、 莆田、 云南等產地; 組培品包含瓶苗、 盆苗、 煉苗等,種植品包含野生苗、 林下仿野生苗等; 除野生樣本外,培育時間1~24個月不等。 每批樣本經3~5次清洗,直至表面無泥沙,放于烘箱60 ℃恒溫烘干至恒重,隨后用中藥粉碎機粉碎,過60目篩。

1.2 光譜數據的采集

取適量上述樣本粉末裝入指管,使用瑞士步琦公司生產的NIRFlexN-500型傅里葉變換近紅外光譜儀進行數據采集,儀器掃描范圍為4 000~10 000 cm-1,掃描次數設置為32次,分辨率為8 cm-1,在室溫25 ℃,空氣濕度為60%的條件下進行采集,每次掃描前保持樣本處于夯實、 均勻、 平整的狀態,每個樣本重復掃描三次,取平均值作為樣本近紅外光譜。 最終,獲得2組共91批金線蓮近紅外光譜,每條NIR數據有1 501個波數點,原始光譜如圖1所示。 數據均使用Python語言編寫程序進行分析。

圖1 原始數據集近紅外光譜Fig.1 Near-infrared spectroscopy of the original dataset

1.3 數據集預處理

由于金線蓮生長周期長、 生長所需環境嚴格,一年能采集的樣本批次不多,由于人為因素的影響在實際應用中要積累大量樣本需要幾年甚至更長的時間,因此在實際金線蓮樣本積累的過程中存在種植、 組培樣本不平衡問題。

然而分類鑒別模型一般都需要建立在不同類別的訓練樣本數目相當這個基本假設上,事實上如果類別樣本數量差別很大,會對訓練學習造成很大的影響[13]。 在本研究中培育方式為種植、 組培的金線蓮樣本數量比例超過4∶1,采用常規模式識別分類器傾向于將大部分的分類結果識別為種植品,如果不對該特性進行針對性改進和預處理,將嚴重影響最終的鑒別結果。

目前解決樣本類別不平衡問題比較成熟的技術主要分為兩類: (1)對原有的數據進行處理,使得數據的分布變得平衡,如合成少數類過采樣技術(synthetic minority over-sampling technique,SMOTE)[14]。 (2)采用代價敏感機制對算法進行改進,使得某類別錯誤分類的代價更高[15]。 在現實生活中,代價敏感值難以確定,大大增加了該方法的難度和不確定性,這是實際應用中難以克服的問題。 因此選擇SMOTE算法對類別不平衡問題進行處理。

1.4 改進的1D-Inception-CNN

文獻[12]所提出的1D-Inception-CNN(這里稱它為原始1D-Inception-CNN)是針對一維NIR數據提出的鑒別模型,具有低計算復雜度及高精度的特點。 復合差異下不同培育方式的金線蓮光譜重疊嚴重,鑒別難度很大,將原始1D-Inception-CNN直接應用于不同培育方式的金線蓮鑒別時仍存在特征提取能力不足的問題,從而導致鑒別準確率不高。 因此對原始1D-Inception-CNN模型特征提取層進行改進,主要策略為在兩條Inception支路上各增加一層卷積層以獲取更多特征信息,設計的改進1D-Inception-CNN模型結構如圖2所示,改進前后模型結構參數對比如表1所示。

表1 改進前后1D-Inception-CNN具體參數Table 1 Specific parameters of original and improved 1D-Inception-CNN

圖2 改進的1D-Inception-CNN結構圖Fig.2 Improved 1D-Inception-CNN structure diagram

圖2中近紅外光譜數據由輸入層送到Inception支路1(包含2個卷積層)和Inception支路2(包含3個卷積層)進行特征提取,隨后由連接層進行兩個Inception支路特征信息的融合,融合的特征經過最大池化操作以減少模型復雜度,同時一定程度上避免過擬合的發生,隨后輸入到兩個全連接層和SoftMax函數完成種植、 組培樣本的分類。

1.5 模型超參數優化

由于CNN超參數對模型性能影響很大,合適的優化方法不僅能加快尋找模型超參數的速度,同時能保證模型鑒別結果的穩定性。 常用于參數優化的方法有網格搜索[16]、 隨機搜索[17]等。 對參數眾多的CNN而言,網格搜索次數的增加呈指數級增長,而隨機搜索容易陷入局部最優,易造成鑒別結果的不確定性。 貝葉斯優化算法[18]是一種基于模型的序貫優化方法[19],每一次評估都能夠學習到上一次評估的經驗,從而確定下一個參數組合,依次循環這一步驟,直至迭代終止。 作為一種全局優化算法,貝葉斯優化算法與網格搜索相比,具有更低的計算復雜度,與隨機搜索相比,搜索目的性更加明確,不易被局部最優點所束縛,因此,貝葉斯優化算法能夠更加有效地找到模型參數的全局最優解。 選用貝葉斯優化法對超參數進行尋優,待尋優參數有: 訓練迭代次數(Epoch)、 批大小(Batch-size)、 全連接層神經元個數(Units)、 最大池化窗口大小(MaxPooling-size)、 各卷積層卷積核個數(Filters)、 各卷積層卷積核大小(Kernal-size),超參數及尋優設置如表2所示。

表2 超參數的搜索空間Table 2 Search Spaces for Hyperparameters

其中,Inception兩個支路中各卷積層卷積核個數和卷積核大小的搜索范圍均按表中Filters、 Kernal-size設置。

優化算法的目標函數(objection function,OF)設定如式(1)

(1)

式(1)中,Kfold代表交叉驗證序號,ACC、 PRE、 REC、 F1等參數的具體含義及計算方法可參考1.6節的詳細介紹。

1.6 鑒別模型評估指標

組培品和種植品本質上是二分類問題,二分類算法常用準確率(Accuracy,ACC)來評價,為進一步判斷預測結果是組培品中真實結果為組培品的比例和模型綜合性能,選取精確率(Precision,PRE)、 召回率(Recall,REC)和綜合評價指標(F1-score,F1)進行評估。 上述評估指標的計算公式如式(2)—式(7)

(2)

(3)

(4)

(5)

(6)

(7)

式(2)—式(7)中,TP代表實際為正例的樣本預測為正例(即真正例)的數量,TN代表實際為反例的樣本預測為反例(即真反例)的數量,FP代表實際為反例的樣本預測為正例(即偽正例)的數量,FN代表實際為正例的樣本預測為反例(即偽反例)的數量。 對于類別不平衡樣本集模型性能的評價常使用ROC曲線-AUC指標進行評估,該指標可以有效度量模型對正例樣本的鑒別能力,其中,ROC曲線縱坐標為“真正例率”(true positive rate,TPR),橫坐標為“假正例率”(false positive rate,FPR),AUC即為ROC曲線下方的面積,代表著模型對正例樣本的鑒別能力。 組培品處方療效、 市場價值較種植品低,因此在這個實驗中將其作為正例。

2 結果與討論

2.1 實驗流程

考慮到傳統機器學習方法對光譜特征提取操作的依賴性,僅選用改進1D-Inception-CNN模型來進行SMOTE過采樣分析。 模型訓練的整體流程如圖3所示,首先對原始數據進行SMOTE操作,接著對特征進行標準化,選擇一個分類模型并進行五折交叉驗證,對模型五折交叉的平均性能進行評估,選擇性能最好的模型并進行參數優化從而得到最終的模型。

圖3 實驗流程Fig.3 Experimental process

2.2 基于改進1D-Inception-CNN模型的鑒別結果分析

本實驗采用五折交叉驗證對改進1D-Inception-CNN模型進行驗證,從而提高模型的泛化能力,增強其穩定性。

原始數據集包含2組數據,分別是種植品73批,組培品18批; 經SMOTE處理的數據集包含兩組,分別是種植品73批,組培品73批,為保持類別比例的一致性,在劃分數據集時采用分層采樣的方式,兩個數據集劃分情況如表3所示。

表3 數據集劃分Table 3 Dataset division

為驗證SMOTE算法對改善鑒別效果的有效性,基于全光譜數據對表3中兩個數據集分別構建改進1D-Inception-CNN模型進行鑒別分析,并采用貝葉斯優化對改進1D-Inception-CNN模型參數進行尋優,迭代次數設置為100。

基于原始、 SMOTE處理數據集的超參數搜索過程及迭代目標值如圖4,由圖4可看出基于原始數據集,貝葉斯優化整體目標值比較分散,介于-130與-340之間,在第75次迭代中達到最優目標值-338.62; 而基于SMOTE數據集,貝葉斯優化整體目標值較為集中,介于-285與-395之間,在第59次迭代中達到最優目標值-392.13。 據此可知,經過SMOTE處理的數據集為模型提供了良好的數據基礎,為鑒別效果帶來了很大的提升。

圖4 超參數搜索結果Fig.4 Hyperparameter search results

據圖4可知優化過程后期,貝葉斯優化在原始、 SMOTE數據集上都具有很好的多樣性,能有效避免陷入局部最優。

模型性能指標對比具體結果如表4所示。 由表4可知,經SMOTE算法合成的新數據集準確率略高于原始數據,精確率、 召回率及綜合評價指標均遠高于原始數據集。

兩個樣本集的ROC曲線對比如圖5所示,SMOTE樣本集在模型下AUC高達0.98,而原始樣本集在模型下AUC僅為0.87,進一步說明SMOTE處理后的樣本集能有效增強模型對組培品的鑒別能力。

圖5 原始數據集、 SMOTE數據集ROC曲線Fig.5 ROC curve of the original dataset and the SMOTE dataset

2.3 改進1D-Inception-CNN與其他模型比較分析

為驗證改進1D-Inception-CNN的模型性能,基于SMOTE樣本集,分別建立原始1D-Inception-CNN、 隨機森林(random forest,RF)與邏輯回歸(logistic regression,LR)用于對比鑒別效果。 原始1D-Inception-CNN按文獻[12]進行超參數設置,RF模型中決策樹個數設置為100,LR模型中正則化系數設置為1.0,改進1D-Inception-CNN超參數如表5。 其中,Filters1_1代表支路1中第一卷積層的卷積核數量,Filters1_2代表支路1中第二卷積層的卷積核數量,Kernalsize1_1代表支路1中第一卷積層的卷積核大小,以此類推。

表5 改進1D-Inception-CNN超參數設置Table 5 Hyper-parameters of improved 1D-Inception-CNN

各模型訓練后的測試集分類性能如表6所示,各項分類指標顯示,原始1D-Inception-CNN的性能整體優于RF和LR模型,但值得注意的是,在文獻[12]中性能卓越的模型在本節實驗中的表現不如預期,其召回率甚至略低于LR模型,主要原因在于本研究所使用的各批金線蓮不但在品系、 產地上有所差異,在培育方式、 培育時間上更有所不同,其NIRS數據重疊度十分高,需要特征提取更好、 性能更強的模型才能更好地區分培育方式。 而改進1D-Inception-CNN由于增強了特征提取能力以及進行了全局參數優化,各項評估指標均達到最優。

表6 不同分類模型性能Table 6 Performance of different classification model

3 結 論

研究了在不同品系、 產地、 培育時間等復雜情況下金線蓮培育方式的鑒別,提出了一種基于改進1D-Inception-CNN的金線蓮培育方式鑒別方法。 首先針對樣本類別不平衡的問題,采用SMOTE算法對樣本集進行平衡化處理,得到類別平衡的SMOTE數據集; 其次針對不同培育方式的金線蓮NIRS數據差異小的問題,在原始1D-Inception-CNN結構的基礎上,對網絡結構進行了改進,得到了改進1D-Inception-CNN,增強了網絡對特征的提取能力; 最后利用貝葉斯優化對改進1D-Inception-CNN內部的超參數進行優化以進一步提高模型性能。 實驗結果表明,SMOTE算法能夠有效改善樣本集的不平衡特性,原始1D-Inception-CNN的性能優于傳統機器學習方法RF和LR,改進1D-Inception-CNN較原始1D-Inception-CNN而言,對特征的提取能力更強,模型性能最佳,五折交叉平均準確率、 精確率、 召回率、 綜合評價指標分別達97.95%、 96.16%、 100.00%、 98.02%,能高精度鑒別金線蓮種植品、 組培品。

猜你喜歡
培育優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
第十二道 共同的敵人
未來或可培育無味榴蓮
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人综合久久精品下载| 午夜福利亚洲精品| 亚洲精品大秀视频| 欧美a级在线| 亚洲色精品国产一区二区三区| 狠狠干欧美| 在线免费观看AV| 久久男人资源站| 国产精品3p视频| 久久99国产综合精品女同| 98超碰在线观看| 成人午夜网址| 精品自窥自偷在线看| 最新国产网站| 亚洲天堂区| 成AV人片一区二区三区久久| 国产在线视频导航| 国产剧情伊人| 亚洲天堂区| 久久久亚洲色| 污网站免费在线观看| 亚洲高清日韩heyzo| 亚洲天堂免费在线视频| 欧美亚洲一区二区三区导航| 国产精品自拍合集| 国产欧美综合在线观看第七页| 国产成人亚洲日韩欧美电影| 久久五月视频| 亚洲欧美一级一级a| 国产地址二永久伊甸园| 亚洲精品制服丝袜二区| 国产不卡一级毛片视频| 国产高清毛片| 国产一区二区色淫影院| 国产日韩欧美在线播放| 婷婷色婷婷| 国产福利拍拍拍| 国产一区成人| 国产黄网永久免费| 免费A级毛片无码无遮挡| 国产永久在线观看| 日韩精品无码免费专网站| 亚洲V日韩V无码一区二区| 国产精品久久久久无码网站| 极品av一区二区| 无码高潮喷水专区久久| 国产无码性爱一区二区三区| 欧美成人免费| 欧美精品v| 国产福利不卡视频| 国产国产人成免费视频77777| 国产97视频在线| 欧美精品成人一区二区在线观看| 国产精品极品美女自在线网站| 夜夜操狠狠操| 亚洲第一区在线| 91福利免费视频| 91精品视频播放| 中文纯内无码H| 亚州AV秘 一区二区三区| 免费看黄片一区二区三区| 免费一看一级毛片| 亚洲无码免费黄色网址| 中国黄色一级视频| 亚洲天堂2014| 一本一道波多野结衣av黑人在线| 国产在线无码av完整版在线观看| 国产精品私拍99pans大尺度| 国产超薄肉色丝袜网站| 久久久久青草大香线综合精品| 在线观看视频一区二区| 欧美视频二区| 欧美专区在线观看| 日韩在线欧美在线| 久久亚洲国产视频| 欧美亚洲另类在线观看| 成人在线不卡| 亚洲,国产,日韩,综合一区| 久综合日韩| 国产精品免费电影| 亚洲AV色香蕉一区二区| 99精品在线视频观看|