999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遺傳算法的近紅外光譜定性分析特征波長提取方法研究

2021-08-17 02:51:08李浩光于云華沈學鋒
光譜學與光譜分析 2021年8期
關鍵詞:分類特征

李浩光,于云華 ,逄 燕,沈學鋒

1. 山東石油化工學院機械與控制工程學院,山東 東營 257061 2. 中國石油大學(華東)新能源學院,山東 東營 257061

引 言

近紅外光譜儀制造是我國儀器制造業的短板,目前國產近紅外光譜儀多應用于實驗室場合[1-2],體積大、 功耗高、 價格昂貴、 難以二次開發,極大地限制了近紅外光譜分析技術的推廣應用[3-4]。近紅外光譜儀昂貴的價格及其較大體積制約了近紅外光譜分析技術的大范圍推廣應用,究其原因還是近紅外光譜儀本身價格昂貴且體積尚未做到便攜化、 微型化。

MicroNIR-1700光譜儀是美國VIAVI公司生產的一種微型便攜式光譜儀,該型光譜儀將近紅外光源、 分光部件及近紅外檢測器集成于φ45×42 mm的體積之內,且內部不含移動部件,重量僅為60 g左右,是目前世界上體積最小的微型近紅外光譜儀,該型光譜儀能實現微型化主要原因是使用了線性漸變濾光片技術及InGaAs探測器(128線元),目前國內儀器廠商及科研院所研發或生產的相關產品尚不能達到該型光譜儀的技術性能; 同時VIAVI公司出于技術保護的目的,不對外出售相關元件,因此國內尚無廠家有能力生產或仿制類似性能的微型光譜儀。據光譜儀的工作原理可知,其價格高低及微型化難度與光譜儀所能檢測波段以及分辨率密切相關,以線性漸變濾光片與InGaAs探測器為例,分辨率越高,檢測的波長點越多,其價格越高,制造難度越大。若能夠借鑒MicroNIR-1700光譜儀的微型化設計思路,并在其基礎上設計只需要采集少量波長點吸光度的光譜儀,則分光部件與InGaAs探測器元件成本與制造難度可大幅降低,并進一步降低光譜儀整體造價。

針對某一特定的定性分析任務,若能夠從大量波長點中挑選出少量的特征波長點,并利用挑選得到的少量特征波長點完成對被測樣本的定性分析任務,則可以降低儀器制造成本,并降低光譜儀微型化的難度,從而有利于近紅外光譜分析技術的大面積推廣與應用。

以玉米單倍體和多倍體籽粒作為研究對象,針對二類籽粒分類任務,多天以漫透射方式采集被研究對象的近紅外光譜,按時間順序將所采數據分為5個數據集,對第1個數據集使用遺傳算法提取出10個特征波長點,再將提取得到10個特征波長點,用于剩余4個數據集的單倍體二倍體鑒別,以檢驗方法的有效性。實驗結果表明使用10個特征波長點能夠獲得與全光譜基本一致的鑒別效果,說明使用少量特征波長點上的吸光度值也能夠有效鑒別單倍體,針對玉米單倍體鑒別這一特定任務,可以降低儀器制造的成本與微型化的難度,為加快近紅外光譜定性分析技術在單倍體育種行業的應用提供技術基礎。雖然研究對象為玉米籽粒,但是方法思路亦可推廣至其他被測對象,可為其他領域某個特定任務開發低成本便攜式微型近紅外光譜儀提供借鑒。

1 基于遺傳算法的特征波長點選擇方法

1.1 算法原理

在近紅外光譜定性分析[5-7]問題中,將遺傳算法(genetic algorithms, GA)與某一分類算法結合搜尋最有利于分類任務的原始光譜特征波長點子集,即可構成基于遺傳算法的近紅外光譜特征波長點選擇方法。

遺傳算法模仿自然界中生物進化過程,在算法中包含了繁殖、 交叉、 變異等生物進化過程中的重要步驟。

在實際自然界生物進化過程中,生物染色體具有一定變異概率,上一代染色體在繁殖時,染色體會相互交叉并遺傳給下一代,生物進化時總是選擇并保留最能適應其生活環境的遺傳基因,而遺傳算法則是選擇最有利于分類的特征子集,且在每一代分類時都選擇一組當前最優的特征子集,進行循環的變異、 繁殖、 交叉、 分類等步驟,直至滿足算法設定條件。

遺傳算法首先將需要特征篩選的向量編碼成一條染色體,對于特征選擇,其目標是從D個特征中挑選d個特征,首先需將全部特征表示成一個由D個二進制代碼構成的字符串,二進制字符串中的0表示該維對應特征未被選擇,1則表示該維對應特征被選擇,該字符串就代表遺傳算法中的染色體,可將其用m來表示。若在D維特征中選擇d維全是1的有效特征,則存在種組合。

對于分類任務,遺傳算法最優目標就是選擇最適合分類的特征子集,因此分類器的鑒別準確率就可作為遺傳算法的適應度函數值,對于算法中每個迭代步驟中的若干條染色體,每一條染色體即對應一個適應度值,即分類器鑒別準確率。

若待挑選的特征波長點為n個,基于遺傳算法的特征選擇方法可由以下幾個步驟實現:

(1)對所有特征是否被選擇使用二進制編碼: 采用0和1對本節中數據中的全光譜所有波長點進行編碼,每一個波長點對應染色體中的一個基因。若編碼為l則表示該波長點被選中。若編碼為0則表示該波長點未被選中,一種0和1編碼組合即可當作一條染色體。

(2)初始化染色體種群: 染色體種群規模設定為N,采用隨機初始化的方式,產生N個編碼長度為n的染色體,設定迭代次數為100。

(3)解碼并以SVM分類器的分類準確率作為適應度函數: 將染色體解碼,并采用SVM方法進行鑒別。使用交叉驗證的方法,計算每一個染色體對應的平均正確識別率與平均正確拒識率。

(4)計算適應度函數的值: 正確識別率與正確拒識率的均值越高,則適應度越高。考慮到收斂速度,將適應度函數設為正確識別率與正確拒識率的均值。

(5)使用選擇、 交叉、 變異操作繁殖下一代染色體: 采用“輪盤賭”選擇法,按設定交叉概率對染色體進行交叉,采用精英主義策略,只留下最優值,并按設定變異概率進行變異。

(6)將步驟(5)中的新一代染色體代入步驟(3),重復步驟(3)—(5),直到滿足收斂條件。

1.2 算法設計

圖1是采用基于遺傳算法的選擇波長點方法示意圖。首先采用遺傳算法與分類算法結合從原始光譜中提取最有利于分類的少量特征波長點,再利用少量特征波長點吸光度對待鑒別光譜類別進行鑒定。為對提出的基于遺傳算法的特征波長點方法進行優化設計,選擇如下近紅外光譜數據集作為實驗數據集:

以中國農業大學國家玉米改良中心提供的某品種玉米單倍體和二倍體籽粒作為研究對象,分5日連續采集其近紅外光譜,使用自制近紅外光譜采集裝置,并以漫透射采集方式交替采集單倍體、 二倍體單籽粒近紅外光譜各100條,共5組數據,5個實驗數據集按時間順序依次編號為T1—T5。

圖1 基于遺傳算法的選擇波長點方法Fig.1 Selection of wavelength pointsbased on genetic algorithms

遺傳算法中的適應度函數值使用SVM分類器所得的被測光譜正確識別率與正確拒識率[9-12]的均值來衡量。

SVM使用LIBSVM工具箱,設置SVM分類器[8]類型為二分類類型,以最優識別率為標準,在高斯核參數σ及正則化參數C指數增長的過程中以網格的方式搜索最優高斯核參數σ及正則化參數C,高斯核參數σ=3.2,正則化參數C=0.56。

基于遺傳算法的特征選擇方法中種群規模、 交叉率、 變異率三個參數對識別性能、 收斂速度具有明顯影響。為確定適合本任務的種群規模、 交叉率、 變異率,以單倍體二倍體籽粒鑒別任務為例對三個參數進行如下分析研究。

圖2 識別率隨種群規模變化曲線圖Fig.2 Recognition rate as population size increasing

圖3 收斂時間隨種群規模變化曲線圖Fig.3 Curve of convergence time as population size increasing

由圖2與圖3可知,隨著遺傳算法中群體規模增大,迭代次數及迭代時間顯著變化,分類準確率隨種群規模增大首先出現上升趨勢,當種群規模達到80時分類準確率趨于平緩,而程序運行時間始終是直線上升趨勢。

由此可見,識別率滿足條件時,增大種群規模需花費較大計算代價,因此遺傳算法種群規模設置不宜過大。綜合考慮特征波長點的分類識別性能與算法收斂時間,利用遺傳算法挑選特征波長點時,設置遺傳算法種群規模為80。

由圖4—圖7分析可知,隨交叉率與變異率增大,識別率到達一定值以后,其變化趨勢趨于穩定,增長趨勢并不明顯,與此同時,收斂時間卻呈現線性增長趨勢,分析認為隨著遺傳算法中交叉率越大,遺傳種群中產生新模式的概率相應增大,在開始階段有時能夠擴展至整個編碼空間,但原有模式被破壞的可能性也隨之增大,而交叉率過小導致每一步搜索空間過小,導致算法難以收斂。

圖4 識別率隨交叉率變化曲線圖Fig.4 Curve of recognition rate as crossing rate changing

圖5 收斂時間隨交叉率變化曲線圖Fig.5 Curve of convergence time as crossover rate changing

圖6 識別率隨變異率變化曲線圖Fig.6 Curve of recognition rate as variation rate changing

相比于交叉率,變異能夠提高算法所得解的多樣性,但變異率較大時,易導致遺傳算法變為隨機搜索,變異率設置過小,種群易出現早熟或易陷入局部最優解。綜合考慮所選特征建立模型的識別效果與收斂時間,使用遺傳算法方法進行特征波長點選擇時,為使所獲特征波長點具有最優分類性能,交叉率設置為0.5,變異率設置為0.3。

圖7 收斂時間隨變異率變化曲線Fig.7 Curve of convergence time as variationrate changing

圖8 識別率隨特征波長點個數變化曲線Fig.8 Curve of recognition rate when characteristicwavelength points increasing

圖8是單倍體二倍體籽粒的識別率隨特征波長點個數變化曲線,由該曲線可以看出,在特征波長點數目增長過程中,識別率表現出先升后降的趨勢,特征波長點增加到10時,識別率達到最高,其后隨著特征波長點數增加,識別率又出現下降趨勢,說明選擇10個特征波長點能夠獲得最優分類效果。特征波長點過少,模型出現欠擬合的情況,而特征波長點過多時,一方面會增加模型訓練時間,另一方面易導致模型過擬合,因此以下實驗選擇挑選10個特征波長點進行實驗。

以T1—T5作為實驗數據集,利用SVM分類器的準確率作為GA算法適應度函數,得到10個特征波長點如表1所示。

表1 特征波長點列表(nm)Table 1 Characteristic wavelength point list (nm)

表1中為使用遺傳算法對T1數據集進行特征選擇得到的10個特征波長點。由此可知,針對數據集T1中的單倍體二倍體光譜數據,表1中的10個特征波長點最能夠反映被測品種玉米籽粒單倍體與二倍體之間的差異信息。

2 結果與討論

為驗證所挑選的10個特征波長點用于近紅外光譜定性分析的可行性,進行如下實驗:

2.1 實驗1

利用挑選得到10個特征波長點,分別從T1—T5等5個實驗集單倍體、 二倍體數據中各隨機抽取50條光譜建模,將剩余光譜作為測試集進行測試,共實驗20次,識別率取平均,如表2和表3所示。

全光譜方式采用平滑(平滑窗口9)、 一階導(9)、 歸一化、 PLS(11)及LDA(4)降維后,再使用SVM進行分類。

表2 各數據集識別結果表Table 2 Recognition results (Characteristic wavelength point)

表3 全光譜各數據集識別結果表Table 3 Recognition results (whole spectra)

對比表2和表3發現,在各個獨立的測試數據集中,特征波長點與全光譜兩種方式下單倍體及二倍體的平均識別率基本接近,具體分析如下:

(1)10個特征波長點方式: 在T1—T5數據集上,特征波長點方法所得平均識別率在92.2%~96.8%之間。

(2)全光譜方式: 在T1—T5數據集上,平均識別率在92.5%~97.5%之間。

由此可見,利用10個特征波長點的方式時,單倍體識別率相對于全光譜方式只略下降。說明采用特征波長點方式時,利用當天光譜數據進行訓練,當天數據作為測試集進行測試,實驗結果與全譜區識別性能相差不大,證明了使用特征波長點方法能夠在當日數據集上取得較高的識別效果。

2.2 實驗2

利用挑選出的10個特征波長點,以T1作為訓練集,利用T2—T5等4個實驗數據集進行測試,檢驗特征波長點方式在多個測試集中的泛化能力。

由表4和表5可知,利用T1實驗集的數據進行訓練,T2—T4數據集作為測試集測試時,10個特征波長點方式所得的識別率與全譜區方式所得的識別率也非常接近,具體分析如下:

表4 各數據集識別結果表(特征波長點)Table 4 Recognition results (Characteristic wavelength point)

表5 各數據集識別結果表(全光譜)Table 5 Recognition results (whole spectra)

(1)以10個特征波長點方式在T2—T5四個數據集上進行測試,所得的平均識別率在92.5%~96.0%之間。

(2)以全光譜方式在T2—T5數據集上測試,所得的平均識別率在93.5%~96.5%之間。

由此可見,特征波長點方式所建立的定性分析模型與全譜區方式所建立的定性分析模型性能基本接近,在不同數據集上都具有較強泛化能力。

以玉米單倍體和二倍體籽粒作為研究對象,針對兩類籽粒分類任務,分多天以漫透射方式采集研究對象的近紅外光譜,按時間順序將所采數據分為5個數據集,對第1個數據集使用遺傳算法提取出少量特征波長點,再將提取得到少量特征波長點,用于剩余4個數據集的單倍體二倍體鑒別,以檢驗方法的有效性。實驗結果表明使用少量特征波長點能夠獲得與全光譜基本一致的鑒別效果,說明使用少量特征波長點上的吸光度值也能夠有效鑒別玉米單倍體。

3 結 論

針對某一特定的定性分析任務,若能夠從大量波長點中挑選出少量的特征波長點,并利用挑選得到的少量特征波長點完成對被測樣本的定性分析任務,則可以降低儀器制造成本,并降低光譜儀微型化的難度,從而有利于近紅外光譜分析技術的大面積推廣與應用。本文研究了基于遺傳算法的特征波長點選擇方法,采用遺傳算法與分類算法結合的特征波長點選擇方法,以玉米籽粒為研究對象,從原始光譜中提取最有利于單倍體二倍體分類的十個特征波長點,再利用十個特征波長點的吸光度對多個測試集中的單倍體與二倍體籽粒進行分類,并將特征波長點方法與全光譜進行了對比實驗,本研究可以為針對某一特定應用場景的近紅外光譜儀小型化和簡單化提供理論依據, 雖然所研究對象為玉米籽粒,但是方法思路亦可推廣至其他被檢測對象,可以為其他領域某個特定任務開發低成本便攜式微型近紅外光譜儀提供借鑒。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 精品国产美女福到在线直播| 国产三级韩国三级理| 国产女人18水真多毛片18精品| 国产最新无码专区在线| 日本一区二区三区精品国产| 亚洲成综合人影院在院播放| 日韩高清欧美| 国产免费人成视频网| 国产在线欧美| 无码国内精品人妻少妇蜜桃视频| 一本久道久综合久久鬼色| 热99精品视频| 国产精品手机视频| 在线欧美日韩| 亚洲一欧洲中文字幕在线| 超清无码一区二区三区| 成人中文字幕在线| 精品视频一区二区三区在线播| 欧美午夜在线观看| 久久免费精品琪琪| 国产美女自慰在线观看| 特级毛片免费视频| 日本国产精品| 欧美三级视频在线播放| 91美女视频在线| 国产高清在线观看| 福利姬国产精品一区在线| 国产女人在线观看| 国产精品亚洲片在线va| 成人亚洲国产| 一区二区三区高清视频国产女人| 欧美国产三级| 国产亚洲精品91| 免费jizz在线播放| 亚洲欧美在线精品一区二区| 亚洲女同欧美在线| 亚洲毛片一级带毛片基地| 伊人激情久久综合中文字幕| 无码精油按摩潮喷在线播放 | 91视频99| 国产三级国产精品国产普男人| 亚洲国语自产一区第二页| 国产av色站网站| 久久这里只精品热免费99| 成人午夜在线播放| 久久美女精品| 国产va在线观看免费| 一本大道东京热无码av | 亚洲乱码在线播放| 国产精品成人观看视频国产 | 亚洲国产成人超福利久久精品| 午夜一区二区三区| 一级做a爰片久久免费| 国产精品主播| 激情综合婷婷丁香五月尤物| 亚洲资源站av无码网址| 国产亚洲精品91| 国产成人精品日本亚洲| 国产剧情国内精品原创| 国产永久无码观看在线| 国产精品久久久精品三级| 欧美日韩精品一区二区在线线 | 日韩精品欧美国产在线| 久久精品国产精品一区二区| 久久久久青草大香线综合精品| 成人免费一级片| 国产成人综合欧美精品久久| 久久综合九九亚洲一区| 亚洲国产中文精品va在线播放| 天天做天天爱天天爽综合区| 男人的天堂久久精品激情| 伊人成人在线视频| 国产菊爆视频在线观看| 亚洲第一黄片大全| aaa国产一级毛片| av手机版在线播放| 国产精品99一区不卡| 国产精品大尺度尺度视频| 国产精品欧美亚洲韩国日本不卡| 日本三级欧美三级| 最新痴汉在线无码AV| 久久香蕉国产线看观看精品蕉|