王文哲
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 無(wú)錫 214000)
左旋多巴可以由酪氨酸通過(guò)羥化酶催化產(chǎn)生[1]。多巴和酪氨酸是合成各種蛋白質(zhì)的原料。左旋多巴,屬于兒茶酚胺。兒茶酚胺是體內(nèi)非常重要的神經(jīng)系統(tǒng)物質(zhì)。它可以調(diào)節(jié)人體的神經(jīng)系統(tǒng)和器官,還可以影響人體的新陳代謝[2~3]。建立一個(gè)測(cè)量模型不僅有助于檢測(cè)血漿和尿液中的兒茶酚胺[4],而且對(duì)高血壓、甲亢、糖尿病等疾病的臨床診斷也具有重要意義。因此該研究具有重要意義。本文基于紫外光譜分析技術(shù),建立了一種基于SVR 算法的左旋多巴酪氨酸混合溶液中左旋多巴含量的檢測(cè)方法。
紫外線吸收光譜法是一種利用物質(zhì)在紫外波段特定波長(zhǎng)處的吸收特性來(lái)定性或定量研究物質(zhì)的方法。在紫外可見(jiàn)光(200nm~800nm)范圍內(nèi),大多數(shù)水溶性有機(jī)化合物具有吸收特性。紫外線光譜主要覆蓋100nm~400nm 的波段,而200nm~400nm 的波段是近紫外線區(qū)域。通常,選擇近紫外光譜進(jìn)行定性或定量分析[5]。它具有良好的靈敏度,并由于其強(qiáng)大的選擇性而被廣泛使用[6]。
支持向量機(jī)算法[7](SVM)是一種基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法,由Vapnik 等提出。基本思想是在線性分類器中找到最佳分類表面。支持向量機(jī)回歸(SVR)是基于SVM 的回歸算法,它是從SVM 方法開(kāi)發(fā)出來(lái)的用于解決分類問(wèn)題的算法。它結(jié)合了變量的選擇和回歸模型的建立,以獲得最佳的預(yù)測(cè)效果[8~10]。紫外光譜分析技術(shù)由于其靈敏性、可靠性、便利性、快速性和易推廣性而被應(yīng)用于生物發(fā)酵中。
紫外光譜分析實(shí)驗(yàn)數(shù)據(jù)使用測(cè)量范圍是200nm~750nm 范圍的紫外-可見(jiàn)光譜光譜分辨率為2cm-1,積分時(shí)間為32s。用Python 建立紫外光譜數(shù)學(xué)模型對(duì)采集的紫外光譜數(shù)據(jù)進(jìn)行分析。
在實(shí)驗(yàn)中,左旋多巴和酪氨酸的混合溶液由56 組光譜數(shù)據(jù)組成。使用Kennard-Stone(K-S)[11]算法,按照3:1 的比例將其分為40 個(gè)樣品和16 個(gè)樣品。分別用作校準(zhǔn)樣品集和驗(yàn)證樣品集。K-S方法是一種有效且廣泛使用的校正集選擇方法。K-S算法基于每個(gè)光譜之間的歐幾里德距離,并選擇分布范圍較廣的代表性樣本作為校準(zhǔn)集樣本,從而避免了人工選擇的主觀盲目性。
樣品的化學(xué)成分和濃度不同時(shí),其在不同波長(zhǎng)處的吸光度也不同,紫外光譜圖隨之出現(xiàn)差異。本研究采用的多巴與酪氨酸的混液的紫外光譜圖如圖1 所示,為避免波段過(guò)寬造成光譜矩陣有大量冗余信息以及干擾,導(dǎo)致后續(xù)分析的準(zhǔn)確度和效率降低,本研究首先對(duì)紫外光譜波段進(jìn)行了優(yōu)化提取,選擇光譜信息較為豐富的251nm~300nm 波段作為優(yōu)選光譜區(qū)。

圖1 左旋多巴與酪氨酸混液紫外光譜圖
支持向量回歸(SVR)是基于支持向量機(jī)(SVM)的回歸算法,保留了最大間隔算法的主要特征:非線性函數(shù)可以由線性學(xué)習(xí)器在內(nèi)核特征空間中獲得,而不是與要素空間參數(shù)相同。相關(guān)參數(shù)控制系統(tǒng)的容量。像分類算法一樣,學(xué)習(xí)算法需要最小化凸函數(shù),其解決方案是稀疏的[12]。因此,需要選擇適當(dāng)?shù)膿p失函數(shù)[13~14]。本文使用的損失函數(shù)是軟間隔損失函數(shù)。

當(dāng)x點(diǎn)的觀察值y與預(yù)測(cè)值f(x)的差補(bǔ)償預(yù)先給定的ε時(shí),則認(rèn)為在該點(diǎn)的預(yù)測(cè)值f(x)是無(wú)損失的,盡管預(yù)測(cè)值f(x)和觀察值y不一定相等。
如圖2,當(dāng)樣本點(diǎn)位于兩條虛線之間時(shí),則認(rèn)為在該點(diǎn)沒(méi)有損失。基于支持向量機(jī)(SVM)的規(guī)劃算法就是ε-SVR。

圖2 支持向量樣本和不敏感通道

在式(7)中,將點(diǎn)積替換為核函數(shù)k(xi,x),并且核函數(shù)可以執(zhí)行低維空間數(shù)據(jù)輸入以在高維特征空間中執(zhí)行點(diǎn)積計(jì)算而無(wú)需知道映射φ。
目前,支持向量機(jī)算法的核函數(shù)有十多種,其中最常見(jiàn)的為以下幾種:
線性核函數(shù)(Linear):

SVR模型優(yōu)先確定核函數(shù),核函數(shù)的選擇將直接影響SVR的效果,另外核函數(shù)的參量對(duì)模型也會(huì)有一定影響。
這就是ε-SVR,與ε-SVR相比ν-SVR 是在上述支持向量回歸機(jī)的改進(jìn),ε不敏感損失參數(shù)的選取比較難,所以引進(jìn)另外一個(gè)參數(shù)ν(ν∈( ]0,1),ν 比ε容易選取。
在定量建模之前需要對(duì)光譜數(shù)據(jù)進(jìn)行校正集與驗(yàn)證集的樣本劃分,通常使用隨機(jī)選擇法(Random Selection,RS)、K-S法(Kennard-Selection)等算法。其中RS 算法由于劃分樣本的隨機(jī)性較大,且本實(shí)驗(yàn)樣本為酪氨酸與左旋多巴混合溶液的紫外光譜數(shù)據(jù),可能導(dǎo)致樣本劃分不均勻的現(xiàn)象。故本文使用K-S 算法對(duì)樣本集進(jìn)行劃分。使用K-S 算法選擇樣本分為以下三個(gè)步驟。
1)使用歐式距離計(jì)算樣本集中樣本之間的距離,選擇樣本集中距離最大的兩個(gè)樣本,放在校正集中。
2)對(duì)于其他樣本,計(jì)算每個(gè)樣本與第一步中選擇的樣本之間的歐氏距離,并選擇距離最短的放入校正集。
3)重復(fù)步驟1)與步驟2),直到選出合適的校正集,其余樣本組成驗(yàn)證集。
K-S 算法中,各個(gè)樣本之間的距離公式為歐式距離,即為式(11)。

將剔除樣本后的51個(gè)酪氨酸多巴混液按照3:1比例劃分為38個(gè)校正集和13個(gè)驗(yàn)證集。
為了使回歸模型準(zhǔn)確反映仿真結(jié)果,需要設(shè)置模型參數(shù)。這些模型參數(shù)不易選擇,不能直接給出。為此,采用粒子群算法搜索ν-SVR模型的最佳參數(shù)C 和ν以及ε-SVR 的參數(shù)C、γ。粒子群算法具體的優(yōu)化方法如下。
步驟1:隨機(jī)產(chǎn)生粒子的初始位置及初始速度。
步驟2:用ν-SVR、ε-SVR 回歸訓(xùn)練每個(gè)粒子,并使用k 倍交叉驗(yàn)證的均方誤差作為粒子群的目標(biāo)函數(shù)值。
步驟3:通過(guò)迭代搜索并輸出全局最優(yōu)值。
步驟4:從搜索中獲得的全局最優(yōu)值用作回歸的ν-SVR、ε-SVR模型的參數(shù)。
其中,ν-SVR 優(yōu)化參數(shù)為C、ν;ε-SVR 優(yōu)化的參數(shù)為C、γ。ε為默認(rèn)值0.1。
使用多個(gè)方法進(jìn)行對(duì)比模型的評(píng)價(jià)指標(biāo)包括相關(guān)系數(shù)(R)、預(yù)測(cè)均方根偏差(RMSEP)、相對(duì)誤差(δ)、相對(duì)預(yù)測(cè)均方根誤差(RRMSEP)。其中:

式中:yi為第i個(gè)樣品的化學(xué)值;y?i為第i個(gè)樣品的預(yù)測(cè)值;m為驗(yàn)證集樣本個(gè)數(shù);yˉ為驗(yàn)證集化學(xué)值的均值。
經(jīng)過(guò)粒子群算法參數(shù)優(yōu)化后的ν-SVR,線性核函數(shù)最優(yōu)參數(shù)為C=511、ν=0.35;徑向基核函數(shù)最優(yōu)參數(shù)為C=41976、ν=0.65;多項(xiàng)式核函數(shù)最優(yōu)參數(shù)為C=11739、ν=0.84。評(píng)估指標(biāo)如表1 所示,三種核函數(shù)中徑向基核函數(shù)的建模效果最佳,RMSEP 為0.826。其次為線性核函數(shù),使用多項(xiàng)式核函數(shù)的建模效果一般。

表1 ν-SVR模型的評(píng)估指標(biāo)
經(jīng)過(guò)粒子群算法參數(shù)優(yōu)化后的ε-SVR,線性核函數(shù)最優(yōu)參數(shù)為C=356、γ=0.1;徑向基核函數(shù)最優(yōu)參數(shù)為C=6599、γ=0.1;多項(xiàng)式核函數(shù)最優(yōu)參數(shù)為C=93、γ=0.1。評(píng)估指標(biāo)如表2 所示,三種核函數(shù)中,徑向基核函數(shù)建模效果最佳,RMSEP 較ν-SVR降低了接近0.2,其次為線性核函數(shù)。在兩種支持向量回歸機(jī)中,建模效果均為徑向基核函數(shù)好于線性核函數(shù)好于多項(xiàng)式核函數(shù)。

表2 ε-SVR模型的評(píng)估指標(biāo)
接著將經(jīng)典的PLS 算法加入比較中,如表3 所示,為ν-SVR、ε-SVR 的徑向基核函數(shù)與PLS 實(shí)驗(yàn)對(duì)比。

表3 模型驗(yàn)證結(jié)果對(duì)比
從表3 可以看出,三種建模方法,R 值均大于0.9995 說(shuō)明建模效果較好,SVR 算法的建模效果好于PLS,其中,徑向基核函數(shù)構(gòu)建的ε-SVR 模型的擬合效果最好,RMSEP、RRMSEP、δ為0.68、0.55%、0.83%,相關(guān)系數(shù)R 為0.99982。在紫外光譜建模時(shí),使用粒子群算法優(yōu)化的ε-SVR可以達(dá)到更好的建模效果。
兩種SVR 算法對(duì)左旋多巴和酪氨酸混液紫外光譜數(shù)據(jù)的建模效果均好于傳統(tǒng)的PLS模型,基于徑向基核函數(shù)的SVR 算法的預(yù)測(cè)精度均好于線性核函數(shù)以及多項(xiàng)式核函數(shù)建立的SVR 算法。其中徑向基核函數(shù)的ε-SVR精度建模效果優(yōu)越,預(yù)測(cè)精度高,泛化能力強(qiáng)。側(cè)面表明紫外光譜技術(shù)結(jié)合SVR 算法可對(duì)左旋多巴和酪氨酸混液中濃度的預(yù)測(cè)效果明顯,且方法快速、準(zhǔn)確、經(jīng)濟(jì)環(huán)保、易于推廣。