胡麗萍,黃生權,田淑華,黃延盛,胡流云,A FALOLA Akinola,李璇,舒逸聃,王學重,
(1 華南理工大學化學與化工學院,廣東廣州510640;2 無限極(中國)有限公司,廣東廣州510623;3 晶格碼(青島)智能科技有限公司,山東青島266109;4 北京石油化工學院化學工程學院,恩澤生物質精細化工北京市重點實驗室,制藥和結晶系統工程中心,北京102617)
中草藥是中華民族的瑰寶,在中國已有上千年的歷史。中草藥是中醫預防治療疾病所使用的獨特藥物,也是中醫區別于其他醫學的重要標志。利用過程分析技術(process analytical technology, PAT)對產品質量進行在線檢測和調控是提高中藥制造檢測水平的有效手段[1]。本文研究近紅外光譜(NIR)技術進行在線質量檢測的對象是中藥口服液,其有效成分復合多糖是從多種天然植物中提取的免疫調節劑,具有增強人體免疫力、提高機體抵抗力、提升睡眠質量、降血脂、抗衰老、抗癌等功效[2]。保障多糖含量是保障口服液質量的關鍵。多糖含量的檢測方法主要有色譜法、化學法[3]以及近紅外光譜法[1],其中近紅外光譜法具有快速、高效、實時在線、操作簡單、無樣品預處理、對樣品無破壞等特點,在食品[4]和藥品[5-7]的定性定量在線分析中有著廣泛的應用。
但近紅外模型在使用過程中對于環境條件以及設備要求嚴苛,當檢測條件、檢測環境或儀器設備變化時,光譜的吸光度會出現差異以及出現波長漂移的現象,使得原模型對于新數據不再有預測效果或預測效果差。為了解決這一現象,模型轉移的概念被提出。模型轉移可以解決由于更換儀器部件、更換儀器、檢測條件變化、檢測環境變化或隨時間推移而產生的一些其他變化所導致的原有模型預測準確度降低的問題,從而確保模型的長期有效性。近紅外光譜受測量儀器或測量條件的影響較大,模型轉移對近紅外光譜技術的推廣應用顯得尤為重要[8]。
按照是否需要在主儀器(已有模型儀器)和從儀器(待轉移模型儀器)上采集一一對應的標準光譜,模型轉移可分為有標樣模型轉移和無標樣模型轉移。有標樣模型轉移是通過回歸算法對源機及目標機光譜或進行回歸得到二者之間的轉換關系,目前模型轉移方法主要有:直接標準化法[9-11](direct standardization,DS)、斜率截距法[12-15](slope/bias,S/B)、分段 直接標準化法[15-18](piecewise direct standardization, PDS)、Shenk’s 算 法[19-20](Shenk’s algorithm)、典型相關分析[21-22](canonical correlation analysis,CCA)。在實際應用中,往往無法從主從儀器上獲取一一對應的標準光譜,這時就需要使用無標樣的模型轉移算法——利用基線校正、光譜求異、數字濾波、信號平滑等方法減小儀器間光譜差異的方法。常見算法有正交信號校正[23-28](orthogonal signal correction,OSC)、穩定競爭自適應重 加 權 采 樣[29](stability competitive adaptive reweighted sampling, SCARS)、 小 波 變 換[30-31](wavelet transform, WT)等。對于有標樣的模型轉移算法,劉翠玲等[11]利用直接標準化法對食用油的食用油酸值和過氧化值兩個指標的模型進行轉移,實現了不同儀器間的模型共享。李鴻儒等[10]對直接標準化算法進行改進,對光譜矩陣進行主成分分解后再進行模型轉移,并用玉米和煙草為實驗對象進行驗證,結果表明改進后的DS法對玉米和煙草模型轉移有著不同維度的提升。吉納玉等[12]用SB算法研究了不同水果間的模型轉移,成功實現蘋果、梨、桃這3種水果的可溶性固形物模型之間的相互傳遞。信曉偉等[14]對SB算法進行改進,解決兩組數據的非線性問題,提高模型轉移準確性。李鑫等[18]以煙葉的兩種物理形態為研究對象,對比分析Shenk’s 算法、PDS、CCA 這3 種算法的模型轉移穩健性。蘇虹[20]以煙葉的不同產地為研究對象,采用Shenk’s算法研究分析了煙葉在不同儀器間的模型轉移。對于無標樣的模型轉移算法,劉賢等[27]研究了OSC法的不同數據預處理方法在秸桿飼料近紅外光譜模型傳遞中的應用。張曉羽等[29]采用SARCS法研究在無標樣模型轉移中的應用。杜文等[31]以煙草中還原糖、總糖、總堿和游離氯為研究對象,研究了WT的不同前處理方式對煙草模型轉移的影響。對于有干擾物的混合物樣品光譜建模,Zhao等[32]基于獨立成分分析提出了一種新的魯棒校準建模策略O-ICR(orthogonal signal correction-independent component regression),不僅能增強模型的穩健性,還能提高模型轉移的預測性能。此方法將光譜信號劃分為干擾信號、質量正交信號和質量相關信號,通過兩步校正消除干擾信號和質量正交信號,僅使用質量相關信號來創建回歸模型,基于少量樣本即可以消除儀器間光譜差異和溫度對光譜的影響。
標準標樣是指用主儀器和從儀器分別采集光譜的樣品,其中主儀器光譜叫標準光譜,所測樣品叫標準標樣。在工業生產中,難以獲得能在主儀器和從儀器上均采集光譜的標準標樣,而使用無標樣算法對本文研究對象的模型轉移預測效果差。本文使用較為廣泛應用的有標樣模型算法直接標準化(DS)法,結合PCA降維,在無法獲取標準標樣的情況下,使用與從儀器樣品化學值一一對應后誤差不超過3%的主儀器光譜作為虛擬標樣進行有標樣轉移,解決工業生產過程中無法采集一一對應的標準標樣,并且無標樣算法預測效果差的問題,實現工業上模型的在線轉移。王安冬等[33]將經直接正交信號校正法(direct orthogonal signal correction,DOSC)校正的光譜與其參考值之比定義為虛擬標準平均光譜,并以虛擬標準平均光譜的回歸為核心來消除樣本批次間的背景差異。本文沿用王安冬等[33]有關虛擬標準平均光譜的思想,為此,考慮到本文研究對象在模型轉移前后的樣品原料、制備工藝、檢測方法均未發生變化。本文將轉移前后化學值一一對應后誤差不超過3%的樣品稱為虛擬標樣,與從機樣品化學值對應的主機樣品光譜稱為虛擬標樣光譜。利用虛擬標樣進行有標樣的模型轉移,實現無標準標樣時的有標樣模型轉移。與王安東等[33]的方法相比較,用直接正交信號校正將主從機光譜進行預處理后再虛擬化,是一種有標準標樣的模型轉移光譜虛擬方式,消除由原料變異引起的光譜背景差異。本文采用的方法是根據樣本原料相同,將主機樣本光譜虛擬成標樣,消除由于更換儀器帶來的光譜差異,實現無標樣模型轉移。
本文基于中草藥口服液多糖、可溶性固形物和pH這3項指標,研究模型轉移情況。采用x-y共生距離(sample set partitioning based on joint X-Y distances,SPXY)樣本劃分方法,劃分訓練集和驗證集,使用遺傳算法[34](genetic algorithm,GA)選擇有效波段,建立偏最小二乘(partial least squares, PLS)模型;再利用直接標準化(DS)方法進行在線模型轉移。
實驗所用樣品為某藥企某中藥口服液,該口服液前期(2017 年10 月以前)在一車間,即一期(主儀器)生產,模型已完善成功并在線使用。后期由于一車間廠房升級改造,該產品轉入二車間,即二期(從儀器)生產,光譜采集的主儀器、探頭、光纖長度均發生變化,并且一、二期主機分辨率不同,導致一期紅外變量為1557 個,二期紅外變量為778個,一期模型對二期數據完全沒有預測效果。其中2017年2月至2017年9月于生產一車間在線采集的不同月份不同批次的該口服液樣品186組用于建立主儀器模型(原模型);2017年10月至2018年6月于生產二車間在線采集的不同月份不同批次的該口服液樣品158 組用于從儀器模型轉移;2018 年8 月至10 月于生產二車間在線采集的不同月份不同批次的該口服液樣品34批。
光譜采集主要儀器為Antaris MX 傅里葉近紅外在線光譜分析儀(美國Thermo Fisher Scientific 公司)。采集光譜探頭為透反射探頭。以空氣為參比,采集波長范圍為1000~2500nm,掃描次數為32 次,主儀器主機分辨率為8cm-1(變量1557),從儀器主機分辨率為16cm-1(變量778),吸光度數據格式為SPA,每個樣品重復3 次掃描,采用3 次掃描光譜的平均光譜作為該樣品的模型數據。
口服液檢測指標為多糖、可溶性固形物和pH。多糖總糖含量的測定方法參考《食品中還原糖的測定》GB/T 5009.7—2008 第一法:高錳酸鉀滴定法進行測定,每個樣品測定3組平行樣,取平均值作為模型數據。可溶性固形物含量的測定方法為折光計法,每個樣品測定3組平行樣,取平均值作為模型數據。pH 的測定使用酸度計進行測定,每個樣品測定3組平行樣,取平均值作為模型數據。
所用儀器主要有:ME2002 電子天平,梅特勒-托利多公司;LXJ-IIB 大容量多管離心機,上海安亭科學儀器廠;DGG-9240BD 電熱恒溫干燥箱,上海森信實驗儀器有限公司;RX-5000a 數字折光儀,ATAGO公司。試劑主要有:五水硫酸銅、酒石酸鉀鈉、氫氧化鈉、濃硫酸、濃鹽酸、硫酸鐵銨、高錳酸鉀、無水乙醇,均為分析純,廣州化學試劑廠;蒸餾水,自制。
本文采用PLS-GA法建立最優主儀器模型,采用DS-PCA法進行模型轉移。
首先確定主儀器和從儀器上采集的光譜之間的數學函數關系,再用已經確定的函數關系轉換從儀器上所采集的對應樣本的光譜數據,從而減少不同儀器間所測同一樣本光譜數據的差異,實現模型在不同儀器間轉移,按式(1)計算。

式中,Xm、Xs分別為樣品標準集在主儀器和從儀器上測得的經過中心化處理的光譜矩陣;F為轉移矩陣。由于在線轉移過程無法在主從儀器上采集一一對應的標準光譜作為標準標樣,因此在模型轉移過程中采用主從儀器化學值對應后誤差不超過3%的樣品作為轉移的虛擬標樣集,其所對應的光譜為虛擬標樣光譜。
經轉移過的從儀器光譜矩陣Xstd用式(2)計算。

式中,Xunknown為待轉移的從儀器光譜。
(1)采集分析數據 獲取主儀器與從儀器樣品光譜值及化學值,對樣品化學值及光譜值進行分析,剔除異常值。
(2)主儀器模型建立 采用SPXY 分組主儀器樣品,劃分訓練及驗證數據,用PLS-GA法建立最優的主儀器模型。
(3)虛擬標樣集確立 DS 法是有標樣的模型轉移方法,模型轉移過程中需要聯合標準標樣的主儀器與從儀器的光譜值確立轉移矩陣,轉移矩陣的好壞是模型轉移成功與否的關鍵。而工業生產中難以獲得主儀器與從儀器一一對應的標準標樣光譜。王安冬等[33]將經DOSC 校正的光譜與其參考值之比定義為虛擬標準平均光譜,將主儀器與從儀器的標準標樣光譜集均轉換為相應的虛擬標準平均光譜集,再用PLS法擬合主儀器與從儀器虛擬標準平均光譜集之間的線性關系,擬合出回歸系數與常數項的值,得出轉移后的PLS模型,再用該PLS模型轉換待轉移光譜進行驗證。王安東等[33]將主從儀器光譜的標準標樣光譜均用DOSC 法進行轉換并用PLS建立轉移矩陣,因此,本文在沿用王安冬等[33]的虛擬思想的同時,保留主儀器與從儀器的光譜特性,用原光譜進行轉移,并采用DS法進行轉移,再結合本文研究對象的特性,提出以模型轉移前后,主從儀器樣品集中化學值對應后誤差不超過3%的樣品集作為虛擬標樣集,與從機樣品化學值對應的主機樣品光譜稱為虛擬標樣光譜。采用SPXY分組從儀器樣品,劃分訓練及驗證數據。分析主儀器光譜與從儀器光譜值及化學值,以主儀器中與從儀器訓練集樣品化學值對應后誤差不超過3%的樣品作為虛擬標樣,與此相應的主儀器光譜為虛擬標樣光譜。
(4)轉移矩陣的建立 以虛擬標樣集中主從儀器光譜集為基準,采用DS 聯合PCA 降維計算轉移矩陣。
(5)模型轉移結果檢驗 用轉移矩陣轉移從儀器的驗證集光譜,用原主儀器模型預測轉移后的從儀器驗證集光譜,計算相對誤差。調整虛擬標樣集以獲得最準確的轉移矩陣,提高模型轉移準確性。
模型評價指標為誤差均方根(RMSEC)、交叉驗證均方根(RMSECV)、預測均方根(RMSEP)。模型轉移結果評價指標為模型轉移預測值(yp)與測量真值(化學值,ym)之間的相對誤差(δ),由式(3)計算。

建模環境為Matlab(R2014a)及Matlab 自帶的工具箱PLS_Toolbox_86。
主儀器模型建模數據為186組,光譜變量1557個,用SPXY 樣本劃分方法,劃分訓練集150 組用于建模和驗證集36組用于驗證。
從儀器轉移數據為158 組,光譜變量778 個。其中多糖轉移訓練數據90 組,驗證數據68 組;可溶性固形物轉移訓練數據90 組,驗證數據68 組;pH轉移訓練數據90組,驗證數據68組。轉移數據中的訓練數據聯合虛擬標樣使用DS 算法建立轉移矩陣。圖1為一期二期光譜對比圖。由圖可直接觀察到一期二期光譜存在肉眼可見的差異。
近紅外模型建立方法參考李晶晶等[5]的建模方法。一期已上線應用模型的建立過程如下。一期數據采集完成后,首先對光譜數據進行查看,發現有一組數據明顯無吸收峰,光譜如圖2所示,一組明顯區別于其他光譜,在200以上區域無吸收峰,視為異常光譜。其他光譜數據均為3次掃描的平均光譜,而此組數據僅一張單張光譜。分析了各種可能的原因都不能下結論。對于此組光譜數據就直接作為異常光譜剔除了。周昭露等[1]對通過算法檢查異常數據的方法做了綜述,包括光譜殘差、馬氏距離、光譜峰異常等。這些方法在本課題組的軟件中都集成了。剔除異常光譜數據后,余下186組用于一期模型建立。采用SPXY 分組方法選出150 組作為訓練數據,36 組用作驗證數據。建模過程采用PLS 方法建立線性模型,經預處理、留一交叉驗證、GA 自動選擇波段后建立一期模型。一期模型在線應用過程中對一期生產產品多糖96%相對誤差在10%以內,可溶性固形物96%相對誤差在5%以內,pH 100%相對誤差在3%以內。

圖1 一期二期光譜對比圖

圖2 一期光譜原始圖
由于一期光譜變量1557 個,對二期778 個變量,光譜不能直接用一期1557 個變量模型為原模型進行轉移。因此轉移的第一步是將一期1557 個變量模型轉變為778個變量模型,并以此模型(一期778個變量模型)為原模型進行模型轉移。
1557模型轉變為778模型的方法:將舊一期的1557個變量里按波數相同挑出778個變量,將1557個變量壓縮成778 個。再用778 個變量用于建立模型,建模所用分組和預處理方法選擇與1557 個變量模型相同,之后再用GA 選擇合適的波段進行建模。
多糖模型建模最佳方法為:預處理方法1st Derivative,波段選擇采用GA自動選擇波段,所選變量為198 個。模型RMSEC:24.5138,RMSECV:45.8971,RMSEP: 43.862,建模結果見表1,最大相對誤差在15%以內,96%的數據誤差集中在10%以內。一期778 個變量模型預測二期數據結果見表2。

表1 一期多糖778模型建模結果

表2 一期多糖778模型預測二期數據結果
從表2 的結果可以看出,一期778 模型對二期數據預測的最大相對誤差達到206%,對二期數據沒有預測效果,需要進行模型轉移。
多糖模型轉移以一期778變量模型為主儀器模型進行模型轉移。模型轉移方法為DS(直接標準化)法。由于模型轉移為在線轉移,不能在主儀器和從儀器上采集一一對應的標準光譜。為了解決這一問題,經研究分析后采用一期樣品中與二期樣品化學值對應后誤差不超過3%的樣品光譜集作為虛擬標樣進行模型轉移。通過主成分分析法(PCA)對光譜數據進行了降維處理,利用PCA 降維處理的方法文獻[35-36]中有描述。例如,首先對主機虛擬標樣光譜,應用PCA 分析,其第一主成分貢獻率為93.3%,第二主成分貢獻率為9%,第三主成分貢獻率為1%,其中第一、二主成分總貢獻率超過95%,包含超過95%的信息,因此選取主元數為2對虛擬標樣光譜進行降維處理。其次對從機訓練數據光譜應用PCA 分析,其第一主成分貢獻率為98.5%,第二主成分貢獻率為16.8%,第三主成分貢獻率為2.5%,其中第一、二主成分總貢獻率超過95%,包含超過95%的信息,因此選取主元數為2對從機訓練數據進行降維處理。再將降維后的主從機光譜聯合DS 法進行模型轉移,形成DS-PCA自編輯的光譜轉移算法,以提高模型轉移的效率以及預測性能。
虛擬標樣的選取是模型轉移成功與否的關鍵。首先要保證一、二期生產的口服液原料、生產工藝、質量指標化學檢測方法不變,以確保一、二期產品的統一,這是一期樣品光譜能作為二期光譜轉移虛擬標樣的前提,一期、二期多糖濃度范圍見表3。對比分析一期、二期樣品化學值,對多糖化學值數據,一期186 組樣品多糖濃度范圍是559~916mg/100mL,二期158 組樣品多糖濃度范圍是594~807mg/100mL。分布圖見圖3,散點圖見圖4(紅色代表一期多糖濃度,藍色代表二期多糖濃度),可見一期、二期數據均集中在650~750之間,將二期數據與一期數據一一對應后,二期與一期多糖化學值誤差在2%以內,而工業上可接受的誤差范圍為10%,因此人為設定當誤差在3%以下即為可接受數據,可作為虛擬標樣。對二期158組數據采用SPXY分組法進行分組,其中訓練集90組,驗證集68 組。將與二期訓練集樣品化學值一一對應的一期樣品光譜作為虛擬標樣,聯合訓練集光譜采用DS-PCA法建立轉移矩陣F,得到轉移模型。
再利用光譜轉移矩陣F轉移訓練驗證數據光譜,用原模型進行預測。光譜轉移結果見圖5。模型轉移結果如表4所示,訓練集、驗證集與化學值的相對誤差結果見圖6。
從圖和表中可以看出,多糖模型轉移結果92%的數據能保證誤差在10%以內,能滿足工業生產需求。

表3 一期、二期多糖濃度范圍

圖3 多糖化學值分布圖

圖4 多糖化學值散點圖

圖5 轉移光譜對比

表4 多糖模型轉移結果

圖6 多糖模型轉移的訓練集、驗證集與化學值的相對誤差結果
可溶性固形物與pH 的一期原模型建立方法、二期模型轉移方法與多糖的建模方法和模型轉移方法相同。可溶性固形物模型轉移結果見表5,訓練集、驗證集與化學值的相對誤差結果見圖7;pH模型轉移結果見表6,訓練集、驗證集與化學值的相對誤差結果見圖8。

表5 可溶性固形物模型轉移結果

圖7 可溶性固形物模型轉移的訓練集、驗證集與化學值的相對誤差結果

表6 pH模型轉移結果

圖8 pH模型轉移的訓練集、驗證集與化學值的相對誤差結果
從圖表可見,可溶性固形物模型轉移結果95%的數據能保證誤差在5%以內;pH 模型轉移結果100%的數據能保證誤差在3%以內,完全能滿足適用于工業生產。

圖9 盲樣光譜
為了考察轉移后的模型在該口服液生產過程中的應用價值,2018 年8 月至10 月于生產二車間同一生產線在線采集該口服液樣品34 批用作盲樣(盲樣光譜見圖9),使用上文所述的轉移模型進行多糖、可溶性固形物和pH的預測,34組盲樣的化學值與預測值間相對誤差見表7。
由表7可知,經轉移的模型對盲樣數據預測效果很好,基本滿足工藝需求,十分有工業應用價值。
在使用有標樣的PCA 降維的直接標準化DS 的光譜轉移算法對中草藥口服液的轉移過程中,對于無法取得標準標樣數據,使用與從機樣品化學值一一對應后誤差不超過3%的主機樣品作為虛擬標樣進行模型轉移能滿足工業需求。其中,轉移后的多糖模型對訓練集、驗證集及盲樣,預測值與化學值之間的相對誤差均控制在10%以內;轉移后的可溶性固形物模型對訓練集、驗證集及盲樣,預測值與化學值之間的相對誤差均控制在5%以內;轉移后的pH 模型對訓練集、驗證集及盲樣,預測值與化學值之間的相對誤差均控制在3%以內。使用這種尋求虛擬標樣的方法,用有標樣的模型轉移算法,只需要少量的從儀器數據即可實現模型的高準確性轉移,提高模型利用率,也能拓寬有標樣模型轉移算法的使用范圍。從另一個方面尋求標準標樣的替代品,從而解決工業生產上標準標樣獲取困難的難題。并且無需重新建模,節省了大量的人力物力。最后,需要指出的是,本文所用的PLS建模方法是比較成熟的技術,雖然尚不具有增量學習的能力,即如果有新的數據需要對模型進行更新,則需要把新舊數據合在一起重新訓練模型。所謂增量學習能力是當新的數據可以用于對模型進行改進或修正時,只需要之前的模型知識而不需要把舊的數據和新的數據合在一起重新對模型進行訓練。增量學習對數據非常大的情況顯然非常有益。學者對支持向量機(SVM)和RBF 神經網絡都發展出了有增量學習能力的算法。也有學者提出了有增量學習能力的PLS方法,雖然其可靠性尚需在實際工業應用中充分驗證,仍然值得關注。
致謝:本工作是在無限極(中國)有限公司的資助下完成的,還受益于國家自然科學基金(61633006)。

表7 盲樣可溶性固形物、多糖、pH預測結果