孫闊,粟暉,姚志湘,黃培賢,蘇傳婷
(廣西工學院生物與化學工程系,廣西柳州 545006)
阿司匹林作為一種光譜的解熱鎮痛的非甾體抗炎藥是由水楊酸乙酰化反應制得,傳統的分析方法為滴定法和高效液相色譜法等。2005版《中國藥典》[1]以中性乙醇為溶劑、酚酞為指示劑,用NaOH滴定其含量,步驟繁瑣,誤差較大;高效液相法[2–3]測量結果精確度高,但分析時間較長。
拉曼光譜分析具有無損性、監測靈敏度高、檢測時間短等優點,使用光纖探頭無需取樣就能夠快速采集阿司匹林合成體系的拉曼信息,可對多組分進行同時測定[4]。由于待測組分在拉曼光譜數據中有多個特征峰位[5],各個待測組分與它們的特征峰位的光譜數據之間存在交迭現象,很難分離出某個特征峰以便對其組分濃度進行定量分析,因此拉曼光譜分析需要用到多元校正技術[6–7]以克服多重相關性造成的信息重疊,解釋體系內的綜合變量,區分反應組分信息與背景噪聲。已知組分的回歸預測即對白色體系的回歸預測[8],主成分回歸和偏最小二乘法都可以提取組分變量的特征信息[9],而后者進行光譜矩陣分解時考慮了待測屬性矩陣的信息,使得顯著包含待測屬性特征的光譜區有更大的權重。Thomas等人[10]對經典最小二乘 (PLS)、主成分回歸和偏最小二乘在定量校正中應用進行了比較,認為偏最小二乘是對組分預測最優的方法。
由于拉曼光譜易受監測環境的影響,在采集拉曼光譜過程中光程變化以及光程中介質變化都會引起光的吸收變化造成基線漂移[11]。因此為了提高分析準確度,經常在回歸之前要對光譜進行預處理,降低背景干擾,除去部分噪聲提高信噪比。通常的預處理方案[12–14]有均值中心化標準化、歸一化、標準正態變換及去趨勢、平滑及求導等。
水楊酸、乙酰水楊酸、乙酸酐、乙酸:分析純;
激光發射器:Laser-785型,美國Danger公司;
拉曼光譜儀:科研級,QE65000型,美國Ocean optics公司;
光纖探頭:BAC100–785–OEM 型,美國 Ocean optics公司;
電子分析天平:ALC–210.4型,德國Acculab公司;
1.2.1 標準溶液的制備
阿司匹林合成路線見圖1。

圖1所示阿司匹林的合成體系中主要為5個組分,分別為阿司匹林、水楊酸、乙酸、乙酸酐、催化劑(濃硫酸或氨基磺酸)。其中變量為4個:阿司匹林、水楊酸、乙酸、乙酸酐,假設反應結束水楊酸反應完全,則反應前后的水楊酸–乙酸酐–阿司匹林的當量比分別為n∶2n∶0和 0∶n∶n,配制41個樣本溶液。水楊酸、乙酸酐、阿司匹林3組分物質的量的范圍分別為 5~0 mmol;10~5 mmol;0~5 mmol,隔0.125 mmol遞減和遞增,用乙酸定容至10 mL。
1.2.2 拉曼信息的采集
以波長785 nm激光作光源,通過BAC100–785–OEM光纖探頭收集拉曼信息,對ocean optics spectrasuite工作站菜單選擇x軸單位設置為拉曼位移,積分時間選擇是1/s,獲取拉曼光譜波長范圍為0~2000 cm–1。將41個標準溶液分別倒入光程為1 cm石英比色皿中采集實驗樣本的光譜數據并保存。
在41個樣本中從第3個樣本到第39個樣本每隔4個樣本選取10個樣本作為檢驗集,剩余作為校正集。從圖2中可看出,41個樣本的拉曼光譜交迭并且存在基線漂移,拉曼光譜漂移較為明顯的一條為預測集第5個樣本。

選取全波長范圍的原始數據進行PLS回歸。主成分即引起光譜變化的樣本主要變量為阿司匹林、水楊酸、乙酸、乙酸酐。變量數目為4,交叉驗證方法“逐一法”對檢驗集回歸,原始數據PLS檢驗集結果及評價如圖3所示。

由圖 3(a),(b),(c)中檢驗集的水楊酸、乙酸酐、阿司匹林原始數據PLS回歸結果的真實值與預測值相關圖可以看出,多數樣本點的殘差杠桿都在回歸線附近均勻分布,第5個樣本點出現高杠桿。圖3(d)中多數樣本分布在Q和T2的可信區間內,第5個樣本為異常值[QResidual=1.25×107>(95.0%limit=4.34×105),HotellingT2=678>(95.0% limit=12.1),差異顯著],其差異可認為是由系統誤差造成的。由圖2訓練樣本拉曼光譜可看出,此樣本拉曼光譜明顯漂移造成回歸殘差較大。
3.3.1 拉曼光譜預處理方案選擇
為了減小因光程變動而造成的基線漂移的影響,增強樣本光譜以及濃度的差異性,經試驗選定回歸結果較好的5種光譜預處理方案,表1中A到F為原始光譜和所選定的5種光譜預處理方案。

表1 拉曼光譜預處理方案
3.3.2 校正集PLS評價
原始光譜與所選五種光譜預處理方案校正集中回歸結果比較,校正集稱量值與擬合值相關系數R2、校正均方根誤差RMSEC、交互驗證均方根誤差RMSECV如表2所示。

表2 校正集PLS回歸結果評價
表2中方案B用標準正態變換再經過標準化后,校正集的相關系數,校正均方根誤差和交互驗證均方根誤差與方案A原始數據有明顯改善,方案C在方案B的基礎上中間增加了Savitzky-Go1ay五點二次平滑處理,校正均方根誤差有所增加,但交互驗證均方根誤差減小。方案D,E,F經Savitzky-Go1ay點二次平滑一階卷積求導校正集中線性系數和校正均方根誤差與方案A原始數據比較并沒有變化,交互驗證均方根誤差略有降低。
3.3.3 檢驗集PLS評價與方案確定
原始光譜與所選5種光譜預處理方案預測集中回歸結果比較,檢驗集稱量值與擬合值相關系數R2、預測均方根誤差RMSEP如表3所示。

表3 檢驗集PLS回歸結果評價
表3中方案B~F檢驗集中相關系數和預測均方根誤差與方案A原始數據比較都有很好的改善;方案B標準正態變換再經過標準化后,檢驗集的線性系數,預測均方根誤差有明顯改善;方案C在方案B的基礎上增加了Savitzky-Go1ay五點二次平滑處理,檢驗集的線性系數,預測均方根誤差較方案C有所改善;方案D,E,F經Savitzky-Go1ay五點二次平滑一階卷積求導預測集中線性系數和預測均方根誤差較為滿意,方案D中雖然阿司匹林的相關系數較方案E和方案F低,但乙酸酐的線性系數有所提高,并將預測均方根誤差降至最低分別為0.00815,0.010265,0.011101。
由上述結果對此模型選定預處理方案為D矢量歸一+Savitzky-Go1ay五點二次平滑一階卷積求導+均值中心化,主成分選4,采用“逐一法”對模型進行回歸結果如圖4所示。

經矢量歸一+Savitzky-Go1ay五點二次平滑一階卷積求導+均值中心化對拉曼光譜預處理再進行PLS回歸,由圖4(a),(b),(c)中檢驗集的水楊酸、乙酸酐、阿司匹林真實值與預測值相關圖可以看出,幾乎所有樣本點的殘差杠桿都在回歸線附近均勻分布,沒有出現明顯的高杠桿。(d)中多數樣本分布在Q和T2的可信區間內,第5個樣本的QResidual(0.000124)大于 95.0% limit(8.32×10–6)存在異常,HotellingT2=10.3<(95.0% limit=12.1),此差異是偶然誤差引起的正常差異,故此預處理方案可以采用。
綜上所述,雖然QResidual=0.000124超過了Q的可信區間 (95.0% limit=8.32×10–6),HotellingT2=10.3在T2的可信區間(95.0% limit=12.1)被認為是偶然誤差不可避免,再綜合檢驗集R2和RMSEP,回歸結果較為滿意。
經標準正態變換Savitzky-Go1ay五點二次平滑再標準化后雖然對校正集自身擬合的程度很好,對檢驗集卻不如經過Savitzky-Go1ay五點二次平滑一階導數的擬合效果好。經過Savitzky-Go1ay五點二次平滑一階導數的擬合結果交互驗證均方根誤差有所改善,并且對外部檢驗集有理想的擬合效果。較大程度減小了由光譜監測環境的影響和光程變化以及光程中介質變化引起基線漂移。
對于此分析模型,采用矢量歸一+Savitzky-Go1ay五點二次平滑一階卷積求導+均值中心化對拉曼光譜預處理,PLS主成分選4,交互驗證選用“逐一法”可對阿司匹林反應體系3組分進行同時測定,可應用于阿司匹林合成體系在線濃度的測量,為后續質量預測、動態優化控制工作提供了有力的數據支持。
[1]國家藥典委員會.中華人民共和國藥典[M].2部.北京: 化學工業出版社,2005: 283.
[2]李克慶.測定阿司匹林腸溶衣片中阿司匹林含量及游離水楊酸中國藥師,2006,9(10):925–927.
[3]Hiral J Panchal,Bhanubhai N Suhagia,Natvarlal J Patel,et al. Simultaneous Estimation of Atorvastatin Calcium,Ramipril and Aspirin in Capsule Dosage Form by RP–LC[J].Chromatographia,2009,69(1): 91–95.
[4]李衛華,呂國華,黃蘭,等.阿司匹林合成過程的在線拉曼光譜研究[J].物理化學學報,2003,19(2): 105–108.
[5]Murty G V L N,Seshadri T R. Raman effect and hydrogen bonds Part IX. Solutions of salicylic acid and aspirin[J]. Proceedings Mathematical Sciences,1944,19(1): 17–20.
[6]Cooper J B. Chemometric analysis of Raman spectroscopic data for process control applications[J]. Chemometrics and Intelligent Laboratory Systems,1999,46(2): 231–247.
[7]Estienne F,Massart D L,Zanier-Szydlowski N,et al. Multivariate calibration with Raman spectroscopic data: a case study[J].Analytica Chimica Acta,2000,424(2): 185–201.
[8]梁逸曾.白灰黑復雜多組份分析體系及其化學計量學算法[M].長沙: 湖南科學技術出版社,1996: 29–36.
[9]Estienne F,Massart D L. Mutlivariate calibration with Raman data using fast princip component regression and partial least squares methods[J]. Analytica Chimica Acta,2001,450(1–2): 123–129.
[10]Edward V T,David M H. Comparison of multivariate calibration methods for quantitative spectral analysis[J]. Analytical Chemistry,1990,62(10): 109l-1099.
[11]Andrade J M,Garrigues S,de la Guardia M,et al. Nondestructive and clean prediction of aviation fuel characteristics through Fourier transform-Raman spectroscopy and multivariate calibration[J]. Analytica Chimica Acta,2003,482(1): 115–128.
[12]史永剛,馮新瀘,李子存.化學計量學[M].北京: 中國石化出版社,2002: 141–143.
[13]Wu W,Guo Q,Jouan-Rimbaud D,et al. Using contrasts as data pretreatment method in pattern recognition of multivariate data[J].Chemometrics and Intelligent Laboratory Systems,1999,45(1–2):39–53.
[14]Peter A G. General least-squares smoothing and differentiation by the convolution (Savitzky-Golay)method[J]. Anal Chem,1990,62(6): 570–573.