白軍朋, 李 斌, 張淑娟, 陳怡每
1. 北京農業信息技術研究中心, 北京 100097 2. 山西農業大學工學院, 山西 太谷 030801
喹諾酮類抗生素是一種重要抗生素, 常用于治療或預防人和動物的細胞感染[1], 隨著抗生素的過度使用, 抗生素會殘留在人或動物體內, 導致細菌的耐藥性增加。 殘留在動物源性食品中的抗生素會通過食物鏈直接進入人的體內, 對人類的健康造成危害[2]。 食用產品中的抗生素殘留也逐漸成為消費者關注的食品安全問題[3]。 因此大量的動物源食品需要做抗生素殘留分析, 檢驗任務既繁重又時間緊迫。 當前傳統的檢測方法主要有微生物學檢測方法[4]、 免疫分析法[5], 這些方法特異性強、 靈敏度高, 但存在過程復雜、 耗時長、 有破壞性等缺點。 因此, 發展高效、 靈敏的抗生素殘留檢測方法對于保障國家的食品安全和人體健康具有重大意義。
太赫茲指的是頻率0.1~10 THz(1 THz=1012Hz)范圍內的電磁輻射的統稱[6], 通常也被稱為太赫茲輻射、 T射線等, 對應的波長為0.3~3 mm、 波數在3.3~330 cm-1之間[7]。 由于其具有透射性、 安全性、 指紋性等的獨特的性質, 可識別大分子物質。 朱思源[8]等以四種常用青霉素為研究對象, 獲得其太赫茲光譜吸收曲線。 發現它們在一定的頻率范圍內都存在明顯的光譜特性。 吉特[9]等采用太赫茲時域光譜技術對青霉胺進行研究, 發現該技術可以對青霉胺進行定量檢測。 Long等[10]將諾氟沙星在0~100%分了12個梯度, 測量純凈的諾氟沙星樣本發現在0.825和1.187 THz處存在兩個吸收峰, 并且逐步回歸選擇的變量結合特征峰的多元線性回歸預測模型最優, 預測相關系數Rp達到了0.867。 這表明太赫茲時域光譜技術可以識別抗生素這種大分子物質, 在定量測量方面也表現出了一定的潛力, 但是模型精度有待提高。 中國國家標準(GB 31650—2019)規定的喹諾酮抗菌類藥物在動物源性食品中的殘留限為0.01~1.9 μg·mL-1。 現有有關諾氟沙星太赫茲光譜檢測的文獻中涉及到濃度檢測的研究不足以滿足實際檢測需求, 不同濃度梯度間隔下的太赫茲光譜檢測分辨能力有待系統性的開展研究。
為此, 本研究探討了較全濃度的諾氟沙星含量預測建模方法, 分別設計了較大梯度諾氟沙星(濃度系列和梯度間隔均大于104μg·mL-1, 即1%)和較小梯度諾氟沙星(濃度系列和梯度間隔都小于100 μg·mL-1, 即0.01%)并展開了探索性檢測研究。 主要的研究內容如圖1所示: 首先對濃度呈較大梯度間隔的諾氟沙星固體壓片進行檢測研究, 采集太赫茲光譜數據, 采用多種建模方法預測諾氟沙星含量, 嘗試在檢測準確率方面得到提升; 其次對呈較小梯度間隔的諾氟沙星溶液樣本含量檢測的可行性進行探索, 嘗試用不同建模方法對諾氟沙星含量進行定量預測, 尋找較優的定量檢測方法。 需要說明的是: 在制備呈較小梯度濃度間隔樣本時, 由于諾氟沙星固體顆粒在濃度小于5%(即5×104μg·mL-1)很難檢測, 無法滿足較小梯度樣本的制備要求, 并且其在水中的溶解度也有限, 本研究采用乙醇溶劑的諾氟沙星溶液殘留標準物質(100 μg·mL-1)為母液進行較小梯度諾氟沙星制備研究, 為后續檢測限的探索提供研究基礎。

圖1 實驗流程圖Fig.1 Flowchart of the experimental process
實驗所用的諾氟沙星(CAS 70458-96-7)從生物工程(上海)股份有限公司購買。 聚乙烯粉末(CAS 9002-88-4, 粒度40~48μm)購買于西格瑪奧德里奇(上海)貿易有限公司。 用于較小梯度諾氟沙星樣本制備的標準溶液購買于農業農村部環境保護科研檢測所(中國天津), 是乙醇中諾氟沙星溶液殘留標準物質(GSB05-3338-2016), 濃度為100 μg·mL-1, 規格是1 mL·支-1。 比色皿樣品池光程規格為0.2 mm。
1.2.1 較大梯度樣本的制備
稱取部分諾氟沙星和聚乙烯粉末在研缽中充分研磨之后用壓片機及其模具(Specac GS15011, 英國)壓片, 壓力大小是3.5 t, 壓片時間為3 min·片-1, 壓片直徑約13 mm, 厚度在1~2 mm之間, 樣本總質量200 mg。 分別制備濃度5%, 15%, 25%, 35%, 45%, 55%, 65%, 75%, 85%, 95%和100%的壓片樣本, 為減少操作誤差, 每個含量的混合物樣品制備9個壓片, 共99個較大梯度樣本。 按2∶1劃分成校正集和預測集。
1.2.2 較小梯度樣本的制備
采用乙醇中諾氟沙星溶液殘留標準物質(GSB05-3338-2016)為母液, 稀釋得到29個小梯度濃度(0.001, 0.002, 0.004, 0.006, 0.008, 0.01, 0.02,0.04, 0.06, 0.08, 0.1, 0.2, 0.4, 0.6, 0.8, 1, 2, 4, 6, 8, 10, 20, 30, 40, 50, 60, 70, 80和90 μg·mL-1)。 用移液槍移取少量的諾氟沙星乙醇溶液滴加到比色皿樣品池中即完成樣本制備, 依次完成所有樣本制作。 每個濃度制作9個樣本, 共261個較小梯度樣本, 按2∶1劃分成校正集和預測集。
使用日本ADVANTEST公司生產的太赫茲時域光譜系統TAS7500SU, 使用透射工作模式。 中心波長為1 550 nm, 重復頻率為50 MHz, 脈沖寬度為50 fs, 光纖飛秒激光器的輸出功率為20 mW的。 可測量頻譜范圍為0.1~7 THz, 頻譜分辨率為7.6 GHz, 系統動態信號范圍在60 dB以上。 實驗環境溫度為25 ℃(±1 ℃), 相對濕度低于3%。
將制備好的較大梯度壓片樣本和不同濃度的待測試較小梯度溶液樣本放入透射模式的樣品腔中, 依次完成所有樣本的太赫茲光譜測量。 每次測量前測量一次參考信號, 每個樣本測量一次光譜數據, 較大梯度的參考信號為空掃信號, 較小梯度的參考信號是空掃的比色皿樣品池信號。
時域信號在30 ps被截斷置零, 用以去除從襯底背面反射的信號。 對時域數據進行快速傅里葉變換(FFT)得到樣本的頻域光譜。 根據Dorney[11]和Duvillaret[12]等提出的方法計算各樣本的吸收系數。
卷積平滑(S-G)作為一種數字濾波器, 可以平滑數據并增加數據信噪比(SNR)。 對光譜數據進行S-G平滑, 以減少噪聲干擾和粒子散射。
逐步回歸通過一步步引入變量, 篩選剔除多余信息, 得到有效變量; 連續投影算法(SPA)[13]作為一種可以使矢量空間共線性最小化的前向變量選擇算法, 具有消除原始光譜矩陣中的冗余信息的優勢, 可以篩選出有效的信息, 提取全頻段的幾個特征頻率。 多元線性回歸進行定量建模預測分析。 實驗數據處理與繪圖全部在Matlab R2018a和Origin 2017中完成。
利用相關系數r、 校準均方根誤差(RMSEC)和預測均方根誤差(RMSEP)來評價模型的性能。 其中相關系數r包含Rc(校正相關系數)和Rp(預測相關系數)。 預測諾氟沙星濃度模型中最理想的模型應具有高的校準相關系數(Rc)和預測相關系數(Rp), 低的校準均方根誤差(RMSEC)和預測相關系數(RMSEP)。 為保證模型的穩定性, 還應該保證RMSEC和RMSEP有較小的差異。
2.1.1 較大梯度諾氟沙星測量結果
如圖2(a)所示是較大梯度諾氟沙星中不同濃度的樣本的吸收系數平均光譜, 因為低于0.4 THz和高于1.5 THz的信號信噪比(SNR)很低, 所以只選0.4~1.5 THz的數據進行后續建模分析。 本文發現純凈的諾氟沙星樣本在0.816和1.205 THz處有兩個吸收峰, 與Long等[10]檢測的0.825和1.187 THz及Redo-Sanchez等[14]檢測的0.79和1.19 THz相近。 一方面, 峰位輕微的移動可能是由樣品的顆粒大小引起的; 另一方面, 也可能因為諾氟沙星的種類差異和測量儀器不同造成了這種峰位的微小移動。 通過觀察吸收系數圖, 可以發現隨著諾氟沙星濃度的增加, 吸收系數增加, 并且峰值也變的更加明顯。 這說明諾氟沙星的吸收系數變化和濃度有直接關系。 但是在諾氟沙星濃度低于5%的時候, 很難發現吸收峰的存在, 原因可能是聚乙烯中諾氟沙星濃度較低的時候, 樣本對太赫茲光譜的吸收變少, 從而接收到的太赫茲時域光譜攜帶的信息量變少所致。

圖2 太赫茲吸收系數平均光譜(a): 較大梯度諾氟沙星; (b): 較小梯度諾氟沙星Fig.2 Average spectrum of terahertz absorption coefficient(a): Larger gradient Norfloxacin; (b): Smaller gradient Norfloxacin
2.1.2 較小梯度諾氟沙星測量結果
較小濃度諾氟沙星溶液樣本的吸收系數如圖2(b)所示, 不同濃度的諾氟沙星乙醇溶液的吸收系數曲線基本重合, 未表現出明顯差異。 可能是因為當諾氟沙星溶液的濃度比較低時, 對太赫茲光譜影響不大, 所以表現為小梯度諾氟沙星溶液的吸收系數沒有直觀上的差異。 嘗試用不同的化學計量學方法尋找與濃度有關的特征變量, 本文選取信噪比較高的0.4~3 THz范圍內的光譜數據進行后續建模分析。
為了提高吸收光譜的信噪比, 本文使用S-G濾波器對原始光譜進行預處理, 對相鄰11個數據點進行二項式擬合。 處理后的光譜對比如圖3所示, 可以看出預處理后的數據更加平滑和規范化。
本文對較大梯度的諾氟沙星樣本進行太赫茲光譜測量, 獲得其太赫茲吸收譜, 原始光譜如圖3(a)所示, S-G濾波后的圖3(b)所示。 預處理后的數據更加平滑和規范化。 利用諾氟沙星的兩個特征吸收峰(0.816和1.205 THz)進行多元線性回歸建模與預測, 得到預測相關系數Rp和預測均方根誤差RMSEP分別為0.941和10.84%。 這時發現預測相關系數較高, 達到了0.9以上, 但是RMSEP比較高。 為了進一步提高較大梯度諾氟沙星的預測效果, 本研究嘗試對整個波長范圍的數據采用逐步回歸方法選取特征變量, 這里選取11個特征變量(0.412, 0.443, 0.557, 0.633, 0.786, 1.106, 1.221, 1.251, 1.411, 1.450和1.500 THz), 這里的特征變量消除了部分多重共線性, 使得到的光譜數據包含更多的信息。 然后進行多元線性回歸分析, 預測相關系數Rc和預測均方根誤差RMSEP分別為0.962和2.74%。 顯然, 用逐步回歸選取變量的多元線性回歸建立的模型比用特征峰多元線性回歸建立的模型精度更高,Rc得到了提高, RMSEP降低。 這說明逐步線性回歸方法可以從全波段中選取更多有效的信息。 逐步回歸是從整個波長中搜索變量, 其中容易出現光譜數據過擬合, 為了減輕數據過擬合, 選取變量時嚴格的對每個波長進行逐一添加或刪除。 為了提高較大梯度諾氟沙星模型的預測精度, 進一步用特征吸收峰結合逐步線性回歸選擇變量的多元線性回歸建模預測較大梯度諾氟沙星的濃度, 這時Rc=0.989, RMSEP=5.72%, 雖然預測相關系數提高了, 同時預測均方根誤差也增加了。

圖3 太赫茲吸收系數光譜(a): 較大梯度諾氟沙星(原始數據); (b): 較大梯度諾氟沙星(S-G濾波后);(c): 較小梯度諾氟沙星(原始數據); (d): 較小梯度諾氟沙星(S-G濾波后)Fig.3 Terahertz absorption coefficient spectrum(a): Larger gradient Norfloxacin (raw data); (b): Larger gradient Norfloxacin (after S-G filtering);(c): Smaller gradient Norfloxacin (raw data); (d): Smaller gradient Norfloxacin (after S-G filtering)
利用SPA選擇的變量對較大梯度諾氟沙星進行建模與預測分析。 選取變量過程中, 當運行SPA程序時, SPA_MLR程序會計算一系列的誤差均方根誤差(RMSE), 這個過程保證選取的變量個數伴隨著一個理想的RMSE, 并且這個RMSE不會比最小的RMSE明顯大。 圖4(a)顯示了通過SPA選擇變量的過程, 從圖中可以看出, 當SPA選擇前5個變量時, RMSE值顯著的降低。 隨著選擇變量個數增加, RMSE值逐漸減小。 當選擇14個變量時, RMSE達到了理想值(RMSE=1.66%)。 選擇變量過程中, 盡管RMSE曲線存在一些波動, 但是整體呈現隨著變量的增加RMSE曲線下降的趨勢。 在較大梯度諾氟沙星樣本中, SPA選擇的14個變量如圖4(b)所示, SPA選取的變量分別用小正方形標記(0.764, 1.000, 1.053, 1.098, 1.144, 1.311, 1.326, 1.349, 1.379, 1.402, 1.425, 1.455, 1.478和1.493 THz)。 我們發現在1.205 THz以下有5個變量, 1.205 THz以上存在9個變量, 這說明有效信息的頻率大多分布在較大的頻率范圍。 SPA選擇的變量的多元線性回歸結果為Rp=0.992, RMSEP=5.52%, 雖然模型精度提高了, 但是預測均方根誤差也變大了。

圖4 SPA選擇變量(較大梯度諾氟沙星)(a): 選取變量數的RMSE; (b): 選擇的變量位置Fig.4 Variable selection SPA (Larger gradient Norfloxacin)(a): RMSE graph of the number of variables selected; (b) Location of selected variables
較大梯度諾氟沙星的建模結果見表1, 逐步回歸選擇變量后的多元線性回歸達到模型效果最優, 預測相關系數Rp=0.962, RMSEP=2.74%, 該模型在保證了預測相關系數的前提下, 同時保證RMSEC和RMSEP的差值最小, 使模型具有更高的穩定性。 這說明太赫茲時域光譜技術可以檢測較大梯度諾氟沙星, 預測精度相比已有檢測的建模結果(Rp=0.867,RMSEP=16.6%)得到了很大改善。

表1 較大梯度諾氟沙星的MLR建模結果Table 1 MLR modeling results of largergradient Norfloxacin
為了進一步研究較小梯度間隔諾氟沙星含量的定量檢測問題, 本文制備了濃度系列和梯度均小于100 μg·mL-1的29個較小梯度濃度, 對較小梯度的諾氟沙星樣本進行了測量, 得到原始光譜如圖3(c)所示。 經S-G濾波后如圖3(d)所示, 預處理后的數據更加平滑和規范化, 后續對其進行建模分析。 首先, 用純凈的諾氟沙星樣本的特征峰(0.816和1.205 THz)進行多元線性回歸建模預測小梯度諾氟沙星無水乙醇溶液的濃度, 發現得到Rc和Rp分別是0.590和0.307, 建模效果很不理想, 可能是由于較小梯度諾氟沙星溶液中含諾氟沙星少, 所以光譜所包含的特征峰信息也比較少, 從而導致特征峰建模效果不理想。 之后用SPA算法選取變量進行建模分析, SPA選擇了兩個有效變量(0.496和1.77 THz), 利用這兩個變量進行多元線性回歸建模預測較小梯度諾氟沙星溶液的濃度, 我們得到Rc和Rp分別是0.485和0.472。 發現預測相關系數Rp只有0.472, 模型效果仍然不理想, 這可能是因為SPA算法不適合用于較小梯度諾氟沙星溶液來提取變量,也即SPA找到的變量含有有限的濃度信息。 最后利用逐步線性回歸選取變量進行多元線性回歸建模, 逐步回歸找到了10個特征變量(0.565, 0.610, 0.641, 1.335, 1.762, 1.793, 1.862, 1.892, 2.152和2.228 THz), 建立模型的Rc和Rp分別是0.859和0.728。 較小梯度諾氟沙星的建模結果如表2所示。 可以看出相比特征峰多元線性回歸和SPA的多元線性回歸, 逐步線性回歸的多元線性回歸模型效果達到了最優, 但是預測相關系數為0.728, 預測均方根誤差為18.79 μg·mL-1。 這說明太赫茲時域光譜技術在檢測較小梯度諾氟沙星溶液方面能力較弱, 需要繼續尋求提升的手段。

表2 較小梯度諾氟沙星的MLR建模結果Table 2 MLR modeling results of smallergradient Norfloxacin
總體來說, 太赫茲時域光譜技術作為一種新型的無損檢測技術, 因其具有獨特的指紋特性, 且樣品預處理簡單等優勢, 近年來被廣泛應用于抗生素的定性定量檢測研究探索。 存在的問題主要有:
(1) 對于較高濃度檢測, 一般具有較好的精度; (2) 對于較低濃度檢測, 檢測精度較差, 特別是當檢測濃度低于中國國家標準(GB 31650—2019)時, 檢測變得異常困難。 近些年來, 國內外相關研究人員也在不斷探索新型探測方法, 如超材料[15]、 平行平板金屬波導[16]等用于痕量檢測研究。 這也成為本研究的未來方向之一。
分別以較大梯度(濃度系列和濃度間隔均大于104μg·mL-1, 即1%)諾氟沙星和等于或者低于國家規定檢測限的較小梯度(濃度系列和濃度間隔均小于100 μg·mL-1, 即0.01%)諾氟沙星為研究對象, 通過設計梯度實驗, 探索太赫茲時域光譜技術用于較全濃度諾氟沙星的檢測潛力。 較大梯度諾氟沙星樣本的檢測分析發現: 純凈的諾氟沙星樣本存在兩個吸收峰, 峰位與已有的研究結果基本一致。 逐步線性回歸選擇變量進行多元線性回歸分析, 預測集的相關系數Rc=0.962,預測均方根誤差RMSEP=2.74%。 檢測結果相比已有檢測的最優模型(Rc=0.886, RMSEP=16.6%)得到了提升; 進一步的較小梯度諾氟沙星溶液樣本檢測分析發現: 逐步線性回歸選擇變量的多元線性回歸達到了模型效果最優, 預測集相關系數Rc=0.728, RMSEP=18.79 μg·mL-1, 該模型相比大梯度諾氟沙星的預測能力明顯下降。 說明太赫茲時域光譜技術在預測小梯度諾氟沙星含量方面能力不足, 需要繼續尋找提升手段。 總體來說, 太赫茲時域光譜技術可以比較準確的預測較大梯度的諾氟沙星, 并在較小梯度諾氟沙星的預測方面也表現出一定的潛力, 但檢測能力較弱。 本文為諾氟沙星濃度的進一步檢測研究提供了理論基礎。