999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

近紅外光譜技術在中藥質量控制應用中的化學計量學建模:綜述和展望

2016-07-08 00:56:26周昭露李杰黃生權田淑華劉玉嬌魯亮張揚黃延盛王學重
化工進展 2016年6期
關鍵詞:質量控制中藥

周昭露,李杰,黃生權,田淑華,劉玉嬌,魯亮,張揚,黃延盛,王學重

(1華南理工大學化學與化工學院,廣東 廣州 510640;2無限極(中國)有限公司,廣東 廣州 510623;3晶格碼(青島)智能科技有限公司,山東 青島 266109)

?

近紅外光譜技術在中藥質量控制應用中的化學計量學建模:綜述和展望

周昭露1,李杰1,黃生權2,田淑華3,劉玉嬌3,魯亮2,張揚1,黃延盛2,王學重1

(1華南理工大學化學與化工學院,廣東 廣州 510640;2無限極(中國)有限公司,廣東 廣州 510623;3晶格碼(青島)智能科技有限公司,山東 青島 266109)

摘要:近紅外光譜(NIR)是制藥工業領域應用最為廣泛的過程分析技術(PAT),在中藥產品質量的在線實時檢測和控制中越來越受到重視。和化學藥相比,由于中藥組成的復雜性和生產加工過程的特殊性,對利用化學計量學建立NIR預測模型,提出了新的挑戰。本文對NIR在中藥質量控制應用中的化學計量學建模方法和技術進行了綜述并對未來發展做了展望。綜述涉及到NIR數據的采集、預處理、分組,特征波段自動選取,建模以及模型的驗證和評價。討論了平滑、導數、標準化算法、數據增強算法和主元分析等預處理方法對模型影響。特征波段的選取述及間隔偏最小二乘、遺傳算法、無信息變量消除、隨機蛙跳法、競爭自適應重加權采樣和重要變量投影法等;建模方法論及線性和非線性技術包括主元回歸、偏最小二乘回歸、人工神經網絡和支持向量機回歸等。未來的NIR建模平臺應該是一個在后臺集成各種復雜的數學算法和實現數據的無縫共享,面向用戶的前臺則是友好、簡單、智能的半自動界面環境。論述結合具體的實例進行。

關鍵詞:近紅外光譜技術;中藥;質量控制;化學計量學

第一作者:周昭露(1991—),女,碩士研究生,從事近紅外建模技術研究。E-mail cezhou.zhaolu@mail.scut.edu.cn。聯系人:王學重,教授,博士生導師,研究方向為制藥工程和過程控制。E-mail xuezhongwang@scut.edu.cn。 黃生權,博士,研究方向為制藥工程和過程檢測。E-mail 14321084@qq.com。

中藥,包括以中藥材為基礎的營養保健品,是中華民族的瑰寶,為世界醫藥史的發展做出了突出的貢獻。中藥在國際市場上也越來越得到認可,全世界每年中藥貿易額正以10%的速度遞增。但是根據2007年的一組統計數據,在國際中成藥市場上日本占80%份額,韓國占10%,而我國僅占5%。同時日本、韓國、東南亞以及西歐的一些草藥企業還從我國低價購入原料藥就地粗加工,運回國內精煉提取制劑后以高價返銷進入中國市場。我國中藥生產企業制藥水平整體還不高。只有中藥的質量和品質得到充分的保障,中藥在國內市場的地位才能得到鞏固,在國際市場上的份額才能增長。

氣相色譜(GC)、高效液相色譜法(HPLC)[1]、X-射線衍射分析法(XRD)[2]、紫外分光光度法(UV)[3]、滴定法等在中藥成分定性和定量分析中應用已經非常廣泛[4]。然而,由于對樣品的化學分析通常需要經過復雜的預處理,不僅消耗大量的人力和物力,還由于測量時間上的滯后不能對工藝生產過程及時調節以排除問題實現及時調控。近紅外光譜技術(near infrared,NIR)對中藥復雜組成的測量相對于傳統的化學分析方法有明顯的優勢,具有快速、低消耗、無破壞性、幾乎無需樣品預處理等優點。NIR的應用可以是離線取樣測量代替傳統的化學分析方法,但更有吸引力的是在線測量探頭,由于能夠實時測得產品質量數據可以及時進行操作工況的調控。

過程分析技術(process analytical technology,PAT)因為在分析技術前面加了‘過程’二字,主要指用于在線測量的分析技術。因為藥品和食品是特殊的產品,政府監管一向比較嚴,新工藝、新設備、新的測量和控制技術的應用一般要經過監管部門的批準,增加了企業的成本。因此嚴格的監管長期以來是造成藥品生產制造技術進步緩慢的重要原因之一。為了推動技術進步,美國食品和藥品管理局(Food and Drug Administration,FDA)提出了PAT計劃[5-6]。PAT強調的是在藥品生產過程的各個環節上(原料、生產、包裝等)在線對產品質量參數和過程關鍵參數及時測量并調控,從原理上加深對過程的了解,找到設計空間,減少和消除產品生產的批次差異。相應的,如果企業能夠證明由于采用了PAT技術對過程加深了解,FDA可相應的在監督上降低企業成本。FDA的PAT計劃是根據“質量源于設計”的理念提出的,鼓勵生產過程的設計、控制和質量保證的創新性、高效性。旨在確保關鍵產品的品質,及時對過程性能特征進行測量,獲得生產過程的單個或者多個條件參數,進而對生產加工過程進行設計、分析和控制,力求保障最終產品的質量[7]。過程分析技術應用在生產過程中可以為企業降低生產成本、縮短生產周期、提高產品質量、改善生產環境等。NIR技術作為近年來最受歡迎的過程分析技術,在石油化工[8]、農業、食品工業[9]、制藥工業[10]以及環境行業等廣泛應用?;赑AT的藥品生產技術的各個組成部分可按圖1描述。首先需要利用單個PAT儀器對各個變量進行實時在線測量。因為這些測量一般為光譜或圖像,需要利用化學計量學和信號處理技術對其處理?;赑AT對過程更深入的了解來自多變量刻畫,獲得多變量設計和操作空間,產品質量與操作條件以及原料的因果關系,多變量統計控制和閉環控制。PAT對基于過程機理的模擬強調不夠,但是必須集成基于多尺度和介尺度的模擬優化。

表1是幾年前某國際大制藥企業對PAT實際應用情況的調查匯總。從中可以看出,目前實際用于生產的PAT技術還很有限,許多技術還有待開發。從表中還可以看出,NIR光譜技術是制藥領域目前應用最為廣泛的PAT技術。NIR光譜技術近年來蓬勃發展,FDA、歐洲和加拿大藥物局已正式采用NIR光譜分析技術取代繁瑣費時的品管分析方法。一些知名制藥大公司(如美國輝瑞公司)將NIR技術用在化學藥生產過程的質量控制,從根本杜絕了不合格產品出廠,保證了產品質量,為企業節省了大量人力、物力。國內在中藥分析方面也取得了較快的發展,《中華人民共和國藥典》2005版已將“近紅外分光光度法指導原則”列入目錄,應用方面包括藥材質量鑒定、藥材有效成分含量測定以及簡單制劑的成分分析,但對于中藥材-提取分離-制劑過程的在線檢測研究則報道較少。

圖1 基于過程分析技術的藥物制造

表1 PAT在制藥工業的應用

目前,近紅外光譜技術在中藥材的定性分析,中藥成分的離線、在線定量分析領域中有大量的文獻報道。NIR在中藥中的應用綜述性的文章也有一些報道。周文婷等[11]綜述了NIR光譜技術在食品、農業、藥理、中藥(產地、真偽、藥材和中成藥中的水分、有效成分含量、中成藥含量)等方面質量評價中的應用。李洋等[12]系統地闡述了在線NIR光譜技術中藥生產過程分析與控制方面的應用,并以NIR光譜分析平臺的搭建為例,說明NIR光譜技術的應用可行性。上文中周文婷和李洋的綜述更加傾向于概述近紅外在中藥中的具體應用和部分近紅外儀器,對化學計量學建模基本沒有涉獵。CHAO 等[13]的綜述也是關于NIR在中藥領域的應用,內容更詳細,而且涉及到了化學計量學方法,但是對化學計量學建模的綜述部分還不夠深入和詳盡。本文注重結合化學計量學方法和具體應用闡述NIR運用到中藥質量控制中的建模的重要性。并以中藥混合物中某成分的定量模型的訓練過程,說明各種化學計量學方法的運用和選擇。

1 近紅外光技術在中藥產品質量中的應用

近紅外光譜技術在應用于傳統中藥制造過程的定量和定性分析方面已經取得了很大的發展[11],定性包括區分中藥的種類[14-15]、產地[16-18]、真偽[19],定量中藥中的有效成分等[20-22],以及各制藥工藝工段例如藥物提取[23-24]、洗脫[25]、濃縮、純化、淳沉[26]中終點參數評價。NIR還被用于產品中包括顆粒[27]、緩釋制劑[28]、片劑[29]、固體分散體[30]等的刻畫。綜上,NIR可用在整個中藥生產過程中,包括中藥材原料的檢驗,提取過程、洗脫、濃縮、醇沉、收膏、配液等生產過程中的一個或者多個關鍵質量控制參數的監測,以及產品合格檢驗。

1.1 NIR儀器供應商

我國早期陸續進口了一些近紅外分析儀,主要來自德國Bruker公司、美國Brimrose公司、美國Thermo Fisher公司、英國ABB公司等廠家,集中分布在農業、石化、煙草、食品、飼料等部門,用于原材料的品質分析和產品的質量控制。值得注意的一個問題是,西方發達國家已有的近紅外光譜分析技術雖然比較成熟,并已成功應用于許多化學藥的生產過程,但實踐證明由于中藥生產過程的特殊性和復雜性,進口的近紅外儀器設備基本上為通用型配置,在我國應用到中藥的復雜體系中普遍遇到困難,尤其表現在成分預測誤差大。要實現NIR中藥應用的技術上的突破,首先需要在NIR信號特征信息提取、建模、模型驗證上取得技術的突破。

表2列舉了部分國內外近紅外測量儀器的供應商。國外近紅外儀器的發展相對較為成熟。其中德國的Bruker、美國Thermo、英國的ABB等更是近紅外儀器行業的領頭羊。雖然我國在近紅外光譜儀的研發起步較晚,近年來也陸續在儀器的穩定性、精密性,儀器分析系統軟件,化學計量學以及儀器的售后服務等方面取得一定的成果。但是在儀器的一些關鍵技術方面(如信噪比、儀器間的通用性)還存在一定的差距。如今,近紅外光譜儀作為最受矚目的過程分析技術之一,其在線應用有巨大的潛力,所以需要近紅外儀器硬件、軟件、技術服務等多個方面共同發展。故在線分析系統的軟件必須要具備光譜實時采集和化學計量學光譜分析的功能。NIR光譜的定性和定量的準確性取決于建立模型的穩定性、可靠性。所以在接下來的文章中將對NIR的建模技術及各種方法進行綜述。以期為以后的NIR建模提供參考方法。

1.2 NIR吸收譜帶

表2 部分國內外近紅外儀器供應商[94]

美國材料與試驗協會(ASTM)規定NIR光譜的波長范圍為780~2526nm(12820~3959cm?1)。NIR吸收帶是由-CH、-NH、-OH等官能團伸縮振動的倍頻和合頻吸收。NIR光譜主要反映-CH、-NH、-OH、-SH等官能團信息,幾乎涵蓋了所有的有機化合物和混合物。例如某中藥口服液在近紅外1100~2300nm區間的吸收有一下特征:1423nm附近有強吸收峰,該吸收峰是溶液中水的-OH鍵伸縮振動的第一倍頻峰吸收峰,1935nm左右吸收峰是-OH鍵的合頻吸收帶;1100~1400nm是-CH的第二倍頻和合頻吸收帶;2000~2300nm是-CH,-NH,-OH伸縮振動的指紋吸收峰的組合。因為水-OH的兩個吸收帶很強,覆蓋了其他中藥中有效成分在該波長范圍內的特征吸收,這對NIR光譜的分析增加了難度,所以在運用化學計量學建分析模型的時候,需要對NIR光譜進行預處理,選擇有用的光譜信息。

NIR光譜采集方式主要分為透射、透反射、漫反射(普通漫反射和積分球漫反射)等。根據樣品的性質不同采用不同的光譜采集方式:對于均勻透明的液體,采用透射的方式;如果是顆粒、粉末類型的一般采用漫反射;漿狀、黏稠狀含有懸浮顆粒的液體多采用漫透射和漫透反射。在對中藥定性分析時樣品通常為粉末,常采用漫反射和積分球漫反射。中藥有效成分提取或濃縮過程在線采集光譜常用透反射。YAN等[31]在定量刺梨木中多糖含量時將樣品處理成粉末以漫反射方式采集NIR數據;劉冰等[32]在測量黃芪精口服液中黃芪多糖和黃芪甲苷的含量時,NIR光譜采集用透射方式;JIN等[33]在乙酸鈉(提取自天師栗中三萜皂苷的一種鹽)洗脫過程中以透射的方式采集NIR光譜。白雁等[34]對山藥中多糖含量的分析,將新鮮山藥干燥后粉碎過篩,以積分球漫反射方式采集NIR光譜。總之,NIR光譜的采集方式根據樣品的性質而定。

1.3 化學計量學建模在NIR光譜儀使用中的重要性

回顧歷史,化學計量學建模在NIR發展的歷程中曾經起到了決定性的作用。在20世紀60年代以前,和中紅外(mid-IR)相比,NIR并沒有得到重視。主要原因是它的弱吸收和譜峰的重疊較嚴重,難以從譜圖中抽取組分特征信息。20世紀70年代后NIR獲得喜愛的原因除了近紅外儀器硬件改進提高了檢測靈敏度外,主要是由于基于主元素分析技術的化學計量學的發展使近紅外線儀器有效地從譜圖中提取組分的特征信息成為可能。許多學者通過對先進的化學計量學算法的研究,將NIR應用到了以前NIR不能應用的領域,例如結晶。因為NIR的譜圖不僅受溶液濃度的影響,還受到顆粒濃度和大小的影響,因此NIR盡管是最受歡迎的PAT技術,然而在結晶過程溶液濃度的測量中多用mid-IR,NIR應用很少,因為無法區分NIR譜圖的變化是由溶液濃度變化引起的還是顆粒造成的。MA等[35]結合遺傳算法和支持向量機開發的化學計量學建模方法可從同一張譜圖同時準確預測溶液濃度和顆粒粒度,使NIR應用于結晶的缺點變成了優點。另一個例子是校準數據的問題。一般不管NIR或mid-IR的應用均需要多組已知濃度的溶液的譜圖作為校準數據建立關聯模型。如果溶液中存在未知組分,例如某些反應過程中轉瞬即逝的未知中間產物,由于模型建模中沒有見過,因此不能預測。WANG等[36]提出的基于獨立元素分析的NIR光譜分析方法就不需要校準數據,能夠自動從混合物的譜圖中分解出構成該混合物的各個組分的譜圖并推算出各部分的濃度。再一個例子是NIR用于測量微量雜質濃度的應用。目前還缺少方便準確的能夠在線測量藥典規定的雜質最大濃度以下的雜質濃度的儀器。有的近紅外的儀器信號在這樣低的濃度下仍然對濃度的變化較靈敏,主要存在模型預測誤差較大問題。據作者所知,有西方的制藥公司正在研究新的化學計量學方法,如果取得突破,NIR就可以成為一款有效的在線測量過程中雜質濃度的儀器。NIR在中藥生產質量檢測和控制中的應用并非都很成功。主要反映在預測誤差大,重復性穩定性不夠好等。這可能是由于中藥生產過程的特殊性和復雜性,而進口的近紅外儀器設備基本上為通用型配置,在我國應用到中藥的復雜體系中遇到困難。要實現NIR中藥應用的技術上的突破,首先需要在NIR建模方法,特征信息提取、建模算法、模型驗證上取得技術的突破。

2 建模流程和方法

NIR光譜數據不能直接反映中藥的組分信息,需要把NIR光譜和可靠的化學測量結果結合起來通過建立定性和定量校正方程完成對待測組分信息的測量,即建立校準模型。NIR光譜分析的過程首先是用一定數量的校正數據(包括NIR數據和參考數據)建立一個模型;用驗證數據對所建模型進行評估;模型滿足要求以后可以對未知樣品進行預測;在模型使用過程中必須實時對模型監測,以便對模型進行及時維護。NIR光譜分析的流程如圖2所示。

圖2 近紅外光譜分析流程圖

2.1 用于模型建立的校正數據的獲取

在許多在線NIR應用于生產產品質量控制的例子中[37-38],用于建模的校正數據多來自生產:NIR光譜數據來自生產現場,而相應的參考數據來自實驗室的化學分析或色譜分析。因此需要注意的一個問題是,數據變化的空間范圍有多寬。因為建模主要是建立譜圖數據和參考數據的關聯關系。雖然不能說這種建立的數學關系模型不能反映一定的輸入輸出的機理關系,畢竟這種關系反映了一定的輸入輸出的機理,但基本上還是被認為是基于數據的經驗模型。因此其適用范圍能夠給出可信的準確預測的空間領域一般不能超出訓練數據的范圍。這和化工過程中基于三傳一反和相平衡的機理模型不同,機理模型一般適用范圍更廣。應用來自生產的數據作為建模的校正數據就存在一定的風險,即數據的變化范圍不夠寬。模型在實際應用中跑到可信空間之外的可能性就較大。這樣就帶來了3個需要考慮問題:需要關注校正數據的范圍和注意如何在多維空間中刻畫多維數據的范圍;實際使用時如何得知模型是在可信度范圍之內還是之外;什么時候需要對模型重新訓練和如何重新訓練以使模型能夠用于新的數據。后兩個問題在后面會詳細探討,這里對第一個問題再做進一步的闡述。

在實驗室中,經常通過實驗設計的方式取得建立模型用的校正數據。例如表3是某利用mid-IR測量結晶過程溶液濃度應用中產生校正數據的實驗設計。溫度的變化范圍是10~80℃,濃度的變化范圍是3~60g/L,因為這是實際使用中變量的變化范圍(實際上實際應用中范圍略小)。這里溫度變化6次,濃度變化15次,意味著配置6×15=90個已知濃度的標準溶液。這聽起來很多,但在數天到一個星期內就可做完。表中打“v”字符號的溶液樣品,不用于建模,只是用于模型的驗證。顯然,如果應用中溫度不變或變化不大,就不需要對溫度進行修正或只做很小的修正。這種產生數據的方式對于三組分(兩溶質和溶劑)無或有微小溫度變化,或雙組分即使有較大溫度變化比較容易。如果組分比較多,遺憾的是多數中藥的應用是多組分甚至不可數的組分,如何進行類似的實驗設計就需要探討,還沒有直接的答案。例如能否考慮只改變所關心的組分的組成進行實驗設計?

表3 配置標準溶液用于產生校準數據的實驗設計

不僅組分的濃度,而且溫度對NIR譜圖會有影響。因此如果NIR探頭處溫度波動而沒有溫度測量就需要注意。關于這個問題也有爭議,有人認為在線取的NIR光譜已經反映了溫度的變化。但是組成一般是在實驗室分析的,溫度一般為常數。這就有可能有這樣的問題:兩次測量濃度是一樣的,但由于兩次測量NIR處溫度不同,NIR光譜可能有差異。如果溫度也記錄了,在建模中就可以加以考慮[39]。

2.2 數據預處理

對數據包括NIR光譜和組成數據的初步分析和預處理主要是剔除異常數據,消除噪聲等。由于NIR在使用過程中儀器因素、測量環境以及人為因素等可能會造成異常樣本。樣本異常有兩種情況:一種光譜數據或參考值與真實值之間的顯著異常,另一種是光譜數據或參考值與樣本平均水平的差異。一般可以分為NIR光譜的異常和參考值異常。NIR光譜的異??梢灾苯佑^察光譜,也可以通過計算樣本之間的距離。識別光譜異常的方法有光譜殘差、馬氏距離、光譜峰異常;參考值異常的判斷方法主要有參考值絕對誤差的F統計檢驗和cook檢驗[40]。光譜殘差法是通過計算光譜殘差的F值,F值超出一定范圍的可能判斷為光譜異常;光譜的馬氏距離超過一定的閾值則判為異常樣本;計算光譜中的波長點對NIR模型的貢獻大小,該貢獻值越大說明對模型影響越大,如果該貢獻值顯著大于其他波長點的值,表明該波長點對模型不利,可認為是異常點。參考值絕對誤差的F檢驗,設定一個閾值,大于該值判為異常;參考值異常的cook檢驗即是考察cook距離和Leverage值的關系圖判斷,如果樣本的cook距離值和Leverage值都超過臨界值可以判斷樣本為異常值。

NIR光譜中不僅包含了物質吸收的信息還有儀器噪聲、背景信息以及其他雜散光信息。所以,有時還需要對NIR光譜進行預處理減少系統噪聲,校正基線平移和漂移現象,消除背景的干擾,分辨重疊峰,提高分辨率和靈敏度。NIR光譜預處理的方法有多種,包括平滑法(Norris平滑、Savitsky-Golay)、導數法(一階導數法、二階導數法)、散射效應校正(多元散射矯正MSC和標準正交變換SNV)、基線校正、小波變換、正交信號分解、數據增強算法等。平滑法減小隨機誤差和降低隨機噪聲;導數法可以消除基線平移,背景的干擾,分辨重疊峰,提高分辨率和靈敏度;散射效應校正用于消除樣品差異和顆粒造成的譜帶漂移現象;基線校正消除基線的偏移;小波變換對某一些特殊頻率噪聲、背景做濾波處理;正交信號分解用于剔除光譜數據中的壞點;數據增強算法可以改善數據的質量,得到更好的定性和定量模型。文獻研究表明各種方法各有優缺點,因此在建模過程中需要對其進行選擇,選擇過程中最好和建模步驟結合起來。

2.3 樣本的劃分

雖然基于數據的關聯因不需要機理模型常被認為是其優點,但也伴隨著一個缺點,就是外延性常常不能保證。因此用于建模的數據常常被分成兩組:訓練數據和驗證數據,前者用于對用數據進行訓練建立模型,而沒有用于建模的驗證數據將對模型進行驗證??紤]到數據是多維的,例如NIR光譜每組數據有數以千計的波數,如何將數據劃分成訓練數據和驗證數據就需要認真考慮。采用聚類分析技術對數據進行初步分類是較好的方法之一。例如WANG等[41-42]在利用生產數據建立產品質量軟儀表的研究中將146組數據聚類成7類,然后從各類中選取驗證數據,其余用于訓練數據,樣本多的類選取較多的數據作驗證,小的類選取較少的數據作驗證。如果某個類的數據樣本數遠遠大于其他類,還必須從中去掉一些數據(可以移除或用于驗證),否則模型可能會去傾向于代表數據樣本超多的類,而不能有效代表樣本較少的類。樣本分類還有許多其他的方法,例如,根據輸出的值的變化也可以對數據分類等。

在中藥NIR建模的文獻中,報道的有RS (random section)法、KS(Kennard-stone)法[43]、雙向算法(duplex)、SPXY法(sample set partitioning based on joint X-Y distances,SPXY)等,但需要指出的是可選的方法遠不止這些。RS法是從樣本中隨機選取一定數量的樣本作為校正集。丁海櫻等[44]在中藥粉末混合過程在線檢測的建模過程中利用RS法對189個樣品隨機分成校正集和驗證集。LI[45]、蔡紹松[46]和章順楠[47]等在NIR建模分析的時候,也采用了RS法將樣品劃分為校正集和驗證集。RS法適用于樣本數量較大的情況,樣本數量少時樣本的劃分可能分布不均,這樣校正集不足以代表整個樣品的性質,會影響到模型的泛化能力。KANG等[48]和WANG等[49]樣本數相對較少,采用KS法選取校正集樣本,KS法是通過計算所有樣本光譜之間的歐氏距離,依次從中選擇擁有最大最小距離的樣本作為校正集,直到達到校正集樣本要求數量。KS法考慮了光譜之間的距離劃分樣本,SPXY法則綜合考慮了NIR光譜間的歐氏距離和參考值之間的歐氏距離,再依次選擇具有最大最小距離的樣本作為校正集,直到滿足要求。ZHANG等[50]對金銀花提取液分析時用SPXY法劃分樣本。

2.4 特征波數的選取

在早期建立NIR或mid-IR組成預測模型過程中,經常使用特征峰的峰高或峰面積等作為輸入。特征峰的選取,即特征變量的選取是很有道理的,因為和輸出沒有關系的輸入變量包含在建模中會嚴重影響模型的性能,模型的泛化能力也會降低。在訓練數據樣本數一定的情況下,太多的輸入變量使數據在多維空間中更稀疏,因此負面影響模型的建立。輸入變量多,對于神經網絡模型來講就意味著更多的神經元的連接的權重需要決定,對模型不利。除了需要考慮有些輸入波數和輸出沒有關系的問題外,還需要考慮某些輸入變量之間也可能是相關的或非獨立的,而這也會對建模有負面影響。

減少輸入的方法有數據壓縮方法和特征波段選擇的方法。主元分析(principal component analysis,PCA)就是經常使用的數據維數壓技術,也有學者研究采用獨立元素進行數據壓縮[51]。但是利用PCA對數據進行壓縮雖然可以消除數據的相關性并大幅減小輸入數據的維數,原始NIR光譜中的和輸出無關的波數信息并沒有消除掉,而是仍然包含在選擇的主元中。所以更好的方法是特征變量或特征波段的選擇,在建立模型時不考慮那些和輸出沒有關系的波數。人為選擇的方法比較粗糙,更好的特征波段選擇的技術是自動選擇。這些方法包括間隔偏最小二乘法(iPLS),組合偏最小二乘法(SiPLS)、向后偏最小二乘法(BiPLS)、遺傳算法(GA)、無信息變量消除法(UVE)、退火算法、遺傳算法(GA)、隨機蛙跳法(random frog)、競爭自適應重加權采樣(CARS)等。因為選擇特征波段的根據是考察各個波段對輸出的貢獻,這些特征波段自動選擇的算法應該和建模算法聯合集成使用,換句話說選擇特征波段不是和建模分開的一個步驟,而是建模的一個集成部分。

這里選擇一個在NIR偏最小二乘(PLS)建立濃度預測模型時利用基因算法(GA)進行自動波數選擇的例子展示建模中的自動波段選擇的過程[52],其中GA是一個優化算法。該GA-PLS建模方法首先隨機選擇一個波數段的組合,選擇多少的波數段由用戶自己定義。一個波數段可以是臨近的數個波數組成,例如相鄰的6個波數作為一個波數段。在隨機選擇了一個波數段組合后,可利用所選擇的波數段建立PLS濃度預測模型,并利用一個定義的適應度函數對其性能進行評價,適應度函數是一個和預測誤差等有關系的一個評價模型性能優劣的函數。如法炮制,可以隨機選擇第二個波數段的組合,建立第二個PLS模型并用適應度函數對其進行評價。以此類推可以建立n個PLS預測模型,例如n=20,可由用戶定義。這n個模型稱為第一代種群(population),每個函數稱為一個染色體(chromosome),每個波數段成為基因(gene)。根據GA優化算法中優勝劣汰的原則,放棄適應度函數值較低的數個函數(例如10個),適應度高的函數帶入第二代。帶入第二代的函數經過一系列GA優化算法中的操作例如雜交(cross over)和變異(mutation)等產生一些新的函數,由此得到第二代種群。對第二代種群的函數進行適應度函數值評價,并再次利用優勝劣汰的原則將沒有淘汰的函數帶入第三代。這樣一直進行下去直到滿足停止條件。停止條件可以是多個,例如誤差再繼續下去不在減小,或達到了一個比較大的代數等,滿足之一即可停止。為保證結果,可以進行數次優化,查看是否得到相近的優化結果。作為示例[52],圖3顯示對一組谷氨酸在水溶液中的NIR數據利用GA-PLS進行波段選擇和建模,共運行了5次,當然每次產生很多模型選擇其中最好的,五次比較顯示,所選擇的特征波段相近,主要分布在1140~1192nm,1209~1237nm,1322~1385nm和1580~1791nm,屬于C-H的頻率范圍。事實上五次運行建立的模型的性能也差不多。

2.5 建模技術

NIR或mid-IR建模最常用的是偏最小二乘(partial least squares,PLS)。其他常用的線性建模技術還包括主元回歸(principal components regression,PCR)、多元線性回歸法(multi linear regression,MLR)等。最具代表性的非線性建模技術是BP(back propagation)人工神經網絡(ANN)。其他技術還包括支持向量機(support vector machines,SVM),有線性也有非線性的SVM建模技術。需要指出的是,對于接近線性的數據,應該采用線性模型,利用非線性的建模技術反而不如線性的方法。一個有趣的例子是被引用近200次的一篇論文[53],利用BP神經網絡建立流化催化裂化的故障診斷模型。作者利用20多組數據考察了不同BP神經網絡結構包括隱含層神經元個數對模型預測誤差的影響。其實對于這組數據用一個簡單的矩陣模型(當然是線性且沒有隱含層、也沒有類似于神經網絡的傳遞函數)就可以得到對每組數據誤差均為零的模擬結果。這是因為作者并沒有意識到這20多組數據是完全線性的,要想利用BP神經網絡模擬這組數據對每組數據得到接近零的誤差,需要無窮多個傳遞函數的疊加。這組20多組數據是人為根據故障的邏輯關系造出的,不是工廠或模擬產生的數據。產生數據的邏輯關系本身是描述的線性關系。除了線性和非線性外,具體建模技術的選擇也很重要。例如,上節提到的利用GA-PLS建模技術預測溶液濃度的例子[52],用同樣方法建立預測晶體粒度(尺寸)模型時,就得不到理想的預測結果。MA和WANG[35]利用GA-SVM,用遺傳算法進行波段選擇用支持向量機進行建模,不僅得到了略好于GA-PLS的濃度預測模型,還得到了滿意的顆粒粒度的預測模型。這充分說明建模技術的重 要性。

圖3 利用遺傳算法(GA) - PLS進行特征波段自動選擇和建模[52]

對于一個具體的應用,選擇哪種特征波段選擇技術和哪種建模技術相結合才能得到理想的模型并沒有明確的規則可以遵循。比較實用的方法是各種波數選擇方法和各種建模技術進行匹配,輔助以有效的模型性能驗證方法,最終選擇最理想的模型。這聽起來工作量有些大,但是只要各種工具能夠集成起來,在數據管理和流動上自如,考慮到現代計算機的計算速度,這個建模策略是完全可行的。

2.6 模型評價

2.6.1 一般的評價方法

NIR模型的評價一般需要綜合考慮訓練數據的擬合和驗證數據的預測效果。常用的評價參數有相關系數(R)公式(1)和均方根誤差(root mean square error,RMSE)公式(2)。

式中,c為樣本參考值,cμ1為模型預測值,c1為樣本均值,m和n分別為預測集樣本個數和訓練集樣本個數。

另外,為了有效評估模型的預測能力,需要在樣本數據中選出一部分數據作為測試數據,利用測試數據的預測結果來評價模型對于未知樣品的預測能力。由于不同測試數據計算出的模型預測誤差有較大的差別,所以化學計量學中經常使用多次重復選擇不同的測試數據來綜合評價模型的預測結果,即交叉驗證(cross validation,CV)法。常用的交叉驗證的方法有留一交叉驗證、K折交叉驗證和蒙特卡洛交叉驗證等。

留一交叉驗證是每次留出一個樣本用于測試,用其余的樣本建立模型,如此重復,直到每個樣本均被預測一次為止。這種方法的優點是計算結果具有良好的一致性,缺點為計算量大,尤其是在樣本個數較多的時候,另外留一交叉驗證的結果對模型未知樣本的預測可能有較為樂觀的估計。K折交叉驗證法先將樣本分為K組(5組或10組),然后每次去掉一組,用其余的K?1組樣本建模,直到每組樣本均被預測一次。這種方法有效減少了計算量,同時對模型的預測結果也有較好的估計,缺點是由于隨機分組的存在,每次計算結果的一致性較差。蒙特卡洛交叉驗證是利用蒙特卡洛隨機取樣技術,大量重復隨機取樣計算,其結果對模型的預測能力有較好的估計,缺點是計算量大。

2.6.2 其他需要考慮的因素

模型的建立應盡量避免過擬合。如果模型描述了噪聲或隨機誤差,而不是輸入變量和輸出變量的深層關系,就稱為過擬合[54]。如果建立的模型高度復雜,相對于建模數據的數量模型參數非常多就容易造成過擬合。過擬合的模型外延性差。一般情況下模型參數少,選擇的特征變量少,且對建模數據擬合滿意的模型不容易產生過擬合,外延性較好。

模型的預測可信度也是一個在NIR實際應用中普遍關心的問題。有的學者開發了模型的可信度區間的計算方法[55],在實際中也很有用。一般情況下,如果數據落入訓練數據的多維區間內,預測誤差是可以保證的。如果數據跑到訓練數據包含的空間之外,預測結果就不能保證。這同時帶來了另外一個問題,那就是什么時候對模型需要重新訓練,以及如何重新訓練(比如需要拋棄原來的數據,全部用新數據訓練模型,還是把新舊數據混在一起訓練?)。理想的方法是采用遞歸學習的方法,每當有新數據進來時,自動改進模型——對模型在考慮了新的數據后進行修正,而不需要和以前的數據一起訓練。例如神經網絡模型ART2采用的就是這種學習模式[56-57]。雖然遞歸學習方式非常誘人,但多數建模方法(PLS、神經網絡、支持向量機等)并不支持這種學習的模式。

表4總結了NIR光譜技術在中藥質量控制應用中建模技術的研究。在其他行業例如在食品等的應用也發展迅速。KAWANO等[71-72]運用NIR光譜技術測量了桃子和柑橘中的糖含量,而且報道了一種水果自動分類方法。何東健等[73]比較了在線式反射光測定法、不完全遮光型透過光測定法、完全遮光型透過光測定法3種NIR測量方法在線檢測蘋果和橘子中糖度、酸度、內部褐變,結果顯示糖度和酸度的相關系數分別大于0.95和0.85,能夠滿足在線檢測水果內部品質的要求。何勇等[74]采集蘋果的NIR光譜利用PCA方法對其品種聚類分析,再結合人工神經網絡技術鑒別蘋果品種。利用PCA分析的載荷圖選取特征波段,建立BP人工神經網絡模型,分為訓練和預測兩組,其結果顯示識別的準確率達到100%,為蘋果品種的鑒定提供了一種新方法。

NIR光譜技術在食品行業中除了定性、定量的分析外還可以用于食物結構的確定,BRUUN等[75]運用NIR光譜技術在線監測麩質蛋白的結構、麩質粉增加水分含量和熱處理時的相互作用的變化。光譜的預處理方法采用二階導數法和光譜信號校正,提高分辨率。然后分別用PCA和PLS分類和建立回歸模型,結果表明NIR光譜能夠體現麩質蛋白結構的變化。NIR光譜還用在食品的生產過程中,比如WU等[76]就在線采集了中國米酒發酵過程的NIR光譜,檢測發酵過程質量參數。采用了不同的變量選擇方法、支持向量機算法提高PLS模型性能,總共建立了10種不同的校正模型。該文章表明變量選擇后的波段建模優于全波段建模,對發酵過程參數乙醇含量和總酸含量的預測非線性模型優于線性模型,GA-SVM模型有最好的預測準確性。NIR光譜還廣泛運用在煙草行業中,除了測定煙草中水分的含量[77],張建平等[78]用主成份回歸和神經網絡等方法建立NIR光譜和成分含量的數學模型對煙草中煙堿、總糖、總氮、還原糖、氯等化學成分定量分析;王東丹等[79]選取300個煙草樣品建立了測量總糖、還原糖、尼古丁、總氮的數學模型,并得到良好的預測結果,4種成分含量預測模型的NIR預測值與分析值之間的平均相對誤差都小于5%。NIR光譜技術在食品行業的成功發展必然決定其也能在中藥行業中廣泛應用。中藥和食品在某種程度上是一致的,需要檢測測定成分的含量,只是有些中藥是多種藥材的配方,其成分更加復雜,NIR在中藥中的應用面臨更大的挑戰,但在科研工作者的不懈努力中已經取得了較大的突破。

表4 近紅外光譜在中藥質量控制中應用的建模

3 數據預處理和建模算法

3.1 數據預處理算法

3.1.1 平滑算法

平滑算法是一種低通濾波器,通過消除信號中的高頻部分來降低信號中的噪聲。常用的平滑算法主要有移動窗口平均算法和SG算法等[80]。采用移動窗口平均算法,其結果會丟失邊界點信息;另外移動窗口寬度是一個需要恰當設定的重要參數。移動窗口過小不能顯著減少噪聲,過大又會對波譜波峰平滑太多,造成部分失真。為此Savitzky-Golay在60年代提出了SG平滑算法,至今仍在波譜預處理中廣泛使用。類似于移動窗口平滑算法的思想,對應于使用簡單的平均,Savitzky-Golay卷積平滑算法利用多項式來對移動窗口內的數據進行多項式最小二乘擬合,其實質是一種加權平均法,更強調中心點的作用。在使用Savitzky-Golay卷積平滑法時,應注意移動窗口寬度及多項式次數的優化選擇。

3.1.2 導數算法

導數算法是將光譜吸光度數據對波長(或波數)變量進行求導運算,用來消除光譜數據中不重要的基線漂移。它是一種高通濾波器,通過消除信號中的低頻部分來消除基線或漂移的。常用的光譜求導方法有直接差分法和Savitzky-Golay求導法[80]。對于離散波譜求導,直接差分法是最簡單的一種方法。但直接差分法也存在一些缺點,即對于高頻采樣的波譜的求導結果與實際相差不大,對于低頻采樣波譜的求導結果誤差較大。對此,可采用Savitzky-Golay卷積求導法計算。Savitzky-Golay卷積平滑法除了可以用于平滑外也可用于求取導數,在最小二乘可計算得到與平滑系數相似的導數系數之后,可通過查表得到求導權重系數。導數算法可以有效地消除波譜數據中的基線或偏移,另外,合適的求導階數可以分辨多組分的重疊峰。與此同時,導數運算也會增大數據噪聲,降低有效信號的信噪比。在實際使用時需要優化選擇合適的參數。SHAO 等[81]提出了連續小波變換的方法,在噪聲信號分析中得到了較好的求導結果。

3.1.3 標準化算法

標準化算法主要用于消除固體顆粒分布不均、表面散射以及光程變化對NIR漫反射光譜的影響[82]。最簡單的標準化方法是每個光譜的平方和為1,即每個光譜都是單位長度。常用的標準化算法主要有多元散射校正(MSC)和標準正態變量(SNV),詳細的算法在文獻中有說明。在實際運用中,MSC 和SNV很多時候都產生相似的結果,一般選出較優結果的預處理方法。另外,在使用SNV算法時,如果將光譜進行lg1/R轉換后,會有較好的效果。

3.1.4 主元分析

主元分析(PCA)算法通過變量間的線性組合來降低變量維數。主成分之間是相互正交的,能夠有效地消除多重變量之間的共線性。由于NIR光譜相鄰波長范圍內的吸光度有很強的相關性,利用PCA算法可以有效降低變量空間維數。另外,PCA算法也常用于鑒別與分類。主元個數的選擇有各種方法,文獻[83]對各種方法進行了綜述。

3.1.5 數據增強算法

由于待測物在NIR譜帶區間內的絕對吸收強弱不同,在建立多元校正模型時,將光譜的相對變化值與目標函數(如待測物含量)進行關聯就顯得十分必要。因此,在建立NIR定量或定性模型時,采用一些數據增強算法(data enhancement)[84]來消除多余信息,增加樣品間的差異,而提高模型的穩健性和預測能力。常用的算法有均值中心化(mean centering)、標準化(autoscaling)和歸一化(normalization)等,其中均值中心化和標準化是最常用的兩種方法,在用這兩種方法對光譜數據進行處理的同時,往往對目標函數(性質或組成數據)也進行同樣的變換。

3.2 變量選擇算法

3.2.1 變量投影重要性

變量投影重要性(VIP)[85-86]是基于偏最小二乘回歸的一種變量篩選方法,當多個自變量間具有較強相關性時,它通過相關自變量綜合的主成分描述了自變量對因變量的解釋能力,并根據解釋能力的大小篩選自變量。VIP值代表自變量對模型擬合的重要程度,如果各自變量對y的解釋作用都相同,則所有自變量的VIP值均為1。如果某自變量回歸系數和VIP均較小,意味著該變量對模型的貢獻很小,可以考慮剔除。對于VIP相對很大的自變量,它對y的貢獻就特別重要。一般取1作為變量篩選的閥值,其他閥值也被提出[87]。

3.2.2 無信息變量消除

無信息變量消除(UVE)是CENTNER等[88]提出的一種基于PLS回歸系數b建立的變量選擇方法。其基本原理為在原始光譜之后加上人工白噪聲信號,再根據噪聲信號的重要性確定一閥值,然后將信號中低于此閥值的變量刪除,其余變量保留。UVE方法考慮了樣本變化對模型的影響,通過加入人工噪聲用于變量的選擇。近些年,通過引入蒙特卡洛技術[89],發展蒙特卡洛無信息變量消除法[90]。

3.2.3 間隔偏最小二乘法

間隔偏最小二乘(IPLS)法[91]將光譜分為均勻連續波段,然后利用不同波段組合建立偏最小二乘回歸模型,并記錄模型的預測誤差,最后取誤差最小組合的波段。IPLS的優點為選擇連續的波段而非單個波長進行建模,化學解釋性好。此方法的缺點在于難于確定合適的間隔寬度,為此,JIANG與KASEMSUMRAN等[92-93]提出移動窗口偏最小二乘方法(MWPLS)。MWPLS方法采用移動窗口技術,對每個波段進行建模從而選取較低預測誤差的波段。

3.2.4 全局最優算法

變量選擇可以看作是組合優化問題,因此可以采用優化算法進行解析。目前,全局優化算法包括遺傳算法[94-95]、模擬退火算法、粒子群算法、差分進化算法等在變量選擇領域得到了較為廣泛的應用,這類方法的主要思路為通過一預先設定的目標函數(如預測誤差)對在變量空間進行搜索,試圖找到最優的變量子集。在上文3.4節中介紹了利用GA-PLS和GA-SVM成功建模的例子,這里不再重復。

3.2.5 模型集群分析變量選擇算法

在數據較少的情況下,現有變量選擇算法結果容易受樣本和變量變化的影響。為了提高模型變量的穩定性與泛化能力,模型集群方法(MPA)被用于優化變量方法。LI等[96]提出了競爭自適應重加權釆樣(competitive adaptive reweighted sampling,CARS)方法和XU等[97]提出隨機青蛙(random frog)算法。模型集群分析的基本思想為利用蒙特卡洛采樣技術,從原始數據中對樣本或者變量進行采樣,進而得到多個子數據集(sub-dataset),繼對每一個子數據集建立子模型(sub-model),從而形成由多個模型構成的模型群(model population),若對這些模型進行統計分析,便可得到感興趣的參數(如變量重要性)的經驗分布。CARS變量選擇方法是模仿達爾文進化理論中的“適者生存”原則,在每個迭代步驟中,通過①強制刪除,與②自適應重加權采樣兩個步驟去掉權重較小的變量,得到相應步驟的變量子集,如此迭代,直至變量集中僅含有兩個變量為止。然后利用MPA的思想,采取樣本隨機分組的方法,計算每個變量子集的交互檢驗誤差(RMSECV)的分布,最后選擇具有最低平均RMSECV的變量子集作為CARS方法選擇的變量集。隨機青蛙算法是基于大量序貫采樣得到的子模型,計算出每個變量的選擇頻率,用于評價變量的重要性。另外,隨機青蛙算法提供的是一種變量選擇思路,可以與回歸模型結合做定量分析的變量選擇,亦可以與判別模型結合做分類分析。

3.3 建模算法

3.3.1 主元回歸

主元回歸(PCR)是在主元分析的基礎上提出的,是線性回歸的一種方法。對于光譜數據,在對光譜數據矩陣進行主元分析(PCA)之后,選定合適的主元個數,然后對主成分和因變量(組成含量)建立回歸模型。PCR在NIR光譜分析中得到了廣泛的應用[98]。然而,由于在主元分析未考慮因變量的影響,因此,參與建模的主成分對于目標組分有可能是干擾信息,就會降低預測的準確度??紤]到這個因素,偏最小二乘方法是一種更好的方法。

3.3.2 偏最小二乘回歸

偏最小二乘回歸(PLS)不僅考慮了輸入變量(光譜數據)矩陣,而且也考慮了輸出變量(組分濃度)矩陣。PLS算法同時壓縮輸入和輸出矩陣,并使其相互正交。也就是說,PLS模型引入了輸入變量和輸出變量之間的相互關系,其參與建模的主成分消除了不相關的干擾信息。PLS算法在化學計量學[80]中被詳細的描述,是目前使用最普遍的NIR和mid-IR建模技術。PLS用于中藥組成的NIR光譜分析也被廣泛報道,例如黃亞偉等[99]將PLS成功用于NIR光譜測定人參與西洋參的主要皂甙總量,YAN等[31]將PLS算法用于刺梨木多糖組成的測定,劉全等[100]利用PLS算法建立滲漉提取過程分析的中藥有效組分NIR光譜快速測定模型。

3.3.3 人工神經網絡

人工神經網絡(ANN)[101]是基于生物神經元信息傳遞和處理方式建立的非線性計算模型,主要由神經元通過節點連接,主要包括輸入層、輸出層和隱藏層三部分。ANN具有自適應、自組織、高度非線性和實時學習等特點[91]。因此,在NIR光譜定量分析中也得到了廣泛的應用,楊南林等[64]將ANN、PCR和PLSR等校正方法結合NIR光譜用于冬蟲夏草中甘露醇含量的測定,結果表明ANN模型取得了最好的預測結果。LAI等[62]采用ANN和NIR光譜對兩類延胡索樣品進行了分類建模,取得了較好的預測結果。但是,ANN也存在一定的局限性,例如,在訓練中如果使用不當容易產生過擬合現象,導致模型的預測能力降低等。

3.3.4 支持向量回歸

支持向量回歸(SVR)是支持向量機(support vector machine,SVM)算法中的一類,其基本思想是首先通過核函數將原始數據轉化到高維特征空間,然后在高維空間進行線性回歸。通過映射,原始空間的非線性問題轉化為線性問題。SVR特別適合于樣本量少、維數高的非線性問題。目前,支持向量機回歸在NIR光譜模式識別和模型校正中得到了廣泛的應用。LAI等[62]采用ANN和SVM分別用于NIR光譜對兩類延胡索樣品的分類建模應用,結果表明,SVM有更好的應用效果。瞿海斌等[63]分別利用SVM、PLS和ANN算法對中藥材三七提取液NIR光譜建模,結果表明SVM有更好的回歸效果。WANG等[35]結合遺傳算法和支持向量機開發的NIR化學計量學建模方法可用同一張譜圖同時準確預測結晶過程溶液濃度和顆粒粒度。

4 應用示例

綜上所述,NIR建模是一個復雜的過程,要想得到質量好的模型需要不斷的重復、驗證、分析。模型質量的優劣受多種因素的影響,包括建模所用數據的質量(范圍、可靠性等)以及數量、數據的預處理、特征波段選擇和建模方法的選取,以及模型的驗證和評價等。每一步都至關重要,例如NIR模型校正的實驗室化學測量方法的準確度和精密度無疑會對模型有最直接的影響。下面結合一個中藥混合物中某成分A的含量的實際應用示例來進一步論述建模過程。

NIR數據總共72組,A的參考值由實驗室化學分析方法得到。NIR儀器采用透反射式探頭測量數據,采樣波數范圍為10000~4000cm?1,圖4是72組數據的NIR光譜圖。

由圖4可知,NIR在7500~4000cm?1范圍內吸收比較明顯,在7500~10000cm?1范圍內較為平緩。因為混合物中其他成分吸收峰的影響A的特征吸收峰并不明顯。后面經不同的變量選擇方法的結果對比之后可以發現,A的有效特征吸收峰在7500~10000cm?1之間,從放大之后的光譜圖中可以看到還是有明顯的趨勢,而不是平緩的。

圖4 某中藥混合物的NIR光譜圖

在建模之前首先要考慮收到樣品數據中是否包含有異常數據。從圖4中并沒有發現明顯的異常光譜。進一步的分析是對NIR原始光譜圖做PCA數據壓縮,繪制PC1-PC2圖,見圖5(a)。還對原始光譜進行一階求導預處理之后,再做PCA數據壓縮,也繪制了PC1-PC2圖,見圖5(b)。繪制圖5(a)和(b)的目的是對譜圖數據在多維空間里的分布情況進行一定的了解。結合原始數據的分析沒有發現異常數據,雖然部分數據在95%線以外,如圖5(a)中的32、45、57、69、71。

圖5 近紅外光譜的主元分析

NIR光譜受多種因素的干擾,在建模以前先要進行光譜的預處理。一般預處理的步驟為去噪-基線校正數據增強。不同波數對應的NIR光譜的絕對吸收強度不同,建模一般考慮光譜的相對吸收度,所以需要在建模前對每個波數下的光譜進行增強,最常用的增強方法為標量化(AutoScale)?;€校正雖然不同的方法有不同的功能,在實際使用時還是需要對比不同方法的建模效果。理論上,數據預處理的方法的選擇應該和變量選擇方法、建模方法一起排列組合進行,然后選擇最優的組合。為方便起見,只是將預處理方法結合PLS建模進行數據預處理方法的選擇。表5給出了不同基線校正方法的結果對比,結果表明利用Detrend(offset)方法的效果最好。在此基礎上對比不同去噪方法及移動窗口的大小對模型的影響(表6和表7),結果表明移動窗口大小為5的一階求導去噪效果最好。實際上,在一階求導也具有基線校正的功能,而且與Detrend (offset)算法的效果一致,所以最后確定的建模過程中選用的光譜預處理方法為5點一階導數和標量化(AutoScale)算法。

對樣品數據分為訓練數據和驗證數據時應考慮采樣數據的均勻性。這里用SPXY方法將72組數據分為了訓練數據(55組)和驗證數據(17組),以之前確定的預處理方法預處理光譜。對比考察的變量選擇方法有VIP、MCUVE、CARS、random frog、GA、iPLS、MWPLS,均結合偏最小二乘(PLS)建模,其結果見表8。需要指出的是,所有這些特征波段自動選擇的方法還和BP神經網絡、支持向量機等建模方法進行了建??疾?,結果不如和PLS建模更好,由于篇幅所限,所以這里僅討論PLS建模的結果。

雖然結果顯示GA特征波段選擇的交叉驗證結果較好,可是它的測試數據的相關系數R2較小以及預測均方根誤差RMSEP較大,模型的預測效果一般,主要表現在超過5%誤差的數據較多。另外,CARS方法的結果也出現了同樣的問題,即交叉驗證的結果較好,但是對于驗證數據的預測結果卻不理想。通過仔細分析CARS和GA這兩種方法選擇出來的特征波段發現,他們在1400~1600個變量之間(也就是波數4500~4000cm?1)選擇了過多的變量,而這部分光譜包含的噪聲較多。這使得CARS 和GA出現了過擬合現象。

表5 不同基線校正方法對比

表6 平滑對建模的影響

表7 一階導數對建模的影響

事實上,random frog較其他算法可以更顯著地降低模型對驗證數據的預測誤差,其方法選擇的變量如圖6所示。從建模結果(圖7)中可以得知該方法下的相對誤差超過5%的數據點很少,表明這種變量選擇方法較好。另外,由于random frog選擇了更少的波段,外延應用效果應該更好,這符合一般波段選擇和模型建立的規律,即選擇最少的特征波段(引入噪聲和無關波段的可能性減少),且誤差小的模型往往具有更優秀的預測性能。

表8 分組后變量選擇對模型的影響

圖6 random frog變量選擇方法最終選擇的變量

圖7 random frog 結合PLS建模結果

總之,在對A的含量NIR建模的過程中,主要考慮了數據預處理、變量選擇對建模結果的影響。其中預處理方法主要包括正基線平移和漂移(Detrend、MSC、Baseline、SNV),不同移動窗口下的光滑(smoothing)和一階求導等。變量選擇方法主要包括全波段、VIP算法、MCUVE算法、CARS算法、random frog算法、遺傳算法(GA)、間隔PLS算法(IPLS)以及移動窗口PLS算法(MWPLS)等。結果表明,恰當的光譜預處理方法和變量選擇方法可以有效的降低模型的預測誤差,提高模型的魯棒性。另外,NIR光譜中存在的部分波段(波數4500~4000)高頻噪聲比較多,這使得利用全局尋優算法的遺傳算法出現了過擬合問題。在選擇變量前因注意刪除信息量少噪聲多的波段。

5 總結與展望

NIR光譜技術具有測量速度快、準確度高和儀器簡單方便的特點,在食品、石油化工、生物和制藥等各個領域得到了廣泛的應用。NIR是目前制藥領域應用最為廣泛的過程分析技術(PAT),但是在其應用到中藥行業時,包括中藥保健品領域,有成功也有不成功的例子。中藥組成復雜,和化學藥相比其生產加工過程具有特殊性,對NIR的成功應用,尤其是化學計量學建模,提出了挑戰。本文綜述了建立高質量預測模型的方法和步驟,并結合具體事例闡述了用于建模的數據的收集、數據預處理、特征波段選擇、各種建模技術以及模型的評估等。還論述了模型的過擬合的概念、模型的外延性、預測可信度空間的刻畫、模型再訓練等。重點強調了建立高質量模型是一個復雜的,需要在各步驟上經過許多反復的過程。盡管如此,由于現代計算機的高計算速度,只要實現數據流的有效管理、共享和工具的有效集成,隨著經驗的積累和技術的進步,建模將來完全可以成為一個內部系統高度智能、使用起來高度簡單的傻瓜式工具。建模也應該變成一個高度成熟以及在許多步驟上高度自動化的過程,為中藥制造業的現代化作出巨大貢獻。本文綜述的主要是建立定量預測模型的方法,例如用于預測組分組成。但是,還可利用產品的NIR光譜分析原料的產地,例如WANG等[56]根據潤滑油的譜圖能夠正確的推斷原油的來源地,其他應用比如判斷原料產地或產品的真偽等。此外,也可以直接利用原始NIR譜圖或經過處理的譜圖直接用于開發多變量質量控制系統(MSPC,multivariate statistical process control)[102-103]。MSPC把歷史記錄的NIR光譜數據或NIR加其他過程測量數據轉換計算成T2和SPE兩個控制指標并設立統計控制上限,例如97%。如果實時測量數據超出了T2和SPE,就存在97%的可能性操作出問題了。這也是一個非常有潛力的發揮NIR在線測量方法,但文獻還很少,應用也還沒有得到足夠重視。

參 考 文 獻

[1] 王芳. 高效液相色譜在中藥研究中的應用進展[J]. 現代中藥研究與實踐,2002,16(3):44-46.

[2] 王鋼力,田金改. X-射線衍射分析法在中藥分析中的應用[J]. 中國中藥雜志,1999,24(7):387-389.

[3] 易昌華,賀建華. 紫外分光光度法測定中草藥提取物中綠原酸的含量[J]. 獸藥與飼料添加劑,2004(1):24-25.

[4] 陸德勝,劉翠英,陸英洲. 還原滴定法測定食用菌中多糖的研究[J]. 中國衛生檢驗雜志,1999(4):260-262.

[5] FDA. Guidance for Industry. PAT——a framework for innovative pharmaceutical development,manufacturing,and quality assurance[EB/OL].http://www.fda.gov/downloads/Drugs//Guidances /ucm070305pdf.

[6] FDA. Pharmaceutical CGMPS for the 21st century - a risk - based approach[EB/OL]. http://www.fda.gov/downloads/Drugs/Development Approval Process/Manufacturing/Questions and Answers on Current Good Manufacturing Practices cGMP for Drugs/UCM176374pdf.

[7] CHALMERS J M. Spectroscopy in process analysis[M]. US:Taylor & Francis,2000.

[8] 成忠,諸愛士,張立慶. 核分段逆回歸集成線性判別分析用于質譜數據分類[J]. 分析化學,2008(12):1657-1661.

[9] 方利民,林敏. 基于獨立分量和神經網絡的近紅外多組分分析方法[J]. 分析化學,2008,36(6):815-818.

[10] 褚小立,許育鵬,陸婉珍. 用于近紅外光譜分析的化學計量學方法研究與應用進展[J]. 分析化學,2008,36(5):702-709.

[11] 周文婷,林萍,王海霞,等. 近紅外光譜技術在中藥領域質量評價中的應用[J]. 湖北農業科學,2014(14):3231-3236.

[12] 李洋,吳志生,潘曉寧,等.在線近紅外光譜在我國中藥研究和生產中應用現狀與展望[J]. 光譜學與光譜分析,2014,34(10):2632-2638.

[13] CHAO Z,SU J. Application of near infrared spectroscopy to the analysis and fast quality assessment of traditional Chinese medicinal products[J]. Acta Pharmaceutica Sinica B,2014,4(3):182-192.

[14] 辛海量,胡園,張巧艷,等. 4種牡荊屬植物來源生藥的近紅外漫反射指紋圖譜聚類分析[J]. 時珍國醫國藥,2008,19(12):3037-3038.

[15] 吳擁軍,李偉,相秉仁,等. 近紅外光譜技術用于白芷類中藥的鑒定研究[J]. 中藥材,2001,24(1):26-28.

[16] LU J,XIANG B,LIU H,et al. Application of two-dimensional near-infrared correlation spectroscopy to the discrimination of Chinese herbal medicine of different geographic regions[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2008,69(2):580–586.

[17] LI W,XING L,CAI Y,et al. Classification and quantification analysis of Radix scutellariae from different origins with near infrareddiffusereflectionspectroscopy[J].Vibrational Spectroscopy,2011,55(1):58-64.

[18] MENG Y,WANG S,CAI R,et al. Discrimination and content analysis of fritillaria using near infrared spectroscopy[J]. Journal of Analytical Methods in Chemistry,2015,2015(1):101-124.

[19] 趙龍蓮,張錄達,李軍會,等. 小波包熵和Fisher判別在近紅外光譜法鑒別中藥大黃真偽中的應用[J]. 光譜學與光譜分析,2008,28(4):817-820.

[20] CHAN C O,CHU C C,CHAU F T,et al. Analysis of berberine and total alkaloid content in Cortex Phellodendri by near infrared spectroscopy (NIRS) compared with high-performance liquid chromatography coupled with ultra-visible spectrometric detection[J]. Analytica Chimica Acta,2007,592(2):121-131.

[21] ROGGO Y,CHALUS P,MAURER L,et al. A review of near infrared spectroscopy and chemometrics in pharmaceutical technologies[J]. Journal of Pharmaceutical and Biomedical Analysis,2007,44(3):683-700.

[22] VERMERRIS W,ABRIL A. Enhancing cellulose utilization for fuels and chemicals by genetic modification of plant cell wall architecture[J]. Current Opinion in Biotechnology,2015,32:104-112.

[23] WU Y,JIN Y,DING H,et al. In-line monitoring of extraction process of scutellarein from Erigeron breviscapus (vant.) Hand-Mazz based on qualitative and quantitative uses of near-infrared spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(5):934-939. [24] RAY A,SAYKHEDAR S,AYOUBI-CANAAN P,et al. Phanerochaete chrysosporium produces a diverse array of extracellular enzymes when grown on sorghum[J]. Applied Microbiology and Biotechnology,2012,93(5):2075-2089.

[25] YE J,DING H,LIU X,et al. Investigation of an on-line detection method combining near infrared spectroscopy with local partial least squares regression for the elution process of sodium aescinate[J]. Spectrochimica Acta Part a:Molecular & Biomolecular Spectroscopy,2013,109(4):68-78.

[26] ZENG S,TENG C,LU W,et al. Monitoring batch-to-batch reproducibility using direct analysis in real time mass spectrometry and multivariate analysis:a case study on precipitation[J]. Journal of Pharmaceutical & Biomedical Analysis,2013,76(6):87-95.

[27] MIYANO T,KANO M,TANABE H,et al. Spectral fluctuation dividing for efficient wavenumber selection:application to estimation of water and drug content in granules using near infrared spectroscopy[J]. International Journal of Pharmaceutics,2014,475(s1/s2):504-513.

[28] Howland H,HOAG S W. Analysis of curing of a sustained release coating formulation by application of NIR spectroscopy to monitor changes physical–mechanical properties[J]. International Journal of Pharmaceutics,2013,452(s1/s2):82-91.

[29] PESTIEAU A,KRIER F,THOORENS G,et al. Towards a real time release approach for manufacturing tablets using NIRspectroscopy[J]. Journal of Pharmaceutical & Biomedical Analysis,2014,98(10):60-67.

[30] MOU H,WANG X,LV T,et al. On-line dissolution determination of Baicalin in solid dispersion based on near infrared spectroscopy and circulation dissolution system[J]. Chemometrics & Intelligent Laboratory Systems,2011,105(1):38-42.

[31] YAN H,HAN B X,WU Q Y,et al. Rapid detection of Rosa laevigata polysaccharide content by near-infrared spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2011,79(1):179-184.

[32] 劉冰,劉振堯,朱乾華,等. 近紅外光譜法同時測定黃芪精口服液中黃芪多糖和黃芪甲苷的含量[J]. 分析科學學報,2011(2):195-198.

[33] JIN Y,DING H,LIU X,et al. Investigation of an on-line detection method combining near infrared spectroscopy with local partial least squares regression for the elution process of sodium aescinate[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2013,109:68-78.

[34] 白雁,龔海燕,宋瑞麗,等. 近紅外漫反射光譜法快速測定山藥藥材中多糖的含量[J]. 中成藥,2010(1):110-112.

[35] MA C Y,WANG X Z. Simultaneous characterization of multiple properties of solid and liquid phases in crystallization processes using NIR[J]. Particuology,2011,9(6):589-597.

[36] CHEN J,WANG X Z. A new approach to near-infrared spectral data analysis using independent component analysis[J]. Journal of Chemical Information and Computer Sciences,2001,41(4):992-1001.

[37] 楊麗,李菁,劉翠紅,等. AOTF 近紅外光譜技術在淫羊藿濃縮過程在線檢測中的應用[J]. 中國醫藥導報,2014,11(24):1111-1114.

[38] 許定舟,李菁,劉翠紅,等. AOTF 近紅外光譜技術在淫羊藿提取過程在線檢測中的應用[J]. 中國當代醫藥,2014,21(23):4-10.

[39] CHEN Z P,MORRIS J,MARTIN E. Correction of temperature induced spectral variations by loading space standardization[J]. Analytical Chemistry,2005,77(5):1376-1384.

[40] 閔順耕,李寧,張明祥. 近紅外光譜分析中異常值的判別與定量模型優化[J]. 光譜學與光譜分析,2004,24(10):1205-1209.

[41] CHEN F Z,WANG X Z. Software sensor design using Bayesian automatic classification and back-propagation neural networks[J]. Industrial & Engineering Chemistry Research,1998,37(10):3985-3991.

[42] WANG X Z. Data mining and knowledge discovery for process monitoring and control[M]. London,New York:Springer,1999.

[43] KENNARD R W,STONE L A. Computer aided design of experiments[J]. Technometrics,1969,11(1):137-148.

[44] DING H Y,JIN Y,LIU X S,et al. On-line monitoring of traditional Chinese medicinal powder blending process by using near-infrared spectroscopy[J]. Chinese Pharmaceutical Journal,2013,48(14):1151-1156

[45] LI W L,WANG Y F,QU H B. Near infrared spectroscopy as a tool for the rapid analysis of the Honeysuckle extracts[J]. Vibrational Spectroscopy,2012,62(9):159-164.

[46] 蔡紹松,武衛紅,王寧,等. 黃芪水提液濃縮過程的AOTF-近紅外光譜法在線分析[J]. 中國醫藥工業雜志,2008,39(7):527-529.

[47] 章順楠,楊海雷,劉占強,等. 近紅外光譜法在線監測復方丹參滴丸料液中有效成分含量[J]. 藥物分析雜志,2009(2):192-196.

[48] KANG Q,RU Q,LIU Y,et al. On-line monitoring the extract process of Fu-fang Shuanghua oral solution using near infrared spectroscopy and different PLS algorithms[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2015,152:431-437.

[49] WANG M,ZHENG K,YANGG,et al. A robust near-infrared calibration model for the determination of chlorophyll concentration in tree leaves with a calibration transfer method[J]. Analytical Letters,2015,48(11):1707-1719.

[50] ZHANG C H,YUN Y H,FAN W,et al. Rapid analysis of polysaccharides contents in Glycyrrhiza by near infrared spectroscopy and chemometrics[J]. International Journal Of Biological Macromolecules,2015,79:983-987.

[51] LI R F,WANG X Z. Dimension reduction of process dynamic trends using independent component analysis[J]. Computers & Chemical Engineering,2002,26(3):467-473.

[52] LI R F,WANG X Z,ABEBE S B. Monitoring batch cooling crystallization using NIR:development of calibration models using genetic algorithm and PLS[J]. Particle & Particle Systems Characterization,2008,25(4):314-327.

[53] VENKAT V,CHAN K. A neural network methodology for process fault diagnosis[J]. AIChE Journal,1989,35(12):1993–2002.

[54] TETKO I V,LIVINGSTONE D J,LUIK A I. Neural network studies. 1. Comparison of overfitting and overtraining[J]. Journal of Chemical Information & Computer Sciences,1995,35(5):826-833.

[55] SHAO R,MARTIN EB,ZHANG J,et al. Confidence bounds for neural network representations[J]. Computers & Chemical Engineering,1997,21:S1173-S1178.

[56] WANG X Z,CHEN B H. Clustering of infrared spectra of lubricating base oils using adaptive resonance theory[J]. Journal of Chemical Information and Computer Sciences,1998,38(3):457-462.

[57] WANG X Z,CHEN B H,YANG S H,et al. Application of wavelets and neural networks to diagnostic system development,2,an integrated framework and its application[J]. Computers & Chemical Engineering,1999,23(7):945-954.

[58] 王遠,秦民堅,等. 近紅外漫反射光譜法測定麥冬的多糖含量[J].光譜學與光譜分析,2009,29(10):4.

[59] 王溪,查曉清,吳昊,等. 基于小波包變換的云芝蛋白和多糖的近紅外光譜分析[J]. 時珍國醫國藥,2010,10:2.

[60] CHEN Y,XIE M,LI W,et al. An effective method for deproteinization of bioactive polysaccharides extracted from Lingzhi (Ganoderma atrum)[J]. Food Science and Biotechnology,2012,21 (1):191-198.

[61] SHAO Q S,ZHANG A L,Ye W W,et al. Fast determination of two atractylenolides in Rhizoma Atractylodis Macrocephalae by Fourier transform near-infrared spectroscopy with partial least squares[J]. Spectrochimica Acta Part A:Molecular & Biomolecular Spectroscopy,2014,120(120C):499-504.

[62] LAI Y,NI Y,KOKOT S. Discrimination of Rhizoma Corydalis from two sources by near-infrared spectroscopy supported by the wavelet transform and least-squares support vector machine methods[J]. Vibrational Spectroscopy,2011,56(2):154-160.

[63] 瞿海斌,劉曉宣,程翼宇. 中藥材三七提取液近紅外光譜的支持向量機回歸校正方法[J]. 高等學?;瘜W學報,2004,25(1):39-43.

[64] 楊南林,程翼宇,瞿海斌. 用人工神經網絡——近紅外光譜法測定冬蟲夏草中的甘露醇[J]. 分析化學,2003,31(6):664-668.

[65] NI Y,SONG R,KOKOT S. Discrimination of Radix Isatidis and Rhizoma et Radix Baphicacanthis Cusia samples by near infrared spectroscopy with the aid of chemometrics[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2012,96:252-258.

[66] CHEN X,WU D,HE Y,et al. Nondestructive differentiation of panax species using visible and shortwave near-infrared spectroscopy[J]. Food and Bioprocess Technology,2011,4(5):753-761.

[67] CHEN Q,JIANG P,ZHAO J. Measurement of total flavone content in snow lotus (Saussurea involucrate) using near infrared spectroscopy combined with interval PLS and genetic algorithm[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2010,76(1):50-55.

[68] CHEN Y,XIE M,ZHANG H,et al. Quantification of total polysaccharides and triterpenoids in Ganoderma lucidum and Ganoderma atrum by near infrared spectroscopy and chemometrics[J]. Food Chemistry,2012,135(1):268-275.

[69] 劉爽悅,李文龍,瞿海斌,等. 基于近紅外光譜的丹紅注射液提取過程質量在線檢測方法研究[J]. 中國中藥雜志,2013,38(11):1657-1662.

[70] 陳雪英,李頁瑞,陳勇,等. 近紅外光譜分析技術在赤芍提取過程質量監控中的應用研究[J]. 中國中藥雜志,2009,34(11):1355-1358.

[71] KAWANO S,FUJIWARA T,IWAMOTOM. Nondestructive determination of sugar content in satsuma mandarin using near infrared (NIR) transmittance[J]. Engei Gakkai Zasshi,1993,62(2):465-470.

[72] KAWANO S,WATAABE H,IWAMOTO M. Determination of sugar content in intact peaches by near infrared spectroscopy with fiber optics in interactance mode[J]. Engei Gakkai Zasshi,1992,61(2):445-451.

[73] 何東健,前川孝昭,森島博. 水果內部品質在線近紅外分光檢測裝置及試驗[J]. 農業工程學報,2001,17(1):146-148.

[74] 何勇,李曉麗,邵詠妮. 基于主成分分析和神經網絡的近紅外光譜蘋果品種鑒別方法研究[J]. 光譜學與光譜分析,2006,26(5):850-853.

[75] BRUUN S W,S?NDERGAARD I,JACOBSE S. Analysis of protein structures and interactions in complex food by near-infrared spectroscopy. 1. Gluten powder[J]. Journal of Agricultural & Food Chemistry,2007,55(18):7234-7243.

[76] WU Z,XU E,WANG F,et al. Rapid determination of process variables of chinese rice wine using FT-NIR spectroscopy and efficient wavelengths selection methods[J]. Food Analytical Methods,2015,8(6):1456-1467.

[77] 吳玉萍,楊宇虹,晉艷,等. 近紅外光譜法快速測定烤煙漂浮育苗基質中的有機質和水分[J]. 中國煙草科學,2008,29(4):15-17.

[78] 張建平,謝雯燕. 煙草化學成分的近紅外快速定量分析研究[J].煙草科技,1999(3):37-38.

[79] 王東丹,張承聰. 近紅外光譜分析技術在煙草化學分析上的應用研究[J]. 云南大學學報(自然科學版),2001,23(2):135-137.

[80] 梁逸曾,吳海龍. 化學計量學[J]. 現代科學儀器,1998,(5):3-6.

[81] SHAO X,PANG C,SU Q. A novel method to calculate the approximate derivative photoacoustic spectrum using continuous wavelet transform[J]. Fresenius' Journal of Analytical Chemistry,2000,367(6):525-529.

[82] 戈培林. 化學計量學實用指南[M]. 北京:科學出版社,2012.

[83] VALLE S,LI W H,QIN S J. Selection of the number of principal components:the variance of the reconstruction error criterion with a comparison to other methods[J]. Industrial & Engineering Chemistry Research,1999,38(11):4389-4401.

[84] JEROME J,WORKMAN JR,PAUL R,et al. Review of chemometrics applied to spectroscopy:1985-95,Part I[J]. Applied Spectroscopy Reviews,1996,31(31):73-124.

[85] OUSSAMA A,ELABADI F,PLATIKANOV S,et al. Detection of olive oil adulteration using FT-IR spectroscopy and PLS with variable importance of projection (VIP) scores[J]. Journal of the American Oil Chemists' Society,2012,89(10):1807-1812.

[86] LU B,CASTILLO I,CHIANG L,et al. Industrial PLS model variable selection using moving window variable importance in projection[J]. Chemometrics and Intelligent Laboratory Systems,2014,135:90-109.

[87] TIMMERMAN H,MANNHOLD R,KROGSGAARD-LARSEN P,et al. Chemometric methods in molecular design[M]. New York:John Wiley & Sons,2008.

[88] CENTNER V,MASSART D L,DE NOORD OE,et al. Elimination of uninformative variables for multivariate calibration[J]. Analytical Chemistry,1996,68(21):3851-3858.

[89] XU Q S,LIANG Y Z. Monte Carlo cross validation[J]. Chemometrics and Intelligent Laboratory Systems,2001,56(1):1-11.

[90] CAI W,LI Y,SHAO X. A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra[J]. Chemometrics and Intelligent Laboratory Systems,2008,90(2):188-194.

[91] NORGAARD L,SAUDLAND A,WAGNER J,et al. Interval partial least-squares regression (iPLS):a comparative chemometric study with an example from near-infrared spectroscopy[J]. Applied Spectroscopy,2000,54(3):413-419.

[92] JIANG J H ,BERRY R J,SIESLER H W,et al. Wavelength interval selection in multicomponent spectral analysis by moving window partial least-squares regression with applications to mid-infrared and near-infrared spectroscopic data[J]. Analytical Chemistry,2002,74 (14):3555-3565.

[93] KASEMSUMRAN S,DU Y,MURAYAMA K,et al. Near-infrared spectroscopic determination of human serum albumin,γ-globulin,and glucose in a control serum solution with searching combination moving window partial least squares[J]. Analytica Chimica Acta,2004,512(2):223-230.

[94] JONES G,WILLETT P,GLEN R C,et al. Development and validation of a genetic algorithm for flexible docking[J]. Journal of Molecular Biology,1997,267(3):727-748.

[95] HAUPT R L,HAUPT S E. Practical genetic algorithms[M]. New York:John Wiley & Sons,2004.

[96] LI H,LIANG Y,XU Q,et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta,2009,648(1):77-84.

[97] LI H D,XU Q S,LIANG Y Z. Random frog:an efficient reversible jump Markov chain Monte Carlo-like approach for variable selection with applications to gene selection and disease classification[J].Analytica Chimica Acta,2012,740:20-26.

[98] OTSUKA M. Comparative particle size determination of phenacetin bulk powder by using Kubelka–Munk theory and principal component regression analysis based on near-infrared spectroscopy[J]. Powder Technology,2004,141(3):244-250.

[99] 黃亞偉,王加華,韓東海,等. 近紅外光譜測定人參與西洋參的主要皂甙總量[J]. 分析化學,2011,39(3):377-381.

[100] 劉全,瞿海斌,程翼宇. 用于滲漉提取過程分析的中藥有效組分近紅外光譜快速測定法[J]. 化工學報,2003,54(11):1586-1591.

[101] 朱大奇,史慧. 人工神經網絡原理及應用[M]. 北京:科學出版社,2006.

[102] KONA R,QU H,MATTES R,et al. Application of in-line near infrared spectroscopy and multivariate batch modeling for process monitoring in fluid bed granulation[J]. International Journal of Pharmaceutics,2013,452(1/2):63-72.

[103] HUANG H,QU H. In-line monitoring of alcohol precipitation by near-infrared spectroscopy in conjunction with multivariate batch modeling[J]. Analytica Chimica Acta,2011,707(1-2):47–56.

[104] 陸婉珍. 現代近紅外光譜分析技術[M]. 北京:中國石化出版社,2007.

Development of chemometric modelling in the application of NIR to the quality control of Chinese herbal medicine:literature review and future perspectives

ZHOU Zhaolu1,LI Jie1,HUANG Shengquan2,TIAN Shuhua3,LIU Yujiao3,LU Liang2,ZHANG Yang1,HUANG Yansheng2,WANG Xuezhong1
(1School of Chemistry and Chemical Engineering,South China University of Technology,Guangzhou 510640,Guangdong,China;2Infinitus(China),Guangzhou 510623,Guangdong,China;3Pharmavision(Qingdao)Intelligent Technology Ltd.,Qingdao 266109,Shandong,China)

Abstract:Near infrared spectroscopy (NIR) is currently the most widely used Process Analytical Technology (PAT) in the pharmaceutical industrial. It's application in the quality control of Chinese herbal medicines has also attracted much attention in recent years. Chinese herbal medicines are often very complex in composition,and the production processes are distinctive from that for pharmaceutical chemicals. As a result,the use of NIR in the Chinese herbal medicine domain faces major challenges,in particular in chemometric model development. This paper provides a review of chemometricmethods for NIR model development with the focus on NIR application in on-line quality control in the production of Chinese herbal medicines. The topics include calibration data collection,pre-processing,selection of data for model development and validation,and wave number selection,as well as model building and performance assessment. It is emphasized that construction of models with good performance should be an iterative process integrating spectral pre-processing (e.g. smoothing,derivative method,standardized algorithm,data enhancement algorithm,and principal component analysis),wave number selection (e.g. genetic algorithm,random frog) and linear and nonlinear model construction algorithms (e.g. partial least squares,neural networks and support vector machines). A future platform is envisaged as one that shares data and integrates sophisticated algorithms in the background and presents users with friendly,easy to use,intelligent and semi-automated interfaces. Review and discussions has been made based on practical case studies.

Key words:near infrared spectroscopy;Chinese medicines;quality control;chemometric

中圖分類號:TQ 460.6+3

文獻標志碼:A

文章編號:1000–6613(2016)06–1627–19

DOI:10.16085/j.issn.1000-6613.2016.06.004

收稿日期:2016-03-01;修改稿日期:2016-03-18。

猜你喜歡
質量控制中藥
中藥久煎不能代替二次煎煮
中老年保健(2021年4期)2021-12-01 11:19:40
您知道嗎,沉香也是一味中藥
中老年保健(2021年4期)2021-08-22 07:08:32
中醫,不僅僅有中藥
金橋(2020年7期)2020-08-13 03:07:00
中藥的“人事檔案”
中藥貼敷治療足跟痛
基層中醫藥(2018年6期)2018-08-29 01:20:20
高層建筑主體結構施工技術及質量控制研究
淺析建筑工程施工管理
淺談機車總風缸的制作質量控制
科技視界(2016年21期)2016-10-17 17:58:28
淺談在公路橋梁施工環節的質量管理及控制
科技視界(2016年20期)2016-09-29 13:11:33
淺談石灰土基層施工及質量控制
科技視界(2016年20期)2016-09-29 13:10:51
主站蜘蛛池模板: 国产精品视频白浆免费视频| 亚洲aaa视频| 久无码久无码av无码| 国产成人高清精品免费| 久久久久亚洲精品成人网| 91毛片网| 在线中文字幕日韩| 久久黄色一级片| 亚洲国产综合精品中文第一| 久久国产精品电影| 色噜噜久久| 91精品情国产情侣高潮对白蜜| 久久亚洲黄色视频| 国产福利在线观看精品| 无码高清专区| 国产精品任我爽爆在线播放6080| 国产一级一级毛片永久| 一级高清毛片免费a级高清毛片| 久久永久免费人妻精品| 日韩第九页| 国产91透明丝袜美腿在线| 91精品视频网站| 激情综合图区| 亚洲成a人在线播放www| 伊人久久大香线蕉aⅴ色| 久久青草免费91线频观看不卡| 亚洲最猛黑人xxxx黑人猛交| 国产黄色免费看| 久久99精品久久久久久不卡| 在线精品亚洲一区二区古装| 亚洲欧美日韩中文字幕在线| 亚洲精品爱草草视频在线| 欧美中日韩在线| 中国国产A一级毛片| 国产精品毛片一区| 日本一区二区不卡视频| 国产精品白浆无码流出在线看| 大香网伊人久久综合网2020| 国内自拍久第一页| 91系列在线观看| 人妻无码中文字幕一区二区三区| 成人小视频网| 制服丝袜 91视频| 666精品国产精品亚洲| 欧美区在线播放| 国产波多野结衣中文在线播放| 欧美日韩午夜| 五月婷婷精品| av天堂最新版在线| 曰韩免费无码AV一区二区| 国产H片无码不卡在线视频 | 国产第一福利影院| 97无码免费人妻超级碰碰碰| 亚洲av综合网| 久久人与动人物A级毛片| 欧美三级视频网站| 97视频在线观看免费视频| 国产精品嫩草影院视频| 亚洲国产欧美国产综合久久 | av大片在线无码免费| 日韩欧美国产精品| 欧美激情视频一区二区三区免费| 中文国产成人精品久久| 亚洲一区二区三区中文字幕5566| 人妻21p大胆| 青青草原国产av福利网站| 国产九九精品视频| 成人午夜天| 成人另类稀缺在线观看| 亚洲人网站| 亚洲AⅤ无码国产精品| 国产欧美日韩精品第二区| 国产午夜无码片在线观看网站| 国模极品一区二区三区| 欧美日韩久久综合| 欧美色视频在线| 亚洲中文字幕日产无码2021| 一个色综合久久| 黄色免费在线网址| 国产午夜一级淫片| 亚洲国产高清精品线久久| 高清无码手机在线观看|