999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多層梯度提升樹在藥品鑒別中的應用*

2020-02-20 03:42:10杜師帥李靈巧胡錦泉鄭安兵馮艷春胡昌勤楊輝華
計算機與生活 2020年2期
關鍵詞:藥品分類特征

杜師帥,邱 天,李靈巧,胡錦泉,鄭安兵,馮艷春,胡昌勤,楊輝華,+

1.北京郵電大學 自動化學院,北京 100876

2.北京理工大學 光電學院,北京 100081

3.桂林電子科技大學 電子工程與自動化學院,廣西 桂林 541004

4.中國食品藥品檢定研究院,北京 100050

1 引言

假藥或劣質藥品大約占據世界藥品貿易10%的份額,在全球范圍內摧殘人民群眾的身體健康,同時擾亂市場經濟秩序,是世界各國共同面臨的挑戰。2006年,世界衛生組織在羅馬召開“打擊假藥建立有效的國際合作”國際研討會議,促進國際合作打擊假劣藥制售。我國建設的藥品快速識別系統,針對不同企業生產的藥品中的活性成分進行定性分析或定量鑒別,以確保藥品在市場流通過程中的質量。因此,為了建立更加完善的藥品監督系統及維護市場穩定,發展創造性的和有效的藥品鑒別方法具有重大意義。

近紅外(near-infrared,NIR)光譜分析技術能夠對樣品進行快速、無損及無污染檢測,實現對待測樣本的定性或定量分析,且可以通過光纖實現遠程測量,這些優勢使其在石油分析[1]、食品檢測[2]、藥品監督[3]等領域有廣闊的應用前景。直到現在,基于NIR分析技術的藥品鑒別算法仍得到廣泛的研究。Scafi等[4]提出NIR光譜能夠有效區分相似藥物,并通過構建多變量模型驗證了NIR在快速、現場和無損鑒別假藥方面的潛力。文獻[5]采用NIR相關系數法,通過藥品檢測車對藥品在流通領域中的變化進行跟蹤,并快速篩查藥品的真偽。Feng等[6]建立一種NIR光譜檢測算法,可快速鑒別非法摻入合成藥物的草藥。但由于NIR光譜具有譜帶寬、重疊嚴重及信息解析困難等缺點,傳統的藥品鑒別技術有著一定的局限性。隨著信息時代的來臨,基于機器學習的NIR光譜分析技術被提出,能夠有效解決NIR光譜的缺陷,并在藥品分析領域有突破性的進展。Deconinck等[7]運用決策樹在Viagra和Cialis藥品數據集上建立分類模型,在二義性數據上表現良好。Xin等[8]利用偏最小二乘和隨機森林構建分類器模型,改進決策樹在多分類問題上的不足。文獻[9]針對藥品二類別不平衡問題,提出平衡級聯稀疏的分類方法。但隨著產業界數據的復雜多樣化,機器學習算法的特征學習遇到瓶頸,使得這類藥品鑒別算法對多類、高維且非線性的近紅外數據有較差的適應性。

近年來,信息科學與技術的爆炸式發展導致人工智能逐漸成熟,而深度神經網絡(deep neural network,DNN)是其最成功的產物[10-11]。無論在監督學習還是在無監督學習環境下,DNN都有優秀的特征表示學習能力,并在計算機視覺、自然語言處理等領域[12-13]表現出極佳的性能。目前,NIR光譜分析技術與DNN緊密結合,在藥品鑒別任務中也取得一定的成果。文獻[14]采用主成分分析和反向傳播(back propagation,BP)神經網絡結合的方法,有效提高多類別藥物的分類準確率。Yang等[15]將dropout技術引入深度信念網絡,克服藥品精細分類領域中小樣本帶來的過擬合問題。文獻[16]提出一種基于堆棧壓縮自編碼的NIR藥品鑒別方法,將高維光譜數據進行特征映射,以低維特征進行定性分析并大幅度提升分類效果。然而,神經網絡模型的訓練,主要采用BP算法迭代更新網絡參數及最小化目標函數。因此對于難以獲取大量樣本的小規模藥品光譜數據,DNN的BP復雜性導致模型容易陷入局部最優解,在一定程度上限制了其強大的特征學習能力。

BP算法的弊端使得很多領域遇到瓶頸,甚至Hinton曾提出“拋棄反向傳播,重起爐灶”。因此,探索神經網絡以外的方法具有重要的研究價值和開拓意義[17-18]。Feng等[19]提出的多層梯度提升決策樹(multi-layered gradient Boosting decision trees,MGBDT)算法,通過構建“深層”的非可微梯度提升決策樹(gradient Boosting decision trees,GBDT)模塊,以目標傳播的變體聯合優化訓練過程,探索其特征表示能力。目前尚未檢索到MGBDT在NIR分析領域的應用,本文嘗試將MGBDT算法應用于NIR藥品鑒別的實例分析,同時引入自適應特征選擇和代價敏感學習以解決MGBDT模型內存需求過大、樣本不均衡及特征冗余問題,并分別在膠囊和藥片兩種藥劑數據集上進行驗證。

2 基于特征選擇和代價敏感學習的多層梯度提升樹

2.1 自適應特征選擇

特征選擇一直是模式識別領域的研究熱點。該領域的高維復雜性數據往往包含大量的冗余特征或噪聲信息,特征選擇的作用就是從原始特征集中選擇能夠最大化有效的數據信息及最優化模型性能的特征子集。相關算法主要分為Filter[20]、Wrapper[21]和Embedded[22]三大類。其中,基于Embedded的特征選擇方法與模型本身緊密結合,在模型訓練過程中優先選擇對性能增益最大的特征,也是目前主流的特征提取思想。隨機森林[23]具有準確率高、速度快、魯棒性好等優點,能夠應用于特征選擇問題,可作為一種高效的Embedded特征選擇方法[24]。

然而,針對不同任務,要耗費大量人工成本對特征選擇過程進行不同的研究和調整。為解決以上問題,在特征選擇的基礎上引入自動調節比例因子λ,根據具體任務或數據自適應選擇最優特征,該方法目前廣泛應用于各領域[25-26]。

本文將λ引入基于隨機森林的特征選擇,旨在高效且自適應地選取最優分類特征。具體來說,隨機森林首先計算原始數據每個特征的重要性并進行排序,再根據某種規則選擇最小且最有效的特征子集。假設原始訓練集為D,Bootstrap取樣后的訓練子集為B,決策樹為T,決策樹個數為N,則特征X的重要程度計算及自適應特征選擇的流程如下:

(1)從D中Bootstrap采樣N個子數據集Bi(i=1,2,…,N) 且分別對應N個袋外數據OOBi(out of bag)。用子集Bi訓練決策樹模型Ti,之后測試數據OOBi,計算袋外誤差errOOBi1,并記錄所有決策樹的袋外誤差之和errOOB1。

(2)對袋外數據OOBi所有樣本的特征X隨機加入噪聲干擾ε再次測試Ti模型,計算袋外誤差errOOBi2

(3)如果X加入隨機噪聲ε后,袋外數據準確率大幅度下降,即errOOBi2遠大于errOOBi1,說明X對于樣本的分類有很大影響,即重要度較高。則計算特征X的重要程度如下:

(4)將特征按照其重要度進行降序排序,并根據自適應比例因子λ,提取新的特征集。

(5)用新的特征集重復(1)~(4)步驟,直至特征數小于設置的最低特征維度停止。

(6)根據上述步驟得到各個特征子集及對應的袋外誤差errOOB1,選取最低誤差的特征子集作為自適應特征選擇的最終特征集。

2.2 自適應特征的多層梯度提升決策樹

強大的特征學習能力是DNN成功的關鍵[27],例如自編碼系列網絡[28-30]在監督或無監督學習中具有極佳的性能,廣泛應用于圖像識別、語音識別等領域。Feng等[19]提出多層梯度提升決策樹算法,由多層非可微GBDT模塊構成,汲取DNN的特征分層表示能力和梯度提升樹的集成能力兩大優勢,將原始數據映射至表征能力更強的特征空間。同時,基礎構建塊的非可微性,一定程度上避免了BP的弊端。

然而MGBDT也存在缺陷。經實驗研究發現,該模型第一層構建塊將原始數據進行前向映射,其輸出往往存在較多冗余特征,進而影響深層模型的特征學習。另外,每層構建塊由與該層特征維度有相同數量的GBDT組成,高維數據的輸入會增加該模型的GBDT數量,從而消耗大量內存及運行時間。針對高維度的藥品近紅外光譜數據,本文提出一種基于特征選擇的多層梯度提升決策樹(multi-layered gradient Boosting decision trees based on feature selection,FGBDT),即用自適應特征選擇模塊替換MGBDT第一層的GBDT模塊,旨在減少原始數據的冗余特征,同時降低MGBDT的空間復雜度對高維數據的敏感性,增強分層分布式表征能力。

Fig.1 Illustration of FGBDT structure圖1 FGBDT結構示意圖

FGBDT具有一個原始特征輸入層、M個中間層以及一個最終輸出層,如圖1所示。其中,oi,i∈{0,1,…,M} 分別作為輸入層和中間層的前向輸出,zj,j∈{1,2,…,M}分別是中間層的逆向偽標簽。中間層的第一層是特征選擇器,對原始數據特征按重要程度排序,在最小化特征信息損失的基礎上,選擇有益特征,提升深層模型的特征表示學習能力。之后的M-1個中間層來自MGBDT結構,每層結構包含兩個GBDT模塊:F和G構建塊。F用于特征的前向映射,G用于特征的逆向映射。學習任務是指學習每層的映射模塊,使得最終輸出在訓練集上最小化經驗損失。

具體來說,算法流程分為三個階段。首先,初始化階段。產生一些高斯噪聲作為中間層的輸出,并訓練一些非常小的樹結構以獲得,其中索引0表示在該初始化階段中獲得的樹結構,從而訓練過程可以繼續進行迭代更新前向映射和逆向映射。其次,Gi,i∈{2,3,…,M}更新階段。在迭代t過程,假設給出前一次迭代的前向映射,獲取與對應的“偽逆”映射,使得式(6)成立:

其中,oi-1是第i-1層Fi-1的輸出;是第t-1次迭代過程的第i層的前向映射構建塊;是第t次迭代過程的第i層的逆向映射構建塊。可通過最小化重建損失函數的期望值來實現,如式(7):

其中,L是重建損失函數;Ex是L的期望。從而更新,進一步更新前一層。最后,Fi,i∈{2,3,…,M}更新階段。在迭代t過程,關鍵在于為分配偽標簽,且每層的偽標簽被定義如式(8):

那么,只要設置好第M層的偽標簽,就可以使整個結構進行更新。這里使用真實標簽y定義M層的偽標簽,如式(10):

其中,α是殘差梯度系數;y是真實標簽。用計算該層偽標簽,如式(11):

一般的分類任務,將最終輸出層設置為線性分類器。主要有兩個原因:首先,淺層將被迫學習一個盡可能線性可分的特征重新表示,這是一個有用的屬性。其次,輸出層和前層之間的維度的差異通常很大,因此可能難以學習準確的逆映射。當使用線性分類器作為頂層的前向映射時,不需要計算該特定的對應逆映射,因為可以通過關于最后一個隱藏層的輸出的全局損失的梯度來計算下面層的偽標簽。本文最終輸出層用的是Softmax層,如式(12)。

其中,C是類別個數;xi是第i個Softmax神經元的輸入;y(xi)是第i類別的預測概率。

2.3 代價敏感

現實任務的數據大多都存在樣本不均衡的缺陷,往往是樣本的類別不平衡或樣本的難分易分問題。在類別失衡的分類任務中,少數類樣本對分類器的影響較小,容易降低其泛化能力,尤其少數類樣本可能更為重要。另外,不同樣本可能有不同的區分難度,而簡單樣本與困難樣本在訓練中所占的權重相同,會導致較難學習樣本很難被挖掘分析。藥品鑒別是典型的類別不均衡問題,相比于真藥,假劣藥的樣本往往較少且較難學習,但其被誤判的損失會更加嚴重,故針對樣本不均衡問題進行研究很有必要。

樣本不均衡問題的研究日益成熟[31-33],其中代價敏感學習[34]表現最為突出。目前Lin等[35]提出一種新的損失函數Focal Loss,解決了目標檢測中正負樣本的不平衡問題及樣本的難訓練問題。本文將Focal Loss引入NIR光譜的藥品鑒別任務,并結合FGBDT算法,旨在抑制藥品樣本不均衡的學習敏感性。

Focal Loss是基于交叉熵函數的一種損失函數,故本文首先以二分類為例,介紹說明交叉熵損失函數(cross entropy loss),如式(13)所示:

其中,y是類別的真實標簽;y'是類別的預測概率。交叉熵損失函數根據正負樣本相應的概率輸出,以調整損失值大小,即預測輸出越接近真實值,損失越小;反之越大。然而,該函數收斂緩慢,優化困難。更重要的是,它無法解決正負樣本的平衡問題及簡單與困難樣本的區分問題。

而Focal Loss是在交叉熵損失函數基礎上進行的修改,期望少數樣本及困難樣本對損失的貢獻變大,使模型更傾向于從這些樣本上學習,如式(14):

其中,α對類別不均衡問題的損失函數進行控制,以平衡正負樣本本身的比例不均。γ對易分/難分樣本問題的損失函數進行調節,以調整簡單樣本權重降低或困難樣本權重增加的速率。

對于多類樣本的情況,原理相同。如果某一類或某幾類樣本較多,模型肯定也會偏向于數目多或者易訓練的樣本類別,進而影響模型的泛化能力,在藥品鑒別領域是很常見且很重要的問題。基于FGBDT算法引入Focal Loss,利用平衡因子α和γ對類別不平衡及易分難分的樣本進行控制,使樣本在訓練集所占的學習權重達到一定程度的平衡,相應損失函數可以快速收斂。

3 實驗結果分析

3.1 數據

該數據由中國食品藥品檢定研究院提供,且所有樣品均通過了法定方法檢驗。本文選取膠囊、藥片兩種類型藥劑的NIR數據為實驗數據,嘗試用新算法對主成分相同且僅輔料或生產工藝有差異的藥品NIR光譜進行區分。

實驗數據A,是哈藥集團三精制藥諾捷有限責任公司及其他制藥公司生產的鋁塑包裝羅紅霉素膠囊,總計337個樣本;實驗數據B,是北京中惠藥業、上海信誼藥廠、深圳市中聯制藥等10家藥廠生產的非鋁塑包裝鹽酸二甲雙胍片,共計691個樣本,如表1所示。

Table 1 Profile of experimental data A and B表1 實驗數據A和B簡介

Fig.2 NIR spectrum curves of dataset A and B圖2 數據集A和B的近紅外光譜曲線

Fig.3 NIR spectrum curves of dataset A and B after preprocessing圖3 預處理后數據集A和B的近紅外光譜曲線

使用Bruker Matrix光譜儀測定每個樣本在不同NIR波長下的吸光度值得到相應光譜曲線,如圖2所示。NIR光譜曲線的橫坐標表示波數(波數=1/波長),范圍約為11 995~4 000 cm-1,間隔4 cm-1,共2 074個波數;縱坐標表示不同波數對應的吸光度值,共2 074個吸光點。因此,每個樣本的NIR光譜數據是不同波數下的一組吸光度值,具有一維的數據表示形式,包含2 074個特征。

3.2 數據預處理

為消除原始數據的噪聲干擾,且維持光譜的形狀、寬度不變,對數據A和B均采用Savitsky-Golay平滑求導方法進行預處理,其窗口大小取9,多項式階數取2,求導次數取1。

預處理后的光譜數據具有一維表示形式,包含2 074維特征,對應的NIR光譜曲線如圖3所示。

3.3 評價指標

本文應用的度量方法有分類準確率(Accuracy,Acc)、準確率標準差(standard deviation of accuracy,Std)、F1值及算法運行時間(Time)。以二分類為例,設定TP、FN、TN、FP分別表示分類正確的正類、分類錯誤的正類、分類正確的負類、分類錯誤的負類。

分類準確率是模型正確分類的樣本數與總樣本數之比,最能直觀反映分類模型性能的好壞,定義如下:

分類準確率標準差是多次準確率與其平均值偏差的算術平均數的平方根,用來衡量模型預測的穩定性。其計算公式如下:

其中,N表示交叉驗證的折數;ai是第i折交叉驗證的分類準確率是N折交叉驗證的準確率均值。

但分類準確率不能很好地反映各類的具體分類情況,尤其是處理類別不均衡問題,該指標并不能充分驗證算法的有效性。因此,為了更好地評估分類性能,增加F1值作為評價指標。F1值是以每個類別為基礎進行定義的,包括精確率(Precision)和召回率(Recall)。精確率是指正確預測為正類樣本占全部預測為正類樣本的比例;召回率是指正確預測為正類樣本占全部實際為正類樣本的比例。而F1值為兩者的調和平均數。相關定義如下:

為驗證改進MGBDT的特征重表示能力以及代價敏感學習的有效性,除以上評價指標之外,本文引入特征表示圖及訓練、測試狀態圖進行分析。

3.4 實驗過程及配置

本實驗基于Linux操作系統、i7-6700 CPU和32 GB安裝內存等環境,使用Python編程語言及PyCharm軟件開發平臺進行設計與實現。針對藥品精細分類任務,對近紅外光譜數據進行預處理,并實現模型的訓練、測試及對比研究。具體過程如下:

(1)預處理階段

為了消除噪聲干擾且保護光譜數據形狀、寬度不變,利用Savitsky-Golay平滑求導算法對兩個樣本集進行預處理,詳細信息見3.2節。

(2)訓練階段

將預處理后的光譜數據,送入到各模型中訓練。其中,支持向量機(support vector machines,SVM)選擇線性核函數。極限梯度提升樹(extreme gradient Boosting trees,XGBoost)包含100個樹分類器。多層感知機(multi-layer perceptron,MLP)有兩層隱藏層,分別包含1 024、256個神經元,激活函數為ReLU,權重優化器為Adam,損失函數為Cross Entropy。堆棧自編碼(stacked auto encoder,SAE)包含預訓練和微調階段。預訓練階段,分別訓練具有input-1 024、1 024-256、256-output網絡結構的3個編碼器,優化器為Adam,損失函數為均方誤差(mean square error,MSE);微調階段,訓練具有input-1 024-256-output網絡結構的預訓練模型,優化器為Adam,損失函數為Cross Entropy。FGBDT結構input-f-f/2-output(f表示模型自適應的特征維度,自適應比例因子為0.6,最低特征維數為256),優化器為Adam,損失函數為Cross Entropy,目標學習率為0.1。CS_FGBDT相比于FGBDT,損失函數為Focal Loss,經實驗證明平衡因子α取0.21,γ取0.2為最佳,其余配置不變。

(3)測試階段

用訓練好的模型對測試樣本進行測試。模型的最后一層分類器計算出測試樣本屬于每個類別的“概率”,概率最大的類別即為樣本的預測類別。將所有測試樣本的預測值與真實值進行對比,計算測試準確率、標準差及F1值等評價指標。

(4)對比階段

經初步分析,MGBDT算法在本文實驗環境(CPU,32 GB)下易內存溢出且時間復雜度過高,并不適于實際應用下的高維NIR光譜藥品鑒別,因此該算法的實驗意義不大,不用于模型對比。

本文選用經典商業軟件算法(SVM)、梯度提升樹算法(XGBoost)、神經網絡算法(MLP、SAE)作為對比方法,旨在以實際應用和學術理論等角度綜合評估FGBDT、CS_FGBDT的性能。為驗證各算法在不同大小訓練集上的分類能力,以2∶8、3∶7、4∶6、5∶5、6∶4、7∶3、8∶2等7種不同比例選取訓練集/測試集,并在每個比例數據集下進行十折交叉驗證。同時,將分類準確率及F1值作為模型分類指標;將準確率標準差作為模型穩定性指標;將運行時間作為模型速度指標。

3.5 實驗細節分析

本節對SVM、XGBoost、MLP、SAE、FGBDT等對比算法的實驗細節進行分析說明。

對于高維小樣本數據,尤其特征維數遠遠大于樣本維數,SVM一般選取線性核函數。研究表明,多項式核、徑向基核等SVM的藥品分類性能確實劣于線性核SVM。

MLP、SAE的網絡結構為input-1 024-256-output,該配置主要參考文獻[16]。針對小規模NIR數據,若加深神經網絡結構,不僅會增加模型的時間復雜度,還易導致模型過擬合。另外,在具有不同規模訓練集的實驗中,可適當調節輸入數據的批量大小(一般小比例訓練集取32,大比例訓練集取128),有效地提升不同階段模型的擬合能力、穩定性和速度。

XGBoost是梯度提升樹算法,而FGBDT是基于多層梯度提升樹的分類方法,前者是后者構建塊(block)的組成部分。兩者進行對比,以突出多層非可微梯度提升樹對特征分層表示的有效性。經廣泛實驗驗證,本實驗FGBDT的最優模型結構設計為input-f-f/2-output(f為自適應的特征維數),而過于深層的模型會導致特征信息丟失或過擬合,且時間代價較大。表2給出實驗數據B的訓練和測試集為3∶2時,不同FGBDT模型結構間的性能對比。

Table 2 Performance comparison of different FGBDT model structures表2 不同FGBDT模型結構的性能對比

3.6 實驗結果

3.6.1 特征重表示

多層梯度提升樹算法的主體結構由深層非可微模塊組成,避免了BP算法的缺陷,同時具有特征分布式學習的可探索性。針對藥品數據的高維復雜特性,本文將自適應特征選擇與多層梯度提升樹方法結合,以消除內存占用率過大及噪聲信息的影響,并在數據集A和B上分別對FGBDT的特征學習能力進行驗證,如圖4(a)、圖4(b)所示。左圖是原始數據的空間分布圖,可以看出部分不同類別的樣本之間的類間距離較小,而類內距離較大。用FGBDT算法對原始數據進行特征重表示,映射到新的特征空間,極大增加了類間距離并降低了類內距離,如右圖所示。由此,可初步推論,FGBDT算法具備優秀的特征學習能力及特征重表示能力,對后續非線性分類器的性能有較大的增益效果。

3.6.2 模型預測能力

Fig.4 Feature visualization of experimental data圖4 實驗數據的特征可視化

Table 3 Classification accuracy of each algorithm on dataset A and B表3 各算法在數據集A和B上的分類準確率

Fig.5 F1-score of each algorithm on dataset A and B圖5 各算法在數據集A和B上的F1值

在分類準確率方面,如表3所示。MLP算法總體表現一般,尤其數據量較小時,其分類準確率明顯較低,說明模型沒有學到有效信息或者陷入局部最優。而SAE算法解決了神經網絡的參數初始化問題,使模型加速收斂,且避開局部最優解,故其類性能優于MLP,同時表明特征分層表示有益于分類。XGBoost算法的準確率與SAE的相似,可知梯度提升樹算法對NIR光譜數據有一定的分析能力,但性能劣于SVM。隨著訓練集增大,SVM的模型優勢愈加明顯,特別是在二分類實驗下,其預測精度達到最高。相比其他模型,FGBDT結合特征分層表示和決策樹集成思想,能有效學習數據特征,在各個規模數據下表現十分優越,尤其在小數據量上具有明顯的分類優勢。在此基礎上,FGBDT結合代價敏感學習機制,以提升其分類性能,使得CS_FGBDT的預測精度更優。

在F1值方面,如圖5所示。隨著訓練數據集的增加,各模型的F1值也逐漸增大,說明大數據量有利于提升模型的綜合分類性能。在各個比例的訓練集/測試集下,FGBDT的F1值達到最優,表明該算法在各類別數據上的分類性能表現優越。而CS_FGBDT的代價敏感學習進一步降低不均衡數據對各類別預測能力的不利影響,相比FGBDT,其F1值得到提升。

綜合考慮模型的分類準確率和F1值,FGBDT和CS_FGBDT在各個規模訓練集下具有最佳的預測能力。

3.6.3 算法穩定性

Fig.6 Standard deviation of accuracy of each algorithm on dataset A and B圖6 各算法在數據集A和B上的精度標準差

在算法穩定性方面,如圖6所示。MLP的總體魯棒性較差,但隨著數據量增大,該模型逐漸穩定,說明小數據量不適用于神經網絡方法。由于逐層貪婪學習的SAE有預訓練階段,其穩定性能明顯優于MLP,但不如XGBoost算法,表明梯度提升決策樹算法更適合NIR數據的穩定分析。相比之下,SVM算法在二分類實驗中表現十分穩定,但在多分類實驗中稍遜于FGBDT。而CS_FGBDT在各個比例訓練集下表現出更加優越的魯棒性,可以推斷多層梯度提升樹模型在多類復雜性的數據下適應性良好。

3.6.4 時間復雜度

模型的時間復雜度(此實驗僅在CPU環境下)如表4所示。SVM的運行速度具有最為明顯的優勢,可快速地處理二分類或多分類問題。MLP的訓練時間高于SVM,但稍低于XGBoost,主要因為XGBoost是多決策樹集成的串行結構,相對耗時。SAE包含預訓練階段,導致其時間復雜度最高。FGBDT是多層的梯度提升決策樹,每層構建塊由XGBoost構成,因此訓練速度低于XGBoost,但高于結構較為復雜的SAE。而CS_FGBDT與FGBDT的模型結構一致且配置類似,因此兩者時間復雜度相似。

由以上分析可知,FGBDT的訓練速度僅高于SAE,但遠低于SVM等算法,表明其時間復雜度相對較高。在模型具備優秀的分類性能和穩定性的前提下,提升運行速度對實際應用有重大意義,是未來的探索點。在算法結構層面,可考慮FGBDT構建塊的多線程設計;在硬件層面,由于該模型由決策樹和線性分類器構成,可使用GPU進行加速。

Fig.7 Learning curves of FGBDT and CS_FGBDT圖7 FGBDT與CS_FGBDT的學習曲線

3.6.5 代價敏感學習的影響

上文提出的FGBDT算法在分類準確率及模型穩定性方面,相比其他算法有更優越的性能,是一種有效的藥品鑒別方法。但藥品NIR數據存在樣本不均衡問題,故本文在FGBDT算法的基礎上引入代價敏感學習,期望緩解樣本不平衡對收斂速度及模型不穩定等問題造成的影響,以提高模型分類效果。下面以評價指標、訓練及測試狀態來分析FGBDT與CS_FGBDT的性能。

評價指標方面,如表3、圖5及圖6所示。CS_FGBDT的性能稍優于FGBDT,特別是在樣本不均衡問題相對突出的小數據上,其分類準確率、模型穩定性及F1值都有較大提升。這表明代價敏感學習對FGBDT模型的性能有一定的提升作用,且適用于樣本不平衡的藥品數據。

訓練及測試狀態方面,如圖7(a)、圖7(b)所示。相比FGBDT模型,CS_FGBDT的初始準確率較高,隨著迭代次數逐步增加直至穩定。同時,CS_FGBDT損失收斂更快且更低。進一步說明該模型有更優秀的魯棒性,且更快地達到全局最優點。

4 結束語

針對主流算法在鑒別藥品數據時存在的缺陷以及多層梯度提升樹算法的不足,提出一種新的藥品鑒別算法CS_FGBDT,用于處理樣本類別多、不均衡且高維非線性的藥品數據。所提出的模型在MGBDT基礎上引入特征選擇器,并替換第一層GBDT模塊,以降低原始數據的冗余特征及噪聲信息,同時保證模型的內存低消耗;并引入代價敏感學習,將Focal Loss用于最終輸出層,提升模型性能。將改進的算法在樣本不均衡的羅紅霉素膠囊、鹽酸二甲雙胍藥片數據集上進行分類鑒別。實驗結果證明,與SVM、MLP、SAE、XGBoost等相比,其模型的分類精度及穩定性表現優越,且適用于不同規模數據。另外,引入代價敏感學習機制的CS_FGBDT在處理樣本不均衡問題的能力更優于FGBDT,且模型學習狀態更加穩定。綜合而言,該方法對于相似度較高、重疊嚴重、信息解析困難的藥品NIR光譜有更好的辨識能力,即使處理小規模數據的能力也十分突出。但是,如何有效地優化模型速度及自適應模型復雜度是今后研究的重點。

猜你喜歡
藥品分類特征
是不是只有假冒偽劣藥品才會有不良反應?
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
藥品采購 在探索中前行
中國衛生(2016年5期)2016-11-12 13:25:28
藥品集中帶量采購:誰贏誰輸?
中國衛生(2015年5期)2015-11-08 12:09:48
主站蜘蛛池模板: 国产免费福利网站| 欧美伦理一区| 中文字幕无码电影| 欧日韩在线不卡视频| 国产网站免费看| 一级做a爰片久久毛片毛片| 国产哺乳奶水91在线播放| 国产精品yjizz视频网一二区| 欧美精品二区| 国产精品自在自线免费观看| 极品国产一区二区三区| 青青青国产精品国产精品美女| 国产成人av一区二区三区| 在线观看免费AV网| 国产97视频在线观看| 波多野结衣在线se| 国产91无码福利在线| 亚洲二区视频| 中文字幕免费在线视频| 久久国产精品77777| 国产一级无码不卡视频| 九九热精品视频在线| 黄色免费在线网址| 国产精品白浆无码流出在线看| 日韩视频福利| 久久一本精品久久久ー99| 无码精品福利一区二区三区| 精品视频91| 一级福利视频| 少妇被粗大的猛烈进出免费视频| 91在线一9|永久视频在线| 欧美精品xx| 国产屁屁影院| 午夜一区二区三区| 免费亚洲成人| 国产国产人成免费视频77777 | 中美日韩在线网免费毛片视频| 毛片在线播放a| JIZZ亚洲国产| 99热这里只有精品国产99| 国产精品微拍| 国产极品美女在线观看| 青青久在线视频免费观看| 99无码中文字幕视频| 女同久久精品国产99国| 亚洲成人黄色在线观看| 亚洲AⅤ无码日韩AV无码网站| 美女被狂躁www在线观看| 天天操天天噜| 日本AⅤ精品一区二区三区日| 国产精品极品美女自在线| 欧美一级夜夜爽| 国产午夜无码片在线观看网站| 在线国产综合一区二区三区| 欧美亚洲国产视频| 亚洲婷婷在线视频| 国产亚洲欧美在线专区| 就去吻亚洲精品国产欧美| 欧美日韩国产精品综合| 亚洲欧美综合另类图片小说区| 亚洲av日韩av制服丝袜| 天天躁夜夜躁狠狠躁图片| 欧美一区二区精品久久久| 国产在线视频二区| 国内精品视频| 国产精品太粉嫩高中在线观看| 國產尤物AV尤物在線觀看| 久久国产精品波多野结衣| 精品亚洲国产成人AV| 91精品久久久久久无码人妻| 五月婷婷亚洲综合| 毛片网站在线播放| 激情国产精品一区| 一本大道香蕉中文日本不卡高清二区| 亚国产欧美在线人成| 久久亚洲美女精品国产精品| 色噜噜在线观看| 亚洲av无码牛牛影视在线二区| a级毛片网| 欧美日韩福利| 国产成人高清亚洲一区久久| 久久国产毛片|