張誼,萬華,涂淑琴
(華南農業大學 數學與信息學院,廣州 510642)
中藥飲片包括了原形藥材和經過切制、炮制后的飲片[1],可直接用于中醫臨床用藥。由于藥材本質的真偽、炮制方式的不同及儲存情況對飲片藥效起著關鍵作用,飲片鑒定成為了傳統中醫用藥安全及促進中藥飲片產業化發展的當務之急。傳統人工鑒別的方式采用我國著名的中藥學家謝宗萬提出的“辨狀論質”方法[2],依靠人的經驗根據中藥飲片的形、色、氣、味等特征判斷飲片的優劣。該方法雖然有一定的直觀性、實用性,但個人主觀性以及專業能力等方面的影響會造成判斷結果的差異。
在信息技術高速發展的今天,中醫藥信息化建設是使中醫藥走向現代化的必然選擇。中醫藥信息化是集中整合中醫藥信息資源、改善中醫藥服務質量、促進信息交流和知識共享的重要手段。相較于傳統的人工鑒定手段,圖像處理技術能夠更好地提取中藥飲片圖像和結構化數據的各種特征,再結合分類識別模型對中草藥進行區分,有效克服人為鑒別的主觀性影響,為中醫藥研究提供篩選參照。基于此技術背景,深度學習有望在飲片識別、質量評級等方面,發揮其優越的性能,提高識別精度,降低人力成本。
本文對近年來中藥領域計算機視覺的應用現狀進行綜述,為藥物分析研究者在篩選飲片上提供計算機視覺識別參考。
計算機視覺是模擬人類視覺系統[3-4],對視覺信息進行捕獲,在人為不干預或少干預的情況下對圖像內容進行解讀。在計算機視覺領域中,常見的數字圖像處理技術有圖像增強技術[5]、圖像壓縮變換[6]、邊緣銳化[7]、圖像分割[8]、特征提取技術[9]、圖像識別[10]等,常用的識別算法主要分為傳統識別算法、深度學習算法兩大類,如圖1 所示。
對于傳統中草藥識別算法,文獻[9-12]采用底層特征提取方法,結合淺層機器學習分類器對藥用植物進行分類。對于深度學習算法,張萬義等[13]針對黃河三角洲地區特有的17 種中草藥利用深度學習算法分類,使訓練集分離出來的驗證集的平均識別準確率達到了96%。
由于圖像的質量對識別算法有直接影響,在開始使用算法進行圖像識別之前,良好的數據預處理能夠提高識別準確度。常用的圖像預處理操作如圖2 所示。
圖像歸一化在中草藥識別中主要用于對葉片類藥用植物位置及朝向進行歸一。由于葉片具有良好的對稱性,常通過極小轉動慣量的方法確定對稱軸,進而利用沿對稱軸旋轉葉片以實現葉片朝向歸一化[14]。
圖像增強在中藥飲片識別領域中常用的處理手段為空間域的平滑、銳化,以達到噪點調整的目的。周法律等[15]利用平滑空間濾波器進行平滑處理,去除圖像中比較尖銳的噪聲點,提高飲片在圖像中可檢測性。
圖像灰度化通過將彩色圖像的RGB(Red Green Blue)三通道轉化為單通道,從而提高整個應用系統的處理速度,減少所需處理的數據量。周法律等[15]利用加權平均法將輸入的彩色圖像灰度化轉變成黑白圖像,利用灰度門限法將高于某一灰度值的背景與葉片圖像分割開。
圖像分割是指通過圖像處理技術把圖像中飲片主體與周圍背景分離開來,以對飲片區域進行分析處理。謝樹瑩等[16]和張寧等[17]將中藥圖像傳遞給基于分水嶺算法以達到去除背景的目的。張寶文等[18]運用閾值分割法經過反復“分割-均值-迭代”的方法對石楠葉片圖像進行分割,利用亮度值將石楠葉片主體與背景分開,如圖3 所示。
圖像增廣通過對飲片圖像進行幾何變換、調整亮度等方式對訓練圖像做一系列隨機改變,來產生相似但又不同的訓練樣本,從而擴大訓練數據集的規模。孫俊等[19]將14 種植物葉片圖片經過幾何變換得到新的圖片以將原數據集擴充至56 626張,增強模型泛化能力。
形態學變換技術包括膨脹、腐蝕等方法,常用于飲片形狀特征的邊界提取。梁麗金等[20]對飲片顯微圖像進行脫帽變換、形態學開閉運算、填充等操作得到防風的二值圖。
有效的圖像預處理手段有助于特征提取及圖像分類,表1 為常見的飲片圖像預處理方法及作用歸納。
除了表1 所示的方法外,霍夫曼編碼、Golom 編碼等壓縮方法也是常用的數字圖像處理手段,但是該方法在飲片圖像預處理應用較少。由于中藥飲片近似品等的區分以紋理、形狀細微特征作為飲片性狀鑒別標準,對飲片圖像進行壓縮處理過度不利于特征提取,以及分類識別。

表1 常用的中藥飲片圖像預處理方法Tab.1 Common image preprocessing methods of Chinese herbal slices
圖像的三大底層特征包括紋理、顏色以及形狀。由于中藥材物種豐富,即使是屬于同一品種的藥材,由于生長地區、氣候的差異,同樣導致質量優劣有別。此外,采收時間或加工方法不同會導致中藥飲片的色澤、紋理、大小等性狀有所不同,這些差異為圖像分類提供了重要的依據,常見底層特征提取方法如圖4 所示。
中藥飲片紋理結構具有高度的復雜性,紋理特征是中藥飲片形狀鑒別的重要因素。例如,因產地不同導致差異的川黃柏與關黃柏[26],川黃柏內表皮具有細密的縱棱紋,關黃柏內表皮較平滑;同科不同植物根莖的知母與玉竹[27],知母外表皮有少量殘存的黃棕色葉基纖維和凹陷或突起的點狀根痕,玉竹切面有角質樣或顯顆粒性。
賈偉等[28]使用Tamura 方法[29]提取白芍等12 種飲片在粗糙度、對比度、方向度、線性度、規整度和粗略度6 個分量的紋理特征。
常見的紋理特征提取手段還有灰度共生矩陣法。陶歐等[30-31]選取羌活等12 味藥材利用灰度共生矩陣提取了11 個紋理特征參數。
針對相似紋理的不同藥材,王雪琰等[32]和Kan等[33]提出結合紋理和顏色形狀特征的方式對藥用植物進行特征提取。
由于飲片本身紋理特征的復雜多樣性單從糙度、對比度、方向度等幾個微觀維度衡量飲片紋理仍然具有局限性,還需要多種紋理特征參數結合從而更好描述飲片紋理細節。目前,缺乏統一的數學模型衡量多種紋理參數特征融合效果的優劣程度。紋理提取方法在對復雜環境的感知能力與適應性仍處于研究空白階段。
中藥飲片由于本身科屬、產地、炮制方式等因素,色澤會有差異。例如,寧夏枸杞色澤紅潤,而新疆枸杞新鮮時紅潤,曬干后變暗;陳皮隨著存放時間增加,受氧化反應的影響導致表面顏色會變得暗沉。常用顏色直方圖法、顏色參量統計特征法等手段提取飲片圖像顏色特征。
顏色直方圖描述的是不同色彩在整幅圖像中所占的比例,適于描述那些難以進行自動分割的圖像。如式(1)所示:
其中:k為圖像特征值;nk表示特征值k的像素總數;L為特征個數;N為圖像總像素數。
程銘恩等[26]利用OpenCV 通過顏色直方圖提取彩色飲片顏色特征,使用支持向量機(Support Vector Machine,SVM)分類器對自行采集的大黃等五種飲片的彩色圖像進行辨色處理,達到100%的準確率。
顏色參量統計特征法是對彩色圖像的顏色參量進行統計、分析和處理,常用RGB、HSI(Hue Saturation Intensity)等模型。HSI 模型在RGB 模型的基礎上加入飽和度(Saturation)、亮度(Intensity)兩個特征參量,將RGB 模型轉化成HSI 模型,如式(2)~(4)所示:
夏永泉等[34]利用HSI 模型對藥用植物葉片病斑彩色圖像的色調、飽和度分量進行閾值分割,通過去除綠色像素以獲取病斑區域。
常用于中藥飲片顏色特征提取的模型還有HSV(Hue Saturation Value)模型[22]等。楊濤等[25]通過麥冬病斑圖像在RGB 與HSV 顏色空間各顏色分量的一階矩、二階矩、三階矩提取病斑顏色特征,從而實現飲片顏色客觀量化。
顏色直方圖可以有效描述彩色圖像的全局顏色分布情況,但是容易受背景環境干擾。RGB 模型跟顏色直方圖有所類似,僅能對色調方面進行分析。通過引入飽和度、亮度、明度等特征可以衍生為HSI、HSV 模型等。目前,利用OpenCV可以實現特定顏色的識別和選取,通過RGB 顏色空間轉換可以轉換成HSI、HSV 等空間便于顏色特征提取。例如,西洋參與人參的顏色極其相似,單從顏色方面作為提取飲片圖像特征指標,容易導致對于飲片圖像的識別泛化效果差,系統魯棒性不高等問題。
由于藥用植物本身有性狀區別,形狀成為了中藥飲片分類的重要標準。不少學者利用飲片邊緣形狀以及大小進行植物識別。常見的形狀特征提取方法有:幾何特征計算法、不變矩陣特征法等。
1)幾何特征法是對飲片的面積、周長、偏心率、圓形度、矩形度等特征的計算。該方法普遍應用于葉類藥用植物特征提取。金夢然等[35]利用tpsDig2 軟件對10 種薔薇科植物葉片輪廓及主葉脈標記,計算特征參數,通過K最近鄰(KNearest Neighbor,KNN)分類算法。Kolivand等[36]通過邊緣檢測、葉片邊界去除、曲線提取、色調歸一化圖像生成和圖像融合5 個步驟完成了物種識別。
2)不變矩陣特征計算法是對飲片圖像區域特征的描述,矩不變量對飲片圖像的放縮、旋轉、平移具有不變性。金力等[37]利用Hu 不變矩結合幾何特征法提取12 種藥用植物葉片的10 個形狀特征,使用灰度共生矩陣法提取5 個紋理特征,通過SVM 分類器分類,平均識別率達到93.3%。
葉類中草藥的邊緣主要分為鋸齒狀、波狀、全緣、牙齒狀等,例如,茜草葉片邊緣呈細鋸齒狀,連錢草為凸波緣。常用的邊緣直方圖、邊緣方向直方圖提取植物外部輪廓。Anami等[38]從900 幅藥用植物圖像中利用邊緣直方圖和邊緣方向直方圖獲得邊緣特征。
形狀特征提取雖然對葉類飲片有比較好的描述效果,但該方法在根莖類飲片應用仍存在較大的挑戰。由于根莖類飲片的切制方法多樣,如斜切、橫切、縱切等,不同的切制方法邊緣特征提取效果不同,一定程度上的影響識別結果。結合紋理、顏色、形狀的多特征融合手段可以更全面地描繪飲片特征,以達到更好的分類效果。
中藥識別算法主要有基于機器學習、模式識別的傳統算法和基于卷積神經網絡(Convolutional Neural Network,CNN)的深度學習算法,其發展歷史如表2 所示。

表2 中草藥識別常用算法舉例Tab.2 Examples of common algorithms for Chinese herbal medicine recognition algorithms
傳統算法指的是基于淺層機器學習模型,利用神經元構建的淺層神經網絡,該網絡由輸入層、隱藏層和輸出層構成。目前在中藥領域的淺層機器學習模型主要有誤差反向傳播(error Back Propagation,BP)算法[21,49-53]、SVM[39-40]、KNN[47]等算法。
4.1.1 SVM
SVM 分類器在20 世紀90 年代在圖像識別、文本分類等場景中有很好的應用。SVM 具有算法簡單、訓練短時等優點,但是存在對于核函數的高維映射解釋力不強以及對缺失數據敏感等問題。
陸楷煜等[41]利用融合糾錯輸出編碼(Error Correcting Output Codes,ECOC)的支持向量機(SVM)識別模型對UCI(University of California,Irvine)數據集32 種640 張植物葉片圖像進行訓練、分類,識別率達92%,識別效果較好。
Mahajan等[42]提出了一種利用自適應助推技術結合支持向量機(SVM)從相應葉片圖像中提取形態特征的植物物種識別模型。
4.1.2 KNN
與其他算法不同,KNN 沒有參數訓練過程,簡單、易于理解。KNN 對每個待測試樣本都要計算它到事先加載在內存中的已知樣本的距離,導致計算復雜度高、內存消耗大。
王雷宏等[47]基于灰度共生矩陣提取胡頹子屬植物的紋理特征,構建KNN 分類模型準確率達到了93.75%。謝文涌等[48]將人工培養6 個品系的金線蓮葉片圖像經過紋理、顏色特征融合,構建以邏輯回歸、KNN、隨機森林和梯度提升決策樹為基分類器的Stacking 分類模型。
深度學習算法主要分為卷積神經網絡和循環神經網絡,在計算機視覺領域應用最多的是卷積神經網絡[64]。卷積神經網絡在原來多層神經網絡的基礎上,加入了更加有效的特征學習部分,具體操作就是在原來的全連接的層前面加入了部分連接的卷積層與池化層。目前在中藥識別領域應用的深度學習算法主要有GoogleNet[58-61]、VGGNet[55-56,58-60]、ResNet[22,41,55]、AlexNet[21,49,54-57]等。
4.2.1 AlexNet
產供集團目前也正為研究堆開發新型燃料。產供集團總裁納塔利婭·尼基佩洛娃9月25日在一次會議上表示,對于產供集團,研究堆燃料市場的重要性不亞于商業反應堆燃料市場。產供集團在研究堆燃料領域與國外伙伴開展了大規模合作,根據客戶的特定需求提供燃料。
AlexNet 于2012 年提出,具有8 層網絡結構,大約有6 000 萬個參數。AlexNet 使用層疊的卷積層來提取圖像的特征,同時使用dropout 進行訓練。該算法利用ReLU()取代Sigmoid 作為激活函數,有效提高收斂速度;但是帶來了死神經元的問題,在小于0 的地方會出現神經單元死亡,并且不能復活的情況。其網絡結構如圖5 所示。
黃方亮等[21]在百度圖片爬取5 類中草藥共計3 000 張圖片,經過圖像增廣將數據集量增加到12 000,在AlexNet 下準確率為87.5%。王艷等[49]對長白山野外實習采摘的15 種中草藥經過AlexNet 算法分類識別,平均識別精度為99.38%。
4.2.2 VGGNet
VGGNet[55-56,58-60]采用堆疊3 個3×3 卷積核的方式來替代1 個7×7 的卷積核,以保持和7×7 卷積核一樣的感受野。隨著卷積核尺寸的減小,參數量大幅減少,因此收斂速度更快,過擬合的風險也降低了。VGGNet 在2014 年的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽中,贏得了定位任務的冠軍,在分類任務中排名第二。VGGNet的網絡結構如圖6 所示。
左羽等[54]將經典卷積神經網絡VGGNet 16 與全卷積網絡(Fully Convolutional Network,FCN)相結合,把VGGNet 16中兩個通道數為4 096 的全連接層改為卷積層,構造一個新的VGGNet 16 模型為植物圖像分類模型,在植物圖像分類上的準確率達到97.23%。樊湘鵬等[55]對VGGNet 16 結構改進和優化,在病害葉片檢測平均準確率為98.02%,單幅圖像平均檢測耗時為0.327 s。陳雁等[56]在VGGNet 下對何首烏等60 種中藥飲片進行分類,分類準確率優于AlexNet。
4.2.3 GoogleNet
AlexNet、VGGNet 等算法主要通過增加網絡的深度以達到更好的分類效果,但網絡層數增加的同時也帶來了梯度消失、overfit、梯度爆炸等問題。GoogleNet 于2014 年面世,該分類算法使用1×1 卷積核進行降維以及映射處理,引入了Inception 結構(圖7)以融合不同尺度特征信息。
GoogleNet 的網絡架構的主要特點就是提升了對網絡內部計算資源的利用。相較于AlexNet 和VGGNet,GoogleNet 添加兩個輔助分類器幫助訓練,從而提高低層網絡的分類能力、阻止網絡中間部分梯度消失。同年,GoogleNet 獲得ImageNet 競賽的分類任務冠軍。
4.2.4 ResNet
ResNet[22,41,55]利用Shortcut Connection 結構(見圖8)來跳過網絡的某些層,以3.57%的Top5 錯誤率贏得了2015 年ILSVRC 比賽的冠軍。當增加網絡深度時,VGGNet 精度會達到飽和,然后很快下降。為了解決這個問題,ResNet 引入了快捷連接,網絡的輸出不是y=F(x),而是殘差塊的輸出y=F(x) +x或y=F(x) +ωx(當F(x)的維度與x不同時,需要將x調整到相同的維度),從而將網絡學習過程由直接構造原始輸入的函數轉變成構造相較于原始輸入的擾動特征函數,降低了學習的難度,反向傳播時梯度也可以快速回傳,解決了深層次網絡退化問題。
劉捷[61]利用植物數據集訓練VGGNet、GoogleNet、ResNet以及ResNet-inception 網絡模型,分別得到79.8%、90.4%、89.7%、92.8%的準確率。
4.2.5 DenseNet
鑒于ResNet 模型訓練生成的網絡中存在有的層貢獻很少的局限性,Huang等[67]于2017 年提出了DenseNet(見圖9),該模型脫離了傳統的網絡層數加深、網絡結構加寬機制,使用了跨層連接及以前饋方式,每個層都會接受其前面所有層作為其額外的輸入。相較于ResNet,DenseNet 旁路加強了特征的重用且具有更少的參數量,有效緩解了梯度消失(gradient vanishing)、模型退化(model degradation)的問題,更易于訓練。
吳云志等[62]將87 867 張植物病害圖像分別在DenseNet169、ResNet50 和MobileNet 下實驗,發現在DenseNet169 下識別效果最好,得到測試集識別準確率為98.23%。
除了以上介紹常用于中藥飲片分類的算法外,還有SqueezeNet[68]、ShuffleNet[69-70]、MobileNet[71-73]、ESPNet(Efficient Spatial Pyramid Network)[74-75]、FBNet(Facebook Berkeley Nets)[76-78]、EfficientNet[79-80]、SkipNet[81]等輕量級CNN如表3 所示,其主要特點是在保持精度的前提下,從體積及速度兩方面對網絡進行輕量化。雖然現階段神經網絡在GPU 上運行速度已經可以達到實時性要求,但是移植到手機端或者其他設備上還存在運行速度的問題,測試速度過慢會導致用戶時間上等待的負擔。在移動設備上推理速度上的提升尤為重要,而輕量級CNN 研究在此方面具有良好的優勢。

表3 常用的輕量級CNNTab.3 Common lightweight CNN
實驗數據集包括12 類飲片(圖10,括號中的數字為該飲片對應的標簽序號),參照2020 版《中國藥典》一部對中藥飲片圖像進行篩選,篩選后得到共9 156 張圖片,其中,3 702 張圖片來自網絡,手工拍攝5 454張,拍攝工具是華為榮耀50se。針對形態相似的花類、根莖類飲片做圖像分類,數據集具體分布情況如圖11 所示。利用留出法(Holdout cross validation)按照固定比例將數據集靜態劃分為訓練集、驗證集、測試集,三者比例為6∶2∶2。
對于傳統分類方法,利用HOG 提取飲片圖像特征。深度學習模型由于卷積核有提取特征的功能,故不另做傳統特征提取。
對自建數據集進行分類測試,利用以下指標對模型進行性能評估:準確率(Accuracy)、召回率(Recall)、精確度(Precision)、特異性(Specificity)以及混淆矩陣。表4 為飲片圖像在各分類網絡下利用宏平均法的實驗結果。
Accuracy、Recall、Precision、Specificity的計算公式分別如式(5)~(8)所示:
其中:TP(True Positive)為真實是正確類,預測成正確類的樣本數量;FP(False Positive)為真實是錯誤類,預測成正確類的樣本數量;TN(True Negative)為真實為錯誤類,預測成錯誤類的樣本數量;FN(False Negative)為真實是正確類,預測成錯誤類的樣本數量。
在本次案例分析實驗中由于所挑選的根莖類中藥飲片性狀特征較為相似,常常容易被誤判,ShuffleNet v2 相較于其他算法表現出更好的分類效果。如圖12 所示,紅芪在不同分類模型下預測示例中,只有ShuffleNet v2 正確識別出了紅芪。如表4 所示,ShuffleNet v2 表現最佳,Precision為91.4%,Recall為90.0%,Accuracy為98.6%,比同為輕量級網絡的MobileNet v2在Accuracy上高2.2 個百分點。
圖13 為ShuffleNet v2 下飲片圖像的混淆矩陣,橫軸表示中藥飲片圖像的真實標簽值,縱軸表示每類中藥飲片圖像的預測標簽值,標簽序號對應的飲片圖像如圖10 所示,對角線上的數值代表每一類圖像中被正確分類的數量,顏色越深代表該中藥飲片類別預測準確的數量越多。如混淆矩陣所示,ShuffleNet v2 對于本身區分特征不夠明顯或者由于拍攝角度沒拍出其鮮明特征的相似飲片圖像,仍出現誤判狀況。對于本身區分特征不夠明顯或者由于拍攝角度沒拍出其鮮明特征的相似飲片圖像,仍出現誤判狀況。例如,在該算法下金邊玫瑰由于相較于其他品種具有花托上有金色窄邊的鮮明特點,準確率較高,但是主要依賴大小以及葉柄小葉數量區分的重瓣玫瑰與月季在各網絡中常被誤判。
如表4 所示,基于卷積神經網絡的分類算法比傳統淺層機器學習算法在圖像分類上存在較大優勢。由于飲片圖像涉及多種特征,單一利用HOG 提取圖片邊和角等特征有較大局限性,利用傳統淺層機器學習方法分類需要嘗試多種不同的提取特征方法,工作量較大。利用深度學習方法通過卷積核可以有效提取圖片特征,工作量較小且可以達到良好的識別效果。ResNet 參照VGGNet 使用3×3 卷積核,并在此基礎上加入Shortcut 結構,使得ResNet 在更深的網絡得以有效訓練,在計算效率跟準確率上相較于VGGNet 有明顯的提高。ResNeXt 提出aggregrated transformations,利用平行堆疊相同拓撲結構的blocks 代替原來 ResNet 的三層卷積的block,通過分組卷積機制減少超參數,降低復雜度,還提高了性能。ResNet 與ReNeXt 分類效果較好,適用于藥企等單位進行精細化飲片篩選,減少員工工作量,但是存在內存需求量大且測試時間較長等問題。

表4 各算法分類結果Tab.4 Classification results of different algorithms
隨著輕量級CNN 的快速發展,SqueezeNet、ShuffleNet 等輕量級網絡逐漸活躍在大眾視野中。MobileNet v2 在沿用MobileNet v1 的Width Multiplier 的基礎上,借鑒ResNet 引入殘差結構,通過先升維再降維的方式,減少3×3 模塊的計算量,提高殘差模塊的計算效率。本文實驗中MobileNet v2的Recall為74.2%,而模型大小為8.73 MB,遠比VGGNet-16、ResNet 小。ShuffleNet v2 提出channel split 操作,在加速網絡的同時進行了特征重用,在本文實驗中Recall為90.0%,Precision為91.4%,均比MobileNet v2高,模型大小接近MobileNet v2 的一半。MobileNet 與ShuffleNet 測試速度快、內存需求量小且運算量小,適用于基于移動設備輔助廣大群眾日常對藥食同源的飲片進行選擇。
除了以上網絡外,還有VGGNet 的演變RepVGG、ResNet的發展ResNeSt 以及近期比較火熱的Transformer 等網絡,在中藥飲片識別上仍存在較大發展空間。RepVGG 借鑒ResNet 殘差結構的特點,在VGG 網絡的Block 中加入了Identity 和殘差分支,可用于飲片圖像分類時處理深層網路中的梯度消失問題,使得網絡更加易于收斂。ViT(Vision Transformer)基于自注意力機制,相較于CNN,ViT 更善于把握整體,具有在區分飲片形狀細微特征的優勢。葉類飲片曬干易碎,可借助ViT 在葉片邊緣形狀鑒別上的優勢區分。將不同網絡的優勢相結合以提高不同狀況中藥飲片識別的性能具有較大發展潛力。
雖然目前計算機視覺在中藥飲片分類研究領域取得了一些突破,但在實際應用上還是有很大的發展空間。本文通過對目前計算機視覺在中藥領域存在的應用范圍、分類算法改造、數據集的建立等方面進行歸納和總結,希望能為領域內研究人員提供新的探究方向與思路。
1)在應用領域方面,目前研究多是對中藥飲片類型的判定,采用計算機視覺方法應用中藥飲片質量等級鑒定、真偽判別、霉變情況、道地藥材篩選等的研究仍然處于空白階段。尤其是基于細粒度識別對同種飲片人工栽培品,野生品的區分,具有較大的市場推廣潛力。在飲片識別領域普遍為單目標分類,缺乏對多目標識別的研究。多目標識別可應用于在復方中對飲片的識別,幫助大眾了解認識中藥飲片以及常見配伍。
2)在數據集方面,目前在中藥領域研究多針對鮮活植物數據集,缺乏中藥飲片圖像的標準數據集。相較于鮮活植物,飲片在炮制方式、存儲狀況方面具有更大的研究挑戰性。
3)不同研究者使用的飲片數據庫各不相同,難以比較不同算法的性能優劣和魯棒性。不同背景、光源下的圖像數據集的缺乏,直接導致識別模型泛化能力差,識別精度易受復雜背景干擾。本案例中數據集所采用圖片多為主體明顯的圖片,后期需要補充復雜背景、不同光源下主體不明顯的飲片圖像。
4)大部分中藥材都需要經過切片、曬制或烘焙等流程,經過這些流程,顏色、形狀等特征的特異性被減弱,分類難度被提高。飲片單一特征提取分類效果較差,單特征具有可變性、不確定性,直接影響識別的穩健度。HOG 目前在行人檢測領域有很好的效果,但是在本次案例研究中,HOG+SVM在識別月季以及不同品種的玫瑰上表現較差,由于其主要針對紋理特征忽略了顏色特征的作用。因此,需要結合多種底層特征或者結合深度學習方法提取飲片本體特征以提升分類效果。
5)飲片識別算法大多數是探索性的,沒有一個統一的評價標準,所以難以實現飲片種類系統之間的定量比較。在算法改造上,目前研究顯示深度學習相較于傳統算法的性能有了較大提升,但算法的魯棒性和可解釋性方面需要更深入的研究。在本次實驗中,各分類網絡對于本身區分特征不夠明顯或者由于拍攝角度沒拍出其鮮明特征的相似飲片圖像常出現誤判,仍需要進行更多分類網絡改進等方面的研究。
本文針對計算機視覺在中藥飲片領域的應用,介紹了圖像分類技術在中藥飲片方面的相關原理和知識,并對圖像預處理、特征提取、分類網絡等方法以及研究現狀進行深入探討。這些方法對基于計算機視覺的飲片分類研究具有很好的指導價值。
中藥飲片篩選是中醫臨床用藥必不可少的部分,基于計算機視覺技術可以輔助企業飲片篩選智能化,幫助大眾認識中藥。雖然傳統分類算法方法在外觀特征區別較大的中藥飲片有很好的表現,但是面對性狀相似飲片,深度學習方法的分類效果明顯高于傳統分類算法。在中藥飲片圖像分類領域中,目前面臨著飲片圖像標準數據集缺乏、沒有統一的評價標準等問題。面對性狀相似飲片區分的挑戰,在網絡結構改進方面的研究具有很大的發展空間。