陳云霞 周婷媛 鄒智元



摘要:文章提出一種基于計算機視覺的象牙鑒定方法,通過專用圖像采集設備實現(xiàn)高清象牙紋理圖像拍攝,采用圖像增強方法對原始圖像進行預處理并建立象牙紋理圖像數(shù)據(jù)集,基于深度神經網絡訓練象牙識別模型對象牙紋理圖像進行特征提取和分類,從而實現(xiàn)猛犸象牙與現(xiàn)生象牙鑒定。結果表明該方法能夠快速、有效地對象牙制品進行鑒定與識別,解決目前的執(zhí)法難題。
關鍵詞:象牙鑒定;計算機視覺;深度神經網絡
中圖分類號: TP391.4? 文獻標志碼: A
0 引言
現(xiàn)生大象是珍貴的瀕危野生動物,非洲象、亞洲象均已列入《瀕危野生動植物種國際貿易公約》(Convention on International Trade in Endangered Species of Wild Fauna and Flora,CITES)名錄。其中,亞洲象主要分布于云南省南部以及南亞和東南亞地區(qū)。象牙及其制品的市場貿易持續(xù)得到國家決策層和學術界的關注,由于不法人員對大象的大規(guī)模獵殺,野生大象的數(shù)量急劇減少。因此,限制象牙制品貿易和抵制象牙及制品,對保護野生動物資源具有重要意義。然而,在執(zhí)法過程中如何快速、有效地對類象牙制品進行鑒定與識別,是目前亟待解決的問題[1]。
目前,在野生動物保護執(zhí)法過程中,象牙識別可以參照CITES提供的象牙及其仿制品鑒定方法。該方法為野生動物保護執(zhí)法人員、科學家和管理人員提供了一種非破壞性的識別手段,以實現(xiàn)初步的真?zhèn)舞b定。通過肉眼觀察鑒別象牙主要依據(jù)牙紋,即施氏線(Schreger Line)以及施氏線相交形成的施氏角(Schreger Angle)。其中施氏角包括:(1)凹角,角頂點指向象牙外圍的牙骨質;(2)凸角,角頂點指向象牙中心。表1是對2類象牙施氏角的統(tǒng)計數(shù)據(jù),其中,現(xiàn)生象牙(亞洲象或非洲象)的施氏角(凹角和凸角)的平均角度大于110°;猛犸象牙的施氏角平均角度小于100°;而象牙仿制品的斷面則無明顯的施氏線。除施氏角外,還可以通過內部象牙質的退化狀態(tài)進行輔助判斷,若未出現(xiàn)明顯的退化則為現(xiàn)生象牙,否則為猛犸象牙[2-3]。
通過化學、物理或分子方法鑒定象牙,主要依據(jù)象牙成份的化學性質、物理性質或基因序列,這種檢測方法通常會對象牙制品造成一定的損壞。通過文獻研究發(fā)現(xiàn),目前,尚沒有通過數(shù)字成像和計算機圖像識別算法進行象牙鑒定與識別的技術或方法。
本文采用專用圖像采集設備實現(xiàn)高清象牙紋理圖像拍攝,通過圖像增強方法對原始圖像進行預處理,建立象牙紋理圖像數(shù)據(jù)集,最后基于深度神經網絡訓練象牙識別模型進行特征提取,從而實現(xiàn)基于象牙紋理圖像的猛犸象牙和現(xiàn)生象牙分類。
1 象牙鑒定方法
本文提出一種基于象牙紋理圖像和深度學習模型的計算機視覺象牙鑒定方法。首先,通過高清相機采集象牙表面紋理圖像;其次,對原始象牙圖像進行圖像增強,并建立高清象牙紋理圖像數(shù)據(jù)集;最后,訓練深度神經網絡構建象牙分類模型,從而實現(xiàn)猛犸象牙和現(xiàn)生象牙識別。通過該方法能夠在不損傷象牙制品的條件下進行鑒定,以下分為3個方面進行詳細介紹。
1.1 象牙紋理圖像采集
針對象牙紋理圖像采集問題,本文通過建立象牙圖像采集系統(tǒng)對象牙制品的表面紋理進行拍攝。在采集大量象牙高清圖像的同時,根據(jù)樣品屬性對所采集圖像標注其具體類型,包括猛犸象牙和現(xiàn)生象牙,為建立象牙高清數(shù)據(jù)集提供基礎信息。
為實現(xiàn)上述象牙圖像采集效果,本文采用高清相機建立象牙圖像采集系統(tǒng),包括硬件和軟件部分。其中,硬件部分由高清CCD工業(yè)相機、LED光源、鏡頭、供電模塊、USB模塊等組成。建立高清圖像采集模塊,進而設計并開發(fā)專用象牙圖像采集軟件。象牙圖像采集系統(tǒng)的硬件部分先通過USB方式與計算機連接,再與象牙圖像采集系統(tǒng)的軟件部分對接,從而實現(xiàn)實時的象牙圖像采集與存儲。
1.2 象牙紋理圖像數(shù)據(jù)集
建立象牙紋理圖像數(shù)據(jù)集主要包括3個環(huán)節(jié):圖像預處理、圖像標注、圖像劃分。數(shù)據(jù)集主要依靠人工結合計算機批處理來完成。
首先,對原始象牙圖像進行預處理,具體包括:(1)針對原始象牙圖像截取有效區(qū)域并進行旋轉校正和畸變校正;(2)針對校正后的象牙圖像,采用基于滑動窗口的圖像增強方法,批量截取不同區(qū)域的圖像塊(Patch),并記錄每個Patch的原始圖像信息;(3)針對截取所得的Patch進行篩選,保留具有清晰象牙紋理的Patch,剔除其他非紋理區(qū)域的Patch,篩選過程可采用計算輔助人工來完成。
其次,對篩選所得具有清晰象牙紋理的Patch進行類別標注。本文主要對猛犸象牙和現(xiàn)生象牙進行分類,因此,在對象牙圖像數(shù)據(jù)進行標注時,其數(shù)據(jù)標簽應當主要包含2種類別標簽,其中,0表示猛犸象牙,1表示現(xiàn)生象牙。數(shù)據(jù)標注采用計算機自動處理,直接根據(jù)圖像采集時記錄的象牙制品類型獲得。
最后,對標注后的象牙紋理圖像按照一定比例進行劃分,建立訓練集、驗證集和測試集,劃分比例通常采用8∶1∶1,根據(jù)模型訓練需求的不同,也可以采用其他比例。其中,訓練集用于深度學習模型訓練,驗證集用于優(yōu)選模型訓練的權重,測試集用于評價模型性能。
因此,本文建立的高清象牙紋理圖像數(shù)據(jù)集主要包括4個部分:訓練集、驗證集、測試集和額外測試集。該數(shù)據(jù)集可用于象牙識別算法的模型訓練、權重優(yōu)選與性能評估。
1.3 象牙識別算法模型
針對野生動物保護執(zhí)法過程中需快速、有效地對類象牙制品進行鑒定與識別問題,本文基于深度卷積神經網絡建立象牙識別模型,通過高清象牙紋理圖像進行模型訓練,實現(xiàn)猛犸象牙和現(xiàn)生象牙的鑒定。
本文采用神經網絡架構自動搜索技術,由架構搜索算法對深度卷積神經網絡結構層數(shù)、類型和配置參數(shù)進行搜索,找到合適的網絡架構,從而對深度模型的大量試錯訓練過程進行簡化,進而構建基于神經網絡單元的模型架構。殘差模塊結構如圖1所示。
本文通過神經網絡架構搜索得到的2種網絡架構分別是基于殘差模塊的ResNet-8網絡架構和基于Fire模塊的SqueezeNet-6網絡架構。其中,殘差模塊的結構如圖1所示。3個f1(x)和f2(x)實現(xiàn)特征提取,原始輸入x通過跳躍連接與學習殘差進行加和從而實現(xiàn)殘差學習。ResNet-8網絡架構則是依次堆疊8個殘差模塊建立。Fire模塊的結構如圖2所示,包括一組由3個1×1卷積運算組成的擠壓塊(Squeeze)和一組由3個1×1卷積運算與3個3×3卷積運算構成的擴展塊(Expand)。SqueezeNet-6網絡架構則是依次堆疊6個Fire模塊,并且分別在第1個和最后1個Fire模塊之前與之后添加1個卷積層。
圖2 Fire模塊結構
2 模型訓練與評估
本文基于高清象牙紋理數(shù)據(jù)集中的訓練集對2種架構的象牙識別網絡模型進行訓練,基于驗證集優(yōu)選擬合效果最優(yōu)的模型權重,基于測試集與額外測試集對模型的學習性能和泛化能力進行評估。
2.1 實驗設置
本文基于Ubuntu 16.04 LTS操作系統(tǒng),構建模型訓練和測試的實驗環(huán)境。為提高模型訓練速度,在硬件方面配備了2個型號為NVIDIA GeForce GTX TITAN X的GPU,其中,每個GPU包含12 GB顯存和3 072個CUDA并行計算核心。在實驗算法程序運行上,采用了NVIDIA提供的CUDA 9.0、cuDNN 9.0、NCCL 2.2等深度神經網絡運算加速技術及多卡并行計算技術。
實驗數(shù)據(jù)方面,訓練集、驗證集、測試集采用數(shù)據(jù)量比例為8∶1∶1,原始象牙圖像的分辨率為1 000×1 000像素,共采集312張。進而,采用多種分辨率截取Patch,具體包括768×768像素、512×512像素、384×384像素、256×256像素、128×128像素。同時,考慮到Patch分辨率較高時,實際截取的Patch數(shù)量會減少,采用水平鏡像的方式進行圖像增強,從而增加訓練數(shù)據(jù)量。額外測試集共采集原始象牙圖像320張,在進行象牙識別模型的泛化能力評估時,會根據(jù)訓練時采用Patch的分辨率對原始象牙圖像進行截取。
2.2 實驗結果
基于ResNet-8模型的象牙識別實驗結果,如表2所示。表2依次列舉了訓練所得象牙識別模型在驗證集、測試集、額外測試集上的精度。其中,數(shù)據(jù)劃分依次為訓練集、驗證集、測試集所包含的象牙紋理圖像Patch數(shù)量,采用水平鏡像進行圖像增強時,Patch數(shù)量會增加1倍。
該實驗結果可以得出,在Patch分辨率為512×512像素時,ResNet-8模型對訓練數(shù)據(jù)的擬合性能和泛化性能達到最優(yōu),精度分別為87.25%和85.04%。采用水平鏡像的方法可以有效提高模型的擬合性能,對提高模型的泛化能力也具有一定的作用。Patch分辨率為768×768像素時模型的擬合性能最低,但其在額外測試集上的泛化能力略優(yōu)于分辨率為384×384像素、256×256像素、128×128像素時的泛化性能。雖然,Patch分辨率為384×384像素、256×256像素、128×128像素時,模型的擬合性能和泛化性能逐漸提高,但仍低于Patch分辨率為512×512像素的模型,特別是他們的泛化性能均遠低于Patch分辨率為512×512像素的模型。
基于SqueezeNet-6模型的象牙識別實驗結果如表3所示。從表3可以得出,在Patch分辨率為512×512像素時,SqueezeNet-6模型對訓練數(shù)據(jù)的泛化性能達到最優(yōu),精度為85.62%;在Patch分辨率為384×384像素時,SqueezeNet-6模型對訓練數(shù)據(jù)的擬合性能達到最優(yōu),精度為90.71%。水平鏡像的方法也可以有效提高該模型的擬合性能。該模型在Patch分辨率為256×256像素、128×128像素時,也具有相對ResNet-8模型較高的擬合性能和泛化性能。
2.3 實驗分析
對本文在所建立的高清象牙紋理圖像數(shù)據(jù)集上實驗結果進行綜合分析,可以得出,在Patch分辨率為512×512像素時,ResNet-8模型和SqueezeNet-6模型的泛化性能達到最優(yōu)。相對較大分辨率的Patch,模型對較小分辨率Patch的擬合性能更好,說明在這些分辨率下,象牙紋理具有更強的表達能力,更容易通過深度卷積神經網絡模型進行特征提取。
通過上述實驗可以證明,本文所提出的基于象牙紋理圖像和深度卷積神經網絡模型的計算機視覺
象牙鑒定方法,能夠有效解決猛犸象牙和現(xiàn)生象牙的識別問題。根據(jù)在額外測試集上的實驗結果可知,ResNet-8模型和SqueezeNet-6模型的泛化性能均已達到85%以上,基本達到實際應用的需要。
3 結語
針對禁止現(xiàn)生象牙貿易中象牙品種鑒定的難題,本文提出一種基于計算機視覺的象牙鑒定方法,通過采集高清象牙紋理圖像并建立數(shù)據(jù)集,進而基于ResNet和SqueezeNet 2種深度卷積神經網絡架構訓練象牙識別算法模型,對猛犸象牙與現(xiàn)生象牙的紋理進行特征學習。實驗結果表明,該方法能夠實現(xiàn)肉眼難以分辨的象牙制品的識別,為禁貿執(zhí)法現(xiàn)場提供一種快速、有效的初篩手段。
由于采集象牙制品的紋理圖像數(shù)據(jù)量有限,本文訓練所得ResNet-8和SqueezeNet-6 2種象牙識別模型的泛化性能還有較大提升空間,模型識別結果的穩(wěn)定性還有待提高,尚無法用于精準鑒定象牙品種,在實際使用中還需要結合其他人工鑒定方法才能確保最終鑒定結果的正確性。在未來工作中,可以繼續(xù)采集象牙紋理圖像,對象牙識別模型進行優(yōu)化訓練,從而不斷提高模型的泛化性能和穩(wěn)定性,達到替代人工鑒定的效果。
參考文獻
[1]崔嘯峰.中國內地象牙、穿山甲片等野生動物及制品走私案件分析[D].哈爾濱:東北林業(yè)大學,2020.
[2]胡紅.象牙及其制品鑒定技術標準的研究[D].哈爾濱:東北林業(yè)大學,2010.
[3]中華人民共和國海關總署.象牙及其制品鑒定技術規(guī)范:SN/T5275—2019[S].北京:中國標準出版社,2019.
(編輯 姚 鑫編輯)
Computer vision-based identification method for mammoth and live ivory
Chen? Yunxia1, Zhou? Tingyuan2, Zou? Zhiyuan3
(1.School of Criminal Science and Technology, Nanjing Police University, Nanjing 210023, China;
2.The 15th Institute of China Electronics Technology Group Corporation, Beijing 100083, China;
3.Computer School, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract:? In this study, a computer vision-based ivory identification method is proposed. A special image acquisition device is used to capture high-resolution ivory texture images, a dataset of ivory texture images is established, and deep neural networks are used to train ivory recognition models to extract and classify ivory texture images, so as to realize the identification of mammoth ivory and live ivory. The experimental results show that this method can quickly and effectively identify ivory products and solve the current law enforcement problems.
Key words: ivory identification; computer vision; deep neural network