趙恩銘,楊 松,姚志強
(大理大學工程學院,云南大理 671003)
我國是一個多民族融合的國家,其中民族服飾代表著各民族的特色〔1〕。由于受社會現代化的影響,具有數千年文化底蘊的民族服飾正在逐步淡出人們的視線。民族服飾的辨識能夠起到科普民族服飾特點的作用〔2〕,對推廣民族服飾文化,加強大眾保護民族文化的意識有較好的促進作用。
民族服飾識別系統需要對用戶在不同環境下所拍攝的圖像進行識別。通常圖像識別效果受許多因素影響〔3〕,例如光照強度〔4〕、拍攝角度〔5〕和復雜背景〔6〕等。傳統的目標識別方法采用手動設計特征的方式〔7〕,模型只能夠獲得目標的顏色、梯度、紋理和形狀等基礎特征信息并無法做到目標深度特征信息的提取,往往導致在復雜背景下識別效率不理想。2012年卷積神經網絡(convolutional neural networks,CNN)〔8〕的興起突破了傳統目標識別方法中圖像特征提取的瓶頸,該網絡能夠自主學習目標特征并達到較好的分類效果。
目前常見的目標識別算法基本都基于CNN〔9〕,其中以One-Stage為代表的YOLO算法〔10〕與SSD算法〔11〕,Two-Stage為代表的Faster-RCNN算法〔12〕效果最為突出。通過綜合對比分析上述3種算法在民族服飾識別上的效果,設計一種基于Faster-RCNN算法的民族服飾識別系統。該系統能夠有效地識別白族、苗族和蒙古族服飾。
1.1 Faster-RCNN算法原理Faster-RCNN算法屬于RCNN算法系列的目標識別算法〔13〕,該算法在特征提取和分類能力上都有很好的效果。Faster-RCNN算法最早由Shaoqing Ren等人提出,針對Fast-RCNN算法〔14〕選擇性搜索找出所有候選框耗時長的問題,在Fast-RCNN算法基礎上采用區域建議網絡(region proposal networks,RPN)來提高模型分類效率,實現了真正意義上的端到端識別。
Faster-RCNN算法基本結構圖如圖1所示,主要由特征圖提取、RPN、ROI(regions of interest,ROI)池化和分類這4部分組成。輸入圖像經卷積層、ReLu層和池化層后得到特征圖像,此處常用的圖像特征提取網絡有VGG16網絡〔15〕、ResNet50網絡〔16〕和Xception網絡〔17〕。本設計選取具有殘差網絡結構的ResNet50網絡作為主干特征提取網絡,其主要目的是為了克服因網絡深度加深導致模型學習效率低和準確度無法很好提升的問題。RPN網絡主要用于生成高質量建議區域框。ROI池化可以從不同大小的建議區域得到固定大小的特征圖,便于分類階段的特征圖進行全連接操作。分類部分包括分類層和回歸層。分類層主要用來確定檢測目標的類別,回歸層用來得到預測目標的準確位置區域即邊界框。Faster-RCNN算法主要用于提取高質量建議區域的特征并對建議區域進行分類操作〔18〕。

圖1 Faster-RCNN的構成
1.2 非極大抑制算法原理通常在Faster-RCNN算法最后一層使用非極大抑制(non-maximum suppression,NMS)算法〔19〕,該算法能根據邊界框的不同置信度(系統給出的邊界框分數)消除多余的邊界框,只保留置信度最大的邊界框。因此NMS能夠達到搜索局部極大值,抑制非極大值元素的效果。抑制效果見圖2(該圖像拍攝于大理古城街市)。

圖2 NMS消除多余邊界框
1.3 Faster-RCNN算法損失函數在Faster-RCNN算法中,對一張圖像的多任務損失函數定義為:

其中,pi是框內預測為目標的概率,pi*是實際目標的概率,Ncls和Nreg為標準化項,λ為權衡系數,ti是一個向量,代表預測的邊界框的參數坐標,ti*為候選框相對于目標所在的真實框的實際偏移量。關于pi*、ti和ti*的定義如下:

其中,

Lcls(pi,pi*)是針對目標與非目標類別的對數損失,可表示為:

Lreg(ti,ti*)是針對目標與非目標類別的對數損失,可表示為:

其中,

在該算法中,RPN網絡使用隨機梯度下降法優化損失函數,找到損失函數的最小值,同時也完成參數的調整。RPN網絡的輸出經NMS算法能夠有效得到候選框。
2.1 數據集的構成截至目前,互聯網上仍未有較為權威的傳統民族服飾數據集,所以本模型數據集采用人為收集互聯網上的民族服飾圖像,見圖3,經圖像數據篩選后得到白族、苗族和蒙古族服飾圖像各1 000張。將所得數據集使用LabelImg工具進行不同標簽的標記,為后續的神經網絡訓練做好鋪墊。本模型所使用的數據集嚴格按照ImageNet公布的VOC2007標準數據集格式進行預處理。數據集按照訓練集和測試集9:1的比例進行劃分,并采用Tensorboard監控模型的訓練過程做到實時掌控訓練進度。苗族服飾種類繁多,據不完全統計已超上百種,苗族服飾的頭飾主要以銀飾為主,服飾仍保持織、繡和染等工藝技法使得服飾圖案溢彩流光。白族崇尚白色,以白色為尊貴,白族服飾基本以白色作為底色,頭纏繡花包頭和腰系短圍腰,色彩鮮明,美觀大方。蒙古族服飾以蒙古袍為主,蒙古袍以寬大袖長、高領居多。同時腰帶也是蒙古族服飾的一部分,一般與蒙古袍顏色相近,美觀的同時也起到防寒保暖作用。

圖3 數據集示例
2.2 民族服飾識別系統的網絡模型訓練Faster-RCNN算法由RPN網絡和Fast-RCNN算法組合而成,所以相應的訓練階段也包括兩個部分。
(1)RPN網絡使用隨機梯度下降法進行訓練。基于ImageNet公布的VOC2007標準數據集采用遷移學習的方式初始化本模型RPN網絡。
(2)Fast-RCNN網絡同樣也是利用ImageNet分類任務預訓練網絡實現初始化,得到一個單獨的檢測網絡。Faster-RCNN算法允許不同尺寸的輸入圖像,該算法通常會把輸入的圖像短邊尺寸固定到600像素,并保留原圖比例避免失真。原圖像首先經過5層卷積得到特征圖,最終將特征圖經全連接層連接得到區域邊界框和每個類別的概率,此時兩個網絡還未共享卷積層。
接下來用檢測網絡初始化RPN網絡訓練,此時固定共享卷積層只微調RPN網絡獨有的參數層,達到兩個網絡已經共享卷積層的目的。最后保持共享的卷積層,微調Fast-RCNN的全連接層。經上述步驟后兩個網絡已經共享了相同的卷積層并構成了統一的網絡。
2.3 系統框圖民族服飾識別系統的識別流程圖見圖4,將原圖像傳入已經訓練好的Faster-RCNN民族服飾識別系統中,系統會自動對原圖像進行目標識別并對識別結果進行判斷。當識別到目標時,系統會通過計算給出識別后帶有邊界框的圖像和對應的識別信息,若未識別到目標則直接結束本次任務。系統的輸出信息包括類別、置信度和目標對應位置的坐標信息。

圖4 系統框圖
3.1 評價方法精準度(Precision)和召回率(Recall)是常見的二分類模型評價指標,用在多分類模型中往往很難準確評價模型的好壞。平均精度(average precision,AP)綜合了精準度和召回率對模型效果的評價,該指標是多分類模型中較為常見的評價指標。平均精度值(mean average precision,MAP)是將AP求平均得到,進一步提高了指標對模型評價的準確度。
精準度的表達如下:

其中,NTP是被判定為正確的個數;NFP是被判定為錯誤的個數。
召回率一般指的是某類目標對應的識別率,其表達式為:

其中,NFN為漏檢的個數。
MAP的定義如下:

其中,QR是數據集R的總類別數;q為數據集的類別。理論上模型的MAP值越大,模型分類效果越好。
3.2 民族服飾識別效果本系統的AP值與MAP值見圖5~6。從AP圖上可以看出召回率和精準度所構成的曲線下方的面積即為對應分類的AP值。圖5中白族服飾和白族帽子的AP值分別為81.75%和73.92%,在本次數據集6類圖像中分類效果最好。苗族服飾的AP值僅為47.67%,識別效果最差。苗族服飾種類繁多,網絡上收集的高質量苗族服飾圖像較少,這應該是本次實驗苗族服飾識別效果最差的根本原因。MAP圖是對所有類的AP值求平均得到,可以看出本系統的平均精度值為67.88%,能夠滿足辨識民族服飾的需求。

圖5 模型AP值

圖6 模型MAP值
本次實驗是為了起到弘揚民族服飾文化的作用,幫助人們了解民族服飾文化和正確辨識大部分白族、苗族和蒙古族服飾圖像。綜合所有分類效果可以得出民族服飾識別系統滿足本次對白族、苗族和蒙古族服飾識別的需求。
本文所搭建的民族服飾識別系統的目標識別效果見圖7。可以看出,本系統能夠以較高的準確率識別白族、蒙古族和苗族服飾。同時此次測試屬于復雜背景下的目標識別,本識別系統能夠有效避開干擾服飾圖像,從復雜背景中提取對應的民族服飾信息。同時在系統界面的下方可以清楚地看到系統給出該圖像被識別出的所有類別、置信度和坐標信息。該系統基本能夠正確標記出對應民族服飾圖像,部分蒙古族帽子未被識別,原因可能是一張圖像中出現多個目標,識別難度提高以及蒙古族服飾品類繁多,數據集不夠完善。

圖7 民族服飾識別系統的識別效果
為測試本系統的有效性,通過與YOLOV4算法、SSD算法進行比對,結果見表1。從表中可以看出Faster-RCNN算法模型訓練時間較長,但其MAP值為67.88%,在3種不同的模型中效果最好,Faster-RCNN算法比YOLOV4算法的MAP值提升了13.24%,比SSD算法的MAP值提升了20.56%。故Faster-RCNN算法應用在本文所設計的民族服飾識別系統中識別效果更佳,更能滿足本項研究的需求,同時數據集的多樣性也保證了該模型的泛化能力。從表中也可看出,YOLOV4算法和SSD算法雖然模型訓練時間較短,但MAP值遠遠不及Faster-RCNN算法,并不滿足本研究識別精度的需求。

表1 不同算法在民族服飾數據集上的識別效果
本文基于Faster-RCNN算法設計了民族服飾識別系統,與YOLOV4算法和SSD算法相比,Faster-RCNN算法具有更高的MAP值,能夠滿足對白族、苗族和蒙古族民族服飾的辨識需求。Faster-RCNN算法作為Two-Stage的代表算法,利用RPN網絡結合Fast-RCNN網絡,比One-Stage算法達到了更好的民族服飾識別效果。該系統能夠起到科普民族服飾特點和推廣民族服飾文化的作用。