董博華,韓 笑,宋毅洲,安寧寧,劉韻婷
(沈陽理工大學(xué),遼寧 沈陽110168)
隨著時(shí)代的進(jìn)步,人們已經(jīng)習(xí)慣用手機(jī)解決生活中的大多數(shù)問題,而當(dāng)人們遇到一種感興趣的植物時(shí),一定想知道它的種類和特性等信息,如果能通過一款手機(jī)APP 立即獲得該植物的信息會相當(dāng)方便。對于植物識別這類圖像分類任務(wù),使用深度卷積神經(jīng)網(wǎng)絡(luò)模型,即用深度學(xué)習(xí)算法來解決,與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比具有不可比擬的優(yōu)勢。目前人們做圖像分類很少自己改通用模型結(jié)構(gòu),基本都是根據(jù)具體的圖像分類問題選擇一個(gè)合適的模型,然后做數(shù)據(jù)增廣、計(jì)算訓(xùn)練、調(diào)整參數(shù),再將訓(xùn)練好的模型去做模型壓縮,提高執(zhí)行性能。
本項(xiàng)目采用卷積神經(jīng)網(wǎng)絡(luò)算法對“植鑒”APP 使用者所提供的植物圖片進(jìn)行識別。當(dāng)人們外出游玩遇到感興趣的植物時(shí),可以用來查找其資料,方便人們認(rèn)知這個(gè)世界,了解到更多有趣的事物,讓人們意識到植物對世界的重要性,提高人們對植物和環(huán)境的保護(hù)意識。除此之外,它對于植物園分類學(xué)也可以起到極大的作用,傳統(tǒng)的植物分類學(xué)主要采用形態(tài)學(xué)方法對植物進(jìn)行分類鑒定,但其存在著工作效率低、工作量大并且數(shù)據(jù)客觀性難以保證等缺點(diǎn),會影響分類的客觀性和精確性。隨著20 世紀(jì)40 年代計(jì)算機(jī)的出現(xiàn)以及近年來人工智能技術(shù)的興起與發(fā)展,利用圖像識別技術(shù)來進(jìn)行植物分類已是大勢所趨。并且“植鑒”APP 還給植物愛好者提供了交流分享的平臺,方便進(jìn)行植物種植和養(yǎng)護(hù)的經(jīng)驗(yàn)交流?!爸茶b”APP 適合園藝工作者、植物愛好者、大中小學(xué)生及學(xué)生家長,無論在街頭、公園或者郊外游覽,可以隨時(shí)認(rèn)識植物,了解身邊的植物和花卉。
通過實(shí)時(shí)照相或調(diào)用相冊內(nèi)的照片,調(diào)用訓(xùn)練好的模型對植物照片進(jìn)行識別,使用相應(yīng)的算法,調(diào)用對應(yīng)的數(shù)據(jù)庫,確定植物所屬類別,向使用者展示植物基本百科信息。
輸入已有的植物圖像,定義權(quán)重矩陣,通過卷積層從圖像中提取特征而無需損失其有關(guān)空間安排的信息,使用遷移學(xué)習(xí)重新訓(xùn)練Inception-v3 模型,訓(xùn)練得到好模型后再去做模型壓縮,提高執(zhí)行性能。
如果用戶對查詢結(jié)果有異議或遇到很難通過照片識別的植物,可利用內(nèi)置分享平臺咨詢互動。為植物愛好者提供一個(gè)交流的平臺,分享自己的養(yǎng)護(hù)及種植經(jīng)驗(yàn)等。
通過用戶投票評選出每日最佳植物識別的圖片,可供用戶查看每日投票數(shù)量最多的一些作品。當(dāng)用戶進(jìn)行植物識別時(shí),也會為用戶生成植物美圖,可供用戶分享自己的作品。
通過用戶上傳自己喜歡的植物圖片來擴(kuò)充植物圖庫數(shù)據(jù),方便后期進(jìn)行擴(kuò)充植物種類和模型的訓(xùn)練。
為用戶提供景點(diǎn)相關(guān)信息,方便用戶規(guī)劃旅游路線。
基于卷積神經(jīng)網(wǎng)絡(luò)的植物圖像識別方法流程如圖1所示。

圖1 基于卷積神經(jīng)網(wǎng)絡(luò)的植物圖像識別方法流程圖
本系統(tǒng)采用TensorFlow 框架進(jìn)行開發(fā)。TensorFlow 是Google 的一個(gè)開源深度學(xué)習(xí)框架,其基本思路是使用有向圖來表示計(jì)算任務(wù),并且所有操作都必須在會話中執(zhí)行,靈活性很強(qiáng),再使用GPU 提高模型訓(xùn)練速度。深度學(xué)習(xí)是包含多級非線性變換的層級機(jī)器學(xué)習(xí)方法,而卷積神經(jīng)網(wǎng)絡(luò)則是其中一種經(jīng)典而廣泛應(yīng)用的結(jié)構(gòu),它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量,圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行更加深入的分析從而得到抽象度更高的特征,經(jīng)過其中的池化層可以有效地減少整個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)。經(jīng)過處理之后提取到了圖像信息含量更高的特征,最后經(jīng)過全連接層得到不同種類的概率分布情況,由此再得出最后的分類結(jié)果。Inception-v3 模型架構(gòu)如圖2 所示。

圖2 Inception-v3 模型架構(gòu)圖
本項(xiàng)目使用的Inception-v3 模型總共有46 層,將全連接層之前的網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練作為圖像特征提取的過程,再將提取的特征傳入全連接層之后的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行遷移學(xué)習(xí)。這樣不僅可以加快整個(gè)模型訓(xùn)練的速度,也可以在遷移學(xué)習(xí)過程中設(shè)計(jì)更適合該問題的網(wǎng)絡(luò)結(jié)構(gòu),再經(jīng)過反復(fù)迭代訓(xùn)練,從而加強(qiáng)模型的識別準(zhǔn)確度。
通過使用手機(jī)以日常人們對植物觀賞的距離和多個(gè)角度進(jìn)行拍攝,對各種植物圖像至少拍攝150 張照片,為后期保證訓(xùn)練模型以及測試模型提供充足的數(shù)據(jù),對拍攝后的照片還采用了多種擴(kuò)充方法進(jìn)行處理,包括順時(shí)針旋轉(zhuǎn)逆時(shí)針旋轉(zhuǎn)、水平鏡像翻轉(zhuǎn)、垂直鏡像翻轉(zhuǎn)隨機(jī)剪載等,然后將處理好的圖片再隨機(jī)分為訓(xùn)練集與測試集,訓(xùn)練過程只在訓(xùn)練模型時(shí)使用,在訓(xùn)練結(jié)束后,用測試集來估計(jì)模型準(zhǔn)確度。
本項(xiàng)目采用指數(shù)衰減法優(yōu)化學(xué)習(xí)率,通過這個(gè)函數(shù)可以先使用一個(gè)較大的學(xué)習(xí)率快速得到一個(gè)比較優(yōu)的解,然后隨著迭代逐步減小學(xué)習(xí)率,使得模型在訓(xùn)練后更加穩(wěn)定,最終確定了0.003 的學(xué)習(xí)率,20 萬次的選代次數(shù)。在設(shè)置初始學(xué)習(xí)率每一次反向傳播時(shí),觀察對參數(shù)優(yōu)化的調(diào)整幅度,根據(jù)特定任務(wù)確定合適的學(xué)習(xí)率,若幅度過大則有可能錯過最優(yōu)的學(xué)習(xí)率,反而產(chǎn)生更差的結(jié)果。若幅度過小則可能導(dǎo)致每次進(jìn)步很小,從而加大迭代次數(shù)和耗時(shí)過長。
最后將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,利用測試集圖片進(jìn)行檢驗(yàn),最終得到平均91%的準(zhǔn)確性。將訓(xùn)練好模型進(jìn)行封裝,可實(shí)際應(yīng)用到移動APP,最終實(shí)現(xiàn)實(shí)時(shí)在線識別植物品種的APP——“植鑒”。