李孟起 中國海洋大學經濟學院 鄭煜辰 中國海洋大學信息科學與工程學院
基于深度學習特征和在線感知機的物體識別系統
李孟起 中國海洋大學經濟學院 鄭煜辰 中國海洋大學信息科學與工程學院
計算機視覺是科學領域中一個極富挑戰性的研究領域。近年來,隨著科學研究的進步和工業水平的提高,計算機視覺被廣泛應用于醫學、工業、交通、等多個領域。本文實現一個物體自動識別系統,完成對特定類物體的識別。系統采用深度網絡模型Decaf進行特征提取,將提取特征送入到融合了在線學習方法的分類器中實現圖像中物體的準確識別。對于識別結果,本作品采用DTW語音模型對識別結果進行人工矯正。實驗結果表明,系統具備模型簡單,識別時間短,精度高,泛化能力強等優點。
計算機視覺與模式識別是近十幾年來計算機科學最熱門的方向之一。目標識別與分類作為該領域研究中的基礎性問題,有著極大的研究價值和應用價值,受到廣泛的關注。近年來,隨著圖像處理技術的專業化和計算機硬件成本的下降和處理速度的提高,計算機視覺技術被廣泛的運用到生產實踐中,目標識別應用層出不窮,在醫學檢測,工業生產,智能交通,安全監管等各個領域發揮日漸重要的作用,可以說計算機視覺正改變著我們的生活。
本文采用深度學習中的泛化CNN模型Decaf進行特征提取,對傳統感知機模型進行容錯改進,實現對特定類別的準確識別。同時,對整體模型進行在線學習改進,使網絡結構具有實時調整的特性,實現系統識別能力的“智能化”增強。此外,系統的用戶反饋采用語音對話的方式,從而使應用更具交互性與趣味性。實驗結果表明,該模型具有測試精度高,測試時間短,泛化能力強的優點。同時模型在訓練的過程中隨反饋結果調整逐漸優化,達到了“終生學習”的要求。
3.1 特征提取
Decaf是由UC Berkeley發布的深度學習庫,是一種已在ImageNet數據集上訓練好的深度網絡模型。ImageNet共包含14197122張來自21841個類的自然圖像。作為一種清晰高效的深度網絡框架,Decaf方法具有運行速度快,架構簡單友好的特點。本文采用Decaf模型進行特征提取。將實驗圖像輸入Decaf模型,抽取結構第6層4096維卷積特征作為分類器輸入。實驗結果表明,4096維Decaf特征能使樣本間具備很好的區分性,從而得到極好的識別效果。
3.2 分類器訓練
相對于分類器訓練,良好的特征表示對識別結果的影響更大。因此,有上面特征提取階段得到的具備較強區分度Decaf特征做基礎,系統選用相對簡單的感知機模型作為分類器。通過對單層感知器模型進行容錯改進,找到最佳分類界面。同時,為實現模型學習能力的“智能化”,將感知機模型與在線學習相結合,使模型具有應對錯誤識別情況實時調整參數的能力,從而達到“系統隨用戶不斷反饋越來越智能”的要求。
3.3 語音識別
用戶反饋的語音識別是本識別系統的另一個重要模塊。用戶通過語音對系統識別的結果進行反饋,分類器接受反饋信號,依據信號屬性采取相應動作:若用戶信號為“Yes”,分類器無動作;若用戶信號為“No”,說明模型誤分測試樣本,分類器按正確結果對網絡權值進行調整。應用語音信號進行人機交互,增加了系統的交互性與趣味性。
4.1 測試方案
為更好的表征系統識別能力,我們選取ImageNet數據集中具備較高相似性的5類數據樣本進行系統測試,分別為:算盤,鍵盤,遙控器,手機,Mp4。其中鍵盤類1045個樣本,其余各類均包含1300個樣本,共6245個樣本。在樣本中選取4800個數據作為訓練樣本,其余1425個用于測試。在系統識別能力“智能化”增強驗證實驗中,首先在訓練集中選取400張圖片作為輸入,訓練得到初始化分類器。然后采取增量學習的方式,每次另行選取400張圖片送入上一步得到的模型進行分類,通過語音反饋不斷調整模型參數,直到4800個訓練樣本用完為止。在語音識別測試中,我們選取組內3人的語音作為測試樣本,每人300個語音樣本(150個Yes,150個No),共900個樣本。除此之外,為保證系統完整性,我們對集成后的模型也進行了多次測試。
4.2 結果分析
系統界面設計與預測結果:

圖1 識別設計與界面
以上兩圖分別對應識別正確和識別錯誤的情況:識別正確,則識別結束;若系統識別錯誤,則返回此樣本及其真實標簽來調整分類器。可以看到,此系統具有較高的識別速度,識別單幅圖片時僅需不到一毫秒的時間。

圖2 鍵盤類的識別準確率
圖2展示了鍵盤類識別過程中,模型識別能力隨在線學習權值調整不斷增強的趨勢。直觀表示為,隨著訓練樣本的不斷增加,測試準確率不斷升高。
本文以較好的計算機視覺與模式識別理論作為支撐,有效地實現了預期的精確識別和有效反饋調節的功能。作品結構設計合理簡單,功能實現快捷有效,交互操作便捷,具備較好的用戶體驗。同時,系統模型具備較高的實用價值,并能在一定程度上滿足市場需求,進一步完善開發后可以迅速推向市場。
[1]常亮,鄧小明,周明全,等.圖像理解中的卷積神經網絡[J].自動化學報,2016,42(9):1300-1312
[2]楊戈,張威強,黃靜.一個感知機神經網絡字符識別器的實現[J].電子技術應用,2015,41(3):120-122
[3]尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業大學學報,2015(1):48-59
[4]楊淑瑩,胡軍,曹作良.基于圖像紋理分析的目標物體識別方法[J].天津理工學院學報,2001,17(4):31-33
[5]梁冰,陳德運,程慧.自適應視聽信息融合用于抗噪語音識別[J].控制理論與應用,2011,28(10):1461-1466