杜抒沛


摘要
本文基于人工智能實現了對手機照片按照照片內容分類。將手機存儲中的照片導入到計算機文件夾中,根據照片內容人工先區分并建立工作學習相關照片類別文件夾和其他照片類別文件夾兩類文件夾。然后運用AI開放平臺進行手機照片分類實驗,實驗結果證明本文思路的可行性。
【關鍵詞】人工智能 深度學習 手機 照片 分類
1 引言
智能手機已經成為人們現代生活中的必需品,特別是智能手機中的拍攝功能,給人們的工作和生活都增添了便利,可以隨時隨地以影像的方式記錄想要記錄的內容,如工作學習中的文檔和課件,生活中的自然景色等等。但是隨著智能手機的存儲功能的增強,以及人們拍攝的照片數量的增加,以及手機屏幕尺寸較小造成的瀏覽限制等因素,有時想要從手機存儲的大量照片中找到需要的照片并非易事。雖然目前的手機照片存儲功能中包含了一些簡單的分類功能,但基本是根據時間或者照片的系統來源等功能進行分類,并沒有根據照片中的內容進行識別分類。國內已有部分相關研究,但是或局限于按人分類照片,或基于非深度學習算法的多類別分類,分類效果有待提高,當然也有國內相關開放AI平臺實現了更為精確的圖像多分類識別。其實在實際生活應用中,人們對于手機照片的分類需求更多地在于區分是否為工作相關,因此只需將照片分為工作學習相關和生活其他相關兩類即可。
本文應用人工智能的圖像分類算法對手機中的照片圖像進行學習訓練,建立了基于手機照片內容的分類模型,可以將手機的照片根據內容用途分為學習工作相關照片和其他生活照片兩類,有利于人們在實際應用中更好地查找手機照片,幫助人們提高了手機照片查找的效率,特別是對于為一些商務人士在一定場合下提供了便利和幫助。
2 圖像分類算法和平臺
2.1 深度學習和卷積神經網絡
深度學習的概念由Hinton等人于2006年提出,由神經網絡算法發展起來的含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。深度學習包括自編碼深度神經網絡、限制波爾茲曼機網絡、卷積神經網絡(CNN)和循環神經網絡CRNN)等形式。
其中卷積神經網絡(CNN卷積網絡通過一系列方法,成功將數據量龐大的圖像識別問題不斷降維,最終使其能夠被訓練。CNN最大的特點就是參數共享機制,基本結構包括兩層,其一為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。特征映射結構采用激活函數,使得特征映射具有位移不變性。因此CNN被廣泛應用于圖像分類。
2.2 圖像分類算法平臺
圖像分類是依據每個圖像信息中反應出來的不同特征,把不同類別的目標圖像區分開來的一種圖像處理方法,是利用計算機對圖像進行定量分析,代替人的視覺判讀,原理是把圖像中的區域分割成一系列的子圖像,提取每個子圖像的特征后得到原圖像的分類結果。圖像分類預測的流程如圖1所示。
目前最主流的深度學習平臺是TesorHow,它是Google開源的深度學習框架,TesorHow將復雜的圖像數據傳輸至人工神經網絡,然后進行分析和處理。利用Tesorflow訓練模型,可以建立一個快速、低成本、精準的圖像分類器。卷積神經網絡由于其較好的容錯性、權值共享、自適應性等特點,是一種基于多層監督學習的人工神經網絡,被廣泛用于物體檢測、圖像識別等領域。
3 手機照片人工分類和模型分類過程
3.1 手機照片人工分類
將手機中照片導出到電腦中,分別建立兩個文件夾:工作學習文件夾和生活其他文件夾。將手機中的照片進行人工分類,分別放在兩個文件夾中,每個文件夾中都含有20張照片。如圖2所示。
3.2 實驗過程
如圖3所示,圖像的分類過程應用國內開放的AI平臺來實現。該AI平臺含有“圖片標簽類別”的識別功能,該功能可以認為是在后臺已經有了一個訓練好的基于圖像數據集的圖像分割識別和分類標記的模型,輸入圖片都會將識別中的類別標簽標記出來。具體過程如下:
(1)定義:
work文件夾中圖片正確分類結果為識別標簽中含有“文本”;
other文件夾中的圖片正確分類結果為識別標簽中不含有“文本”
(2)將other文件夾和work文件夾中圖片分別上傳到AI平臺進行圖片標簽識別,將每張圖片的識別標簽記錄下來;
(3)分別統計work文件夾和other文件夾中圖片的正確識別結果和錯誤識別結果,計算識別準確率。
4 結論和應用
經過統計,Work文件夾和other文件夾的識別分類準確率分別100%和100%。本文沒有應用分類數據集進行分類模型的重新訓練,而是應用了公開的已經訓練好的圖像分類模型。但是從識別分類結果來看,本文的思路具有可行性。
應用本文中的圖像分類方法和過程,可以將手機中的照片安裝照片的內容進行分類。本文中只應用于工作學習照片和生活其他照片兩類。這種分類方法既可以提高分類的準確率,也更加貼近于實際生活應用。
將本文中的思路開發成手機APP裝到手機中,后臺接口可以使用開放AI平臺,也可以自己開發,可以將照片進行兩分類,可以省略圖像上傳操作,直接后臺讀取圖像數據進行識別。因此在照片查找時,這樣可以更加方便,節省時間,具有一定的實際應用價值。
參考文獻
[1]黃凱奇,任偉強,譚鐵牛.圖像物體分類與檢測算法綜述[J].計算機學報,2014(06):1225-1240.
[2]李東陽.Android手機上圖像分類技術的研究.[D].北京:北京郵電大學,2012.
[3]李龍.基于Android的照片分類管理軟件的設計與實現[D].廣州:華南理工大學,2017.
[4]湯曉鷗,陳玉琨.人工智能基礎(高中版)[M].上海:華東師范大學出版社.北京:商務印書館,2018:52-60.
[5]Tecent A1 Open Platform.https://ai.44.com/product/visionimgidy.shtml#tag.