999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

應用于智能芯片的可視化反饋系統(tǒng)研究

2020-09-10 03:57:44李欣致董勝波崔向陽劉志哲郭廣浩
北京航空航天大學學報 2020年8期
關鍵詞:可視化優(yōu)化模型

李欣致,董勝波,*,崔向陽,劉志哲,郭廣浩

(1.北京遙感設備研究所,北京100854; 2.航天科工網(wǎng)絡信息發(fā)展有限公司,北京100048)

近年以來科學研究和市場表明,深度學習(Deep Learning,DL)[1]不僅在傳統(tǒng)的語音識別、圖像識別、搜索/推薦引擎、計算廣告等領域證明了其劃時代的價值,也引爆了整個人工智能(Artificial Intelligence,AI)生態(tài)向更大的領域延伸。深度學習是機器學習(Machine Learning,ML)領域中一個重要研究方向。深度卷積網(wǎng)絡現(xiàn)已成為大規(guī)模圖像識別的首選框架。由于深度學習的訓練(Training)和推斷(Inference)均需要大量的計算,AI界正在面臨前所未有的計算能力挑戰(zhàn)。傳統(tǒng)的CPU處理器雖然具有強大的控制能力和通用性來處理不同的數(shù)據(jù)類型,但其需要邏輯判斷、分支跳轉(zhuǎn)以及中斷等操作作為支撐,內(nèi)部結(jié)構(gòu)復雜且運算單元相對較少,不適合大規(guī)模并行數(shù)據(jù)運算,采用CPU處理器實現(xiàn)深度學習算法不能滿足算法實時性要求。相比與CPU,GPU[2]具有大量運算單元,專門執(zhí)行復雜的數(shù)學運算,對象為類型統(tǒng)一且無依賴的大規(guī)模數(shù)據(jù)。但是GPU沒有專門實現(xiàn)神經(jīng)元單元的電路,使用單個GPU或者集成多個GPU并行工作的處理效率均低于具有同等硬件資源的定制硬件加速電路。與GPU 和CPU相比,F(xiàn)PGA[3]性能更高、能耗更低,可采用FPGA實現(xiàn)定制深度學習硬件加速電路。但是FPGA作為“萬能芯片”,需要預先布置大量門陣列以滿足用戶需求,以面積換速度,使用大量的門電路陣列,消耗更多FPGA內(nèi)核資源;且FPGA缺少內(nèi)存和控制器帶來的存儲和讀取操作,雖然速度得到提升,但是運算量受到限制,進而制約了其性能。

AI[4]芯片從廣義上定義為能夠運行AI算法的芯片。AI芯片作為推動AI技術(shù)不斷進步的硬件基礎,隨著市場需求的不斷增長,各個領域不斷涌現(xiàn)出針對智能應用的新穎設計算法和創(chuàng)新的架構(gòu)體系。

從現(xiàn)有的市場應用場景角度分析,AI芯片目前主要分為兩大方向:一個由數(shù)據(jù)驅(qū)動的云端芯片;另一個是供消費者終端使用的終端芯片。從功能角度分析,AI芯片主要完成訓練和推理2個任務。目前,AI芯片的主要應用場景集中在云端和終端。云端AI芯片同時具備訓練和推理2個功能。訓練主要功能是對網(wǎng)絡模型采用大量標注好的數(shù)據(jù)樣本進行訓練,得到網(wǎng)絡參數(shù),該過程對計算的性能和處理精度有極高的要求,且需要一定的通用性以保證能夠完成多樣的學習任務;推理主要功能是使用訓練過程中建立的網(wǎng)絡模型對新的數(shù)據(jù)集進行識別或分類,沒有反向傳播(Back Propagation,BP)[5]功能。相對于云端AI芯片,在計算精度、處理性能和通用性方面,終端AI芯片要求較低。但是,在用戶體驗方面,終端AI芯片需要不斷優(yōu)化,因為終端AI芯片是直接將推理結(jié)果反饋給用戶。目前訓練和推理功能主要由云端AI芯片完成。但隨著技術(shù)發(fā)展和需求改變,市場應用開始逐步向終端AI芯片轉(zhuǎn)移。現(xiàn)有需要具備推理能力設備的主流場景包括智能手機(Smartphone,SP)、高級駕駛輔助系統(tǒng)(Advanced Driving Assistant System,ADAS)[6]、計算機視覺設備(Computer Vision,CV)[7]、虛擬現(xiàn)實設備(Virtual Reality,VR)[8]、語音交互設備(Voice User Device,VUD)以及機器人(Robot)。

目前,大部分終端AI芯片的性能都依賴于在芯片外前期訓練過程中的大樣本數(shù)據(jù)庫,優(yōu)質(zhì)的大數(shù)據(jù)量對終端AI芯片處理能力起著決定性的作用,且所使用的每一層的參數(shù)均在訓練過程中產(chǎn)生。當樣本量有限時,存在訓練時使用的實驗樣本和真實數(shù)據(jù)的分布差異大,導致推理的識別率降低。如何在小樣本背景下,基于高實時性、低功耗的深度學習終端AI芯片框架,對神經(jīng)網(wǎng)絡參數(shù)進行局部優(yōu)化以提高用戶體驗,提高終端普適性和準確率是本文研究的重點。

本文針對上述問題,在樣本有限情況下,對僅有推理的終端AI芯片進行了研究。使用反卷積特征可視化方法定位識別錯誤樣本的卷積層(Convolutional Layer),根據(jù)高層不變性特征調(diào)整局部特征點的相關網(wǎng)絡層參數(shù),利用終端AI芯片高性能處理能力,對神經(jīng)網(wǎng)絡模型參數(shù)進行快速迭代反饋優(yōu)化,以提高識別準確度。本文使用Kaggle數(shù)據(jù)集進行實驗測試,搭建了5種常用深度學習模型。從實驗結(jié)果可以得到,可視化反饋AI芯片能夠在不重新訓練數(shù)據(jù)情況下優(yōu)化網(wǎng)絡模型參數(shù),有效提高了終端AI芯片的普適性和識別準確度。在此基礎上,本文還提出了一種基于AI芯片的可視化反饋AI處理器設計架構(gòu),該設計架構(gòu)的處理效率顯著,明顯優(yōu)于CPU、GPU和FPGA。

1 基本理論和技術(shù)

可視化卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)[9]模型是對CNN卷積核的探索解釋,這里的可視化是指可視化CNN模型中的卷積層。CNN算法基于多層感知機(Multilayer Perceptron,MLP)[10],并在此引入了2個重要的運算:卷積和池化。在CNN基礎上發(fā)展了很多高效的深度學習算法,如 AlexNet[11]、VGGNet[12]、GoogleNet[13]、ResNet[14]、SeNet[15]和YOLOv3[16]等網(wǎng)絡結(jié)構(gòu)。可視化算法根據(jù)網(wǎng)絡模型可分為兩大類:一類是基于非監(jiān)督模型可視化,這類方法不需要BP算法,是對卷積層進行可視化,該類方法直接將圖片在已有模型中進行一次前向傳播,對某個卷積核響應最大的中間結(jié)果進行可視化;另一類方法是基于監(jiān)督模型可視化,根據(jù)BP結(jié)果,對分類模型或圖像特定類顯示可視化,以達到優(yōu)化圖像作用。

只具有推理功能的終端AI芯片不具備BP算法,無法直接優(yōu)化深度卷積網(wǎng)絡的模型參數(shù)。本文采用基于非監(jiān)督模型可視化算法,對特征層進行反卷積處理,對導致識別錯誤的卷積核進行局部調(diào)整參數(shù),替代BP功能,達到優(yōu)化模型,進而識別該類圖像目的。

非監(jiān)督可視算法以ZFNet[17]提出的反卷積算法為代表。2014年,CNN可視化開山之作[14]首次系統(tǒng)化地對AlexNet進行了可視化,并根據(jù)可視化結(jié)果改進了AlexNet。文獻[14]提出了一種新的可視化技術(shù),揭示了模型中任意層的特征層與輸入之間的響應關系,應用于非監(jiān)督模型。該文獻使用了反卷積網(wǎng)絡處理方法,將激活值反向處理映射回輸入層像素空間,通過這種方式可以展示出每一層對特征映射圖(Feature Map)中對一個給定激活值的影響。一個反卷積網(wǎng)絡(Deconvolutional Network,deconvnet)[18]可以被看成是一個卷積網(wǎng)絡模型,這個模型同樣有卷積處理的組件(池化和激活),只是采用了相反的過程,將特征信息反向映射回像素層。

反卷積可視化處理流程如圖1所示。反卷積可視化處理目的是用以驗證神經(jīng)網(wǎng)絡各個層所提取到的特征信息。以各層處理后得到的特征圖結(jié)果作為輸入,對特征圖結(jié)果進行反卷積處理,映射到像素層,得到該層結(jié)果。為檢驗一個給定CNN的激活,本文就將該激活的特征層后接一個反卷積網(wǎng)絡,然后進行反池化、反激活、反卷積處理。重復上述過程直到原始輸入層。

圖1 反卷積可視化處理流程Fig.1 Deconvolution visualization process flow

1)反池化(Unpooling)

在卷積神經(jīng)網(wǎng)絡中,max-pooling操作過程不可逆,但可以通過一系列switch變量來記錄池化過程中最大激活值的坐標位置。反池化是近似處理,只記錄池化過程中最大激活值所在的位置坐標信息,其余位置值設置為0。

2)反激活(Rectification)

反激活處理過程采用了和激活過程一致的ReLU函數(shù)。這是由于CNN使用ReLU以確保每層輸出的激活值都是正數(shù),因此反向過程的輸出特征圖也需要為正值,說明激活過程和反激活過程沒有差別,同樣采用了ReLU函數(shù)。

3)反卷積(Filtering)

卷積過程使用學習到的過濾器對特征映射圖進行卷積,為近似反轉(zhuǎn)這個過程,反卷積使用該卷積核的轉(zhuǎn)置來進行卷積操作。

該方法被用于可視化非監(jiān)督深度體系結(jié)構(gòu),結(jié)合目前的無訓練的終端AI芯片易于實現(xiàn)。反激活和反卷積算法可直接使用AI芯片的激活和卷積功能,反池化算法對整體可視化過程影響較小,暫不設計進芯片。其中,反卷積需要卷積核轉(zhuǎn)置完成,在硬件AI芯片處理時可以先使用軟件對圖像進行轉(zhuǎn)置處理,然后調(diào)用芯片的卷積功能完成反卷積運算。

反卷積可視化反饋系統(tǒng)可在具有卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)的終端AI芯片上實現(xiàn),無需修改硬件架構(gòu),可有效增加終端AI芯片的適用性。

圖2 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig.2 Convolutional neural network structure

CNN是深度學習代表算法之一,包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡包括卷積層(Convolutional Layer)和池化層(Pooling Layer)。如圖2所示,卷積網(wǎng)絡通常有一個輸入層,多個卷積和池化層,一個或2個全連接層,和一個輸出層的結(jié)構(gòu)組成。筆者將整個結(jié)構(gòu)分為兩部分理解:輸入層和卷積池化層為特征表示器,全連接層和輸出層可以看作一個分類器。例如輸入一只狗的圖像,特征表示器將圖像的原始像素映射為眼睛、耳朵、鼻子、毛發(fā)等高級特征,再使用分類器對高級特征進行分類。主要處理流程如圖2所示。

2 可視化AI芯片研究方法

2.1 基于深度學習可視化參數(shù)局部優(yōu)化

AI系統(tǒng)通常涉及訓練和推理2個過程:訓練過程通常需要大量標簽樣本數(shù)據(jù)作為輸入訓練出復雜的深度神經(jīng)網(wǎng)絡模型,并通過反向傳播來不斷優(yōu)化網(wǎng)絡參數(shù),以最小化推理過程誤差;推理過程是使用訓練好的網(wǎng)絡模型,對新的數(shù)據(jù)進行“推斷”,如交通監(jiān)控設備通過后臺的神經(jīng)網(wǎng)絡模型,判斷行駛車輛是否是可疑車輛。雖然推理過程運算量小于訓練過程,但仍設計大量計算。

如圖3所示,根據(jù)應用場景,現(xiàn)有芯片主要分為兩大類:第1類是同時具有訓練和推理的云端芯片,第2類是只具有推理功能的終端芯片。隨著AI應用的普及且需求量大,帶有輕量級訓練的終端芯片是必然的發(fā)展趨勢。

圖3 AI芯片云端和終端區(qū)別Fig.3 Difference between AI chip cloud and terminal

AI的發(fā)展高度依賴海量數(shù)據(jù),優(yōu)質(zhì)的大數(shù)據(jù)量數(shù)據(jù)庫對終端芯片處理能力起著決定性的作用,且所使用的每一層的參數(shù)均在訓練過程中產(chǎn)生。但在很多應用的特定場景下無法獲取大量可用數(shù)據(jù),比如航拍目標基地、遙感衛(wèi)星獲取艦船、心腦血管堵塞醫(yī)學影像等。如何在只有某類小樣本情況下,通過在終端芯片上進行反饋參數(shù)優(yōu)化以提高用戶體驗是本文研究的重點。本文針對上述問題,對僅有推理的終端芯片提出一套解決方案。

不可訓練的離線終端AI芯片沒有BP功能,無法對神經(jīng)網(wǎng)絡參數(shù)進行直接優(yōu)化調(diào)整。在小樣本情況下,存在訓練過程中缺失,但在推理中出現(xiàn)的樣本。此時,使用訓練過程得到的參數(shù),在僅有推理的離線終端AI芯片判斷出錯的可能性很大。對于這種問題,目前沒有更好的算法可以解決。那么,是否可以通過人工協(xié)助處理,對神經(jīng)網(wǎng)絡參數(shù)進行優(yōu)化,以提高系統(tǒng)的分類準確度?

本文對此進行探索,并提出一種解決方案:利用基于非監(jiān)督模型可視化算法,對深度學習每層卷積圖層進行反卷積可視化處理,人工輔助定位誤差樣本,對影響結(jié)果最大的相關網(wǎng)絡層進行參數(shù)調(diào)整,從而對神經(jīng)網(wǎng)絡進行優(yōu)化處理,到達提高分類準確度目的。算法實現(xiàn)流程如圖4所示,主要步驟如下:

步驟1終端芯片卷積、激活、池化處理。

如圖5所示,使用有推理離線終端AI芯片對圖像進行深度卷積、激活和池化處理,獲得所有深度下的卷積層、激活層和池化層。

步驟2反卷積層可視化。

如圖6所示,對每一層卷積層進行反卷積處理,通反激活和反卷積,得到每一層反卷積層,對卷積層進行可視化處理。其中,反激活函數(shù)使用原ReLU算法,可直接使用芯片完成相關操作;反卷積是將原二維卷積核進行了轉(zhuǎn)置,可以先對圖像進行轉(zhuǎn)置,然后在現(xiàn)有芯片上實現(xiàn)處理。芯片沒有反池化功能,經(jīng)試驗該功能影響較小,只進行反激活和反卷積處理。

步驟3人工協(xié)助調(diào)整參數(shù)優(yōu)化。

圖4 算法實現(xiàn)流程圖Fig.4 Algorithm implementation flow chart

圖5 對圖像進行快速卷積、激活和池化處理Fig.5 Fast convolution,activation and pooling process of image

圖6 對圖像進行反激活和反卷積處理Fig.6 Deactivate and deconvolve process of image

當樣本量有限,終端AI芯片無法準確識別出目標時,需要對卷積核進行參數(shù)調(diào)整處理。提取該卷積層對應參數(shù),根據(jù)特征的幾何不變性和光度不變性以及尺度無關特性對卷積核參數(shù)進行反復迭代調(diào)整。根據(jù)ZFNet[17]分析可知,以AlexNet為例,該網(wǎng)絡結(jié)構(gòu)有5層卷積層,神經(jīng)網(wǎng)絡從第1、2層卷積層會學習到圖像的一些基本特征信息,包括顏色、線條、邊緣等;第3層卷積層開始能夠?qū)W習到更為豐富的紋理特征;第4、5層學到的是具有辨別性的關鍵特征。所以,通常卷積網(wǎng)絡的后幾層卷積層提取出的是關鍵特征。由于沒有BP功能,無法確定卷積核參數(shù)變化方向,但可以通過人工輔助,先隨機大幅度調(diào)參,根據(jù)反卷積可視化結(jié)果確認趨勢后,再自動進行小幅度調(diào)參。例如卷積核是11×11大小,有121個數(shù)值,先隨機100組對121個數(shù)值進行±0.1,通過可視化反卷積層對圖像進行判斷,確認變化趨勢后,選出5組進行局部自動調(diào)參,以0.01或-0.01進行調(diào)整,利用硬件快速計算優(yōu)勢多輪迭代,直到識別出正確結(jié)果為止。且通過可視化反卷積圖像,提供可視化反卷積層和對應的每一層參數(shù),定位影響結(jié)果最大的卷積層。

綜上,該方法通過對卷積層進行可視化,人為輔助調(diào)整卷積核參數(shù),在一定情況下可達到參數(shù)優(yōu)化效果,見圖7,0~250為像素值。但由于沒有BP功能,無法對誤差進行逆向傳播,可能會導致調(diào)整后權(quán)值僅適用于該張圖像,但在其他圖像中會仍出現(xiàn)識別錯誤問題。這是后面需要解決的技術(shù)難點,如使用可訓練的終端AI芯片,或軟件算法先對問題樣本同類特征點進行分類,進行人工輔助類樣本擴充。

圖7 卷積核優(yōu)化前后反卷積圖像和識別結(jié)果Fig.7 Deconvolution image and recognition results before and after convolution kernel optimization

2.2 基于AI芯片的可視化AI反饋處理器設計

本文基于終端AI芯片,提出一種可視化反饋AI處理器架構(gòu),如圖8所示,終端AI處理器作為協(xié)處理器,用于提高圖像處理、識別的速度和精度,同時降低功耗。終端AI處理器中包含以下內(nèi)容:一是緩存器,輸入、輸出、權(quán)重數(shù)據(jù)存儲的3組緩存器,其中權(quán)重數(shù)據(jù)存儲包含原卷積核權(quán)重、反卷積核權(quán)重核和優(yōu)化卷積核權(quán)重3組數(shù)據(jù);二是控制器,終端AI包含2個控制器,控制器1用于時序與總線控制,控制器2用于參數(shù)反饋調(diào)整;三是智能計算核心部分,包含卷積單元、激活單元、池化單元、反激活單元、反卷積單元和參數(shù)調(diào)整單元,其中卷積單元用于提取圖像特征,激活池化單元用于壓縮數(shù)據(jù),反激活和反卷積單元用于反卷積可視化圖像,最后根據(jù)反卷積單元,控制器控制參數(shù)調(diào)整單元對卷積核參數(shù)進行調(diào)整,迭代處理。研究重點是利用硬件高性能處理能力對參數(shù)反復快速迭代,結(jié)合反卷積可視化功能對卷積核權(quán)重參數(shù)進行優(yōu)化,最終達到識別出目標的目的。

終端AI處理器處理流程如圖9所示,具體步驟如下:

步驟1正向卷積處理得到識別結(jié)果。

對輸入待識別圖像進行多輪卷積、激活和池化處理,最后通過全連接層輸出識別結(jié)果。當結(jié)果識別正確時開始識別下一張圖,識別錯誤時,進行反卷積處理。

本色語文,是針對語文教學的種種偏頗認識和違背語文教學基本規(guī)律的種種異化行為提出的系統(tǒng)的教學主張,該成果獲江蘇省首屆基礎教育成果獎特等獎和國家教學成果獎。語文共生教學,是立足于母語教學的基本規(guī)律,運用共生理論,從豐富的教學實踐中總結(jié)出來的,能體現(xiàn)母語教育規(guī)律和本色語文教學主張,具有原創(chuàng)性和推廣價值的教學方法。前者是主張,后者是方法;前者主要是理性思考,后者主要是實踐操作;前者側(cè)重承繼,后者著力創(chuàng)新。

圖8 可視化反饋AI處理器Fig.8 Visual feedback AI processor

步驟2反卷積處理得到可視化圖像。

對識別錯誤輸出,從最后一層卷積圖像開始,先將圖像進行裝置,然后逐層反卷積處理,得到多層反卷積可視圖像,如AlexNet網(wǎng)絡,有5層卷積層,經(jīng)過反卷積處理后,最終得到5組反卷積圖像。

步驟3卷積核參數(shù)優(yōu)化。

卷積核參數(shù)優(yōu)化需要用到BP功能,利用梯度信息對參數(shù)進行優(yōu)化。但對于不具BP功能的終端AI芯片,無法通過這種方式對卷積核權(quán)重參數(shù)進行優(yōu)化。結(jié)合反卷積可視化,利用硬件快速計算能力,選出影響較大的反卷積層對應的卷積核進行局部參數(shù)自動調(diào)整,反復迭代嘗試,直到識別出正確結(jié)果為止。然后將新卷積核參數(shù)更新進卷積單元,并保留上次卷積核權(quán)重參數(shù)。

通過上述步驟,終端AI處理器可以利用反卷積可視化圖像和硬件快速處理優(yōu)勢,對沒有BP的深度學習框架下的卷積核權(quán)重進行局部優(yōu)化參數(shù)處理。避免了花費大量時間重新訓練網(wǎng)絡參數(shù),提供了一種對深度學習模型下人工參與的解決方案,增強了終端AI芯片的普適性和魯棒性。

本文提出的架構(gòu),相比于CPU、GPU和FPGA,在卷積神經(jīng)網(wǎng)絡模型里,更具有高效處理能力和靈活可塑性。所提出的可視化反饋處理器架構(gòu),是基于卷積神經(jīng)網(wǎng)絡算法的框架,包含6個核心卷積單元、激活單元、池化單元、反激活單元、反卷積單元和參數(shù)調(diào)整單元,每個單元內(nèi)部的參數(shù)靈活可配,每個單元之間的順序和重復性可以調(diào)整,并通過片內(nèi)緩存區(qū)對數(shù)據(jù)進行交互。這種設計方式不僅在每單元對不同功能進行了硬件加速封裝,而且使得每個運算單元都有獨立高速處理能力,各個硬件設計單元靈活可配置,能夠兼容市面上大部分CNN模型算法框架,如AlexNet、VGGNet等。

圖9 AI芯片反卷積可視化硬件處理流程Fig.9 AI chip deconvolution visualization hardware processing flow

3 實驗結(jié)果與分析

由于深度學習的數(shù)據(jù)量和計算量均較為龐大,嵌入式人工終端AI處理器的設計需要同具體算法高度契合,以保證最終處理器產(chǎn)品的高性能、低功耗等指標。對于解決特定問題而設計的AI算法,需要經(jīng)過通用平臺和硬件環(huán)境進行多次算法迭代,最終形成準確度高、可行性強的算法數(shù)學模型。此后需要對數(shù)學模型進行建模分析、提煉基于此分析的工程化模型,即可實行性方案。最終,對該方案進行芯片前端設計,并通過仿真驗證該芯片設計所能實現(xiàn)的性能和計算精度;與此同時,通過數(shù)據(jù)復用、可重構(gòu)計算等新型設計方法,進一步提升芯片的整體性能和算法的執(zhí)行效率。

如圖10所示,本文實驗在TensorFlow平臺上搭建了準確度高、可行性強的算法數(shù)據(jù)模型。然后對該模型進行前端設計,并進行仿真驗證。如圖10所示,本文在TensorFlow上進行訓練,分別搭建了AlexNet、ResNet18、ResNet50、ResNet101和YOlO3五種模型。ResNet18、ResNet50、Res-Net101由ResNet演變而來。使用Kaggle數(shù)據(jù)集,對12 500張貓和12 500張狗的數(shù)據(jù)集進行深度學習模型訓練,為了充分利用測試圖像數(shù)據(jù)信息,對訓練集數(shù)據(jù)訓練30次。然后使用Verilog語言完成可視化反饋處理器設計,并進行仿真處理,將訓練好的參數(shù)存入權(quán)重緩存,然后對1 000張圖像測試集進行識別,對識別錯誤的圖像進行可視化反饋卷積核優(yōu)化處理。

圖10 驗證平臺流程Fig.10 Verification platform process

實驗結(jié)果如表1所示,可視化反饋終端AI實現(xiàn)了AlexNet(5層卷積層)、ResNet18(17層卷積層)、ResNet50(49層卷積層)、ResNet101(100層卷積層)和YOLO3(53層卷積層)5種模型。測試CPU處理器是Intel E5-2680主頻2.4 GHz雙核處理器,GPU顯卡是NVIDIA GeForce GTX 1080Ti主頻1.54 GHz,F(xiàn)PGA使用TI的ARM11。表中展示了每種模型下的實驗結(jié)果對比,其中AlexNet、ResNet18、ResNet50和ResNet101的圖像測試幅寬是244×244,YOLO3的圖像測試幅寬是416×416;優(yōu)化前識別率是優(yōu)化卷積核參數(shù)前的識別率;優(yōu)化卷積核參數(shù)后的識別率不把當前這張圖重新識別正確計算在內(nèi);平均處理時間是在當前網(wǎng)絡模型下識別一張圖結(jié)果的處理時間,分別在CPU、GPU、FPGA和本文架構(gòu)上進行測試;平均優(yōu)化參數(shù)時間是當前網(wǎng)絡模型下識別錯誤時,使用可視化反饋參數(shù)優(yōu)化功能下識別正確一張圖的平均時間,分別在CPU、GPU、FPGA和本文架構(gòu)上進行測試。

根據(jù)實驗結(jié)果可以分析出,卷積核優(yōu)化后識別率有一定的提升,但增幅不大,主要原因是因為樣本有限,使得調(diào)整后的權(quán)值模型適用范圍有限,可能僅適用于該圖像,在其他圖像中仍然無法正確識別。該問題需要進一步探討和解決,比如可在有輕量級訓練終端芯片上,根據(jù)高層特征不變性擴展樣本,能識別出這一類圖像集。對比CPU、GPU和FPGA 3種架構(gòu),本文架構(gòu)的計算效率明顯更高,平均處理效率是CPU 的678倍,GPU的14倍,F(xiàn)PGA的2倍。其中,本文架構(gòu)設計和FPGA效率相近,但在計算優(yōu)化參數(shù)時本文架構(gòu)的處理效率是其7.6倍,這是由于FPGA受限于并運算。相比之下,本文架構(gòu)的處理效率優(yōu)勢明顯。但優(yōu)化過程運算量大,使用時間平均是識別過程的23000倍。

表1 不同模型實驗結(jié)果對比Table 1 Comparison of experimental results among different models

4 結(jié) 論

本文提出一種基于終端AI芯片的可視化反饋系統(tǒng)架構(gòu)方法,針對小樣本情況下,對僅有推理功能的終端AI芯片進行了研究,在識別錯誤的情況下,對錯誤圖像的各個卷積層進行反卷積可視化,利用硬件芯片快速計算優(yōu)勢,對卷積核權(quán)重參數(shù)進行優(yōu)化處理,達到可識別圖像目的。實驗驗證表明:

1)所提方法可適性強,可用于所有具備深度學習功能的終端AI芯片,不受限于深度學習反向傳播功能。

2)所提方法處理效率高,對比CPU、GPU和FPGA 3種典型架構(gòu),本文設計架構(gòu)具有高效處理能力和靈活可塑性。

3)所提方法提高了終端AI芯片的普適性以及識別準確度,在無BP的終端AI芯片上,可以通過該方法對深度學習網(wǎng)絡模型參數(shù)進行優(yōu)化,在不重新訓練樣本情況下提高了整體識別率。

4)樣本過于單一情況下,存在一定風險使得優(yōu)化后的網(wǎng)絡卷積核參數(shù)僅適用于該圖像,而其他圖像仍可能識別錯誤。且優(yōu)化過程運算量大,使用時間是識別過程的23 000倍。

基于目前的工作,后續(xù)可以開展進一步研究:一是進一步優(yōu)化網(wǎng)絡參數(shù),考慮使用生成式對抗網(wǎng)絡(Generative Adversarial Networks,GAN)[19]對識別出錯的樣本進行擴展,增加網(wǎng)絡模型強健性;二是優(yōu)化算法處理性能,研究新的深度學習可解釋算法,結(jié)合終端AI芯片特性,對調(diào)整參數(shù)的效率進行優(yōu)化加速處理。

猜你喜歡
可視化優(yōu)化模型
一半模型
基于CiteSpace的足三里穴研究可視化分析
超限高層建筑結(jié)構(gòu)設計與優(yōu)化思考
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
民用建筑防煙排煙設計優(yōu)化探討
關于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
重要模型『一線三等角』
基于CGAL和OpenGL的海底地形三維可視化
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
主站蜘蛛池模板: 欧美特黄一级大黄录像| 在线中文字幕日韩| 67194在线午夜亚洲| 日韩在线欧美在线| 高清视频一区| 国产主播一区二区三区| 日韩在线观看网站| 日本一本在线视频| 国产一二视频| 91精品网站| 爱做久久久久久| 无遮挡国产高潮视频免费观看 | 亚洲a级在线观看| 日韩毛片在线播放| 国产亚洲精品91| 超碰精品无码一区二区| 91成人免费观看| 国产成人精品日本亚洲77美色| 成·人免费午夜无码视频在线观看| 国产在线观看精品| 久久综合亚洲鲁鲁九月天 | 免费人成网站在线高清| 日本午夜视频在线观看| 亚洲高清国产拍精品26u| 欧美成人免费午夜全| 国产另类乱子伦精品免费女| 日本在线亚洲| 91久久国产热精品免费| 国产新AV天堂| 国产视频大全| 伊在人亞洲香蕉精品區| 午夜限制老子影院888| 真人免费一级毛片一区二区| 欧洲高清无码在线| 高h视频在线| 国产99精品久久| 狠狠躁天天躁夜夜躁婷婷| 91成人在线观看| 成年A级毛片| 午夜丁香婷婷| 欧美色视频网站| 欧美激情视频二区| 欧美一级一级做性视频| 国产成人亚洲精品色欲AV| 九九视频在线免费观看| 在线观看视频一区二区| 思思99思思久久最新精品| a毛片基地免费大全| 凹凸国产分类在线观看| 免费一级无码在线网站| 少妇露出福利视频| 国产美女在线观看| 97se亚洲| 日韩国产黄色网站| 亚欧美国产综合| 色婷婷国产精品视频| 成人亚洲天堂| 国产一区二区三区精品久久呦| 久久精品丝袜高跟鞋| 欧美中文字幕无线码视频| 特级aaaaaaaaa毛片免费视频| 免费无码AV片在线观看国产| 国产精品蜜臀| 亚洲天堂网2014| 免费一级毛片完整版在线看| 亚洲看片网| 国产黄网永久免费| 99在线观看国产| 91探花在线观看国产最新| 国产免费黄| 中文字幕欧美日韩高清| 亚洲精品在线91| 国产一区二区在线视频观看| 2021最新国产精品网站| 一区二区欧美日韩高清免费| 国产亚洲精品yxsp| 国产一级毛片在线| 久久黄色影院| 2020精品极品国产色在线观看| 草草线在成年免费视频2| 国产精品女在线观看| 一级做a爰片久久免费|