999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度卷積自編碼圖像聚類算法*

2019-05-07 06:02:00謝娟英曹嘉文
計算機與生活 2019年4期
關鍵詞:深度特征

謝娟英,侯 琦,曹嘉文

陜西師范大學 計算機科學學院,西安 710119

1 引言

計算機軟、硬件技術和智能手機等電子設備的飛速發展,使大數據成為當今社會的必然產物。如何從大數據中發現隱藏的知識和規律,是亟待解決的問題和任務。深度學習概念由Hinton等人[1]于2006年提出,是大數據分析的有力工具,廣泛用于圖像處理、語音識別、自然語言理解等領域。

聚類根據樣本的相似程度,將數據集樣本劃分為若干類簇,使相似度高的樣本位于同一類簇,相似度低的樣本處在不同類簇[2]。深度聚類是深度學習在無監督學習領域的應用,在圖像識別領域表現出明顯優勢。自編碼器的發展,更是推動了深度學習在無監督學習領域的發展。

深度聚類算法分為兩種:一種是先學習數據表示,然后進行聚類;另一種是特征學習和聚類同時進行。深度子空間聚類網絡(deep subspace clustering networks,DSC-Nets)[3]提出了一種新穎的深度卷積自編碼網絡來學習樣本點之間的相似矩陣,即在編碼層和解碼層之間加入自表達層,以得到樣本之間的相似性,然后在子空間根據學習得到的相似矩陣對樣本進行譜聚類分析。深度嵌入聚類算法(deep embedded clustering,DEC)[4],通過降噪自編碼,逐層貪婪訓練后組合成棧式自編碼,然后撤去解碼層,僅使用編碼層,對提取出來的特征使用相對熵作為損失函數對網絡進行微調,該結構可以同時對數據進行特征學習和聚類。但是DEC算法沒有考慮微調會扭曲嵌入式空間,削弱嵌入式特征的代表性,從而影響聚類效果。DEC算法對復雜圖像數據STL-10[5],使用傳統的梯度方向直方圖(histograms of oriented gradient,HOG)[6]人工特征,沒有使用深度學習進行特征提取,所得特征不能很好表達圖像。IDEC(improved deep embedded clustering)算法[7]是對DEC算法的改進,通過保存局部結構防止微調對嵌入式空間的扭曲,即在預訓練時,使用欠完備自編碼,微調時的損失函數采用相對熵和重建損失之和,以此來保障嵌入式空間特征的代表性。

卷積神經網絡已被證明對圖像特征提取具有極好性能,因此產生了卷積自編碼[8]。鑒于此,Guo等人[9]提出了深度卷積嵌入聚類算法(deep convolutional embedded clustering,DCEC),在DEC原有網絡基礎上,加入了卷積自編碼操作,并在特征空間保留數據局部結構,從而取得了更好聚類效果。

然而研究發現DCEC的網絡結構損失了太多特征信息,從而限制了DCEC算法的聚類效果。因此,在卷積自編碼基礎上,提出一種新的網絡結構,并優化特征提取方式,以得到更好聚類結果。三個經典圖像數據集的實驗結果表明,本文的改進使得聚類效果大幅提升。

2 相關研究

2.1 深度嵌入聚類DEC

DEC算法[4]先使用棧式降噪自編碼[10]對數據進行預訓練,然后移除解碼層,對整個網絡使用相對熵作為損失函數進行微調,得到調整網絡參數的同時進行聚類,完成模型優化的同時實現聚類。其相對熵定義如式(1)所示,描述兩個概率分布P和Q的差異,其中P表示真實(目標)分布,Q表示P的擬合分布。

式(1)中,qij表示原始空間經過非線性映射到潛在特征空間的嵌入點zi和聚類中心μj的相似性,也即擬合分布Q的表示,其計算公式如式(2)所示。式(2)中α是t分布的自由度,通常取為1。qij表達了樣本xi屬于類簇j的概率。

目標分布P如式(3)定義,可以看出目標分布P是由擬合分布Q來定義的,這是DEC算法的核心,可見DEC算法最小化KL散度是一種自訓練[11]。

DEC算法的整個聚類過程如圖1所示。先使用整個網絡進行預訓練,得到原始數據經過非線性映射到潛在特征空間的數據表示,即特征。然后對得到的特征用K-means算法進行網絡初始化,得到初始聚類中心。再使用相對熵迭代,微調網絡,直至滿足收斂性判定準則停止。最終樣本xi所屬類簇就是使得qij最大的類簇中心點μj。

2.2 基于局部結構保留的深度嵌入聚類IDEC

基于局部結構保留的深度嵌入聚類IDEC[7]是對DEC算法的改進,通過保存局部結構方式避免微調時對嵌入空間的扭曲。IDEC的損失函數如式(4)所示。其中Lr和Lc分別為重建損失和聚類損失。γ?0為控制嵌入空間扭曲程度系數。

假設數據集X有n個樣本,每個樣本是一個d維向量,定義非線性映射fw:xi→zi和gw':zi→xi',其中zi是xi在低維特征空間的嵌入點,xi'是xi的重建樣本。fw、gw'分別表示編碼過程中從原始數據到特征空間的特征映射和從特征空間特征到重建數據的映射。

聚類損失Lc的定義見式(1)的L定義,重建損失Lr就是均方誤差(mean squared error,MSE),定義為式(5),其中zi如式(6)所示,fw、gw'分別為編碼函數和解碼函數。

IDEC算法的網絡結構如圖2所示,在預訓練結束后,對重建損失和聚類損失的加權和進行微調,在最大限度保證不扭曲嵌入空間的前提下,得到最優聚類結果。

Fig.2 IDEC network structure圖2 IDEC的網絡結構圖

2.3 深度卷積嵌入聚類算法DCEC

深度卷積嵌入聚類算法DCEC[9]是在IDEC算法基礎上進行的改進,將編碼層和解碼層中的全連接換成卷積操作,這樣可以更好地提取層級特征,其網絡結構圖如圖3所示。圖中編碼層和解碼層各有3層卷積,卷積層后加了一個flatten操作拉平特征向量,以獲得10維特征。DCEC只是將IDEC的所有全連接操作換成卷積操作,其損失函數依舊是重建損失和聚類損失之和。但DCEC只保留10維特征,會引起特征損失。

3 本文算法

3.1 網絡結構

針對DCEC算法的特征損失缺陷,對其網絡結構進行改進,在得到特征前后各加了兩個全連接層作為過渡,以避免DCEC算法在卷積后直接保留10維特征可能損失部分信息的問題。另外,不同于DCEC算法,本文的編碼層由卷積層和下采樣層組成,采用下采樣的目的是減少參數,防止過擬合;在解碼層通過上采樣層和卷積層來實現反卷積效果,加入上采樣層是為了還原下采樣造成的細節損失。改進后的網絡結構如圖4所示。

3.2 損失函數

Fig.3 DCEC network structure圖3 DCEC網絡結構圖

Fig.4 Network structure framework proposed in this paper圖4 本文提出的網絡結構框架

為了驗證改進結構的優越性,分別采用DEC算法的損失函數和IDEC算法的損失函數作為代價損失函數,采用圖4提出的網絡結構,得到兩種深度卷積圖像聚類算法,分別命名為DEC_DCNN(deep embedded clustering based on deep convolutional neural network)和 IDEC_DCNN(improved deep embedded clustering based on deep convolutional neural network),即DEC_DCNN的損失函數同DEC算法,如式(1)所示,IDEC_DCNN的損失函數為式(4)所示的IDEC算法的損失函數:聚類損失和重建損失之和。實驗部分將通過與現有研究結果的比較,驗證提出的改進網絡結構的有效性。

3.3 特征提取

實驗數據集 MNIST[12]、USPS[7]和 STL-10[5]的前兩個為手寫字體識別數據集,是灰度圖像,數據像素稀疏,最后1個數據集是RGB三通道的復雜圖像,圖像紋理、色彩、形狀復雜。為此,采用兩類不同方式提取特征,設計兩種策略進行聚類。

棧式自編碼可以學習到代表原始數據分布的有效特征[10]。因此,對MNIST和USPS數據集,直接使用圖4提出的網絡結構,采用和棧式自編碼相同的逐層貪婪預訓練方式,得到原始數據的潛在特征空間表示,然后使用K-means得到初始聚類中心,去掉網絡解碼層,只保留編碼層和特征層進行網絡微調。對復雜圖像數據集STL-10,首先使用Inception-v3[13]模型提取特征,用最后一個池化層(pool_3)的輸出作為圖像特征,也就是每個圖像用一個2 048維向量表示。然后用提取的特征代替原始圖像數據,使用圖4提出的網絡進行預訓練和微調。

不同數據集采用不同預訓練方式是因為預訓練結果很大程度決定了后期微調聚類的效果。對簡單圖像,使用棧式自編碼預訓練完全可以學到原灰度圖像的很好特征表示。但對圖像內容色彩豐富的復雜圖像,棧式自編碼提取的特征不足以表示原始圖像。由于卷積神經網絡具有對圖像特征魯棒性的特點,因此對復雜圖像,使用卷積神經網絡進行特征提取,然后對提取到的特征進行預訓練和微調,以取得更好實驗效果。DEC_DCNN和IDEC_DCNN算法分別依據其損失函數微調網絡,完成微調的同時實現聚類。

3.4 優化方法

設數據集X={x1,x2,…,xn}∈Rn×d,定義非線性映射fw:xi→zi和gw':zi→xi',其中zi是xi在低維特征空間的嵌入點,xi'是xi的重建樣本。fw、gw'分別表示編碼過程中從原始數據到特征空間的特征映射和從特征空間特征到重建數據的映射。類簇數為K,第j類簇的類簇中心μj∈Rd。si∈{1,2,…,K}表示樣本xi的分配標簽。

采用自適應矩估計Adam(adaptive moment estimation)[14]和小批量隨機梯度下降Mini-Batch SGD(mini-batch stochastic gradient descent)兩種優化方法對損失函數進行迭代優化。IDEC_DCNN算法需要優化和IDEC算法同樣的參數:編碼器編碼層和解碼層的權重、類簇中心、目標分布。DEC_DCNN算法的待優化參數同DEC算法,包括類簇中心和DNN(deep neural networks)網絡參數。

Mini-Batch SGD在網絡傳播過程中更新聚類中心{μi}和神經網絡參數。損失函數Lc關于特征空間嵌入點{zi}、聚類中心{μi}的梯度分別如式(7)和式(8)所示,其中qij和pij如式(2)和式(3)所示,α取1。

假設待更新的小批量樣本數為m,學習率為λ,則第j類簇中心μj的更新方式如式(9)所示。

IDEC_DCNN算法編碼層權重的更新公式如式(10)所示,解碼層的權重更新方式如式(11)所示。由式(10)可見編碼層權重根據重建損失和聚類損失的梯度和進行更新,解碼層權重只根據重建損失梯度實現更新。

目標分布P采用DEC思想更新,用擬合分布Q表示,如式(3)所示。為避免不穩定,間隔T次迭代更新P。通過式(12)實現樣本xi的聚類,將樣本xi分配給使概率qij最大的類簇j。

Mini-Batch SGD優化對預訓練后數據進行聚類的詳細步驟描述如下。

輸入:數據集X,類簇數K,目標分布更新間隔T,停止閾值δ,最大迭代次數M。

輸出:自編碼器編碼層權重W,解碼層權重W',聚類中心μ,類別標簽集合s。

4 實驗結果與分析

4.1 數據集描述

使用 MNIST[12]、USPS[7]和 STL-10[5]三個經典圖像數據集來測試本文算法的性能,前兩個為手寫字體數據集,最后一個為復雜圖像數據集。圖5(a)、圖5(b)分別給出了MNIST和STL-10數據集的部分樣本示例。

MNIST數據集是LeCun等人[12]提出的一個經典手寫字體識別庫,包含70 000張手寫數字圖像,每張均為28×28像素。每張圖像中的數字都是居中且都已標準化。USPS數據集含有9 298張手寫數字灰度圖像,每張圖像大小為16×16像素。STL-10是圖像分類和聚類常用數據集,其中圖像分別是飛機、輪船、大貨車、汽車、貓、狗、鳥、馬、猴子和鹿,共10類。每類圖像均有1 300個樣本,數據集共有13 000張帶標簽樣本,每張圖像的尺寸為96×96的RGB三通道彩色圖像。該數據集還含有100 000張無標簽樣本,可用于自編碼預訓練。

4.2 評價指標

使用聚類準確率(accuracy,ACC)、調整互信息(adjusted mutual information,AMI)和調整Rand指數(adjusted rand index,ARI)三種經典的聚類有效性評價指標[15-16]評價實驗結果。三種指標的取值上界均為1,取值越大聚類結果越好。

Fig.5 Samples of MNIST and STL-10 datasets圖5 MNIST和STL-10數據集部分樣本

4.3 實驗設置

為驗證本文算法的優越性,將本文算法實驗結果與DEC、IDEC和DCEC算法的實驗結果進行比較。另外,還與使用自編碼(autoencoder,AE)進行預訓練,然后再聚類的算法AE+K-means,以及K-means、譜嵌入聚類算法(spectral embedded clustering,SEC)[17]的實驗結果進行比較。

K-means的實驗結果為隨機初始化20次的最好聚類結果。SEC算法因添加了線性正則化,其性能在大多數據集上都優于傳統譜聚類算法。DEC算法使用棧式自編碼進行預訓練,對所有數據集,自編碼網絡結構均是全連接多層感知器(multilayer perceptron,MLP),每層的神經元數,即維度,均采用d-500-500-2 000-10,其中d代表原始數據集數據的特征維數。除輸入層、輸出層和特征映射層外,其余所有層都使用修正線性單元(rectified linear units,ReLU)[18]作為激活函數。IDEC算法沿用DEC的上述配置,詳細參數配置見文獻[7]。DCEC算法的參數設置同文獻[9]。

本文提出的兩種算法,對于MNIST和STL-10數據集使用Adam優化方法調整網絡參數,端到端預訓練120次;對于USPS數據集使用Mini-Batch SGD優化方法優化參數,預訓練2 000次。收斂閾值δ設置為0.1%,更新間隔T設置為總樣本數||X||和訓練批次大小BatchSize(即||S||=256)之比。除了輸入層、輸出層、特征映射層,其余層使用ReLU作為激活函數,輸出層使用Sigmoid激活函數。

4.4 實驗結果

本文DEC_DCNN和IDEC_DCNN算法與各對比算法的聚類準確率如表1所示,加粗和下劃線表示最好結果,N/A表示沒有相應結果。本文DEC_DCNN和IDEC_DCNN算法對各數據集的聚類結果評價指標AMI和ARI比較如圖6所示。圖7、圖8分別展示了本文DEC_DCNN和IDEC_DCNN算法在3個經典圖像數據集的聚類結果,分別展示了各數據集的每個類中前10個聚類概率較大的圖像。每行對應于一個類簇,圖像依據到相應類簇中心的距離從左到右排序。

Table 1 Clustering accuracy comparison of different algorithms表1 各算法的聚類準確率比較 %

表1實驗結果顯示:在MNIST、USPS、STL-10數據集上,提出的DEC_DCNN和IDEC_DCNN算法均取得了遠優于以往算法的聚類準確率,尤其是IDEC_DCNN算法在兩個手寫字體數據集取得了極好的聚類效果,聚類準確率遠遠高于DCEC算法,在MNIST數據集達到了98.19%的聚類準確率。對于STL-10數據集,DEC算法提取HOG特征,IDEC、DEC_DCNN和IDEC_DCNN均采用本文提出的特征提取方法,從表1展示的DEC和IDEC算法的聚類準確率來看,后者的聚類準確率提高了近40%,說明本文提出的圖像特征提取方法非常好。對相同的特征提取方式,本文提出的DEC_DCNN和IDEC_DCNN算法的聚類準確率均優于IDEC算法,表明本文提出的DEC_DCNN和IDEC_DCNN算法的網絡結構更合理。

Fig.6 Comparison of proposed algorithms on 3 datasets in terms of benchmark metricsAMI andARI圖6 本文算法在3個數據集的基準指標AMI和ARI比較

圖6實驗結果顯示:本文IDEC_DCNN算法在各數據集的聚類結果指標AMI和ARI的取值均優于DEC_DCNN算法的相應指標,說明IDEC_DCNN算法使用的本文提出的17層深度網絡結構更優,也說明IDEC_DCNN算法的損失函數更合理。

圖7的實驗結果揭示:對MNIST和USPS數據集,DEC_DCNN算法的結果均正確;對MNIST數據集,以往研究經常難以區分的9和4,6和4錯誤在DEC_DCNN算法的top10聚類結果中均沒有出現。對STL-10數據集,本文DEC_DCNN算法對貓和狗的識別上有部分錯誤,但對汽車、輪船、猴子和鳥等類別的識別都正確,表明提出的17層深度聚類網絡結構非常好。

圖8關于IDEC_DCNN算法在3個圖像數據集的實驗結果顯示:本文IDEC_DCNN算法在MNIST和USPS數字圖像數據集的結果均正確;對STL-10圖像數據集,只有在狗的類別中有一個被識別為貓,其余圖像的類別識別均正確。由此可見:提出的IDEC_DCNN算法的優越性非常強。這不僅說明了本文提出的17層深度網絡結構更優,也印證了IDEC_DCNN采用的損失函數更好。

5 結束語

Fig.8 Some clustering results of 3 datasets by proposed IDEC_DCNN圖8 本文IDEC_DCNN算法對3個數據集的部分聚類結果

針對現有深度學習聚類算法存在的問題,提出了具有17層網絡結構的深度聚類網絡結構框架,以及基于該框架的兩種深度圖像聚類算法DEC_DCNN和IDEC_DCNN。3個經典圖像數據集的實驗結果表明,提出的17層深度網絡結構框架避免了現有深度聚類網絡的問題;提出的基于該深度網絡結構框架的深度聚類算法DEC_DCNN和IDEC_DCNN的聚類性能優于現有深度聚類算法DEC、IDEC和DCEC,也優于K-means等其他經典聚類算法。

然而,實驗過程中發現,本文算法的實驗結果存在不穩定情況,分析原因可能是網絡參數的優化方法選擇不合適或者深度學習網絡本身參數眾多導致聚類結果波動。如何提高深度圖像聚類算法的聚類結果穩定性是需要進一步研究的問題。

猜你喜歡
深度特征
抓住特征巧觀察
深度理解一元一次方程
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 亚洲黄色高清| 91久久大香线蕉| 午夜人性色福利无码视频在线观看| 成人精品免费视频| 在线播放精品一区二区啪视频| 国产精品浪潮Av| 精品国产美女福到在线不卡f| 日本午夜三级| 99色亚洲国产精品11p| 国产视频入口| 日本高清免费不卡视频| 97精品伊人久久大香线蕉| 国产午夜人做人免费视频中文| 国产欧美日韩va| 中文字幕人妻无码系列第三区| 色婷婷狠狠干| 精品無碼一區在線觀看 | 国产成人高清精品免费软件| 中日无码在线观看| 亚洲国产av无码综合原创国产| 一区二区三区在线不卡免费| 中文字幕va| 国模私拍一区二区| 久久精品无码中文字幕| 五月丁香在线视频| 久操线在视频在线观看| 国产男人的天堂| 成人亚洲国产| 日韩毛片基地| 国产噜噜噜| 97超级碰碰碰碰精品| 麻豆国产精品视频| a亚洲天堂| 亚洲黄色片免费看| 亚洲综合天堂网| 91麻豆国产视频| 影音先锋亚洲无码| 国产麻豆精品手机在线观看| 免费可以看的无遮挡av无码 | 国产精品视屏| 欧美国产在线看| 91年精品国产福利线观看久久| a毛片基地免费大全| 亚洲视屏在线观看| 九九热这里只有国产精品| 青青草原国产一区二区| 呦视频在线一区二区三区| 亚洲无码一区在线观看| 又污又黄又无遮挡网站| 午夜无码一区二区三区| 国产亚洲精品va在线| 在线看免费无码av天堂的| 欧美有码在线| 日韩经典精品无码一区二区| 日韩人妻少妇一区二区| 久久国产黑丝袜视频| 免费一级毛片完整版在线看| 国产91精品调教在线播放| 久久99蜜桃精品久久久久小说| 亚洲精品无码抽插日韩| 国产精品污视频| 日韩精品成人网页视频在线| 国产精品网拍在线| 国产亚洲欧美在线中文bt天堂| 久久6免费视频| 99久久精品国产精品亚洲 | 国产精品一区二区在线播放| 国产免费久久精品99re丫丫一| 欧美激情,国产精品| 成人一区在线| 欧美日韩国产在线播放| 高清无码手机在线观看| 亚洲精品第一页不卡| 国产成人综合在线观看| 亚洲黄色成人| 激情视频综合网| 日韩在线2020专区| 午夜限制老子影院888| 五月婷婷伊人网| 日韩二区三区| 亚洲天堂网在线视频| 99中文字幕亚洲一区二区|