999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的數字幾何處理與分析技術研究進展

2019-02-20 03:34:28郝愛民趙沁平
計算機研究與發展 2019年1期
關鍵詞:深度特征方法

夏 清 李 帥 郝愛民 趙沁平

(虛擬現實技術與系統國家重點實驗室(北京航空航天大學) 北京 100083)

20世紀70年代至今,隨著各種硬件傳感器以及重建技術的快速發展,不同種類的數字多媒體數據大規模涌現,并先后經歷了由低維到高維、由簡單到復雜的發展演變過程[1-3].早期的數字多媒體主要以一維的音頻等數據為主,之后語音識別、自然語言處理等技術開始迅速發展.到80,90年代,隨著手持數碼相機和攝像機的普及,開始出現二維數字圖像、視頻等數字多媒體數據,大量方便的數據獲取方式以及后來互聯網的爆炸式發展推動了圖像處理、視頻分析技術的快速進步.而后隨著激光、結構光等三維掃描設備以及Kinect等消費級別的動作捕捉設備的逐漸普及,數字多媒體數據的描述能力進一步增強,此時三維幾何模型成為繼音頻、圖像、視頻之后的第4代數字媒體,并在工業制造、數字娛樂、計算機輔助設計、逆向工程、生物醫藥、數字文化遺產保護、虛擬現實等方面得到廣泛應用.

傳統的數字幾何分析和處理主要建立在手工定義的模型特征之上,只能針對特定的問題或者滿足特定的條件才能有效,而深度學習,尤其是神經網絡模型,在自然語言處理和圖像處理方面的成功,展示了它作為數據分析特征提取工具的強大能力,因此逐漸被用來提高傳統數字幾何處理方法的性能,并且取得了很多不同方向上的應用成果.但是三維幾何模型不像語音、圖像那樣具有標準的表示形式,通常難以直接應用于神經網絡的訓練當中,因此衍生了很多不同的針對不同幾何模型表示形式的處理方法,甚至是針對性的網絡結構,來將數字幾何處理和深度學習技術結合起來.

本文立足于數字幾何模型的分析和處理,對近年來基于深度學習技術的數字幾何處理工作進行了系統梳理.具體內容安排如下:第1節介紹常見的深度學習模型,主要是神經網絡模型,以及各種模型的典型應用場景;第2節結合深度學習技術介紹了數字幾何模型的主要表示方式,以及對應的處理方法;第3節對具體的數字幾何處理應用方向的相關工作進行了介紹,主要有數字幾何模型的匹配與檢索、分類與識別、生成、修復與重建、變形與編輯等;第4節指出了存在的問題和發展方向.

1 相關深度學習模型

深度學習模型不同于傳統的機器學習模型,它基于神經網絡模型,通過訓練調整神經網絡的參數,得到每一層的參數值,每層代表對輸入數據不同層次的表征,以此來將原始數據自動地轉化成最為簡單的特征表示.常見的神經網絡模型包括了深度神經網絡、卷積神經網絡、對抗生成網絡、循環神經網絡、置信神經網絡、遞歸神經網絡、自編解碼器等,本節將對這些常見網絡結構及其應用進行簡要介紹.需要注意的是,這些神經網絡并非嚴格神經網絡分類,比如卷積神經網絡實際上是深度神經網絡的一種,對抗生成網絡是一種學習的思想,其具體的實現可以是卷積神經網絡,本節只是根據各種典型網絡的特點對其進行分別介紹.

1.1 深度神經網絡

深度神經網絡是最為典型的深度學習模型,其他深度學習模型都是在此基礎上演變擴展而來.深度神經網絡中最基本的單元是神經元,神經元模型模擬生物神經網絡中“興奮”傳導的機制:當某神經元的電位達到一定閾值后被激活從而繼續向其他神經元傳遞“興奮”,McCulloch和Pitts據此提出了M-P神經元模型[4],該模型被廣泛運用至今.圖1所示為一個典型的神經元結構示意圖.

Fig. 1 A typical neuron in neural networks圖1 神經網絡中的典型神經元結構

由2層神經元組成的神經網絡稱為感知機,然而感知機往往不能解決非線性可分問題,因此多層神經網絡應運而生.如圖2所示,多層神經網絡除了輸入和輸出層之外,網絡內部還具有多個隱藏層.為使多層神經網絡滿足特定任務需求,基于鏈式求導法則的誤差逆傳播算法(back propagation, BP)[5]被用于網絡參數的訓練更新.而隨著神經網絡的層數增加,其參數量也相應增長,從而其擬合現實生活中某些復雜問題的函數關系的能力也不斷增強.

Fig. 2 A typical multi-layer neural network model圖2 典型的多層神經網絡模型結構

近年來,隨著GPU硬件設備計算能力的大幅提高以及任務數據的不斷增長,深度神經網絡訓練的時間消耗被顯著縮短,并且網絡過擬合風險也顯著減小.因此深度神經網絡在圖像分類、目標檢測識別、圖像分割以及圖像生成等任務中都得到了廣泛的應用.Krizhevsky等人[6]運用深層神經網絡AlexNet在ImageNet[7]圖像分類任務上取得重要成功,之后涌現出了大量的如VGG[8],GoogleNet[9],ResNet[10]等優秀的深層網絡結構.如圖3所示為AlexNet的網絡結構,相比于淺層神經網絡,AlexNet的網絡更深,也更加復雜,因此具有更好的圖像描述和區分能力.

Fig. 3 Architecture of AlexNet[6]圖3 AlexNet結構示意圖[6]

在深度神經網絡的結構中,若均采用全連接方式,將使得網絡的時間與空間效率十分低下.因此一些優秀的深度神經網絡采用“權值共享”策略,以此節約網絡模型的存儲空間并且提高網絡運行效率,這一策略在卷積神經網絡(convolutional neural net-work, CNN)[11]中有著最為重要的體現.

1.2 卷積神經網絡

卷積神經網絡(CNN)是專門針對圖像設計的深度學習模型,通過卷積操作和權值共享來減少深度神經網絡中的連接數量,從而降低深度網絡的復雜度.當前主流的視覺處理任務,如檢測、分割、估計等大都采用卷積神經網絡進行處理.

檢測任務是眾多圖像處理任務,如人臉識別、實例分割、姿態估計等任務的基礎,一個好的檢測方法對后續任務的準確性、有效性、實時性起著至關重要的作用.

Girshick等人提出的著名的R-CNN[12]網絡使用傳統方法提取候選框,并用卷積神經網絡提取特征,對物體通過滑動窗口的方式實現檢測分類,其具體處理流程如圖4所示:

Fig. 4 Object detection based on R-CNN[12]圖4 基于R-CNN的目標檢測示意圖[12]

之后Girshick[13]又對R-CNN候選區域提取方法進行了改進,采用卷積方法提取候選區域,提出了Fast R-CNN,不僅提高了檢測的準確率,同時也取得了更快的運行速度.后來Ren等人[14]進一步復用提取候選區域的特征用于候選的分類任務,提出了Faster R-CNN. 借助于region proposal network(RPN),Faster R-CNN將特征在提取興趣區域(region of interest, ROI)和分類2個階段中進行復用,減少了冗余計算.

除了檢測任務之外,卷積神經網絡還可以用于圖像分割任務,最初Long等人[15]將用于分類任務的卷積神經網絡最后的全連接層替換為卷積層,從而提出了全卷積神經網絡(fully convolutional net-works, FCN),用于圖像分割,其結構如圖5所示.之后幾乎所有的圖像分割網絡都是從FCN的基礎上演變而來,比如U-Net[16],SegNet[17],Deeplab[18-20],PSPNet[21]等.

針對估計任務,卷積神經網絡也表現出優越的能力.例如人體骨架估計任務,Newell 等人提出了一種端到端(end-to-end)的基于卷積神經網絡的多人骨架識別模型Associative Embedding[22].如圖6所示,該方法通過卷積神經網絡同時預測骨架關鍵點的熱力圖(heat maps)及其所對應人的標簽的熱力圖,從而實現對多人骨架的快速預測與正確歸類.

Fig. 5 Architecture of FCN[15]圖5 全卷積神經網絡結構示意圖[15]

Fig. 6 Human skeleton estimation based on CNN[22]圖6 基于卷神經網絡的人體骨架估計[22]

Fig. 7 Illustration of GAN圖7 對抗生成網絡結構示意圖

1.3 對抗生成網絡

對抗生成網絡(generative adversarial network, GAN)[23]最早由Goodfellow等人提出,是一個通過對抗過程估計生成模型的框架,利用了二元零和博弈的思想.具體如圖7所示,框架中同時訓練2個模型:捕獲數據分布的生成模型G和估計樣本來自訓練數據的概率的判別模型D,G的訓練程序是將D錯誤的概率最大化,這個框架對應一個最大值集下限的雙方對抗游戲.在G和D由多層感知器定義的情況下,整個系統可以用反向傳播進行訓練.在訓練或生成樣本期間,不需要任何馬爾可夫鏈或展開的近似推理網絡.

目前GAN最常使用的方面就是圖像生成,如超分辨率任務、語義分割、圖像風格轉換等.在超分辨率任務方面,Ledig等人[24]提出SRGAN,可以使用GAN將低分辨率圖片一一對應地生成高分辨率圖片,訓練需要高分辨率圖片,將高分辨率圖片用雙線性插值法生成低分辨率圖片后,分別作為真實數據和虛假數據輸入到GAN網絡中,最終訓練得到的模型可以將低分辨率圖片生成為高分辨率圖片.

在圖像風格轉換方面,Gatys等人[25]提出使用GAN的圖像風格轉換網絡,可以將紋理轉換問題由專有的固定的非參方法變為提取高層抽象特征的深度神經網絡方法,從而生成與已有藝術繪畫風格類似的高質量的全新圖像,如圖8所示.

在語義分割方面,Couprie等人[26]提出了使用GAN的語義分割模型,將傳統的分割過程看作一個生成過程,在零和博弈的框架下,生成器可以生成難以被判別器區分的語義分割圖片,其處理流程如圖9所示.

Fig. 8 Image style transfer based on GAN[25]圖8 基于GAN的圖像風格轉換[25]

Fig. 9 Semantic segmentation based on GAN[26]圖9 基于GAN的語義分割模型[26]

1.4 遞歸神經網絡

遞歸神經網絡(recurrent neural network, RNN)是一種比較具有代表性的循環網絡.1.1~1.3節提到的多種神經網絡模型中,數據和信息的傳遞是以模型的“數據流”為方向的,也就是單一傳遞方向.在RNN中,核心思想是利用順序信息,即對模型序列中的每個元素執行相同的任務,其輸出取決于先前的計算,網絡展開形式表示如圖10所示:

Fig. 10 Architecture of RNN圖10 遞歸神經網絡結構

遞歸神經網絡模型考慮的是具體任務的循環模式,若任務為5個單詞序列的預測,則該網絡將展開為5層神經網絡,每個單詞為一層,每層的輸入為當前層顯性和隱性的輸入.特別的隱藏狀態S可以是網絡當前的運算記憶,代表所有先前時間步驟中發生的事件信息.與傳統深度神經網絡不同的是,RNN中的主要參數U,V,W在所有步驟中共享相同的參數.這反映了每一步運算都是在執行相同任務的事實,只是使用不同的輸入.這種網絡訓練方式大大減少了需要學習的參數總數.

Fig. 12 Architecture of DBN[31]圖12 深度置信網絡結構示意圖[31]

遞歸循環網絡主要應用在自然語言處理領域,包括語言模型生成文本、機器翻譯和語音識別等.語言模型是對序列語句的可能性預測,即給定一系列單詞,預測給定前一個單詞的當前單詞概率.Mikolov等人[27]提出對長短不一的遞歸網絡進行混合構建語言模型,從而對語言模型進行了完善.Liu等人[28]通過構建不同長度RNN序列和輸出的關系的重復利用,模擬了翻譯過程中的不同語序問題.語音識別是通過處理給定的聲學信號輸入序列,利用網絡模型對一系列語音片段進行預測.Graves等人[29]介紹了一種語音識別系統,直接對音頻數據進行文本轉換,不需要中間的語音表示.該系統基于一個深層雙向遞歸神經網絡結構和CTC模型記性標簽的預測判斷[30],如圖11所示:

Fig. 11 Bidirectional RNN[29]圖11 雙向遞歸神經網絡[29]

1.5 其他深度網絡模型

深度神經網絡模型的結構還有很多,除了遞歸神經網絡之外,深度置信網絡(deep belief network, DBN)[31]也是廣為應用的一種網絡結構模型.如圖12所示,DBN由受限玻爾茲曼機(restricted Boltzmann machine, RBM)堆疊而成,前一個受限玻爾茲曼機的輸出作為下一個的輸入,由此進行深度迭代.受限玻爾茲曼機是一種具有隨機性的生成神經網絡結構,它本質上是一種由具有隨機性的一層可見神經元和一層隱藏神經元所構成的無向圖模型.它只有在隱藏層和可見層神經元之間有連接,可見層神經元之間以及隱藏層神經元之間都沒有連接.在DBN的訓練過程中,依賴于“貪婪思想”,即在每一層的RBM 網絡確保自身層內的權值對該層特征向量映射達到最優,自底向上地對每一個RBM進行參數的學習.最后在整體網絡的最上層設置反向傳播層,對整個結構進行自頂向下的參數優化.這是一種雙向的訓練加微調的模型訓練方法.

自編碼器(AutoEncoder)也是神經網絡的一種,通過訓練后能夠嘗試將輸入復制到輸出.自編碼器由編碼器和解碼器2部分組成,編碼器將輸入編碼成隱藏空間表示,解碼器通過重構來自隱藏空間的表示獲得輸出.與其他神經網絡關注輸出層和錯誤率不同的是,自編碼器關注的是隱藏空間.單純地復制輸入到輸出并沒有太大用處,實際應用中往往通過添加其他約束,使得自編碼器能夠學習到數據的有用特性.一種常見的約束是限制隱藏空間的維度,這種情況下,自編碼器被稱為欠完備的.通過訓練欠完備的表示,可以迫使自編碼器學到數據中最有代表性或者說最為顯著的特征,其中一個比較典型的應用就是用于圖像的去噪,如圖13所示:

Fig. 13 Illustration of AutoEncoder圖13 自編碼器示意圖

自編碼器雖然結構簡單,但是在機器學習領域有重要的作用.Rumelhart和Hinton等人[32]最早提出自編碼器作為學習特征表示的方法.目前自編碼器已經被成功應用于降維和信息檢索任務.降維是將特征映射到更低的維度進行表示,是深度學習最早的一批應用之一,例如,Rumelhart和Hinton等人[32]在2006年的工作.數據的低維表示可以在一些深度學習任務中用于提高性能,根據Salakhutdinov[34]和Tieleman[35]的觀察,低維空間的特征表示能夠將語義相關的樣本映射到相鄰的位置,在深度學習任務中能夠提高泛化能力.相比降維,信息檢索從自編碼器的研究中獲益更多,它要求從數據集合中查詢類似的條目.當使用自編碼器對數據進行降維表示時,信息檢索任務不僅能像其他任務一樣獲得降維表示所帶來的益處,還使得低維空間的某些搜索變得極為有效.這種用降維表示實現信息檢索的方法已經被廣泛應用于文本輸入[34]和圖像輸入[34,36]等研究中.

神經網絡結構還有很多,由于篇幅關系,本節只介紹了當前多種典型的網絡結構,其他網絡結構不再贅述.

2 面向深度學習的幾何數據表示

數字幾何模型的表示方法主要有兩大類:實體表示和邊界表示.實體表示包括實體幾何、點云、體網格以及體素等;邊界表示包括表面網格、參數曲面、細分曲面、隱式曲面等.不是所有的表示形式都適用于深度學習,目前只有圖像、體素、點云和網格等幾種形式可以用于神經網絡模型,如圖14所示:

Fig. 14 Popular representations of digital geometric models for deep learning圖14 適用于深度學習的數字幾何模型常用表示方法

2.1 體 素

幾何模型的體素表示是最接近于圖像的表示形式,它具有標準的定義域,因此可以直接應用圖像分析和處理中常用的卷積神經網絡.這種體素方法的優點是可以表示任意拓撲,允許較大的形狀變化.Wu等人[37]首先將深度模型引入到三維體素表示的模型分析,他們利用一個三維深度置信網絡——3D ShapeNets,直接從原始數據中學習不同種類的模型和模型任意姿態的特征分布,從而實現了三維物體的自動識別和修復.類似地,Maturana等人[38]和Qi等人[39]采用同樣的三維體素表示,利用CNN實現了超過State-of-the-art的高準確度物體識別和模型分類,圖15所示為其網絡結構和網絡不同層所學習到的特征.盡管利用三維體素表示幾何模型比較簡單直觀,而且可以直接利用卷積神經網絡進行分析處理,但是隨著模型體積的增大、模型的分辨率增加,受限于計算機內存和顯存大小,深度學習模型通常只能對低分辨率模型進行分析,難以處理高精度的模型.

Fig. 15 3D object recognition based on voxel representation and deep model[37]圖15 基于體素表示和深度模型的三維物體識別[37]

Fig. 16 Voxel representation based on Octree[41]圖16 基于八叉樹結構的體素表示[41]

而將體素與八叉樹數據結構進行融合的方法正好可以從一定程度上減輕內存消耗的問題.八叉樹模型是一種具有代表性的柵格數據模型.根據八叉樹不同的存儲方式,將其分為規則八叉樹、線性八叉樹以及一對八式八叉樹等.不同的存儲結構的空間利用率及運算操作的方便性是不同的.Steinbrücker等人[40]通過八叉樹數據自適應離散體素來彌補一般體素分辨率低這一缺點,在CPU上實現了實時的三維體映射.Riegler等人[41]提出了OctNet網絡用于稀疏三維數據的深度學習表示,它使用混合網格-八叉樹結構,將八叉樹(Octree)結構深度限制在一定的層數范圍內,優化了網絡性能,可以訓練更深的神經網絡而且處理的模型分辨率也得到進一步提高,基于八叉樹結構的數據表示方法如圖16所示.Wang等人[42]采用類似的表示方法提出了O-CNN來對三維模型進行分析.Tatarchenko等人[43]提出了一種新的卷積解碼器結構,用于生成以八叉樹表示的高分辨率三維輸出.H?ne等人[44]在三維重建中應用八叉樹結構體素表示來進行三維幾何預測.

2.2 多視角圖像

由于三維模型的表示通常沒有二維圖像那樣標準的定義域,體素表示方法又受限于存儲往往會丟掉模型上的幾何細節,因而另一種比較直觀的處理方法就是將三維模型投影為二維圖像,但是投影會造成遮擋、不可見而引發數據的丟失,因此需要在多個視角下進行投影,用多個視角下的圖像來表示三維模型.多視角圖像通常是在以物體中心為球心的球面的各個位置上利用虛擬相機對物體成像,或是直接對物體進行投影.這樣生成的一組圖像具有更多的特征信息,對物體的描述更加完整.

在多視角圖像生成的基礎上,使用經典、成熟的二維圖像深度學習網絡進行訓練,自然可以較好地從各個視角圖像中提取到三維物體的特征.圖像與圖像之間也可以直接用于比較.因此不同于以其他數據表示形式開展深度學習的研究中人們關注如何從數據中提取特征,在多視角圖像方面人們更加關注如何將多視角下圖像的特征信息進行融合,獲得更好的網絡模型,比如Guo等人[45]利用多視角下的二維圖像標簽來指導三維模型的標記,并取得了很好效果.Su等人[46]提出了一個由卷積神經網絡并聯和串聯組成的網絡模型用于實現利用多視角圖像對三維物體進行分類.如圖17所示,網絡首先由一組共享參數的卷積神經網絡從不同視角圖像提取特征.在特征融合方面,該模型并未簡單采取求和的思想,而是利用一個卷積神經網絡學習如何將多個特征圖進行融合.該網絡在模型分類方面的性能要明顯優于基于體素表示的卷積神經網絡.

Fig. 17 Learning multi-view feature fusion using CNN[46]圖17 利用卷積神經網絡學習多視圖的特征融合[46]

Fig. 18 Extraction of local shape descriptor using images from local and global views[47]圖18 使用局部與全局視圖獲取模型局部點的描述子[47]

Huang等人[47]將多視角圖像聚焦于模型的局部點,并且采用以模型局部點為中心、多種半徑的球面為成像位置,使得獲得的多視角圖像既包含局部點的局部特征,又具有全局特征,如圖18所示.由此使用卷積神經網絡獲取的局部點描述子也兼具局部與全局性.描述子可以用于模型匹配、結構分割以及語義分割. Kalogerakis等人[48]將多視角圖像與深度圖結合,提出了一種利用全卷積網絡與條件隨機場對三維模型進行分割的方法.該方法同樣采用局部與全局的多視圖生成思路,并一同生成了深度圖.在生成多視圖的過程中記錄了二維圖像中每個像素對應的三維模型三角面片.利用多視角渲染圖像與深度圖像進行學習,獲得圖像中一個區域對應不同特征類型的置信度,再將圖中的特征識別結果投射到三維表面.最后利用條件隨機場實現模型分割,其分割結果如圖19所示:

Fig. 19 3D shape segmentation results based on FCN and multi-view CNN[48]圖19 基于全卷積神經網絡和多視角視圖的三維模型分割結果[48]

2.3 點 云

三維幾何模型的另一種常見表示方法就是點云,點云通常是由激光雷達掃描得到的數據,由于其數據量龐大,且點云數據固有的無序性、無連接性以及特征旋轉不變性等特點,沒有圖像體素那樣標準的數據表示結構,無法直接將數據向量化,所以難以直接應用于深度學習模型.

Qi等人[49]首先提出了PointNet卷積網絡方法,如圖20所示,它首先通過一個空間變換網絡解決了點云旋轉問題,在網絡中對每個點進行一定程度的特征提取后,采用MaxPooling對點云整體提取出全局特征,解決了點云的無序性問題.PointNet最終可以提取出點云系統固定維數的特征,實現了點云的特征向量化,可以用于三維物體的分類、分割等應用.之后他們又對其進行進一步改進,提出了更新的PointNet++[50],解決了PointNet無法很好地捕捉由度量空間引起的局部結構問題,可以更好地適應精細場景的識別,對復雜場景具有更強的泛化能力.

由于點云這種不規則的數據形式(頂點集合)和社交網絡(個體集合)比較類似,因此在非規則數據分析領域常用的圖結構也可以用來對點云進行表示,從而利用圖卷積神經網絡(graph convolutional network, GCN)[51-53]對點云進行分析.Qi等人[54]在點云的基礎上根據K近鄰的方式建立圖結構,提出了3DGNN,圖中的結點由從二維圖像中提取的特征來進行表示,從而實現語義分割.由于不同的點云模型會造成不同的最近鄰圖結構,所以無法直接應用圖拉普拉斯(graph Laplacian)的譜分析,因此Yi等人[55]在頻譜域中利用函數映射方法將這些不同的圖結構對齊到一個標準的空間,提出了SyncSpecCNN,可以用于多種不同的應用任務,比如三維模型分割、三維關鍵點檢測等,都取得了State-of-the-art的效果,其網絡結構如圖21所示.其他類似的針對圖神經網絡進行改進的還有很多,比如RGCNN[56],DynGCNN等[57].

Fig. 20 Architecture of PointNet[49]圖20 PointNet網絡結構[49]

Fig. 21 Architecture of DynGCNN[57]圖21 DynGCNN結構示意圖[57]

2.4 網 格

網格模型是目前使用最為廣泛的幾何模型表示方式,但是它不具備標準的定義域,很難直接應用于深度模型,所以通常需要手動地在模型表面建立標準定義域,或者手動提取模型上頂點的特征用于神經網絡的訓練.由于網格表示實際上也是一種圖結構(頂點和邊),因此可以用2.3節中的圖卷積神經網絡來進行分析和處理[57-62].另一種方式就是在網格表面建立標準的定義域,比如Masci等人[63-64]利用測地線的性質在網格模型表面建立如圖22所示的局部極坐標系,從而可以在網格上實現與圖像卷積類似的卷積操作,這樣就將傳統的CNN擴展到了非歐的幾何流形上,可以利用CNN的數據抽象能力提取模型的各種幾何特征,應用于不同的場景.在此基礎上,Boscaini等人[65]利用各項異性的擴散核函數進行了進一步改進,并用于學習模型之間的對應關系,得到了更好的效果.在文獻[66]中,同一作者采用加窗傅立葉變換方法建構了空間-頻域上的CNN架構.Monti等人[67]提出了一種更加通用的框架來利用深度模型處理非歐數據,例如圖結構數據和幾何流形,而之前所述的這些模型實際上都可以看作這種框架的某種特殊情況,因此更具通用性.

Fig. 22 Geodesic polar system built on mesh surface[63]圖22 網格模型表面建立測地線極坐標系[63]

除了在網格表面建立標準的定義域之外,還有一種常見的針對網格表示的深度學習方法是利用傳統的手工定義的描述子來表示模型的局部特征,然后利用神經網絡對這些低層次的特征進行進一步地抽象提取,從而實現不同的應用任務,同時可以取得更好的表現.Guo等人[68]根據7種傳統的幾何特征對網格模型上的頂點進行描述,然后將這種描述子轉換為二維矩陣,利用經典的CNN結構對這些特征進行進一步抽象提取,實現了三維模型的語義標記,相比傳統方法取得了巨大的準確度提升.Chen等人[69]使用熱核特征作為描述子描述每個點的特征,并使用三聯網絡的方法訓練得到具有更好區分特性的每個點的特征,從而對不同模型上的點進行匹配.Wang等人[70]利用網格模型上的局部特征描述子定義幾何圖像(geometry image),然后利用如圖23所示的三聯神經網絡來學習模型之間的對應關系.

Fig. 23 Extraction of high-level features using local low-level features[72]圖23 利用網格上低層次的局部特征抽取高層次特征[72]

3 基于深度學習的數字幾何處理

3.1 模型匹配與檢索

三維模型的匹配和檢索是數字幾何分析領域研究最為廣泛的方向之一.傳統的匹配和檢索方法[71-72]都是通過手工設計的描述子來實現三維模型上的頂點之間相似性比對,通常稱為模型的匹配或者模型的對應,而對三維模型整體而言的相似性比對往往應用于模型的檢索.深度學習技術已經在自然語言處理、圖像處理領域證明了其強大的特征抽取和描述能力,因此很多研究者開始研究如何利用深度學習技術來提高模型匹配和檢索的準確率,擴展其應用場景.

Fig. 24 Illustration of shape correspondence[73]圖24 模型對應結果示意圖[73]

Wei等人[73]首次采用深度學習方法來學習三維人體掃描數據之間的對應關系,這種方法僅僅需要部分幾何信息,不要求被掃描的人體數據具有相似的朝向.與傳統的模型匹配對應方法不同的是,該方法不是直接訓練網絡來求解匹配問題,而是利用卷積神經網絡來解決一個人體區域的分割問題,從而提高學習到的描述子在區域邊界的平滑性,提高匹配的準確度,其對應結果如圖24所示.Zeng等人[74]提出了另一種數據驅動的三維關鍵點描述子,用于匹配更加復雜的真實世界的深度掃描圖像.如圖25所示,Zeng等人使用三維體素表示的卷積神經網絡結構學習局部體素塊的特征來建立不完整的掃描數據之間的對應關系,這種方法不僅可以在新的場景中建立局部的幾何對應,而且可以用于不同的任務和空間尺度.這種基于體素表示的網絡結構的缺陷是由于內存消耗的原因導致它們的分辨率比較低.

Fig. 25 Key-point matching based on voxel representation[74]圖25 基于體素表示的關鍵點描述子匹配方法[74]

Fig. 26 Shape correspondence based on Geodesic CNN[63]圖26 基于測地線卷積神經網絡的模型對應方法[63]

為了解決卷積神經網絡不能直接應用于網格表示的三維模型的問題,Bronstein等人提出了基于測地線的卷積神經網絡(geodesic convolutional neural network, GCNN)[63,65,75],如圖26所示.這是將傳統的卷積神經網絡向非歐幾何流行進行的擴展,通過在模型表面利用測地線建立標準的上下文結構,使得圖像上的卷積操作可以在網格表面進行,從而可以利用神經網絡結構對傳統的手工定義特征描述方法進行抽象,從而獲得更加高層次的特征描述子,可以用于建立模型之間的對應關系,而且其準確率遠遠超過了傳統的描述方法.與這類直接學習對應的方法不同,Litany等人[76]利用深度殘差網絡以定義在模型上的稠密描述作為輸入來學習模型之間的函數映射和線性算子,而這種映射關系又提供了一種緊致的對應表示.

Wang等人[72]提出了一種新穎的深度學習框架,能夠推導出基于網格表示的三維模型的局部描述子.不同于之前的基于卷積神經網絡的方法來提取基于多視角圖片或者直接提取形狀的內在屬性,這種方法參數化了多個尺度上的在關鍵點附近的局部信息,之后利用三重網絡來進行學習,通過最小化三重損失函數從而得到模型之間的對應關系.類似地,如圖27所示,Chen等人[69]根據傳統模型上的擴散理論和熱核函數提取多尺度幾何特征描述,然后利用三重網絡進一步抽象已有的幾何特征描述,學習到新的特征描述具有更強的描述能力,可以獲得更高的匹配準確性.

Huang等人[47]介紹了一種新的局部描述子,如圖28所示,通過采用多視角和多尺度的處理,并通過比較傳統的二維神經網絡方式進行特征提取,其訓練的基本條件是不同模型上幾何或語義相似的點應該被嵌入相近的特征空間當中.這種描述子不僅可以用于模型匹配,還可以用于分割和模型部件的功能型預測等多種應用場景.Furuya等人[77]提出了一種基于局部的模型檢索網絡結構,叫做PWRE-net.利用深度神經網絡,PWRE-net從大量的局部-整體模型對中學習到一個共同的統一嵌入空間,這個空間中的局部模型和它對應的整體模型具有密切的關系,從而實現利用局部模型來進行三維幾何模型的準確檢索.

Fig. 27 3D shape matching based on deep triplet CNN[69]圖27 基于深度三重網絡的三維模型匹配方法[69]

Fig. 28 Multi-scale shape matching based on multi-view images[47]圖28 基于多視角多尺度的模型匹配[47]

基于整體三維模型的描述可以用于模型檢索,Zhu等人[78]利用自編碼方式來進行特征學習,通過將三維模型投影到二維空間,融合多個視角下二維圖像中學習到的特征描述,實現三維模型的檢索.Xie等人[79]提出了深度非線性度量學習方法,首先利用局部約束的線性編碼對模型頂點進行編碼,然后將編碼系數直方圖作為全局三維模型描述子,再用深度度量網絡學習三維描述子到非線性特征空間的映射關系,從而實現三維模型特征描述的特征抽取,可以直接用于模型檢索,具有很高的檢索準確率.此外還有基于草圖的模型檢索方法[80],即輸入用戶描繪的簡單的草圖,系統返回相似的三維模型,其結果如圖29所示.Wang等人[81]利用2個卷積神經網絡,一個用于訓練草圖,一個用于訓練多視角投影,然后實現了基于草圖的模型檢索.

Fig. 29 Shape retrieval based on sketches[81]圖29 基于草圖的模型檢索方法[81]

3.2 模型分類與分割

與模型的匹配和檢索類似,分類和分割也是深度學習應用于三維模型的典型方向,因為分類與分割同樣需要對三維模型進行特征提取和描述.分割問題的特征描述是針對頂點或局部區域而言,分類問題是針對整個模型,傳統的模型分割或分類方法都是依賴于手工定義的描述子和特定的聚類方法[82-83],具有一定的局限性,而深度學習技術正好具有強大的數據抽象和描述能力.最初嘗試利用深度學習進行分類的方法結合了卷積和遞歸神經網絡,用來學習和抽象特征,實現了如圖30所示的RGB-D圖像的分類[84].Gupta等人[85]對RGB-D的信息進行了擴展,不僅為每個體素提供了顏色和深度信息,還為它們編碼了距離地面的高度和重力的角度,這一方法取得了顯著效果.Eitel等人[86]融合了以上2種方法,提出了一種融合后的神經網絡.這些方法都是針對2.5維的物體進行研究.Wu等人[87]提出了對體素進行分類和檢索的體積架構,通過學習不同類物體的復雜的三維形狀分布,實現物體的分類和分割.類似地,Maturana等人[88]提出了自己的針對體素的網絡架構,并且可以實現實時的物體識別.

Fig. 30 3D object recognition based on RNN[84]圖30 基于遞歸網絡的三維物體識別[84]

另一個主要的分類方法是將三維物體投影到二維平面上進行卷積.Shi等人[89]將三維物體投影到包圍它的圓柱體上形成全景圖,并對這個全景圖進行卷積操作,從而進行二維上的特征提取來實現三維模型的分類,具體過程如圖31所示.Su等人[46]通過聯合訓練多視圖的方式對物體進行分類,取得了較好的效果.Hu等人[90]通過三聯神經網絡進行度量學習,并通過生成與體素模型相對應的使用場景的方法來揭示物體的功能.這種方法雖然簡單,但是不能將學到的特征投射到模型上,因此很難進行分割.

Qi等人[49]將機器學習領域擴展到了點云,他們將每一個點輸入多層感知機單獨學習一個特征,并最后用取最值等對稱性的操作獲得全局特征表示從而進行分類,如圖32所示,這種方法可以解決點云無序性的特點.緊接著的PointNet++[50]采取多層采樣的方式,保證了網絡對不同大小模型的魯棒性,并且使用跳躍的連接方式,在特征傳導過程中,將每一層學到的信息拼接在每個點的信息上,從而實現物體分割.

Fig. 31 3D object classification based on panorama projected images[89]圖31 基于全景圖投影的三維物體分類[89]

Fig. 33 (Co-)Segmentation model based on deep learning[91]圖33 基于深度學習的模型(共)分割[91]

Fig. 32 3D shape classification and segmentation based on PointNet[49]圖32 基于PointNet的三維模型分類和分割[49]

最早利用深度學習技術對網格模型進行分割的方法由Guo等人[68]提出.他們先利用多種手工定義的特征描述子將模型的頂點描述成一個向量,然后將這個一維向量變換為二維的矩陣形式,這樣就可以直接利用圖像中的卷積神經網絡進行特征提取,并實現了語義標記.Shu等人[91]將三維模型分解成多個小塊,然后利用深度學習從低層次手工定義的描述子抽取更高層次的語義描述,再用聚類方法實現網格模型的分割和共分割,如圖33所示.之后Wang等人[92]設計了一種形狀全卷積網絡(shape fully convolutional network, SFCN),在這種網絡中他們定義了基于圖的卷積和池化操作,將圖像分割中廣泛應用的全卷積網絡應用于三維網格模型的分割,取得了很好的分割結果.

除了外觀以外,還可以從風格的角度對三維模型進行分類.物體的功能與其主要部分的總體形狀和每個部分的排列密切相關,而風格與這些部分的幾何細節密切相關[93],如圖34所示為基于風格的三維模型分類.Lim等人[94]通過分析研究多視圖的方式進行分類,每次輸入一個一正一反的三元組,通過三聯的神經網絡學習他們的距離.學習的目標應滿足2個條件:相似風格的物體足夠近和不相似的物體足夠遠,對于任意一個模型,所有和它相似的模型都比和它不相似的模型要遠,從而生成一個均勻的空間.

Fig. 34 3D object classification based on styles[93]圖34 基于風格的三維模型分類[93]

Fig. 35 Shape generation based on CNN[97]圖35 基于卷積神經網絡的模型生成[97]

3.3 模型生成

相比于三維幾何模型,深度學習在二維圖像領域應用較早.同時,多視角圖像又是三維幾何模型的一種有效的表示方式.利用多視角深度圖像或利用多視角圖像生成物體的可見外殼都可以有效地實現三維模型的重建.因此部分學者將三維幾何模型生成問題轉化為模型的多視角圖像生成問題并開展研究.Hinton等人[95]提出了用于實現變換操作的自編解碼器,可以對輸入圖像進行小幅度的視角變換.Flynn等人[96]訓練了一種端到端的深度神經網絡,可以保留場景相鄰視圖中共有的像素并對未知像素進行預測,網絡可以用于真實場景相鄰視圖間的插值.如圖35所示,Alexey等人[97]在解碼器中使用了上采樣層與卷積層組合形成的“上卷積層”,使得解碼器具有生成高分辨率圖像、大幅度的視角變換、對模型進行縮放變換、顏色變換的能力.

空間變換網絡[98]通過在現有的卷積神經網絡中引入一種可微的圖像采樣模塊,使得網絡具有利用數據的空間信息、對特征進行空間變換的能力.Zhou等人[99]使用卷積神經網絡對像素點在相鄰視圖中的坐標變換進行預測,并能根據多視圖輸入對生成視圖進行優化.如圖36所示,Park等人[100]首先利用自編解碼器推斷在輸入和輸出視角圖像中均可見的部分,并將對應的像素移動到目標視角圖像中的位置;然后將輸出圖像剩余的生成問題轉換為圖像填充問題,利用神經網絡根據中間結果來推斷輸入圖像中不可見的部分.神經網絡本身也利用對抗網絡和特征識別網絡作為損失函數來減少合成結果中的畸變、模糊和空洞等問題.

由于幾何模型的體素表示可以直接應用于卷積神經網絡,通過訓練網絡使其能夠直接將模型在低維空間中的編碼解碼成模型的體素表示,從而可以免去由編碼到多視角圖像再到多視角圖像建模這一過程.Girdhar等人[101]使用自編解碼器構建了一個端到端的網絡,分別從模型的單張圖像以及體素獲取表示編碼,將2種表示編碼的歐氏距離作為訓練的損失函數,同時使用已有的模型體素對解碼器進行監督學習.由此產生的表示編碼不僅能從二維圖像中推理出來,而且可用于生成三維模型.對抗生成網絡在圖像生成方面取得了理想的效果,如圖37所示,Wu等人[102]將其應用于三維體素,獲取到模型樣本在高維特征空間的分布,并將這一分布映射到低維空間中.對抗生成網絡無需借助參考圖像或已有模型,可以根據輸入的低維特征向量直接輸出三維體素模型.由于網絡具有探索流形空間的能力,不僅能夠生成全新的模型,也可對已有模型進行分類、索引、合成等應用.在此基礎上人們將八叉樹數據結構應用于體素表示以提高生成模型的精細程度[42-43],但生成模型的分辨率依舊難以達到多視角圖像的水準.

Fig. 36 Multi-view images generated from a single view image[100]圖36 由單一視圖生成模型的多視角圖像[100]

Fig. 37 Shape synthesis using GAN[102]圖37 使用對抗生成網絡進行模型合成[102]

Xu等人[103]利用基于遞歸神經網絡的自編碼器將模型的整體結構參數(模型零部件包圍盒參數、對稱性參數等)按層級編碼成一個低維的特征向量.并利用對抗生成網絡訓練對應的解碼器,從而組成一個整體結構與特征向量間的雙向轉換器.通過訓練使得解碼器可將輸入的隨機噪聲擬合成可表示合理模型結構的低維特征向量.最后再利用深度神經網絡實現由結構參數到具體模型零部件的轉換,與自編解碼器構成完整的模型生成管線,在模型分類、局部匹配、模型生成、形狀插值等問題上都有不俗的表現.Wang等人[104]提出了一種由單視圖圖像生成網格模型的方法.如圖38所示,利用從輸入圖像中提取的特征逐步對一個橢球進行變形從而產生目標模型.對于三維網格模型使用的非規則數據形式——圖,該方法采用圖卷積網絡來處理橢球逐步變形獲得的三維網格,使用卷積神經網絡來提取二維圖像特征,并利用一個投影層使得網格中的每個頂點能獲取相應的二維圖像的特征.通過構建圖的上池化層,使得網格頂點的數量逐漸由少到多,網格形狀由粗糙到精細,既保留了全局信息,又具有細節表達,同時使得整個變形過程更加穩定.此外還有利用過程建模和神經網絡從草圖中重建并合成三維模型的方法[105].

Fig. 38 Deform an coarse ellipsoid mesh into a refined mesh using CNN[104]圖38 卷積網絡處理橢球網格變形生成精細模型[104]

Fig. 39 Shape restoration and reconstruction based on AutoEncoder[109]圖39 基于自編碼網絡的模型修復與重建[109]

3.4 模型修復與重建

隨著消費級激光掃描設備(比如微軟的Kinect和英特爾的RealSense)精度和效率的不斷提高,幾何模型的獲取越來越容易.海量幾何模型的涌入,為深度學習在幾何處理與分析領域提供了堅實的數據基礎.然而由于光照、遮擋、環境等外在因素影響,直接獲取的原始幾何數據不完整,需要對獲取的原始幾何數據進行修復與重建.傳統的模型修復與重建算法[106-108]主要依賴于較強的假設和結構先驗知識,只能處理特定場景下的模型修復與重建,無法應用于大量的幾何模型.近年來,隨著深度學習在音頻、圖像、視頻領域的突破性進展,研究人員已經開始將深度學習遷移到幾何模型上,尤其是幾何模型的修復與重建.與傳統算法不同,基于深度學習的方法直接從海量數據中挖掘模型的結構信息,不再受限于具體的應用場景以及強假設先驗信息.

相比于圖像規則的定義域,幾何模型的表示形式與具體的應用場合有關,進而也阻礙了深度學習在幾何模型上的直接推廣.最直觀的方法就是將幾何數據用體素表示,然后將2D上的操作直接擴展到3D上.受圖像修復中的自編碼網絡啟發,Dai等人[109]提出了一種基于體素的自編碼網絡來對缺失模型進行修復與重建.如圖39所示,在訓練階段,借助3D卷積操作將輸入的殘缺幾何模型映射到高維空間(編碼),然后再通過3D反卷積操作重構完整幾何模型(解碼).作者通過編解碼網絡學習幾何模型潛在的概率分布,可以有效地對缺失部分進行修復.而且分類網絡語義信息,可以更精準地修復缺失部分.受制于內存限制,重構幾何模型的分辨率低,無法表示更為精細模型.為此,Wang等人[110]提出了一種全自動的模型修復網絡架構.與Dai等人相同,Wang等人也采用自編碼網絡架構來重構幾何模型.為了保證重構幾何模型在功能和結構上的準確性,Wang等人利用判別器網絡來約束自編碼網絡生成的幾何模型.為增加輸出模型的分辨率,Wang等人借助循環卷積網絡自動重構出更高分辨率的幾何模型.雖然這些方法能夠有效地完成模型的修復與重建,但由于這些方法主要關注幾何模型全局結構,無法有效地修復局部幾何細節.

為了解決上述問題,Han等人[111]提出一種基于全局結構指導的局部結構修復網絡架構.如圖40所示,該文首先利用LSTM網絡架構提取模型的全局結構信息,然后在全局結構指導下逐一對缺失區域局部結構進行修復.這種方法有效地擺脫了內存對于模型分辨率的限制,可以達到很高的分辨率,完成全局結構修復的同時也能保證局部幾何細節的修復.然而對于紋理級的幾何細節,這樣的分辨率還不足以表示.為了進一步擴大生成體素模型的分辨率,Cao等人[112]借助級聯網絡架構對缺失模型由粗糙到精細的逐層修復.如圖41所示,該方法能夠將生成模型分辨率提高到極高的水平, 可以有效處理精細的幾何結構.

Fig. 40 Global structure guided shape restoration and reconstruction[111]圖40 全局結構指導下的模型修復與重建[111]

Fig. 41 Shape restoration and reconstruction based on cascaded FCN[112]圖41 基于級連網絡架構的模型修復與重建[112]

盡管體素有著規則的定義域,也很容易將2D的操作直接擴展到3D域上,但是體素表示效率較低且受制于內存限制.相比于體素這種中間表示形式,點云則獲取直接且存儲更為容易.盡管PointNet[49]解決了深度學習在點云上的應用,但受限于深度學習輸入輸出固定長度的約束,這類方法目前還無法更好地服務于破損點云模型的修復與重建.為此,Lunscher等人[113-114]利用破損幾何模型深度圖來完成點云模型修復.

如圖42所示,其核心思想深度圖的修復,然后對不同角度深度圖進行融合來完成點云模型的修復與重建.與體素表示相比,該方法不受制于內存限制且數據獲取容易,可以有效地應用于服飾定制領域.

Fig. 42 Point cloud restoration using geometric depth map[113]圖42 利用幾何模型深度圖來完成點云模型修復[113]

另一種常見的模型表示形式就是多邊形網格,盡管基于圖的卷積神經網絡已經被廣泛應用,但是受制于網絡連接關系等信息,還無法直接處理網格模型的修復.為了解決無法直接重構出缺失區域連接關系信息不同的問題,Google團隊[115]借助自編碼圖卷積網絡來處理可變形模型的修復與重建.如圖43所示,首先借助自編碼網絡架構,學習幾何模型潛在的特征空間;然后借助外部約束來重構模型.與一般的模型修復不同,該網絡結構對于缺失部分可以給出多種選擇,很好地滿足用戶的不同需求.

3.5 模型變形與編輯

總的來說,構造新的三維模型依舊是一項比較費時費力的工作,而通過對現有模型進行變形和編輯產生新模型的方法顯然要高效很多,這也是當前計算機動畫生成和制作的主要手段.將深度學習運用到模型變形和編輯會顯著提升三維模型數據集構造、三維模型動畫制作和模型設計等各項工作的效率.

Fig. 44 Shape deformation based on deep learning[116]圖44 基于深度學習的模型變形[116]

一類常用的模型編輯方法就是模型變形,圖44給出了一些使用深度學習技術產生的模型變形結果.Tan等人[116]提出了一種新的網格變分自動編碼器(mesh VAE)框架,如圖45所示,該框架利用深度神經網絡來探索三維模型的潛在形狀空間,并且能夠通過對現有模型的變形生成原始數據集中不存在的新模型.為了有效表示任意的網格變形,該框架使用了變分自動編碼器(VAE)[117]和旋轉不變網格差分(RIMD)[118]的曲面表示方法,并使用了全連接的網絡架構和簡單的基于均方差(MSE)的重構損失函數.該文最后給出證明這項工作在新模型生成、模型插值、模型空間嵌入和模型潛在空間探索等方面都能取得明顯優于傳統方法所產生的結果.

Fig. 45 Shape deformation based on mesh VAE[116]圖45 基于變分自編碼結構的模型變形[116]

變形傳遞是模型變形的重要研究課題.建立可靠的模型對應關系是現有變形傳遞方法的一個基本問題,但解決這個問題需要一定的專業知識,尤其是當源和目標形狀差別比較大的時候需要大量的人工操作來選擇變形對應的關鍵點.Yang等人[119]提出了一種新的可以自動選擇關鍵點的變形轉移方法.該文采用雙調和權重形狀變形[120-121]解決變形傳遞問題,并改進了聚類和誤差成本來優化變形傳遞.這種方法可以在源模型上自動產生一組關鍵點,用戶只需要在目標形狀上指定相應的點,這樣可以極大地減少變形傳遞所需要的時間和專業知識.該文給出的實驗結果表明,該方法優于目前最先進的變形傳遞方法,而且這種方式自動選擇的關鍵點比普通用戶選擇的更合理.

雖然計算機圖形學中使用最廣泛的圖形表示形式是多邊形網格,特別是三角形網格.但是這種參數化表示在機器學習領域還有很大的發展空間,因為機器學習主要需要規則表示的輸入和輸出數據,如體素和點云,而網格是高度非結構化的,這就使通過神經網絡從2D圖形實現相應的3D重建變得非常挑戰.Jack 等人[122]利用模型變形的優勢,如圖46所示,通過探索廣泛運用于3D網格建模的自由變形技術(FFD)[123]提出了一種新穎的從單張圖片重構3D網格模型的方法.該方法同時學習對模板網格的選擇和變形.該文使用了輕量級的CNN推斷多個模板的多維FFD參數并且學習將大尺度變形應用于拓撲不同的模板,以產生具有相似形狀的預測網格.該文通過實驗證明小型CNN可以很好地學習到網格變形信息,而且這種方法重構出的模型比基于標準體素和點云方法產生的模型具有更加精細的幾何結構.

Fig. 46 Shape editing based on free-form deformations learning using CNN[122]圖46 基于神經網絡自由變形學習的模型編輯[122]

Fig. 47 Style transfer for 3D models[125]圖47 三維模型的風格遷移[125]

此外,風格遷移也是一種常用的模型編輯方法.圖47給出了一些使用風格轉移進行模型編輯的結果.風格遷移是指將源模型的樣式應用于目標模型,同時保留目標模型的幾何結構.這一過程的主要挑戰是正確區分模型的風格和幾何結構.Ma等人[124]提出了一種可以在2D和3D對象之間無縫地遷移各種樣式屬性的框架.該文使用了幾何形狀類比的思想.Berkiten等人[125]提出了一種基于幾何細節的風格遷移方法,該文將單個高質量模型的細節轉移到各種易于生成和廣泛可用的低分辨率網格.該文的主要創新之處就在于使用度量學習來找出能夠最好地預測目標網格和源網格哪些區域具有相似細節的幾何特征的組合.然后使用學習到的度量來評估源和目標模型的相似性,指導目標紋理合成.Lun等人[126]通過一系列元素級別的操作將示例模型樣式傳遞給目標模型.該文引入了跨結構元素兼容性度量,以此來評估每個操作對編輯形狀的影響.系統遞增地更新目標形狀,逐步提升其與示例樣式的相似性,同時嚴格遵循兼用性度量的約束.該文評估了包含家具、燈具和餐具在內的一系列人造物體模型,均能得到符合期望的結果.

4 總結與展望

自從Guo等人[68]首次將深度學習技術引入數字幾何處理和分析領域之后,基于神經網絡模型的幾何處理和分析方法大量涌現,如第3節所述,相比于傳統的分析和處理方法,利用神經網絡模型強大的數據抽象特征提取能力,深度學習技術極大地提高了諸如模型匹配與檢索、模型分類與分割、模型生成、模型修復與重建以及模型變形和編輯的性能和效率.但可以看到的是,當前深度學習技術在數字幾何處理領域的應用還遠不如其在自然語言處理和圖像處理中那樣成熟,造成這樣的原因大致有3個方面:

1) 沒有統一的數據表示.由于三維模型很難像語音圖像那樣表示成統一的標準數據表示方式,當前不同的三維模型表示方法各有特點,同時又無法避免地具有各自的缺點,限制了直接遷移語音圖像領域成熟應用的各種模型結構到三維模型上的可能性.實際上,當前基于深度學習技術的數字幾何分析和處理方法仍然是在特定的數據表示的基礎上,針對某些常見的特定任務進行處理,相較于傳統的分析處理方法只是從根據幾何物理理論的手工定義轉變到了采用神經網絡進行自動地特征提取和分析,像在傳統機器學習領域常見的遷移學習(transfer learning)[127]、增強學習(reinforcement learning)[128]等一些已經在語音和圖像相關的深度學習領域得到很好應用的技術,還未能向幾何處理和分析領域遷移.

2) 缺乏大規模公開數據集.盡管三維模型的獲取已經比較方便,出現了像ShapeNet[129]這樣具有一定規模的公開數據集,但是其從規模上仍然難以和公開的圖像數據集如ImageNet[130],COCO[131],PASCAL[132]等相提并論,而深度學習技術要真正應用到實際產品中必須有大量的訓練數據支持,這就使得當前深度學習技術在數字幾何處理領域的應用仍然停留在實驗室里,很難像語音圖像那樣走進普通人的生活當中.另外針對訓練數據不足的問題,自然語言處理、計算機視覺領域都有很多人工設定或者自學習的數據增廣方式,這不僅可以在一定程度上增加數據規模,同時也可以提高方法的泛化能力.目前針對三維模型的數據增廣方法還比較缺乏,實際上三維模型的插值和生成已經研究多年,如何從一個有限的模型數據集生成更多的模型已經有了很多的成熟方法,將這些方法引入數據增廣或者與深度學習相結合應該可以更好地提高算法的能力.

3) 網絡結構缺乏針對性.當前用于幾何處理和分析的神經網絡主要是從語音和圖像領域借鑒而來,都需要先將三維模型轉換為特定的網絡適用的數據表示形式(特征、圖像、體素等),而像PointNet[49],GCCN[63]等專門為三維模型設計的網絡還比較少,很難全面高效地對三維模型的特征進行概括分析,限制了深度技術在數字幾何處理和分析領域的應用范圍.所以盡管深度學習技術在數字幾何處理領域中已經有了一定的研究成果,但要真正推廣應用,還有很長的路要走.

本文全面總結了近年來深度學習技術在數字幾何處理和分析領域的研究進展,希望有助于讀者對這一研究方向的發展和面臨的問題有更加全面的了解,并對未來的研究工作有一定啟發和推動作用.

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久精品色妇丰满人妻| 亚洲综合中文字幕国产精品欧美| 色天堂无毒不卡| 91九色视频网| 欧美黄网站免费观看| 一级毛片免费高清视频| 婷婷午夜天| 久久精品无码专区免费| 国产SUV精品一区二区| 99在线视频免费观看| 欧美啪啪一区| 国产欧美另类| 国产成人精品男人的天堂| 欧美日韩一区二区三区四区在线观看| 中文字幕久久波多野结衣| 久久免费看片| 日韩麻豆小视频| 亚洲精品老司机| 精品伊人久久久香线蕉 | 一本色道久久88综合日韩精品| 日韩在线欧美在线| a天堂视频在线| 大香网伊人久久综合网2020| 一本久道热中字伊人| 午夜福利网址| 欧美一区国产| 夜夜操狠狠操| 在线观看亚洲精品福利片| 日本一区中文字幕最新在线| 国产经典在线观看一区| 亚洲91精品视频| 亚洲精品成人7777在线观看| 欧美日韩91| 亚洲天堂成人在线观看| 中文字幕av无码不卡免费| 六月婷婷激情综合| 中国国产一级毛片| 国产美女叼嘿视频免费看| 国产内射在线观看| 一级毛片在线免费视频| 中文字幕色在线| 日韩福利在线观看| 欧美成人国产| 热99精品视频| 日韩精品免费一线在线观看| 成人国产精品网站在线看| 国产一级毛片在线| 一级全黄毛片| 91毛片网| 丁香婷婷久久| 91精品国产福利| 婷婷综合亚洲| 成年人视频一区二区| 最新亚洲人成无码网站欣赏网| 国产乱人伦偷精品视频AAA| 福利姬国产精品一区在线| 国产日韩欧美一区二区三区在线 | 91成人免费观看| 亚洲无码高清视频在线观看| 91麻豆精品国产高清在线| 在线亚洲天堂| 欧美成人怡春院在线激情| 国产女人水多毛片18| 自慰网址在线观看| 亚洲综合第一页| 成·人免费午夜无码视频在线观看 | 99热这里只有成人精品国产| 伊人久久福利中文字幕| 日韩午夜福利在线观看| 国产一区二区视频在线| 亚洲an第二区国产精品| 国产肉感大码AV无码| 亚洲日韩精品无码专区| 国产精品成人观看视频国产 | 精品国产一区二区三区在线观看 | 国产午夜不卡| 亚洲乱码精品久久久久..| 亚洲人成在线免费观看| 在线精品视频成人网| 色婷婷亚洲综合五月| 成人免费一级片| 欧美成人日韩|