許煜濠,劉石堅(jiān),康朝明,吳連杰,鄒崢
(1. 福建省大數(shù)據(jù)挖掘與應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,福建 福州 350118;2. 福建師范大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福建 福州 350117)
位置、朝向、尺寸是點(diǎn)云、三角網(wǎng)格等三維(three dimensional,3D)數(shù)據(jù)的基本幾何屬性,其差異性普遍存在。例如,圖1(a)中的兩個(gè)牙頜網(wǎng)格數(shù)據(jù)的位置和朝向即存在明顯差別。使用深度學(xué)習(xí)技術(shù)處理3D數(shù)據(jù)時(shí),如果網(wǎng)絡(luò)模型不具備幾何差異感知能力,則可能導(dǎo)致泛化能力不足、準(zhǔn)確率偏低的后果。

圖1 牙頜網(wǎng)格數(shù)據(jù)規(guī)范化Fig.1 Standardization of dental meshes
通常有兩種策略解決上述問題:修正數(shù)據(jù)或者修正模型。修正數(shù)據(jù)是通過人為干預(yù),消除幾何差異,避免網(wǎng)絡(luò)模型面臨該挑戰(zhàn)。具體方法是:將數(shù)據(jù)規(guī)范化至統(tǒng)一的位置、朝向、尺寸,再進(jìn)行訓(xùn)練或預(yù)測。例如,圖1(b)即為對(duì)圖1(a)中數(shù)據(jù)進(jìn)行規(guī)范化處理后的效果。修正數(shù)據(jù)方法的局限性在于:(1)手工交互難以避免,耗時(shí)費(fèi)力;(2)并非從源頭解決模型的幾何感知問題。修正模型的思想則是著眼于模型網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,使其從多樣化的數(shù)據(jù)中學(xué)習(xí)到感知幾何差異的能力。
本課題采取修正模型的策略,在分析已有相關(guān)研究的基礎(chǔ)上,提出名為“幾何差異感知(geometric difference perception,GDP)”的模塊,以提升模型的幾何差異感知能力;以牙齒分割為應(yīng)用背景,通過主流模型進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證GDP的可行性和有效性。
由于點(diǎn)云的復(fù)雜性比三角網(wǎng)格要低,當(dāng)深度學(xué)習(xí)方法從二維應(yīng)用場景(例如處理圖像數(shù)據(jù))擴(kuò)展到三維時(shí),前期研究多關(guān)注其在點(diǎn)云數(shù)據(jù)上的應(yīng)用。例如,Qi等人[1]所提出的PointNet即為其中的典型代表,用于實(shí)現(xiàn)點(diǎn)云分類和分割。
在PointNet中,作者提出名為變換網(wǎng)絡(luò)(transform net,T-Net)的局部結(jié)構(gòu)來解決輸入模型的點(diǎn)云特征以及高維特征的對(duì)齊問題。如圖2所示,當(dāng)通道數(shù)為3(即三維坐標(biāo))的點(diǎn)云數(shù)據(jù)輸入網(wǎng)絡(luò)之后,將首先進(jìn)行一個(gè)輸入變換。該變換中的T-Net網(wǎng)絡(luò)會(huì)輸出一個(gè)3×3的變換矩陣,與原始數(shù)據(jù)進(jìn)行矩陣相乘。其本質(zhì)即使用上述幾何變換,對(duì)輸入點(diǎn)云進(jìn)行規(guī)范化。

圖2 PointNet中的T-Net迷你網(wǎng)絡(luò)Fig.2 T-Net mini networks in PointNet
此外,網(wǎng)絡(luò)中還有另一個(gè)包含T-Net結(jié)構(gòu)的特征變換,第二個(gè)T-Net與第一個(gè)的區(qū)別在于:其輸入為通道數(shù)等于64的高維特征,輸出為64×64的變換矩陣,即實(shí)現(xiàn)高維特征空間中的規(guī)范化。
文獻(xiàn)[2]所提出的DGCNN模型同樣采用點(diǎn)云變換模塊來估計(jì)仿射變換矩陣,將輸入點(diǎn)集對(duì)齊到一個(gè)規(guī)范空間。與PointNet不同的是,DGCNN棄用了高維特征變換模塊。
為便于區(qū)分,本研究將作用于低緯特征的T-Net記為T-Net-Ⅰ,作用于高維特征的T-Net記為T-Net-Ⅱ。
在對(duì)三角網(wǎng)格進(jìn)行深度學(xué)習(xí)時(shí),目前主流的方法是以面片為樣本基本單元進(jìn)行處理。由于一個(gè)面片可以通過3個(gè)頂點(diǎn)和1個(gè)中心點(diǎn)共4組特征予以表征,在使用三維坐標(biāo)作為原始特征的情況下,一個(gè)樣本的特征尺度則為N×12(N為網(wǎng)格數(shù)據(jù)的面片數(shù))。如果再加上法向量特征,則特征尺度將變?yōu)镹×24。TSGCN[3]、MGFL[4]是這類方法的代表。由于使用比點(diǎn)云方法更多的特征數(shù)據(jù),基于面片的方法通常性能更優(yōu),但計(jì)算資源需求更大。為此,它們僅使用T-Net-Ⅰ來應(yīng)對(duì)輸入數(shù)據(jù)的幾何差異問題,從而降低計(jì)算量。
綜上可知,在應(yīng)對(duì)數(shù)據(jù)幾何差異挑戰(zhàn)時(shí),已有方法的核心思想主要是通過監(jiān)督學(xué)習(xí)得到一個(gè)變換矩陣,將特征數(shù)據(jù)對(duì)齊到一個(gè)規(guī)范空間。具體是采用T-Net迷你網(wǎng)絡(luò)實(shí)現(xiàn),區(qū)別在于T-Net的數(shù)量和位置,詳見表1。表1中PointNet++[5]是PointNet的升級(jí)版本,它與基于面片的網(wǎng)格方法GACNet[6]一樣,都沒有采用相關(guān)措施。若輸入數(shù)據(jù)存在幾何差異,則PointNet++和GACNet均無法達(dá)到理想的預(yù)測效果。

表1 相關(guān)方法信息表Tab.1 Information of related methods
圖3展示了T-Net-Ⅰ在TSGCN中的網(wǎng)絡(luò)細(xì)節(jié)。圖中虛線框內(nèi)的結(jié)構(gòu)即為T-Net網(wǎng)絡(luò),它由3個(gè)卷積層、1個(gè)最大池化層和3個(gè)全連接層依次拼接而成。就特征數(shù)據(jù)而言,其輸入為N×12(4組×3通道/組=12通道)的原始特征。輸入數(shù)據(jù)首先通過3個(gè)卷積層,通道數(shù)逐步提升至64、128和512;然后通過最大池化操作,特征尺寸變?yōu)?×512;最后,通過3個(gè)全連接層的作用,輸出為一個(gè)12×12的仿射變換矩陣。將該矩陣與輸入特征相乘,即可實(shí)現(xiàn)特征的規(guī)范化。

圖3 TSGCN中的T-Net模塊細(xì)節(jié)Fig.3 Details of T-Net adopted in TSGCN
本研究的動(dòng)機(jī)是基于以下兩個(gè)問題:(1)是否有必要使用多個(gè)T-Net結(jié)構(gòu);(2)如果出于計(jì)算成本考慮只選用一個(gè)T-Net,要如何進(jìn)行配置。
GDP模塊的結(jié)構(gòu)細(xì)節(jié)如圖4所示,其核心思想是:使用K個(gè)維度為L的多層感知機(jī)(multilayer perceptron,MLP,如圖中虛線框所示)將N×L的低維特征轉(zhuǎn)化為N×H的高維特征之后,再輸送給后續(xù)的T-Net網(wǎng)絡(luò),其中N為樣本基本單元的個(gè)數(shù),L 圖4 GDP模塊Fig.4 GDP module structure GDP本質(zhì)上是一個(gè)作用于高維特征的T-Net。相較圖3中的T-Net結(jié)構(gòu),GDP中的T-Net同樣由三層卷積、一層池化、三層全連接層組成,區(qū)別在于:最后一層的維度為H2,即確保輸出為H×H的變換矩陣,從而實(shí)現(xiàn)N×H尺寸高維輸入特征的規(guī)范化。 3D牙頜網(wǎng)格數(shù)據(jù)記錄了患者口腔中牙齒的形態(tài)信息,通過深度學(xué)習(xí)技術(shù)將單顆牙齒從牙頜網(wǎng)格數(shù)據(jù)中準(zhǔn)確分割出來,對(duì)于牙齒疾病診斷、手術(shù)規(guī)劃等具有重要意義[7]。 由于從不同渠道采集獲取的牙頜網(wǎng)格數(shù)據(jù),其尺寸、朝向、位置存在一定差異,為了驗(yàn)證GDP的有效性,選擇未考慮幾何差異問題的牙齒分割模型GACNet[6]作為改進(jìn)范例。 GACNet是一種基于面片策略處理網(wǎng)格數(shù)據(jù)的深度學(xué)習(xí)方法。如圖5所示,該網(wǎng)絡(luò)整體上是一個(gè)雙分支結(jié)構(gòu),其中包含3個(gè)圖注意力卷積(graph attentional convolution,GAC)的分支用于局部特征提取,另一分支則用于全局特征提取。以牙頜網(wǎng)格數(shù)據(jù)上提取到的N×24的原始特征作為輸入,GACNet最終將給出N×C的預(yù)測結(jié)果,其中N為面片數(shù),C表示預(yù)設(shè)的類別數(shù)。 圖5 具有GDP的GACNet改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)展示Fig.5 Demonstration of improved GACNet with GDP 按照2.1節(jié)的思路,將GDP模塊(細(xì)節(jié)見圖中虛線框)放置于N×24的輸入特征之后,分支結(jié)構(gòu)之前。經(jīng)實(shí)驗(yàn)表明,當(dāng)K取2、H取值32時(shí),性能提升效果最佳。 實(shí)驗(yàn)所用的數(shù)據(jù)來自MICCAI挑戰(zhàn)賽的公共數(shù)據(jù)集3DTeethSeg[8],每個(gè)原始牙頜網(wǎng)格數(shù)據(jù)由100 000~300 000個(gè)數(shù)量不等的面片組成。為了便于訓(xùn)練,將數(shù)據(jù)統(tǒng)一為17 000個(gè)面片數(shù)的規(guī)模。 由于訓(xùn)練樣本的幾何差異性越豐富,模型的泛化能力越高,因此對(duì)網(wǎng)格數(shù)據(jù)進(jìn)行包含隨機(jī)角度旋轉(zhuǎn)和隨機(jī)坐標(biāo)位移的數(shù)據(jù)擴(kuò)充操作。擴(kuò)充后的訓(xùn)練集規(guī)模為2 058,驗(yàn)證集和測試集分別為588和294。 所有實(shí)驗(yàn)均運(yùn)行于一臺(tái)顯卡為NVIDIA Ge-Force RTX 3090(24 GB),CPU為Intel Core i9-10920X(3.50 GHz)的臺(tái)式計(jì)算機(jī)上。共訓(xùn)練120個(gè)epoch,訓(xùn)練時(shí)采用Adam優(yōu)化器,batch_size設(shè)為2,學(xué)習(xí)率初始為1×10-3,每20個(gè)epoch進(jìn)行0.5倍衰減。 分割性能通過3個(gè)指標(biāo)進(jìn)行定量評(píng)估,分別為:Dice相似系數(shù)(DSC)、靈敏度(SEN)和正預(yù)測值(PPV)。令TP、TN、FP、FN分別表示真陽性、真陰性、假陽性和假陰性,DSC、SEN和PPV的計(jì)算方法分別如公式(1)(2)和(3)所示。 (1) (2) (3) 上述3個(gè)指標(biāo)值與分割性能成正比,即數(shù)值越高代表性能越好,區(qū)別在于側(cè)重點(diǎn)存在差異。通過對(duì)這些差異性進(jìn)行評(píng)估,可以確保模型在不同數(shù)據(jù)集劃分和數(shù)據(jù)增強(qiáng)條件下都能夠穩(wěn)健地完成任務(wù)目標(biāo)。 為了驗(yàn)證GDP的效果,使用原始GACNet模型、加入GDP模塊后的GACNet改進(jìn)模型(記作GACNet-GDP)、以及加入T-Net-Ⅰ模塊后的GACNet改進(jìn)模型(記作GACNet-T-Net-Ⅰ)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表2所示。 表2 分割準(zhǔn)確性對(duì)比Tab.2 Segmentation accuracy comparison 得益于模型幾何感知能力的提升,加入T-Net之后的分割準(zhǔn)確率相較加入之前大幅提升。另外,相較GACNet-T-Net-Ⅰ,包含T-Net-Ⅱ的GACNet-GDP的準(zhǔn)確率更高。該實(shí)驗(yàn)結(jié)果說明如果只選用一個(gè)T-Net,T-Net-Ⅱ比T-Net-Ⅰ的性能更好。 對(duì)應(yīng)的可視化結(jié)果如圖6所示,其中每行對(duì)應(yīng)著一個(gè)典型樣本,第1列是原始輸入網(wǎng)格,第2列至4列分別為真實(shí)值、GACNet-GDP以及GACNet-T-Net-Ⅰ和GACNet的結(jié)果。從中不難發(fā)現(xiàn),加入GDP之后的效果相較于其他方法更為準(zhǔn)確,而GACNet沒有針對(duì)數(shù)據(jù)的幾何差異進(jìn)行處理,因此存在明顯差錯(cuò),該結(jié)論與表2相符。 圖6 對(duì)比結(jié)果的可視化Fig.6 Visualization of comparison results 由于在面片方法上測試多個(gè)T-Net的計(jì)算資源要求過高,故改用點(diǎn)云方法PointNet++作為基礎(chǔ)模型進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)象分別為加入GDP模塊的PointNet++(記作PN++-GDP)和加入2個(gè)T-Net模塊的PointNet++(記作PN++-T-Net-Ⅰ&II),實(shí)驗(yàn)結(jié)果如表3所示。從表3可見,使用1個(gè)包含于GDP內(nèi)部的T-Net與使用2個(gè)T-Net的效果差別不大,且單個(gè)GDP計(jì)算資源要求更少,因此更適合處理網(wǎng)格數(shù)據(jù)。 表3 不同數(shù)量T-Net模塊下的準(zhǔn)確率對(duì)比Tab.3 Accuracy comparison with different numbers of T-Net modules GDP具有超參數(shù)K和H,其中K表示MLP的個(gè)數(shù),H表示MLP的維度。在對(duì)GACNet的改進(jìn)中兩者取值分別為2和32。為驗(yàn)證該超參數(shù)的選擇,本研究對(duì)不同取值下的結(jié)果進(jìn)行對(duì)比。 3.4.1 MLP的個(gè)數(shù)選擇 在H取值32的情況下,將K分別以0、1、2、3賦值,并進(jìn)行分割性能對(duì)比。當(dāng)K=0時(shí),GDP退化為T-Net-Ⅰ,其余情況本質(zhì)上是T-Net-Ⅱ。如表4所示的實(shí)驗(yàn)結(jié)果表明:(1)在T-Net前加入MLP確實(shí)能夠提升性能;(2)使用2層MLP的效果較其他方案效果更優(yōu)。 表4 不同MLP個(gè)數(shù)下的準(zhǔn)確率對(duì)比Tab.4 Accuracy comparison with different numbers of MLPs 3.4.2 MLP的維度選擇 在K取值2的情況下,測試不同維度MLP對(duì)性能的影響。由于輸入數(shù)據(jù)的通道數(shù)是24,分別以12(降維)、24(不變)、32(升維)、64(升維)對(duì)H進(jìn)行賦值,并將分割準(zhǔn)確率記錄如表5所示。 表5 不同MLP維度下的準(zhǔn)確率對(duì)比Tab.5 Accuracy comparison with different dimensions of MLPs 實(shí)驗(yàn)結(jié)果表明,通過MLP對(duì)輸入特征維度降低會(huì)影響模型的分割性能,導(dǎo)致準(zhǔn)確率下降。保持特征維度不變或升高維度對(duì)模型則有提升作用,且當(dāng)MLP的維度取32時(shí)模型精度最優(yōu)。 本研究針對(duì)三維深度學(xué)習(xí)模型的幾何差異感知能力進(jìn)行研究,提出名為GDP的網(wǎng)絡(luò)模塊。其核心思想是通過作用于高維特征的T-Net來對(duì)特征進(jìn)行規(guī)范化。將GDP應(yīng)用于3D牙齒分割,實(shí)驗(yàn)結(jié)果表明:GDP模塊能夠有效應(yīng)對(duì)3D數(shù)據(jù)的幾何差異問題,確保模型的泛化能力。 未來將針對(duì)牙齒分割準(zhǔn)確率提升方法進(jìn)行研究,并在新方法中進(jìn)一步驗(yàn)證GDP模塊的效果。
2.2 牙齒分割應(yīng)用

3 實(shí)驗(yàn)與討論
3.1 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境
3.2 評(píng)價(jià)指標(biāo)
3.3 對(duì)比實(shí)驗(yàn)



3.4 消融實(shí)驗(yàn)


4 結(jié)束語