李學明,吳國豪,周尚波,林曉然,謝洪斌
(1.重慶大學計算機學院,重慶 400044;2.河北經貿大學信息技術學院,石家莊 050061;3.外生成礦與礦山環境重慶市重點實驗室(重慶地質礦產研究院),重慶 400042)
近十余年,圖像實例分割[1-2]問題一直是計算機視覺領域的研究重點和熱點,目的是使用緊密邊界框覆蓋圖像中目標物體所包含的像素點。國內外許多研究者針對這個領域進行了研究,提出了許多有效的實例分割方法,這些方法基本都是模擬人眼視覺神經系統對圖像信息的處理過程,一種是基于“自上而下”的注意力機制[3-4],先定位目標物體的位置再對輪廓曲線進行精準分割;另一種是基于“自下而上”的注意力機制[5],將屬于同一目標物體的像素點按照某種相似性逐漸聚合在一起。本文通過非線性理論和深度強化學習(Deep Reinforcement Learning,DRL)的起源[6]——人腦中海馬體研究的啟發,認為應當將這兩種注意力方式結合在一起模擬視覺神經系統的信息獲取和處理方式,首先人眼瞬間觀測到的外界環境必定為非線性復雜區域而非像素點,即先看到目標物體的大致輪廓,這是一個“自下而上”的過程,本文稱之為初始階段;在看清輪廓后,仔細觀察過程中,會邊觀察邊根據以往的經驗判斷看到的某一部分是否屬于該物體,即精細化細節部分,這是一個“自上而下”的過程,本文稱之為第二階段。因此,為了建立完整的圖像信息接收和處理過程,以及針對以往非線性圖像特征建模較少的問題,本文提出了一種聯合分數階非線性系統和強化學習(Reinforcement Learning,RL)的全新圖像實例分割模型。
具體來說,在初始階段,通過分數階非線性系統中混沌同步和混沌吸引子的方法,對圖像進行初步分割,完成視覺系統中接收圖像特征并“看清輪廓”的過程。混沌同步[7-8]現象普遍存在于猴子、小鼠、貓和人類的大腦中,而且利用同步現象進行特征綁定和圖像分割[9-10]可以有效降低模型復雜度。另外,混沌理論中認為,大多數系統在經歷過一系列迭代過程后會達到某種穩定狀態,即混沌吸引子[11],可以用來表征本文提出的圖像初步分割結果。
在第二階段,將第一階段獲取到的特征和混沌吸引子作為先驗知識,為強化學習的DQN(Deep Q-learning Network)提供指導性策略:先將agent 的注意力聚集在混沌吸引子附近,之后使用agent 的探索策略模擬觀察過程,一點點完善物體邊界處的細節信息,達到精細化的效果。因為視覺神經系統對圖像數據的處理是一個固定的順序變化過程,人腦在視網膜細胞捕獲到物體形狀、顏色等整體信息后,會快速地根據大腦中存儲的經驗對物體進行判別,隨后再注意到更加細節的地方,這是一個連續決策過程。為了最終建立一個健壯的決策過程,本文設計了符合本文提出的視覺神經系統機制的動作-狀態表示、獎勵函數和策略。
分數階微積分算子是整數階算子的擴展。在本文中,通過GL(Grunwald-Letnikov)定義[12]建立了分數階弛豫系統。GL 的定義可以描述為:

式(1)可以改寫為:

其中:q1 和h分別是系統的分數階階數和時間步長。
就其應用而言,當前圖像處理技術中的圖像增強[13]和圖像降噪[14]已相對成熟,而圖像分割技術仍處于發展階段,幾乎沒有性能非常好的基準模型。其中,最初的圖像分割模型是Wang 等[15]提出的LEGION(Locally Excitatory Globally Inhibitory Oscillator Network)模型,其中要分割的目標由與時間相關性和空間分布相關的振蕩器表示(稱為“振蕩相關性”機制)。在此基礎上,Zhao 等[9-10,16-17]提出了一系列場景分割模型。具體來說,文獻[9-10,16]是基于分數階網絡和“振蕩相關”機制的單層模型。文獻[17]是一個雙層模型,該模型結合了深度學習中的特征圖以提取圖像中像素的基本特征,并添加了基于分時同步的注意力機制,即第二層的中央控制單元在不同時間段內與具有不同特征的像素進行同步。在另外幾項研究[18-19]中,模型是兩層的,其中模型的第一層類似于文獻[15]。然而,Qiao 等[18]提出的是基于共振頻率的視覺選擇注意力機制。在Lin 等[19]的模型中,模型的第二層是中央控制單元,通過分時相位同步來模擬大腦皮層神經元,以在第一層的不同目標間實現視覺注意力選擇和轉移。
在強化學習中,使用agent 評估特定狀態下某些動作對最終結果的影響,以此來對順序決策問題進行優化。Mnih等[6]應用深度神經網絡作為函數逼近器來估計強化學習的動作-值函數,從而得出深度強化學習方法。之后,提出了一系列方法[20]來輔助改進DRL,例如內存重播[6]和策略梯度[21]等。
最近,有一些成功將DRL 方法應用于計算機視覺任務的嘗試。Caicedo 等[22]將整張圖像視為一個環境,agent 根據學習的策略對邊界框執行一系列變形操作,從而檢測目標對象。Kong 等[23]針對圖像中出現的不同目標,提出了一種基于協同深度強化學習的聯合搜索算法,將每個檢測器視為一個agent,然后利用多agent 深度強化學習算法來學習目標物定位的最優策略。Choi 等[24]提出了一種基于模板選擇策略的深度強化學習跟蹤算法。該跟蹤算法構建了一個匹配網絡和一個策略網絡,其中,匹配網絡用來生成當前視頻幀中每個候選目標外觀模板的預測熱度圖,策略網絡根據強化學習的思想學習如何從預測熱度圖中決策出最佳目標外觀模板,從而實現跟蹤任務。這些模型都是與目前非常流行的深度學習相結合,而本文嘗試將強化學習與分數階網絡結合來解決目標實例分割問題。
本文提出了一個針對某一特定類的自適應性模型來了解并分割圖像中的目標實例。該模型遵循鄰居搜索策略,該策略在選擇初始像素點后,搜索初始像素點的相鄰像素并比較彼此之間的相似性。詳細流程如下:首先利用分數階網絡進行初步的圖像分割,得到的圖像分割結果,即混沌吸引子可以為后續的強化學習提供指導;然后使用強化學習對分數階同步網絡分割結果進行學習和分析,以了解像素之間的相似性和耦合力;然后根據搜索策略,agent 選擇下一個像素和最佳動作;最后,agent 耦合屬于同一目標實例的像素點。為了激發提出的agent 的注意力,本文設計了獎勵函數來評估當前已耦合像素點與GT(Ground Truth)之間的相似度。為了提高模型的適應性,本文進一步設計了一種新穎的探索方法,以加快最佳狀態-動作對的選擇。
本文的工作建立在采用混沌相同步方法進行圖像分割的分數階網絡的基礎上。詳細過程如下:首先,給定輸入圖像,將圖像轉化為一個由混沌R?ssler 振子耦合而成的二維網絡,網絡中每個振子代表圖像的一個像素,并從其相應的像素接收輸入。耦合系統如下:

其中:ω和d分別是系統的耦合力和該振子對應的頻率。本文中dj,k是在[0.98,0.99]區間的任意值?;煦缦到y的相位同步狀態受耦合力的影響,不同耦合力隨時間變化對相位方差S的影響如圖1 所示。隨著耦合力的增加,耦合振子的相位趨于一致,當耦合力ω=0.09 時相位方差最小。因此,之后的實驗中,耦合力的取值都為0.09。在分數階網絡中,代表相同對象的振蕩器之間的相位在一定的時間t范圍內往往相同,而不同對象之間的振蕩器則完全不同,這是分數階網絡進行圖像分割的基礎。
(j,k)表示振子所在的二維平面的j行和k列。ρxj,k指像素之間的耦合項,每個像素將選擇其8 個相鄰像素點進行耦合,如下所示:

其中:如果振子(j,k)與振子(p,q)相耦合,則Δj,k;p,q=1;否則為0。
dj,k是像素(j,k)的對比度,它由?d決定,而?d取決于圖像本身和Cj,k,如下所示:

其中:l為特征的總量;是像素點(j,k)特征值所選用特征l的平均值。本文在實驗過程中使用了四個特征,Fg、FR、FG和FB,對應每個像素點的灰度(g)和RGB 值。四個特征的權重分別為1/2、1/6、1/6 和1/6。耦合力的計算方式如下:

其中:cpmax即是前文提到的最大耦合力,圖像中像素之間的相似度越高,振蕩器之間的耦合力就越大,圖1 中顯示了不同耦合力導致的振蕩器的相位方差不同;而只有耦合力超過研究中設置的耦合閾值,才認為這兩個像素點屬于同一個目標物體。σ對于不同類別的圖像具有不同的值。

圖1 不同耦合力的相位方差Fig.1 Phase variance of different coupling force
整個圖像分割過程如下所示:

本文考慮建立一個標準的馬爾可夫決策過程[25],agent在連續的時間步t內與環境E進行交互,每個時間步t內都會獲得對環境的觀測xt,動作at并接受到一個獎勵Rt。通常來說,agent 只能觀測到環境的一部分,所以記錄的狀態-動作歷史為st=(x1,a1,x2,a2,…,at-1,xt)來描述狀態。本文假定環境都是可觀測的,所以st=xt。策略π定義了agent 的動作集A,該策略計算狀態-動作集π:S→P(A)上的概率分布。環境E也可能是隨機的。本文將其建模為具有狀態集合S,動作空間A=IRN,初始狀態分布p(s1),動態的轉換過程p(st+1|st,at)和獎勵函數Rt(st,at)的馬爾可夫決策過程(Markov Decision Process,MDP)。
2.3.1 Action
動作集A包含四個主要元素:
方向:agent 可以在四個方向上選擇一個相鄰像素,已選擇過的像素點不會重復選擇。
耦合力:agent 將所選相鄰像素的特征與初始像素進行比較以計算相似度,然后根據相似度確定耦合力。
耦合狀態:agent 將耦合力與給定閾值進行比較。如果耦合力大于閾值,則將相鄰像素存儲到耦合像素列表中;否則,不會。
終止動作:終止當前搜索序列,并在下一個初始像素處重新開始搜索新實例。
2.3.2 State
狀態集合S可能會非常大,因為它包括來自大量圖像的任意像素以及在這些像素采取的所有動作組合,因此,泛化對于設計有效的狀態表示很重要,所以考慮將狀態設計為元組(f,h,cl),其中:f代表觀察到的像素的特征向量;h代表歷史動作的二進制向量;cl代表已耦合像素列表。
特征向量f從之前的分數階混沌同步網絡中獲取。h表示經常使用的動作,每個動作均由7 維二進制矢量表示,其中除與所采取的動作對應的值為1 外,所有值均為0。盡管h的維數很低,但它也足以說明過去發生的情況。將h和cl放在同一元組中的原因是,可以通過觀察agent 和已耦合像素(即形成吸引子的過程)所形成的軌跡來獲得圖像的區域結構信息。
分數階網絡的輸出與動作歷史向量和耦合的像素列表連接在一起,以完成狀態表示,并由DQN 中的Q-learning 網絡處理來輸出動作值。
2.3.3 Reward
為了解決稀疏獎勵的問題[26],本文將獎勵函數分為兩類:即時獎勵和最終獎勵。即時獎勵使用相似度sim來衡量從一個狀態轉換到另一個狀態后對整體效果的改善。因為本文將視覺實例分割分為了兩個階段,所以不同的階段會有不同的策略和獎勵函數。在初始階段,agent 每20 步得到一次獎勵。在第二階段,agent 的每一步都會獲得即時獎勵。實驗過程中,只需在訓練中評估獎勵函數,因為圖像需要手動標記為ground truth 情況。
假設p是當前耦合像素的列表,而g是目標實例的ground truth。將p和g之間的sim定義為:

而即時獎勵函數的設置如下:

式(9)表示如果sim在狀態之間得到改善,則獎勵為正,否則為負,并且本文采用“鼓勵好結果”的獎勵設定原則,即相似度越高,獎勵越大。獎勵功能適用于動作集A中的任何動作。這有效地提高了訓練及測試數據集中的準確性。
當終止條件觸發時,此時應該計算最終的獎勵。最終獎勵具有不同類型的方案,這取決于最終耦合像素列表與ground truth 之間的相似性。因此,最終獎勵函數被設置為閾值函數,如下所示:

其中:T是終止點。使用相似度的平方可以擴大良好行為的獎勵與不良行為的懲罰之間的差異,從而有助于提高強化學習agent 的訓練速度。
模型的體系結構如圖2 所示。agent 的目標是通過選擇動作來耦合像素,以最大限度地提高與環境交互過程中獲得的獎勵總和。核心問題是找到指導agent 的決策過程的策略。策略是函數π(s,a),用于選擇當前狀態為s時要選擇的動作a。因為本文首先使用了分數階網絡來對圖像進行了初步分割,在此基礎上將整個強化學習過程分為兩個階段:初始階段和第二階段,由于本文方法采用的是像素級分割,因此在兩個階段中采用了不同的像素-動作策略。

圖2 模型體系架構Fig.2 Model architecture
2.4.1 初始階段
在初始階段,agent 的探索行動不是隨機的。取而代之的是,根據強化學習中學徒式學習[27]的原則,使用具有指導性的探索策略對agent 的動作作出一定的引導,即在初始階段使用分數階混沌同步網絡形成的混沌吸引子作為專家指導。這種方法與圖像的注意力機制有一些相似之處,讓agent 首先關注圖像中的重要區域。但由于圖像的尺寸相對較大,因此整個時間序列較長,并且整個決策過程中每一個步驟都需要消耗一定的成本,因此短序列可以有效降低累積效用。在經過實驗后,本文決定讓agent 每20 個時間步就獲得一次即時獎勵。由于該策略是確定性的,因此可以將其描述為一個函數,并避免內在期望:

2.4.2 第二階段
在第二階段,分數階同步網絡的分割結果由于在局部以及邊緣區域的精度不夠,因此只能起到輔助作用,所以決定agent 每一個時間步就獲得一次獎勵,以此來更新策略。由于沒有狀態轉移概率,并且獎勵函數與數據相關,因此該問題被公式化為使用Q-learning 的強化學習問題。根據之前定義的動作集、狀態集和獎勵函數,agent 通過應用Q-learning算法學習最優策略,基于Q(s,a)選擇具有最高期望獎勵的行為,并用Bellman 方程更新Q(s,a),其公式如下:

其中:s表示當前狀態;a表示當前選擇的動作;r表示立即獎勵;γ表示折扣系數;s′表示下一個狀態;a′表示下一個動作。
在連續動作空間中學習的主要挑戰是探索。非指導性策略算法的一個優點是agent 可以獨立于學習算法來處理探索問題。通過將從噪聲過程N采樣的噪聲添加到本文的策略中來構造探索策略。

其中:N是根據環境來選擇的,參數更新方法使用與DQN 相同的梯度下降方法。
2.4.3 實例分割中的DQN
本文使用該DQN 將狀態表示作為輸入,并給出第七個動作的值作為輸出。按照圖2 所示的架構訓練類別特定的Q-learning 網絡。DQN 在訓練過程中需要經驗回放(Memory Replay)以存儲大量經驗樣本。為了優化DQN,本文建立了改進的Memory Replay 來存儲訓練所需的經驗數據。


分數階圖像分割網絡需要為不同類型的圖像設置不同的參數。β是每個振蕩器的分數階,而a、b、c是系統參數。在2.2 節中,參數取值不同對分數階混沌同步網絡的耦合連接結果影響不同。本文中采用Pascal VOC 數據集中的單類——“飛機”圖像對模型效果進行說明。為了增強模型的通用性,在實驗過程中發現,設置β=0.9,a=0.5,b=0.65,c=6.2,?d=1.01,分數階網絡的整體初步分割結果較好。
在強化學習agent 的學習過程中,設置合適的超參數很重要。當使用Bellman-equation 更新Q-function 時,如果系數γ較大,則生成的邊界輪廓曲線很難覆蓋目標;當該值較小時,分割目標實例過程中需要過多對圖像環境的探索。在進行一定的實驗后,本文設置γ=0.9。此外,Memory Replay 的大小設置為1 000,每個隨機采樣的最小batch 大小為128,訓練次數為50。
本文的方法在Pascal VOC2007、Pascal VOC2012 以及這兩個數據集的聯合數據集上進行了評估。從Pascal VOC2007 和Pascal VOC2012 數據集中選擇“飛機”圖像,手動去除一些背景和干擾,并進行高斯模糊,來改善和簡化數據集。其中,VOC2007 中共包含442 張此類圖像,VOC2012 中共含有421 張圖片。
本文提出了兩種設置來評估模型的實驗結果:1)使用標準的5 倍交叉驗證(5-Fold Cross-Validation,5FCV),即80%的圖像用于訓練,其余圖像用于測試;2)將訓練數據集分為VOC2007 數據集和VOC2007+2012 數據集,并將測試數據集分為VOC2007 和VOC2007+2012。本文將在之后的3.7 節中詳細說明該評估設置對實驗精度的影響。
本文遵循文獻[28]來測量區域相似性J。具體地說,J被定義為“交集相交”,它僅考慮agent 在其中明確使用觸發器來指示對象實例的存在的區域。對于每個圖像的分割精度,區域相似度J表示如下:

其中:b是邊界輪廓曲線;y是相應的ground truth。
而對于整個數據集的分割精度,本文采用平均精度AP(Average Precision)進行評估,如下所示:

其中:Ji是第i個圖像的J值;N表示輸入圖像的數量,即兩個訓練數據集中圖像的總和。
將本文模型與以下基準模型進行比較:
1)LEGION[15]。這是最早使用“振蕩相關”機制和分數階混沌單層網絡進行圖像分割的網絡。具體而言,該網絡將具有相同特征的像素分組在一起,并區分具有不同特征的像素,此模型只能處理灰度圖像。
2)SMCS(Scene segmentation Model based on Chaotic Synchronization)[10]和CPS(Chaotic Phase Synchronization and desynchronization)[16]。這些模型在文獻[15]中模型的基礎上,利用了更多的像素特征和新的特征編碼方式,在實驗精度上較LEGION 有明顯提升。
3)FCPSM(Fractional-order Chaotic Phase Synchronization Model)[19]和NMVS(Neural network Model for Visual selection and Shifting)[18]。均為兩層網絡,它們引入了分時同步的注意力機制,即首先聚集吸引更多視覺注意力的像素,因此具有顯著性標注能力,并提升了圖像分割的效率。
4)OVSF(Object-based Visual Selection Framework)[17]。該模型將深度學習中的特征圖與分數階同步網絡相結合,以提取圖像的紋理,并引入了自上而下的注意力機制來標注目標顯著性,整體效果較優。
以自然圖像“飛機”為例,如圖3 所示。由于耦合力的存在和振子本身的振蕩頻率,代表相同目標的振子會實現相位同步。與圖3 相對應的仿真結果在圖4~6 中示出:圖4 顯示對應于不同目標的混沌吸引子不同;在圖5 中,展示了從不同視角下不同坐標(i,j)目標振子的相位φ(i,j)圖;在圖6中,代表不同目標的振子之間相位變化較大。

圖3 自然圖像“飛機”Fig.3 Natural image“plane”

圖4 圖3中不同目標物體對應的吸引子Fig.4 Attractors corresponding to different target objects in Fig.3

圖5 不同視角下不同坐標的振子相位圖Fig.5 Phase diagrams of oscillators in different coordinates under different perspectives

圖6 圖3中代表不同目標物體的振子間相位方差隨時間變化曲線Fig.6 Curves of phase standards between oscillators representing different objects in Fig.3 varying with time
首先,在圖7 中本文提出的模型與基準模型FCPSM 進行比較。圖7 的結果強調了兩個要點:首先,在大多數情況下,本文提出的模型使用具有類別特定知識,即agent 在單類圖像探索過程中agent 可以從經驗池中歸納總結出圖像的類別信息,通過這種方式來查找目標實例的方法的性能要優于不具備此特性的FCPSM,但存在一個缺點,即在給定特征表示從未被識別的情況下,無法對目標實例進行分割。其次,本文模型的主要優點是在強化學習中使用動作,狀態和獎勵等元素來聚合相似像素形成局部區域,進而利用區域才具有的形狀和輪廓等特征,而很少有分割模型試圖做到這一點。這在圖7 中也有所反映,即在通過強化學習處理初始分割結果之后,在處理諸如機尾、機翼等非平滑曲線的實驗精度大大提高了。

圖7 本文模型與基準模型FCPSM的實驗效果對比Fig.7 Comparison of experimental results between the proposed model and baseline model FCPSM
本文模型與 OVSF、Mask-RCNN(Mask Region Convolutional Neural Networks)實例分割結果對比如圖8 所示。從圖8 可以看出:OVSF 因為結合了分數階網絡和深度學習中的feature map,所以取得的效果比之前的分數階非線性模型效果都要好,但依然無法完全識別目標實例中應包含的像素,而本文提出的模型可以識別更多細節。因此,本文模型在目標實例像素覆蓋率和邊緣檢測方面勝過OVSF。

圖8 不同圖像實例分割模型的實驗效果對比Fig.8 Comparisons of result of different image instance segmentation models
目前,以Mask-RCN 為代表的圖像實例分割中表現最佳。深度學習方法不僅可以更準確地標記目標的輪廓,而且,當場景中存在多種類型的目標實例時,深度學習方法仍然可以快速準確地分割實例。在算法復雜度方面,圖1 中顯示了分數階網絡在處理圖像時達到同步所需的時間步驟,而且本文實驗采用了聯合分數階同步和強化學習的雙層模型,因此模型復雜度較高,在圖像處理速度上與深度學習模型之間仍然存在一定的差距。這也是目前非線性模型的主要研究方向之一,仍需要一些更深入的探索。
表1 顯示了各個非線性圖像處理模型與本文模型在測試數據集上的AP 值,對每個圖像僅進行一次實驗。

表1 各個模型的AP值 單位:%Tab.1 AP of each model unit:%
LEGION、SMCS 和CPS 依次使用更多的像素基本特征,因此數據集上的最終結果越來越好。FCPSM 和NMVS 明顯優于LEGION、SMCS 和CPS,達到約54%,因為它們首先對圖像的顯著性進行標注。OVSF 利用深度學習中的feature map處理像素的基本特征,因此其結果超過60%。然而以上模型的結果未達到65%。最后,本文模型表現最好,證明了將RL構造的區域特征與像素的基本特征相結合是有效的。有趣的是,在擴展數據集后,本文模型對測試集的實驗精度有了很大的改進,提升了至少15 個百分點,這是其他模型均不具有的特性,其原因將在3.6 節中說明。
圖9 顯示了本文模型在“飛機”類別測試集的分割結果。大多數圖像的背景信息僅在RGB 顏色、對比度等方面有所區別,但是對于某些具有附加干擾信息的圖像,本文提出的模型仍然可以清晰地分割目標實例,而傳統的混沌同步方法不僅容易受到背景干擾,而且難以準確地分割目標實例。

圖9 本文模型部分實驗效果Fig.9 Some experimental results for the proposed model
對數據集進行預處理的優點:如前所述,本文實驗中簡單預處理了數據集,然后將Pascal VOC2007 訓練數據集與Pascal VOC2012 訓練數據集混合在了一起,使圖像數量比單個數據集多了大約1 倍,用以評估模型。實驗結果的對比如圖10 所示,可以看出在目標實例的像素覆蓋率和邊緣檢測精度方面圖(b)明顯高于圖(a)。圖片的Ji值從單個數據集的43.6%和57.2%提高到了76.8%和81.1%,這與強化學習本身的性質有關:訓練集的數量越多,agent 可以探索的上下文信息和先驗知識越詳細,可以借鑒的經驗越多,實驗的最終結果越精確。

圖10 不同數據集上的實驗結果對比Fig.10 Comparison of experiment results on different datasets
由于RL 模型在訓練過程中采用了累積式獎勵,因此不僅考慮當前效果,而且考慮未來的潛在優勢。換句話說,以監督學習方式訓練的模型較為短視,而以RL 方式訓練的模型則更加關注全局利益和整體性能,所以更適合于圖像相關的任務。此外,RL 還可以重用數據集進行訓練。而與深度學習方法的對比中可以發現,基于深度學習的模型具有較好的性能,因為它們可以從神經網絡中的多層功能模塊中學習更多的抽象圖像特征。受此啟發,本文模型按照一定的相似性對像素進行匯總,以此來按照另一種方式抽象化圖像的局部區域特征。這是本文模型在局部區域的分割精度幾乎可以達到Mask R-CNN 水平的原因,同時也是下一步的重點工作,即將非線性圖像基礎特征提取模型按照深度學習的思想進行改進。
在圖像實例分割方面,本文提出了一種基于分數階混沌同步網絡和強化學習的模型。該模型與大多數實例分割方法具有本質上的不同,是分數階網絡和強化學習結合在一起進行像素級別的目標實例分割。本文模型的實驗結果比目前基于分數階模型的現有方法更好,而且可以與某些深度學習基準模型競爭,在局部區域的細粒度信息獲取能力甚至超過了某些深度學習模型。但在獲取目標實例類別信息的能力仍有所欠缺,因此未來的工作旨在構建更強大的分數階網絡以表征和提取圖像基礎特征。