用于求解旅行商問題的深度智慧型蟻群優化算法

2021-08-17 00:56:02邢立寧吳亞輝馬武彬

計算機研究與發展 2021年8期

王原陳名邢立寧吳亞輝馬武彬趙宏

1(國防科技大學系統工程學院長沙 410073) 2(湖南安全技術職業學院長沙 410151)

組合優化問題(combinatorial optimization problem, COP)的求解一直是運籌學領域的一個重要研究方向.典型組合優化問題如旅行商問題(travelling salesman problem, TSP)、車輛路徑問題(vehicle routing problem, VRP)、作業車間調度問題(job shop scheduling problem, JSSP)等通常均屬于NP-Hard問題.因此，針對組合優化問題設計高效的求解算法一直是該領域的重要研究方向.

目前針對組合優化問題的求解方法一般被分為2種類型：近似算法(approximation algorithm)以及精確算法(exact algorithm).這2類方法面臨2個問題的挑戰[1-2]：1) 精確算法求解的時間消耗隨著問題規模的擴大急遽上升，針對較大規模問題無法在可接受時間內取得最優解；2) 設計有效的啟發式算法需要大量針對性的領域知識以及大量的試錯(trial-and-error).因此，如何針對組合優化問題設計有效的求解算法，仍然面臨重重困難.

近年來，一批深度強化學習方法在組合優化問題的新應用的提出給本問題的解決帶來新的思路[3].得益于端到端學習(end-to-end learning)模型[4]的提出，深度強化學習方法能夠通過在同一問題分布的不同實例上的訓練來提取有關問題實例的深層特征，并基于問題特征對問題實例進行求解.深度強化學習方法在求解組合優化問題時具有如下2個特征：

1) 深度強化學習能夠通過訓練的方式搜索問題分布的特征并進行求解模型的自完善，且該過程不需要模型設計者掌握問題相關的領域知識；

2) 模型訓練結束后，深度強化學習在求解時，能夠以O(n)的時間復雜度求解問題實例.

然而，深度強化學習在求解組合優化問題時，仍面臨一定的不足：

1) 算法求解表現距離state-of-the-art算法仍有差距；

2) 缺乏解空間的搜索能力，且對輸入分布較為敏感.

為解決該問題，本文提出了一種基于蟻群算法和深度學習方法的混合啟發式算法框架.該框架采用深度學習方法進行特征提取，然后采用蟻群算法基于問題特征在解空間內進行可行解的搜索.該框架能夠有效利用深度學習方法的特征提取能力，以及蟻群算法的解空間搜索能力.

本文的主要貢獻有4個方面:

1) 提出了一種基于蟻群算法和深度學習方法的組合優化問題求解方案，并采用該方法對旅行商問題進行了求解.

2) 提出了一種深度學習方法進行旅行商問題特征提取的端到端學習方法，該方法能夠將不同規模的旅行商問題實例轉化為對應的啟發式信息矩陣.

3) 在啟發式信息矩陣的基礎上，采用蟻群算法對旅行商問題實例進行了求解.

4) 采用TSPLIB中的標準算例對該方法的求解表現和算法穩定性進行了驗證.

1 相關工作

本文從蟻群算法和深度學習方法求解組合優化問題2方面分別介紹本文的相關工作.

蟻群算法是一種模擬螞蟻的覓食行為的仿生算法，該算法由Dorigo于1992年提出[5].在該文中，作者描述了蟻群算法求解旅行商問題的基本流程：首先將人工螞蟻隨機放置于一個開始城市并遵循基于概率的規則逐步構建解.每次產生可行解后，人工螞蟻會按照解的好壞在路徑上留下對應的信息素信息.經過多代迭代后，在信息素的影響下蟻群算法會逐漸收斂到具有較高質量的解.在該工作的基礎上，研究者針對蟻群算法進行了大量的改進，主要成果包括[6-9]：精英蟻群算法(elitist ant system, EAS)、最大-最小蟻群算法(max-min ant system, MMAS)、多蟻群系統(ant colony system, ACS)、基于排序的蟻群算法(rank-based ant system, RAS)等.

為改進蟻群算法在旅行商問題上的求解效能，一類典型的解決辦法是采用蟻群算法與其他類型啟發式算法的混合算法.龔本燦等人[10]采用蟻群算法生成旅行商問題的初始解，并采用3種不同的鄰域搜索算子對初始解進行改進.Mavrovouniotis和Yang[11]針對蟻群算法求解旅行商問題中算法收斂速度較慢和容易陷入局部最優的問題設計了多種不同的鄰域搜索算子.另一種改進蟻群算法的求解效能的方案是在蟻群算法的求解結構上做改進.Mahi等人[12]提出了一種基于粒子群算法、蟻群算法和3-opt鄰域搜索算法的混合啟發式算法框架用于求解旅行商問題.該方法被證明具有比當時已有算法更好的算法效能.Pang等人[13]提出了一種基于鄰域搜索庫的蟻群算法用于求解旅行商問題，計算實驗表明采用鄰域搜索庫能夠有效改善算法的求解效能.Manfrin等人[14]將蟻群中的人工螞蟻分為多個不同的并行運行的蟻群，并采用全局信息素交換的方式在不同的并行蟻群間進行交換，并證明采用并行蟻群的方法能夠有效地加速蟻群算法的收斂并提升解的質量.Zhang等人[15]提出了一種改進最大-最小蟻群算法.該算法采用基于最優解的隨機采樣的方法確定信息素矩陣的最大及最小值，同時確定每次迭代時信息素殘留的量.Gan等人[16]將蟻群算法中的人工螞蟻分為常規蟻和搜索蟻2個不同的族群.其中，常規蟻以傳統蟻群算法構建解的方式進行解空間搜索，而搜索蟻則更傾向于在現有最優解的鄰域進行可行解的搜索.

近年來，深度強化學習方法在路徑規劃問題中涌現了大量應用.Vinyals等人[17]提出了一種基于指針網絡的旅行商問題求解方式.該方法能夠將任意規模的旅行商問題轉化為對應規模的向量向量輸出，并基于貪婪原則進行求解.Nowak等人[18]提出了一種基于圖神經網絡(graph neural network, GNN)的旅行商問題求解方法.該方法能夠同時接受有監督訓練和無監督訓練.Prates等人[19]在Nowak[18]的基礎上設計了一種基于圖卷積網絡(graph convolutional network, GCN)的深度學習方法，用于求解TSP問題.該網絡能夠更好地提取TSP問題中的客戶和連邊的深層信息.然而，該方法只能通過有監督的方式學習，每次訓練需要輸入TSP問題實例以及對應的最優解.其中最優解采用Concorde TSP solver產生.Joshi等人[20]則以連邊為中心構建了一類新的神經網絡結構.在該結構中，連邊信息首先輸入一個多層卷積神經網絡，網絡在經過多層卷積后，其輸出再經過一個多層感知機(multilayer perceptron, MLP)轉化為可能出現在最優解中的概率值.為訓練該網絡，需要同時向該網絡輸入3個不同的向量：一個包含全部客戶節點位置信息的向量，一個包含全部連邊權重的向量，以及一個預期的目標值.其中預期的目標值采用Concorde TSP solver產生.

采用圖神經網絡方法求解TSP問題目前存在2個主要限制：1)神經網絡維度需與問題維度一致；2)圖神經網絡通常采用有監督學習方式，其學習結果依賴于產生訓練實例對應的最優解方法的優劣.Dai等人[21]采用Structure2Vec技術將旅行商問題的圖模型以及當前解的狀態轉換為向量輸入，并基于Q學習方法設計了基于該向量輸入的求解方式.Bello等人[22]針對文獻[17]中訓練樣本必須帶標簽(即事先已知最優解和路徑)的問題，設計了能夠基于經驗進行求解的指針網絡.Kool等人[23]將深度神經網絡和注意力機制進行結合，用于求解旅行商問題.Nazari等人[24]在文獻[21]的基礎上，考慮到問題求解的動態性因素，提出了基于注意力機制的深度學習方法.該方法將旅行商問題的向量輸入和當前部分解通過嵌入層(embeddings)轉換為高維向量，并基于該向量進行了問題求解.有關深度學習方法求解旅行商問題的其他方法可見綜述文獻[25].

本文提出了一種基于深度學習和蟻群算法的組合優化算法混合求解策略.該方法首先使用深度學習方法挖掘問題實例中的特征，并形成對應的特征矩陣.以該矩陣為基礎，采用蟻群算法進行解的搜索.該方法能夠有效求解不同規模的旅行商問題.

2 旅行商問題模型

旅行商問題是一個經典的組合優化問題.該問題可描述為存在一系列城市和一個商人，商人要按照順序遍歷全部的城市，每個城市只能訪問一次.問題優化目標為游歷的總路徑最短.該問題數學模型如下：旅行商問題可以表示為一個無向圖Ts=(S,E)，其中，S為全部城市節點集合，E為城市節點間的連邊集合.邊eij∈E(i,j∈N,i≠j)有與其相關的成本dij.

該問題的決策變量為

(1)

該問題的優化目標為

(2)

3 深度智慧型蟻群算法框架

深度智慧型蟻群優化算法(deep intelligent ant colony optimization, DIACO)在蟻群算法基礎上，通過將蟻群算法中的啟發式信息矩陣替換為采用深度強化學習方法提取的問題特征矩陣，對算法的求解效能進行了改進.為介紹智慧型蟻群算法，首先介紹經典蟻群算法框架.

經典蟻群算法在構建旅行商問題的解時采用以下步驟：

1) 隨機選擇一個城市，并將人工螞蟻放置于該城市.

2) 人工螞蟻采用輪盤賭原則選擇下一步到達的城市，城市被選擇的概率為

(3)

其中，pij為人工螞蟻從城市i出發拜訪城市j的可能性.τij為人工螞蟻殘留在邊ij上的信息素信息，ηij為邊ij上的啟發式信息.α和β為控制啟發式信息和信息素信息重要性的參數.

3) 每當人工螞蟻訪問一個城市時，就將該城市放入當前解，并將該城市加入當前人工螞蟻的禁止訪問列表.

4) 當全部城市都被訪問完后，人工螞蟻返回開始城市，計算當前解的收益，并根據式(4)更新信息素矩陣：

(4)

(5)

其中，lk為螞蟻k求得的當前問題的解的路徑長度.

通過以上分析不難看出，蟻群算法求解旅行商問題的效果主要取決于2項信息：信息素信息τij以及啟發式信息ηij.目前針對蟻群算法的研究，主要集中在如何通過改進信息素信息τij的更新方式以促進蟻群算法的收斂和改進蟻群算法的效果.而啟發式信息則多采用如下方法確定：

(6)

注意到以上問題，在DIACO中，我們設計了基于深度學習方法的問題特征提取方法，并采用該方法獲得的問題特征矩陣代替經典蟻群算法中的ηij矩陣，以改進蟻群算法的求解表現.DIACO算法的框架如圖1所示：

Fig. 1 Algorithm structure of DIACO圖1 DIACO算法結構

在DIACO中，我們首先采用基于注意力機制的神經網絡對問題實例進行特征提取，并產生ηij.然后采用蟻群算法對問題實例進行求解.

4 基于注意力機制的神經網絡特征提取方法

本文所采用的基于注意力機制的神經網絡模型是一種基于策略(policy-based)的深度強化學習方法.該方法不依賴標簽信息(ground truth)，而能夠通過學習過程中獎勵值的反饋進行自完善.以下首先介紹該模型的具體結構.

4.1 模型結構

本文提出的基于注意力機制的神經網絡模型(neural networks, NN)由2部分組成:1)編碼器-解碼器結構.該結構主要負責建立問題輸入和特征輸出之間的關聯.在旅行商問題中，問題輸入為全部城市的坐標集合以及當前已構建的部分解的信息.2)注意力模型.該結構綜合考慮編碼器-解碼器中問題輸入與輸出參數之間的相關性，并給予待訪問城市不同程度的關注度.

該模型的具體結構有4個：

1) 編碼器.編碼器采用一維卷積嵌入層結構，將問題輸入轉化為高維度向量，以充分利用圖Ts中的城市的結構信息.該部分的輸入為各個城市的歐氏坐標.

2) 全局變量G.在編碼器中，每一個任務對應輸出的特征向量是相互獨立的，因此這些變量并不能反映出城市之間邊的集合E的特征.因此，需要針對邊的集合E進行表征.本文采用文獻[23]中的多頭注意力(multi-head attention, MHA)神經網絡結構來進行相關特征的提取，該變量可以被認為是該場景的一個全局變量，它包含了針對邊的集合E的相關信息.

4) 注意力模型.注意力模型用于預測下一步可選擇城市中，選擇哪個城市獲得最優解的可能性更大.采用注意力模型能夠給予下一步更可能產生最優解的城市更高的被選擇概率.

Fig. 2 Attention based neural network structure圖2 基于注意力機制的神經網絡結構

在以上變換的基礎上，本文采用文獻[22]中的glimpse結構，得到狀態變量Z.具體操作如式(7)所示：

Z=glimpse(G;[hs0,hst]),

(7)

其中，s0為初始訪問城市，st為當前訪問城市，G為全局變量，[hs0,hst]表示對2個向量進行拼接操作.

綜上，NN模型的解碼由全局變量G、狀態變量Z和距離變量D組成.將其輸入全連接層進行特征計算，得到各個待訪問城市的相關度，最終通過softmax函數對相關度進行歸一化，得到針對下一步可選城市的具體評分.具體的計算為

(8)

(9)

其中，Ct和Xt分別表示在第t步已經訪問和待訪問的城市集合,vT和w表示待學習的神經網絡參數，P(ct+1|Ct,Xt)為在時刻t已選城市ct∈Ct，待訪問城市Xt的情況下向訪問城市ct+1轉移的條件概率.該概率越大，代表神經網絡認為下一步選擇ct+1中的城市可能獲得最優解的概率越大.

該模型的具體運行流程如圖3所示.首先通過隨機初始化選擇s3作為初始起點，之后基于當前城市s3采用神經網絡模型計算下一步可選擇的解的特征向量，得到當前狀態下待選擇城市的匹配度，此時的匹配度s4>s2>s1，因此選擇任務s4作為下一訪問城市，更新模型各個變量并使用掩碼機制對已訪城市進行屏蔽，重復上述過程直到模型停止.

Fig. 3 DIACO workflow圖3 DIACO算法工作流程

4.2 訓練方法

為說明NN模型的訓練方法，首先需要闡明NN模型的求解過程.

本文所采用的NN模型將旅行商問題的求解看做一個Markov過程.具體而言，在求解旅行商問題時，NN模型首先隨機選擇一個城市c0∈X0作為初始起點，然后以構建式規則逐步將待訪問城市加入當前解.在每步迭代時，NN模型在C0={c0,c1,c2,…,ct}的狀態下，通過參數為θ的網絡模型選擇下一個被訪問城市ct+1.采用概率的鏈式法則，最終生成長度為T′的訪問順序規劃C={ct,t=0,1,…,T′}，其中T′為旅行商問題實例的規模.該過程可通過式(10)表示：

(10)

其中，P(C|X0;θ)為在NN的參數組合θ下生成訪問序列C的可能性，P(ct+1|Ct,Xt;θ)為在當前狀態Ct下基于參數組合θ選擇ct+1作為下一步訪問城市的概率.因此，存在最優路徑集合C*，那么模型的最優參數組合θ*應滿足：

(11)

本文用J(θ)表示在參數組合θ下NN模型批量求解旅行商問題的期望，J(θ)可通過式(12)計算：

(12)

其中，r(C)表示當前路徑的目標值.考慮到在式(2)中，旅行商問題的優化目標為最小化總旅行距離，因此NN模型的訓練目標可通過式(13)表示：

(13)

其中，π*表示最優策略，該策略包括模型參數及決策策略，π表示NN模型的策略集合.式(13)表示NN模型的訓練目標為尋找能夠在訓練集上取得最小期望路徑長度的策略.

為達成該訓練目標，本文采用基于策略梯度的強化學習Actor-Critic方法，其偽代碼如算法1所示.其中，Actor網絡為本文提出的NN模型，Critic網絡使用與NN模型相同的特征提取層，而只輸入城市的坐標信息，然后2個全連接層將編碼器輸出的特征信息映射到對應的網絡輸出.

算法1.Actor-Critic算法.

① 初始化Actor的網絡參數θ;

② 初始化Critic的網絡參數θc;

③ for 每一代 do

④ 重置梯度:dθ←0,dθc←0;

⑤N個調度場景;

⑥ fork=1,2,…,Ndo

⑦ 計步器t←0;

⑧ while 沒有達到終止條件 do

4.3 啟發式矩陣處理

對于訓練好的NN模型，本文針對場景中的每個城市，逐一設置為初始起點，并運行一次NN模型，得到剩余城市的特征向量，最終將全部城市的特征向量進行拼接得到啟發式矩陣M0，NN模型的簡要運行流程如圖4所示:

Fig. 4 Characteristic extraction using NN model圖4 采用NN模型進行特征提取

需要額外指出的是，由于NN模型的訓練采用構建式規則(本文中為隨機貪婪規則)，為了保證求解效能的穩定性，其訓練時在不同待選城市間的評分差距較大.圖5展示了在29城市規模的算例上的NN模型輸出的可視化圖像.

Fig. 5 The visualization of the M0 on 29 cities instance圖5 29城市規模算例M0的可視化

考慮到單個城市的特征值與其他城市特征值的差值過大可能導致蟻群算法過早陷入局部最優，從而影響蟻群算法搜索效能的問題，需要對NN模型輸出的M0矩陣進行預處理.預處理方法為

(14)

Fig. 6 The visualization of the M0(after pre-processing)圖6 M0的可視化(預處理后)

另外需要指出，本文求解的旅行商問題均為對稱旅行商問題，即從城市si旅行到城市sj與從城市sj旅行到城市si應具有相同評價，因此本文采用以下方法對M0進行處理并得到最終的特征矩陣M：

Fig. 7 The visualization of the M圖7 M的可視化

(15)

5 實驗與結果

5.1 實驗設計

1) 實驗參數

NN模型采用(Actor-Cirtic, AC)算法對模型進行訓練，為了保證模型在訓練過程中的尋優能力以及在測試過程中的穩定性，本文分別采取隨機策略和貪婪策略對待訪問城市進行選擇.AC算法中的Actor即NN模型，參數設置如下：MHA:Q,K,V-dim=128,Head=8,Layer=3,Inner=512；編碼器:Conv-1D(Dinput_size=2,Filter=128,kernel_size=1,stride=1)；解碼器:Conv-1D(Dinput_size=1,Filter=128,kernel_size=1,stride=1).Critic共包含4層編碼器，具體參數設置如下：

編碼器1：Conv-1D(Dinput_size=2,Filter=128,kernel_size=1,stride=1)；

編碼器2：Conv-1D(256,Filter=20,kernel_size=1,stride=1)；

編碼器3：Conv-1D(20,Filter=20,kernel_size=1,stride=1)；

編碼器4：Conv-1D(20,Filter=1,kernel_size=1,stride=1).

本文使用Xavier對網絡參數進行初始化[26]，并采用Adam優化器[27]對網絡參數進行更新，初始學習率η=0.0001，訓練的問題規模為20，訓練的輪數epoch=100，批訓練量為512.

本研究使用的全部蟻群算法中，最大迭代次數為1 000，最大螞蟻數量為25，ρ=0.9，α=1，β=1.

2) 數據集

本文訓練數據[xi,yi]均采用在均勻隨機分布Φ下生成，取值范圍(0,1)，最終分別得到128萬個訓練場景，1萬個評價場景.

3) 實驗設備

模型的訓練和測試均運行在一臺配置RTX 2080-Ti, i9- 9900k CPU, 64 GB內存的服務器上.編譯語言采用Python，編譯器采用PyCharm，深度學習框架采用Pytorch 1.02.

4) 對比算法

5.2 對比分析

本文選取了任務規模為29,30,48,51,70,76和101的TSPLIB標準測試算例進行測試，每個算法運行20次，算法評價指標選用了求解的平均路徑長度(Avg)、解的變異系數(C.V.)和與最優解的差距百分比(Gap)三個指標對全部對比算法的求解效能進行了分析.其中，變異系數的計算方式為CV=Std/Avg，其中，Std為標準差，Avg為均值.顯然，變異系數越小代表數據離散程度越低.采用變異系數能夠更好地比較多組不同測量尺度的數據間的離散程度的差異.另外需要指出的是，在表1和表2中，理論最優解(OPT)及對比算法找到的最優解用加粗字體標出.bays29的理論最優解用下劃線標出，其原因是該理論最優解目前存在一定的爭議(其主要原因是不同方法得出的理論最優解在保留不同小數位數時有所不同).

Table 1 Results of DIACO on benchmark Instances

續表1

Table 2 Results of Different Model Scale DIACO on Benchmark Instances

表1總結了本文使用的全部算法和理論最優解的對比結果.通過表1可知，DIACO在測試的全部算法中，找到了6個算例的最優值.因此可以認為，相比于其他對比方法，DIACO在較小規模的TSP問題求解上具有一定優勢.且相比于其他類型的啟發式算法，DIACO具有更好的解的穩定性.另外，在算例bays29中，DIACO取得了比現有的最優解更好的求解結果，其可能原因是在求解過程中距離矩陣的保留位數不同導致的誤差.圖8總結了不同算法在7組對比算例上的Gap值.

Fig. 8 The Gap of different algorithms圖8 不同算法平均路徑長度的Gap圖

需要額外指出的是，由于Vinyals等人[17]在較大規模算例上的Gap值太大(超過30%)，因此在此處不再予以列出.

另外，DIACO相比原始的ACO和僅采用NN模型求解的結果而言，算法的求解表現均有提升.其中，相比于原始ACO算法，DIACO的最小平均表現提升約為1.2%.而相對于NN模型，DIACO的最小平均表現提升約為1.9%.若考慮全部7組算例的均值，則DIACO相比于原始ACO的解的表現平均提升約3.47%，DIACO相比于NN模型的解的表現平均提升約4.27%.

另外需要指出，DIACO是一個具有良好的求解穩定性的算法.在7組計算實驗中DIACO的最大變異系數約為0.0145.且相比于原始ACO和僅采用NN模型求解的結果，DIACO的變異系數有較大幅度的下降，可以認為DIACO提升了NN模型和ACO算法的計算穩定性.

最后需要說明的是，由于機器學習方法一般采用簡單的搜索機制,如貪婪法或者束搜索(beam search, BS)等，因此DIACO相比于一般的機器學習方法具有更大的時間開銷.

5.3 模型有效性驗證

1) 模型訓練過程分析

本節首先給出了NN模型的訓練過程分析如圖9所示.該圖展示了NN模型在平均算例規模為20城市的訓練樣本上的訓練曲線.從圖9可以看出，NN模型在訓練的前20代平均路徑長度快速下降，并在約第60代達到基本穩定狀態.從圖9可以總結得出，本文所采用的NN模型能夠以較快速度達到收斂狀態.

Fig. 9 The training process of NN model at 20 scale instances圖9 NN模型在任務規模20下的訓練過程

2) 模型泛化能力驗證

為了驗證不同規模NN模型下DIACO算法的性能，本文以20-NN模型為基礎，采用參數遷移的方式對50和75規模的NN模型進行訓練，縮短了模型的訓練周期，具體訓練128萬場景，訓練輪次20.模型泛化能力驗證的計算結果如圖10所示：

Fig. 10 The Gap of different scale DIACO on 7 instances圖10 不同模型規模DIACO在benchmark算例上的實驗結果

由圖10可得，在7組測試算例中，50節點規模的DIACO算法獲得最好的平均計算表現.且不同規模的DIACO在全部測試場景下的平均Gap均在10%以內，可以認為該方法具有較好的規模泛化性能.

5.4 算法有效性驗證

為研究NN模型輸出的啟發式矩陣的有效性，本文設計一種新的ACO形式.在該ACO中，啟發式信息通過式(16)確定：

(16)

在式(16)中，mij為特征矩陣M中的邊ij的特征值，ε和δ為控制特征值和基于距離的啟發式信息的重要性的參數，且ε和δ滿足ε+δ=1.通過調整公式中ε和δ的值，即可控制啟發式信息中特征值和基于距離的啟發式信息的比例.當ε=1時，該ACO即為DIACO，當δ=1時，該ACO即為經典ACO.我們選取了ε={0,0.1,0.3,0.5,0.7,0.9,1.0}共7種不同的組合進行了驗證，其結果如圖11所示:

Fig. 11 Algorithm proficiency of NN model圖11 NN模型有效性驗證

從圖11可知，當ε=1時，即該ACO為DIACO時，該算法能夠得到最好的平均表現.因此能夠證明使用NN模型替換基于距離的啟發式矩陣能夠有效提高ACO的求解性能.

6 總結

有效利用組合優化問題算例提供的啟發式信息輔助求解組合優化問題，是改善算法求解組合優化問題效能的重要手段.本文提出了一種基于深度學習和蟻群算法的組合優化問題混合求解策略.該方法首先采用深度學習方法對組合優化問題進行特征提取，在此基礎上采用蟻群算法進行搜索求解.為驗證該方法的有效性，本文采用旅行商問題標準算例對該求解方法的效能進行了驗證.結果表明該方法在旅行商問題上具有良好表現.

本研究可從以下3方面開展后續工作：

1) 深度學習方法對問題的分布具有較強敏感性，問題分布的改變可能導致深度學習方法得到的問題特征矩陣出現較大誤差.如何解決問題分布帶來的學習誤差的問題，是本文后續的重要研究方向之一.

2) 如何有效地提取算例的深層信息，是本文需要解決的另一個問題.由于深度學習方法訓練時采用基于平均隨機貪婪原則的方式構建解，因此難以避免訓練過程的短視問題.因此，如何提高深度學習方法提取特征的深度，是本研究另一個重要的后續工作方向.

3) 在更大規模的問題上開展針對性研究.在本文中，我們發現當問題規模超過100節點時，DIACO算法的表現具有一定程度的下降.其可能原因包括：①網絡規模不夠導致信息提取不完善；②搜索時間不夠導致無法搜索到更好的解.因此，在未來針對DIACO算法的研究中，將著重研究該方法在大規模算例下的表現，以及針對網絡在不同規模算例上的泛化性進行研究.

作者貢獻聲明：王原主要負責論文的思路設計、算法代碼編寫、實驗思路設計、實驗數據分析和論文撰寫；陳名主要貢獻包括深度學習方法設計、算法代碼編寫、深度學習方法訓練、實驗數據收集及論文撰寫，為本文通信作者；邢立寧主要貢獻包括論文思路指導、實驗數據分析指導、論文撰寫及修改；吳亞輝主要貢獻包括優化方法設計、實驗數據收集及分析；馬武彬主要貢獻包括算法代碼編寫、實驗數據采集及分析；趙宏主要貢獻包括：對比算法設計、代碼編寫、實驗數據采集.王原和陳名為共同一作.