面向分布式資源約束的多模式多項目調度優化：基于多智能體強化學習的動態協商機制

2025-08-24 00:00:00張明東陳瑩黃建文

互聯網周刊 2025年14期

引言

當前企業常并行開展多個項目，使分布式多項目管理模式興起，這種模式具有地域分布廣、參與主體多等特點，同時也帶來資源分配難題，而傳統集中式調度方法難以滿足復雜需求。分布式資源約束多項目調度問題（distributed resource-constrained multi-projectschedulingproblem，DRCMPSP）研究具有重要意義，但現有研究對活動模式等因素考慮不足。近年來，國內外學者針對DRCMPSP的特性與求解方法開展了廣泛研究。隨著人工智能技術的發展，本研究嘗試結合該技術以進一步解

決DRCMPSP問題。

在研究方法方面，ShiYX等提出了一種新的層級調度模型，并采用示例問題進行驗證，將調度過程分為項目層和資源層，采用啟發式方法進行調度，研究表明其調度模型對項目經理和資源經理之間的利益協調產生了積極的效果[]。HuFY等采用多參數優先規則（multi-PR）與過程模擬和遺傳搜索策略相結合的方法，得出較其他方法能實現更低的總延遲成本[2]。ChenHJ等提出的混合代理輔助雙樹遺傳規劃框架為動態資源約束多項目調度提供了一種高效、魯棒的解決方案，其雙樹結構和代理模型的創新設計顯著提升了動態環境下的調度性能[3]。李飛飛等從求解算法包括精準算法、啟發式算法、超啟發式算法以及分布式決策機制等方面，表現出優于傳統算法的求解效果，能夠有效縮短項目工期、降低成本和提高資源利用率4]。張豪華、白思俊針對實踐中分布式多項目活動存在多種執行模式的情況，采用改進變鄰域搜索算法求解局部計劃，設計基于模式調整的全局協商算法求解全局模型，通過雙層算法實現局部與全局調度協調，降低項目中斷與延期成本[5。崔建雙等提出基于Q學習的超啟發式模型，并設計相應算法進行求解，結果顯示該算法在目標值、通用性、魯棒性等方面表現出色。

1.問題描述

復雜項目管理中，DRCMPSP是企業關鍵挑戰，其涉及多子項目的任務、資源與時間協調，且子項目分布于不同地域或組織單元，活動到達時間各異，加劇了調度復雜性。此問題核心難點為資源約束（含子項目內部的局部資源限制及多項目系統的全局資源總量限制）與活動多模式特性：前者如建筑項目中施工隊人數、設備及材料的階段性限制，或企業總人力、預算的全局分配競爭；后者指同一活動可選擇不同執行模式（如軟件開發的敏捷迭代與瀑布式線性流程），其持續時間與資源消耗差異顯著，需在進度、成本與資源效率間進行多維權衡。DRCMPSP的研究目標為最小化多項目延期成本（含違約賠償、市場機會損失等顯隱性成本），需構建融合任務拓撲、資源約束、模式特性與優先級的混合整數規劃模型，通過約束規劃與智能算法實現資源有限下的帕累托最優調度，協同提升單項目效率與多項目整體績效。

2.基于MAS與強化學習的模型構建

2.1局部調度模型

符號定義如下：

項目集合：，表示多項目系統中的所有子項目；活動集合：A_p={a₁，a₂，…，a_p} ，表示子項目 p 中的活動集合；資源集合： S={s₁，s₂，...，s_n} ，表示系統中的資源類型；執行模式集合：，表示活動i的可選執行模式集合。

決策變量

活動執行模式選擇：

若活動i選擇執行，模式jEMi （1） 0，否則

活動開始時間： t_i≥0 ，表示活動i的開始時間。

目標函數切換成本項：

其中， δ（x_i^j，x_i^j′）為二元指示函數，若活動i的模式從j切換為j'，則取值為1，否則為0； β 表示單詞模式切換的成本系數，涵蓋時間延遲和技術風險。

最小化項目總工期：

其中， d_i^j 為活動i在模式i下的持續時間。

約束條件

活動優先關系約束：

其中， PR_F 表示子項目中的優先關系集合。

局部資源約束：

其中：

r為活動i在模式j下對資源S，的需求量， S_l^p 為子項目 p 中資源S的可用量。

模式選擇唯一性約束：

2.2全局決策模型

2.2.1數學模型符號擴展

項目權重： W_p ，表示子項目 p 的重要性權重；項目截止時間： D_p ，表示子項目 p 的預期完成時間；資源總量：S_sl^total ，表示全局資源S的可用總量。

決策變量

活動執行模式選擇： x_i^j （同局部模型）；活動開始時間： t_i （同局部模型）；資源分配比例： α_p^l∈[0，1] ，表示子項目分配到資源S的比例。

目標函數

最小化多項目延期總成本：

約束條件

全局資源約束：

與局部調度模型的一致性約束：

資源分配可行性約束：

2.2.2智能協商機制

智能協商過程可形式化為多智能體決策問題，通過以下步驟實現：

初始資源分配：

其中，Priorityi表示活動i的優先級。協商更新規則：

其中： η 為學習率， L 為協商損失函數，定義為：

L=λ₁*DelayCost+λ₂

其中， λ₁ 和 λ 2為權重系數，其取值通過帕累托前沿分析確定；Resourcelmbalance衡量資源分配的不均衡程度。

3.算法設計

3.1基于強化學習的局部調度算法

3.1.1算法流程與步驟

初始化：確定子項目、活動、資源及執行模式集合，為各子項目創建獨立強化學習智能體，初始化狀態、動作空間及學習率、折扣因子等參數，設定最大訓練步數T。

狀態編碼與更新：狀態編碼整合任務執行、資源占用及活動模式等信息，涵蓋活動開始時間、已選模式、剩余資源量及優先關系。智能體依當前狀態選擇動作，執行后環境狀態更新并獲取新狀態。

動作選擇策略：采用ε-greedy策略，以ε概率隨機探索新方案，1-ε概率選擇最優動作利用經驗，隨訓練遞減ε以側重經驗利用。

獎勵函數設計：以縮短工期為主要目標，縮短工期給予正獎勵，延長工期或約束違規給予負獎勵，資源過度閑置或分配不均亦給予負反饋以優化資源配置。

訓練與學習：智能體通過Q學習公式更新Q值，逐步優化局部調度策略，達最大步數T或Q值收斂時終止訓練。

3.1.2解的編碼方式

針對活動優先約束，通過拓撲排序算法將子項目活動網絡轉化為有序執行序列，確保調度過程嚴格遵循活動間的先后邏輯關系。在模式選擇方面，為每個活動的可選執行模式分配獨立編碼標識。初始解生成時，基于預設編碼規則隨機或確定性地為各活動指派執行模式，并結合活動優先序列計算活動開始時間，由此構建完整的局部調度方案。在優化迭代過程中，智能體通過動態調整模式編碼組合探索更優解空間。

3.2基于智能協商的全局調度算法 3.2.1算法核心思想基于智能協商的全局調度算法，

D-高山-多模式多項目調度優化研究

其核心思想在于通過多智能體之間的協商機制，實現全局資源在多個子項目間的合理分配，進而最小化多項目延期總成本。該算法將每個子項目視作一個獨立的智能體，即項目智能體（projectagent，PA）[，由其負責管理子項目內部的調度；同時引入協調智能體（coordinatoragent，CA），承擔匯總各PA的資源需求信息、協調資源分配沖突以及進行全局決策的任務。各個智能體之間借助信息交互和協商，持續調整資源分配方案，最終使整個多項目系統達到最優調度狀態。

3.2.2實現過程

資源需求信息匯總：各PA基于任務進度和資源需求，計算各時間節點資源量并定期傳輸至CA，CA整合形成全局資源需求列表。

例進行實驗，實驗結果見表1。

確定協商點與資源分配協調：CA對比全局資源總量與需求，當資源不足時觸發協商機制，基于項目權重和活動優先級初定分配比例，結合延期成本和需求緊迫性動態調整：高成本、高急需項目增加分配，反之減少。

活動模式調整與反饋：CA發現資源不足導致的延期風險時，與PA協商將高資源需求活動切換至低消耗模式，評估工期影響后，反饋最終分配比例與模式調整信息至PA，PA據此優化局部調度計劃。

迭代優化：CA持續監控資源使用與項目進度，遇沖突或變動時重啟協商，循環優化直至項目完成或達到終止條件，實現整體最優調度。

4.2算法實現與實驗設置

在本次實驗環節，算法的實現基于Python完成，為確保數據處理與計算的高效性，調用了 NumPy 、Pandas、Matplotlib等庫和框架輔助研究[10]。對于每個選取的PSPLIB算例，設置了以下實驗參數，見表2。

經過對選取的PSPLIB算例進行實驗，得到以下結果，見表3、表4。

4.3實驗結果與分析

實驗結果顯示，算法在不同規模算例中均有效縮短工期，如j 10.mm 算例從35天減至30天、 j120.mm 算例從320天降至280天；模式調整次數隨算例規模增大而增加，但算法性能穩定；資源利用率方面， j30.mm 、 j120 #mm 算例分別提升 18% 、 35% ； j60

表1PSPLIB算例選取

表2算例初始化參數

表3局部調度優化指標對比

4.實驗設計與結果分析

4.1案例選取與數據收集

本章節將使用PSPLIB算例庫中的算例進行實驗驗證，以評估本文所提出算法的性能和有效性[8-9]。從PSPLIB算例庫中選取了以下具有代表性的算mm、 j90.mm 算例的周均沖突次數均有降低，驗證了算法協調資源的有效性。PSPLIB算例驗證表明，該算法在工期優化、資源利用率提升及沖突消解等方面優勢顯著，可為實際項目調度提供理論與實踐支持。

表4全局調度優化指標對比

4.4與其他算法對比

為深入評估本文算法性能，選取項目調度領域常用的幾種算法進行對比分析：單親遺傳算法（singleparentgeneticalgorithm，SPGA）[]、基于優先規則的啟發式算法（guidedrule-basedmethod，GRM）、關鍵路徑法（criticalpathmethod，CPM），采用相同的實驗環境、相同的算例對上述對比算法進行實驗，以下是在 _j30.mm 算例的對比實驗結果，如表5所示。

從上表可以得出，本文算法性能良好。工期優化方面，本文算法優化后的工期天數最短，為85天；在資源利用率方面，相比其他算法，本文算法的資源利用率最高，為 82% ；在沖突消解率方面，相比其他算法，本文算法的沖突消解率最高，為 66.70% 。由此體現出算法的性能優越，以及在多項目資源協調上的有效性。

結語

本研究針對DRCMPSP提出一種融合MAS與強化學習的雙層優化架構，有效克服了傳統集中式調度在動態分布式場景中的局限性。在局部調度層面，通過強化學習算法對活動執行模式和時序進行優化，在PSPLIB算例中實現了 12%～15% 的平均工期壓縮，顯著提升了單項目執行效率；全局決策層面則借助智能協商機制動態調整資源分配，使大規模算例的資源利用率提升 25%～35% ，沖突發生次數減少60% 以上，實現了跨項目資源的高效協同調度。研究首次將模式切換成本、資源重配置等實際約束條件納人建模體系，通過ε-greedy策略與動態權重調節機制，實現了調度方案可行性與穩定性的平衡。實驗數據表明，該算法在工期優化、資源利用率提升和沖突消解能力等關鍵指標上均優于單親遺傳算法、關鍵路徑法等對比算法，為電子制造、軟件集成等多項目密集型領域提供了具有工程實踐價值的解決方案。

然而，本文當前的研究未考慮資源不確定性及轉移費用。未來將從構建資源不確定下的多項目魯棒性指標與調度集成模型，利用活動多模式提升抗干擾能力，以及納入資源轉移費用，結合延期成本與魯棒性構建多目標優化模型，推動調度向經濟性、穩定性協同優化發展這兩個方面進行進一步的研究。

參考文獻：

[1]ShiYX，Du ZZ，Li JX.Hierarchy Model for Distributed Resource Constrained Multi-project SchedulingProblem[C]// ICIBE'19：Proceedings of the 5th International Conference on Industrial and Business Engineering，2019：123-127.

[2]Hu FY，Guo XJ，Xiao SN.A multi

表5不同算法實驗結果對比

PRamp;PSGSapproach for distributed multiproject schedulingU/OL].（2023-03-16） [2025-06-25].https：//www.researchsquare. com/article/rs-2674403/v1.

[3]Chen HJ，Li XY， Gao L.A surrogateassisted dual-tree genetic programming framework fordynamic resource constrained multi-project schedulingproblem U]. International Journal ofProduction Resear ch，2024，62（16）：5631-5653.

[4]李飛飛，徐哲，劉東寧，等.分布式資源受限多項目調度問題研究綜述[J].工業工程與管理，2023，28（5）：199-210.

[5]張豪華，白思俊.基于MAS的多模式分布式資源約束多項目調度[].運籌與管理，2024，33（1）：9-15.

[6]崔建雙，呂玥，徐子涵.基于Q-學習的超啟發式模型及算法求解多模式資源約束項目調度問題[J].計算機集成制造系統，2022（5）：28.

[7]LiuJM.多智能體原理與技術[M].靳小龍，張世武，譯.北京：清華大學出版社，2003.

[8]SadeghiA，KalanakiA，Noktehdan A，et al.UsingBees Algorithmto Solve the Resource Constrained Project SchedulingProblem in PSPLIB[C]// Theoreticaland Mathematical Foundations ofComputer Science（ICTMF 2011），singapore，2011：486-494.

[9]劉婉君，張靜文，劉萬琳.基于拍賣機制的資源轉移時間型動態分布式多項目調度[J].中國管理科學，2022，30（8）：117-129.

[10]McKinney W.Python fordataanalysis[M.南京：東南大學出版社，2013.

[11]劉曉飛，陳景懷，等.基于單親遺傳算法的配電網絡規劃[J].電網技術，2002，26（3）：5.

作者簡介：張明東，碩士研究生，工程師，zmd@yunqu-info.com，研究方向：人工智能、信息通信、項目管理。