999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于長短期記憶-深度Q值網絡的異構機器人煤矸協同分選方法

2024-09-29 00:00:00張杰夏蕊李博王學李娟莉徐文軍
中國粉體技術 2024年3期

摘要:【目的】提高傳統的單一類別煤矸分選機器人在面對形狀、尺寸差異較大的矸石時的適應性,分析異構機器人工作特性,實現異構機器人協同分選。【方法】基于深度Q值網絡(deep Q network,DQN)提出異構機器人協同分選模型;分析協同工作分選流程制定決策框架,根據強化學習所需,設計交互環境,構建智能體連續的狀態空間獎懲函數,長短期記憶網絡(long short term memory,LTSM)和全連接網絡相結合,構建DQN價值和目標網絡,實現強化學習模型在工作過程中的任務分配。【結果】協同分選模型與傳統順序分配模型相比,在不同含矸率工作負載下,可提高分選效益0.49%~17.74%;在樣本含矸率為21.61%,傳送帶速度為0.4~0.6 m/s的條件下,可提高分選效率2.41%~8.98%。【結論】異構機器人協同分選方法可以在不同的工作負載下獲得穩定的分揀效益,避免單一分配方案無法適應動態變化的矸石流缺陷。

關鍵詞:異構機器人;協同分選;強化學習;長短期記憶網絡;深度Q值網絡

中圖分類號:TP23;TH6;TB4文獻標志碼:A

引用格式:

張杰,夏蕊,李博,等.基于長短期記憶-深度Q值網絡的異構機器人煤矸協同分選方法[J].中國粉體技術,2024,30(3):28-38.

ZHANG J,XIA R,LI B,et al.Heterogeneous robot coal gangue collaborative sorting method based on long short term memory-deep Q network[J].China Powder Science and Technology,2024,30(3):28?38.

煤矸石是指煤炭采礦作業中產生的固體廢棄物,煤矸石分揀是指在煤炭開采、加工和使用過程中,將混雜在煤炭中的巖石、矸石等雜質分離出來的過程,對于提高煤炭質量、減少污染和提升能源利用效率具有重要意義[1-2]。傳統的煤矸石分揀多依賴人工或簡單的機械設備,但這些方法往往效率低下,成本高昂且勞動條件差。機械洗滌法包括重介質分離法、跳汰法和浮選法,但存在設備易損、能耗高、干燥和介質回收增加生產成本等問題[3-6]。重力分離、振動篩分和離心分離等機械振動方法僅適用于少數情況[7]。

近年來,隨著機器人技術和計算機視覺技術的發展,機械手在煤矸石分揀領域的應用逐漸增多。Liu等[8]提出了一種基于機器視覺系統的煤矸石分揀機器人運動模型。Sun等[9]改進了六軸機械手系統,實現了高效的運動規劃。Liu等[10]提高了矸石分揀機器人路徑規劃穩定性。盡管機械手分揀具有高度自動化和精確性的特點,但往復運動會消耗大量時間,從而影響分揀過程的整體效率[11]。針對這一問題,研究人員[12-13]提出了多機械手系統來提高分揀系統的工作性能。隨著煤炭開采量和強度的增加,對煤矸石分選線的皮帶傳送速度和分選效率提出了更高的要求。為了滿足這些要求,有必要采用更多的機械手和更高效的協同工作方案。許多學者針對多機械手協同煤矸分揀提出了一系列優化算法,如Wang等[14]提出了免疫空間協同分選策略,Ma等[15]提出了匈牙利算法優化動作路徑,Wu等[16]利用無限馬爾可夫決策模型提高多機械手任務分配能力。

機械手分揀系統的引入也面臨一些挑戰,如投資成本較高、需要專業人員進行維護、調試復雜性、故障率高和對復雜多變環境的適應性不強等。在這種方法中,機器人通常是同構的,傳統的機械手分揀方式包括剝離式與夾取式,剝離式分揀速度較慢且容易與后續的矸石發生碰撞干涉。夾取式的夾爪通常為固定尺寸,面對形狀尺寸差異較大的矸石適應性較差。目前,以陣列式高壓氣動噴嘴作為分揀執行機構的選矸機器人應用較為成熟,其優點是能夠適配較高的傳送帶帶速,可對小塊煤矸進行快速分離,但在大體積、大質量矸石分揀環境和煤矸密集分布的情況下具有局限性[17-20]。

為了提高傳統的單一類別煤矸分選機器人的環境任務適應性,提出基于氣吹與夾取的異構機器人組合分選模型,并基于強化學習算法制定任務分配方案。這種方法提高了系統的適應性和分揀精度,同時降低了大量使用機器人的相關成本。為了驗證這種方法的可行性和有效性,本文中在不同的傳送帶速度和含矸率下進行分揀實驗。

1協同分選系統

系統組成示意圖如圖1所示。主要包括機器視覺識別和分揀執行2部分。視覺部分由MV-CS050-10UC型面陣相機(海康威視數字技術股份有限公司)和Kinectv2型深度相機(微軟股份有限公司)組成,前者用于捕捉傳送帶上矸石與煤塊的圖像并送入計算機進行分類與定位,后者則是獲取煤矸的點云信息,獲取矸石個體的三維信息,并估算該矸石的質量,為后續的矸石分揀控制提供依據。上位機根據帶式輸送機的速度實時計算坐標信息,基于協同分揀策略,向執行器合理的分配任務,并將實時計算的可行結果發送給控制器,以指導相應的氣吹機構和機械手工作。分揀執行部分包括控制器、空氣壓縮機、電磁閥和氣吹噴嘴、CHI 580型機械手(凌創科技有限公司)和控制箱組成。

2分選流程

在異構機器人協同分揀煤矸的過程中,每一個機器人均視為一個智能體,而機器人分揀目標的選擇過程是一個動態系統的順序決策過程,決策結果受當前機器人的工作特性、工作狀態以及任務狀況共同影響。在常規的異構機器人控制方法中,決策機制往往取決于當前矸石的密集狀態以及大小,不能兼顧矸石流整體,因此容易存在異構機器人利用率不平衡、任務存在沖突、漏檢高權重目標等問題。

將基于動態規劃思想的深度強化學習與煤矸異構分揀機器人相結合,把連續的煤矸分揀過程離散為若干任務片段,對每一個任務片段進行整體規劃,給出可行的執行器協同工作方案。通過合理的多目標分配策略,綜合優化實現分揀損失的最小化,同時實現最高的工作節拍。協同分選流程示意圖如圖2所示。

根據煤矸分選的實際情況,抽象出2種智能體,分別是氣動分離、機械手分揀裝置。在煤矸分選任務中,待分揀目標隨傳送帶勻速運動,機械手位于傳送帶兩邊,每個機械手分揀區域固定且不重疊。氣吹分離裝置位于傳動帶末端,由多組氣吹噴頭組成,實現沿傳送帶寬度方向全覆蓋。智能體可以在整個系統中相互作用、協同工作。動態任務分配問題分為以下4步。

第1步,分揀任務的產生。平臺將工業相機采集的傳送帶實時畫面傳遞至檢測系統,檢測系統提交目標類型、位置、形狀等相關信息。然后,平臺保存任務詳細信息,并將任務添加到任務隊列中。

第2步,根據矸石分布情況選定任務優化區域。當某一區域的待分揀目標數量小于等于該區域分揀容量,且任務損失小于規定的閾值,將該區域視為無需優化區域;反之,該區域為待優化分揀區。

第3步,系統分配任務。系統對于待優化區域,在任務執行時間、任務可執行時間窗口等約束條件下,根據當前任務和執行器狀態,通過算法選擇合理的分配策略

第4步,分揀任務的執行。在這個階段中,執行器按照規定方式執行分配的分揀任務。

3決策模型

3.1決策框架

煤矸分揀系統由機械手與氣吹組成,傳送帶上存在若干待分揀目標,每個目標都需要一個機器人來執行任務。任務可根據目標的相對于執行器的適應性進行分配,假設某一時間段,待分揀矸石數量大于整套系統的分揀容量,進而影響任務完成的質量。考慮到環境不確定性和目標特性的影響,設定的目標是在不增加設備的前提下,實現分揀任務的全局最優。

分揀任務由上層識別系統在線檢測獲得,并依據時間順序按照列表的形式下發至任務分配模塊,矸石分揀任務集用G={g 1,g2,g3,…,gi}表示,gi為第i個矸石分揀任務。為了使系統給出合理可行的任務分配方案并使分揀效益盡可能達到全局最優,分配任務時必須獲得各類型矸石之間的位置信息對后續分揀產生的影響;由于待分揀的目標連續不斷地隨機產生,必須將連續的任務段分割為若干個任務時間周期t,時間總段數為T,該參數可根據傳送帶運行速度v,識別與分揀之間的緩沖區大小決定。原因如下:1)矸石從識別區移動到分揀區的時間是有限的,系統必須在矸石進入分揀區之前完成分配方案的下達;2)頻繁地更新任務列表會導致任務分配方案的持續變化。

執行器集合定義為W={a 1,a2,…,an,r 1},其中an代表第n個氣吹分離設備,r 1代表第1個機械手。每個執行器對都不同的分揀目標具有不同執行能力。由于每個目標在傳送帶上實時移動,每個執行器的分揀區域是固定的,因此每個分揀任務gi∈G具有時間敏感性,必須在一個時間窗口內完成分揀。在分配任務時,需充分考慮執行器分揀目標時的動作時間。

在本文中所提的異構機器人協同分選方法中,使用基于深度Q值網絡(deep Q network,DQN)和長短期記憶網絡(long short term memory,LTSM)的LSTM-DQN決策模型進行矸石任務的分配,決策模型框架的組成如圖3所示。該框架包括狀態空間、動作空間和獎勵機制構成的交互環境,狀態空間根據當前的分揀任務進行初始化,動作空間根據執行器類型定義,交互環境將當前的狀態信息賦予決策網絡,決策網絡向交互環境中的獎勵機制輸出所選擇動作并獲得當前執行器選擇的獎勵反饋,將當前任務列表中所有的矸石進行執行器選擇,并輸出選擇結果視為一次完整的訓練,經過多輪往復訓練,最終輸出最佳的執行器選擇方案。

3.2交互環境

交互環境是強化學習進行動作決策獲得反饋,進而優化當前策略的核心,在強化學習領域,智能體必須通過學習來做出決策,以最大化長期獎勵。

3.2.1狀態與動作空間

強化學習是作為主體的智能體與作為客體的環境相互作用的順序決策的過程。數學上,它通常被歸一化為馬爾可夫決策過程,由當前狀態和采取的行動來描述。一個馬爾可夫決策過程可以被描述為M=(S,A,P,R,γ)。S為環境可能發生的潛在狀態有限集合,每個狀態集由當前代理觀察到的任務集組成,包含決策所需的所有特征信息;A為動作空間;P為狀態轉移概率;R為獎勵;γ為獎勵衰減系數。

其中S可以表示為一個向量,為

S={gx,gw,gl,gp,rs,as},(1)

式中:gx為矸石的形狀;gw為矸石的質量;gl為矸石的位置;gp為任務偏好得分;rs為機械手的當前狀態;as為氣吹系統的當前狀態。

智能體對矸石的任務偏好得分由交叉注意力機制計算得出。該模型的輸入是矸石的形狀和質量特征,其中形狀特征和質量特征被拼接在一起構成輸入向量。模型的核心結構包括一個多頭自注意力層和一個全連接層。多頭自注意力層能夠學習輸入序列內不同元素之間的復雜關系。該層通過計算輸入向量之間的注意力權重,聚焦于對當前任務有關聯性的特征,使模型可以動態地調整對不同特征的關注度,更精準地表示機械手和氣吹的任務偏好。全連接層則負責將自注意力層的輸出映射為任務偏好得分。通過交叉注意力機制學習到機械手和氣吹的任務偏好得分,以提高任務分配的準確性和效率。交叉注意力機制示意圖如圖4所示。

動作空間由執行器決定,在多機器人任務分配過程中,將智能體在時刻為t時是否執行任務gi定義為

同一智能體在相同的時間內只能執行一個分揀任務,且每個任務gi只能被執行一次,因此受到以下約束

a i(gi,t)≤1,?W,t,

a i(gi,t)=1,?W。

單個機械手狀態分為忙碌與非忙碌,根據機械手的動作選擇和后續任務的到達時間進行機械手的狀態更新。為了便于計算,提出3點假設:1)傳送帶的理想平面作為工作平面,保持恒定的運行速度;2)機械手的分揀任務必須在規定的工作區域內完成,超出該區域的任務視為不可行;3)不考慮煤矸石分揀系統的識別模塊、控制系統和執行系統之間的通信時間延遲。

將動態變化的矸石位置轉化為靜態數組,在任務分配的計算過程中避免矸石坐標的持續變化。當系統完成一個任務周期內矸石的信息采集后,根據傳送帶運行速度,分揀區位置,將當前矸石的位置信息轉化為一個列表tw=[[ts,td]1,[ts,td]2,…,[ts,td]i],其中,ts與td分別為矸石進入和離開分揀區的時間,定義為時間窗口。機械手在對第i個矸石進行分揀時,抓取動作的發生時間不應該早于ts、不晚于td,動作時間由機械手的路徑規劃算法計算得出,機械手當前的任務結束時間大于下一個任務的到達時間時則視為忙碌狀態,即rs=1,反之視為非忙碌狀態,rs=0。氣吹分選通過電磁閥開閉控制,分揀時間幾乎可以忽略。

3.2.2獎勵函數設計

智能體從當前狀態st執行動作指令,環境將智能體轉移到下一個狀態st+1,并返回回報值rt。根據執行器當前的忙碌狀態、是否接受以及當前任務個體特性可以準確的反映當前智能體所獲得的獎懲情況,由公式(4)計算而得

式中,pi為當前智能體分揀目標矸石的分揀可靠性系數,只有當智能體非忙碌狀態且接受目標矸石時才可獲得獎勵,若處于忙碌狀態則進行懲罰。

3.3 LSTM-DQN網絡模型

深度學習中采用DQN算法是計算最優策略的經典算法。核心是通過深度學習迭代得到狀態-動作值函數Qπ(s,a)。該函數描述了狀態s下每個動作a的Q值,最優策略是狀態si下所得到的最大Qπ(s,a)值的動作組合。Qπ(s,a)的迭代學習如公式5所示[21]。

Qk(π)+1(st,at)=Qk(π)(st,at)+α[rt+γmaxQk(π)(st+1,at+1)-Qk(π)(st,at)],(5)

式中:k為迭代次數;st為第t時刻的狀態;at為第t時刻的動作;rt為在狀態st下執行動作的即時獎勵,獎勵獎勵衰減系數γ∈(0,1)。

模型通過價值網絡進行上述Q值的計算。對于模型的核心網絡,設計的層數不足,則網絡無法完成對復雜環境的全局收斂;設計的層數過多,則可能會產生過擬合,且十分耗費計算資源。經過多次實驗測試,最終設定本文模型價值網絡結構圖如圖5所示。由于該環境中的決策為順序決策且具有連貫性,因此引入LTSM來處理具有時序性和長期依賴關系的狀態序列。LTSM是一種循環神經網絡并具有記憶單元,設計目的是處理序列數據并保留與時間相關的信息,從而更好地捕捉長期依賴關系。狀態信息首先輸入LTSM計算后,再通過全連接層,經輸出層輸出Q值,全連接層與輸出層以Relu函數作為激活函數。

模型的訓練過程涉及價值網絡和目標網絡。價值網絡通過深度神經網絡估計狀態動作對的價值,而目標網絡在訓練中定期從價值網絡復制參數。在經驗回放中,智能體從記憶庫中隨機抽樣經驗,并通過比較當前狀態的預測Q值Qk(π)(st,at)與由目標網絡計算的目標Q值maxQk(π)(st+1,at+1)的均方誤差來更新價值網絡,損失函數如公式6所示[21]。這一過程使得模型能夠學習到有效的策略以最大化累積獎勵,整個網絡訓練過程示意圖如圖6所示。

4試驗與討論

4.1試驗參數設置

模型學習率設置為10-4,采用批量梯度下降的方式進行學習,設定訓練批次的大小為32,價值網絡每100步與目標網絡同步參數。

為了處理探索與利用的矛盾問題,采用動態探索率ε的機制處理訓練過程,設定初始ε=1,而后按照每學習一次5-4的步進逐漸減小ε,并設置下限0.1,即ε=max(ε-5-4 n,0.1),式中n為學習的步數。

設定記憶庫的規模為5 000,記憶庫中存儲數據到達100條時開始進行模型的學習。設定獎勵衰減率γ=0.85。軟件環境為Windows 11,內存32 GB,顯卡為GTX3060,顯存6 GB,采用Pytorch的深度學習框架。

4.2模型驗證

選擇實驗室煤矸分選平臺作為試驗環境,該平臺擁有三通道氣吹分選設備,氣吹壓力為0.8 MPa,空氣體積流量為0.97 m3/min。擁有一個四軸機械手,可進行三通道定點揀取。傳送帶寬度為0.8 m,帶速可在0.3~0.8 m/s調節,根據上述參數構建模型交互環境。

由于傳送帶寬度限制,在煤與矸石顆粒不發生堆疊的情況下約放置煤料質量為10.42 kg,設置含矸率為4.73%~30.45%,質量為70~1 800 g的煤矸試驗樣本6組,樣本示例如圖7所示。

模型的評價指標為所輸出的方案可以獲得的分揀收益與期望收益的比值,分揀收益的計算方式為當使用機械手分揀時為當前煤矸石的質量,若使用氣吹分揀時為當前煤矸石的質量與氣吹可靠性系數的乘積。期望收益為當煤矸石的氣吹分揀可靠性小于80%時,使用機械手分揀;當該煤矸石的氣吹分揀可靠性大于80%時,采用氣吹分揀,并計算分揀收益。

為了證明本文中模型控制算法可以獲得全局最高分揀效益,首先采用傳統的順序分配模型進行分揀試驗,即根據煤矸石流的具體情況,設置一個質量閾值,當煤矸石質量大于額定閾值時使用機械手分揀,其余情況使用氣吹分揀。隨后采用本文中模型分配算法進行分選試驗。將煤矸石的位置、質量和形態信息提前記錄并生成任務列表,保證進行對比試驗時的數據一致性。

將不同含矸率的樣本送入本文中模型進行任務分配,固定皮帶機帶速為0.6 m/s,分析在不同負載下的分揀收益與期望收益的比值。不同含矸率下的模型收斂曲線如圖8所示。由圖可知,在訓練初期,模型積極探索不同分配方案并產生獎勵值的波動,經過一定次數的訓練之后價值網絡參數不斷更新優化,模型均可以在500輪訓練之前收斂并輸出獎勵最佳的分揀方案。

根據輸出的分配方案計算分揀效益并與期望值進行比較,不同分配模型在不同含矸率時分揀效益與期望值的比值如表1所示。由表可知,在含矸率為4.73%工況下,矸石數量較少,分揀壓力較低,2種模型的性能差異僅有0.49%。當含矸率逐漸增加,相同時間內機械手分揀區存在的矸石數量增多,部分煤矸石會在機械手執行分揀動作的過程中超出機械手分揀區域,導致漏檢的煤矸石增多,分揀率逐漸下降,且含矸率越高,漏檢數量越大。由于順序分配模型無法在諸多矸石中選擇高價值的目標,因此它的分揀性能出現5.57%~17.74%的下降,而本文模型所獲得的最佳組合方案則可以避免的這一問題,本文中模型會遍歷所有即將進行分揀區的矸石,在滿足機械手分揀動作的時間要求下,求解出最佳的分揀目標的組合方案,使得分揀效益的下降在8.44%以內。

不同分配模型在不同帶速時所得分揀效益與期望值的比值如表2所示。由表可知,試驗使用矸石含量為21.61%的煤矸石樣品,設置皮帶速度為0.45~0.6 m/s。在同一組實驗樣品的不同皮帶速度下,本文中模型的分揀收益大于順序分配模型2.41%~8.98%。隨著帶速的增加,煤矸石在機械手分揀區的通過時間由2.2 s縮短至1.3 s,部分煤矸石會在機械手執行分揀動作的過程中進入并超出機械手分揀區域,導致漏檢的煤矸石增多,分揀率逐漸下降,且帶速越高,漏檢數量越大。

部分煤矸石樣本的分配結果如表3所示。由表可知,表中0表示氣吹分揀,1表示機械手分揀,×表示漏檢,本文中模型可以動態調整煤矸石的分揀方式,避免漏檢,且在皮帶速度較快時優先將氣吹可靠性低的煤矸石分配向機械手,而順序分配模型在固定閾值的情況下,無法考慮各設備的工作狀態,存在漏檢現象,因此,在不同的帶速下,本文模型會通過對機械手和氣吹分揀目標的進行調整尋優,得出在不同帶速下分揀效益最高的分揀方案,從而適應帶速的改變。

5結論

1)提出了一種異構機器人協同分選方法并加入強化學習算法優化的任務分配策略,以實現高效、低成本的分選。

2)煤矸石的協同分選方法在不同皮帶速度和矸石含量條件下,與傳統分配方法相比,可以使系統在不同負載下的整體分揀效益穩定在90%以上,且受帶速的影響較小。

3)協同分選方式有望向氣動分選方式和多機械手協同作業方式發展,加強系統在多機械手協作,氣吹與機械手協作方面的優化,根據礦區實際需求進行合理和定制化擴展,以低成本的方式滿足特定分選需求。

利益沖突聲明(Conflict of Interests)

所有作者聲明不存在利益沖突。

All authors disclose no relevant conflict of interests.

作者貢獻(Author’s Contributions)

張杰、李博、夏蕊、王學文、李娟莉與徐文軍進行了方案設計,張杰和李博參與了論文的寫作和修改。所有作者均閱讀并同意了最終稿件的提交。

The study was designed by ZHANG Jie,LI Bo,XIA Rui,WANG Xuewen,LI Juanli and XU Wenjun.The manuscript was written and revised by ZHANG Jie and LI Bo.All authors have read the last version of paper.

參考文獻(References)

[1]FAN G W,ZHANG D S,WANG X F.Reduction and utilization of coal mine waste rock in China:a case study in Tiefa coalfield[J].Resources Conservation and Recycling,2014,83:24-33.

[2]YANG Y,ZENG Q,YIN G,et al.Vibration test of single coal gangue particle directly impacting the metal plate and the study of coal gangue recognition based on vibration signal and stacking integration[J].IEEE Access,2019(7):106783-106804.

[3]劉學雷.我國選煤技術發展現狀及趨勢分析[J].選煤技術,2018(6):12-15.

LIU X L.Analysis of the current situation and trend of the development of coal beneficiation technology in China[J].Coal Selection Technology,2018(6):12-15.

[4]MEYER E J,CRAIG I K.Dynamic model for a dense medium drum separator in coal beneficiation[J].Minerals Engineer-ing,2015,77:78-85.

[5]AMBROS W M.Jigging:a review of fundamentals and future directions[J].Minerals,2020,10(11):998-1029.

[6]ZHOU Y,ALBIJANIC B,TADESSE B,et al.Surface properties of aged coal and their effects on bubble particle attachment during flotation[J].Advanced Powder Technology,2020,31(4):1490-1499.

[7]YANG Y,ZENG Q.Multipoint acceleration information acquisition of the impact experiments between coal gangue and the metal plate and coal gangue recognition based on SVM and serial splicing data[J].Arabian Journal for Science and Engine-ering,2021,46(3):2749-2768.

[8]LIU P,MA H W,ZHANG X H,et al.On the equivalent position workspace for a coal gangue picking robot[C]//2019 3rd International Conference on Artificial Intelligence,Auto-mation and Control Technologies.Xi'an:IOP science,2019:012078.

[9]SUN Z Y,HUANG L L,JIA R Q.Coal and gangue separating robot system based on computer vision[J].Sensors,2021,21(4):1349-1353.

[10]LIU P,TIAN H B,CAO X G,et al.Pick-and-place trajectory planning and robust adaptive fuzzy tracking control for cable based gangue sorting robots with model uncertainties and external disturbances[J].Machsines,2022,10(8):10080714.

[11]PENG L,XIN Z Q,XU H Z.Stability sensitivity for a cable-based coal-gangue picking robot based on grey relational analysis[J].International Journal of Advanced Robotic Systems,2021,18(6):1059729.

[12]曹現剛,費佳浩,王鵬,等.基于多機械手協同的煤矸分揀方法研究[J].煤炭科學技術,2019,47(4):7-12.

CAO X G,FEI J H,WANG P,et al.Research on coal gangue sorting method based on multi-mechanical arm collabora-tion[J].Coal Science and Technology,2019,47(4):7-12.

[13]SHANG D,WANG Y,YANG Z,et al.Study on comprehensive calibration and image sieving for coal gangue separation parallel robot[J].Applied Sciences-Basel,2020,10(20):10207059.

[14]WANG P,MA H,ZHANG Y,et al.A cooperative strategy of multi-arm coal gangue sorting robot based on immune dynamic workspace[J].International Journal of Coal Preparation and Utilization,2023,43(5):794-814.

[15]MA H,WEI X,WANG P,et al.Multi-arm global cooperative coal gangue sorting method based on improved Hungarian algorithm[J].Sensors,2022,22(20):22207987.

[16]WU X D,CAO X A,WANG P,et al.Multi-task allocation framework of coal gangue sorting robot system for the time-varying raw coal flow[J].International Journal of Coal Preparation and Utilization,2023:2217657

[17]張袁浩,潘祥生,陳曉晶,等.智能選矸機器人關鍵技術研究[J].工礦自動化,2022,48(6):69-76.

ZHANG Y H,PAN X S,CHEN X J,et al.Research on key technology of intelligent gangue selecting robot[J].Indus-trial and Mining Automation,2022,48(6):69-76.

[18]ZHENG K,DU C,LI J,et al.Underground pneumatic separation of coal and gangue with large size(≥50 mm)in green mining based on the machine vision system[J].Powder Technology,2015,278:223-233.

[19]ZHENG K,DU C,LI J,et al.Coal and gangue underground pneumatic separation effect evaluation influenced by different airflow directions[J].Advances in Materials Science and Engineering,2016:6465983.

[20]WANG Z X,XIE S X,CHEN G D,et al.An online flexible sorting model for coal and gangue based on multi-information fusion[J].IEEE Access,2021,9:90816-90827.

[21]VOLODYMYR,MNIH,KORAY,et al.Human-level control through deep reinforcement learning.[J].Nature,2015,518:529-533.

Heterogeneous robot coal gangue collaborative sorting method based on long short term memory-deep Q network

ZHANG Jie1,XIA Rui1,LI Bo1,WANG Xuewen1,LI Juanli1,XU Wenjun1,2

1.Faculty of Mechanical and Vehicle Engineering,Taiyuan University of Technology,Taiyuan 030000,China;2.Shanxi Liangjie Digital Technology Corporation,Taiyuan 030000,China

Abstract

Objective Gangue is the waste and impurity produced during the process of coal mining and handling.Its proper separation can reduce environmental pollution,improve energy efficiency,and provide economic benefits.Intelligent coal gangue sorting com?monly involves robotic sorting and air-blowing separation.However,robotic sorting is offten costly and complex,with a high failure rate,while air-blowing separation is not adaptable to gangue with significant differences in quality.Byanalysing the working characteristics of the two different separation methods and designing a synergistic sorting system,the adaptability and cost-effectiveness of the gangue sorting system can be improved.

Methods This paper proposed a collaborative sorting model using heterogeneous robots.The model combined deep reinforce?ment learning with heterogeneous sorting robots.The continuous sorting process of coal gangue was divided into a number of task segments.Overall planning was carried out for each task segment to develop a feasible cooperative work scheme for actuators.The third task set for gangue sorting and actuator collection was presented.To meet the continuity requirements for gangue sort?ing,we proposed splitting the continuous task into several subsets.Tasks were allocated using a buffer between identification and sorting.Furthermore,this paper proposed a reinforcement learning decision-making framework based on LSTM-DQN(long short term memory,LTSM;deep Q network,DQN)to design an interaction environment for reinforcement learning during the coal gangue sorting process.The framework includes state space,action space,and reward function.Additionally,a cross-attention mechanism was used to compute the actuator preferences for tasks,which accelerated the model convergence speed.Also,this paper constructed a core network of the model and introduced LSTM to handle state sequences for temporal and long-term dependencies.The DQN structure was then optimized.Samples with different gangue rates were set up,and the proposed method was compared with the sequential allocation model across different gangue rates and band speeds to demonstrate its superiority.

Results and Discussion Based on the proposed LTSM-DQN model,a method for sorting coal gangue using heterogeneous robots was developed.Six groups of samples with varying gangue rates were prepared to simulate different workloads.The experiment showed that the LTSM-DQN model was effective for task assignment in heterogeneous robot cooperation.Fig.7 showed that vari?ous loads could converge within 500 rounds of training.Samples with gangue rates ranging from 4.73%to 30.45%were sorted using the LTSM-DQN-based sorting model,which could limit the reduction in sorting efficiency to within 8%.When compared to the traditional sequential assignment,the sorting model based on LTSM-DQN could improve sorting efficiency by 2.41%to 8.98%at a gangue rate of 21.61%and an adjusted belt speed of 0.4~0.6 m/s,as shown in Tab 2.This improvement was sig?nificant and demonstrated the effectiveness of the LTSM-DQN model.

Conclusion A collaborative method for heterogeneous robots and an optimized task allocation strategy using a reinforcement learning algorithm were proposed to achieve efficient and cost-effective sorting.The experiment demonstrated that this collabora?tive sorting method for coal gangue sorting can maintain the overall sorting efficiency of the system above 90%under different loads and is less affected by belt speed compared to the traditional allocation method under different belt speeds and gangue con?tentconditions.The cooperative sorting method is expected to evolve into pneumatic sorting method and multi-mechanic coop?erative operation method.The system will be optimized in terms of multi-mechanic cooperation,air blowing,and robot coopera?tion.Reasonable and customized expansion will be carried out based the actual needs of the mining area to satisfy specific sort?ing needs in a cost-effective manner.

Keywords:heterogeneous robots;cooperative sorting;reinforcement Learning;long short term memory;deep Q network

(責任編輯:武秀娟)

主站蜘蛛池模板: 国产小视频a在线观看| 青青青草国产| 久久9966精品国产免费| 成人免费午夜视频| 天堂网国产| 国产成人高清精品免费5388| 激情在线网| 国产成人一区在线播放| 婷婷五月在线视频| swag国产精品| 国产在线自乱拍播放| 亚洲人妖在线| 女人18一级毛片免费观看| 欧美成人aⅴ| 99热最新在线| 女人18毛片一级毛片在线 | 一本大道香蕉久中文在线播放| 伊人久久影视| 国产色爱av资源综合区| 国产91九色在线播放| 国产特一级毛片| 五月婷婷欧美| 亚洲人免费视频| 国产精品制服| 热99re99首页精品亚洲五月天| 亚洲免费三区| 色噜噜狠狠色综合网图区| 成人欧美日韩| 亚洲V日韩V无码一区二区| 伊人久久大香线蕉成人综合网| 国产中文一区a级毛片视频| 精品午夜国产福利观看| 2020精品极品国产色在线观看| 中文字幕亚洲综久久2021| 色婷婷在线影院| 国产成人在线无码免费视频| 欧美国产日韩一区二区三区精品影视| 日本草草视频在线观看| 亚洲欧美日韩中文字幕一区二区三区| 久久这里只有精品66| 亚洲成年人网| 亚洲国产在一区二区三区| 青青青视频免费一区二区| 亚洲看片网| 青青青视频免费一区二区| 久久精品无码国产一区二区三区 | 国产91透明丝袜美腿在线| 最近最新中文字幕免费的一页| 精品久久人人爽人人玩人人妻| 99er这里只有精品| 欧洲一区二区三区无码| 欧美日韩国产一级| 亚洲日本韩在线观看| 国产精品亚洲一区二区三区z| 狠狠色丁婷婷综合久久| 亚洲天堂精品在线观看| v天堂中文在线| 亚洲娇小与黑人巨大交| 亚洲久悠悠色悠在线播放| 欧美一级黄片一区2区| 日韩在线欧美在线| 国产综合精品一区二区| 欧美日韩激情在线| 亚洲国产精品VA在线看黑人| 国产精品播放| 中文字幕亚洲电影| 999精品色在线观看| 国产免费福利网站| 国产精品无码翘臀在线看纯欲| 国产极品美女在线| 日韩免费毛片视频| 日韩a在线观看免费观看| www.亚洲天堂| 伊伊人成亚洲综合人网7777| 成人在线观看一区| 久久男人资源站| 中文国产成人精品久久| 国产欧美日韩免费| 久久精品国产精品一区二区| 日本高清免费一本在线观看| 一级毛片在线免费视频| 色哟哟精品无码网站在线播放视频|