基于深度強化學(xué)習(xí)的有源中點鉗位逆變器效率優(yōu)化設(shè)計

2023-10-17 01:15:20王佳寧楊仁海姚張浩謝綠偉

電子與信息學(xué)報 2023年9期

王佳寧楊仁海姚張浩彭強謝綠偉

(合肥工業(yè)大學(xué)電氣與自動化工程學(xué)院合肥 230009)

1 引言

如何更快速、更好地設(shè)計電力電子變換器參數(shù)以提升變換器的整體性能一直是電力電子領(lǐng)域追求的目標(biāo)。傳統(tǒng)的電力電子變換器設(shè)計主要采用順序設(shè)計的階段優(yōu)化方法，但此類設(shè)計方法通常依賴于人工經(jīng)驗。文獻[1]介紹了雙有源橋變換器效率-功率密度-成本的順序優(yōu)化設(shè)計方法，設(shè)計人員需要憑經(jīng)驗預(yù)估相關(guān)數(shù)據(jù)，或采用過設(shè)計，這將無法從理論上保證裝置的整體性能達到最優(yōu)。文獻[2]提出了一種寬負(fù)載范圍下功率變換器效率的階段優(yōu)化方法，但該方法需要進行繁瑣的數(shù)學(xué)公式推導(dǎo)過程和大量的人工試錯優(yōu)化過程，計算負(fù)擔(dān)重且耗時長。

近年來，電力電子自動化設(shè)計可通過遺傳算法、粒子群算法、蟻群算法等元啟發(fā)式算法實現(xiàn)電力電子系統(tǒng)的優(yōu)化設(shè)計而受到了研究人員的廣泛關(guān)注[3–5]，此類算法在一定范圍內(nèi)對設(shè)計變量進行智能搜索，并計算優(yōu)化目標(biāo)值，最后得到非支配最優(yōu)設(shè)計目標(biāo)集供設(shè)計者選擇[6–8]，降低了尋優(yōu)計算量。文獻[9]將人工神經(jīng)網(wǎng)絡(luò)和遺傳算法相結(jié)合對功率變換器的電路參數(shù)進行設(shè)計，避免了復(fù)雜繁瑣的建模過程，提高了設(shè)計速度。但如果變換器的設(shè)計需求發(fā)生改變，如功率等級、電壓等級等，該算法需要重新進行整個優(yōu)化過程，耗時且不方便，這將會對實際的工業(yè)運用造成障礙。

為了克服元啟發(fā)式算法因設(shè)計需求改變帶來的尋優(yōu)耗時問題，強化學(xué)習(xí)(Reinforcement Learning, RL)因其能夠快速響應(yīng)環(huán)境狀態(tài)變化提供最優(yōu)決策得到了廣泛的應(yīng)用[10,11]，但RL只能學(xué)習(xí)低維、離散的設(shè)計變量數(shù)據(jù)[11]。在深度學(xué)習(xí)的影響下，深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法采用了基于人工神經(jīng)網(wǎng)絡(luò)的策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)，可以面向高維、連續(xù)的設(shè)計變量空間解決實際工業(yè)應(yīng)用中的各類優(yōu)化決策問題[12]。文獻[13]利用柔性行動器-評判器方法實現(xiàn)了電-氣綜合能源系統(tǒng)的優(yōu)化調(diào)度，文獻[14]和文獻[15]采用DDPG算法求解雙有源橋變換器三重移相控制策略的最優(yōu)移相控制角，實現(xiàn)了無功功率和效率的優(yōu)化。但上述研究主要是利用DRL求解能源與電力系統(tǒng)的最優(yōu)調(diào)度策略和從軟件層面優(yōu)化電力電子變換器的控制參數(shù)，無法從硬件層面為變換器的系統(tǒng)設(shè)計提供思路，同時目前關(guān)于機器學(xué)習(xí)的電力電子變換器自動化設(shè)計鮮有研究。

本文以三相三電平有源中點鉗位(Active Neutral Point Clamped, ANPC)逆變器為研究對象，提出了一種基于DRL的逆變器效率優(yōu)化設(shè)計方法。面向不同的設(shè)計需求，該方法均可以快速提供最大化效率的設(shè)計參數(shù)，從系統(tǒng)硬件的角度為變換器的優(yōu)化設(shè)計提供了新的思路。本文首先介紹了基于DRL的逆變器效率優(yōu)化設(shè)計框架，然后對逆變器的效率進行建模，并基于效率模型建立逆變器的環(huán)境模型，接著利用DDPG算法的智能體與環(huán)境模型不斷進行交互和自學(xué)習(xí)以求解最小化損耗的決策策略，最后對DRL的優(yōu)化結(jié)果進行性能評估，并搭建了ANPC逆變器的實驗樣機，實驗結(jié)果驗證了所提方法的有效性。

2 基于DRL的逆變器效率優(yōu)化設(shè)計

為了實現(xiàn)逆變器的效率優(yōu)化設(shè)計，本文提出一種基于DRL的自學(xué)習(xí)優(yōu)化設(shè)計方法，利用DRL的DDPG算法建立靈活的優(yōu)化機制，該方法能夠快速響應(yīng)設(shè)計需求變化，提供最小化功率損耗的決策策略，其優(yōu)化設(shè)計框架如圖1所示。

圖1 基于DRL的逆變器效率優(yōu)化設(shè)計框架

首先，根據(jù)設(shè)計需求建立DDPG算法所要探索的逆變器環(huán)境模型，該環(huán)境模型主要包括效率建模，狀態(tài)Sen，動作Aen和獎勵Ren的設(shè)定。其中，狀態(tài)Sen代表逆變器的設(shè)計規(guī)格，如輸入電壓、功率等級等，動作Aen代表影響逆變器效率的設(shè)計變量，如開關(guān)頻率、器件參數(shù)等，獎勵Ren用于對施加在逆變器上的動作進行打分，其主要與系統(tǒng)損耗有關(guān)，然后利用DDPG算法的智能體與逆變器環(huán)境模型進行交互學(xué)習(xí)，不斷優(yōu)化動作，從而獲取最大化效率的優(yōu)化策略。

在智能體與環(huán)境的交互過程中，效率優(yōu)化設(shè)計問題可表述為RL的馬爾可夫決策過程[16]，即智能體在某一時刻的狀態(tài)(即設(shè)計規(guī)格)下采取動作(即設(shè)計變量)得到逆變器環(huán)境模型反饋的獎勵，并進入下一狀態(tài)。智能體根據(jù)獎勵改進下一時刻所要采取的動作，利用RL的優(yōu)化策略訓(xùn)練策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)，直到獲取的累計獎勵達到最大并收斂，從而可以根據(jù)策略網(wǎng)絡(luò)得到任意設(shè)計規(guī)格下的最優(yōu)設(shè)計變量實現(xiàn)效率最大化。

3 三相三電平ANPC逆變器效率建模

3.1 系統(tǒng)介紹

根據(jù)第2節(jié)的逆變器效率優(yōu)化設(shè)計框架，本節(jié)將對三相三電平ANPC逆變器的效率進行建模，其拓?fù)浣Y(jié)構(gòu)如圖2所示。其中，UDC為直流側(cè)輸入電壓，CDC為直流側(cè)支撐電容。以A相為例，Ta2和Ta3是高頻工作的SiC開關(guān)管，Ta1, Ta4, Ta5, Ta6是工頻工作的Si開關(guān)管，Da1～Da6是開關(guān)管的反并聯(lián)二極管，本文采用載波同相SPWM調(diào)制策略。LCL濾波器由濾波電感L1、濾波電感L2和濾波電容CAC組成，三相負(fù)載為電阻RL，ia, ib, ic分別是逆變器A相、B相、C相的輸出電流，且設(shè)其有效值為I，系統(tǒng)規(guī)格如表1所示。

表1 三相三電平ANPC逆變器的系統(tǒng)規(guī)格

圖2 三相三電平ANPC逆變器的拓?fù)浣Y(jié)構(gòu)

由于直流側(cè)支撐電容和濾波電容產(chǎn)生的損耗在系統(tǒng)總損耗中所占的比例較小，故本文忽略兩者對系統(tǒng)總損耗的影響，將其作為固定參數(shù)，同時將開關(guān)管的開關(guān)頻率fsw、濾波電感L1和濾波電感L2作為系統(tǒng)的設(shè)計參數(shù)，其中L1和L2為非獨立的設(shè)計變量，濾波電感的設(shè)計與UDC, I, fsw和電流紋波系數(shù)有關(guān)[17]。

3.2 損耗分析

系統(tǒng)損耗由開關(guān)管損耗PT、電感損耗PL和其他損耗Pother組成。其中，其他損耗主要包括與溫度相關(guān)的SiC開關(guān)管通態(tài)損耗、直流側(cè)支撐電容損耗和濾波電容損耗，且由于其只占整體損耗很小的一部分，因此本文忽略其他損耗的影響，其他功率損耗分析如下所述。

3.2.1 開關(guān)管損耗

開關(guān)管損耗主要包括通態(tài)損耗Pcond、開關(guān)損耗Psw和驅(qū)動損耗Pg[18]，具體的計算公式為

其中，Rdson為開關(guān)管的通態(tài)電阻，Eon_nom和Eoff_nom分別為標(biāo)準(zhǔn)測試條件下系統(tǒng)中SiC開關(guān)管的開通損耗和關(guān)斷損耗，Qg為柵極電容電荷，Vgs為柵極驅(qū)動電壓。系統(tǒng)含有18個開關(guān)管，因此開關(guān)管損耗為

3.2.2 電感損耗

電感損耗由繞組銅損Pcop[19]和磁芯鐵損Pcore[20]組成。其中，由集膚效應(yīng)產(chǎn)生的交流繞組銅損忽略不計，磁芯鐵損包括工頻電流和開關(guān)頻率次諧波電流產(chǎn)生的鐵損，可根據(jù)斯坦梅茨公式計算得到，計算公式為

其中，Rcop為繞組的直流電阻，k, α, β為磁芯數(shù)據(jù)手冊中的斯坦梅茨參數(shù)，Bm為磁通密度最大值，VL為單個濾波電感的體積。系統(tǒng)含有6個濾波電感，因此電感損耗為

所以，整個三相三電平ANPC逆變器系統(tǒng)的總損耗Ptot為

Ptot=PT+PL(5)

綜上所述，系統(tǒng)效率η可通過系統(tǒng)總損耗Ptot和輸出功率Po計算得到，即

4 基于DDPG算法的三相三電平ANPC逆變器效率優(yōu)化設(shè)計

4.1 環(huán)境模型的關(guān)鍵變量

由于逆變器輸入電壓、輸出電流和開關(guān)頻率對損耗有較大影響，且直流側(cè)輸入電壓和輸出電流有效值能夠反映逆變器的設(shè)計規(guī)格，所以環(huán)境模型的狀態(tài)和動作分別定義為

為了給智能體交互過程中采取的動作進行打分，需要根據(jù)采取動作后的逆變器損耗對智能體施加相應(yīng)的獎勵，而最大化獎勵可以轉(zhuǎn)化為最小化損耗，因此獎勵Ren為

其中，?為獎勵系數(shù)且? > 0，它衡量對所采取動作的獎勵尺度。當(dāng)系統(tǒng)功率損耗逐漸降低時，獎勵將會逐漸增加，因此在DDPG算法中，智能體通過最大化獎勵實現(xiàn)效率的最大化。

4.2 DDPG算法

本文采用DDPG算法求解最小化損耗的開關(guān)頻率，利用智能體與環(huán)境交互學(xué)習(xí)獲取的經(jīng)驗數(shù)據(jù)訓(xùn)練智能體，使其能夠在任意狀態(tài)下快速提供最優(yōu)動作實現(xiàn)效率最大化，整體的優(yōu)化設(shè)計框架如圖3所示。DDPG算法包括Actor策略網(wǎng)絡(luò)和Critic評價網(wǎng)絡(luò)兩部分，為了提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)穩(wěn)定性，每部分均包含在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)，因此整個DDPG算法共涉及4個神經(jīng)網(wǎng)絡(luò)：在線策略網(wǎng)絡(luò)μ、目標(biāo)策略網(wǎng)絡(luò)μ′、在線評價網(wǎng)絡(luò)Q和目標(biāo)評價網(wǎng)絡(luò)Q′[12]。首先，在t時刻的狀態(tài)st= (UDC, I)t下，通過策略網(wǎng)絡(luò)得到動作at= (fsw)t，將其輸入至逆變器環(huán)境模型中，得到此時的獎勵rt= (–φ·Ptot)t和下一狀態(tài)st+1，然后將狀態(tài)轉(zhuǎn)換序列(st, at, rt, st+1)存入經(jīng)驗回放池，最后根據(jù)小批量采樣策略隨機抽取N組數(shù)據(jù)訓(xùn)練策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)。其中，動作at由式(10)計算得到

圖3 基于DDPG算法的ANPC逆變器效率優(yōu)化設(shè)計框架

其中，μ(st)為在線策略網(wǎng)絡(luò)μ輸出的動作，δt為標(biāo)準(zhǔn)正態(tài)分布噪聲，可以避免優(yōu)化過程陷入局部最優(yōu)。

在線評價網(wǎng)絡(luò)Q和在線策略網(wǎng)絡(luò)μ分別通過誤差反向傳播算法和確定性策略梯度定理進行參數(shù)更新，目標(biāo)策略網(wǎng)絡(luò)μ′和目標(biāo)評價網(wǎng)絡(luò)Q′通過滑動平均方法進行參數(shù)更新[12]，如式(11)、式(12)和式(13)所示

其中，yi為由目標(biāo)策略網(wǎng)絡(luò)μ′和目標(biāo)評價網(wǎng)絡(luò)Q′產(chǎn)生的目標(biāo)評分值，L為損失函數(shù)，基于誤差反向傳播算法可以得到L相對于θQ的梯度?θQL，從而對參數(shù)θQ進行優(yōu)化更新。Q(s, a|θQ)為動作值函數(shù)，μ(s|θμ) 為在線策略網(wǎng)絡(luò)μ輸出的策略。和分別為更新后的目標(biāo)策略網(wǎng)絡(luò)μ′參數(shù)和目標(biāo)評價網(wǎng)絡(luò)Q′參數(shù)，τ為滑動平均更新參數(shù)，且通常取值為0.001。通過不斷采樣經(jīng)驗回放池的狀態(tài)轉(zhuǎn)換序列數(shù)據(jù)，利用誤差反向傳播算法和確定性策略梯度定理按照最大化獎勵的目標(biāo)迭代訓(xùn)練策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)，最終得到優(yōu)化的策略網(wǎng)絡(luò)，輸入任意狀態(tài)便能立即輸出動作使得智能體獲得最大獎勵，從而實現(xiàn)效率優(yōu)化設(shè)計。

4.3 DDPG算法的訓(xùn)練結(jié)果

在正式訓(xùn)練之前，需要對DDPG算法的關(guān)鍵參數(shù)進行設(shè)置，如表2所示。另外，策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)均包含1個隱藏層，隱藏層神經(jīng)元個數(shù)分別為6和3，最大訓(xùn)練回合數(shù)M為5 000，每個訓(xùn)練回合包含的步數(shù)T為20，詳細的算法訓(xùn)練流程可參考文獻[12]。

表2 DDPG算法的關(guān)鍵參數(shù)

通過大量的迭代訓(xùn)練，圖4(a)和圖4(b)分別為DDPG算法訓(xùn)練過程中平均累計獎勵和平均動作的變化情況，兩者均為每個訓(xùn)練回合內(nèi)20步的平均值。從圖4可以看出，在訓(xùn)練過程的前期階段，平均累計獎勵和平均動作均比較小，這是因為智能體在前期探索階段隨機執(zhí)行動作，與環(huán)境進行交互并收集經(jīng)驗數(shù)據(jù)，策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò)的參數(shù)暫未更新。當(dāng)經(jīng)驗回放池里的數(shù)據(jù)達到最大容量后，網(wǎng)絡(luò)參數(shù)開始更新，智能體逐漸學(xué)習(xí)到最小化損耗的優(yōu)化策略，平均累計獎勵和平均動作逐漸增加并收斂。訓(xùn)練過程結(jié)束后，便得到優(yōu)化的策略網(wǎng)絡(luò)，在狀態(tài)空間內(nèi)向策略網(wǎng)絡(luò)輸入任意狀態(tài)，便能得到最優(yōu)的動作。

圖4 DDPG算法訓(xùn)練過程中平均累計獎勵和平均動作的變化情況

5 優(yōu)化效果評估

根據(jù)DDPG算法訓(xùn)練完成的策略網(wǎng)絡(luò)能夠得到逆變器不同狀態(tài)下的開關(guān)頻率優(yōu)化結(jié)果。同時通過遍歷法能夠確定唯一的開關(guān)頻率使得系統(tǒng)總損耗最小，因此遍歷法的優(yōu)化結(jié)果可以被視為最優(yōu)值。選取逆變器的5個狀態(tài)，將DRL的開關(guān)頻率優(yōu)化結(jié)果與遍歷法、遺傳算法和RL進行對比，如表3所示，其中，遍歷法所選取的開關(guān)頻率步長為Δfsw=100 Hz，遺傳算法采用了NSGA-II算法，RL采用的算法是Q-learning算法[16]。根據(jù)表3的優(yōu)化結(jié)果計算得到5種狀態(tài)下的開關(guān)管損耗、電感損耗、總損耗和效率，如圖5所示。

表3 不同狀態(tài)下的開關(guān)頻率優(yōu)化結(jié)果對比

圖5 不同優(yōu)化方法之間的功率損耗和效率優(yōu)化結(jié)果對比

由圖5(a)和圖5(b)可以發(fā)現(xiàn)：5個狀態(tài)下DRL和遍歷法優(yōu)化后的開關(guān)管損耗均小于遺傳算法和RL，且遺傳算法優(yōu)化后的開關(guān)管損耗最大；而DRL和遍歷法的電感損耗曲線均高于遺傳算法和RL，這主要是因為遺傳算法和RL優(yōu)化后的開關(guān)頻率均大于DRL和遍歷法。與遍歷法相比，5個狀態(tài)下DRL的開關(guān)管損耗和電感損耗的誤差百分比平均值分別為2.83%和9.63%，分別低于遺傳算法的10.52%和21.83%以及RL的5.84%和14.79%。同時通過圖5(c)可以看出DRL的總損耗曲線均低于遺傳算法和RL，3種方法相比于遍歷法的總損耗誤差百分比平均值依次為0.31%, 3.32%和1.26%。圖5(d)為5個狀態(tài)下4種優(yōu)化方法的效率優(yōu)化結(jié)果對比圖，可以看出DRL的效率曲線均高于遺傳算法和RL，且更接近于遍歷法的效率曲線，3種方法相比于遍歷法的效率誤差平均值依次為0.004%, 0.042%和0.016%。因此，相比于遺傳算法和RL, DRL的優(yōu)化結(jié)果更接近于遍歷法，且5個狀態(tài)下DRL優(yōu)化后的效率均大于遺傳算法和RL。

改變DDPG算法的狀態(tài)空間范圍為400 V ≤ UDC≤600 V, 20 A ≤ I ≤ 60 A，然后重新進行訓(xùn)練，并得到低功率等級下4種方法的開關(guān)頻率優(yōu)化結(jié)果。通過計算得到3種電壓等級、2種電流等級下詳細的功率損耗分布，如圖6所示，其中UDC分別取值為400 V, 500 V, 600 V，I分別取值為30 A, 50 A；功率損耗包括通態(tài)損耗Pcond、開關(guān)損耗Psw、驅(qū)動損耗Pg、繞組銅損Pcop和磁芯鐵損Pcore。

圖6 不同優(yōu)化方法之間詳細的功率損耗對比

以圖6(a)為例進行分析，3種電壓等級下不同方法之間的通態(tài)損耗、驅(qū)動損耗和磁芯鐵損均相近。遺傳算法的開關(guān)損耗較大，繞組銅損較小，而RL的開關(guān)損耗較小，繞組銅損較大。通過對比，3種電壓等級下DRL的開關(guān)損耗和繞組銅損更接近于遍歷法。這主要是因為遺傳算法優(yōu)化后的開關(guān)頻率較大，RL的開關(guān)頻率較小，而DRL的開關(guān)頻率更加接近于遍歷法。相比于遍歷法，遺傳算法、RL和DRL優(yōu)化后的各部分功率損耗如表4所示，3種電壓等級下DRL的損耗誤差百分比平均值分別為7.73%, 4.90%和4.29%，在大多數(shù)情況下均低于遺傳算法和RL。總體而言，DRL優(yōu)化后的各部分損耗更接近于遍歷法的優(yōu)化結(jié)果。

表4 I = 30 A時，相比于遍歷法，其他優(yōu)化方法的各部分功率損耗對比

通過詳細對比不同方法優(yōu)化后的功率損耗和效率，DRL與遍歷法的優(yōu)化結(jié)果更相近，所以DRL具有更好的優(yōu)化性能，能夠最大化系統(tǒng)的效率，且DRL優(yōu)化后的效率大于遺傳算法和RL優(yōu)化后的效率。同時，在表2的參數(shù)設(shè)置下，DRL的整個訓(xùn)練過程耗時約40 min，優(yōu)化后的策略網(wǎng)絡(luò)可以面向狀態(tài)空間內(nèi)的任一狀態(tài)在3 s內(nèi)輸出優(yōu)化動作。當(dāng)采用遍歷法時，每個狀態(tài)的優(yōu)化過程耗時約110 s。RL的訓(xùn)練過程耗時約為53 min，每個狀態(tài)輸出動作的耗時約為3.5 s。對于遺傳算法，單個狀態(tài)的程序運行時間約為5 926.3 s。另外，以上4種方法的程序代碼均運行在Win 10操作系統(tǒng)上，CPU型號為AMD Ryzen 5 3600X @3.8 GHz。

為了驗證DRL優(yōu)化策略的快速性，根據(jù)表2的狀態(tài)空間取值范圍，以ΔUDC= 10 V和ΔI = 10 A為變量步長共選取40個設(shè)計規(guī)格，圖7為不同方法完成多個設(shè)計規(guī)格的逆變器優(yōu)化設(shè)計的優(yōu)化耗時對比。從圖7可以看出，任意設(shè)計規(guī)格數(shù)量下遺傳算法的優(yōu)化耗時均高于另外3種方法，通過局部放大圖可以發(fā)現(xiàn)RL的優(yōu)化耗時均高于DRL，當(dāng)設(shè)計規(guī)格數(shù)量小于或等于22時，DRL的優(yōu)化耗時高于遍歷法，但當(dāng)設(shè)計規(guī)格數(shù)量大于22時，DRL的優(yōu)化耗時逐漸低于遍歷法，且基本保持不變，即DRL不會因為設(shè)計規(guī)格數(shù)量的增加而大幅增加優(yōu)化耗時，同時DRL的優(yōu)化耗時遠低于遺傳算法，因此DRL能夠快速響應(yīng)設(shè)計規(guī)格變化，輸出最優(yōu)的設(shè)計參數(shù)。

圖7 不同方法之間的優(yōu)化耗時對比

綜上所述，本文基于DRL的效率優(yōu)化設(shè)計方法既能最大化系統(tǒng)效率，又能快速響應(yīng)設(shè)計規(guī)格變化提供最優(yōu)設(shè)計變量，建立了靈活的效率優(yōu)化機制。

6 實驗驗證

為了驗證DRL的有效性，本文搭建了額定功率為140 kW的三相三電平ANPC逆變器的實驗樣機，如圖8所示。其中LCL濾波器位于電磁兼容(Electro Magnetic Compatibility, EMC)板的下方，CDC位于直流源的下方。由于實驗條件有限，本文將實驗樣機運行在4種低功率等級下，根據(jù)DRL、遍歷法、遺傳算法和RL得到相應(yīng)的開關(guān)頻率優(yōu)化結(jié)果，在此優(yōu)化結(jié)果的工作條件下，采用型號為WT3000E的功率分析儀實測樣機的效率，實驗測試條件如表5所示，不同優(yōu)化方法的理論效率和實測效率對比結(jié)果如圖9所示。

表5 實驗樣機的測試條件

圖8 三相三電平ANPC逆變器實驗樣機

圖9 不同優(yōu)化方法的理論效率與實測效率

從圖9可以看出，隨著直流側(cè)輸入電壓UDC的增加，系統(tǒng)的效率逐漸增加，4種優(yōu)化方法的效率測量值及理論值的變化趨勢相同。由于開關(guān)頻率優(yōu)化結(jié)果存在誤差，DRL的效率理論值略小于遍歷法的效率理論值，4種電壓等級下兩者效率理論值的平均相對誤差為0.005%，同時DRL的理論效率曲線均高于遺傳算法和RL的理論效率曲線。高頻磁芯鐵損計算誤差的存在，以及未考慮的其他損耗的影響，使得遍歷法、遺傳算法、RL和DRL的效率測量值均小于其理論值，效率測量值與理論值之間的平均相對誤差依次約為0.145%, 0.168%, 0.165%和0.153%。另外，與遍歷法相比，4種電壓等級下DRL的效率測量值均較小，平均相對誤差約為0.013%；而相比于遺傳算法和RL, DRL的效率測量值均較大，平均相對誤差分別為0.025%和0.025%。

根據(jù)上述分析，DRL的效率測量值和理論值均接近于遍歷法，且大于遺傳算法和RL的效率測量值和理論值。實驗測量結(jié)果與理論計算結(jié)果基本吻合，兩者的誤差來源于忽略不計的其他損耗和計算誤差。因此，本文提出的DRL優(yōu)化設(shè)計方法能夠最大化系統(tǒng)的效率，同時可以快速提供任意設(shè)計規(guī)格下的最優(yōu)設(shè)計參數(shù)，打破了傳統(tǒng)算法優(yōu)化設(shè)計過程耗時、計算量大以及無法快速響應(yīng)設(shè)計需求變化的局限性。

7 結(jié)束語

本文提出一種基于DRL的ANPC逆變器效率優(yōu)化設(shè)計方法。具體地說，通過DDPG算法與三相三電平ANPC逆變器環(huán)境模型進行不斷交互，利用交互過程中獲得的經(jīng)驗數(shù)據(jù)進行自學(xué)習(xí)，逐漸改進智能體的動作決策以最小化功率損耗，從而獲得最大化效率的決策策略。首先，介紹了基于DRL的逆變器效率優(yōu)化設(shè)計框圖；其次對逆變器的效率進行建模，并采用DDPG算法求解最小化功率損耗的開關(guān)頻率；然后將DRL的優(yōu)化結(jié)果與遍歷法、遺傳算法和RL進行優(yōu)化性能對比；最后搭建了三相三電平ANPC逆變器的實驗樣機進行驗證，實驗結(jié)果表明本文基于DRL的優(yōu)化策略能夠最大化系統(tǒng)的效率。

綜上所述，本文以三相三電平ANPC逆變器的效率為設(shè)計指標(biāo)，利用DRL的DDPG算法建立了靈活、快速的優(yōu)化機制，且通過實驗驗證了優(yōu)化策略的有效性。相比于遺傳算法和RL，實測效率平均提高了0.025%和0.025%。面向不同的逆變器設(shè)計規(guī)格，該優(yōu)化策略均可以快速提供最優(yōu)的設(shè)計參數(shù)實現(xiàn)效率最大化，從系統(tǒng)硬件的角度為電力電子變換器的優(yōu)化設(shè)計提供了新的思路和方法，在電力電子變換器設(shè)計領(lǐng)域開展了有益的嘗試。