基于動(dòng)態(tài)規(guī)劃理論的改進(jìn)型價(jià)值迭代算法?

2015-01-22 09:45:42

雷達(dá)科學(xué)與技術(shù) 2015年5期

(電子科技大學(xué)電子工程學(xué)院,四川成都611731)

0 引言

隨著無(wú)線電測(cè)量技術(shù)的不斷發(fā)展,雷達(dá)技術(shù)也邁上了一個(gè)新的臺(tái)階[1-2]。傳統(tǒng)的雷達(dá)利用回波信號(hào)分析目標(biāo)的特性,這樣的探測(cè)方式被動(dòng),無(wú)法體現(xiàn)雷達(dá)的空間認(rèn)知能力。于是,有人提出了認(rèn)知雷達(dá)的概念。認(rèn)知雷達(dá)是一種能夠根據(jù)回波信號(hào)認(rèn)識(shí)環(huán)境狀態(tài)的雷達(dá)。它通過(guò)對(duì)回波信號(hào)的分析,提取出環(huán)境信息并動(dòng)態(tài)地改變發(fā)射波形,以達(dá)到更高的目標(biāo)分辨率。而認(rèn)知雷達(dá)的核心便在于其智能化,它能自適應(yīng)地學(xué)習(xí)認(rèn)知環(huán)境,并能根據(jù)環(huán)境的變化而作出調(diào)整[3-5]。這種能力的高低需要依靠準(zhǔn)確而快速的自適應(yīng)算法來(lái)支撐。這樣,提高自適應(yīng)算法的計(jì)算速度和準(zhǔn)確度則是在提高寬帶認(rèn)知雷達(dá)的認(rèn)知能力,所以研究寬帶認(rèn)知雷達(dá)的自適應(yīng)波形選擇算法有著重要的意義。策略迭代算法、價(jià)值迭代算法、Q學(xué)習(xí)算法都是當(dāng)前比較流行的自適應(yīng)算法,它們都是基于動(dòng)態(tài)規(guī)劃理論,而動(dòng)態(tài)規(guī)劃理論的核心思想來(lái)源于貝爾曼最優(yōu)準(zhǔn)則[6-7]。故本文將基于動(dòng)態(tài)規(guī)劃理論及其核心思想貝爾曼最優(yōu)準(zhǔn)則,討論一種改進(jìn)型的價(jià)值迭代算法,并通過(guò)仿真比較它與其他算法的優(yōu)劣。

1 動(dòng)態(tài)規(guī)劃算法

動(dòng)態(tài)規(guī)劃算法是基于貝爾曼最優(yōu)準(zhǔn)則,在馬爾科夫決策模型下提出的。馬爾科夫理論為動(dòng)態(tài)規(guī)劃算法提供了選擇決策序列的數(shù)學(xué)理論基礎(chǔ),而貝爾曼最優(yōu)準(zhǔn)則為其提供了選擇最優(yōu)策略的數(shù)學(xué)代價(jià)函數(shù)。兩者共同奠定了動(dòng)態(tài)規(guī)劃算法的基礎(chǔ)[8-10]。

1.1 馬爾科夫決策模型

圖1表示了馬爾科夫決策裝置與環(huán)境交互圖,圖中,對(duì)于任意給定的狀態(tài)i,可以選擇的動(dòng)作u ik(就是決策裝置產(chǎn)生的對(duì)環(huán)境的輸入)集合用U={u ik}表示。其中u ik意味著在i狀態(tài)下有k個(gè)動(dòng)作可以選擇。不同的動(dòng)作作用于環(huán)境,將產(chǎn)生不同的下一狀態(tài)j,而環(huán)境從i狀態(tài)轉(zhuǎn)移到j(luò)狀態(tài)的概率完全由當(dāng)前狀態(tài)i和當(dāng)前動(dòng)作u ik決定,這個(gè)特性就是馬爾科夫特性。它表明決策裝置采取哪一動(dòng)作可以從當(dāng)前狀態(tài)中獲取信息,并根據(jù)當(dāng)前狀態(tài)決定。同時(shí),在i狀態(tài)下,若能確定下一狀態(tài),則可以選擇合適的動(dòng)作與之匹配,這便與認(rèn)知雷達(dá)的波形選擇聯(lián)系起來(lái)了。這樣,動(dòng)作的選擇便成為了關(guān)鍵點(diǎn)。根據(jù)圖中的模型,在狀態(tài)i時(shí),當(dāng)采取動(dòng)作u ik而轉(zhuǎn)移到狀態(tài)j時(shí),狀態(tài)將反饋給決策裝置一個(gè)報(bào)酬λnr(i,u ik,j),其中,λ為折扣因子(0＜λ＜1),r(i,u ik,j)表示狀態(tài)從i轉(zhuǎn)移到狀態(tài)j的過(guò)程中,采取動(dòng)作u ik而獲得的報(bào)酬。

圖1 馬爾科夫過(guò)程模型

1.2 貝爾曼最優(yōu)準(zhǔn)則

現(xiàn)在考慮雷達(dá)實(shí)際的環(huán)境狀態(tài),由于雷達(dá)測(cè)量目標(biāo)的實(shí)際狀態(tài)是有限的,本文將它定為K,即雷達(dá)環(huán)境共有K個(gè)狀態(tài)。本文重新定義報(bào)酬函數(shù)為r(X n,u n(X n),X n+1),表示狀態(tài)從X n到狀態(tài)X n+1所獲得的報(bào)酬。對(duì)于一個(gè)K狀態(tài)的動(dòng)態(tài)規(guī)劃問(wèn)題,本文定義

式中,V n(X n)代表總期望報(bào)酬。若策略π={u k}為最優(yōu)策略,那么,在π={u k}時(shí),

即此時(shí)π使得總期望報(bào)酬在n時(shí)刻以后的值達(dá)到最大,對(duì)于n時(shí)刻以后的所有子問(wèn)題,π都為最優(yōu)策略;若π不為最優(yōu)策略,那么,當(dāng)狀態(tài)發(fā)生轉(zhuǎn)移時(shí),以后子問(wèn)題所選擇的最優(yōu)策略將增大V n(X n)的值,這樣通過(guò)對(duì)n時(shí)刻后每一時(shí)刻狀態(tài)的報(bào)酬值進(jìn)行迭代更新后,將確定出一個(gè)滿足所有狀態(tài)最優(yōu)策略。這便是貝爾曼最優(yōu)準(zhǔn)則。

1.3 動(dòng)態(tài)規(guī)劃算法

根據(jù)以上的敘述,現(xiàn)在本文將動(dòng)態(tài)規(guī)劃算法描述如下:該算法從K-1到0時(shí)刻反向進(jìn)行動(dòng)態(tài)規(guī)劃。假設(shè)π={u k},那么對(duì)于n=0,1,…,K-1,式(1)的最優(yōu)表達(dá)式即為

對(duì)于一個(gè)策略π,現(xiàn)在重新定義報(bào)酬函數(shù)

令當(dāng)前狀態(tài)X n=i,下一狀態(tài)X n+1=j,則式(6)可以表示為

將式(7)寫(xiě)成概率形式為

每一個(gè)狀態(tài)都對(duì)應(yīng)了一個(gè)最優(yōu)貝爾曼方程,一共有N個(gè)方程,所有狀態(tài)的最優(yōu)貝爾曼方程聯(lián)立求解后得到的π={u k}即為最優(yōu)策略。

2 價(jià)值迭代算法及改進(jìn)的價(jià)值迭代算法

計(jì)算最優(yōu)策略的方法一般有策略迭代算法和常規(guī)價(jià)值迭代算法[11],現(xiàn)在分別加以討論。

2.1 策略迭代算法

策略迭代的基本思想是任意選擇一個(gè)策略開(kāi)始,不斷迭代,直到不再有更好的策略出現(xiàn)為止。基本步驟如下:

步驟1 估值階段:此階段中,本文隨機(jī)選擇一個(gè)策略u(píng)k(i),用貝爾曼最優(yōu)方程計(jì)算其價(jià)值函數(shù)mk(i),隨后進(jìn)入步驟2。其中

步驟2 策略改進(jìn)階段:此階段,利用步驟1中的價(jià)值函數(shù)值得到一個(gè)更好的策略u(píng)k+1(i)。

步驟3 如果步驟1和步驟2中的策略完全相同,即uk+1(i)=uk(i)對(duì)于每一個(gè)狀態(tài)i都成立,那么,停止迭代。否則,反復(fù)執(zhí)行步驟1、步驟2,直到uk+1(i)=uk(i)出現(xiàn)。

2.2 常規(guī)價(jià)值迭代算法

價(jià)值迭代算法是一種不斷近似于最優(yōu)方案的算法,因?yàn)樗粩嗬秘悹柭顑?yōu)方程更新,最終得到一個(gè)最優(yōu)的價(jià)值函數(shù)[12-13]。根據(jù)1.3節(jié)中的討論,貝爾曼最優(yōu)方程如下:

式中,S為狀態(tài)空間,U為波形控制變量集合。

價(jià)值迭代最基本的思想就是,先將價(jià)值向量Vn(i)賦予初值,然后再用貝爾曼最優(yōu)方程即式(11)進(jìn)行不斷的迭代更新,更新過(guò)程中,Vn(i)的值會(huì)趨近于一個(gè)固定值。如果這種迭代不斷進(jìn)行下去,那么Vn(i)的值就會(huì)在某一時(shí)刻達(dá)到這個(gè)固定值,此值即為最大的價(jià)值。但是,通常認(rèn)為當(dāng)Vn(i)的值非常接近該固定值時(shí),即可認(rèn)為該值即為接近最優(yōu)價(jià)值的次優(yōu)近似值。此時(shí),便可以停止迭代,減少算法的計(jì)算量。現(xiàn)在給出價(jià)值迭代算法的終止條件:

式中,δ為一很小的控制量,用來(lái)控制前后迭代價(jià)值的接近程度,λ為式(11)中的折扣因子。式(12)表明,當(dāng)前后迭代價(jià)值即Vn+1(i)與Vn(i)的差別小于δ(1-λ)/2λ時(shí),即停止迭代。

下面給出常規(guī)價(jià)值迭代的算法步驟:

步驟1初始化所有的V(i),令k=0,設(shè)定δ, δ為大于0的常數(shù);

步驟2 對(duì)于每一個(gè)i∈S,計(jì)算

步驟3 如果當(dāng)前

成立,則轉(zhuǎn)移到步驟4,否則,令k=k+1,返回到步驟2,繼續(xù)迭代;

步驟4 對(duì)于每一個(gè)i∈S,選擇

此時(shí)停止迭代,得到最優(yōu)策略d?(i)。

步驟3中‖Vk(i)-Vk+1(i)‖的值每一次迭代都會(huì)下降,直到其下于門(mén)限值時(shí),迭代停止。并且需要指出,該算法是針對(duì)所有的i∈S,故每一個(gè)狀態(tài)都要完成以上每一個(gè)步驟。由于常規(guī)價(jià)值迭代算法需要應(yīng)用到實(shí)際的雷達(dá)工作環(huán)境中去,所以考慮到實(shí)際環(huán)境中,該算法并不是最優(yōu)的。因?yàn)樵撍惴ㄟ\(yùn)算速度慢,收斂時(shí)需要的迭代次數(shù)多,這樣便降低了雷達(dá)的自適應(yīng)能力和應(yīng)變環(huán)境變化的能力,所以現(xiàn)在提出一種改進(jìn)型的價(jià)值迭代算法。

2.3 一種改進(jìn)的價(jià)值迭代算法

在常規(guī)的價(jià)值迭代算法中,計(jì)算當(dāng)前迭代的價(jià)值函數(shù)時(shí),需要將以前已經(jīng)計(jì)算過(guò)的狀態(tài)空間中的狀態(tài)又計(jì)算一遍,這樣便加大了計(jì)算的復(fù)雜度[14]。改進(jìn)價(jià)值迭代算法便是針對(duì)這一缺點(diǎn)而提出。當(dāng)狀態(tài)為i時(shí),已經(jīng)計(jì)算出了Vk+1(i′),其中i′=1,2,…,i-1,此時(shí),可以將已經(jīng)計(jì)算得出的狀態(tài)的函數(shù)價(jià)值Vk+1(i′)來(lái)代替Vk(i′),從而避免了重復(fù)計(jì)算,提高了算法的收斂速度。這種價(jià)值迭代算法的收斂速度更快,對(duì)環(huán)境的變化適應(yīng)能力也越強(qiáng)。

下面給出改進(jìn)價(jià)值迭代的算法步驟:

步驟1初始化所有的V(i),令k=0,設(shè)定δ,δ為大于0的常數(shù);

步驟2 對(duì)于每一個(gè)i∈S,計(jì)算

步驟3 如果當(dāng)前

成立,則轉(zhuǎn)移到步驟4,否則,令k=k+1,返回到步驟2,繼續(xù)迭代;

步驟4 對(duì)于每一個(gè)i∈S,選擇

此時(shí)停止迭代,得到最優(yōu)策略d?(i)。

2.4 現(xiàn)在已有的改進(jìn)價(jià)值迭代算法

目前,雷達(dá)領(lǐng)域已經(jīng)擁有幾類改進(jìn)價(jià)值迭代算法,如Gauss Siedel價(jià)值迭代算法、相對(duì)價(jià)值迭代算法以及跨度半-范數(shù)判決準(zhǔn)則價(jià)值迭代算法。這些算法在某一方面都有所改進(jìn),但是工程應(yīng)用實(shí)踐性不強(qiáng)。下面,本文將對(duì)其中幾種算法的原理加以討論,并與本文的算法進(jìn)行比較。

(1)相對(duì)價(jià)值迭代算法

相對(duì)價(jià)值迭代算法是當(dāng)前已經(jīng)被提出的一種改進(jìn)型價(jià)值迭代算法,該算法利用當(dāng)前已知的狀態(tài)情況所產(chǎn)生的價(jià)值作為基準(zhǔn),并用當(dāng)前情況的價(jià)值相對(duì)于已知狀態(tài)價(jià)值的差距作為下一狀態(tài)的更新依據(jù),對(duì)于不含有折扣因子λ時(shí),更新速度很快。然而,實(shí)際的雷達(dá)環(huán)境是需要折扣報(bào)酬λ的,所以,此方法不適用于實(shí)踐環(huán)境。

(2)跨度半-范數(shù)判決準(zhǔn)則價(jià)值迭代算法

此算法的優(yōu)越性在于提高了前后狀態(tài)的判決準(zhǔn)確度,即使用半-范數(shù)準(zhǔn)則代替了常規(guī)價(jià)值迭代算法的步驟3作為判決方式。這樣做使得算法在判決的準(zhǔn)確度上提高了一個(gè)層次,但并未在提高更新速度上產(chǎn)生積極效果,雷達(dá)依然需要經(jīng)過(guò)大量的計(jì)算才能確定發(fā)射波形,所以不適應(yīng)于雷達(dá)響應(yīng)速度的要求。而本文所述算法與其相比的優(yōu)勢(shì)正是在于計(jì)算量小,更新速度快。

綜上所述,本文所提價(jià)值迭代算法在波形選擇的準(zhǔn)確性上雖略顯不足,但其快速的更新速度減輕了雷達(dá)的計(jì)算量,更加適用于實(shí)際環(huán)境。故本文所提算法不失為一種實(shí)際適應(yīng)能力更強(qiáng)的算法。

2.5 雷達(dá)波形選擇的數(shù)學(xué)建模

雷達(dá)對(duì)波形的選擇主要依靠不同波形產(chǎn)生的價(jià)值V(i)來(lái)決定。如圖2所示,在同一環(huán)境情況下,選擇能使目標(biāo)價(jià)值達(dá)到最大的波形作為最優(yōu)波形。設(shè)定環(huán)境空間為X(x∈X),雷達(dá)波形庫(kù)為U(u∈U),目標(biāo)報(bào)酬為R(p k,u k,p k+1)。雷達(dá)通過(guò)對(duì)環(huán)境的學(xué)習(xí)將波形庫(kù)中的波形與目標(biāo)環(huán)境對(duì)應(yīng)起來(lái),建立一一對(duì)應(yīng)的關(guān)系即(x,u)集合,每一個(gè)狀態(tài)x都會(huì)有一個(gè)最優(yōu)波形u與之對(duì)應(yīng)。這樣,當(dāng)雷達(dá)遇到已知環(huán)境時(shí),便可以通過(guò)波形庫(kù)中的對(duì)應(yīng)關(guān)系選擇出合適的波形,達(dá)到自適應(yīng)波形選擇的目的。

圖2 雷達(dá)波形選擇圖示

2.5.1 目標(biāo)環(huán)境空間和雷達(dá)波形庫(kù)的設(shè)置

目標(biāo)環(huán)境空間設(shè)置為X={1,2,3,…,N}表示環(huán)境空間X中有N個(gè)不同的目標(biāo)狀態(tài)。1,2,3,…,N代表了不同的目標(biāo)狀態(tài),區(qū)分出N個(gè)目標(biāo)狀態(tài)。每一個(gè)目標(biāo)狀態(tài)都會(huì)有一個(gè)目標(biāo)狀態(tài)變量值pt與之對(duì)應(yīng)。pt為噪聲對(duì)環(huán)境目標(biāo)的污染值,利用M ATLAB噪聲矩陣和隨機(jī)矩陣產(chǎn)生。

雷達(dá)波形庫(kù)設(shè)置為U={1,2,3,…,M},表示雷達(dá)波形庫(kù)U中有M個(gè)可供選擇的波形。此處1, 2,3,…,M代表了不同的波形,區(qū)分出M個(gè)波形可供選擇。不同的波形對(duì)環(huán)境的影響不同,最終經(jīng)過(guò)學(xué)習(xí)將確定出不同環(huán)境對(duì)應(yīng)的最優(yōu)波形。

2.5.2 目標(biāo)環(huán)境報(bào)酬函數(shù)的設(shè)置

由于實(shí)際環(huán)境的狀態(tài)情況未知,故只能利用噪聲對(duì)環(huán)境的污染值來(lái)估計(jì)環(huán)境情況[15],令p k為環(huán)境變量值,不同的p k代表了不同的環(huán)境狀態(tài),p k的值由隨機(jī)噪聲對(duì)環(huán)境的污染值來(lái)確定,選取R(p k,u k,p k+1)=p k+1p k-1作為報(bào)酬函數(shù)。仿真中,利用M ATLAB產(chǎn)生的隨機(jī)矩陣和噪聲函數(shù),對(duì)未知環(huán)境進(jìn)行模擬。

2.5.3 建立狀態(tài)波形映射表(Mapping)

經(jīng)過(guò)雷達(dá)對(duì)環(huán)境的學(xué)習(xí)認(rèn)知,目標(biāo)環(huán)境都會(huì)對(duì)不同的雷達(dá)波形產(chǎn)生不同的報(bào)酬,從而產(chǎn)生不同的迭代價(jià)值。本文把能使迭代價(jià)值達(dá)到最大的雷達(dá)波形與環(huán)境狀態(tài)一一對(duì)應(yīng)起來(lái),此時(shí),2.5.1節(jié)中的X和U將組合成一個(gè)二維映射表,即每一個(gè)狀態(tài)都將對(duì)應(yīng)于一個(gè)最優(yōu)波形。當(dāng)雷達(dá)進(jìn)入工作階段時(shí),雷達(dá)將以此表作為選擇波形的依據(jù)。

2.6 雷達(dá)利用改進(jìn)價(jià)值迭代算法進(jìn)行波形選擇的步驟

雷達(dá)對(duì)波形的選擇主要分為兩個(gè)階段:學(xué)習(xí)階段和工作階段。學(xué)習(xí)階段中,雷達(dá)將對(duì)未知的環(huán)境進(jìn)行學(xué)習(xí)和認(rèn)知,并將認(rèn)知的結(jié)果記錄下來(lái)。然后,雷達(dá)在實(shí)際的工作中根據(jù)已學(xué)習(xí)到的波形-狀態(tài)關(guān)系對(duì)波形進(jìn)行選擇,以適應(yīng)不同的目標(biāo)環(huán)境。下面將對(duì)這兩種環(huán)境進(jìn)行分析。

(1)學(xué)習(xí)(認(rèn)知)階段

步驟1 雷達(dá)設(shè)置當(dāng)前狀態(tài)為x t,并對(duì)目標(biāo)環(huán)境隨機(jī)發(fā)生波形,獲得當(dāng)前波形所產(chǎn)生的報(bào)酬,并計(jì)算出迭代價(jià)值V(x t)選取迭代價(jià)值最大值所對(duì)應(yīng)的波形作為最優(yōu)波形u t。

步驟2 雷達(dá)根據(jù)下一時(shí)刻狀態(tài)再對(duì)目標(biāo)隨機(jī)發(fā)射波形,獲得下一狀態(tài)x t+1的最大迭代價(jià)值V(x t+1),并確定最優(yōu)波形u t+1,并且雷達(dá)再根據(jù)更新公式更新上一狀態(tài)x t的迭代價(jià)值V(x t+1)。依次往下,每一步都要確定一個(gè)新的狀態(tài)及其對(duì)應(yīng)的波形,同時(shí)還要更新上一狀態(tài)的迭代價(jià)值,改變上一狀態(tài)的最優(yōu)波形與狀態(tài)的對(duì)應(yīng)關(guān)系。

步驟3 直到迭代達(dá)到算法的終止條件,迭代結(jié)束。此時(shí),雷達(dá)中便形成了一個(gè)波形-狀態(tài)的映射表(Mapping),此表便是以后雷達(dá)選擇波形的依據(jù)。

(2)工作階段

在此階段,雷達(dá)將根據(jù)學(xué)習(xí)階段所產(chǎn)生的波形-狀態(tài)映射表(Mapping)對(duì)不同的狀態(tài)選擇不同的波形。如果在此過(guò)程中雷達(dá)又認(rèn)知到新的狀態(tài),那么它會(huì)將新的狀態(tài)加入到映射表,并更新映射表。

綜合以上兩個(gè)階段,雷達(dá)將工作在一種動(dòng)態(tài)平衡的環(huán)境中,即先認(rèn)知—工作(同時(shí)認(rèn)知)—再認(rèn)知。這樣,雷達(dá)便能自適應(yīng)地對(duì)環(huán)境作出最優(yōu)的響應(yīng)。

3 仿真

本節(jié)共進(jìn)行了2個(gè)實(shí)驗(yàn),分別比較了改進(jìn)型價(jià)值迭代算法、策略迭代算法和固定波形選擇算法以及常規(guī)價(jià)值迭代算法的優(yōu)劣。然后,再對(duì)結(jié)果加以分析比較,得出結(jié)論。

3.1 基本數(shù)據(jù)設(shè)置

由于在實(shí)際情況下,這些參數(shù)是未知的,需要通過(guò)雷達(dá)對(duì)環(huán)境的學(xué)習(xí)后能得知,實(shí)際中的情況該如何選擇還需更多的研究。所以在仿真實(shí)驗(yàn)中預(yù)先設(shè)定測(cè)量概率、折扣因子和狀態(tài)轉(zhuǎn)移矩陣的數(shù)據(jù)來(lái)模擬真實(shí)環(huán)境。其中設(shè)定狀態(tài)空間是4維的,同時(shí)使用5種不同的波形對(duì)環(huán)境進(jìn)行學(xué)習(xí)。當(dāng)目標(biāo)位于x狀態(tài)采用u k波形且檢測(cè)為y時(shí)的測(cè)量概率如表1所示。折扣因子λ=0.91。

表1 測(cè)量概率

由于實(shí)際環(huán)境的狀態(tài)情況未知,因此只能利用噪聲對(duì)環(huán)境的污染值來(lái)估計(jì)環(huán)境情況。在MATLAB中,產(chǎn)生隨機(jī)矩陣和噪聲函數(shù)對(duì)未知環(huán)境進(jìn)行模擬。p k即為k時(shí)刻對(duì)應(yīng)的噪聲污染值。

選取報(bào)酬函數(shù)為

實(shí)驗(yàn)中將通過(guò)對(duì)比不同算法的波形選擇的準(zhǔn)確度來(lái)說(shuō)明各種算法的優(yōu)劣,現(xiàn)在對(duì)波形選擇準(zhǔn)確度進(jìn)行如下定義:

波形選擇的準(zhǔn)確度:在改進(jìn)價(jià)值迭代算法前提下,通過(guò)仿真雷達(dá)對(duì)環(huán)境進(jìn)行認(rèn)知學(xué)習(xí)后,將獲得一個(gè)波形-狀態(tài)的映射表。將此表與標(biāo)準(zhǔn)的波形選擇映射表相對(duì)應(yīng)后,兩表將存在一定的差距,即波形選擇的誤差。將此誤差歸一化后,得到歸一化波形選擇誤差σ。再用1減去此歸一化誤差,便得到波形選擇的準(zhǔn)確度,即波形選擇的接近率。

波形選擇的準(zhǔn)確度(接近率)=1-波形選擇的歸一化誤差率(σ) (20)

3.2 實(shí)驗(yàn)一

在實(shí)驗(yàn)一中,進(jìn)行改進(jìn)型價(jià)值迭代算法、策略迭代算法和固定波形選擇算法的仿真,通過(guò)對(duì)波形選擇的準(zhǔn)確度和測(cè)量次數(shù)的比較,說(shuō)明本算法選擇波形上的有效性。

分別利用改進(jìn)型價(jià)值迭代算法、策略迭代算法和固定波形選擇算法以及設(shè)定的數(shù)據(jù)仿真,得到圖3所示的波形選擇準(zhǔn)確度曲線。

實(shí)驗(yàn)一總結(jié):圖3中,波形選擇的準(zhǔn)確度隨著測(cè)量次數(shù)的增加而增加,在相同的測(cè)量次數(shù)下,可以看出所提改進(jìn)型價(jià)值迭代算法的波形選擇準(zhǔn)確度要高于固定波形選擇算法,但同時(shí)要差于策略迭代算法。如果使用策略迭代算法,這種準(zhǔn)確度更高。但是,在遇到巨大的測(cè)量狀態(tài)空間和波形空間時(shí),每次策略迭代求解都需要求解等式,要進(jìn)行大量的計(jì)算,此時(shí)策略迭代方法的適應(yīng)能力已經(jīng)非常差。又因本文提出改進(jìn)型價(jià)值迭代算法的效果已經(jīng)非常接近策略迭代算法,該算法的優(yōu)勢(shì)在于可以不用頻繁的求解等式和大量計(jì)算的情況下,對(duì)波形進(jìn)行選擇,對(duì)環(huán)境進(jìn)行判斷。那么此時(shí)本文所提算法便成為了一種接近最優(yōu)方案的次優(yōu)算法,又因其不需要求解等式,免去了繁瑣的求解工作,很適用于雷達(dá)工作狀態(tài)。

圖3 實(shí)驗(yàn)一波形選擇的準(zhǔn)確度曲線

3.3 實(shí)驗(yàn)二

在實(shí)驗(yàn)二中,比較改進(jìn)型價(jià)值迭代算法、策略迭代算法與常規(guī)價(jià)值迭代算法的優(yōu)劣,通過(guò)比較,說(shuō)明改進(jìn)型價(jià)值迭代算法在波形選擇上的優(yōu)勢(shì)。

進(jìn)行改進(jìn)型價(jià)值迭代算法、策略迭代算法與常規(guī)價(jià)值迭代算法仿真,得到圖4所示的波形選擇準(zhǔn)確度曲線。

圖4 實(shí)驗(yàn)二波形選擇準(zhǔn)確度曲線

實(shí)驗(yàn)二總結(jié):圖4比較了改進(jìn)型價(jià)值迭代算法、策略迭代算法和常規(guī)價(jià)值迭代算法三種方法。橫坐標(biāo)為波形對(duì)環(huán)境的測(cè)量次數(shù),縱坐標(biāo)為波形選擇的準(zhǔn)確度。可以看出,改進(jìn)型價(jià)值迭代算法和常規(guī)價(jià)值迭代算法的選擇準(zhǔn)確度都要低于策略迭代算法,同時(shí),常規(guī)價(jià)值迭代算法還要略優(yōu)于改進(jìn)型價(jià)值迭代算法。但考慮到策略迭代算法求解等式的繁瑣,故改進(jìn)型價(jià)值迭代算法和常規(guī)價(jià)值迭代算法都有很大的優(yōu)勢(shì),又因?yàn)楦倪M(jìn)型價(jià)值迭代算法利用了許多已知的迭代信息,免去了重復(fù)計(jì)算的計(jì)算量,提高了更新速度。所以在雷達(dá)探測(cè)環(huán)境中還是有很大的優(yōu)勢(shì)的,再者,從圖中可以看出改進(jìn)型價(jià)值迭代算法和常規(guī)價(jià)值迭代算法已經(jīng)相差無(wú)幾。所以,改進(jìn)型價(jià)值迭代算法是一種可行的選擇。

4 結(jié)束語(yǔ)

自適應(yīng)波形選擇是認(rèn)知雷達(dá)需要解決的核心問(wèn)題,波形選擇的好壞直接影響到認(rèn)知雷達(dá)的工作質(zhì)量。本文所提出的改進(jìn)型價(jià)值迭代算法,從仿真中可以看到該算法的優(yōu)點(diǎn),在相同的測(cè)量次數(shù)下,改進(jìn)型價(jià)值迭代算法相比固定波形算法有更高的波形選擇準(zhǔn)確度;相比于常規(guī)價(jià)值迭代算法而言,雖然波形選擇準(zhǔn)確度有一定下降但相差無(wú)幾。關(guān)鍵是在于,改進(jìn)型價(jià)值迭代算法避免了重復(fù)計(jì)算的計(jì)算量,提高了計(jì)算速度,提高了雷達(dá)工作的效率和自適應(yīng)能力,這對(duì)雷達(dá)探測(cè)目標(biāo)環(huán)境有著非常積極的作用。所以,綜合考慮波形選擇準(zhǔn)確度和計(jì)算量時(shí),改進(jìn)型價(jià)值迭代算法不失為一種良好的可應(yīng)用于雷達(dá)實(shí)際環(huán)境的自適應(yīng)算法。未來(lái)還需在此基礎(chǔ)上進(jìn)一步研究如何提高改進(jìn)型價(jià)值迭代算法波形選擇的準(zhǔn)確度,使其自適應(yīng)能力進(jìn)一步增強(qiáng)。

[1]LUO Y,ZHANG Q,HONG W,et al.Waveform Design and High-Resolution Imaging of Cognitive Radar Based on Compressive Sensing[J].Science China (Information Sciences),2012,55(11):2590-2603.

[2]GE P,CUI G,KONG L,et al.Cognitive Radar Waveform Design for Coexistence with Overlaid Telecommunication Systems[C]∥IEEE International Conference on Communication Problem-Solving,Beijing:IEEE,2014:5.

[3]WANG B,WANG J,SONG X,et al.Research on Model and Algorithm of Waveform Selection in Cognitive Radar[J].Journal of Networks,2010,5(9): 1041-1046.

[4]WANG B,WANG J,SONG X,et al.Q-Learning-Based Adaptive Waveform Selection in Cognitive Radar[J].International Journal of Communications, Network and System Sciences,2009,2(7):669-674.

[5]GUERCI J R.Cognitive Radar:The Knowledge-Aided Fully Adaptive Approach[M].Boston:Artech House, 2010.

[6]TAO R,LI B,SUN H.Research Progress of the Algebraic and Geometric Signal Processing[J].Defence Technology,2013,9(1):40-47.

[7]NGUYEN N H,DOGANCAY K,DAVIS L M. Adaptive Waveform and Cartesian Estimate Selection for Multistatic Target Tracking[J].Signal Processing,2015,111(1):13-25.

[8]WANG L,WANG H,CHENG Y,et al.Joint Adaptive Waveform and Baseline Range Design for Bistatic Radar[J].Journal of Central South University,2014, 21(6):2262-2272.

[9]XIN F,WANG J,ZHAO Q,et al.Optimal Waveform Selection for Robust Target Tracking[J].Journal of Applied Mathematics,2013,2013(1):1-7.

[10]葉映宇,文鐵牛,陳俊,等.外輻射源雷達(dá)運(yùn)動(dòng)目標(biāo)信號(hào)特性及檢測(cè)方法研究[J].雷達(dá)科學(xué)與技術(shù),2014, 12(6):604-608,612.

[11]MCDILL K K,MINCHEW C D.Waveform Selection for an Electrically Enhanced Seine for Use in Harvesting Channel Catfish Ictalurus Punctatus from Ponds[J].Journal of the World Aquaculture Society, 2001,32(3):342-347.

[12]WONG T F,LOK T M,LEHNERT J S.Asynchronous Multiple-Access Interference Suppression and Chip Waveform Selection with Aperiodic Random Sequences[J].IEEE Trans on Communications,1999,47(1):103-114.

[13]KOJIMA H,OMURA Y,MATSUMOTO H,et al.Automatic Waveform Selection Method for Electrostatic Solitary Waves[J].Earth,Planets and Space,2000,52(7):495-502.

[14]ZHAO Y,FENG J,ZHANG B,et al.Current Progress in Sparse Signal Processing Applied to Radar Imaging[J].Science China(Technological Sciences), 2013,56(12):3049-3054.

[15]李靜.基于自適應(yīng)動(dòng)態(tài)規(guī)劃的波形選擇方法研究[D].沈陽(yáng):東北大學(xué),2009.