














摘要:本文闡述了由于采用M-MIMO和UM-MIMO導致太赫茲通信中波束管理面臨的新挑戰,介紹了解決的途徑和技術,包括利用智能反射表面(IRS)、通信感知一體化技術以及人工智能等。
關鍵詞:波束管理;智能反射表面;通信感知一體化;人工智能
doi:10.3969/J.ISSN.1672-7274.2025.02.001
中圖分類號:TN 82" " " " 文獻標志碼:A" " " " " " 文章編碼:1672-7274(2025)02-000-11
Terahertz Antenna (V)
ZHONG Min
Abstract: This lecture describes the new challenges of beam management in terahertz communication due to the adoption of M-MIMO and UM-MIMO, and introduces the solutions and technologies, including the use of intelligent reflective surface (IRS), communication sensing integration technology, and artificial intelligence.
Keywords: beam management; intelligent reflective surface; communication sensing integration; artificial intelligence
所謂波束管理,即初始訪問(接入)和波束跟蹤,以及波束連接中斷后的重建等,這是建立鏈路必不可少的步驟。
由圖1(a)可見,當無線移動通信采用較低的射頻時,基站天線使用寬波束(如扇形波束)覆蓋,其間用戶的接入是很方便的;而隨著工作頻率的提高,采用毫米波乃至太赫茲頻率后,無論是基站或用戶終端,天線波束為如“鉛筆”形狀的窄波束(見圖1(b)),這樣也順應M-MIMO和UM-MIMO的需要。在此情況下,基站與用戶終端的天線波束首先必須對準,然后按一定的接入流程,其中的關鍵步驟便是波束管理,以保證通信的暢通。
1" "已有的波束管理方法[1][2]
已經有了一些用于波束管理的有關技術標準,如3GPP Release 15、16、17、18,針對毫米波的IEEE 802.11ad、802.11ay和IEEE 802.15.3c等。下面就3GPP所頒布的有關波束管理技術做一些簡介。
在3GPP新無線(NR)中,波束管理被定義為一組基本的物理(PHY)/媒體接入(MAG)層中的波束相關過程。如圖2所示,收發點(TRP)在5G中為節點B(gNB),即基站。
所提出的波束管理過程分為下列幾步:
(1)波束掃描:在覆蓋空間區域,在一段時間內以預定的間隔方式發射和/或接收波束。無論是收發點或是用戶,都需發射一導頻,以用作波束測量。
(2)波束測量:在發射接收點(TRP)或用戶UE的操作,對接收和/或發射的波束形成信號特性進行測量。
(3)波束報告:UE基于對波束成形信號的波束測量,報告有關信息的一種操作。
(4)波束確定:TRP或UE的一項操作,選擇至少一對自己使用的發射/接收波束。
在上述過程中,波束掃描在預先確定的時間間隔和方向上進行,在此期間,TRP/UE通過測量波束成形參考信號(導頻)的接收功率,來導出波束質量,通常用參考信號接收功率對干擾噪聲功率比(SINR)來度量。UE的測量結果(波束質量和波束決策信息)被發送到基站。基于此測量,TRP/UE選擇最佳波束(或一組波束)來建立定向通信鏈路。這些波束管理操作會定期重復,以更新一段時間內的最佳波束對。在通信過程中,環境可能會發生變化,這可能導致射束故障。如鏈接堵塞或波束未對準,信號電平低于門限或超時等。這時需要進行波束恢復操作,該過程被稱為波束恢復,分為四個步驟:波束故障檢測、候選波束識別、恢復請求傳輸,以及監控對恢復請求的響應。
采用M-MIMO和UM-MIMO帶來了波束管理問題,其挑戰更顯突出,特別是在存在移動用戶的場景下。首先,在太赫茲載波頻率下,極窄的波束搜索會導致巨大的測量開銷,其影響是十分負面的。其次是移動性管理,由于移動用戶的隨機運動,造成太赫茲信道動態起伏變化,這使處理過程變得更加復雜。原有的波束管理技術與程序已顯得“力不從心”,需要尋求新的突破。
2" "適應太赫茲波束管理的新技術
據研究,對于太赫茲波束管理,利用智能反射平面(IRS)、綜合傳感與通信(Integrated Sensor and Communication,ISC)和人工智能(AI)是有效而可行的。
2.1 IRS輔助在太赫茲波束管理中的應用[2][3][4][5][9]
IRS的原理在太赫茲天線講座(三)中已做了介紹。在太赫茲通信系統中,可用以輔助基站與用戶建立虛擬視距鏈路,以克服障礙物遮擋等影響,其部署場景如圖3所示。對于固定的IRS,可安裝在建筑物如樓房的外墻表面或大型廣告牌上;在移動場景中,可利用無人機攜帶IRS。在系統波束管理中,IRS是不可或缺的。
如前述,波束管理關鍵的一步是波束搜索(掃描)和波束對準。在執行此操作時,按有源與無源分,基站和用戶終端屬于有源終端(AT),IRS為無源終端,它們可能的工作方式如圖4所示。
在波束搜索中,窮舉法和分層法是可考慮采用的。
(1)窮舉法。一般地說,窮舉法的基本思路是,列出所有可能的情況,逐個判斷有哪些是符合問題所要求的條件,從而得到問題的解答,用于解決“是否存在”和“有多少可能性”等類型問題。通常用循環或循環嵌套結構實現,要注意循環的起點和終點,對可能的情況不能遺漏,一般也不應重復。具體到在波束管理中波束搜索的應用時,是指詳盡地測試收發窄波束對。如圖5(a)所示,基站借助于IRS產生的反射波束,通過控制器連續改變IRS中受控的陣元的移相器,對所覆蓋的空間進行掃描,掃描進程是按預先設計的有源/無源波束形成碼本進行的。碼本是一系列碼字的組合,每個碼字是一個可以產生特定方向的陣列矢量。每一碼本僅含有限數量的波束方向或波束圖形。此法不需要復雜的信道估計,這對大量IRS的應用是非常有利的。但對于應用于太赫茲的UM-MIMO來說,由于波束極窄而數量巨大,窮舉法費時且開銷很大,復雜度極高,難以付諸實施。
(2)分層法。基于分層搜索的方法通常是基于多層碼本實現波束訓練。波束訓練不需要任何信道狀態信息(CSI),而通過測試波束對來達到波束搜索的過程。在測試波束對,其中低層碼本由更寬的波束組成而不是窮舉法搜索所有窄波束組合。每一層波束掃描的程序與窮舉搜索相似,只是所需要的搜索范圍是由前期確定的,即后一層的子碼本搜索范圍,由前一層子碼本搜索到的最優碼字確定。因此,分層搜索的性能高度依賴于訓練碼本設計和隨層數增加的空間分辨率,其過程如圖5(b)所示。
據研究,在分層法中,如圖6所示的M-樹形搜索是最為有效的,假定波束數N=27,也即27片葉子,用三樹叉形(M形),通過三層劃分,得到圖6的結構。搜索的基本過程是:從使用全向波束(root)進行初始檢測開始;然后,在M-樹搜索的每個階段,我們找到并跟隨最佳波束(節點)進行下一階段搜索,直到找到最佳窄波束(葉)。
在有IRS的系統中,還要解決如何實現波束快捷對準的問題。經研究其過程可分為三個階段:第一階段是找到用于IRS的最佳碼本(即最優碼本,反射扇形或寬波束),獲得一對覆蓋BS-IRS和IRS-用戶的寬波束鏈接。在對準的情況下,用戶找到最佳的基于脈沖時隙(功率時隙)的RIS碼字脈沖,如圖7(a)所示。第二階段是當IRS不工作時尋找基站-用戶的窄波束對。首先,用戶檢測到具有最大功率的寬波束對;接著通過快速分層搜索來找到用戶側的窄波束;最后,用戶向BS發送其最佳波束,然后用戶通過快速分層搜索找到最優基站側的窄波束(見圖7(b))。第三階段如圖7(c)所示,旨在RIS開啟時找到BS-IRS-用戶窄波束對。這里有兩條傳播路徑:在第二階段中已確定的BS-用戶路徑;通過第三階段中的第三步確定BS-RIS-用戶路徑。
(1)多波束搜索。上面介紹的是基于單波束搜索方法,對于采用極窄波束和超大規模的MIMO系統,是十分耗時、開銷巨大的,解決方法之一是采用多波束搜索。例如,可利用分組-抽取的方法,即將RIS劃分為多個子陣列并設計它們的多波束碼本,隨著時間的推移控制不同的波束方向。然后,用戶可以通過簡單比較接收信號功率或信噪比,檢測其最佳RIS波束指向。為簡單起見,假設接入點(AP)-IRS鏈路和IRS垂直波束形成已經對準;然后只聚焦IRS與用戶之間的水平波束訓練。但在實際上,IRS位置的信息可能對BS不可用,在此情況下,需要采用上面介紹的聯合BS-IRS-用戶波束訓練(見圖7(c)中第三步及說明)。
(2)人工智能(AI)與IRS的結合應用。在上面所介紹的IRS輔助的UM-MIMO系統的波束管理中,設計的碼本主要基于均勻天線陣列來設計,對一些特殊的天線形態,尚無靈活的優化設計。而AI技術的核心是數據驅動,本身蘊含針對特定場景進行優化處理。作為例子,圖8是在IRS輔助的通信系統中基于深度強化學習(Deep Reinforcement Learning,DRL)波束管理框圖。
需要說明,強化學習是智能體代理(agent)以試錯的方式進行學習,通過與環境進行交互獲得的獎賞指導行為。在動作-評價的環境中獲得知識改進動作方案,以適應環境。目標是動態地調整參數,以達到使所強化信號最大。這里,環境指的是IRS輔助的MIMO系統,通過調整碼本中的碼字,來達到基站-IRS-用戶之間最佳的波束配對。
(3)波束跟蹤。為保證用戶動中通,波束跟蹤,即保持用戶與基站或/和IRS之間的動態對準至關重要。
太赫茲波束跟蹤是在波束賦形的基礎上,通過實時調整天線陣列的相位和幅度,使波束能夠持續對準并跟蹤移動的目標。以圖9所示的自適應接收天線陣列為例,這是一種具有自動調整自身工作參數適應周圍環境變化能力的天線系統,其基本組成包括天線陣列、波束形成網絡和自適應處理器。波束形成網絡對天線陣的接收信號進行復(幅度和相位)加權求和處理,形成所需要的方向圖,實現對天線波束指向的控制即對對方發射波束的跟蹤。加權系數需要在一定的準則下隨時間進行更新。自適應處理器就是用來對波束形成網絡的復加權系數進行實時調整的,它還可分為信號處理器和自適應算法控制器兩部分,其中起決定性作用的是自適應算法,自適應算法是根據一定的優化準則得到自適應波束形成器的最佳加權系數,經過自適應調整過程后達到穩定狀態時的性能,可以用均方誤差(MSE)、信噪比(SNR)、最大似然(ML)和最小噪聲方差(MV)等來度量。此方案涉及復雜的算法和高速的控制系統。
在IRS輔助的系統中,IRS和基站之間的鏈路是固定的,此時基站位置固定,IRS只需要調整與用戶的連接,這可由基站利用先驗的或預測的用戶的波束信息,通過控制器動態地調控IRS陣元中的相移量對用戶波束進行跟蹤。此外,還可利用深度學習預測方法,結合視覺輔助信息,對多移動車輛進行多波束預測和跟蹤。
2.2 通信-感知一體化在太赫茲波束管理中的應用[2][6][7][8][10]
通信-感知一體化(Integrated Sensing and Com-munications,ISAC)是將通信和感知兩個獨立的功能融合,成為一個綜合系統,使各自效益得以增強。一方面,通信系統可利用感知功能硬件與信號處理軟件和頻譜等資源提供諸多感知服務,如定位、電磁波傳播環境、人生命體征等;另一方面,感知結果可用于接入或管理,提高服務質量和通信效率。
圖10是通信-感知一體化的示意圖,包括雷達感知、通信信號及感知、通信與感知結合和專用傳感器感知。其中,雷達感知設備包括微波、毫米波和激光雷達等,通信信號感知包括Wi-Fi信號感知和5G新無線(NR)信號感知,專用傳感器包括攝像機、溫度計、濕度計、壓力計、計算機斷層掃描(CT)、磁共振成像(MRI)等。
如前介紹,通信鏈路一旦建立,即初始的訪問是通過波束訓練完成的。為保證通信質量,發射機和接收器需要對最佳波束對持續跟蹤。通常波束跟蹤方案是利用相鄰信號塊之間時間相關性,即先前估計的波束被用作當前時期的先驗信息。這樣,可以保持波束的搜索空間,因此,在前一個波束為中心的小間隔內避免了冗余導頻的傳輸。盡管如此,接收機仍然需要將最佳波束反饋給每個波束跟蹤周期中的發射機。早期的波束管理正是基于通信協議,需要大量的波束訓練支持,例如,對于快速運動的車輛的波束對準和跟蹤,光靠以往波束訓練將難以奏效,而須借助某些輔助信息(如收、發機位置和周圍環境的幾何形狀/特征等)。
2.2.1 雷達感知的應用
通過雷達感知功能協助建立毫米波/太赫茲波通信鏈接,為此,可采用以下幾種方式:一是將雷達傳感設備安裝在基站上用以輔助通信,或采用部署在路側的網關(RSU);二是將IRS部分陣列用于位置感知;三是共用IRS陣列,通過極化或頻率復用分別用于通信和定位。利用雷達定位、測距等功能,提供運動用戶的位置和運動信息,輔助進行波束搜索和跟蹤。其優點是:
(1)不需要下行鏈路(基站或路側單元(Roadside Unit,RSU)到車輛)導頻:整個ISAC信號塊被用于通信和車輛感測,不再需要專用下行鏈路導頻,減少了下行鏈路開銷,同時提高了雷達估計性能。
(2)不需要上行鏈路(車輛到基站或RSU)反饋:上行鏈路反饋信號被車輛反射的雷達回波信號所代替,減少了上行鏈路開銷(見圖11)。
(3)無量化誤差:在無一體化僅有通信的方式中,在相關信息反饋給基站或RSU之前,需對角度估計量化;而采用ISAC方式僅需RSU接收到的雷達回波,無量化誤差,因此提高了估計精度。
2.2.2 通信感知的應用
通常無線電信號廣泛用于無線通信網絡中的數據傳輸,而在ISAC中,則是進一步利用通信信號對環境進行感知。
(1)Wi-Fi信號感知:Wi-Fi應用廣泛,在幾乎所有的公共和私人空間提供即插即用的互聯網連接,如智能手機,平板電腦、個人計算機、電視、住宅智能傳感器等,它們配置極其密集和而多元化,從而可將Wi-Fi信號感知波形不斷描繪出周圍環境,識別大塊物體的運動(如整個身體運動)和細微的運動(如手指運動或頭部擺動),提供更高的分辨率和改進的識別準確性。
(2)5G NR感知:在3GPP NR標準中,專門為信道估計提供的各種通信信號可以被用作候選感測信號。例如,利用下行鏈路同步信號模塊(Synchronization Signal Block,SSB)產生覆蓋所有方向、隨時間周期性地傳輸多路復用的突發信號,可感知堵塞和跟蹤用戶,及時協助進行波束/單元切換。另外,也可利用SSB檢測阻塞,而利用信道狀態信息參考信號(CSI-Reference Signal,CSI-RS)跟蹤用戶。其優點:一是能全向覆蓋,占用時-頻資源少,降低了檢測開銷和計算的復雜度;二是利用用戶常發的解調參考信號(Demodulation Reference Signal,DMRS)提供實時定位信息用于用戶跟蹤;三是SSB作為一種導頻信號,在較小的空間上是正交的,而和RS在時間上是正交的,并且具有不同用戶的頻率和空間域,從而有助于傳感性能的改善。
2.2.3 通信感知混合信號感知的應用
為了達到超高吞吐量的要求,未來無線通信網絡和雷達系統必須和諧共存。其中,一種方法是雷達感測相對獨立于系統中的通信,并設計出有效的干擾管計算法,通過抑制相互干擾來維持通信與感知兩種功能。另一種方法是精心設計信號波形,達到同時感知和通信的目的,采用這種方法傳輸的信號波形便是通信-感知混合信號。將可能性變為現實的基礎是當通信和雷達采用相近的頻譜如毫米波、太赫茲波時,其信道特性本質上是相同或類似的。這樣,可從雷達獲得的信道信息感知(信道信息是指利用雷達定位、測距等功能,提供運動用戶的位置和運動信息,輔助進行波束搜索和跟蹤),促進高效的通信設計,包括通信-感知混合信號波形設計、信號處理和信號優化等。借助ISAC系統通信-感知混合信號中的雷達功能,可使通信波束跟蹤開銷可以大大減少。
車輛是地面移動速度最快、數量最多的物體,波束管理是保證其動中通的關鍵。為利用通信-感知混合信號進行波束搜索、跟蹤與通信,人們已研制出了一種被稱為路側單元(RSU)的網關。它連接著路側各類設備以及車輛,能夠匯集車路協同路側設施和車輛信息并進行反饋,是實現車路互聯互通、交通信號實時交互的關鍵設備(見圖12)。RSU直接接收來自車輛的消息,如車速、位置、轉向等,并通過接入的運動監測相機、雷達等對路口車流量進行數據分析和密度估算。當車輛、道路發生異常事故等情況,RSU進行信息捕捉并實時上傳至邊緣節點或數據中心處理,同時將其發布給即將行駛到異常路段的裝有車載終端的車輛。這些信息還可以作為交通信號燈調整的直接數據,以達到優化車流的目的。其間利用通信-感知混合信號作為下行鏈路信號,而將車輛的反射回波用于跟蹤和定位。借助RSU內置的雷達功能,從車輛到RSU的上行反饋信號被替換為回波信號。這樣,信道/波束信息可以從回波信號和釋放的上行鏈路中提取,反饋資源可用于傳輸有用的數據。
圖12中,弱勢交通參與者是指非機動車及行人等。
2.2.4 專用傳感器的應用
專用傳感器如攝像機、激光雷達和慣性傳感器等,可獲得環境和通信場景中的輔助(側面)信息,這些信息,增加了波束管理的維度,有助于對用戶位置和動態變化的監測。例如,通過深度學習從基站和/或移動終端的攝像機拍攝的紅綠藍(RGB)圖像中提取的視覺信息,可以實現快速波束跟蹤。在使用這些專用傳感器時,可通過租用方式,以減少與鏈路配置相關的開銷。
2.3 人工智能在太赫茲波束管理中的應用[2]
人工智能(AI)是一門新興的技術科學,旨在研究、開發能夠模擬、延伸和擴展人類智能的理論、方法、技術及應用系統。人工智能是計算機科學的一個分支,其研究領域包括機器學習、計算機視覺、自然語言處理和專家系統等。人工智能“走紅”是因為通過它能讓機器勝任許多極其復雜的工作。近年來,為了增強無線通信的性能,人工智能技術已被廣泛采用,特別是在高度動態的網絡中(如車聯萬物、V2X),在移動性管理、網絡負載和資源管理、信道估計等諸多方面取得了前所未有的成功。就波束管理而言,對于毫米波/太赫茲通信,引入人工智能有三個主要優勢:一是對實際場景中諸多事物之間的非線性復雜關系,可以通過人工智能對其精確地建模,從而進行更為有效的波束管理。相比之下,為了便于處理,傳統的數學方法通常理想化一些條件,而忽略了真實世界非線性因素,致使復雜的波束管理脫離實際。二是由于用戶和散射體的移動性,需要動態地調整最佳波束方向以防止阻塞或失聯,但是傳統的基于波束掃描的方法會付出極大開銷。而人工智能可以很好地適應環境的動態波動,基于人工智能方法,通過定位和利用周圍環境的傳感器信息,可以檢測到堵塞,找到旁通的波束對。三是毫米波/太赫茲通信的最佳波束方向通常由無線環境中具有多個不同位置、大小和形狀的散射體形成的高維特征空間決定。人工智能可用于提取高維度環境特征以輔助波束管理。
基于人工智能算法的波束管理,可以自動提取和應用先前結果的相關信息,來限制后續的搜索區域,也就是賦予了波束管理過程的智能,如此可降低開銷,同時還可使預測精度優于傳統技術。人工智能支持的波束管理對于智能自動化和優化波束形成至關重要,其意義在于提高網絡效率和用戶體驗。利用人工智能進行波束管理,是基于各種訓練模型來實現的。歸納起來,這些訓練可分為兩大類:獨立訓練和協作訓練(見表1)。
2.3.1 獨立訓練及其在波束管理中應用
獨立訓練又稱孤立訓練,指的是訓練人工智能模型的過程僅使用特定的單個數據集或單個任務,而不是將它與其他數據集或任務同時結合起來訓練。這種方法側重于使模型能夠廣泛掌握某一特定技能或了解知識領域,嘗試在同一時間從多個領域或任務中學習。這種訓練在專業應用中具有很強的針對性,但也導致了有限的靈活性和普遍性,限制了在其他任務的推廣。這種訓練模式使用的人工智能技術包括監督學習(Supervised Learning,SL)和強化學習(Reinforcement Learning,RL)。
實現波束的智能化管理,基于三種基本的機器模式,包括監督學習、無監督學習和強化學習,各種人工智能技術已經開發出來并使用。具體來說,監督學習使用標記數據進行訓練,尤其適用于具有足夠多歷史數據的應用進程。其目的是基于示例輸入輸出對,通過學習將特征向量(輸入)映射到標記(輸出)。而強化學習采用最大化結果的動態學習方法,通過反復試驗,重點是在探索(未知領域)和開發之間(指目前的知識)找到一個平衡點。為執行監督學習和強化學習任務,單代理設置人工神經網絡(Artificial Neural Networks,ANN)可以簡單地稱為神經網絡(注:人工神經網絡是從信息處理角度對人腦神經元網絡進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網絡。它是一種運算模型,由大量的節點(或稱神經元)之間相互聯接構成。典型的神經網絡包括三層,即輸入層、隱藏層和輸出層:輸入層為學習代理觀察到的環境狀態信息提供輸入端口;隱藏層提取輸入信息的特征;輸出層對分類做出決定或是回歸),是最重要的框架,因為它們能夠模仿人類的智慧。具有多個隱藏層的ANN被稱為深度神經網絡(DNN)。
2.3.1.1 監督學習的應用
由于其簡單性,監督學習是毫米波和太赫茲波束管理最常用的人工智能技術。最為廣泛使用的有全連接神經網絡(Fully Connected Neural Network,FCNN)人工智能模型、長短期記憶(Long Short-Term Memory,LSTM)神經網絡、卷積神經網絡(Convolutional Neural Network,CNN)和傳統的機器學習(ML),其中FCNN,LSTM和CNN是不同類型的神經網絡。
(1)全連接的神經網絡(FCNN):FCNN是僅由全連接的神經網絡層組成的神經網絡,全連接層指的是神經網絡中每個輸入節點連接到每個輸出節點。例如,有人用深度神經網絡(Deep Neural Network,DNN)來進行毫米波廣域網密集環境下的波束管理和干擾協調。深度神經網絡是一種多層無監督神經網絡,每層網絡的預訓練均采用無監督學習方法;無監督學習逐層訓練每一層,即將上一層輸出作為下一層的輸入。研究表明,DNN屬于FCNN的范疇。又如在車輛場景中,有人采用基于指紋的低復雜度波束對準的數據庫,其中指紋是一組可能的波束對(即到達角(AoA)和離開角(AoD)對),并調用前饋神經網絡,用于智能選擇指紋。
(2)長短期記憶(LSTM)神經網絡:它是一種遞歸神經網絡(Recurrent Neural Networks,RNNs)的擴展版本,LSTM神經網絡被廣泛使用于時間序列數據建模。LSTM神經網絡包含多個LSTM單元,每個單元具有用于存儲特征的存儲單元,使用循環連接從序列數據中提取。通用LSTM單元的關鍵是單元狀態,它通過三個門來進行保護和控制:一個輸入門,一個遺忘門和一個輸出門。其基本思想是,一個信息進入LSTM神經網絡當中,可以根據規則來判斷是否有用。只有符合算法認證的信息才會留下(輸出),不符的信息則通過遺忘門被遺忘掉。據報道,LSTM神經網絡已經成功地應用于增強波束管理過程,這是因為其學習具有長期依賴性的能力。例如,對于無人機通信場景,可用一種基于LSTM的預測波束形成算法來處理因無人機抖動引起的波束對準丟失,其中預測模型是通過利用連續的角度數據(在波束對準跟蹤無人機時,波束的指向角度是隨著無人機飛行連續變化的,也即該角度數據改變是連續的)。在另一種應用案例中,為了減少波束訓練開銷,在毫米波MIMO系統中,有人利用CNN根據寬波束訓練的瞬時接收信號來實現最佳窄波束預測,然后利用LSTM神經網絡跟蹤用戶的移動,進一步校準預測的波束方向。
(3)卷積神經網絡(CNN)。雖然FCNN可以用于學習特征和數據分類,但該架構對于需要大量輸入神經元的數量通常是不切實際的。一些現代的神經網絡,如CNN通過部分連接來簡化它們的連接方式。CNN使用一種數學運算,即至少有一層中用卷積代替一般矩陣乘法。一般地,CNN的基本結構包括兩層,其一為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取,它與其他特征間的位置關系也隨之確定下來。其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等。此外,由于一個映射面上的神經元共享權值,因而減少了網絡自由參數的個數。作為應用一例,是一種在上行鏈路毫米波多用戶大規模MIMO系統中基于CNN的波束對準方法,其中CNN根據毫米波信道模型使用模擬環境進行訓練,然后使用部分波束預測波束分布矢量。又例如,有人基于寬光束測量減少了利用CNN訓練窄波束的開銷,其中應用了波束質量中的空間相關性來提高估計精度。同時,作者利用卷積LSTM神經網絡,設計了一個波束質量捕捉時空相關性的預測模型,用來減少波束訓練的頻度。
(4)傳統的機器學習(Conventional ML):除了先進的人工智能算法,如LSTM和CNN,一些傳統的人工智能/ML也可用于波束管理。利用支持向量機(Support Vector Machine,SVM)就是其中之一。與新的人工智能算法相比,同神經網絡(NN)一樣,SVM的優點是速度更快、樣本數量有限。SVM的主要思想是利用正交向量來構建高維或無限維空間中的一個超平面或一組超平面訓練數據,獲得分隔距離最大的分類。SVM擅長分析數據分類和回歸任務,但最擅長的是分類問題。據此將模擬波束選擇作為一個分類問題,用SVM算法訓練分類器。應用的一個例子是,考慮采用混合波束形成的MIMO系統的上行鏈路,在利用SVM時,為了將每個用戶的上行鏈路信道劃分為幾個不同的類型,每種類型對應于模擬波束。一般地說,每個用戶的模擬波束都比較多,這導致一對其余分類器的訓練數據不平衡。為解決此問題,研究者提出了一種有偏SVM(biased-SVM)算法,其中主要和次要訓練數據使用不同的錯誤懲罰,然后獲得最大化總和率的統計分類模型。又例如,針對混合毫米波系統MU-MIMO下行鏈路,有人研究了模擬波束選擇和用戶調度,使可實現的總和速率最大化。根據信道相關性,使用K均值算法(注:K均值算法是一種迭代求解的聚類分析算法,能實現對樣本的無監督聚類分析)對用戶進行分群。之后,分群和波束映射問題被轉化為多類分類問題,其中多類分類器通過有偏SVM算法進行訓練。為獲得毫米波車對車(V2V)同時通信的平均和速率,還有人提出了一種基于SVM的模擬波束選擇方法,使用迭代的一對一SVM分類器來對抗不平衡的訓練樣本,以提高每輛車用戶的波束預測精度。這些研究結果表明,SVM算法可以選擇低復雜度的模擬波束生成,以更少的計算能力實現很高的準確性,故而成為首選。
2.3.1.2 關于強化學習的應用
盡管監督學習簡單,但因缺乏與環境交互,需要大量的訓練樣本以確保優異的性能,故而限制了它的應用。相比之下,強化學習(RL)更加通用,適合于一般的應用場景,因為它不需要標識,并能以真正自主的方式運行。RL場景的典型框架是一種通過與環境交互,學習狀態到行動的映射關系,以獲得最大累積期望回報的方法。狀態到行動的映射關系也即策略,表示在各個狀態下,智能體采取的行為或行為概率。
(1)多臂賭博機問題(Multi-Armed Bandit (MAB) Problem)的建模應用。(注:MAB問題源于賭博策略研究,其場景是:有一個賭博機,一共有k個搖臂,玩家每次投一個游戲幣后可以按一個搖臂,每個搖臂按下后都有可能吐出硬幣作為獎勵,但是每個搖臂吐出硬幣的概率分布是未知的,玩家的目標是獲得最大化的累積獎賞。MAB中的每個搖臂都是一個選項,故而歸結為選擇問題,即想要獲得最大化的累積獎賞,最好的辦法就是試一試,但是不能盲目地試,而是有策略地試一試,這些策略就是bandit算法。)有人基于MAB提出了一種利用波束間的相關結構和信道起伏波動先驗知識的分層波束對準方案,以加速識別最佳波束對的過程。他們設計了在平穩隨機環境下MAB問題中波束的對準問題,目標是按順序選擇波束,在某段時間內達到最大化的累積接收信號強度。另一案例是將波束對準和跟蹤問題變成一個隨機的bandit問題,來獲得期望累積有效的可實現的速率最大化。他們基于相鄰時隙中兩個最佳波束的波束標號(index)差/偏移定義每一臂;而在時不變信道的平穩bandit的應用中,是將每個碼字/波束定義為一個臂。
在傳統的MAB設置中,該算法僅關注對所選搖臂的獎勵,而不顧及其他,這在實踐中可能會導致很大的性能損失,甚至失敗。相比之下,上下文賭博機(contextual bandit)作為MAB的擴展,則結合了一些外部環境信息(以稱之為上下文(context))轉化算法為決策,使其適用于現實世界的應用(注:上下文意指前后關系,事物的來龍去脈)。其中,每一輪的獎勵取決于背景和選擇的搖臂兩者。引入一些上下文信息(如位置信息)作為在復雜系統和環境中適合的波束管理方法。據此,有人研究了應用于毫米波車載通信的一種上下文和社會感知的在線波束分配方案,其中將粗略的到達方向信息(即東,西;南,北),選作為車輛的上下文。同時,鄰近的車輛及其乘客之間則傾向于改進波束覆蓋效率。對于要求波束對準的通信,鏈路可能受到環境快速改變和實際波束特性不理想的影響。為解決波束漂移的影響,可采用不同波束寬度的多分辨率的波束用于數據通信,而窄波束則用于波束訓練。
(2)馬爾可夫決策過程(Markov Decision Process,MDP)的應用。實際上,MAB問題相當于一個單一狀態的MDP,即馬爾可夫決策過程,這已被廣泛研究以增強波束管理的性能(注:馬爾可夫決策過程是指決策者周期地或連續地觀察具有馬爾可夫性的隨機動態系統,序貫地做出決策。即根據每個時刻觀察到的狀態,從可用的動作集合中選用一個動作做出決策。系統下一步(未來)的狀態是隨機的,并且其狀態轉移概率具有馬爾可夫性。決策者根據新觀察到的狀態,再做新的決策,依次反復地進行。馬爾可夫性是指一個隨機過程未來發展的概率與觀察之前的歷史無關的性質。馬爾可夫性又可簡單地敘述為狀態轉移概率的無后效性。狀態轉移概率具有馬爾可夫性的概率過程即為馬爾可夫過程。馬爾可夫決策過程又可看作隨機對策的特殊情形。對策的一方是無意志的。馬爾可夫決策過程還可作為馬爾可夫型隨機最優控制,其決策變量就是控制變量)。MDP給出了一個從互動中學習的簡單框架來實現目標,如圖13所示。
在賭博機問題中,是估計每個搖臂/動作的價值。而在MDP中,該值是對每個狀態中的每個動作進行估計,或者是對每個狀態給出最優的動作選擇。圖13中,st表示某一時間點t的環境狀態,at表示代理在該狀態中采取的動作,rt是對采取行動at的直接獎賞;然后進入下一個狀態st+1,rt+1是在時間點t+1的獎賞。在每一時間點t,代理接收當前狀態st并獎賞rt。如此從可使用的行動選擇一個at發送給環境。環境移動到新的狀態st+1,并獎賞rt+1。在經典的MDP中,代理可以充分感知整個環境狀態。但是對于大多數真實世界的移動性應用程序,環境實際上只是部分可觀察的。這種部分可觀測性由部分可觀測的MDP (POMDP)來描述。以其建模用于解決波束管理問題的兩種最廣泛使用的RL算法是:
①深度Q網絡(Deep Q-network,DQN)表示神經網絡功能的最佳行動值,取代Q-學習中的Q表(狀態-動作與估計的未來獎賞之間的映射表)。DQN將Q學習和DNN結合起來,被認為是具有無限狀態和離散動作的環境中使用的主要算法。有人將波束訓練問題公式化為MDP,其中每個動作被定義為波束訓練碼本的子集,每個狀態被定義為由用戶的等效信道矢量所有分量的模形成的實向量疊堆的矩陣。由于狀態是連續的,而動作是離散的,可用DQN求解MDP。但DQN的一個缺點是它有時會大大高估動作的價值。一旦發生高估,將對實際造成負面效應。為解決此問題,采用具有兩個神經網絡的DQN (DDQN),在目標進入動作選擇和行動評價時,分解最大運算,使其能更穩定和可靠地學習。
另一個例子是,研究用于毫米波MU-MIMO系統總和速率最大化的波束選擇和數字預編碼的聯合設計,波束選擇問題采用MDP和DDQN算法來求解,當BS作為代理時,每個波束被建模為一個行動,信道矩陣和用于波束選擇的指示張量構成了狀態空間,通過利用波束空間信道的稀疏性降低其維度。
②Actor-Critic(AC)算法是一種強化學習方法,涉及策略網絡(Actor)和價值網絡(Critic)。策略網絡負責生成動作,而價值網絡負責評估動作的質量。通過共享或獨立的神經網絡結構,這兩個網絡是被同時訓練的。在訓練過程中,策略網絡根據價值網絡的評分(TD目標)進行更新以優化動作選擇,而價值網絡則通過TD學習提高評分的準確性。整個過程旨在提升智能體代理的性能和價值網絡的精確性。在波束管理應用方面,有人采用AC算法來解決毫米波回程異構(混合供電)網絡中聯合波束寬度管理和資源(發射功率、信道和帶寬)分配問題,以達到長期成本效率的最大化。作者(有人提出采用AC算法)首先將動作空間中的離散變量轉換為連續變量得到一個連續的狀態行動空間,然后采用DNN作為AC網絡的功能(函數)逼近器。在他們的算法中,有兩個DNN評估給定的策略:一個是使用直接經驗的外在價值網絡(Critic)DNN從環境中取樣以產生外部優勢;另一個是計算內部優勢值的內在價值DNN。在智能波束管理中,一種主要的AC RL算法用來訓練深度RL (DRL)代理,即深度確定性策略梯度(DDPG),是在連續的動作空間工作的。
另一案例是,有人研究了時變條件下毫米波多輸入單輸出(MISO)通道的波束跟蹤問題。其中到達角(AoD)信息對于發射機是未知的,即屬于無模型場景,可將其重新表述為部分可觀測的POMDP問題,其中在一個波束跟蹤周期間發射的訓練波束被定義為該期間的動作。為處理這種連續和高維的動作空間,研究者借助于DDPG來獲得有效的訓練波束序列設計策略。
2.3.2 協作訓練及其在波束管理中的應用
協作訓練是基于機器學習(ML)的人工智能,指的是一個過程,其中多個模型、系統或者代理在訓練中一起工作,共享數據,見解或學習策略。這種合作可以以各種形式和在不同的應用中出現,如聯合學習(Federated Learning,FL)或遷移學習(Transfer Learning,TL)。協作訓練是利用集體優勢和對多個模型或數據源的洞察,提高學習效率,改善性能,以及獲得更好的泛化能力。在單一模型或方法可能無法充分捕捉數據或任務的細微差別時,這種訓練是特別有用的。
人工智能/深度學習(AI/DL)技術能夠自動分析無線網絡中產生的大量數據,并進而優化高度動態和復雜的網絡。然而,數據收集和傳輸不僅帶來了沉重的通信開銷,而且引起了對隱私泄露的嚴重關注。解決這些問題的直觀方法是使用本地生成的實時數據,在網絡邊緣如基站、路側單元和設備,直接進行訓練和推理。因為每一邊緣可能只保存一個小的訓練數據集,協作訓練和推理是提高模型準確性和性能泛化的潛在方法。聯合學習(FL)和分裂學習(Split Learning,SL)是當前受到廣泛關注的增強無線網絡的分布式協作人工智能方法。當缺少訓練數據時,另一個有希望的解決方案是引入遷移學習(TL),通過知識遷移方式提高培訓效率,這實際上可以看作是一種特殊的多個代理或任務之間的協作類型。此外,還有一些并行學習的訓練方式。
2.3.2.1 聯合學習(FL)的應用
在解決網絡邊緣對數據隱私安全性問題時,可供選擇的FL是一種分布式協作人工智能范例。它使用本地存儲的數據訓練共享的全局模型,已經應用于許多場景,如物聯網。有人研究通過FL建立使計算遲延和能耗最小化,以及提高學習速度的波束管理的AI模型,按是否有中央服務器,可分為集中式和無中心兩種典型FL架構。集中式FL包含一個中央服務器和一組客戶端執行一個FL模型,是波束管理中最流行的使用的FL架構,如圖14所示。
已有研究采用一種動態波束配置算法,通過周期性感知瞬時用戶分布,來提高雙層異構超密集的毫米波系統的波束利用率。波束管理問題被公式化為具有大狀態-動作空間的MDP,使用聯合DDQN進行求解。具體來說,在每一輪開始時,宏基站將全局模型的當前狀態發送到毫米波基站;之后每個毫米波基站首先執行數據清理操作,選擇參與本地培訓的用戶,保證訓練數據的質量和多樣性;然后基于其覆蓋范圍內參與者的位置信息,單獨訓練其局部波束配置模型;隨后將本地更新信息發送到宏基站,接著通過聯合平均將這些更新信息應用于全局狀態。
2.3.2.2 分裂學習(SL)的應用
分裂學習又稱拆分學習,是在邊緣/云服務器和邊緣客戶之間進行拆分的人工智能模型。每個邊緣節點只訓練模型全部的一部分。這種模型分裂架構能支持更高級別的隱私和在通信與計算之間更好地權衡。因此它特別適用于大尺度的DL。與FL相比,分裂DL提供了靈活的、即使在小內存和電池有限的客戶端(如用于移動/物聯網設備)中訓練DNN的方法。
有人提出了一種在毫米波車聯網(V2I)中,利用激光雷達(注:激光雷達是以發射激光束探測目標的位置、速度等特征量的雷達系統)和位置輔助的基于改進分裂學習的波束選擇方法,其中車輛和服務器在私有環境中共同訓練NN尋找最佳波束對的方法,在保護用戶隱私的同時提高了正確預測概率。在該方法中,神經網絡的輸入是一個包含激光雷達和位置信息的二維矩陣,輸出是預測的top-k(注:top-k是從分數集合中找到最大或最小元素的機器學習的操作)波束對。在訓練期間,車輛和服務器之間的通信通過RSU進行。
2.3.2.3 遷移學習(TL)的應用
遷移學習的總體思路是將利用來自一個通常有大數據集域預先訓練好的模型的知識,復用到另一個沒有太多數據的領域。就波束管理而言,有人提出了在毫米波多連接系統中,采用TL加速波束搜索過程的并行DNN,其中是利用亞-6 GHz(低于6 GHz的頻段)與毫米波頻段空間的相關性,將亞-6 GHz的信道信息映射到毫米波波束標號(index),在并行DNN中的兩個深度神經網絡(DNN)結構共享公共輸入,即基于來自用戶到兩個基站的亞-6 GHz信道信息,首先訓練一DNN輸出一個給基站的最佳波束標號,然后把學到的特征轉移到另一個DNN,來預測另一基站的最佳波束。顯然,在這里TL習慣于處理具有相關的任務,以降低訓練的復雜度而提高系統性能。使用DNN的主要瓶頸是,在定位輔助波束對準程序中,需要大型數據集來調整它們的可訓練參數。
2.3.2.4 平行學習(PL)的應用
使用平行學習(Parallel Learning,PL)這個術語,是因為它的目標是將模型跨多個學習過程的更新計算是并行進行的。一組參與者可以在一臺機器上同步訓練。有人為解決高移動性的毫米波車載網絡中波束關聯/切換問題,開發了并行Q學習框架。在其設計中,基站覆蓋范圍內的車輛充當活動的學習者,幫助系統同時收集數據,基于在BS上可以快速了解到環境信息并在每個決策時期給定當前狀態(即接收信號強度指示和連接波束),每輛車選擇連接基站發送的波束,觀察連接波束的數據速率以及下一個狀態。觀察結果隨后被發送到基站更新全局Q表。車輛獨立學習,但共享同一個全局Q表。因此,所提出的并行Q學習算法收斂于最優策略,比傳統的Q學習快得多。
3" "結束語
毫米波、太赫茲波的M-MIMO和UM-MIMO將在6G移動通信中獲得廣泛的應用,但其波束管理也將面臨諸多嚴峻的挑戰,原有的技術已力不從心。借助IRS、采用通信感知一體化技術和人工智能,將提供切實有效的解決方案,這三個方案不是孤立的,特別是由于人工智能水平的突飛猛進,可滲透到IRS輔助的系統和ISAC中去,使復雜的波束管理問題迎刃而解。
參考文獻
[1] “Technical specification group radio access network; Study on new radio access technology Physical layer aspects (Release 14)”[J]. 3GPP TR 38.802 V14.2.0, pp. 14-17, Sept. 2017.
[2] Qing XUE,et al.A Survey of Beam Management for mmWave and THz Communications Towards 6G[J]. Citation information: DOI 10.1109/COMST.3361991.2024.
[3] BOYU NING, et al. Beamforming Technologies for Ultra-Massive MIMO in Terahertz Communications[J]. IEEE Open Journal of the Communications Society, Volume 4,614-658. 2023.
[4] Xinyu Gao, et al. Fast Channel Tracking for Terahertz Beamspace Massive MIMO Systems[J]. IEEE TRANSACTIONS On VEHICULAR TECHNOLOGY, Vol. 66, No. 7, 5689-5696, July, 2017.
[5] WISSAL ATTAOUI, et al. Initial Access amp; Beam Alignment for mmWave and Terahertz Communications[J]. IEEEAccess, Digital Object Identifier 10.1109/ACCESS.2022.3161951,35363-35397
[6] 陳智,等.太赫茲通信感知一體化技術綜述[J].中國科學:信息科學,
2024(05):1215-1235.
[7] Fan Liu, et al. Integrated Sensing and Communications: Toward Dual-Functional Wireless Networksfor 6G and Beyond[J]. IEEE Journal on Selected Areas in Communications, Vol. 40, No. 6,1728-1766, JUNE, 2022.
[8] Zhiqing Wei, et al. Integrated Sensing and Communication Signals Toward 5G-A and 6G: A Survey[J]. IEEE Internet of Things Journal, Vol. 10, No. 13, 11068-11092, JULY 2023.
[9] 甘仲民,等.毫米波通信技術與系統[M].北京:電子工業出版社,2003.
[10] Chamitha De Alwis, et al. Survey on 6G Frontiers: Trends, Applications,Requirements, Technologies and Future Research[J]. IEEE Open Journal of the Communications Society, Vol.2, 836-886, 2021.