吳建軍,鄧 娟,彭程暉,王 君,楊 立,劉光毅,王 飛,何宇鋒,孫萬飛,艾 明,李文璟,戴翠琴,袁雁南,石 聰,許 陽,楊 旸0,張宏綱,李榮鵬
(1.華為技術有限公司 無線技術實驗室,上海 201206;2.中國移動通信有限公司研究院 未來研究院,北京 100053;3.中興通訊股份有限公司,江蘇 南京 210012;4.中國電信股份有限公司研究院,廣東 廣州 510630;5.中信科移動通信技術股份有限公司,北京 100083;6.北京郵電大學 計算機學院,北京 100876;7.重慶郵電大學 通信學院,重慶 400065;8.維沃移動通信有限公司,北京 100083;9.北京歐珀通信有限公司,北京 100026;10.特斯聯科技集團有限公司,北京 100027;11.浙江大學 電子與信息工程學院,浙江 杭州 310027)
隨著互聯網興起產生的海量數據及摩爾定律帶來的計算力的突飛猛進,從4G移動互聯到5G萬物互聯,移動通信網絡的傳輸速率、傳輸時延、連接規模等關鍵性能指標不斷提升,應用場景不斷豐富。
隨著5G系統全面商用,面對5G運營中出現的基站建設成本升高、網絡復雜性增加等問題導致的增量難增收的窘況,電信運營商迫切需要探索合理高效的網絡架構和部署方式來保證網絡建設的經濟性。面對5G網絡復雜化、業務差異化、用戶需求多樣化等一系列挑戰,利用人工智能(Artificial Intelligence,AI)技術進行網元智能化、網絡智能化和業務智能化,是業界普遍認同的技術路徑。比如在網絡運維方面,利用AI的數據感知、智能分析能力,可在海量運維數據中抽取隱含的關聯特征和規則,追溯根因、定位故障,進行主動式的網絡運維,實現全面的網絡端到端部署自動化。目前,AI的數據驅動特性、自動控制能力、各種學習方法已經被成功地用于解決通信網絡中的一些問題。業界普遍認為:引入AI技術后的5G網絡,將具備更廣闊的覆蓋范圍、更大的通信容量、更小的傳輸時延和更多的用戶連接能力,實現更加泛在、智能、安全、可信的公共移動信息基礎服務能力。
5G開啟的萬物互聯的場景連接,將千行百業接入到了移動通信網絡,帶來了新的場景和無處不在的數據。針對未來,6GANA等組織提出了6G網絡的作用之一是基于無處不在的大數據,將AI的能力賦予各個領域的應用和場景,通過廣域覆蓋和場景的智能適應,創造一個“智能泛在”的世界[1-6],因此,6G網絡需要構建內生的、泛在的和分布化的AI能力。值得注意的是:當前5G網絡中應用AI的模式大多是基于場景驅動的“外掛式”和“疊加式”,無法較好發揮AI技術的效能。6G需在網絡架構設計上支持網絡內生AI,一方面根據6G網絡傳輸與控制需求以及所需完成的任務特征進行6G網元和網絡的智能化,另一方面在網絡內通過統一的架構設計來提供完整的AI環境和AI服務(AI as a Service,AIaaS),提供業務所需智能[7-10]。
如圖1所示,從無線網絡演進歷史來看,2G到5G分別提供了不同類型普惠性質的基礎服務,其背后都離不開原生架構能力的支持,即通過原生設計來支持內生功能。例如2G的普惠性質基礎服務是語音服務,與此匹配的2G端到端網絡架構就是為語音原生設計的;到了3G和4G,普惠性質的基礎服務是數據服務,但3G架構還不能完全算是原生的數據架構,更多是將數據服務疊加在傳統網絡基礎上;4G架構則是完全基于數據服務來原生設計的,語音等傳統業務都要基于基礎數據服務來提供(VoLTE);5G提供的基礎服務是萬物互聯,從URLLC、mMTC、eMBB到切片等[11-12],5G設計了很多原生的架構能力來支持,但在智能化領域,5G更多是采取如NWDAF進行功能疊加或是單獨提供AI算法等外掛的方式。文獻[13-14]詳細闡述了5G網絡中基于場景驅動的“外掛式”和“疊加式”的網絡智能化實踐面臨諸多挑戰,包括數據獲取困難、數據質量難以保證、AI模型的應用效果缺乏有效的驗證和保障手段等,這些因素導致了人工智能的性能和效率低于預期。面對上述挑戰,6G網絡需要原生智能的網絡架構。

圖1 無線網絡架構演進歷史
6G網絡原生智能架構,就是要在網絡內通過統一的架構設計來提供完整的AI環境和AI服務,由此引入了網絡AI的理念,以明確區分現有的云AI。網絡AI主要面對高實時性能、高安全隱私或低綜合能耗等需求,在網絡內進行AI訓練、驗證或推理[15],提供適應不同應用場景的智能能力;網絡AI可以是云AI的有益補充[16]。
網絡AI的主要場景可以分為三個類別:網元智能、網絡智能和業務智能,如圖2所示。其中網元智能是指網元設備的原生智能化;網絡智能是指多個智體網元協同產生網絡級的群體智能;業務智能是指整個無線通信系統為業務提供的智能服務,一般由外部業務觸發,無線網絡負責執行,其中的業務邏輯可以對無線通信系統透明。

圖2 6G網絡AI的場景需求
網元智能場景包括傳統的無線資源管理(Radio Resource Management,RRM)、無線傳輸技術(Radio Transmission Technology,RTT)的智能化,以及網元本身的原生智能化,如網元智能體。網元智能可以發生在網元、終端的功能和協議棧,影響從空口物理層到高層,如RTT智能化算法主要在PHY層,RRM智能化算法主要是MAC層(如調度、MIMO配對、功率控制、MCS選擇等算法)和RRC層(如切換、負載均衡等算法)。
網絡智能場景主要是網絡系統層面的優化場景,最為典型的場景是自動駕駛網絡(Autonomous Driving Network,ADN),即通過數據與知識驅動的智能極簡網絡,實現網絡自動、自愈、自優、自治,使能新業務并實現極致客戶體驗、全自動運維、高效資源和能源利用[17]。網元智能和網絡智能從網絡和AI關系的角度,可以認為是AI4NET(AI for Network),即使用AI來輔助通信效率、用戶業務體驗等的提升。
業務智能場景主要是第三方通過網絡為AI提供多種支撐能力,使得AI訓練/推理可以實現得更有效率、更實時,或者提升數據安全隱私保護等。例如用戶可以利用6G網絡的基礎模型、數據集、算力、連接等服務,輔助和優化其業務的AI訓練或推理,從而更高效、安全地獲得期望的AI模型,例如6G網絡可以為完全自動駕駛汽車提供QoS預測和保障的輔助服務,從而進一步降低交通事故的發生風險。特別注意的是,業務智能不是說6G網絡要做業務本身,而是網絡為業務的智能化提供更好的資源、功能或服務方面的支持。業務智能從網絡和AI關系的角度,可以認為是NET4AI(Network For AI),即基于6G網絡的原生AI能力輔助業務提升效率和體驗。
傳統通信系統是以通信連接為中心的設計,其典型的應用場景是為特定終端之間、或為終端與應用服務器之間提供連接,網絡在架構上為會話提供了完整的生命周期管理機制(例如端到端通信隧道的創建、修改、刪除、錨點遷移等流程)和QoS保障。其主要目的是為數據傳輸提供連接、支持用戶移動性、保證其業務體驗。在資源類型上,非云化部署的設備通常采用專用算力資源,對計算和存儲資源的需求量均不高。與傳統通信業務不同,AI屬于數據和計算密集型業務,為使6G網絡具備原生的AI能力,6G網絡需引入新的資源維度,包括異構的算力資源和存儲資源、新的計算任務(AI相關計算)以及新的數據類型(AI計算輸入輸出數據)等,需要設計相應的管控機制。另一方面,6G網絡將具備更全面的感知能力,包括目標檢測、定位(距離和角度)、測速和3D成像,并將引入基于雷達回波的方案[18]。上述AI能力、感知能力等網絡新能力將涉及到多節點場景下算力、連接、算法、數據資源的協同和調配,以共同完成某個特定的目標。本文將在6G網絡層面通過多維度資源協同來完成某個特定目標的過程定義為“任務”。面向6G網絡中將出現的不同類型、數量眾多的任務,6G網絡層面需要提供任務相關的四要素(連接、計算、數據、算法)協同完整的任務生命周期管理機制和任務QoS保障。從網絡架構角度,6G將從會話為中心轉為任務為中心,如圖3所示。

圖3 以任務為中心的架構
6G網絡需要原生支持網絡AI和感知等新能力,無線網絡架構應發生根本性改變,體現為:
變化1無線網絡系統中的管控對象從“會話”轉變為“任務”。
變化2調度資源從連接資源轉變為連接、計算、數據和算法的四要素資源。
變化3基于任務粒度的管控,實現四要素的深度協同,提供高效的任務運行環境。
為了方便理解,對任務、任務管控進行進一步說明。
2.1.1 任務
現有的通信網絡包括核心網(Core Network,CN)、承載網和無線接入網(Radio Access Network,RAN),包含的典型網元有核心網網元、接入網網元和用戶設備(User Equipment,UE)等。
如上所述,任務是指網絡新能力涉及到多節點場景下連接、計算、數據和算法資源的協同和調配,以共同完成某個特定的目標。本文將在6G網絡層面通過多維度資源協同來完成某個特定目標的過程定義為“任務”。根據不同目的,任務分為AI推理、AI訓練、計算、感知等多種類型。
根據參與任務的節點數量,又可以分為協作類和非協作類:① 單個節點執行的為非協作類任務,例如可以在UE單獨執行,也可以在RAN或CN網元上單獨執行。② 涉及到兩個或多個節點的協作任務。例如協作節點可以是UE和RAN、UE和CN、RAN網元間、CN網元間,以及RAN和CN等。
圖4是以AI推理任務為例,說明單點、兩點、多點任務的工作機理;AI訓練任務、計算任務、感知任務等類似,不再贅述。

圖4 AI推理模型示意圖
圖4中,模型1是指在基站或UE側進行單點推理,或者UE請求基站側推理;模型2對應兩節點聯合推理,UE先經過推理獲得輸出1,上傳到基站側并作為基站推理的輸入,基站獲得輸出2并使用,或發送給UE使用;模型3對應多節點聯合推理,3個UE先各自推理并分別將輸出1、輸出2、輸出3發送給基站,基站整合后作為自身推理的輸入,推理得出輸出4并使用(即基站使用推理結果)。
通常來說,針對一個具體任務的執行,需要以下兩個維度的協同。
四要素協同一個任務的執行可能同時需要連接、計算、數據、算法的部分或全部四要素資源。例如,在任務部署階段提供四要素資源的配置,以及在任務執行期間進行實時的四要素資源調度。
多節點協同首先,在傳統通信網絡中連接相關的計算處理大多是在單個網元內實現的,網元間一般無需算力共享和算力協同。隨著越來越多的AI場景伴隨著大規模的AI訓練、大模型的AI推理和海量的感知圖像處理,這些對算力的需求量遠超傳統網絡,通過簡單的擴容逐個網元的計算能力,會導致整網部署成本過高。而分布式計算可通過算力共享的方式來協同完成任務,因此協同任務(即涉及多節點協同的任務)需要節點間算力層面的協同。其次,隨著社會的進步和數據所有權意識的提升,數據隱私保護的要求也越來越高,協同任務需要多節點間進行數據層面的協同。例如UE的原始數據由于隱私原因無法上傳到網絡進行訓練,而聯邦學習通過協同學習和梯度傳遞的方式在一定程度上解決了該問題。最后,為了支持內生AI,模型的訓練需要消耗較大的計算和存儲資源,一個好的模型也需要在網絡內共享以提升整網效率,協同任務需要多節點間進行AI模型層面的協同。
2.1.2 任務管控
任務管控是指伴隨在整個任務運行過程中的管理和控制行為,包括任務部署階段多節點協同的調配(例如參與節點的選擇)、任務的生命周期管理和控制(例如任務的創建、修改、暫停、刪除等)和四要素參數配置(例如參與節點使用的輸入數據、模型參數等),以及在任務執行期間為了滿足QoS要求進行的QoS監控和資源調度。其中,資源調度包括多節點協同的調配(例如協同節點的增加、刪除、變更等操作)和四要素資源協同的調度(例如參與節點的四要素變更或參與節點自身的資源分配)等。
需要澄清的一個問題是:在引入任務為中心架構后,會話為中心的架構是否依然存在?一種方式是任務為中心完全融合會話為中心,即基于純連接的會話管理流程作為任務為中心的其中一個分支運行(四要素中僅有連接需求);另一種方式是任務為中心和會話為中心的兩種架構和流程同時存在,例如當發起會話管理流程時啟用會話為中心架構,當發起計算、AI、感知、數據處理等6G新業務時啟用任務為中心架構。兩種方式對于方案的統一性、與5G純連接系統的兼容性、標準復雜度、部署靈活性等存在不同的影響;由于篇幅有限,本文不展開討論。
面向各行各業對6G網絡AI千差萬別的需求,將用戶的需求轉化為網絡可以理解的對網絡AI服務能力的要求是亟需解決的問題。6G網絡將不再只是服務于傳統通信業務的管道,不同的智能應用場景對AI服務的質量將有著不同的需求,需要一套指標體系通過量化或分級的方式傳達用戶的需求以及網絡編排控制AI各要素(包括連接、計算、數據和算法等)的綜合效果。對此,本文提出AI服務質量 (Quality of AI Service,QoAIS)的概念,QoAIS是對AI服務質量進行評估和保障的一套指標體系和流程機制。
6G網絡的AI服務可以分為AI數據類、AI訓練類、AI推理類和AI驗證類,每一類AI服務均需要一套QoAIS[19]。在具體指標體系設計上,傳統通信網絡的QoS主要考慮通信業務的時延和吞吐率(MBR、GBR)等與連接相關的性能指標[20-21],6G網絡除了傳統通信資源外,還將引入分布式異構算力資源、存儲資源、數據資源、AI算法等AI服務編排的多種資源元素,因而需要從連接、算力、算法、數據等多個維度來綜合評估網絡內生AI的服務質量。同時,隨著“碳中和”和“碳達峰”政策的實施、全球智能應用行業對數據安全性和隱私性關注程度的普遍加強,以及用戶對網絡自治能力需求的提升,未來性能相關指標將不再是用戶關注的唯一指標,開銷、安全、隱私和自治方面的需求將逐漸深化,從而成為評估服務質量的新維度。而不同行業和場景在這些新維度上的具體需求也將千差萬別,需要進行量化或分級評估。因此,QoAIS指標體系從初始設計時,即需要考慮涵蓋性能、開銷、安全、隱私和自治等多個方面,需從內容上進行擴展[22]。
表1提供了一種針對AI訓練服務的QoAIS指標設計方式。

表1 AI訓練服務的QoAIS指標體系
QoAIS 是網絡內生AI 編排管理系統和控制功能的重要輸入,管理編排系統對頂層的QoAIS進行分解和映射,生成AI任務的QoS需求,再將任務QoS映射到對連接、計算、數據和算法等多維度資源的QoS 要求上,通過管理面、控制面和用戶面相關機制的設計獲得持續保障。圖5為AI用例、AI服務和AI任務的邏輯關系,需要注意的是,AI 用例是用戶在智能應用場景下向網絡提出的一次AI 服務請求,一個AI 用例可能涉及到一類或多類網絡內生AI 服務(如AI 訓練、驗證和推理服務)的調用。

圖5 AI服務(QoAIS)和AI任務(任務QoS)間的邏輯關系示例
面向通信連接的管理和控制,5G網絡內的通信數據主要包括通信測量數據、用戶簽約數據和網絡管理數據等。隨著6G服務從通信連接擴展至感知、計算和AI等服務,6G網絡內的數據將增加感知測量數據、計算測量數據、AI數據等。面向任務采用統一方案收集、傳輸和提供數據是6G網絡高效運轉的重要基礎之一。面向任務的數據功能是數據提供者和數據消費者之間的抽象功能,解耦數據消費者和物理數據提供者。特別是存在多個數據提供者或多個數據消費者時,數據功能有助于維持數據的完整性,通過重用性提高數據服務效率。6G數據功能旨在高效支持端到端的數據采集、傳輸、存儲和共享,解決如何將數據方便、高效、安全地提供給網絡內部功能或網絡外部功能,在遵從隱私安全法律法規的前提下降低數據獲取難度、提升數據流動效率和數據消費體驗。如圖6所示,根據潛在的6G數據功能范圍,可將數據功能分為5個類別。

圖6 面向任務的數據功能
① 數據收集/分發。為數據生產者和消費者提供基礎數據收集的發布和訂閱機制,提升數據收集/分發效率。
② 數據安全隱私。借助安全和隱私保護技術為用戶和網絡按需提供高質量的可信數據服務,既保證用戶和網絡的隱私保護,又保證數據的安全不可篡改及可溯源性。
③ 數據分析。疊加利用模型、算法、知識和算力等提供統計信息、預測信息、網絡異常分析和優化建議等信息,提升網絡內部功能和網絡外部功能的數據消費體驗。
④ 數據預處理。對所收集的數據進行格式轉換、去噪和特征提取等通用工具類預處理滿足智能應用需求。
⑤ 數據存儲。存儲和檢索上述所收集的數據,以及為數據安全隱私、數據分析或數據預處理等相關數據處理功能提供存儲支持。
單個任務的生命周期可以分為兩個階段:任務部署和任務執行。針對這兩個階段,存在如下問題:
問題1任務部署階段,面對無線系統中算力的固有特征(分布式、異構、海量、動態等),以及任務部署的靈活、實時等訴求,基于現有的CN、RAN、UE多級架構,如何設計出高效的任務部署系統?
問題2任務執行階段,如何達成AI任務在無線系統中執行期間的QoS保障和效率最優?
下面將重點闡述針對上述架構變化及技術問題的架構方案,包括邏輯架構、部署架構、接口、協議和流程、任務QoS保障、AI用例自生成和任務應用實例及其對應的四要素協同等。
以任務為中心的架構包括兩大部分:網絡AI管理編排和任務管控,如圖7所示。基于任務管控各階段對實時性不同要求、任務管控范圍等因素的考慮,本文新引入網絡AI管理編排(Network AI Management & Orchestration,NAMO),來完成從AI業務到任務的分解、映射和AI業務流編排,NAMO通常是非實時的,一般部署在管理域;任務管控則是在控制層引入任務錨點功能(Task Anchor,TA)、任務調度功能(Task Scheduler,TS)、任務執行功能(Task Executer,TE),對任務進行分層的控制,以在任務范圍和任務實時調度之間尋求平衡。

圖7 以任務為中心的邏輯架構
僅通過管理域的NAMO對任務進行管控,存在如下問題:
① NAMO無法直接管理UE,涉及UE的任務需通過應用層來部署,網絡無法感知,因此也無法實現四要素協同來管控和保障任務QoS。
② NAMO信令時延較大(一般是分鐘級別),導致任務管控不及時,難以滿足嚴格的任務QoS保障要求。
③ NAMO管理的節點多,如果進行高度集中的任務管控,信令消耗大,容易成為瓶頸。
因此,本文引入一個任務錨點TA來負責任務的生命周期管控;該節點部署在控制面,能夠保證信令的實時快速傳輸(毫秒級別),使得任務控制更為實時和高效。在任務范圍較大的場景,TA部署位置可能較高(例如部署在核心網)。TS的部署位置取決于四要素資源控制的實時性需求,比如控制連接資源的TS部分需要部署在靠近TE的位置,以便更實時地感知連接資源狀態,以及進行實時QoS質量監控和資源調整。
基于上述的TA、TS、TE三級架構,下面分別闡述每個邏輯功能的特性。
任務錨點功能(TA)TA負責任務的生命周期管理,基于任務QoS需求完成任務部署、啟動、刪除、修改、監控等,包括調控四要素資源來進行任務的QoS保障。
任務調度功能(TS)TS負責任務的控制,在任務實例的部署過程中,TS會建立并維護任務相關的上下文信息,從而對任務進行控制。針對任務控制功能,TS主要有三大核心特性:其一,TS需要接受TA的管理控制。TS不能作為網絡架構外的功能獨立存在,需要由TA來管理控制。其二,TS負責任務執行的實時控制,實現通算深度融合。TS實時感知網絡環境的變化,如終端切換、鏈路狀態變化等,通過自身或者通知TA來實時調整任務配置,保障任務的順利執行和QoS要求。其三,TS負責任務相關TE間資源的調度。比如,任務執行是一個過程,期間對于算力的需求是不斷變化的,需要TS進行實時的算力調度。
任務執行功能(TE)TE負責任務的具體執行,并進行業務邏輯上的數據交互。同一個服務的工作流可能被實例化為多個任務,部署在多個TE間執行,因此TE間存在數據的交互。
TA對TE的管理需要具備實時、靈活等要求,在RAN域內部署RAN TA實現對RAN TE的管理更為合理,同理CN TA對CN TE類似。這是因為TE的狀態是實時變化的(例如 CPU負載、內存、電量、UE的信道狀況等),TA/TS的就近部署能夠帶來更少的管理時延;此外,根據3GPP的設計邏輯,CN和RAN需要盡量解耦。例如 RAN RRM和RTT優化不應對CN感知;反之若由CN TA來管理RAN TE并執行RAN任務,會導致業務邏輯強耦合。因此本文建議分別在CN域和RAN域都獨立部署TA/TS,達到實時管理和業務解耦的目的。
以基站和終端進行聯邦學習為例,下面詳細說明TA、TS和TE如何部署。由于6G架構未定,本文以5G RAN架構為例進行說明,如圖8所示。

圖8 以任務為中心的部署架構-站內任務協同
場景1:gNB+UE場景其中gNB同時是TA和TS,UE是TE;此時UE是算力提供方和任務執行方,接受gNB的任務管理和任務四要素調度(例如 UE側與基站的連接建立、空口資源的實時調度,以及AI模型的分配和實時調整等)。
場景2:CU+DU場景其中CU同時是TA和TS,DU是TE;此時DU是算力提供方和任務執行方。
場景3:CU+DU+UE場景其中CU是TA、DU是TS、UE是TE,此時UE是算力提供方和任務執行方,CU是任務管理者,DU感知CU給UE分配的任務,并進行四要素資源調度和任務實時QoS保障。在該場景中,TA和TS是分開部署的,TS部署比TA位置更低,因此能夠更實時感知TE的連接、算力、模型等狀態,從而更為實時監控任務QoS和快速調整四要素資源。
場景4:復雜任務場景上述三個場景都是對應一個簡單任務,僅包括一個TA、TS和TE;對于計算量更大的任務,僅有一個TE是不夠的,因此需要多個TE共同參與同一個任務。針對本場景,CU是TA,在接受一個大任務后,將部分任務分給DU1進行處理(此時DU1是TE,CU還是該TE的TS),并將剩余任務交給DU2下的UE1和UE2處理(DU2是該子任務的TS,UE1和UE2是對應TE)。
場景5:跨站協同場景圖8所示場景是針對在一個基站內進行任務執行的,場景5則重點關注基站間聯合進行聯邦學習。為簡單起見、本文以兩個基站為例進行說明。如圖9所示,由于在無線通信系統中,基站與基站之間的拓撲是對等的,因此可以采用集中式或分布式方案來實施任務協同。其中分布式方案是指每個基站既是TE、又是TS,兩個TS之間通過協商的方式來協同算力分配或模型更改,此時兩個基站是對等的,沒有決策者和決策執行者的區分;而集中式是指在兩個基站間選擇一個節點作為邏輯的TS,并對兩個站的TE資源進行調度(連接優化、算力調度、模型變更、數據配置等),此時兩個基站是不對等的,其中一個是資源調度的決策者,另一個是決策執行者,執行者本身針對該任務沒有資源調度的決策功能,但當其內部存在多個任務時,需要考慮任務間資源調度的需求。

圖9 以任務為中心的部署架構-站間任務協同
從上面例子可以看出,TA、TS和TE僅是邏輯功能,這些功能根據不同場景可以部署于同一邏輯節點或不同邏輯節點;從邏輯節點來看,單個節點可以同時具備多個邏輯功能(如TA、TS、TE的任意組合)。
本節分為接口和協議棧、任務流程兩個部分。
3.3.1 接口和協議棧
無線系統中的現有網元都具備一定計算能力,在考慮TA和TS的部署位置時,需要考慮網絡的拓撲結構,以及CN網元、RAN網元、UE側算力分布的特點,以便充分并高效地利用分布式算力。TA或TS是較為集中的控制TE的功能實體,適合部署在CU或AMF等類似網元上;而其他RAN網元(如DU、CU-UP等)、CN網元(如UPF、SMF等)和UE作為TE進行部署。
基于上述部署假設,TA/TS對TE的管控涉及到的接口有:① 對RAN TE的管理,重用現有CU和DU間的F1接口、CU-CP和CU-UP間的E1接口;② 對UE TE的管理,包括Uu口和NAS接口,可以重用RRC或NAS信令;③ 對CN TE的管理,重用現有CN網元間的SBA接口并新增信令。此外,若要支持TA/TS間任務協同,則需影響:① RAN TA/TS間的站間接口,如Xn接口;② RAN TA和CN TA間接口,如Ng接口;③ CN TA間接口。
3.3.2 任務流程
從整個端到端流程來看,NAMO接收外部服務請求后,將對應AI業務提交給TA來完成執行,AI服務實施的整個端到端流程包括如下功能:
① 生成或導入AI用例;
② 將用例分解為一個或多個AI服務;
③ 將AI服務分解為一個或多個AI任務(AI Task,AIT),同時將AI服務對應的QoAIS分解為AI任務的QoS;
④ 決定AIT的錨點位置;
⑤ 將任務QoS分解為資源QoS需求,明確AIT所需四要素資源的需求,包括連接、計算、數據和算法/模型;
⑥ 決定并配置任務所需四要素資源,包括節點選擇(選擇參與計算的節點、提供數據的節點、提供算法/模型的節點)、建立節點間的連接,或更新上述配置;
⑦ 在選擇參與的節點范圍內,實時決定并調整計算的分配、優化通信連接質量、決定并采集處理所需數據,以及決定并更換或優化算法模型,以保證任務QoS的達成,從而保證QoAIS的達成。
如上所述,考慮管理面實時性較差,獲取網絡信息范圍廣,但粒度粗;控制面實時性強,可獲取較精準的信息,但數據范圍比較局限;另外,管理面無法獲得空口鏈路和終端側資源狀態的實時信息。因此,部分功能適合在管理面或控制面上實施,另一部分功能可通過管理面和控制面的協同達到更好的效果,具體功能與管理面和控制面的映射關系如表2所示。

表2 任務管理和任務控制的功能劃分
另一種場景是由控制面生成的網絡AI能力需求,如用戶通過控制信令向網絡提交的AI服務請求。針對這種場景的端到端流程需要進一步分析,比如一種可能的方式是TA首先判斷該需求是一個AI服務需求,還是AI任務需求。若為前者,則交由NAMO執行;若為后者,則TA處理。
如前文所述,6G網絡AI需要設計一套評估和保障AI服務質量的指標體系和流程機制—QoAIS。傳統的通信QoS包括時延、可靠性、速率、優先級等指標,由CN網元根據IP五元組映射獲得每個數據包對應的QoS flow及QoS指標,進而傳遞給RAN,并由RAN進行相應的數據無線承載映射和空口資源調度來同時保證不同業務和數據包的通信QoS。這種QoS機制仍存在業務區分顆粒度較粗、優化調整周期較長無法較好滿足邊緣業務的實時性要求,以及空口資源配置無法靈活適配網絡與業務的實時動態變化、指標體系無法適用于AI業務等弊端,因此需要重新設計新的指標體系以及生成和保障機制。
如前文所述,QoAIS是6G網絡AI編排管理系統和控制功能的重要輸入,網絡AI管理編排系統需要對頂層的QoAIS進行分解,再映射到對連接、計算、數據和算法等各方面的QoS要求上,此過程與三層管控功能實體的邏輯關系如圖10所示。

圖10 以任務為中心的QoS保障
為保障QoAIS的達成,上述分層管控邏輯架構通過“三層閉環”進行實施。TS層通過實時監測和優化四要素資源,在TA的資源配置范圍內,保證任務QoS的達成;當TS層無法提供任務QoS保證時,TA層對總體資源配置進行更改,如調整參與任務的網絡節點、更換模型倉庫或數據倉庫;當TA層無法提供任務QoS保證時,交由NAMO進行優化,NAMO可通過更改AI任務的錨點位置,也可以對AI服務與AI任務的映射進行重新分解。
為保障QoAIS的達成,上述分層管控邏輯架構通過“三層閉環”進行實施。TS層通過實時監測和優化四要素資源,在TA的資源配置范圍內,保證任務QoS的達成;當TS層無法提供任務QoS保證時,TA層對總體資源配置進行更改,如調整參與任務的網絡節點、更換模型倉庫或數據倉庫;當TA層無法提供任務QoS保證時,交由NAMO進行優化,NAMO可通過更改AI任務的錨點位置,也可以對AI服務與AI任務的映射進行重新分解。
圖11展示了QoAIS各指標維度和各資源維度上QoS之間的映射關系。AI服務的QoAIS指標拆解到任務及各指標維度上的QoAIS指標,再進一步映射到各資源維度上的QoS指標,由管理面、各資源維度的控制面和用戶面機制進行保障。

圖11 QoAIS指標分解到各資源維度上的QoS指標
圖11中各資源維度上QoS指標可分為適合量化評估的指標(如各類資源開銷)和適合分級評估的指標(如安全等級、隱私等級和自治等級)。在前一類指標中,有部分指標的量化方案已成熟或較容易制定(如訓練耗時、算法性能界、計算精度、各類資源開銷等),部分指標目前尚無定量評估方法(如模型的魯棒性、可重用性、泛化性和可解釋性等),如表3所示。因此,如何在起始階段設計出足夠開放包容的網絡架構,以便后續逐步引入上述指標的成熟量化技術,是需要思考和研究的問題。

表3 AI訓練服務性能QoAIS到各資源維度的映射
如上文所述,任務及QoAIS均與AI用例表示的用戶需求有著密切聯系。為了全方位地表征各場景細致的差異,精準適應場景對網絡能力和服務的需求,本文提出AI用例自生成的方式,從范圍、數據、目標、開放等多維度表征用戶AI用例需求。需要解釋的是,AI用例是用戶在智能應用場景下向網絡提出的一次AI服務請求,一個AI用例可能涉及到一類或多類網絡內生AI服務(如AI訓練、驗證和推理服務)的調用。
AI用例自生成的方式可以是網絡自身根據數據分析推演或外部導入,生成關于AI用例描述(AI Use case Description,AIUD)。通過AI 用例的管理將AI 用例部署到網絡中,網絡根據AI 用例的描述按需調配網絡元素(包括連接、計算、數據、算法等)以滿足該用例的性能需求。除此之外,與通信感知技術的結合,網絡可以做到感知-數據分析-用例生成-QoAIS保障-任務管控執行的閉環處理,具備自主化的智能能力。
AI用例自生成的關鍵是AI用例描述,AI用例描述承載了用戶提出AI服務請求的相關信息。由于場景與需求的差異,AI用例描述的部分內容可能是通用性的內容,部分內容可能是差異化的可選內容。根據目前的研究,經過對需求的分類,提出一種AI用例描述的方式,如表4所示。

表4 AIUD的組成
表4中,范圍指的是使用數據的范圍,包括使用數據的起始時間范圍、地理空間范圍、網絡空間范圍(如網元、網絡域等)以及使用數據的對象(如用戶組、功能等)。數據類型考慮了訓練數據集和驗證數據集,可以表示用例兩類數據集數據量、數據來源以及各自的占比。算法中對問題類型進行了歸類,如規則類、預測類、決策類等;算法類型則表示監督/非監督、強化學習等的機器學習算法類型。在此處列舉了兩個可選的內容,包括具體算法,如KNN、LSTM等,以及算法結構及參數,如深度神經網絡層數、每層節點數等。此兩項可選內容對于網絡專家來說可能是更有益處的,可以更好地表達需求,但是對于普通用戶,并不具備表達此類需求的能力,因此作為可選內容。目標則是期望用例達到的目標及訓練的時長。開放和安全方面,對模型使用開放的范圍(如用戶組)、數據的安全等級及開放范圍進行了規范。
目前AIUD的組成內容研究還比較初步,不夠完備。隨著研究的深入,還有較大的優化空間,尤其是對各類用例需求研究后的可選內容,可以預見將十分豐富。此項工作后續也將是本文未來研究的一項重要內容。
一般而言,高性能同時伴隨著高消耗,因此這里的四要素協同是指網絡側如何在更高性能和更少資源消耗之間進行折中?下面用兩個具體的例子來說明針對網絡中的任務,如何協同四要素資源,以及協同帶來的有益效果。
第一個例子是基站和UE進行AI聯合推理任務,一個大AI模型被拆分為兩部分,前半段推理任務在UE執行,執行完成后輸出中間output并通過空口上報給基站側,基站將UE上報的中間output作為輸入,再執行后半段推理任務。網絡側通過調整AI模型的切割點,從而控制UE和基站分別執行的神經網絡規模,進而控制UE和基站的計算量。圖12為AI聯合推理任務的分割點調整示意圖。

圖12 聯合推理任務的分割點調整
例如,當UE電池電量不足時,網絡可將切割點往前調整,從而減少UE計算量及電池消耗。此外,網絡側也可以根據UE網絡信號的好壞來調整AI模型的切割點,例如當UE處于網絡邊緣時,由于數傳速率低,此時可將切割點調整為中間output數量少的位置,從而減少UE側上報量。
第二個例子是終端與基站協作進行分布式AI模型訓練,當前,業界已提出較多分布式AI模型訓練的技術框架,比如(分層)聯邦學習[23]、群學習[23]、多智能體學習[25]、基于模型分割的學習[26-27]等。在空口應用這些訓練框架,訓練過程會產生大量中間計算結果,需頻繁占用空口無線資源進行傳輸,訓練節點數量、各訓練節點的計算時延、傳輸的時延和誤碼率情況會對訓練結果產生影響。為了在保證模型收斂的同時,提高空口無線資源的利用率,引入效率更高的高階模型學習算法是一種值得考慮的思路[28-30]。由于不同階數(零階、一階隨機梯度下降、二階牛頓方法等)的模型學習算法在訓練速度和資源開銷上各有優劣勢,可以考慮根據無線信道狀態動態調整學習算法,即多種學習算法間的動態轉換機制,圖13展示了為引入這種動態轉換機制設計的功能交互。

圖13 多種學習算法動態轉換原理示意圖
上述新技術需要在空口引入針對AI連接的控制機制和數據傳輸協議,相應的邏輯功能分別用Dtrain_C和Dtrain_U來表示。其中,Dtrain_C是負責控制終端與基站協作進行AI模型訓練的控制功能,該實體根據網絡變化,動態調整參與分布式訓練終端采用的模型學習算法。Dtrain_U是負責終端與基站協作進行AI模型訓練的業務面功能實體,其包含有在基站與終端間傳輸模型參數、梯度或梯度范數等信息所需的專用協議棧。
上述示例僅描述了算法和連接的協同,例如通過調整AI模型的切割點來控制UE上報量,以及通過調整AI模型的訓練算法來提高空口無線資源的利用率。更多的連接、計算、數據和算法之間的協同,有待于后續進一步的研究。
本文針對6G智能普惠等新業務需求,提出一種任務為中心的網絡內生AI架構,通過在無線通信系統中原生集成和融合四要素協同能力,并在網絡層面以任務的形式提供新業務服務;通過給移動網絡帶來新的量綱(從連接服務的單量綱,到以任務的形式封裝和提供連接、計算、數據、算法的多量綱),保證計算類如感知、AI業務的SLA等,進一步拓展6G網絡的應用場景、充實無線網絡價值。6G應在5G基礎上全面支持整個世界的數字化,并通過內生AI的網絡架構設計,實現智慧的泛在可得,全面賦能萬事萬物。為了實現“智能泛在”的愿景,本文認為6G需要提供智能普惠的基礎服務,關鍵是在網絡架構層面設計相應的原生能力,即6G架構層面的原生智能能力。需要特別說明的是,本文中的多數技術方案和觀點是經過6GANA組織的充分討論,最終達成的業界共識。
雖然業界已就6G原生網絡AI達成初步共識,但如何高效地支持和可標準化方面還有待于進一步研究和討論,例如本文提出的QoAIS保障、AI用例自生成以及四要素如何高效協同將是未來深入研究的方向之一。