孫亞萍/SUN Yaping,崔曙光/CUI Shuguang,2,3,張平/ZHANG Ping,4
( 1. 鵬城實驗室,中國 深圳 518055;2. 香港中文大學(xué)(深圳),中國 深圳 518055;3. 香港中文大學(xué)(深圳)未來智聯(lián)網(wǎng)絡(luò)研究院,中國 深圳 518000;4. 北京郵電大學(xué)泛網(wǎng)無線通信教育部重點實驗室,中國 北京 100876 )
隨著5G 的不斷成熟和商用,在構(gòu)建“萬物智聯(lián)、數(shù)字孿生”的人類社會這個總體愿景的驅(qū)動下,6G將通過人工智能與通信技術(shù)的深度融合,實現(xiàn)人、機(jī)、物、智能體的智慧互聯(lián),有望成為支撐擴(kuò)展現(xiàn)實(XR)、工業(yè)互聯(lián)網(wǎng)、智慧城市等典型場景的核心基礎(chǔ)設(shè)施[1]。與傳統(tǒng)語法通信主要關(guān)注比特數(shù)據(jù)的準(zhǔn)確傳輸不同[2],人、機(jī)、物、智能體交互重點關(guān)注語義信息的準(zhǔn)確傳遞。因此,傳統(tǒng)語法通信系統(tǒng)的設(shè)計無法滿足未來6G 通信需求,而語義通信能夠有效降低傳輸負(fù)載,提高任務(wù)服務(wù)質(zhì)量[3],已成為6G 的關(guān)鍵技術(shù)之一。
在傳統(tǒng)通信中,基于人工設(shè)計的編碼映射,編碼將信源符號映射到傳統(tǒng)碼流。映射函數(shù)的確立基于經(jīng)驗性的設(shè)計與構(gòu)建。在語義通信中,基于人工智能(AI)的編碼映射,語義編碼將信源符號映射到語義碼流。映射函數(shù)的確立基于數(shù)據(jù)與模型雙驅(qū)動的學(xué)習(xí)與搜索。語義知識庫定義了高效搜索空間,規(guī)范了搜索路徑。因此,語義知識庫是語義通信的外掛和效率的加持器。
語義知識庫是一種可為數(shù)據(jù)信息提供相關(guān)語義知識描述的、結(jié)構(gòu)化的且具備記憶能力的知識網(wǎng)絡(luò)模型。面向語義通信的語義知識庫可分為信源、信道、任務(wù)知識庫,分別為信源數(shù)據(jù)(如文本、圖片、視頻)、信道傳輸環(huán)境(如傳輸中障礙物和散射體位置與形狀信息、智能反射面位置信息與配置矩陣),以及任務(wù)需求(如圖片分類、三維重建、語義分割)提供多層級語義知識表征,從而支撐端到端語義通信的高效實現(xiàn)。如圖1所示,基于語義知識庫進(jìn)行語義信道聯(lián)合編解碼設(shè)計,實現(xiàn)語義信息的準(zhǔn)確傳遞,是當(dāng)前語義通信的研究熱點。

▲圖1 端到端語義通信框架圖
具體而言,在端到端語義通信中,發(fā)送端基于信源、信道以及任務(wù)知識庫,獲取信源數(shù)據(jù)多層級語義知識描述、傳輸環(huán)境的語義推斷與估計,以及下游任務(wù)的語義需求,從而進(jìn)行語義信道聯(lián)合編碼。接收端基于本地語義知識庫,對接收到的信息進(jìn)行知識檢索與理解,完成語義信道聯(lián)合解碼,從而實現(xiàn)任務(wù)驅(qū)動的語義通信。
以圖像的語義傳輸為例,假設(shè)發(fā)送端獲得一張“斑馬”圖片,則可基于本地知識庫,獲取該圖片的多層級語義知識向量。面向圖像分類任務(wù)的最高級語義知識可表示為“斑馬”;面向語義推斷任務(wù)的中級語義知識包括斑馬的屬性描述“顏色:黑白”“輪廓:馬”“條紋:有”等;面向圖片傳輸任務(wù)的低級語義知識包括該圖片的像素級特征向量。除此之外,信道知識庫對傳輸環(huán)境的描述也會影響各層級語義知識表征維度。基于語義信道彈性編碼方法,發(fā)送端首先傳輸最高級語義知識“斑馬”。若接收端知識庫里存儲“斑馬”相關(guān)語義特征描述,則任務(wù)完成;否則,則傳輸中級語義知識。若接收端知識庫可解析“斑馬”語義屬性描述,則語義交互成功;否則,則發(fā)送低級語義知識,即原始圖片信息,供接收端進(jìn)行圖片理解。
由此可見,語義知識庫對于語義信道編解碼方案的設(shè)計至關(guān)重要,可以提升語義通信傳輸效率以及智能任務(wù)的服務(wù)準(zhǔn)確度。語義知識庫的概念自提出以來在不斷地發(fā)展和完善。語義知識庫早期的工作主要基于計算機(jī)領(lǐng)域的知識圖譜,以描述各實體概念及其相互關(guān)系為目標(biāo)。近年來,隨著語義通信重獲關(guān)注,語義知識庫也呈現(xiàn)出新的發(fā)展契機(jī)。
傳統(tǒng)語義知識庫主要應(yīng)用于計算機(jī)領(lǐng)域,如圖2 所示。最早的語義知識庫可以追溯到WordNet[4]。WordNet的基本單元是同義詞集合,即每個集合中的元素相互之間構(gòu)成同義關(guān)系。WordNet使用不同的關(guān)系來構(gòu)造語義知識庫(包括上下位關(guān)系、反義關(guān)系、整體-部分關(guān)系等),并且基于這些關(guān)系構(gòu)成了語義知識表征。隨后FrameNet[5]引入了“框架”的概念,使得語義資料庫可以靈活地表達(dá)更加復(fù)雜的語義關(guān)系。接下來,綜合語言知識庫(ILD)[6]為詞語引入了屬性的概念,通過建立詞語之間的“實體-用途”的關(guān)系,豐富了語義知識庫的表達(dá)。

▲圖2 傳統(tǒng)語義知識庫模型示意圖
由于手工建立語義知識庫的效率非常低,MindNet[7]首次使用句法分析器自動分析英語詞典釋義文本,從而構(gòu)建語義知識庫。HowNet[8]作為首個漢語語義知識庫,以概念本身以及概念與概念之間所具有的關(guān)系為基礎(chǔ),構(gòu)建了語義知識庫。ConceptNet[9]以實體、關(guān)系和屬性三元組的形式進(jìn)行語義知識庫的構(gòu)造,并以該形式完成了多代更新。DBPedia[10]通過爬取維基百科數(shù)據(jù),完成了語義知識庫的構(gòu)建。NELL[11]使用數(shù)據(jù)挖掘的方式從非結(jié)構(gòu)化的數(shù)據(jù)中構(gòu)建語義知識庫,實現(xiàn)了基于更廣泛文本信息來源的語義知識庫自動化構(gòu)造。
另一些研究則通過引入圖像、程序源碼等其他的模態(tài)數(shù)據(jù)源來進(jìn)行語義關(guān)系的提取,豐富了知識庫的數(shù)據(jù)來源。文獻(xiàn)[12]將圖像信息作為實體的一個額外特征,提出了一個新型大規(guī)模數(shù)據(jù)集,提升了知識庫的表征學(xué)習(xí)能力。文獻(xiàn)[13]通過分析深度學(xué)習(xí)及其對應(yīng)的源代碼,提出了一個融合文本、圖像、程序源碼等多模態(tài)的知識庫,用于文獻(xiàn)的挖掘與檢索。文獻(xiàn)[14]利用文章中的文本信息,提取實體及實體之間的關(guān)系,并且通過檢測文章中的圖像,構(gòu)造了圖像子知識庫,從而利用文本與圖像之間的特征匹配關(guān)系,解決了圖像配文問題。
語義知識庫的構(gòu)建涉及典型場景的數(shù)據(jù)集構(gòu)建、語義知識提取與建模。在計算機(jī)視覺領(lǐng)域,ImageNet[15]與COCO[16]數(shù)據(jù)集的提出為物體檢測與圖像分割任務(wù)提供了大規(guī)模的標(biāo)注數(shù)據(jù),促進(jìn)了該領(lǐng)域的快速發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)[17]與變形神經(jīng)網(wǎng)絡(luò)(Transformer)[18]為圖像與自然語言等數(shù)據(jù)提供了強(qiáng)大的語義提取技術(shù)支撐。針對語義知識庫構(gòu)建過程中數(shù)據(jù)構(gòu)建和語義知識提取方法設(shè)計,我們構(gòu)建了大規(guī)模視覺語義信息數(shù)據(jù)集[19],并且分別面向圖像處理[20]、語義分割[21]、三維場景理解[22]與重建[23]、點云數(shù)據(jù)采樣與恢復(fù)[24]等智能任務(wù),提出了語義信息提取方法。
綜上所述,基于常見數(shù)據(jù)模態(tài)(如文本、圖像等)信息的語義知識庫構(gòu)建方法已得到充分的發(fā)展。然而,現(xiàn)有語義知識庫僅可簡單地描述各實體概念及其之間的相互關(guān)系,無法滿足語義通信對信源、任務(wù)、信道等數(shù)據(jù)信息的多層級語義知識描述的需求。
語義傳輸中涉及的智能體包括發(fā)送端不同模態(tài)信源智能體、信道中不同傳輸環(huán)境智能體,以及接收端不同任務(wù)智能體知識庫。本節(jié)中,我們將分別對語義傳輸中信源、信道以及任務(wù)語義知識庫研究現(xiàn)狀進(jìn)行介紹。
目前,通信系統(tǒng)中信源知識庫的構(gòu)建主要有3 類方法。第1類方法基于知識圖譜構(gòu)建知識庫。針對文本的傳輸,文獻(xiàn)[25]使用描述語義信息的三元組(包含頭部實體、關(guān)系、尾部實體)來構(gòu)建語義知識圖譜,并且將此作為收發(fā)端語義知識庫,以指導(dǎo)文本傳輸中的語義編解碼。基于該語義知識庫,文獻(xiàn)[26]提取文本信源中所包含的語義三元組集合,并且度量各三元組的語義重要性。基于此,根據(jù)信道狀態(tài)的好壞,文獻(xiàn)[26]還提出智能化地選擇所發(fā)送的三元組集合,以保證收發(fā)端信息的語義相似度。針對語音傳輸,文獻(xiàn)[27]提出基于知識圖譜的多層級結(jié)構(gòu)的語義知識庫基礎(chǔ)模型,以及包含語義表達(dá)和語義符號抽象兩個步驟的語義知識庫構(gòu)建方法。數(shù)值結(jié)果表明,基于該知識庫的語義傳輸框架可在保證語義保真度的同時,降低帶寬開銷。針對圖數(shù)據(jù)傳輸,鵬城實驗室石光明教授研究團(tuán)隊提出了由顯式語義、隱式語義以及與用戶相關(guān)的知識推理機(jī)制組成的多層語義表征方法,并且基于模仿學(xué)習(xí)對接收端用戶的語義推理機(jī)制進(jìn)行訓(xùn)練,從而與發(fā)送端推理機(jī)制保持一致,降低了傳輸負(fù)載[28]。除此之外,文獻(xiàn)[28]提出了語義知識庫使能的異構(gòu)網(wǎng)絡(luò)中協(xié)同推理機(jī)制。
第2類方法以帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集作為知識庫。上海交通大學(xué)陶梅霞教授研究團(tuán)隊提出,當(dāng)需要傳輸?shù)臄?shù)據(jù)信息與訓(xùn)練數(shù)據(jù)集的統(tǒng)計特性分布不同時,可利用遷移學(xué)習(xí)中的領(lǐng)域自適應(yīng)技術(shù),降低兩者間分布的差異性,并且動態(tài)地更新語義信道編解碼方案[29]。該方法的有效性在圖像傳輸任務(wù)中得到了驗證。
第3類方法將基于深度學(xué)習(xí)模型提取的特征向量作為語義知識庫。清華大學(xué)秦志金教授研究團(tuán)隊定義了一組有限離散語義基向量集合為語義知識庫,并且對語義編解碼以及語義知識庫構(gòu)建進(jìn)行了端到端聯(lián)合訓(xùn)練[31]。數(shù)值結(jié)果顯示語義知識庫可提高語義通信對語義噪聲的魯棒性。
現(xiàn)有信道環(huán)境知識庫可分為特定于站點的數(shù)據(jù)庫與特定于位置信息的知識庫兩大類。具體而言,特定于站點的數(shù)據(jù)庫旨在提供準(zhǔn)確的物理環(huán)境地圖信息,主要包括三維城市地圖[32]、無線電環(huán)境地圖[33-34]等。然而,該類設(shè)計需要運行復(fù)雜度較高的算法(如射線跟蹤算法),計算與存儲資源開銷較大。為了降低計算與存儲資源的開銷,特定于位置信息的知識庫不再保留發(fā)送端與接收端相關(guān)活動信息,重點關(guān)注與信道特性相關(guān)的知識描述(如信道增益、陰影、入射角等)。該類設(shè)計主要包括信道增益地圖[35]、信道路徑地圖[36]、波束索引映射[37]等。然而,該類設(shè)計主要局限于特定傳輸環(huán)境下信道知識的構(gòu)建,在多變環(huán)境的自適應(yīng)性以及泛化能力方面有待于進(jìn)一步提高。
除此之外,針對收發(fā)端傳播環(huán)境動態(tài)多變特性,北京郵電大學(xué)張建華教授研究團(tuán)隊提出基于環(huán)境特征、環(huán)境圖表示等定義傳播環(huán)境語義特征,用以輔助波束預(yù)測等任務(wù)完成[38]。數(shù)值仿真結(jié)果顯示,在節(jié)省87%時間開銷下,信道評估與最大功率散射體檢測任務(wù)準(zhǔn)確度分別可達(dá)0.92與0.90。
現(xiàn)有任務(wù)知識庫的構(gòu)建主要為與任務(wù)相關(guān)的特征向量集合。文獻(xiàn)[30]提出了面向圖像分類任務(wù)的語義傳輸系統(tǒng)。該系統(tǒng)首先利用帶類別標(biāo)簽的圖像數(shù)據(jù)集來預(yù)訓(xùn)練一個圖像分類網(wǎng)絡(luò),接著量化分類網(wǎng)絡(luò)所提取的特征圖與物體類別信息之間的相關(guān)性,并且以此特征圖與類別相關(guān)性作為語義知識庫。傳輸特征統(tǒng)計特性大大降低了帶寬開銷。文獻(xiàn)[39]面向多任務(wù)需求多模態(tài)數(shù)據(jù)源,構(gòu)建了由離散碼本組成的跨任務(wù)共享的語義知識庫,并且與收發(fā)端語義信道編解碼器進(jìn)行聯(lián)合訓(xùn)練。
實現(xiàn)語義知識庫對語義通信的高效支撐仍有3 方面的挑戰(zhàn):
1)多層級語義知識庫構(gòu)建。針對典型場景(如XR、工業(yè)互聯(lián)網(wǎng)、智慧城市等)中復(fù)雜多變的信源、任務(wù)、信道環(huán)境等數(shù)據(jù)信息,如何高效構(gòu)建多層級語義知識庫至關(guān)重要。現(xiàn)有基于知識圖譜與特征統(tǒng)計特性等構(gòu)建的知識庫僅考慮文本、圖片等信息,無法滿足語義通信的多層級語義表征需求。因此,亟需研究多層級語義知識庫的構(gòu)建理論與方法,以此形成統(tǒng)一的方法論,從而指導(dǎo)典型場景中語義知識庫的高效構(gòu)建。
2)語義知識庫動態(tài)演進(jìn)。語義通信的高效實現(xiàn)同樣離不開收發(fā)端之間知識庫的高度匹配,以及知識庫對信源、任務(wù)與信道等數(shù)據(jù)信息的時變自適應(yīng)性。然而,端到端語義傳輸中交互信息往往冗余且易受無線信道噪聲與干擾的影響。現(xiàn)有知識庫更新方法尚未考慮這一問題,無法直接應(yīng)用于語義通信中知識庫的動態(tài)演進(jìn)。因此,亟需設(shè)計語義傳輸中知識庫動態(tài)更新方法,揭示知識庫動態(tài)演進(jìn)機(jī)理。
3)多智能體知識庫協(xié)同更新。語義通信呈現(xiàn)發(fā)送端信源多模態(tài)化、接收端任務(wù)需求多樣化以及信道環(huán)境智能多變等特性。然而,現(xiàn)有知識庫協(xié)同機(jī)制同樣僅針對文本、圖片等信息,場景單一,并且尚未考慮語義傳輸中跨智能體的信息缺失、重疊以及隱私保護(hù)等,無法滿足跨模態(tài)語義融合、跨任務(wù)語義理解以及跨環(huán)境語義傳輸需求。因此,如何高效協(xié)同更新多智能體(包括多模態(tài)信源、多任務(wù)、以及多環(huán)境信道)語義知識庫是另一個亟待解決的問題。
基于知識圖譜、帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集,特征統(tǒng)計特性的語義知識庫已被應(yīng)用于端到端語義通信中,并取得了一定的成果。然而,現(xiàn)有研究工作面臨著構(gòu)建理論與方法匱乏、動態(tài)演進(jìn)機(jī)理不明確、多智能體協(xié)同更新策略不清晰等問題。如何深度融合人工智能與通信技術(shù),創(chuàng)新性地提出多層級語義知識庫框架。文章認(rèn)為打造跨模態(tài)、跨任務(wù)、跨環(huán)境的知識庫是高效語義傳輸新的研究主題與挑戰(zhàn)。
致謝
本研究得到了香港中文大學(xué)(深圳)陳冠英教授、韓曉光教授、許杰教授的大力支持與幫助,在此表示感謝!