中圖分類號:G202 文獻標志碼:A 文章編號:1000-2367(2025)05-0145-07
人工智能(artificial intelligence,AI)技術的迅猛發展正在深刻重構傳播學的理論體系與實踐范式,其中大語言模型(large language model,以下簡稱“大模型\")在自然語言理解與生成領域的突破性進展,已成為驅動信息傳播變革的核心技術.大模型的技術突破主要依托于多項關鍵技術創新,其中transformer架構作為其核心技術框架[1],相較于傳統的循環神經網絡(recurrent neural network)具有顯著優勢.該架構不僅實現了序列數據的并行化處理,還通過自注意力機制(self-attention mechanism)有效捕捉文本中的長距離依賴關系,從而顯著提升模型在復雜語言模式理解與生成任務中的表現,特別是在長文本處理和多層次語義解析方面,其連貫性與準確性均得到顯著提升[2].此外,自監督學習(self-supervised learning)范式的引入進一步增強了模型的泛化能力,使其能夠從海量未標注數據中自主學習語言特征,從而更好地適應傳播領域中日益增長的多樣化與個性化需求[3].同時,大語言模型通過預訓練(pre-training)與微調(fine-tuning)相結合的訓練策略,不僅能夠從大規模文本語料中學習通用語言表征,還能快速適配特定任務場景下的信息處理需求,展現出強大的領域適應性[4].
2023年全球范圍內共發布了149個通用大模型,其中美國以61個模型的發布量位居全球首位,中國則以15 個模型的發布量緊隨其后[5].從技術發展路徑來看,美國依托其開放的技術生態系統、強大的算力基礎設施以及豐富的數據資源,在全球大模型領域保持著顯著的技術優勢與廣泛影響力;而中國則通過國家戰略層面的政策引導與資源投入,重點推進大模型在垂直領域的深度應用與產業化落地,加速了該技術在信息傳播領域的深度融合與創新實踐.盡管兩國在大模型技術的發展路徑上呈現出不同的戰略取向與實踐模式,但均充分彰顯了大模型技術在信息生成、傳播與交互方面的巨大潛力與應用價值.
1大模型驅動的多模態信息生成
多模態大語言模型(multimodal large language model)是一種深度學習模型,能夠處理并生成多種數據模態,如文本、圖像、音頻和視頻[6].通過跨模態學習和大規模數據訓練,這類模型實現了多模態數據的聯合建模與交互[].多模態內容生成是利用人工智能模型,將不同模態的數據進行融合,通過跨模態的理解與生成,創造出更豐富的內容[6.這是大模型在自動化內容生成方面的一項巨大突破.
1.1 多模態大模型的典型架構
多模態大語言模型的典型架構通常由編碼器(en-coder)、連接器(connector)、大語言模型以及生成器(generator)4部分構成,能夠實現多模態內容的生成與輸出(圖1)[8].其中,模態編碼器是多模態處理的基礎模塊,負責將原始模態數據(如圖像、音頻、視頻等)編碼為高維特征表示.為實現跨模態語義對齊,模態編碼器通常采用預訓練模型,例如CLIP模型中的視覺編碼器通過大規模圖像-文本對數據的預訓練,實現了視覺特征與文本語義的高效對齊[9-10].連接器作為多模態
圖1多模態大模型的典型架構[8] Fig.1Typical MLLM architecture[8]

特征轉換的關鍵模塊,主要負責將模態編碼器生成的特征映射為大語言模型可理解的表示形式.根據特征融合方式的不同,連接器可分為3類:1)基于投影的連接器(projection-based connector),其通過線性或非線性投影將多模態特征轉換為與文本嵌人空間相兼容的表示[11].2)基于查詢的連接器(query-based connector),通過引入可學習的查詢向量(如Q-Former)從多模態特征中提取關鍵信息[12].這2類連接器主要在token 級別進行特征融合,將多模態特征處理為與文本 token類似的表示形式,以便與大語言模型的文本輸入兼容[11-12].3)是基于融合的連接器(fusion-based connector),通過在大語言模型的transformer 層中插入跨模態注意力機制來實現多模態特征與文本特征的深度融合[13].大語言模型作為多模態系統的核心組件,承擔著邏輯推理與語義理解的關鍵任務,負責處理經過連接器轉換的多模態信息[14].在大語言模型的架構中,多頭注意力機制作為transformer模型的核心組件,能夠通過接受來自不同模態的查詢(query)、鍵(key)和值(value)向量,實現多模態信息的深度整合與交互[15-16].生成器作為輸出模塊,能夠將大語言模型處理后的多模態信息轉化為文本、圖像、音頻和視頻等形式的輸出內容.目前,序列生成模型(sequence generation mod-el)和擴散模型(difusion model)是2類最常用的生成方法[17-18].在序列生成模型中,OpenAI發布的DALL-E模型是一個典型代表.該模型基于4億對圖文數據訓練集,采用VQ-VAE圖像離散自編碼器與GPT相結合的架構,在文本生成圖像任務上實現了高質量的生成效果與強大的泛化能力,因此被譽為\"圖像版GPT\"[19].在擴散模型領域,stable difusion作為開源模型的代表,將潛在擴散模型成功拓展至開放領域的文本到圖像生成任務[20].此外,在閉源擴散模型中,OpenAI的 DALL-E2 和谷歌的 Imagen 也展現了卓越的性能[21].
1.2 多模態大模型的訓練過程
在多模態大模型的訓練過程中,作為核心組件的大語言模型通常采用參數凍結策略,其參數更新率通常控制在 0.1% 以下[22],以顯著降低訓練成本并提高訓練效率.這種參數高效微調(parameter-efficient fine-tuning)方法使得多模態大模型能夠在保持較低計算資源消耗的同時,實現對多模態任務的強大支持.多模態大模型的訓練流程主要分為2個關鍵階段:多模態預訓練和多模態指令微調[23].
在多模態預訓練階段,模型需要利用大規模的圖像-文本對數據進行訓練,以實現跨模態語義對齊,并將視覺信號轉化為大語言模型可理解的特征表示或token序列[24].常用的訓練數據集包括X-text數據集[25],其中涵蓋多種模態組合,如圖像-文本、視頻-文本、語音-文本等.圖像-文本數據通常呈現2種形式:單一圖像-文本對 () 和交替圖像-文本序列 () .對于多模態理解模型,訓練目標主要集中于文本生成損失函數的優化[28],可表示為:
v ).對于多模態生成模型,則需要同時優化文本生成損失、模態生成損失和輸出對齊損失[27],其總損失函數可表示為: Ltatal=Ltext+λ1Lmodal+λ2Lalign ,其中 Lalign 采用CLIP-style對比損失[28].在多模態指令微調階段,模型通過指令格式化的數據集對預訓練的多模態大模型進行進一步優化,以提升其遵循復雜指令的能力.指令微調主要包括監督微調(supervised fine-tuning)和基于人類反饋的強化學習(reinforcement learning fromhuman feedback)[29].監督微調使用格式化為 lt; instruction,input,outputgt;的3元組數據集,通過最大似然估計優化響應生成質量[30]:
,人類反饋學習采用近端策略優化(PPO)算法[31],通過獎勵模型 R?(v,t) 引導生成策略
(204號
.隨著多模態數據越來越多地融人大模型中,視覺語言指令調優(visuallanguage instructiontuning)受到了越來越多的關注,與純文本指令調優相比,它呈現出更復雜的特征.在訓練過程中,使用多模態數據進行聯合訓練,常見的損失函數包括分類損失、回歸損失和對比學習損失等[32].
1.3 多模態大模型的發展方向
盡管當前的多模態大語言模型在視覺信息推理任務中已取得顯著進展,但在處理復雜多模態應用場景時,其性能仍存在明顯不足[33].為提升多模態模型對復雜問題的推理能力,研究者提出了構建更廣泛且更具挑戰性的視覺指令集的策略,通過增加任務的多樣性和復雜性來增強模型的視覺推理性能[29].然而,這一領域更核心的挑戰在于多模態大模型的構建方法與學習機制的優化[12.此外,隨著偽造內容形式的日益多樣化,多模態融合檢測技術逐漸成為研究熱點.其中,跨模態一致性分析是一種典型的研究方向,該方法通過檢測不同模態之間的邏輯沖突和特征不一致性來識別偽造內容.例如,在視頻偽造檢測場景中,研究者通過分析圖像幀與音頻信號的時間同步性和語義一致性來識別潛在的篡改痕跡[34].然而,視頻、音頻和文本的偽造特征往往相互交織,如何有效解構和分析這種復雜的多模態數據成為當前研究的重點和難點.
2 大模型驅動的信息推薦
推薦系統的核心任務在于精準捕捉并深人理解用戶的潛在偏好,從而為其推送個性化的信息資源[35]當前,大多數推薦系統的研究主要依賴于用戶的顯式或隱式交互行為日志(如商品點擊、購買記錄、評分數據及評論內容)來訓練推薦模型,其中深度學習方法因其強大的特征提取和非線性建模能力而成為主流技術范式[36].然而,推薦系統在實際應用中仍面臨諸多挑戰.首先,冷啟動問題(cold start)是一個長期存在的難題.新用戶或新物品缺乏足夠的交互數據,系統難以準確推斷其偏好,從而導致推薦效果顯著下降[37].其次,用戶偏好往往具有跨領域特性,例如用戶在電商平臺上的購物偏好可能與其在視頻平臺上的觀看偏好存在潛在關聯.這種跨領域推薦不僅增加了模型的復雜性,也對數據的整合與遷移提出了更高要求[38].此外,推薦的動態性和時效性也是關鍵挑戰,用戶偏好可能隨時間、情境或外部因素的變化而發生顯著改變,這要求推薦系統具備實時學習和快速適應的能力[39].
2.13個代表性建模范式和2種分類
基于大語言模型的推薦系統為解決上述挑戰提供了新的技術路徑.這類系統通常由以下3種方式構建(圖2)[40].第1種方法是使用嵌入進行推薦(LLMEmbeddings + RS).在這種模式下,用戶特征(如用戶ID、人口統計學信息、歷史行為偏好等)和物品特征(如類別標簽、評分統計、文本描述等)通過大語言模型編碼為低維稠密向量(embedding),隨后輸入到傳統推薦系統模型中進行匹配[41].推薦系統通過向量匹配計算用戶嵌入與物品嵌人之間的相似度,從而評估推薦的相關性[42].常用的相似度度量方法包括余弦相似度(cosinesimilarity)和內積(dot product)等[43].這種方法的優勢在于其高效性,因為嵌入向量是固定長度的,能夠充分利用傳統推薦系統的高效計算框架.然而,其局限性在于可能丟失部分細粒度的語義信息.第2種方法是使用token表示進行推薦(LLMTokens + RS).大語言模型將用戶描述和物品描述轉換為token序列,而非直接生成嵌人向量.推薦系統通過分析這些token序列來實現個性化匹配,從而保留更豐富的語義信息[44].這種方法允許推薦系統直接對文本進行自然語言處理或其他文本分析操作,特別適用于需要深度理解文本語義的場景.然而,由于token序列可能具有不定長度,其計算開銷通常較大,且對模型的序列處理能力提出了更高要求[33].在這種范式中,大語言模型直接作為推薦系統的核心組件,根據任務指令、用戶信息和物品描述進行推理,并生成完整的推薦響應[35].根據模型參數是否需要更新,可分為基于特定提示的方法(prompt-based method)和基于指令微調的方法(instruction fine-tuning method)[45].基于特定提示的方法通過設計一系列自然語言提示來引導大語言模型完成推薦任務[46].例如,將推薦任務轉化為\"根據用戶X的歷史行為,推薦可能感興趣的商品\"的形式.基于指令微調的方法則通過微調大語言模型使其適配推薦任務.其核心在于構建適合推薦任務的指令數據集,這些指令通常基于用戶與物品的交互數據以及定制化的提示模板構建,為模型提供明確的任務指導[47].例如,指令數據可能包括“用戶A在過去一周內購買了商品B 和C,請推薦相關商品\"等形式.

推薦系統可以分為生成式推薦(generative recommendation)和判別式推薦(discriminative recommen-dation)[48].生成式推薦通常采用生成模型,如變分自編碼器或生成對抗網絡,其核心目標是生成符合用戶潛在興趣的推薦內容[49].在訓練過程中,生成式推薦模型通過最大化生成數據的對數似然來優化模型參數[50]:
.判別式推薦使用判別模型(如邏輯回歸、支持向量機等)[51],通過模型對用戶u- 項目 i 對進行評分,通常用一個評分函數
來預測用戶對項目的興趣.判別式推薦直接學習每個用戶對項目的興趣匹配度.訓練過程中,目標是最小化損失函數(如交叉熵損失或均方誤差損失)[52]: L= 
2.2 大模型驅動推薦系統的發展方向
隨著人工智能技術的不斷演進,智能推薦系統從傳統的文本交互模式提升至多模態數據交互的新維度.以教育場景為例,對話式推薦機制能夠為學生精準匹配最優學習資源與課程體系,同時借助生成式技術實現學習內容的個性化定制[53].在醫療健康領域,這類技術不僅能夠為患者提供精準的健康資訊與專業建議,更能生成定制化的健康評估報告與診療方案[54.隨著技術迭代升級,智能推薦系統將在更廣泛的領域展現其應用價值.
從技術演進的歷史維度來看,人類始終將開發具有自主決策能力的智能體(AIagent)作為重要研究方向,以期通過智能化手段解決各類復雜任務.智能推薦系統依托深度學習技術,多維度分析用戶行為特征,整合歷史行為數據、實時狀態信息及環境變量,構建精準的用戶意圖識別模型.在商業消費領域,系統不僅基于用戶歷史消費記錄進行推薦,更能綜合市場動態、品牌策略及供應鏈信息,為用戶提供最優購物決策建議.在數字娛樂領域,通過情感計算與社交數據分析,智能體能夠精準識別用戶情緒狀態,深度理解用戶興趣偏好演變,從而提供更具情感共鳴的音樂、影視及閱讀推薦[55].
3 總結和展望
大語言模型正在成為信息傳播和推薦系統領域的核心力量,憑借其在文本理解、跨模態數據處理和復雜推理能力上的優勢,為信息生成與分發注入了新的活力.盡管目前的多模態大語言模型已初步具備生成和推理能力,但在復雜應用場景中仍存在諸多挑戰.未來的研究應著重探索更廣泛且復雜的視覺指令集和高效的多模態融合方法,以進一步提升模型的推理深度與生成質量.此外,大模型的推薦系統在數據隱私保護和可解釋性方面仍需加強.隨著大語言模型技術的不斷進步和多模態數據處理能力的提升,其在信息傳播和推薦系統中的應用前景將更加廣闊
參考文獻
[1] CHANG YP,WANG X,WANGJD,etal.A surveyon evaluationof lrge language modelsJ].ACMTransactionson Intellgent Systems and Technology,2024,15(3) :1-45.
[2] ISLAM S,ELMEKKIH,ELSEBAIA,etal.Acomprehensivesurveyonapplicationsof transformers fordeplearning tasksJ.Expert Systems with Applications,2024,241:122666.
[3] MOHAMED A,LEE HY,BORGHOLTL,et al.Self-supervised speech representation learning:areviewJ].IEEE Journalof Selected Topics in Signal Processing,2022,16(6):1179-1210.
[4]DINGNQYJ,G,etalPametereficntfiuningoflgesalepretraiedngagemodelsNatureMacheel gence,2023,5(3):220-235.
[5] STANFORD UNIVERSITY.2024 AI Index report[EB/OL].[2024-11-20].https://aiindex.stanford.edu.
[6] WUJY,GAN WS,CHEZF,et alMultimodal lrgelanguage models:asurveyC//2023 IEEE InternationalConferenceon Big Data (BigData).December 15-18,2023.Sorrento:IEEE,2023:2247-2256.
[7] WANG YSurveyondepmultimodaldataanalytis:colaboration,rivalry,andfusionJ].ACMTransactionsonMultimediaCoputing, Communications,and Applications,2021,17(1s) :1-25.
[8] YIN SK,FUCY,ZHAOSR,etal.Asurveyonmultimodal argelanguage modelsEB/OL]024-1-0htps://arxivorg/abs/306. 13549v4.
[9] ZHANG C,YANG ZC,HEXD,etal.Mulimodal intellgece:representationleaing,iformationfusion,andaplications.EEE Journal of Selected Topics in Signal Processing,202o,14(3) :478-493.
[10]XUEHW,SUNYCIUB,etal.CLIP-ViP:adptingpre-trainedimage-textodeltovideo-languagerepresentationaligntEB/ OL].[2024-11-20].https://arxiv.0rg/abs/2209.06430v4.
[11]ANDOA,GDARIS SBURSUCA,et alRangeViT:towards visiontransformers for3Dsemantic segmentationinautonomous driving [C]//2023IEE/CVFConferenceonComputerVisioandPaterRecognition(CVPR).June17-24,223.[S.1.]:EEE,223:5245250.
[12]LIANGPP,ZADEHA,MORENCYLP.Foundationsamp;trends inmultimodalmachinelearning:principles,challnges,ndopenques tions[J].ACM Computing Surveys,2024,56(10) :1-42.
[13]XUP,ZHU XT,CLIFTONDA.Multimodalarning withtransformers:asurveyJ].IEEETransactionsonPater Analysis and Machine Intelligence,2023,45(10):12113-12132.
Multimodal information generation and recommendation system driven by large language models
Wu Ye12,Lu Junlin1
(1.School of Journalism and Communication,Beijing Normal University,Beijing 1Oo875,China; :. Computational Communication Research Center,Beijing Normal University,Zhuhai 519ooo,China
Abstract:The rapid development of artificial intellgence technology has enabled large language models(LLMs)to playa significant role inmultimodal information generation and recommendation systems.This paper introduces how LLMsachieve cros-modal learning,integrating text,image,audio,andvideodata todriveautomationanddiversificationininformationgeneration,greatlyenhancingcontentquality.In recommendation systems,LLMs improve the accuracyand diversityof personalizedrecommendations through embedding matching,tokenrepresentation,andfunctioning directlyasrecommendationengines. Futureresearch should focus on enhancing thereasoning abilityand generatingqualityofmultimodalmodels,strengthening data securityandtransparency,andexpandingtheapplicationpotentialofLLMs ininformationgenerationandrecommendation.
Keywords:large language models;multimodal information;personalized recommendation;inteligent communication
[責任編校 楊浦 劉洋]