999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

思政創新與大語言模型“幻覺”

2025-08-04 00:00:00曾建光尤瀾濤嚴江南楊勛黃海波
產業經濟評論 2025年4期
關鍵詞:幻覺思政文本

一、引言

隨著數字技術的持續發展與廣泛應用,經濟社會中的數據總量以及計算機數據分析能力均呈現指數增長態勢。與此同時,非結構化數據已成為當前數據生態系統的主要組成部分(Liuetal.,2020)。IDC的調查報告顯示:企業中80%的數據都是非結構化數據。然而,這些復雜的包括文本數據在內的非結構化數據卻極具信息價值(Gentzkowetal.,2019)。現有研究發現,企業定期報告的文字部分透露出的信息在預測企業破產(Mayewetal.,2015)、信用評級(Donovanetal.,2021)和資本市場收益(Musluetal.,2015)等方面發揮了重要作用。文本信息逐漸受到經濟學、管理學領域研究者的廣泛關注。2017年,諾獎得主羅伯特·席勒(RobertJ.Shiller)在美國經濟學會的主題演講中,提出應將“敘事”作為經濟學研究的核心要素,他強調對經濟行為的研究不應僅局限于理性客觀的數據信息,還應重視社會、文化及政治等敘述性信息,在這些敘述性信息中,文本作為敘事的重要組成部分,具有不可忽視的作用(Bochkayetal.,2022)。

作為重要敘事的文本大數據具有來源多樣化、數據量增長快和高頻等特征,為經濟學和社會學的研究提供了新的分析視角(沈艷等,2019),為使用計算機領域自然語言處理方法(naturallanguageprocessing,NLP)相關的算法提供了各種應用場景(如:Li,2010;Das,2014;Loughranamp;McDonald,2016;Gentzkowetal.,2019;Bochkayetal.,2023)。盡管非結構化文本大數據的運用極大地拓寬了經濟學和社會學的實證研究領域,但也帶來了新的問題和挑戰。其局限性主要體現在以下兩個方面:其一,當前的NLP算法在處理非結構化文本數據時,往往忽略了語法和詞序,導致難以結合上下文情景對文本信息進行系統性的理解。例如,許多基于詞袋模型(BagofWords)或TF-IDF(TermFrequency-InverseDocumentFrequency)的方法雖然能夠捕捉詞匯頻率,但無法有效處理復雜的語義關系和句子結構(Manning,Raghavan,amp;Schütze,2008)。這種局限性使得NLP技術在處理需要深入理解背景和上下文的文本時表現不佳。其二,經濟學研究本質上無法脫離特定的文化和政治背景,而這些背景因素對文本數據的理解提出了更高的要求。具體而言,經濟行為和政策往往受到社會、文化和政治環境的深刻影響,這使得單純依賴NLP算法來解析和分析文本數據變得復雜且具有挑戰性(Rodrik,2015)。例如,在不同文化背景下,相同的詞語或表達可能具有不同的含義,這對算法的泛化能力提出了嚴峻考驗。

從早期的簡單統計模型到現代的神經網絡模型,技術經歷了逐步迭代和演化,顯著提升了人工智能(AI)在自然語言處理(NLP)領域的能力。這一系列技術進步不僅推動了NLP的發展,還使得這些模型在理解和生成復雜自然語言方面變得更加精準和高效,因此,生成式人工智能,特別是大語言模型(LargeLanguageModels,LLMs),在近年來取得了突破性進展(Korinek,2023)。大語言模型為文本分析領域帶來了一場前所未有的變革。不同于以往基于規則的人工智能,LLMs能夠參與到復雜的邏輯推理,理解自然語言的提問并生成自然語言的回答(OpenAI,2023a)。因此,大語言模型(LLMs)能夠高效地訪問和利用非結構化數據。這使得原本對自然語言處理技術而言難以處理的文本數據,成為了LLMs的重要數據來源。這些豐富的數據資源不僅支持LLMs進行復雜的邏輯推理、理解并生成自然語言,還使其能夠在多種應用場景中協助完成人類的工作任務,并展現出對社會現象深刻的洞察力和新穎的解釋能力(Korinek,2023)。也就是說,人類產生的非結構化數據成為了LLMs的“養料”,幫助其發展、進化,再“反哺”到人類的生產工作當中。

2022年11月,由OpenAI開發并發行的大語言模型ChatGPT一經上線就火爆全網,在信息處理方面展現出了近乎“無所不能”的能力。僅僅5天就超過百萬用戶注冊,兩個多月后月活用戶破億。由此,大語言模型引起了廣泛的學術研究和應用討論。現有研究表明,大語言模型在應對數學、編碼、財務、醫學、法律、心理學等多領域新穎且困難的任務的時候,哪怕沒有任何特殊提示,也已經驚人地達到了接近人類的水平(Bommaritoetal.,2023;Bubecketal.,2023;Niszczotaamp;Abbas,2023;鄭世林等,2024;曾晨語等,2025)。最近的一項研究也提出以大語言模型處理財務文本,結果發現大語言模型相較于其他機器學習算法,的確能夠更好地處理財務文本(Huangetal.,2022)。

雖然大語言模型表現出了強大的文本分析能力,但其在經濟學,特別是政治經濟學這類特殊領域,是否仍能展現出強大的分析能力尚不得而知。一方面,在經濟、會計和金融領域,新聞文章、財報電話會議、美國證券交易委員會文件以及社交媒體上文本的在線可用性為應用大語言模型技術提供了充足的素材(Loughranamp;Mcdonald,2016);而思想政治教育相關的內容包含了大量自然語言組成的文字內容,這正是大語言模型學習的強項(Niszczotaamp;Abbas,2023)。因此,大語言模型極有可能在未來的思政改革創新中提供一些不可思議的協助和見解,從而促進政治經濟學的傳播和發展。基于中國特殊的國情和獨特的文化,《中華人民共和國憲法》規定:“在馬克思列寧主義、毛澤東思想、鄧小平理論、‘三個代表’重要思想、科學發展觀、習近平新時代中國特色社會主義思想指引下,堅持人民民主專政,堅持社會主義道路,堅持改革開放,不斷完善社會主義的各項制度,發展社會主義市場經濟。”因此,我國全部的經濟生活都處在思想政治教育的指導之下,思想政治教育對我國經濟和社會的發展有著舉足輕重的作用。此時,大語言模型能否識別具有思政含義的文本內容對于精準解讀我國經濟信息尤為重要。

實際上,大語言模型已被證明表現出涉及種族、性別、宗教和政治取向上內容的偏見(Motokietal.,2023)。那么,在中國情景下,由于中國文化與思政的獨特性和發展性(張申和趙家杰,2023),現有大語言模型的訓練數據可能并不完全包含或符合我國主流意識形態和價值取向的內容,無法充分闡述我國當下的主流意識形態,這將會弱化大語言模型對正確價值觀的判斷。更為重要的是,中國思政的動態發展和不斷創新,這對大語言模型的思政類文本分析能力提出了更為嚴峻的挑戰,即產生“大語言模型幻覺”。大模型幻覺是指大語言模型在信息處理過程中偶爾產生一些看似合理,卻答非所問、偏離常識的輸出,這一現象的存在使得大語言模型在生產生活中應用的可靠性受到一定程度的損害(Huangetal.,2023),例如,在醫學領域,大語言模型可能生成錯誤的診斷導致健康風險(Paletal.,2023)。鑒于思政主要通過自然語言進行表述,并在不斷創新發展的過程中積累了大量文本數據,一個關鍵問題隨之浮現:大語言模型(LLMs)在處理這些自然語言數據時,是否也會產生所謂的“幻覺”現象?如果確實存在這種現象,那么不同大語言模型在處理思政相關文本時的表現又會呈現怎樣的差異?基于此,本文以大語言模型在思政能力測評的得分作為大語言模型理解思政創新能力的代理變量,以大語言模型訓練集截止日期前一個月百度搜索指數均值作為大語言模型訓練集思政創新程度的代理變量,研究發現,隨著思政改革創新發展水平的提高,大模型“幻覺”越嚴重。

本文的研究貢獻在于:第一,鑒于思政在培養公民正確思想觀念、增強企業社會責任意識以及促進經濟穩定發展方面的重要意義,本文旨在為人工智能時代重視思政教育并進一步發揮其在經濟指導中的作用提供理論參考。為了全面落實立德樹人的根本任務,我們需要將思政要求內化到各行各業的各個方面和各個環節中去。這就要求我們積極深化課程思政改革,構建全員、全過程、全方位育人的大格局。這也要求大模型的開發者和管理者需要與時俱進,及時跟進思政的發展和創新。

第二,在思政改革創新愈發重要以及大語言模型應用迅速擴展的背景下,本文前瞻性地探討了大語言模型在應對思政改革創新中的能力和潛在問題。考慮到我國國情下對思政因素的綜合優先考慮,研究發現當前的大語言模型在處理思政創新任務時存在顯著的“幻覺”現象,也即盡管大語言模型在自然語言處理領域取得了顯著進展,但在應對思政改革創新時仍存在較大挑戰。這一發現表明,現有大語言模型的研發寬度有待提升,并且在未來的研究和開發過程中,必須充分融入思政元素,重視思政的創新發展,以促進大語言模型在思政領域的性能提升,確保其在我國的應用具備更高的適應性、準確性和深度,推動大語言模型與思政教育的有機結合,為經濟社會的全面發展提供堅實的支持。

第三,盡管已有文獻表明大語言模型在理解和生成自然語言時的超強能力,但大多處于英文語境和部分中文語境。其中采用的中文語境大多來自于新聞媒體,但是,由于新聞媒體為了更好地吸引讀者,他們會根據報道內容的不同而采用不同的表達方式,導致過于注重敘事而思辨不足。為了有效考察大語言模型的自然語言能力,本文將測試問題僅限定在思政這一包含豐富中文文本的領域,由于思政的文本內容更強調自然語言表達的思想性、邏輯性、嚴謹性和思辨能力,在一定程度上更能有效反映大語言模型在中文自然語境中的能力。這一中文自然語言場景的實證結果充分表明,支持中文的大語言模型的訓練集需要重視并提升思政內容的占比,唯有這樣才能真正提升中文大語言模型的能力,減少“幻覺”。

第四,本文基于大語言模型的開發者屬性和外部可訪問性進行了異質性檢驗,研究發現,國內研發者以及公開訪問的大模型的“幻覺”較少,這些結果表明文化差異和大語言模型的公開透明可能是引致基于中文自然語言的大語言模型“幻覺”的原因。為弱化大語言模型“幻覺”、促進大語言模型發展,我們可能需要做好大語言模型相關的治理工作。最后,本文將研究范圍拓展到更多學科領域,探究思政改革創新帶來的溢出效應,促進大語言模型增加更多的具有中國特色的思政創新,以更好地理解自然語言的發展。

本文接下來的部分安排如下:第二部分是文獻回顧、理論分析及研究假設的提出;第三部分是數據來源與研究設計;第四部分是實證結果與分析;第五部分是研究結論。

二、文獻回顧、理論分析與研究假設的提出

(一)文獻評述

1.大語言模型發展

正如維特斯坦所言:語言的界限,就是我們世界的界限。語言是人類表達思想、構建事實邏輯的基本工具,并伴隨人的一生不斷發展演變。對自然語言處理的研究幾乎貫穿整個通用計算機歷史,自第一臺計算機誕生之初,計算機領域的研究者們就希望實現人機間的高效溝通,即計算機能夠理解人類自然語言的含義的同時也能使用自然語言表示反饋。從技術的發展歷史來講,之前的NLP研究大致經歷了從理性主義到經驗主義再到深度學習的三個歷史階段(車萬翔等,2023),但都沒有走出監督學習的范式,即根據特定任務,給定監督數據來設計模型進行推斷。語言模型就是在給定詞序列的情況下求解句子的聯合概率分布,但由于句子組合的可能性數量由句子的長度和詞數共同決定,導致模型參數量以冪指數的形式增加。為了解決這一問題,研究者提出了n元語言模型(n-gramlanguagemodel)這一簡單模型,利用句子是從左向右生成的特點,進行鏈式分解,利用前n-1個詞進行條件概率估計,大幅降低了語言模型的參數量。然而,該方法存在數據稀疏性這一典型缺點,即當n較大時,語料中并不存在這種組合,導致其估計概率為零。隨著深度神經網絡的發展與進步,利用深度學習來解決語言模型中不足的研究成為熱點。其中具有代表性的工作是Bengio在2003年提出的前饋神經語言模型(FeedForwardNeuralLanguageModel),具有低維緊密、蘊含語義等優點,為詞向量的發展和應用打下基礎(Bengioetal.,2003)。此外,一些其他的神經網絡也在語言模型中得到很好的利用和發展,如循環神經網絡(Mikolov,2010)、長短期記憶循環神經網絡(Sundermeyeretal.,2012)和卷積神經網絡(Phametal.,2016)。

隨著神經網絡研究的深入和計算機算力的提升,研究者們發現嵌入式詞表示和使用大規模無標注文本進行預訓練能夠很好提升語言模型性能。鑒于此,ELMo(EmbeddingfromLanguageModels)、BERT(BidirectionalEncoderRepresentationsfromTransforms)和GPT(GenerativePre-Training)等基于預訓練方法的大語言模型應運而生。這些算法在解決文本分析方面表現出了出色的能力。例如,ELMo對雙向長短期記憶模型進行大規模預訓練,解決了傳統詞向量在不同上下文背景中,無法解決一詞多義的問題(Petersetal.,2018)。2020年5月,OpenAI發布了包含1750億個參數的GPT-3模型,進一步優化了在自然語言文本理解和生成方面的能力,能夠流暢地完成翻譯、問答、完形填空以及一些需要即時推理的任務(Brownetal.,2020)。根據微軟Build2023開發者大會①公布的GPT訓練步驟,包含預訓練(Pretraining)、有監督微調(SupervisedFinetuning)、獎勵建模(RewardModeling)和強化學習(ReinforcementLearning),谷歌團隊進一步對基于單向的語言模型進行了改進,證明了使用雙向的預訓練效果更佳,并提出了遮擋語言模型MLM和預測下一個句子的任務兩種新的NLP任務(Devlinetal.,2019)。

2.大語言模型測試

GPT的成功對傳統自然語言任務范式是顛覆性的,摒棄了傳統手工設計的特征和結構,使得大語言模型在各類任務情景下都具有良好的表現,可以說是通用人工智能的雛形(Bubecketal.,2023)。大語言模型正朝著人類萬能協助者的角色不斷發展(Kasnecietal.,2023;Thirunavukarasuetal.,2023)。如今,針對大語言模型在不同專業領域的表現,研究者們開展了許多的研究。在醫學領域,ChatGPT在零提示的情況下通過了美國醫學執照考試(USMLE),表明ChatGPT能夠執行和處理復雜與醫療和臨床信息相關的多項復雜任務(Kungetal.,2023),且ChatGPT-4的性能表現顯著高于ChatGPT-3.5(Norietal.,2023)。在物理領域,West(2023)使用力學概念清單(ForceConceptInventory)分別測試ChatGPT-3.5和ChatGPT-4在回答有關運動學和牛頓動力學的概念物理問題時的表現,結果表明ChatGPT-3.5得分可以匹配或超過完成一學期大學物理的大學生得分的中位數,而ChatGPT-4的表現則已經達到與專業物理學家無法區分的程度(West,2023)。同時,在包含大量數字計算的財務金融領域,ChatGPT-3.5能夠獲得66%的分數,而ChatGPT-4則得到了近乎完美99%的分數(Niszczotaamp;Abbas,2023)。除此之外,還有許多學者關注不同大語言模型在不同學科領域中的表現,包括通信領域(Guoetal.,2023)、系統文獻檢索(Wangetal.,2023)、數學和邏輯推理(Friederetal.,2023;Pardosamp;Bhandari,2023;Shakarianetal.,2023)等。總而言之,由于大語言模型在NLP方面展現出來的巨大潛力,研究者們對大語言模型在教育、醫療、人機交互、科研等不同領域的能力產生了日益濃厚的興趣(Changetal.,2023;Liuetal.,2023),并且我國許多的科技公司、高等院校和研究院也在構建自己的大模型,如阿里的通義千問、百度的文心一言、騰訊的混元助手、華為的盤古大模型、清華大學的ChatGLM-6B等②。

盡管大語言模型在各類任務中大都表現出色,但其在應用中仍存在一個重要問題且已經得到研究者們的關注,即“幻覺”。所謂大語言模型“幻覺”指的是輸出與源輸入無關的或者完全無意義的內容(Filippova,2020;Jietal.,2023)。例如,當你輸入“今天的星座走勢”時,大語言模型會回答“今年屬龍的人會走運”這樣看似合理,但卻答非所問的問題。具體來說,大模型“幻覺”主要包括“事實幻覺(FactualityHallucination)”和“忠誠幻覺(FaithfulnessHallucination)”兩種類型。其中,事實幻覺包含事實不一致和事實捏造兩種情況,主要是大語言模型在交互中生成與現實生活中的知識不一致的內容或完全捏造一些事實進行回答。而忠誠幻覺則包括回答不一致、內容改變和邏輯錯誤三種情況,主要是大語言模型在回答已經給出提示內容或限制了背景的問題時,其輸出的答案內容與源輸入內容出現答非所問、篡改前提條件、邏輯不符合常識的情況(Huangetal.,2023)。無論是哪一種幻覺,其都嚴重影響了人類對人工智能的信任和應用。

總而言之,盡管已有大量研究對大語言模型在不同任務中的能力進行了評估,但這些研究大多基于英文文本語境進行開發和驗證。相比之下,專門針對中文文本語境設計和開發的大語言模型仍然較少,這在一定程度上阻礙了我國在該領域的開發與應用進展。同時,鑒于中文文本具有詞義變化靈活、單句信息密度高等特點(Sunetal.,2019),并考慮到在思政引領所有學科發展方向的總體方針下(Ansellamp;Lindvall,2013),以思政改革創新為背景,對大語言模型在中文語境下的性能進行測試顯得尤為必要。這種測試不僅有助于提升大語言模型的研發寬度和深度(Clarketal.,2019),還能確保其在復雜多變的中文應用場景中的有效性和可靠性。

(二)理論分析與假設提出

根據上文的綜述,隨著算法和計算機算力的發展,現有的不同類型的大語言模型皆已能夠較好地理解并生成自然語言的文本,在執行NLP任務時表現出出色的能力。因此,大語言模型處理以中文自然語言闡述的思政也自然可以有良好表現。一方面,我國思政課程中往往包含密集的文字內容,且以理想信念、理論知識和價值理念等大量抽象的內容為主(王學儉和石巖,2020),是對實際生產生活和頂層思想建設的高度概括。這一類文本內容具有高度概念化、信息含量大的特點,極具中文自然語言特色。有研究表明,與處理數字信息相比,處理自然語言正是大語言模型的強項(Niszczotaamp;Abbas,2023)。另一方面,OpenAI團隊的JaredKaplan(2020)等研究了語言模型交叉熵損失方面的經驗規模定律(ScalingLaws),即隨著數據集大小、模型大小和訓練時長的指數增加,模型性能隨之提升。因此,最直接的提升模型性能的方法是擴大訓練數據集規模。隨著數字技術的高速發展和應用落地,我國網民規模已達10.79億,每日產生ZB級的數據,其中大多為文本數據,這為大語言模型捕獲整個世界知識進行大規模預訓練提供了便利。進一步地,2022年4月,習近平總書記在中國人民大學考察時作出三個關鍵的重要指示,為思政課程改革創新指明了方向,隨后國務院印發《關于新時代加強和改進思想政治工作的意見》、中共中央辦公廳及國務院辦公廳印發《關于深化新時代學校思想政治理論課改革創新的若干意見》、中共中央辦公廳印發《關于加強新時代馬克思主義學院建設的意見》等文件開啟了思政改革創新的新一輪浪潮。這一系列的政策指導,在互聯網引發熱烈的分析和討論,從而留下大量文本痕跡,包括信息發布、討論、問答等,使得大語言模型的訓練集規模和內容發生變化,獲取更多與思政改革創新的知識,這可能提升大模型處理思政問題的能力。據此,本文提出研究假設H1a:

H1a:思政創新發展水平越高,大語言模型的思政能力更強。

人類的語言是用以溝通和思想表達,不同的語言在思想的表達上在歷史的發展過程中形成了自己獨特的方式,特別是具有幾千年歷史的中文。采用中文自然語言來傳達思政理念也自然遵循中文的語義邏輯。疊加了中文語義表達的復雜性和思政創新的表達,這給大語言模型增加了一定程度的難度,容易形成“幻覺”。大語言模型“幻覺”產生的原因來自大語言模型構建的整個流程,也就是說在研發一個大語言模型之前的任何步驟或元素產生的任何一點“錯誤”都會導致大語言模型“幻覺”的產生,主要包括數據、訓練和推理等重要的部分。在數據方面,由于大語言模型通過大量爬取互聯網數據作為預訓練數據集,而這些來自互聯網的數據往往質量參差不齊,一些質量較差、過時的信息,甚至完全錯誤的信息在互聯網中反復傳播會影響大語言模型對問題的理解和解答(Kandpaletal.,2023;Linetal.,2022)。而思政課程內容具有極強的時代性,其內容涉及一定時間、一定地域范圍的思想觀念、政治觀點、道德規范,需要滿足“因事而化、因時而進、因勢而新”的理念,也即思政內容一直處于創新過程中(成桂英和王繼平,2019)。因此,在思政創新發展水平較高時,會誕生更多與思政相關的新內容,而在高度數字化的今天,這些用自然語言表達的內容會在互聯網上不斷重復報道、提問以及回答,這些信息的發布大多在首次發表時由人工撰寫,而后被加工后不斷轉載,當這些信息在初期出現錯誤時,極有可能導致其在互聯網上被大量復制,從而影響大語言模型的思政能力。同時,創新會促使更多新的思政理論、論述、案例等的產生,但其在訓練集中所占比例較低甚至不存在,出現“長尾知識(Long-tailKnowledge)”的情況(Kandpaletal.,2023;Mallenetal.,2023),所以若訓練數據集更新不及時,大語言模型在回答思政問題時極易產生“事實幻覺”。另外,當數據集中的兩類信息總是相伴出現時,大語言模型會將他們識別為同類信息,從而出現問此答彼的現象(Hernandezetal.,2022;Kangamp;Choi,2023;Lietal.,2022)。例如,“恩格斯”在數據集中總與“馬克思”同時出現,當詢問“馬克思”的相關問題時,大語言模型會回答“馬克思”的相關內容。

在模型訓練方面,現有的大語言模型通常基于TransformerModel架構,這一架構的核心在于單向生成式解碼器,實際上就是根據上文預測下一個出現的詞語,這種方式能夠使用任意的文本數據對大語言模型進行訓練,并具有更好的跨語言和跨領域泛化能力(Chenetal.,2023)。但其缺點也相對明顯,阻礙了大語言模型獲取上下文復雜聯系的能力,潛在地增加了“幻覺”產生的可能性(Lietal.,2023)。而與思政有關的文本內容是對實踐和理論的高度凝練,上下文之間具有高度的邏輯聯系,如果大語言模型僅僅采用單向閱讀的方式對思政文本進行輸入和輸出,大語言模型“幻覺”產生的可能性將大幅增加。思政有關的問題在回答時恰恰需要結合時代背景進行作答,沒有固定答案,具有一定的主觀性。思政改革創新可能會加重這一主觀性,從而導致在作答思政題目時以犧牲真實性為代價來迎合題干。特別是涉及思政這類非常依賴上下文的問題時,大語言模型會以犧牲真實性為代價達到安撫人類情緒的目的(Perezetal.,2023;Sharmaetal.,2023)。這些錯誤回答甚至會不斷加劇,產生滾雪球效應(Zhangetal.,2023)。最后,在推理方面,大語言模型能夠生成令人驚訝的高度創新性和多樣化的文本,其原因在于解碼過程中引入的隨機抽樣。然而這種能力的代價就是“幻覺”風險的增加(Chuangetal.,2023),思政改革創新可能增大了隨機抽樣范圍,導致答非所問的情況。同時,大語言模型也存在過度自信的問題,主要表現在大語言模型過分關注部分生成的內容,且優先聚焦于臨近的詞語,為了文本輸出的流暢性而忠實于上下文、偏離原始內容,導致“忠誠幻覺”問題(Chenetal.,2023;Liuetal.,2023)。同樣地,思政的創新發展可能引入了大量具有創新性的文本,而大語言模型并不能真正理解這些問題,在生成輸出文本時,從基于問題回答轉向基于流暢和創新,從而導致指令遺忘,生成毫不相關的回答。據此,本文提出研究假設H1a的競爭性假設H1b:

H1b:思政創新發展水平越高,大語言模型思政能力更弱。

三、數據來源與研究設計

為了驗證以上假設,本文選取Huang等(2023)開發的中文大語言模型評估基準平臺為研究對象。截止到2023年10月12日共有81個大語言模型提交了測試結果。

為了檢驗H1a和H1b,本文將待檢驗的回歸研究模型設定為模型(I)。

模型(I)中的被解釋變量為中文大語言模型評估的思政能力分數的自然對數(LnScore),我們主要采用兩個指標作為其思政能力的代理變量,分別是馬克思主義基本原理得分的自然對數(MarxScore)和毛澤東思想和中國特色社會主義理論體系概論得分的自然對數(MaoScore)。另外在還采用三個指標作為進一步測試來測度其思政能力分數,分別為:高中政治得分的自然對數(HighP)、初中政治得分的自然對數(MiddleP)和思想道德修養與法律基礎得分的自然對數(Moral)。

模型(I)的核心解釋變量為思政創新(Innovation),采用每個大模型訓練集截止日期的前一個月百度搜索“馬克思主義”的平均搜索指數的自然對數(Marx1M)和每個大模型提交測試的前一個月百度搜索“毛澤東思想”的平均搜索指數的自然對數(Mao1M)作為代理變量。本文認為,當社會發展和時代變遷帶來新問題、新挑戰和新需求時,人們對思政內容的關注和探索也會相應增加。高搜索量在很大程度上反映了人們對思政問題的關注、思考和討論,進而推動了思政內容的創新。

模型(I)的控制變量包括大語言模型開發者和大語言模型本身的特征變量。模型(I)中的變量定義具體如表1所示。

四、實證結果與分析

(一)描述性統計與相關系數表

樣本總共包括81個大語言模型的相關數據。其中,除大語言模型的邏輯學能力和數學能力外,其余變量相對穩定,這與上文論述相符,大語言模型傾向于NLP,在邏輯和數字處理能力方面則存在較大參差。5個衡量大語言模型思政能力的代理變量的中位數均大于均值,呈現小幅的左偏分布,這表明存在個別大語言模型的思政能力明顯低于其他大語言模型。是否為同一團隊(Peer)、是否由大學開發(Univer)、是否有公開網址(Address)、是否采用人工標注(Zero)的均值分別為0.593、0.160、0.543、0.321,表明較多的中文大語言模型開發者來自非大學機構的同一團隊開發者開發且采用無人工標注的訓練集數據并擁有公開可用網址。表明表2報告了參與回歸的樣本中全部變量的描述統計信息。

表3報告了Pearson和Spearman的相關系數,其中上三角為Pearson相關系數,下三角表示的是Spearman相關系數。思政改革創新水平的兩個代理變量均與大語言模型思政能力的五個代理變量呈現顯著負相關關系,表明在思政改革創新水平較高的時候,大語言模型的思政能力相對較低,這初步驗證了研究假設H1b。另外,三項大語言模型開發者的特征變量Peer、Univer、Address與大語言模型思政能力幾乎不存在顯著相關關系。

(二)基準回歸結果與分析

表4匯報了模型(I)按照大語言模型聚類的OLS回歸結果。第(1)列和列(3)分別為沒有控制其他控制變量的回歸結果,回歸系數分別為0.215和0.267,在5%和1%水平上顯著。列(3)和列(4)為添加了其他控制變量的回歸結果,回歸系數分別為0.144和0.157,在1%和5%水平上顯著,這表明思政創新發展水平越高,大語言模型的思政能力越差,從而驗證了本文的研究假設H1b,拒絕了競爭性假設H1a。從實際意義上看,思政創新發展水平每提升一單位,大語言模型思政能力就弱0.144或0.157。這可能是由于思政創新發展帶來的新表述、新理論、新案例等增加了過時回答、錯誤帖子重復發布、長尾知識以及過度自信等問題,加大了大語言模型通過單向閱讀對思政文本進行學習理解的難度,從而導致大語言模型“幻覺”更頻繁地出現。

(三)穩健性檢驗

1.替換解釋變量

由于采用大語言模型訓練集截止日期前一個月的百度搜索平均指數作為思政創新發展水平的代理變量可能受到上月偶然沖擊事件的影響,從而影響研究結果的穩健性,我們將思政創新發展水平的代理變量替換為每個大模型訓練集截止日期前一年百度搜索“馬克思主義”的平均搜索指數的自然對數(Marx1Y)和每個大模型訓練集截止日期前一年百度搜索“毛澤東思想”的平均搜索指數的自然對數(Mao1Y)。第(1)和(2)列為替換解釋變量后的回歸結果,回歸系數分別1.417和3.460,仍在10%和5%的水平上顯著,表明本文對假設H1b驗證結果存在一定的穩健性。

在基準回歸中,我們使用大語言模型訓練集截止日期前一個月的百度搜索指數的自然對數作為思政創新發展水平的代理變量,為避免取自然對數對回歸模型系數和顯著性的影響,我們使用大語言模型訓練集截止日期前一年和前一個月的百度搜索“馬克思主義”和“毛澤東思想”的平均搜索指數作為解釋變量。回歸結果如表6所示,替換被解釋變量后,大語言模型思政能力與思政創新發展水平依然呈現顯著負相關,表明本文結果具有良好的穩健性。

2.替換被解釋變量

同時,僅使用大語言模型在馬克思主義基本原理、毛澤東思想和中國特色社會主義理論體系概論測試中的得分作為被解釋變量也有可能對模型結果的解釋引入混雜因素。我們將被解釋變量分別替換為大語言模型在高中政治、初中政治、思想道德修養與法律基礎測試中的得分,結果如表7所示。回歸結果顯示大語言模型思政能力與思政創新發展水平依然呈現顯著負相關,再次證明了本研究結論的穩健性。

(四)異質性分析

1.國外模型與國內模型

由于中文和英文在語法、詞性和行文上差異顯著,以及中文詞語間并沒有自然空格的原因(Zhouetal.,2023),要想準確把握中文文本的意思,必須采取一套針對中文的自然語言處理方式。同時,語言的表達與本土文化有著緊密的聯系,非母語者哪怕對一門外語進行長時間的學習,也不能完全參透其中的含義,或在表達時存在歧義(Albrecht,2023)。并且,已有研究者表明大語言模型在對中文的理解仍然存在不足(Y.Lietal.,2023)。因此,來自國外的開發者或公司可能在對中文語境下的文化理解上存在不足,而思政內容擁有大量的中文長難句,且這類涉及政治、意識形態的內容往往極具文化特色,這可能導致來自國外公司或開發者開發的語言模型在思政問題時能力較弱。因此,為了印證這一猜測,我們設置變量Foreign,當模型是國外公司或開發者開發的,Foreign為1,否則為0。同時,在模型(I)中添加變量Foreign以及它和思政創新發展水平的交乘項Mao1M×Foreign,回歸結果重點關注交乘項的符號及顯著性。表8列示了回歸結果,無論在馬克思主義或是毛澤東思想的回歸列交乘項均顯著為負,這表明來自國外的開發者或公司的大語言模型在回答思政有關問題時,“幻覺”現象更加嚴重。

2.大語言模型的外部可訪問性

另外,大語言模型的外部可訪問性也可能會影響到大語言模型的思政能力。基于信息不對稱理論(Akerlof,1970;Stiglitz,1977),當大語言模型不具備外部可訪問性時,大語言模型開發者與使用者之間信息不對稱程度加大,更有可能導致道德風險問題。開發者可能在模型構建過程中偷工減料,甚至弄虛作假,提交測試的回答來源于非大語言模型作答,從而影響對大語言模型的能力的評價。另外,基于信號傳遞理論(Spence,1973),大語言模型的開發者或公司為了獲取更多的融資機會,會積極對外發布自己開發的大語言模型,然而大語言模型開發所需的時間、費用和技術都具有較高門檻,開發者或公司也有動機對提交的測試弄虛造假。為驗證大語言模型的外部可訪問性在思政創新發展水平對思政能力負向影響中的作用,我們在模型(I)外部可訪問性和思政創新發展水平的交乘項Mao1M×Address,回歸結果重點關注交乘項的符號及顯著性。表9列示了回歸結果,無論在馬克思主義或是毛澤東思想的回歸列交乘項均顯著為負,這表明具有外部可訪問性的大語言模型在回答思政有關問題時,“幻覺”現象更加頻發,這也許表明了外部不可用的大語言模型存在弄虛作假的可能性。

(五)進一步分析

我們進一步討論思政創新發展水平對大語言模型的影響是否會溢出到其他學科問題上。因此,我們分別向大語言模型提交社會科學和所有學科的測試,變量SocialScience表示社會科學的綜合得分,變量Avg表示所有學科的綜合得分,結果如表10所示。列(1)、列(2)兩種對思政創新發展水平的度量皆對大語言模型社會科學類的回答能力產生了負向影響,列(3)、列(4)則表明這種負向影響也會溢出到所有學科的作答當中。這可能是由于思政內容包含了大量文字內容,在思政這一學科范圍的錯誤文本影響了大語言模型對整個自然語言體系的正確理解,從而產生了溢出效應。這種對溢出效應覆蓋了幾乎所有學科,而對大語言模型的應用對所有學科又是未來的重要趨勢,若不能及時發現、探究、解決這類普遍的“幻覺”現象,則可能引發人類對大語言模型的不信任,減緩大語言模型的應用落地;或者使用者完全沒有意識到這種大語言模型的“幻覺”,過分信任大語言模型的回答,也有可能累計出重大的經濟后果。

五、研究結論

五、研究結論隨著我國互聯網的迅速普及,民眾不僅能夠便捷地獲取信息,還可以自由發布和傳遞信息,成為信息的生產者。這種現象在互聯網上產生了大量由自然語言構成的非結構化數據,為構建基于大規模互聯網文本訓練的大語言模型提供了便利條件。然而,互聯網空間的高度自由化也導致了大量低質量或垃圾文本信息的存在,這些信息污染了大語言模型的數據集,影響了其性能和可靠性。此外,大語言模型的訓練模式和推理機制本身的特點,也限制了其在理解和生成自然語言方面的表現,特別是在處理涉及政治制度、意識形態和文化理論等復雜背景的文本時。本文結合我國實際情況,在強調思政改革創新的時代背景下,研究了思政創新發展水平對大語言模型思政能力的影響,揭示了大語言模型在中文語境下的“幻覺”情況。研究發現:首先,隨著思政創新發展水平的提高,大語言模型理解思政創新的能力越差;其次,在開發者或者公司國別屬性和外部可訪問性的情景之下,思政創新發展水平對大語言模型思政能力的影響更加負面,也即來自國外開發者或公司的大語言模型和具有外部可訪問性的大語言模型在思政測試得分情況上更受到思政創新發展水平的影響;最后,思政創新發展水平對其他學科存在溢出效應,當思政發展水平越高時,大語言模型回答其他學科問題的能力也會下降。以上結果經過多重穩健性檢驗,為評估、分析、應用大語言模型能力提供了新視角和經驗證據。本文的研究可能具有如下的政策啟示:

第一,鑒于大語言模型在生成內容時可能出現的“幻覺”現象(Benderetal.,2021),使用者應當對其提供的信息保持謹慎態度。盡管許多學者將大語言模型視為通用型機器人的雛形,并認為其未來發展方向是成為人類的全能型助手,但當前階段,必須正視并尊重這些模型存在的“幻覺”問題(Brownetal.,2020)。無論是政府、企業還是個人,在利用大語言模型進行咨詢或決策支持時,應對模型輸出的信息進行審慎評估,特別是在涉及重大決策和關鍵概念時,應通過人工核驗確保信息的準確性和可靠性(Clarketal.,2019)。

第二,為了提升大語言模型在思政特別是思政創新方面的精準性和發展性理解,應加強與政府、企業之間的合作。當前,由于數據集、訓練和推理等方面的局限,高創新水平的思政內容對大語言模型的回答能力提出了更高的要求。因此,后續的大語言模型發展應在這些關鍵領域進行針對性調整,特別是在構建高質量的數據集方面(Sunetal.,2019)。為此,建議由政府牽頭,聯合行業協會,共同創建事實準確的開源訓練數據集,以促進大語言模型的發展并推動經濟進步。

第三,鼓勵本土大語言模型研發,開發深度融合我國國情的大語言模型。本文研究發現,來自國外開發者或公司的大語言模型在應對思政改革創新時,能力表現更差,這可能是由于對我國文化理解不透徹導致的,同時也引入了許多不可觀察的混雜原因。因此,應加強本土大語言模型的研發。

第四,支持大語言模型開發透明化,實現大語言模型研發的全民監督。大語言模型毫無疑問是最近投資界的最大熱點,也是未來經濟生產方式變革的推動力。但有些企業可能借著大語言模型研發的幌子吸引投資者投資,這會導致資本市場的錯配,影響我國經濟發展。因此,對參與大語言模型開發的企業應施行更嚴厲的監督,增強大語言模型的外部可訪問性。

第五,結合多種分析手段,輔助大語言模型應用于政治經濟學研究。政治經濟學的文本信息不同于普通文本信息,其中涉及大量的政策制度、思想意識和文化背景,多個維度的相互作用構成了邏輯極度嚴密的信息集。因此,大語言模型可能無法準確地解讀和分析思政文本中的深刻含義和細微差別,難以把握我國的經濟發展規律。由此可見,對這一領域的研究,需結合理論分析、政策研究等,進而更全面地探索政治經濟學領域中的問題和關聯,并為研究者提供更準確的預測和決策支持。

猜你喜歡
幻覺思政文本
公共協同視域下思政實踐活動教學的資源整合與效能提升
公關世界(2025年15期)2025-08-23 00:00:00
大中小學思政課一體化建設的課程觀創新研究
破解“幻覺”難題助力金融智能健康發展
鄭小林:新一代人工智能趨勢與挑戰
信息化建設(2025年4期)2025-08-14 00:00:00
新時期學校思政課建設的新形勢
人工智能為何會產生幻覺?
有意義且有意思: 思政課堂教學樣態探索
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 成人免费一区二区三区| 免费高清自慰一区二区三区| 99热这里只有精品2| 18禁高潮出水呻吟娇喘蜜芽| 国产69囗曝护士吞精在线视频| 国产一级无码不卡视频| 中文字幕久久精品波多野结| 亚洲娇小与黑人巨大交| 91免费在线看| 91精品专区国产盗摄| 91国内在线视频| 亚洲美女一区二区三区| 在线观看无码av五月花| 视频二区亚洲精品| 亚洲av色吊丝无码| 免费毛片网站在线观看| 国产精品密蕾丝视频| 国产h视频免费观看| 色综合综合网| 有专无码视频| a毛片免费在线观看| 18禁影院亚洲专区| 中文字幕久久亚洲一区| 亚洲欧洲日产国码无码av喷潮| 免费毛片视频| 精品成人一区二区三区电影 | 国产一区免费在线观看| 国产精品成人免费视频99| 国产免费久久精品99re不卡| 亚洲成人www| 亚洲综合亚洲国产尤物| 国产成人亚洲日韩欧美电影| 亚洲国产精品无码久久一线| 免费高清毛片| 国产又爽又黄无遮挡免费观看| 欧美a√在线| 在线观看热码亚洲av每日更新| 亚洲精品无码专区在线观看 | 婷婷开心中文字幕| 欧美成人影院亚洲综合图| 国产一区在线视频观看| 国产在线拍偷自揄观看视频网站| 亚洲男人的天堂网| 日韩av手机在线| 亚洲精品欧美日韩在线| 国产一区成人| 为你提供最新久久精品久久综合| 欧洲欧美人成免费全部视频| 亚洲六月丁香六月婷婷蜜芽| 亚洲aaa视频| 亚洲伦理一区二区| 四虎影视无码永久免费观看| 在线高清亚洲精品二区| 成人精品区| 18禁不卡免费网站| 999在线免费视频| a级毛片视频免费观看| 亚洲国产高清精品线久久| 中文无码日韩精品| 色婷婷视频在线| A级毛片高清免费视频就| av无码久久精品| 久久天天躁狠狠躁夜夜2020一| 超清人妻系列无码专区| 中文字幕在线看视频一区二区三区| 无码福利日韩神码福利片| 亚洲系列中文字幕一区二区| 久久九九热视频| 国产成人毛片| 欧美中文字幕无线码视频| 国产在线精品美女观看| 99在线视频免费观看| 国产精品亚洲精品爽爽| 国产女人爽到高潮的免费视频| 国产精品成人一区二区不卡| 亚洲人成在线精品| 亚洲AV无码乱码在线观看裸奔| www.99在线观看| 国产69精品久久久久孕妇大杂乱 | 精品无码专区亚洲| 国产欧美视频综合二区| 国产av无码日韩av无码网站 |