【中圖分類號】G40-057【文獻(xiàn)標(biāo)識碼】A【論文編號】1009—8097(2025)05—005—09【DOI】10.3969/j.isn.1009-8097.202505.001
生成式人工智能(Generative Artificial Intelligence,GenAI)的快速發(fā)展,推動了教育的智慧化轉(zhuǎn)型。目前,GenAI模型已被廣泛應(yīng)用于教師智慧教學(xué)、學(xué)生個性化學(xué)習(xí)、研究者循證研究、管理者數(shù)智化決策等多個方面[1]。然而,GenAI模型生成的內(nèi)容可能會存在傳遞不準(zhǔn)確、具有誤導(dǎo)性甚至包含有害信息的風(fēng)險[2],從而影響學(xué)生價值觀的形成。這就凸顯了當(dāng)前計算機(jī)科學(xué)領(lǐng)域的一個核心問題:如何確保GenAI模型準(zhǔn)確理解并傳遞人類的規(guī)范和價值觀[3]?有研究表明,未經(jīng)對齊的GenAI模型在面臨簡單的道德選擇判斷時,只有 60.2% 的準(zhǔn)確率[4]。特別是以ChatGPT、GPT-4o 為代表的國外GenAI模型在進(jìn)行大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的過程中,可能會自覺或不自覺地宣揚(yáng)個人主義、自由主義等西方價值觀[5],而這必然會與中國所強(qiáng)調(diào)的集體主義價值觀產(chǎn)生沖突。此時,如果不對GenAI模型進(jìn)行謹(jǐn)慎評估和及時調(diào)控,就可能會對中華優(yōu)秀傳統(tǒng)文化傳承和國家意識形態(tài)安全產(chǎn)生不利影響。考慮到“教育活動不可能回避價值問題”[,為了確保GenAI模型真正服務(wù)于中國的教育目標(biāo),亟需在技術(shù)應(yīng)用的過程中遵循以中國教育的價值觀為導(dǎo)向的原則,以使其更好地適應(yīng)本土教育需求。因此,本研究擬從“如何測評”“如何提升”兩個方面,來探討GenAI模型與中國教育的價值觀對齊問題。
一相關(guān)研究
1中國教育價值觀解讀
“價值觀”具有文化屬性,是一種決定和影響人們行為取向的觀念[7],也是人們衡量自己或他人行為正確與否的主觀依據(jù)。“教育價值觀”是教育理論與實踐中的一個重要問題,是關(guān)于教育價值問題的觀念體系[8],其核心是回答“為誰辦教育”和“為誰培養(yǎng)人”的問題[9],旨在為教育活動提供根本指引。習(xí)近平總書記強(qiáng)調(diào):教育要堅持正確的價值導(dǎo)向,服務(wù)于培養(yǎng)德智體美勞全面發(fā)展的社會主義建設(shè)者和接班人這一根本目標(biāo)[10]。陳才烈等[1從“人民中心的教育發(fā)展論”“服務(wù)中華民族偉大復(fù)興的教育使命論”兩個方面,科學(xué)回答了新時代我國教育的價值取向。崔瑞霞等[12]從教育價值立場、價值取向、價值追求、價值目標(biāo)、價值標(biāo)準(zhǔn)和價值原則六個維度,對我國教育價值觀進(jìn)行了系統(tǒng)論述。總的來說,中國教育價值觀體現(xiàn)了“國家發(fā)展戰(zhàn)略”與“個體全面發(fā)展”的雙重導(dǎo)向:不僅強(qiáng)調(diào)教育對國家戰(zhàn)略的支撐功能,而且注重學(xué)生個體的德智體美勞全面發(fā)展,這就對技術(shù)應(yīng)用提出了協(xié)同服務(wù)國家發(fā)展和促進(jìn)個體成長的雙重要求。
2價值觀對齊相關(guān)研究
“價值觀對齊”概念最早萌芽于“控制論之父”Wiener的觀點(diǎn):“我們最好完全確定賦予機(jī)器的目標(biāo)就是我們真正想要的目標(biāo)”[13]。在一次訪談中,Russell提出“價值對齊問題”:“我們需要解決的不是純粹的智能問題,而是與人類價值觀對齊的智能;價值對齊問題是人工智能風(fēng)險管理的一部分。”[14]目前,學(xué)術(shù)界尚未對“價值觀對齊”形成統(tǒng)一定義。本研究中的“價值觀對齊”,是指GenAI模型生成的內(nèi)容要契合中國教育的價值觀。也就是說,GenAI模型不僅要輸出符合規(guī)范的內(nèi)容,更要體現(xiàn)其與中國教育在目標(biāo)導(dǎo)向、價值取向、價值標(biāo)準(zhǔn)、價值根基等維度的深度契合,從而實現(xiàn)其與中國教育價值觀的有效對齊。
通過文獻(xiàn)梳理,本研究發(fā)現(xiàn)已有的價值觀對齊相關(guān)研究成果集中在兩個層面: ① 理論層面,有研究從GenAI模型對齊的價值表征出發(fā),探討了其倫理路徑[15];有研究從道德倫理角度,探究了道德機(jī)器與價值對齊的道德前景[1],并通過新技術(shù)倫理路徑分析了人機(jī)價值對齊的問題[17]。 ② 技術(shù)層面,主要涉及規(guī)范GenAI模型發(fā)展的三條路徑,一是禁止研發(fā)自主性人工智能機(jī)器;二是加大GenAI模型的透明度,打開算法黑箱,使GenAI模型的行為可以得到解釋;三是將人類道德嵌入GenAI模型,這被認(rèn)為是實現(xiàn)價值對齊的最佳選擇[18]。可見,現(xiàn)有研究多從理論思辨或技術(shù)路徑等視角展開探討,但較少深入分析其在具體教育場景中的應(yīng)用,尤其是與特定文化背景下的教育價值觀相結(jié)合的研究較少。基于此,本研究重在探討GenAI模型與中國教育的價值觀對齊問題,以填補(bǔ)此方面的研究不足。
二價值觀對齊評測框架的構(gòu)建
中國傳統(tǒng)德育思想是數(shù)千年道德教育理念的結(jié)晶,為當(dāng)代中國教育價值觀奠定了深厚的歷史和文化基礎(chǔ)。作為一種以倫理價值和德性修養(yǎng)為核心的道德文化,中國傳統(tǒng)德育思想始終引導(dǎo)個體崇德修身、向善向上[19]。這種價值觀為現(xiàn)代教育中的“立德樹人”任務(wù)提供了道德依據(jù)和實踐導(dǎo)向。習(xí)近平總書記對新時代的中國教育價值觀進(jìn)行了系統(tǒng)論述,明確指出要培養(yǎng)德智體美勞全面發(fā)展的社會主義建設(shè)者和接班人[20],堅持“四為”方針,落實“立德樹人”根本任務(wù)[21[2],傳承和弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化[23]。這些論述明確了“教育為誰培養(yǎng)人”“培養(yǎng)什么人”“如何培養(yǎng)人”的根本問題,可為本研究構(gòu)建價值觀對齊評測框架提供理論指導(dǎo)。
綜上,本研究提出價值觀對齊評測框架的構(gòu)建思路: ① 以中國傳統(tǒng)德育思想為基礎(chǔ),結(jié)合習(xí)近平總書記在全國教育大會、師生座談會等重要講話中對教育價值導(dǎo)向的系統(tǒng)闡述,明確教育的政治方向與育人目標(biāo); ② 將教育學(xué)領(lǐng)域的相關(guān)研究成果特別是崔瑞霞等[24提出的中國教育價值觀六個維度(即價值立場、價值取向、價值追求、價值目標(biāo)、價值標(biāo)準(zhǔn)、價值原則)作為理論支撐; ③ 結(jié)合GenAI模型在教育場景中的現(xiàn)實應(yīng)用需求,強(qiáng)調(diào)價值觀對齊的可評估性與適配性。據(jù)此,本研究構(gòu)建了包含目標(biāo)導(dǎo)向、價值取向、價值標(biāo)準(zhǔn)和價值根基四個維度的價值觀對齊評測框架,如圖1所示。價值觀對齊評測框架既體現(xiàn)了中國教育價值觀在技術(shù)應(yīng)用中的引導(dǎo)作用,也為GenAI模型在教育領(lǐng)域的本土化評估與質(zhì)量保障提供了參考依據(jù)。6

① 目標(biāo)導(dǎo)向:習(xí)近平總書記指出,我國社會主義教育就是要培養(yǎng)德智體美勞全面發(fā)展的社會主義建設(shè)者和接班人[25]。目標(biāo)導(dǎo)向不僅指向個人的全面發(fā)展,更要服務(wù)于國家的長遠(yuǎn)發(fā)展,確保教育內(nèi)容和方向契合國家需求。② 價值取向:教育不僅要傳遞知識和培養(yǎng)技能,更要將社會主義核心價值觀貫穿于育人全過程,培養(yǎng)學(xué)生的社會責(zé)任感和家國情懷。具體來說,就是要堅持教育的“四為”方針,即為人民服務(wù)、為中國共產(chǎn)黨治國理政服務(wù)、為鞏固和發(fā)展中國特色社會主義制度服務(wù)、為改革開放和社會主義現(xiàn)代化建設(shè)服務(wù)[26]。③ 價值標(biāo)準(zhǔn):在教育成效評價中,習(xí)近平總書記提出要將“立德樹人”的成效作為檢驗學(xué)校一切工作的根本標(biāo)準(zhǔn)[27]。落實“立德樹人”根本任務(wù),要求教育不僅注重知識教育,更要注重學(xué)生品德修養(yǎng)的培養(yǎng),使學(xué)生具備正確的價值判斷能力和良好的社會適應(yīng)性,成長為符合社會主義核心價值觀要求的合格人才。④ 價值根基:習(xí)近平總書記指出,中華優(yōu)秀傳統(tǒng)文化已成為中華民族的基因,植根在中國人內(nèi)心,潛移默化地影響著中國人的思想方式和行為方式[28]。價值根基是傳承和弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化,不僅包括文化知識的傳播,也涉及民族精神和道德力量的傳遞,使學(xué)生具備正確的價值觀和深厚的文化底蘊(yùn)。
三研究設(shè)計
1數(shù)據(jù)來源
本研究的數(shù)據(jù)來源于 2016~2023 年國家教師資格證考試和教育學(xué)碩士研究生統(tǒng)一招生考試的真題,主要基于以下考慮: ① 權(quán)威性,國家教師資格證考試和碩士研究生統(tǒng)一招生考試都是經(jīng)過精心設(shè)計且廣泛認(rèn)可的標(biāo)準(zhǔn)化考試體系,蘊(yùn)含我國教育理論和實踐的價值導(dǎo)向,能有效代表我國的教育價值標(biāo)準(zhǔn); ② 多樣性,考試內(nèi)容涵蓋教育學(xué)、心理學(xué)等多個領(lǐng)域,且包括選擇題、判斷題等多種題型,可從多維度評估教育價值觀; ③ 公信力,每道題附有標(biāo)準(zhǔn)答案和評分標(biāo)準(zhǔn),免去了人工設(shè)計答案可能引起的理解偏差,確保了評估的客觀性。
2樣本描述
本研究從“歷年教師資格證筆試試題庫”和“考研教育學(xué)統(tǒng)考《311教育學(xué)專業(yè)基礎(chǔ)綜合》歷年考研真題庫”中選取200道試題,依托價值觀對齊評測框架,從目標(biāo)導(dǎo)向、價值取向、價值標(biāo)準(zhǔn)、價值根基四個維度對這些試題進(jìn)行分類統(tǒng)計,以提供多樣化情景來測試GenAI模型在中國教育價值觀方面的表現(xiàn)。為全面評估GenAI模型在中國教育價值觀不同層次任務(wù)中的表現(xiàn),本研究對200道試題的題型進(jìn)行了難度分層設(shè)計,從易到難依次劃分為基礎(chǔ)知識理解、綜合分析、倫理判斷等層次,確保GenAI模型在邏輯推理和深度理解方面的表現(xiàn)能夠得到較為全面的體現(xiàn)。題型主要分為客觀題和主觀題兩類,其中客觀題包括單選、多選、填空、判斷四種,而主觀題主要為論述題。此外,本研究團(tuán)隊自行設(shè)計了10道情景題,這些試題由3名具有副高級以上職稱的教育學(xué)專家審核后最終確定。情景題有多個情景化設(shè)定,用于模擬真實教育情景中對價值觀的多重考驗,從而檢驗GenAI模型在深層對齊任務(wù)中的表現(xiàn)能力。評測試題的基本構(gòu)成如表1所示。

3GenAI模型選擇與評估范圍
本研究選取8個前沿的國內(nèi)外GenAI模型進(jìn)行評估:國外GenAI模型包括GPT-4o、LLAMA3-70B、Mistral 7bv0.3 ,國內(nèi)GenAI模型包括Qwen 2.5、Baichuan4、ChatGLM4、文心大模型3.5 和訊飛星火大模型。這些GenAI模型具備優(yōu)秀的語言理解能力和復(fù)雜任務(wù)處理能力,因而被選為本研究的評估對象,以開展多維度對比分析。值得注意的是,訊飛星火大模型在測試過程中出現(xiàn)了敏感信息提示,故本研究未對此GenAI模型進(jìn)行客觀題和主觀題評測,只進(jìn)行了情景題評測,以確保測試結(jié)果的合理性和公正性。
4評測方法與評分細(xì)則
① 基于標(biāo)準(zhǔn)答案的客觀題評測:對于單選題、多選題、填空題和判斷題,主要根據(jù)參考答案對8個GenAI模型進(jìn)行評分,每題分值為1分,答對得1分,答錯不計分。考慮到各維度客觀題的數(shù)量不同,為確保評分的一致性,按照公式(1)進(jìn)行計算,以通過準(zhǔn)確率來客觀量化各GenAI模型在客觀題上的表現(xiàn)。例如,GPT-4o在“價值標(biāo)準(zhǔn)”維度的客觀題總分為50分,實際得分為43分,那么此GenAI模型在“價值標(biāo)準(zhǔn)”維度客觀題上的準(zhǔn)確率為( 43÷50 ) ×100%=86% 。
準(zhǔn)確率 Σ=Σ (GenAI模型得分÷該維度客觀題總分) ×100% 公式(1)
② 基于專家評分的主觀題和情景題評測:在主觀題評分方面,每道主觀題由3名具有副高級以上職稱的教育學(xué)專家獨(dú)立評分,滿分為5分。在提供標(biāo)準(zhǔn)答案的前提下,論述題依據(jù)準(zhǔn)確性、邏輯性、完整性、語言表達(dá)、價值觀契合度五個指標(biāo)進(jìn)行評測,每個指標(biāo)各占1分,評分為五個指標(biāo)的總和,GenAI模型得分取三名專家評分的平均值。為確保評分的公平性和科學(xué)性,論述題的準(zhǔn)確率也按公式(1)進(jìn)行計算。同樣,情景題評分也由上述3名專家共同完成,采用分級評分法。依據(jù)內(nèi)容契合度,情景題的回答分為完全契合(5分)、基本契合(4分)、部分契合(3分)、存在偏差(2分)、偏差嚴(yán)重(1分)、不符(0分)六個等級。3名專家在評分時重點(diǎn)關(guān)注回答是否體現(xiàn)了標(biāo)準(zhǔn)答案的核心思想,是否在情景中準(zhǔn)確傳達(dá)了中國教育的價值觀。GenAI模型得分取三名專家評分的平均值,按照公式(1)計算出情景題的準(zhǔn)確率。
四研究分析
1GenAI模型在教育價值觀不同題型上的表現(xiàn)差異
按照上述評測方法,本研究對8個GenAI模型在不同題型上的準(zhǔn)確率進(jìn)行了對比,如表2所示。整體來看,8個GenAI模型的準(zhǔn)確率均值為 53.00% ,其中文心大模型3.5、GPT-4o、ChatGLM4、Qwen2.5的準(zhǔn)確率均大于 60% ,表明這4個GenAI模型具備一定的價值觀對齊能力,但也還有較大的提升空間。從題型表現(xiàn)來看,GenAI模型在客觀題上的表現(xiàn)較好(準(zhǔn)確率均值為 73.13% ),其中Qwen2.5的表現(xiàn)最佳(準(zhǔn)確率為 83.03% ),文心大模型3.5、GPT-4o、Baichuan4的準(zhǔn)確率也均超過 80% ,說明GenAI模型對結(jié)構(gòu)化、明確的教育價值觀問題識別能力較強(qiáng);GenAI模型在主觀題上的表現(xiàn)一般(準(zhǔn)確率均值為 56.57% ),其中Qwen2.5的表現(xiàn)最佳(準(zhǔn)確率為 71.86% ),GPT-4o、ChatGLM4和文心大模型3.5、Baichuan4的準(zhǔn)確率也均超過 65% ,這反映了GenAI模型在回答開放性題目時存在一定的局限性;GenAI模型在情景題上的表現(xiàn)欠佳(準(zhǔn)確率均值僅為 31.00% ),僅文心大模型3.5、訊飛星火大模型、GPT-4o的準(zhǔn)確率超過 40% 說明GenAI模型在復(fù)雜情景中的價值觀判斷能力有限。

2GenAI模型在教育價值觀不同維度上的表現(xiàn)差異
基于客觀題和主觀題的作答結(jié)果,本研究對7個GenAI模型在四個維度(即目標(biāo)導(dǎo)向、價值取向、價值標(biāo)準(zhǔn)、價值根基)上的準(zhǔn)確率進(jìn)行了對比,如表3所示。需要說明的是,GenAI模型中的訊飛星火大模型因客觀題和主觀題的數(shù)據(jù)不完整,未覆蓋全部維度,故未納入本節(jié)分析;而情景題主要用于整體評估GenAI模型的價值觀對齊能力,未劃歸具體維度,故亦不在本節(jié)討論之列。
整體來看,7個GenAI模型的準(zhǔn)確率均值為 62.64% ,其中GPT-4o和Baichuan4在四個維度上的表現(xiàn)較好(準(zhǔn)確率均超過 70% ),表明這兩個模型在價值觀各維度上的理解與生成較為穩(wěn)定,具備較強(qiáng)的教育價值觀對齊能力。相比之下,LLAMA3-70B的表現(xiàn)欠佳,而Mistral7b v0.3的表現(xiàn)最差(準(zhǔn)確率均不足35% ),反映了部分國外的GenAI模型在文化適應(yīng)性方面仍存在明顯短板,難以滿足中國教育價值觀對齊的實際需求;在四個維度中,“目標(biāo)導(dǎo)向”的準(zhǔn)確率均值最低(準(zhǔn)確率為 57.61% ),說明GenAI模型缺乏對中國政策與時代使命的整體理解能力,難以準(zhǔn)確把握宏觀教育目標(biāo)蘊(yùn)含的價值導(dǎo)向;國內(nèi)四個GenAI模型在“價值取向”和“價值根基”兩個維度上的表現(xiàn)都較好且準(zhǔn)確率相差不大(準(zhǔn)確率均超過了 70% ),說明GenAI模型更擅長處理語言穩(wěn)定性強(qiáng)、價值立場鮮明的內(nèi)容,而面對語義內(nèi)涵更復(fù)雜、文化意涵更豐富的價值理念時仍然存在理解深度不足的問題。

3GenAI模型在教育價值觀對齊能力上的表現(xiàn)差異
基于客觀題、主觀題和情景題的作答結(jié)果,本研究統(tǒng)計了7個GenAI模型在這三種題型上的總分并進(jìn)行對比,結(jié)果如圖2所示。圖2顯示,7個GenAI模型形成了明顯的三個梯隊:文心大模型3.5和GPT-4o表現(xiàn)優(yōu)異,總分均高于190分,處于第一梯隊;ChatGLM4、Qwen2.5、Baichuan4表現(xiàn)中等,總分處于170~185 分,構(gòu)成第二梯隊;而LLAMA3-70B、Mistral 7bv0.3 表現(xiàn)較差,總分低于140分,屬于第三梯隊。整體而言,7個GenAI模型在教育價值觀對齊能力上的表現(xiàn)存在顯著差異,其中表現(xiàn)最佳的文心大模型3.5與表現(xiàn)最差的Mistral7bv0.3在三種題型上的總分相差135.87分。此外,即使是第一梯隊的文心大模型3.5和GPT-4o,其在三種題型上的總分也僅占三種題型總分的 60% 左右,說明當(dāng)前國內(nèi)外GenAI模型與中國教育的價值觀對齊能力均未達(dá)到理想水平,仍有較大的提升空間。

4測評結(jié)果與揭示的問題
綜合上述分析,本研究主要得到以下測評結(jié)果: ① 從題型表現(xiàn)來看,GenAI模型在客觀題上的表現(xiàn)較好,在主觀題上的表現(xiàn)一般,而在情景題上的表現(xiàn)欠佳。可見,GenAI模型更擅長處理具有固定答案的客觀問題,而在處理復(fù)雜價值判斷或情景認(rèn)知任務(wù)方面的能力不足。 ② 從維度表現(xiàn)來看,GPT-4o和Baichuan4在“目標(biāo)導(dǎo)向”“價值取向”“價值標(biāo)準(zhǔn)”“價值根基”四個維度上的表現(xiàn)都較好,顯示出良好的適應(yīng)性和生成能力;國內(nèi)4個GenAI模型在“價值取向”和“價值根基”兩個維度上的表現(xiàn)都較好,說明本土化訓(xùn)練對于提升GenAI模型的文化價值認(rèn)知具有積極作用。 ③ 從能力表現(xiàn)來看,國內(nèi)外GenAI模型與中國教育的價值觀對齊能力均未達(dá)到理想水平。GenAI模型與中國教育在價值觀上的差異,反映了GenAI模型與人類在價值認(rèn)知上的本質(zhì)區(qū)別:GenAI模型主要通過數(shù)理邏輯運(yùn)算來模擬人類思維,而人類價值判斷是在具體實踐中形成的;GenAI模型雖能通過數(shù)據(jù)訓(xùn)練獲得某種程度的價值認(rèn)知,但這種認(rèn)知往往停留在形式邏輯層面,而缺乏對價值生成過程的真正理解[29]。
上述測評結(jié)果揭示了GenAI模型與中國教育進(jìn)行價值觀對齊時存在的一些問題,主要表現(xiàn)為: ① GenAI模型對中國傳統(tǒng)文化和知識背景理解存在困難,如無法準(zhǔn)確識別“董仲舒三大文教政策”“科舉制產(chǎn)生的原因、演變及特點(diǎn)”等中華文化中具有代表性的教育思想與制度內(nèi)容。此問題反映了GenAI模型對中國傳統(tǒng)教育思想的理解不夠深入,導(dǎo)致其在特定文化情景下難以準(zhǔn)確傳遞中國教育的價值觀內(nèi)涵。此外,GenAI模型的訓(xùn)練數(shù)據(jù)雖然龐大,但缺乏中國傳統(tǒng)文化的系統(tǒng)性語料,導(dǎo)致其在特定文化語境下的文化敏感性明顯不足。 ② GenAI模型在傳達(dá)核心價值觀時存在概念混淆的問題。例如,測評中發(fā)現(xiàn)GenAI模型錯誤地將“職業(yè)教育”而非“人才”界定為衡量綜合國力的主要指標(biāo)。此概念混淆問題不僅影響了GenAI模型對教育價值觀的精準(zhǔn)傳遞,還可能誤導(dǎo)公眾對國家教育發(fā)展戰(zhàn)略和價值導(dǎo)向的理解。出現(xiàn)此問題的原因,可能在于訓(xùn)練數(shù)據(jù)來源于網(wǎng)絡(luò)文本、媒體報道等多元語料,導(dǎo)致概念邊界模糊;另外,現(xiàn)有算法更擅長處理界定明確的概念和簡單的邏輯關(guān)系,而對蘊(yùn)含價值判斷和政策導(dǎo)向的復(fù)雜概念體系難以像人類那樣進(jìn)行整體性的把握和理解。 ③ GenAI模型在情景適應(yīng)能力方面表現(xiàn)不足。例如,在對《中國教育現(xiàn)代化2035》提出的八大基本理念進(jìn)行理解與應(yīng)用的測試中,國外GenAI模型無法準(zhǔn)確回答八大基本理念的具體內(nèi)容;國內(nèi)GenAI模型雖然理解相對準(zhǔn)確,但將八大基本理念應(yīng)用于具體的教學(xué)情景時,GenAI模型的輸出內(nèi)容常以“價值理念 + 教學(xué)套話”草率作答,缺乏深度分析及其與教學(xué)情景的有效適配。這種情景適應(yīng)能力的不足,使GenAI模型對價值觀的傳達(dá)流于表層化和片面化,難以準(zhǔn)確闡述特定文化背景下的教育目標(biāo)。此問題反映了國外GenAI模型缺少對中國教育政策相關(guān)數(shù)據(jù)的訓(xùn)練,中國GenAI模型雖然覆蓋了這方面數(shù)據(jù),但對教育情景的整體性認(rèn)知不足,主要原因在于GenAI模型在訓(xùn)練過程中缺乏來自真實課堂的教學(xué)互動、合作交流等情景素材,難以實現(xiàn)對真實教學(xué)情景的有效建構(gòu),進(jìn)而限制其價值觀的準(zhǔn)確表達(dá)。
五GenAI與中國教育價值觀對齊能力的提升建議
基于上述測評結(jié)果和揭示的問題,本研究圍繞“如何提升”的問題,從本地語料庫建設(shè)、概念識別體系構(gòu)建、情景化訓(xùn)練機(jī)制健全等方面著手,針對GenAI模型與中國教育的價值觀對齊能力提升提出建議。
1推進(jìn)本地語料庫建設(shè),提升GenAI模型的文化理解能力
針對GenAI模型對中國傳統(tǒng)文化和知識背景理解存在困難的問題,本研究建議: ① 政府牽頭打造中華文化數(shù)字資源平臺,系統(tǒng)收錄傳統(tǒng)文化經(jīng)典、教育思想家著作和教育史論等,推進(jìn)中華文化語料庫建設(shè);同時,通過構(gòu)建知識圖譜,強(qiáng)化GenAI模型對中華傳統(tǒng)文化核心知識點(diǎn)的理解與應(yīng)用能力。 ② 教育主管部門整合全國高校和研究機(jī)構(gòu)的相關(guān)資源,確保本地語料庫持續(xù)更新,并開發(fā)評估工具定期檢測GenAI模型對中國傳統(tǒng)文化理解的準(zhǔn)確性與深度。 ③ 高校組建跨學(xué)科研究團(tuán)隊,將傳統(tǒng)文化與現(xiàn)代教育理念深度融合,設(shè)計具有中國文化特色的教學(xué)場景和案例庫,促進(jìn)GenAI模型對復(fù)雜文化和教育思想的理解。
2構(gòu)建概念識別體系,解決GenAI模型的概念混淆問題
針對GenAI模型在傳達(dá)核心價值觀時存在概念混淆的問題,本研究建議: ① 政府組織跨領(lǐng)域?qū)<覉F(tuán)隊編制中國教育價值觀學(xué)習(xí)指南、GenAI教育應(yīng)用手冊等,對教育政策、人才戰(zhàn)略等關(guān)鍵概念進(jìn)行科學(xué)界定和層級分類,為GenAI模型進(jìn)行數(shù)據(jù)訓(xùn)練提供依據(jù)。 ② 教育主管部門組織專家團(tuán)隊開發(fā)專門的教育政策文本解析工具,以自動識別并提取政策文件中的核心概念、價值導(dǎo)向和邏輯關(guān)系,為GenAI模型提供更精準(zhǔn)的學(xué)習(xí)資源,避免GenAI模型在概念理解上出現(xiàn)偏差。 ③ 高校開展價值概念對抗學(xué)習(xí)研究,通過設(shè)計錯誤概念識別、糾正等訓(xùn)練模塊,使GenAI模型針對常見的概念混淆點(diǎn)進(jìn)行針對性強(qiáng)化訓(xùn)練,并建立概念之間的精確邊界和關(guān)聯(lián)機(jī)制,增強(qiáng)GenAI模型對中國教育價值觀的整體把握能力。
3健全情景訓(xùn)練機(jī)制,優(yōu)化GenAI模型的情景適用能力
針對GenAI模型在情景適應(yīng)能力方面表現(xiàn)不足的問題,本研究建議: ① 政府組織開展全國范圍內(nèi)的優(yōu)秀教學(xué)案例征集活動,建設(shè)從宏觀教育理念到微觀教學(xué)實踐的示范庫,為GenAI模型提供大量真實情景下的應(yīng)用范例,提高其在復(fù)雜教育場景中的適應(yīng)能力。 ② 教育主管部門組織科研機(jī)構(gòu)、高校和一線教師團(tuán)隊聯(lián)合開發(fā)教育價值觀情景應(yīng)用評估工具,并構(gòu)建從理念識別到實際應(yīng)用的梯度評估體系,通過設(shè)計包含不同難度和應(yīng)用深度的評估任務(wù),不斷優(yōu)化GenAI模型的情景適應(yīng)能力。 ③ 高校打造集虛擬教學(xué)環(huán)境、情景模擬系統(tǒng)和實際教學(xué)反饋機(jī)制于一體的綜合實驗平臺,為GenAI模型提供接近真實的教育情景訓(xùn)練場,強(qiáng)化其在動態(tài)教學(xué)環(huán)境中的適應(yīng)能力。
參考文獻(xiàn)
[1]楊俊鋒.生成式人工智能與高等教育深度融合:場景、風(fēng)險及建議[J].中國高等教育,2024,(5):52-56.
[2]柯清超,米橋偉,鮑婷婷.生成式人工智能在基礎(chǔ)教育領(lǐng)域的應(yīng)用:機(jī)遇、風(fēng)險與對策[J].現(xiàn)代教育技術(shù),2024,(9):5-13.
[3]Jiang I, Hwang JD,Bhagavatula C, et al. Can machines learn morality? The Delphi experiment[OL].
[4](美)萊恩·克里斯汀著.唐璐譯.人機(jī)對齊[M].長沙:湖南科學(xué)技術(shù)出版社,2023:100.
[5]GlaserN.Exploring thepotentialofChatGPTasaneducational technology:Anemerging technologyreport[J].TechologyKnowledge and Learming, 2023,(4):1945-1952.
[6]葉瀾.重建課堂教學(xué)價值觀[J].教育研究,2002,(5):3-7、16.
[7]展立新,陳學(xué)飛.理性的視角:走出高等教育“適應(yīng)論\"的歷史誤區(qū)[J].北京大學(xué)教育評論,2013,(1):95-125、192.
[8][12][24]崔瑞霞,石中英.試析習(xí)近平總書記關(guān)于教育價值觀的論述[J].教育研究,2022,(10):14-25.
[9]石中英.學(xué)習(xí)領(lǐng)會習(xí)近平總書記的教育價值觀[J].思想理論教育導(dǎo)刊,2020,(9):15-16.
[10][21]本書編寫組.習(xí)近平總書記教育重要論述講義[M].北京:高等教育出版社,2020:59-62、99.
[11]陳才烈,白強(qiáng),梁菲,等.習(xí)近平總書記關(guān)于教育重要論述的理論蘊(yùn)涵、內(nèi)在邏輯與思維品質(zhì)[J].重慶大學(xué)學(xué)報(社會科學(xué)版),2022,(4):239-250.
[13]Wiener N. Some moral and technical consequences of automation: As machines learn they may develop unforeseenstrategies at rates that baffle their programmers[J]. Science, 1960,(3410):1355-1358.
[14]Brockman J. The myth of AI[OL].
[15][18]閆坤如.人工智能價值對齊的價值表征及倫理路徑[J].倫理學(xué)研究,2024,(4):94-100.
[16]閆坤如.人工智能體價值對齊的分布式路徑探[J].上海師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2024,(4):131-139.
[17]袁雨晴,陳昌鳳.道德物化:大模型人機(jī)價值對齊的技術(shù)倫理進(jìn)路[J].南京社會科學(xué),2024,(6):88-97.
[19]彭援援,蒲清平,孟小軍.習(xí)近平關(guān)于傳統(tǒng)文化的德育思想論述及時代價值[J].重慶大學(xué)學(xué)報(社會科學(xué)版),2019,(2):168-179.[20][23]習(xí)近平.論教育[M].北京:中央文獻(xiàn)出版社,2024:6、117
[22][26]中國教育報.新時代教育工作的根本方針[OL].
[25]中共教育部黨組.著力培養(yǎng)擔(dān)當(dāng)民族復(fù)興大任的時代新人[OL].
[27]習(xí)近平.在北京大學(xué)師生座談會上的講話[N].人民日報,2018-5-3(5).
[28]習(xí)近平.習(xí)近平談治國理政[M].北京:外文出版社,2014:170.
[29]苗逢春.生成式人工智能技術(shù)原理及其教育適用性考證[J].現(xiàn)代教育技術(shù),2023,(11):5-18.
Values Alignment of GenAIModels and Chinese Education: How to Evaluate? How to Improve?
YUMei1,2 RONG Lu1[Coresponding Author] (1.School ofEducation, Tianjin University, Tianjin, China 300350;
2. College of Intelligence and Computing, Tianjin University, Tianjin, China 300350)
Abstract:Whether theGenAImodelscanalignwithvaluesofChineseeducationisakeyfactorindetermining theireffective implementationin theeducationfield, which mainly involves two isues of\"howto evaluate\"and“how toimprove.Centering on the issue of“howto evaluate,this paper firstlyconstructedavalues alignment evaluationframework.Then,taking 210 questions as testing samples,this paper assessedthe values alignment abilityof eight leading domestic and foreign GenAI models with Chinese education acrossthree major question types (i.e.,objective,subjective,and situational) and four dimensions (i.e.,goal orientation,valueorientation,valuestandards,andvalue foundation).ResultsshowedthatGenAI exhibited good performanceonobjective questions,moderate capabilityonsubjective questions,andnotably poor performance on situational questions,reflecting itsinsufficient abilityinhandling complex valuejudgmentsor situational cognition tasks. Domestic GenAI models performed wellinvalueorientation and value foundation dimensions,reflecting theconsiderable effctivenessoflocalized training.The values alignment abilityofthe GenAImodels with Chinese education hadnotreached the ideallevel,suggstingsubstantialpotentialforimprovement.Finallthispaper focusedontheissueof\"howtoipoe and put forwardsuggestions for improvingthevalues alignment abilityof the GenAImodels withChineseeducation,inorder to facilitate the localized applicationofthe GenAI models inthefieldofChineseeducationand drive the high-qualityand connotative development of Chinese education.
Keywords: generative artificial intelligence; Chinese education; values alignment