




摘要:大語言模型(Large Language Model)是用于描述海量文本的向量表示和生成概率的自然語言處理技術,隨著近來其代表性產品ChatGPT因良好的生成、理解、邏輯推理與對話等能力而受到教育領域的廣泛關注,大語言模型的教育應用研究也進入了大眾視野,但針對如何合理利用不同技術路線的大語言模型開展教學的研究比較缺乏?;诖耍恼乱源笳Z言模型的三大技術路線BERT、T5和GPT系列為主要研究對象,首先總結其技術原理、優劣勢與應用場景,然后梳理其賦能高階思維培養、加強閱讀理解能力以及提升寫作與數學解題水平等教學應用場景,最后進一步探討了當前大語言模型教育應用的現實挑戰與未來發展建議,以期為智能化教學與教育數字化轉型提供新思路、新方法與可持續發展路徑。
關鍵詞:ChatGPT;大語言模型;人工智能教育應用;教育數字化轉型
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2023)08—0019—10 【DOI】10.3969/j.issn.1009-8097.2023.08.003
引言
當前,自然語言處理、計算機視覺等人工智能技術正在為基礎設施升級、學習方式變革、教育流程再造等教育數字化轉型布局提供助推力[1]。特別是在自然語言處理領域,隨著遷移學習的引入,基于大規模語料庫訓練的大語言模型或預訓練語言模型不斷涌現,特別是近來ChatGPT及其對話系統的出現[2],為教育數字化轉型帶來了新的契機。大語言模型能夠將深度神經網絡模型用于描述海量文本的向量表示和生成概率,從而有效地表達語言的詞匯、句法和語義特征,其在語言理解、對話交互、內容創作和邏輯推理等任務方面所具有的特有優勢,可為個性化數字資源高效創建、對話式人機協同學習、素養導向的教育評價等提供有力支撐。
盡管自2018年以來,大語言模型已在對話機器人、在線學習分析、人機協同寫作和編程等教與學的場景中廣泛應用,但業界普遍存在對大語言模型特性認識不夠、實際應用效果不清楚、教學支持策略掌握不全、賦能學生核心素養培養的途徑了解不深、帶來的挑戰認知及其應對方略不足等問題[3]。為此,本研究分析了大語言模型的技術原理、優劣勢與應用場景,以此為基礎列舉其典型教育應用場景,并探討大語言模型教育應用面臨的挑戰與未來發展策略,以期為其賦能智能化教學與教育數字化轉型提供新思路。
一 大語言模型的技術原理和特征
自然語言處理的發展對教育智能發展具有關鍵的促進作用,而厘清大語言模型的技術原理、優劣勢與應用場景是開展教育智能應用的前提。在技術原理層面,需從本質、結構和發展脈絡等層面進行理解。大語言模型本質上類屬深度神經網絡,其主要通過對大規模文本語料庫進行自監督學習來提取語言特征,并生成符合語言習慣的新文本。在技術原理的結構層面上,大語言模型采用了具備良好可遷移性的Transformer架構,主要包含輸入嵌入、定位編碼、編碼器和解碼器[4]。其中,編碼器由自注意力機制和前饋神經網絡模塊組成,而解碼器包含兩個自注意力機制和一個前饋神經網絡模塊;模塊間通過歸一化和殘差連接進行連通。同時,自注意力機制能對輸入數據中與語言序列各位置有關的不同部分設置權重,從而使模型能夠理解輸入序列中不同部分之間的關系和依賴性。在發展脈絡層面,在大型語言模型問世之前,自然語言處理領域主要經歷了基于規則、統計機器學習和深度學習的三大范式。而自2018年以來,由于Transformer的引入,自然語言處理進入了“大語言模型或預訓練模型+精調/提示”新范式[5]。經過5年的發展,基于Transformer的大語言模型逐步形成BERT、T5和GPT系列三大技術路線,其主要結構與運作流程(以中英文機器翻譯為例)如圖1所示。
各種大語言模型具有不同的特征,表1列舉了大語言模型三大技術路線在參數量、數據集 、模型優劣勢和應用場景方面的基本情況。通過文獻對比,本研究將大語言模型進一步劃分為輕量級、重量級和超重量級,并在介紹其技術原理的基礎上,對大語言模型三大技術路線進行簡要闡述。
1 輕量級開源BERT
如圖1所示,BERT是一種基于Transformer的雙向編碼器,屬于典型的自編碼(Autoencoder,AE)語言模型。BERT編碼器將文本序列加上句首末標記生成的令牌序列讀取后,通過隨機掩蓋輸入序列中的部分單詞,并根據上下文來預測被掩蓋的內容,進而輸出每個令牌對應的隱藏向量表示。因此,BERT擅長自然語言理解任務,在寫作反思元素分類、在線討論情感識別等應用場景中表現出色[6]。在模型參數層面,BERT相對輕量,對硬件要求相對不高,適合個人研究開發。例如,BERTBASE包含11億參數,使用了16個TPU;BERTLARGE包含34.8億參數,使用了64個TPU,可花費4天時間完成訓練,云計算租賃僅耗費約5萬元人民幣。同時,經預訓練的BERT模型只需一個額外輸出層,可以通過基于特定任務的新數據對模型精調,再基于測試調整其超參數、改變結構或再精調等提高其性能,但該模型仍需要大量的下游精調樣本。
2 重量級開源T5
T5是一種通用語言模型,采用了基于Transformer的“編碼器-解碼器”結構(如圖1所示)。在輸入階段,編碼器直接讀取輸入文本序列以生成令牌序列,解碼器讀取輸出文本序列,并對其添加句末標記后生成令牌序列;又經編碼器和解碼器加工后,由Linear和Softmax函數進行處理,輸出帶有句末標記的目標文本。因此,T5訓練任務本質上是一種“文本到文本”的語言轉換范式[7],能夠靈活支持多任務學習,但其穩定性不足且輸入文本序列限定在512字符以內。同時,T5衍化版mT5是由75國語言訓練的大語言模型[8],支持多語言任務,這使其相較于其他模型能夠更加全面地理解信息,可應用于閱讀理解、人機對話等場景。在模型參數層面,T5包含22億參數的T5BASE、77億參數的T5LARGE以及110億參數的T5模型,在參數規模上屬于中等。但T5的訓練成本較高,如丹麥語T5的預訓練使用了4個A100圖形計算卡,成本約90萬人民幣,比較適合實驗室、小型團隊對模型進行改進和應用開發。
3 超重量級GPT系列
在模型結構上,GPT系列屬于典型自回歸(Autoregressive,AR)語言模型,如圖1所示,其采用單解碼器結構,解碼器讀取文本序列并添加句首末標記以生成令牌序列,進而輸出帶有句末標記的目標文本。同時,該模型的因果掩蓋注意力機制將注意力權重分配給預測詞語左側的詞語,進而實現目標文本的預測[9],其造就了GPT系列在內容創作、代碼生成等自然語言生成任務上的優勢[10]。
當前,由于GPT-2開展精調任務仍具有較大難度且成本較高,因此自然語言處理領域開始轉向以GPT-3為代表的“預訓練+提示(Prompting)”范式[11]。此類范式以情境學習(In-context Learning)為主要特征,只需引入提示或在提示基礎上引入一個或多個訓練樣本[12],原始下游任務就能轉化為預訓練階段的模型任務。此外,思維鏈技術的加持,使其能夠在有限數據上快速擬合,在提升常規類人文本生成結果可信度的同時,也提升了模型在數學推理非典型任務上的泛化能力[13]。
但由于預訓練的語言模型任務和下游任務之間差異較大,仍然會出現內容生成效果不佳現象(如捏造事實,生成有偏見、有害的信息),因此產生了“預訓練+預精調+提示”新范式,并訓練出了以InstructGPT和ChatGPT為代表的大語言模型[14]。在“預精調”階段,這些模型都需針對下游任務開展人工反饋的強化學習來指導模型的訓練,從而提升內容生成質量。與InstructGPT相比,ChatGPT采用多輪對話式學習的方式進行訓練,構建對話歷史模型,這提高了模型的對話生成能力和流暢度。
總的來說,GPT系列大語言模型可應用于內容創作、數學推理和對話機器人等應用場景。然而,GPT-3及其后系模型仍復雜且閉源,如GPT-3和InstructGPT參數量達到1750億,其經過大量代碼精調后的變體模型Codex也達到120億,需要花費極高的復現與研發成本(GPT-3單次預訓練成本約980萬元人民幣[15]),這導致其僅適合中大型公司和政府組織進行研發。
二 大語言模型的教育應用場景
利用大語言模型的技術原理和特征,研究者對大語言模型進行研究,將其應用到教育領域,并取得了一定的效果。接下來,本研究將從賦能高階思維培養、加強閱讀理解能力、提升寫作和解題水平三個場景呈現大語言模型的應用現狀。
1 在線討論與反思學習場景:賦能高階思維能力培養
在線討論與反思學習場景中的文本數據在一定程度上反映了學生在線學習過程中的認知和情感表現。具有自然語言理解優勢的BERT可對學生文本數據中的認知與情感進行識別,為賦能學生高階思維能力培養奠定基礎。由此,在宏觀的認知與情感識別角度,Liu等[16]構建了大語言模型分類器BERT-CNN,以自動檢測在線討論中的學生情緒和認知參與度,探究了學生在線學習認知和情感發展規律。
此外,有研究者在思辨、反思等較微觀認知維度識別的基礎上,進一步完善了學生高階思維培養的應用方案。其中,在思辨能力培養方面,Wambsganss?等[17]開發了培養思辨能力的自適應對話學習系統ArgueTutor,可基于改進的BERT分類器自動識別主張、前提等論證元素。實踐應用表明,ArgueTutor能夠有效促進學生的議論文撰寫和思辨能力。在反思能力培養方面,Wulff等[18]提出可使用德語BERT語言模型對職前物理教師的教學反思寫作進行分類,包括情境、描述、評價、備選方案、后果5種反思元素。另外,還有研究者在反思文本元素分類的基礎上,進一步拓展了智能化協同反饋方案,如林郁鵬[19]利用中文BERT語言模型,構建了改進的中文反思元素分類器MacBERT_RCNN,可識別經歷、情感、信念、視角、困難、學習收獲、計劃7種反思元素。基于智能識別寫作中的反思元素,有研究者協同一線教師共同設計反饋模板,構建了智能化反饋系統,以支持個性化反思寫作,培養學生的反思能力[20][21]。例如,圖2展示了基于MacBERT_RCNN模型的智能反思寫作系統界面,此系統可以利用大語言模型在文本理解方面的優勢,識別學生在線討論與反思活動中的認知與情感規律,甚至以此構建智能化學習反饋系統,為培養學生高階思維能力提供了技術支撐。但在該場景中,有可能存在學生對智能反饋過度依賴的問題,進而導致學習惰性、高階思維能力弱化等風險。
2 人機協同提問場景:加強閱讀理解能力
自我提問可以促進學習專注度,加深對閱讀內容的理解,但當前學生提問普遍存在水平不高、類型單一等問題[23]。對此,可以利用T5和GPT系列的自然語言生成優勢,為高質量問題創建提供支持,進而加強學生的閱讀理解能力。目前,有部分研究者構建了支持中文和英文的人機協同提問工具,為加強學生的閱讀理解能力提供了智能化支撐[24]。本研究團隊利用大語言模型T5-PEGASU,開發了學生-AI共創問題工具Co-Asker,以提升學生提問的積極性,加強其閱讀理解能力。該模型在中文閱讀理解數據集和醫藥問答語料庫上精調而成,能夠根據問題線索與答案自動生成問題,圖3展示了Co-Asker工具的界面。本研究團隊利用該工具在重慶市S大學“學習分析”通識課程中開展教學應用實踐,共有55名教育學大二學生參與課程。每位學生被要求在課后一周時間內于在線閱讀平臺上閱讀4篇教育大數據領域學術論文,并根據文章內容提出問題。學生被隨機分配到實驗組(使用Co-Asker輔助問題生成)和對照組(學生獨立創建問題)。通過3周的在線閱讀學習后,研究結果表明,Co-Asker可以產生高質量類人化問題,激發學生的提問興趣和投入度,加深淺層次閱讀內容理解。然而,因為訓練數據集以事實性問題為主,所以該工具很難產生高階復雜問題。研究還發現,完成T5-PEGASU模型的一次訓練所花費的時間較長且成本較高,即在使用單個NVIDIA GeForce RTX 3080Ti圖形計算卡的背景下,完成單次訓練也需花費一周時間。
對淺層次問題的掌握僅僅表明學生記住并理解了該知識點,而深層次問題的提出是學生建立新概念、與先驗知識建立關聯的過程,也是具有創造性特征的認知行為。為此,Abdelghani等[25]構建了支持閱讀理解教學的人機對話系統KidsAsk,其利用GPT-3自動生成提示語(包括提問類型、答案、提問視角),通過多輪人機對話,幫助學生提出深層次問題。同時,該研究對75名9~10歲的學生進行閱讀理解提問教學實驗,發現與基于規則的人機對話自動生成相比,GPT-3更能促使小學生提出一系列與知識點相關的、深層次的問題,以加強深度閱讀理解。總的來說,大語言模型可以利用其文本生成優勢,通過人機協同對話形式輔助學生提問,進而提升其閱讀理解能力。但在這些應用場景中,仍存在定制化開發大語言模型需要昂貴的軟硬件投入和較長的模型訓練時間等現實問題。
3 人機協同寫作和數學解題場景:提升寫作和解題水平
寫作與數學解題邏輯教學作為學科教學領域的兩項重難點,一直存在學生寫作時“不愿寫”“沒得寫”“不會寫”和數學解題答題不規范、傳統教學指導效率低等問題。對此,GPT系列或類T5結構模型因其內容創作和數學推理優勢,可以廣泛應用于智能寫作工具研究和數學解題輔助研究領域,進而有效提升學生的寫作和數學解題水平。當前,相關研究主要涉及語言教學應用、人機協同寫作質量評價和數學教學輔助有效性三個方面:
①大語言模型在語言教學應用方面具有較明顯的優勢。例如,Gayed等[26]利用GPT-2構建了英語寫作輔助程序AI KAKU,以減少二語寫作時學生的認知障礙。該研究通過對比實驗發現,實驗組學生使用AI KAKU能夠撰寫更流暢的句子、更豐富的內容,并具有更強的語言交流能力。
②人機協同寫作質量評價研究主要側重于論證性、創造性和思辨性三類文體。針對論證性文體,Bao等[27]利用大語言模型BART,根據寫作提示,自動生成強論證性的議論文。該模型使用“編碼器-雙解碼器”架構,編碼器對寫作提示進行編碼,兩個解碼器分別生成“計劃”“寫作”序列,實現端到端的議論文生成,其在大型新聞數據集CNN-DailyMail和ArgEssay上進行精調,通過自動評估和人工評估兩種方式來衡量該模型的有效性。其中,自動評估包括多樣性、新穎性、重復性、BLEU四個方面;人工評估主要評估生成文章與主題的相關性、文章的連貫性和論點的豐富度。研究結果表明,該模型可以生成不同主題的議論文,具有良好的可讀性和流暢性。另外,Lee等[28]探索了GPT-3輔助學生開展創造性和思辨性寫作的能力。該研究利用在線寫作平臺CoAuthor,邀請63位學生與4個GPT-3協同寫作,由此生成了1445篇文章。圖4展示了融合GPT-3的人機協同寫作過程:首先學生根據提示,寫出初稿;然后大語言模型根據初稿內容,提供多種寫作選擇建議;最后學生修改文章的內容(圖中標藍色的文字為大語言模型產生的內容,其他為學生撰寫的內容)。訪談結果發現,學生認可GPT-3的寫作生成能力,包括語言能力(生成流暢文本的能力)、構思能力(產生新想法的能力)和協作能力(與作者共同工作的能力),同時基于大語言模型的人機協同能夠有效提升寫作效率。
③大語言模型還能輔助數學教學。例如,Pardos等[29]構建了基于ChatGPT的智能數學學習系統,產生代數解題提示以幫助學生反思和糾正解題錯誤(如圖5所示)。研究通過對77名高中畢業生開展代數解題實驗,發現該系統產生了70%可接受的提示,提升了學生的代數學習成績??偟膩碚f,大語言模型利用其內容創作與數學推理優勢,可以為提升寫作和數學解題水平提供智能化支持。但當學生濫用智能寫作或數學解題工具時,可能會出現學術不端、版權爭議等倫理風險。
三 大語言模型教育應用的挑戰與應對策略
雖然大語言模型已廣泛應用于教育領域,但也存在相應挑戰,如教育領域大語言模型訓練成本高,師生對問題、寫作文本和教學內容生成過度依賴以及生成內容存在倫理和知識產權爭議等問題,未來實踐仍需采用教育評價變革、政學企合作和多元協同治理等方式應對各項挑戰。
1 師生過度依賴大語言模型,教育評價方式有待變革
大語言模型雖然簡化了師生獲取信息的流程,但也放大了其對知識探究的惰性。大語言模型具備智能反饋、寫作內容創作以及數學推理等能力,而學生對智能工具的過度依賴會導致他們不積極思考,削弱其知識掌握和問題解決能力,甚至出現作弊現象;同時,大語言模型可以幫助教師生成教案、構建個性化學習資源以及批改作業等[32],教師對大語言模型的過度依賴也可能會阻礙其在專業知識、教學創造力等專業成長能力上的發展,因為教師開展面向高階思維能力培養的課程設計時仍需其自身智慧。
上述現象的出現源于知識與素養本位的新教育評價理念落實不到位,對此應在學習任務設計、學習過程評價、作業成品評價和教師評價等方面進行突破:①學習任務設計方面,內容應更具素養與技能化、文化與開放性、批判與反思性。例如,根據核心素養與社會需求設定學習目標,按真實社會文化背景設定開放問題情境,以學生“最近發展區”邊界設定具有疑問、沖突與漏洞的學習材料或任務步驟。②學習過程評價方面,形式應更智能化。例如,學習分析可以輔助教師監督學生學習的行為過程,階段性學生反思日志可以幫助教師了解學生的學習思維過程。③作業成品評價方面,應更具動態性、創造性與現實性。例如,考慮人機共創過程內容貢獻程度、對已有知識材料的創造性加工與批判性改造程度、應對社會問題的匹配程度。④新的教師評價應更加注重“教師—技術—教學實踐”的內在關聯。例如,關注教師如何使用大語言模型改進教學實踐的意識、能力和成效,促進教師能力評價向數字勝任力評價的轉變[33]。
2 教育領域大語言模型訓練成本高,政學企合作亟需加強
當下,訓練數據集規模和計算能力需求增加了人工智能的發展成本。而教育數據的敏感性和多樣性、教育概念和教學方法理解的復雜性、高質量教育數據獲取和標注的困難導致教育領域大語言模型開發需要更高的投入。據專業機構估計,僅使用通用數據訓練的GPT-3單次訓練成本最低約1000萬人民幣[34];OpenAI公司計劃在2030年投入約350億人民幣用于模型訓練??梢园l現,“無底洞”般的資本投入、超太字節的數據整合量和復雜的下游任務設計,使普通學校獨立開發面向教育領域的大語言模型成為一種“奢望”。
“政學企”協同模式為學校發展教育領域大語言模型提供了一種新思路。例如,澳大利亞悉尼科技大學設立專門機構智能鏈接中心(Connected Intelligence Centre),將智慧教育產品或自主研發的智能教育工具(如AcaWriter[35])整合到本校課程,服務本校數字化轉型,并通過政府支持下構建的澳洲科技網絡聯盟進行共享與推廣。而在我國,百度、阿里、訊飛等科技企業在大語言模型領域早有技術布局,因此高校應借此發揮其教育大數據資源和應用示范優勢,協同科技企業面向個性化學習、智能教學評價、數字化管理等場景,實現大語言模型教育應用示范、知識產權落地和商業可持續化推廣。政府可以聯動企業與頭部高校設立大語言模型(人工智能)應用聯盟,構建領域知識、技術、工具和實踐共創共建機制與應用共享平臺;還可以發揮數字化轉型政策、法律監管與基礎資金鏈支持的作用,保障教育領域大語言模型的健康、穩定發展。
3 倫理與版權問題突顯,亟需多方合力共治
聯合國教科文組織(UNESCO)發布《教育2030行動框架》,指出人工智能教育應用不公平現象并提出促進人工智能教育應用公平的倡議[36]。然而,互聯網的用戶群體多元化與用戶行為約束限度非規范化,使來源于互聯網的大規模訓練數據中可能存在因文化差異造就的認知沖突與種族歧視、性別歧視、地域歧視等有害因素,導致大語言模型生成的文本存在偏見和不公平現象,進而對其教育應用過程產生負面影響[37]。另一方面,又因數據來源的公開性,在開展文本生成任務時極有可能出現數據原文內容,從而容易引發知識產權爭議,甚至有法律學者提出“ChatGPT(大語言模型)生成內容版權到底屬于誰?”的關鍵拷問。
上述三類問題的存在可歸因為數據監管、法規保障與主體意識三方面。為此,在數據監管上,要通過數據收集和標注人員專業培訓、收集與標注過程嚴格監管、驗證環節面向多元人群測試等規范化數據治理流程,最大程度地保障數據的規范性與可靠性,避免出現偏見與不公平現象。同時,要有效利用人類反饋強化學習技術,在人機協同教學過程中將師生作為人工智能建設的參與者[38],以其高質量評價數據不斷修正大語言模型的質量。在法規保障上,應整合法學、智慧教育、人工智能等多領域專家,共同商討人工智能生成式內容的著作權政策、法律規范、學術倫理與道德規范。例如,近期國家網信辦聯合六部門從技術開發、應用服務以及監督檢查三方面,制定了《生成式人工智能服務管理暫行辦法》[39]。在此基礎之上,還要重點強化教師和學生的大語言模型應用倫理道德素養、版權素養等主體意識,樹立嚴謹、開放的人機協同教育應用規范,為人工智能促進核心素養培養提供法規與道德雙重保障。
四 結語
在當前教育數字化轉型的時代熱潮推動下,本研究從大語言模型的技術原理、優劣勢和應用場景出發,探索了大語言模型賦能高階思維培養、加強閱讀理解能力、提升寫作和解題水平三個場景的應用布局,并對實際教育應用過程中存在的挑戰提出了應對策略,以期為新一代人工智能賦能教育及其治理提供建議與對策。當前,以ChatGPT為代表的大語言模型已開啟通用人工智能的大門。未來,以大語言模型為基座,融合在線討論文本、課堂教學視頻與語音等多模態數據,通過“預訓練+預精調+提示”范式,可快速定制化開發面向學生認知、情感、人格特征等心理特征的高精準、可解釋的分析工具,賦能學生全人發展評價與培養。此外,人形教育機器人將接入大語言模型,與課堂教學環境互動,拓展其感知、計算、推理、交互和控制等具身智能能力,形成的新型“人師+機師”課堂將為教學、教研以及學校治理帶來新機遇和挑戰。所以,身處以大語言模型為代表的通用智能技術強勢時代,教育領域應當以教師與學生為本,用更加開放的態度擁抱技術,不斷探索新型人機協同教學模式,樹立通用人工智能視角下的新教育價值體系,構建新型教育治理規范與模式,并以此為基礎形成開放的教育大語言模型開發與應用體系。同時,也應當規避大語言模型教育應用可能導致的異化和失范風險,推動教育數字化轉型可持續發展。
參考文獻
[1]尚俊杰,李秀晗.教育數字化轉型的困難和應對策略[J].華東師范大學學報(教育科學版),2023,(3):72-81.
[2][13]OpenAI. ChatGPT: Optimizing language models for dialogue[OL]. lt;https://openai.com/blog/chatgptgt;
[3]焦建利.ChatGPT:學校教育的朋友還是敵人?[J].現代教育技術,2023,(4):5-15.
[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[A]. Proceedings of the 31st International Conference on Neural Information Processing Systems[C]. NY, USA: Curran Associates Inc., 2017:6000-6010.
[5][6][7][8][9][11][12][14]Wu T, He S, Liu J, et al. A brief overview of ChatGPT: The history, status quo and potential future development[J]. IEEE/CAA Journal of Automatica Sinica, 2023,(5):1122-1136.
[10]Floridi L, Chiriatti M. GPT-3: Its nature, scope, limits, and consequences[J]. Minds and Machines, 2020,(2):681-694.
[15][34]劉高暢,楊然.計算機:ChatGPT需要多少算力[OL].
lt;https://research.gszq.com/research/report?rid=8ae505848630485f018643736cca53e2gt;
[16]Liu S, Liu S, Liu Z, et al. Automated detection of emotional and cognitive engagement in MOOC discussions to predict learning achievement[J]. Computers amp; Education, 2022,181:104461.
[17]Wambsgan? T, Kueng T, S?llner M, et al. ArgueTutor: An adaptive dialog-based learning system for argumentation skills[A]. Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems[C]. New York, USA: Association for Computing Machinery, 2021:1-13.
[18]Wulff P, Mientus L, Nowak A, et al. Utilizing a pretrained language model(BERT) to classify preservice physics teachers’ written reflections[J]. International Journal of Artificial Intelligence in Education, 2022:1-28.
[19][22]林郁鵬.基于MacBERT_RCNN的反思文本自動化分類系統設計與實現[D].重慶:西南大學,2022:8、43.
[20]張登博,劉明.智能反思寫作反饋系統的設計與應用[J].現代教育技術,2021,(11):96-103.
[21]Liu M, Shum S B, Mantzourani E, et al. Evaluating machine learning approaches to classify pharmacy students’ reflective statements[A]. International Conference on Artificial Intelligence in Education[C]. Chicago: Springer International Publishing, 2019:220-230.
[23]Kurdi G, Leo J, Parsia B, et al. A systematic review of automatic question generation for educational purposes[J]. International Journal of Artificial Intelligence in Education, 2020,(30):121-204.
[24]劉明,張津旭,吳忠明.智能提問技術及其教育應用[J].人工智能,2022,(2):30-38.
[25]Abdelghani R, Wang Y H, Yuan X, et al. GPT-3-driven pedagogical agents for training children’s curious question-asking skills[OL]. lt;https://arxiv.org/abs/2211.14228gt;
[26]Gayed J M, Carlon M K J, Oriola A M, et al. Exploring an AI-based writing assistant’s impact on English language learners[J]. Computers and Education: Artificial Intelligence, 2022,3:100055.
[27]Bao J, Wang Y, Li Y, et al. AEG: Argumentative essay generation via a dual-decoder model with content planning[A]. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing[C]. Abu Dhabi: Association for Computational Linguistics, 2022:5134-5148.
[28][30]Lee M, Liang P, Yang Q. CoAuthor: Designing a human-ai collaborative writing dataset for exploring language model capabilities[A]. Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems[C]. New York: Association for Computing Machinery, 2022:1-19.
[29][31]Pardos Z A, Bhandari S. Learning gain differences between ChatGPT and human tutor generated algebra hints[OL]. lt;https://doi.org/10.48550/arXiv.2302.06871gt;
[32]吳軍其,吳飛燕,文思嬌,等.ChatGPT賦能教師專業發展:機遇、挑戰和路徑[J].中國電化教育,2023,(5):15-23.
[33]趙健.技術時代的教師負擔:理解教育數字化轉型的一個新視角[J].教育研究,2021,(11):151-159.
[35]Lucas C, Shum S B, Liu M, et al. Implementing a novel software program to support pharmacy students’ reflective practice in scientific research[J]. American Journal of Pharmaceutical Education, 2021,(10):1021-1030.
[36]UNESCO. Artificial intelligence in education[OL].
lt;https://www.unesco.org/en/digital-education/artificial-intelligencegt;
[37]Kasneci E, Se?ler K, Küchemann S, et al. ChatGPT for good? On opportunities and challenges of large language models for education[J]. Learning and Individual Differences, 2023,103:102274.
[38]夏琪,程妙婷,薛翔鐘,等.從國際視野透視如何將ChatGPT有效納入教育——基于對72篇文獻的系統綜述[J].現代教育技術,2023,(6):26-33.
[39]國家網信辦網站.生成式人工智能服務管理暫行辦法[OL].
lt;https://www.gov.cn/zhengce/zhengceku/202307/content_6891752.htmgt;
Educational Applications of Large Language Models: Principles, Status and Challenges
——From Light-weighted BERT to Conversational ChatGPT
LIU Ming1,2" " WU Zong-ming2" " LIAO Jian2" " REN Yi-ling2" " SU Yi-fei2
(1. Center of studies of Education and Psychology of Ethnic Minorities in Southwest China, Southwest University, Chongqing, China 400615; 2. Faculty of Education, Southwest University, Chongqing, China 400715)
Abstract: Large Language Model (LLM) is a natural language processing technology used to describe the vector representation and generation probability of massive text, and its representative product ChatGPT has recently received widespread attention in the education field for its good generation, comprehension, logical reasoning and dialogue. The educational application research of LLM has also entered into the public view, but the research on how to rationally use different technical routes of LLMs to carry out teaching is still insufficient. Based on this, the paper took BERT, T5 and GPT series, the three major technical routes of LLMs, as the main research objects, and firstly summarized their technical principles, advantages and disadvantages and application scenarios, and then sorted out the educational application scenarios such as empowering the higher-order thinking cultivation, strengthening reading comprehension ability, and improving the of writing and mathematical problem solving level, etc. Finally, the current challenges and future development suggestions of the educational application of LLMs were discussed with a view to providing new ideas, new methods and sustainable development paths for intelligent teaching and digital transformation of education.
Keywords: ChatGPT; large language model; educational application of artificial intelligence; digital transformation in education
*基金項目:本文受國家自然科學基金“面向小學閱讀理解提問教學的深度神經網絡智能提問方法與應用研究”(項目編號:61977054)、“基于圖神經網絡的學生課堂狀態協同判別及解釋模型研究”(項目編號:62177039)、重慶市研究生科研創新項目“基于多模態學習分析技術的智能化教學反饋平臺構建與應用研究”(項目編號:CYS22164)、“西南大學創新研究2035先導計劃”(項目編號:SWUPilotPlan002)資助。
作者簡介:劉明,教授,博士,研究方向為人工智能教育應用、學習分析,郵箱為mingliu@swu.edu.cn。
收稿日期:2023年3月15日
編輯:小時