要:大型語言模型作為人工智能大模型時代的必爭之地,其應用隨著ChatGPT的出現而受到廣泛的關注,但目前針對其在教育領域中的應用研究尤其在高等教育領域的應用研究相對較少。基于此,文章首先梳理了大型語言模型歷經百年的迭代發展歷程,歸納了大型語言模型數據量巨大、泛化性強、遷移性好、涌現性、同質化五個特征;然后,文章分別從積極與消極應用兩個維度探討大型語言模型在高等教育課程教學、學術研究、學生高階思維能力培養三個層面的應用,并預測其在高等教育數字化轉型領域的廣闊應用前景;最后,文章從技術、生成內容、本土化建設與應用三個層面分析其在高等教育應用落地過程中所面臨的諸多現實挑戰并提出相應建議,以期激發高等教育的生產力與創新力,發展更有質量的中國高等教育。
關鍵詞:大型語言模型;高等教育;應用分析;現實挑戰
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2023)08—0029—09 【DOI】10.3969/j.issn.1009-8097.2023.08.004
當前,新一代人工智能已經邁向大模型時代,大模型也隨之成為數字時代的新基座。而大型語言模型(Large Language Model,LLM)作為大模型的核心底層技術,可用于文本生成、問題回答、文檔摘要等任務,因此成為人工智能大模型時代的必爭之地。2022年11月以來,以ChatGPT為代表的大型語言模型的應用,引起了全球高科技企業、教育領域的廣泛關注。對此,谷歌、微軟、百度均計劃推出類似的產品;教育界人士及學校則或惶恐不安、或熱情擁抱、或不以為然、或客觀冷靜,情緒強烈而復雜。然而,雖然國內學界已經開始研究ChatGPT的教育應用,但較少關注ChatGPT背后的基座即大型語言模型與其他類ChatGPT應用工具在教育領域中的應用研究;此外,相對于基礎教育,高等教育更加開放、靈活,高校師生對新興技術的接受能力更強、業務需求更廣,大型語言模型對高等教育領域的影響也更快、更直接。基于此,本研究從大型語言模型的發展與特征、應用分析、現實挑戰三個維度,探究大型語言模型是何、如何應用于高等教育及怎樣應對其現實挑戰,以期提高廣大教育工作者與研究者對大型語言模型的認知,幫助其做出更科學的教育決策,并激發高等教育的生產力與創新力,發展更有質量的中國高等教育。
一 大型語言模型的發展與特征
1 大型語言模型的發展
語言模型基于概率與統計學、信息論、語言學與機器學習等多學科融合對自然語言進行建模,是自然語言處理的核心與完成自然語言處理各種下游任務的基石,在機器翻譯、知識問答、信息檢索、閱讀理解、文檔摘要、文本生成、代碼編寫、對話系統等領域均有應用。在自然語言處理(Natural Language Processing,NLP)中,單詞序列可以是一個句子或一段文字,而從數學的角度來看,語言模型是定義在單詞序列上的概率模型,可以用來計算一個單詞序列的概率[1]。語言模型實際上是一個基于上下文的分類器,只要對上下文進行一些描述,一個好的模型就可以預測文本中下一個單詞;一旦將模型訓練好,該模型就可以生成新的數據。
在大型語言模型的發展進程中,數學家馬爾可夫于1906年提出的馬爾可夫鏈、信息論創始人香農于1948年提出的信息熵、語言學家喬姆斯于基1957年提出的轉換生成語法學說等均對語言模型的最終形成產生了重要影響[2]。傳統的語言模型為統計語言模型,它描述了一串文字序列成為句子的概率,如1980年提出的N-gram模型就是一種應用很廣的統計語言模型[3]。2003年,Bengio等[4]提出第一個神經語言模型,即前饋神經網絡語言模型(Feedforward Neural Network Language Model,FFNNLM),開啟了語言模型的新時代,雖然它的性能優于N-gram模型,但訓練仍然是昂貴和低效的;2010年,Mikolov等[5]提出循環神經網絡語言模型(Recurrent Neural Network Language Model,RNNLM),其在困惑度方面顯著優于FFNNLM,但可能會出現參數梯度消失或爆炸問題,導致訓練緩慢或參數值無限;2012年,Sundermeyer等[6]提出長短期記憶(Long Short-term Memory)循環神經網絡語言模型(LSTM-RNNLM),解決了循環神經網絡的梯度或梯度爆炸問題,盡管其表現良好,但在大型語料庫上訓練模型非常耗時。2017年,谷歌大腦團隊完全拋棄循環神經網絡結構,提出了基于自注意力機制(Self-Attention)的神經網絡架構Transformer[7],這種改變帶來的效果提升是顛覆性的,使語言模型并行度更好、訓練速度更快且具有通用性。2018年,OpenAI推出具有1.17億個參數的語言模型GPT(Generative Pre-Training)[8],該模型使用多層Transformer的解碼器的一部分(單向自注意力機制)作為語言模型,在12項NLP任務中刷新9項記錄。隨后不久,谷歌推出基于Transformer框架的雙向自注意力機制的語言模型BERT[9],在12項NLP任務中刷新11項記錄。由此,后續的許多語言模型均基于開源的BERT開發,Transformer框架開始統治NLP領域。
GPT、BERT模型的推出預示著人工智能大模型時代的到來,語言模型進入了大型語言模型時代。大型語言模型是指參數多、訓練數據量大,用于自然語言處理任務的人工智能大模型。2019年,OpenAI推出具有15億參數和約5GB訓練數據量的GPT-2[10],驗證了通過海量數據和大量參數訓練出來的詞向量模型能夠遷移到其他類別任務而不需要額外的訓練。2020年3月,OpenAI進一步推出具有1750億個參數、45TB訓練數據的GPT-3[11],只需要少量標注數據,且無須進行微調,通過小樣本的提示語(few-shot)或者完全不提供提示語(zero-shot)就可以在下游任務中取得出色的效果,是當時極其強大的語言模型,它的本質是通過海量的參數學習海量數據,然后依賴Transformer強大的擬合能力收斂模型。隨后,OpenAI又在2022年3月推出基于GPT-3微調并引入“人工標注數據+強化學習”的InstructGPT,同年11月推出基于GPT-3.5的ChatGPT(它與InstructGPT模型僅在采集數據方式上存在差異);2023年3月推出比GPT-3.5更安全、更準確的GPT-4。
除了OpenAI的GPT系列模型,各大互聯網公司也陸續推出了自己的大型語言模型,如谷歌LaMDA、Meta LlaMA,百度文心一言,訊飛星火認知,阿里云通義千問等。其中,GPT-4是當前全球較為先進的大型語言模型,而美國是大型語言模型的引領者,中國緊跟其后。這些主流的大型語言模型均基于Transformer框架進行預訓練、自監督訓練、自回歸或自編碼模型等,只是在參數量、訓練數據、優化算法、指令微調等細節上存在差異。
2 大型語言模型的特征
人工智能大模型的發展起始于大型語言模型的出現,主要包括自然語言、計算機視覺、多模態、科學計算等大模型,它是人工智能大數據、大算力、強算法的產物。就當前人工智能的發展水平而言,主流大型語言模型具有以下關鍵特征:①數據量巨大,大型語言模型的參數即內部配置變量多、訓練數據量大,數量級普遍達到千億級以上,同一個模型的性能由模型參數、訓練數據的數量及質量決定,模型的訓練需要強大的算力來支撐,因此模型的建設及運維成本高。②泛化性強,大型語言模型大多基于Transformer框架,經過訓練后,能泛化到新數據以及不同的上下文、任務與環境中,準確度高于傳統深度學習算法。③遷移性好,大型語言模型具有的小樣本或零樣本學習能力,能夠做到“舉一反三”,只需對少量特定標注數據進行微調或不進行微調就能夠完成多場景及特定行業任務,顯著降低了人工智能的研發及應用門檻。④具有涌現性[12],當大型語言模型的規模達到某個閥值時,其具備突然解決某些任務的新能力,這為解決各類相關任務提供了更多的可能性,但缺點在于難以預料與把握。⑤呈現同質化[13],各種大型語言模型的基本原理、核心框架相似,因此針對模型的改進或缺陷都會被繼承到所有下游模型及應用中。
二 大型語言模型在高等教育中的應用分析
隨著大型語言模型在發展過程中的不斷完善,其特征優勢對人類生活和工作帶來的變革性影響也將逐漸顯現,其中大型語言模型在高等教育領域的應用效果更是受到研究者的廣泛關注。結合高等教育的特點,本研究總結了大型語言模型在高等教育中預見的積極應用和潛在的消極應用,以期激發高等教育的生產力與創新力。
1大型語言模型在高等教育中預見的積極應用
①課堂教學層面。大型語言模型泛化性強、遷移性好,當其能力得到“涌現”時,可以成為有效的教學工具,使“師師有助教”“生生有學伴”的教育愿景成為現實,有助于智能民主化。為此,在課前,教師可以批判性、選擇性地參考與大型語言模型對話后生成的課程大綱、教學設計等,根據課程與教學的現實狀況更新已有的課程大綱、教學設計;教師還可借助大型語言模型的知識問答功能,對課程中的知識點進行更深刻的解讀與剖析。在課中,教師可使用大型語言模型生成課堂問題或者提供活動想法,師生選擇合理且有價值的問題與活動作為課堂的起點或進行頭腦風暴;教師還可使用大型語言模型生成問題答案,引導學生討論答案中合理、正確、符合邏輯的一面,分析其存在問題的、錯誤的另一面,通過模型來催化學生的反思性活動,幫助其學會去偽存真、批判性反思,使生成性課堂、對話式教學[14]成為現實。而在課后,當學生掌握了基本概念和思維技能時,大型語言模型可以作為學生的個人學伴,用于解釋概念、識別作業中的錯誤,也可以作為課后導師或辯論陪練,助力自主學習、個性化學習[15]。例如,在英語、日語等語言類課程學習中,GPT-4、文心一言、星火認知等大型語言模型應用均可以幫助學生檢查語法錯誤、給出學習建議等;在與大型語言模型的對話交流中,學生可即時獲得應答,加深對學習內容的理解,促進深度學習。此外,為避免學生濫用大型語言模型完成課程作業,教師還可適當增加口試、筆試、課堂上公開討論作業答案等考核方式,避免脫離教師監控式的課程論文寫作,使課程考核更注重批判性思維而非死記硬背的知識。同時,使用動機的科學定位、良好的教學文化、學習的高自覺性等均有助于減少學生使用智能工具作弊的行為。
②學術研究層面。首先,隨著訓練數據數量的不斷增長與質量的不斷提升,GPT-4、文心一言、星火認知等大型語言模型能力不斷完善,合理使用這些大型語言模型可以提高學生的論文寫作水平。對于大多數論文寫作新手而言,寫作的難點在于無從下手,因此寫作新手在論文寫作的訓練過程中,可以先通過大型語言模型生成論文框架,幫助其集思廣益、產生想法、組織思路,然后在斷網的情況下根據框架撰寫論文,階段性任務完成后,再使用大型語言模型生成論文正文的某個部分,以此提高論文寫作水平與創造力。而對有一定研究基礎的學生來說,可使用大型語言模型對論文進行拼寫檢查、更正、潤色,得到質量更高、語言更通順的論文,以便把時間與精力花在更關鍵、更具有創造性的學術研究工作中。當大型語言模型可以生成高質量論文的時候,學生需要掌握其他維度的技能,如了解論文寫作的意義、檢查論文的邏輯、確認是否使用了錯誤的數據、分析是否缺乏創造力等。其次,在科學研究領域,科學智能(AI for Science)將催化一場新的科學革命,尤其是生物醫學領域,科學智能已經取得了突破性成果。例如,基于神經網絡的人工智能模型AlphaFold 2“預測蛋白質如何折疊”這個困擾人類50年的問題得以解決[16];RoseTTAFold能夠快速、準確地預測更復雜的蛋白質結構[17];哥倫比亞大學基于循環幾何網絡計算模型RGN2與蛋白質語言模型AminoBERT實現了對孤兒蛋白結構的預測[18];Madani等[19]采用類似ChatGPT的蛋白質工程深度學習語言模型Proven,首次實現了AI預測蛋白質的合成。此外,微軟團隊研發的BioGPT作為專門為回答醫學問題而設計的語言模型,使用了PubMed的醫學文章進行訓練,以真正理解醫學語言,在PubMedQA上,BioGPT獲得78.2%的準確率,創造了新的記錄;而大型模型BioGPT Large(15億參數)的準確率達到81.0%,高于Galactica(540億參數)、Flan-PaLM(120億參數)等通用大型語言模型[20]。大型語言模型在生物醫學領域取得的突破,給其他學科科學研究難題的突破帶來了新的啟發與希望。BioGPT Large的準確率高于參數更多的通用語言大模型,表明經過領域訓練的較小模型比龐大的大型模型效果可能會更好,這為教育領域大型語言模型構建、教育信息科學與技術(國家自然科學基金F0701方向)科學研究提供了重要的啟示與借鑒。
③學生高階思維能力發展層面。合理使用GPT-4、文心一言、星火認知等大型語言模型,可以提高學生的提問能力、批判性思維能力,使其學會與人工智能合作,為未來生活與職業發展做準備。問題意識在思維活動乃至人的認識活動中占有重要地位,能提出好的問題是一種重要的學習能力。實踐表明,向這些模型提問時,對問題的描述越具體、明確,得到的回復越符合對話者的要求。而利用大型語言模型,可以為學生產生問題意識創設問題情境,在人機對話中引導、鼓勵與啟發學生學會積極、持久和仔細地思考,學會不斷質疑、發現、提出和解決問題,以形成問題意識,推動個體創造力、批判性思維、價值判斷等高階思維能力的發展。
綜上,科學、合理、嚴謹地使用大型語言模型,能夠在課堂教學、學術研究、學生高階思維能力發展等層面為高等教育帶來新的增長點,激發高等教育的生產力與創新力。而隨著美國、中國、歐洲等地的互聯網公司不斷加入行業競爭,未來的大型語言模型將向多模態、垂直行業應用發展,其自然語言理解能力會更強大、用戶體驗會更好、通用性也會更廣泛。大型語言模型的特征與技術的迭代發展預示著其在高等教育領域的美好前景,這也將在實現大規模個性化學習、生成性教育資源建設、智能教育評價、學生就業指導與求職、教育治理等方面為教育數字化轉型建設帶來新方向和新途徑。以大規模個性化學習為例,現有的個性化學習系統運行成本高、泛化性弱、遷移性差、無涌現能力;未來,通過建設面向高等教育領域的通用大型語言模型,可用各個學科的多模態數據對模型進行訓練,提升模型的可用性;對于學生而言,模型通常將訓練數據作為在線學習的一部分進行存儲,以使模型運行得更好,這意味著模型將具有更強大的自適應與個性化學習能力[21],為大規模個性化學習的實現帶來了希望。
2 大型語言模型在高等教育中潛在的消極應用
強大的技術往往具有兩面性,不當使用或者濫用大型語言模型將會帶來消極的應用效果。此外,大型語言模型提供信息的真實度主要依賴其訓練數據,如何判斷其輸出的正確性,也是大語言模型應用過程中亟待解決的問題之一。相應地,大型語言模型應用于高等教育課程教學、學術研究、學生高階思維能力培養時,會存在以下潛在的消極應用:
①課堂教學層面。大型語言模型能夠快速回答問題、生成論文、編寫代碼、撰寫劇本等,如果濫用,極易使其成為課程教學中的作弊工具,從而降低課堂教學的質量。例如,學生僅僅輸入一些提示語,就可以與模型進行“類人”的互動對話,快速而高質量地完成常規課程作業。這嚴重破壞了傳統課堂作業、課程設計等課堂教學生態,一方面它會產生教育不公平、教育誠信危機等問題;另一方面它可能使教師無法真實了解學生的學習狀況,以客觀地根據學生的學習狀況調整教學。同時,如果沒有經過專業數據的訓練,對于高等教育中專業性較強的科學知識來說,大型語言模型很可能會提供錯誤的回答,當學生缺乏專業知識時,就無法發現與糾正這些問題,容易被誤導;人工智能的偏見也不只來源于訓練數據,還會受算法設計、工程師、企業、國家等綜合因素的影響,如人工智能倫理著名專家Gebru就指出,從訓練數據和模型中完全消除某些政治、族裔、性別、階層、年齡等社會偏見的可行性不高[22];大型語言模型在上述內容生成上存在的問題,還可能對學生的社會認知和倫理產生負面影響,教師在課堂上使用這些內容時,在意識形態、知識科學性等方面將面臨新的壓力與風險。
②學術研究層面。首先,大型語言模型可以快速生成課程論文、學術論文,它的不合理使用會對學術誠信構成威脅。對課程教師或期刊編輯而言,很難用常規手段去辨別論文到底是大型語言模型生成的還是學生獨立完成的,這不是現有法律意義上但卻是事實上的學術欺詐、剽竊與抄襲。其次,大型語言模型接受的是大量數據的訓練,可能創造包含冒犯性或不恰當語言、有害和誤導性的內容,還可能會捏造事實,濫用大型語言模型可能產生大量看似合理、但毫無意義的論文。因此,若不對這種模式生成的論文進行限制、規范與監管,它可能會“殺死”大學論文,對現有的高等教育學術研究生態造成破壞性沖擊。
③學生高階思維能力培養層面。大型語言模型能夠快速回答問題、生成論文、編程、寫詩、寫劇本等,而對它的過度依賴、完全無差別或無限制的使用會妨礙學生獨立思考、邏輯推理、創造力、想象力、好奇心等高階思維能力的發展。通過外包寫作,外包思維生成一個完美的課程作業、論文、程序代碼等,會導致學生缺乏真實的體驗、深度的思考、有效的過程性訓練,這將惰化學生的學習行動與思考,難以激發學生的學習動機并使其保持好奇心與想象力,學生錯失了獨立思考、價值判斷、創新創造、邏輯推理等高階思維能力培養的機會,將會對人類智能與認知的整體發展造成破壞性影響。
三 大型語言模型在高等教育應用落地中的現實挑戰及建議
當前,GPT-4、文心一言、星火認知等主流大型語言模型還不成熟,距離通用人工智能尚有一段很長的路要走。大型語言模型廣泛應用于高等教育領域實踐,在算法、算力、數據上存在技術性難題,在模型先進性、芯片、數據質量、法規政策與監管等本土化建設上存在短板。
1 技術性難題及建議
算法上,絕大多數大型語言模型基于深度學習框架Transformer構建,模型的“智能”產生于其對海量數據的學習,具有不可解釋性;面對模型給出的錯誤結果,除了收集更多數據或提高數據質量,人類無法找出其產生原因。深度學習算法上的局限,使現有的大型語言模型缺乏一個“世界模型”,它們沒有完全理解物理和社會世界,只能根據在訓練中學到的模式來生成文本,其工作大部分時候是機械重復的,很少涉及理解層面的內容,在推理(包括空間、心理、物理、時間、邏輯推理)、數學與算術、幽默、自我意識、創造力、情感、責任、直覺和道德方面存在明顯缺陷,無法像人一樣進行批判性思維、決策和解決問題。人類的大腦可能是已知宇宙中最復雜的系統,大型語言模型所展現的通用智能距離真正的人類智能還有很長的路要走。基于此,本研究建議:匯聚數學、計算機科學、語言學、心理學、人類學、腦科學及認知神經科學等多個領域組合知識的巨大力量,進行開放式的協作,并等待在一定的技術積累后提出比Transformer更強大的深度學習框架,在算法上獲得新的突破。
算力上,大型語言模型具有數據量巨大的特征,處理千億級別參數、TB級別訓練數據以及保障模型日常運行等均需強大的算力,特別是需要高性能的CPU、GPU算力,而一枚英偉達的A100 GPU售價約1萬美元,模型的算力建設及模型運行成本較高。例如,GPT-3模型的算力約為3640PFlop/s-day[23],即訓練一次模型需1024張英偉達A100 GPU訓練34天。ChatGPT通過微軟Azure云服務1萬枚以上的A100 GPU進行數據訓練,它每天所產生的電費約為5萬美元;與用戶互動一次,ChatGPT產生的算力成本約為0.01美元。如此高昂的成本把資金較少的研究者與學生拒之門外,這不利于人工智能研究的多樣化與科學的進步。此外,從環境保護上來說,大型語言模型進行訓練時,碳排放量和能源消耗也過于巨大[24]。基于此,本研究建議:首先,尋找對算力消耗更小的算法,從算法與應用上獲取GPU新的增長點,以取得算力上的突破,這是當下最為現實的路徑選擇;其次,運用新材料(如量子芯片)突破當前硅基芯片的物理極限。
數據上,大型語言模型具備收集與儲存人機交互問答中涉及個人、企業、國家等隱私或重要數據的功能,含有上述數據的問答內容可能會成為模型的訓練數據,從而造成非公開信息泄露,危害到個人、企業、國家安全。因此,與大型語言模型工具進行互動時,應避免向其提供個人隱私及重要數據,如花旗、高盛、微軟、亞馬遜、谷歌等企業均禁止公司員工向ChatGPT分享敏感數據。大型語言模型還可能被惡意行為者用來生成虛假信息、垃圾郵件、惡意代碼,可誘騙用戶泄露個人信息、個人授權,以進行“撞庫”攻擊,并通過模型來降低網絡攻擊門檻、提升攻擊效率,實現24小時無人值守式攻擊,這將導致攻擊量顯著增長,助長網絡誹謗、誣陷、詐騙、敲詐勒索等違法犯罪行為的發生。類似GPT-3的模型,其規模增大以后,雖然可以提升合理性、特異性和趣味性等,但不能提升安全性[25]。基于此,本研究建議:首先,將大型語言模型工具應用于高等教育領域時,人人都要學會批判性思維,不上傳個人或學校重要信息、敏感數據,在無法確保大型語言模型的安全性、準確性與穩健性時,如果涉及重大或重要決策,應該選擇慎用或不用,對其生成的內容進行監管與審核;其次,通過促進大型語言模型向多模態方向發展、擴充數據源以提高數據數量,通過純化數據源以提高數據質量。
2 本土化建設的短板及建議
首先,教育是關系國家發展的基礎性工程,事關國家與民族發展的命運。為此,中國需要構建完全可控、安全穩健、世界領先的大型語言模型;需要以此為基礎模型,結合高等教育實際需求并融合學科專家,通過“微調”進行迭代優化,構建垂直中國高等教育教學及科研、符合中國高等教育法規與育人要求的大型語言模型。雖然當前國產大型語言模型的能力距離ChatGPT尚有一段距離,與GPT-4的差距更加明顯,但是主流的大型語言模型呈現同質化的特征,GPT系列模型與國產大型語言模型在底層框架上不存在根本性的差異。與美國相比,中國可利用自身在數字基礎設施、數字技術應用體系、數據生產與流通、人才規模、人工智能應用、人工智能治理與監管上的傳統優勢,縮短與GPT系列模型之間的差距。若中國頭部企業能向中國高校科研工作者開放實驗室成果,讓更多的大學生及高校教師使用、參與模型訓練,將不斷提升模型的智慧水平、提高生成內容的質量,加速大型語言模型在高等學校的大規模應用。
其次,模型的訓練需要大量的GPU芯片,但目前國產GPU芯片技術相對薄弱,而且英偉達的高性能GPU芯片禁止向中國出售,在美國對華芯片封鎖不斷升級的背景下,中國大型語言模型的訓練及追趕美國的難度增加。為此,中國要做好被技術限制的準備,未雨綢繆、提前布局,防范風險,并在算力統籌智能調度、算力共享與自主關鍵技術研發等方面發揮舉國體制的優勢,提高中國的整體智能算力。
再次,訓練數據的質量是影響模型性能的關鍵因素之一,中文數據量雖大,但開源程度、可靠性與準確性較低,高質量數據嚴重不足。以復旦大學MOSS中文語言大模型為例,它的模型基座學習的英文單詞是中文的10倍,這導致MOSS的英文回答水平明顯比中文更高。模型的“涌現”是一個技術、工程、數據的綜合性創新,如何提高中國數據質量尤其是教育大數據質量,以發揮中國海量數據的優勢,是大型模型應用于中國高等教育過程中面臨的又一挑戰。另外,當前我國百度、阿里、騰訊、華為、科大訊飛、昆侖萬維等“大廠”紛紛競逐大型語言模型,需警惕資本過度炒作、規避陷入“多而不強”的境地,避免“內卷”“盲目跟風”等惡性競爭,保護數據安全、確保數據被合法合規使用,唯有將模型嫁接到切實的需求之上,才能在激烈的競爭中生存;就大型語言模型高等教育應用而言,“大廠”可聯合高等學校的力量,“煉”出全球領先、可信、可靠、可用的教育通用大型語言模型,建成中國的人工智能基座,使高等教育應用系統能夠通過插件或其他方式接入此基座,形成“人工智能基座+學校教育應用”的生態模式,逐步實現高等教育數字化轉型、智能化升級的目標,提高我國高等學校人才培養質量與科學研究水平。
最后,ChatGPT之所以引起世界各國教育的廣泛關注與擔憂,其主要原因是ChatGPT智能水平的“涌現”令整個教育界措手不及。與大部分國家一樣,我國教育機構尚未建立適應ChatGPT之類工具大規模應用的法律、政策、監管框架等,社會對此類工具應用的看法尚存在很大的不確定性,缺乏指導學生與教師正確使用的方法或意見。為此,明確大型語言模型以及視覺、多模態模型等生成式人工智能工具在學校中合理應用的法律、政策、監管框架及指導意見等,是中國高等教育面臨的又一個挑戰。
四 結語
本研究主要討論了大型語言模型的發展及其特征,分析了大型語言模型在高等教育領域中的積極與消極應用,并探究了大型語言模型在高等教育應用落地中面臨的現實挑戰并提出了應對建議,旨在為教育工作者理解大型語言模型的發展及特征提供一個清晰的脈絡與框架,并引導高等學校師生在課程教學、學術研究、學生高階思維能力培養以及教育數字化轉型過程中客觀看待、合理使用與科學發展大型語言模型。未來,大型語言模型將會繼續迭代發展,并對高等教育的內容、方法、評價、模式、生態、文化、治理以及人才培養等產生深遠影響。為此,高等學校、科技企業與政府決策部門應并肩合作,從大型語言模型在高等教育各領域的具體落地應用及實證研究入手開展研究與實踐,激發高等教育的生產力與創新力,發展更有質量的中國高等教育。
參考文獻
[1][2]李航.語言模型:過去、現在、未來[J].中國計算機學會通訊,2020,(9):40-47.
[3]邢永康,馬少平.統計語言模型綜述[J].計算機科學,2003,(9):22-26.
[4]Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J]. Advances in Neural Information Processing Systems, 2000,13.
[5]Mikolov T, M Karafiát, Burget L, et al. Recurrent neural network based language model[A]. Interspeech[C]. Japan: Chiba, 2010:1045-1048.
[6]Sundermeyer M, Schlüter R, Ney H . LSTM neural networks for language modeling[A]. Interspeech[C]. Oregon: Portland, 2012:194-197.
[7]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[OL]. lt;https://arxiv.org/abs/1706.03762gt; [8]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[OL].lt;https://openai.com/research/language-unsupervisedgt;
[9]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[OL]. lt;https://arxiv.org/abs/1810.04805gt;
[10]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[OL].lt;https://openai.com/research/better-language-modelsgt;
[11]Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[OL]."lt;https://arxiv.org/abs/2005.14165gt;
[12][13]Rishi B, Drew A, Hudson E A, et al. On the opportunities and risks of foundation models[OL].lt;https://arxiv.org/abs/2108.07258gt;
[14]焦建利.ChatGPT:學校教育的朋友還是敵人?[J].現代教育技術,2023,(4):5-15.
[15]夏琪,程妙婷,薛翔鐘等.從國際視野透視如何將ChatGPT有效納入教育——基于對72篇文獻的系統綜述[J].現代教育技術,2023,(6):26-33.
[16]Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021,596:583-589.
[17]Baek M, DiMaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science, 2021,(6557):871-876.
[18]Chowdhury R, Bouatta N, Biswas S, et al. Single-sequence protein structure prediction using a language model and deep learning[J]. Nature Biotechnol, 2022,(1):1617-1623.
[19]Madani A, Krause B, Greene E R, et al. Large language models generate functional protein sequences across diverse families[OL]. lt;https://doi.org/10.1038/s41587-022-01618-2gt;
[20]Luo R, Sun L, Xia Y, et al. BioGPT: Generative pre-trained transformer for biomedical text generation and mining[OL]. lt;https://arxiv.org/abs/2210.10341gt;
[21]Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risk of foundation models[OL].lt;https://arxiv.org/abs/2108.07258gt;
[22][24]Bender E M, Gebru T, McMillan-Major A , et al. On the dangers of stochastic parrots: Can language models be too big?[A]. 2021 ACM Conference on Fairness, Accountability, and Transparency[C]. New York: Association for Computing Machinery, 2021:610-623.
[23] Brown T B, Mann B, Ryder N , et al. Language models are few-shot learners[OL].lt;https://arxiv.org/abs/2005.14165gt;
[25]Thoppilan R, Freitas D, Hall J, et al. LaMDA: Language models for dialog applications[OL].lt;https://arxiv.org/abs/2201.08239gt;
The Application Analysis and Realistic Challenge of Large Language Models in Higher Education
WU Lan-an1,2" " YAN Han-bing2[Corresponding Author]" " HUANG Fa-liang1" " BI Ying-zhou1
(1. College of Computer and Information Engineering, NanNing Normal University, Nanning, Guangxi, China
530001; 2. School of Teacher Development, East China Normal University, Shanghai, China 200062)
Abstract: Large language model(LLM), as a must-have in the era of artificial intelligence big models, have received widespread attention for their applications with the emergence of ChatGPT,but there are relatively few researches on its application in the field of education, especially in the field of higher education.Based on this, the paper first reviews the iterative development of LLM after a hundred years, and summarizes five characteristics of LLM, such as large data, strong generalization, good migration, emergence and homogenization. Secondly, the paper discusses the application of LLM in higher education curriculum teaching, academic research and the cultivation of students' advanced thinking ability from two dimensions of positive and negative application, and predicts its broad application prospects in the field of digital transformation of higher education.Finally, the paper analyzes the realistic challenges of its application in higher education from three aspects, such as technology, generated content, localization construction and application, and puts forward corresponding suggestions to stimulate productivity and innovation in higher education, to develop better quality higher education in China.
Keywords: LLM; higher education; application analysis; realistic challenges
————————
*基金項目:本文為2021年廣西研究生教育創新計劃課題“后疫情時代研究生線上學習能力重構與實踐路徑研究”(項目編號:JGY2021160)、2020年國家自然科學基金項目“大規模在線學習行為表示與預測建模研究”(項目編號:62067007)的階段性研究成果。
作者簡介:吳蘭岸,副教授,博士,研究方向為教育技術基本理論、智能教育,郵箱為wlafan@qq.com。
收稿日期:2023年4月2日
編輯:小時