一、引言
智能導學系統(Intelligent Tutoring System,ITS)是基于建構主義學習理論,融合教育學、認知科學與計算機科學等多學科視角,通過人工智能模擬教師身份與學習者進行實時個性化交互,促進有效學習發生的學習輔助系統[12]。與傳統計算機輔助學習(Computer-AssistedLearning,CAL)相比,智能導學系統實現了從“千人一面”向“千人千面”的個性化服務能力躍進3。但在實際應用中存在研發成本高4、智能化水平有限[5]、需求深度理解、跨領域應用能力不足等問題,阻礙了將智能化融人學習全過程的教育數智化轉型目標實現。大語言模型(LargeLanguageModels,LLM)作為新一代智能技術正掀起智能革命的新浪潮。大模型利用深度學習技術基于海量通用數據和專業領域知識進行預訓練,具備與學習者自由對話并生成多模態內容以滿足其個性化學習需要的能力8。聯合國教科文組織2023年發布的《教育與研究領域生成式人工智能指南》中指出,大語言模型應在人本主義的權威測試與嚴格監管下,充分發揮輔助個性化、探究式、自我調節學習等方面的巨大潛力,促進學習者高階思維培養與大模型素養養成9。隨著大模型的持續更迭與功能進化,其強大的自然語言理解與生成能力將成為智能導學系統從“簡單智能”邁向“高級智能”的重要支撐。但若將大模型直接接入現有智能導學系統并不一定能帶來更好的用戶體驗,大模型“幻覺”現象[10]、深度邏輯缺失[1]、隱私信息泄露[2]風險等問題尚未得到較好解決,這些不可控因素將對智能導學系統可信度、安全性和可靠性帶來嚴峻挑戰。鑒于此,研究將基于檢索增強生成(Retrieval-AugmentedGeneration,RAG)技術,探索一套大語言模型與私有知識庫本地化部署的智能導學系統“低代碼”構建方案,旨在抑制大模型“幻覺”現象產生,保障智能導學系統的可靠性與安全應用,為實現教育智能化目標邁出關鍵一步。
二、文獻回顧:大語言模型之于智能導學系統的革 新與局限
(一)智能導學系統發展歷程與相關研究
20世紀70年代,Carbonell首次將人工智能引入計算機輔助學習系統,開發用于南美洲地理教學的SCHOLAR[13],正式開啟智能導學系統時代,受當時主流的行為主義學習理論影響,智能導學系統的設計強調通過刺激產生反應,能夠按照預定的線性或分支程序基于學習者的問題作出文本模態回答;20世紀80年代,受認知主義影響智能導學系統開始重視認知的復雜過程,強調學習者通過與系統之間的交互逐漸形成和完善認知結構,此時智能導學系統開始有了推理能力,支持個性化學習的價值進一步凸顯;20世紀90年代到21世紀初,信息技術領域的顯著成就使學習理論步人建構主義時代,同時為智能導學系統帶來了自然語言理解、智能代理、神經網絡等人工智能技術,使其具備自適應學習支持和多模態交互的能力。有學者認為智能導學系統架構應至少分為四個模塊:領域知識模塊,包含要傳達給學生的特定領域事實與規則,即專家知識;學習者模塊,用來動態描述學習者當前獲得的知識與技能,反應學習者的認知特點;導學模塊,也稱教學決策模塊,主要根據學習者模型與學習目標針對性提供導學策略,并提交系統執行;用戶界面,用于控制學習者與智能導學系統之間的交互[14]。Vanlehn提出智能導學系統的內外雙循環架構,外循環通過分析學習者相對于學習目標的優勢與劣勢,以自適應的方式選擇系統下一步執行的學習任務;內循環用來引出學習任務的具體執行方案,并為學習者提供交互[15]。劉華等人將雙循環架構進一步細化,在內外循環之間添加了中循環的概念,負責根據學習任務與對應的學習資源匹配傳給內循環執行,并跟蹤分析學習者學習行為傳給外循環保存[6]。
智能導學系統在語言學習[17、計算機編程[18]、醫學[19]特殊技能訓練(如元認知2等領域的應用均展現出其對輔助學習的獨特優勢。但有研究發現智能導學系統在部分場景中應用效果不如預期,如Saiying等人采用元分析方法調查發現,智能導學系統對K-12學生數學學習僅有較小程度的促進作用,但對于學習動機與自我調節能力強的學生更有效[21]。Vanlehn的另一項研究發現智能導學系統輔導的粒度越精細效果越好,輔導質量幾乎與人類輔導效果接近,但系統輸出的內容準確性仍不達標,需通過調整算法參數等方式提高性能[22]。這可能是由于原有智能導學系統中智能算法主要依靠隨機森林[23]、樸素貝葉斯[24]、K-means[25等機器學習算法,人機對話、對學習者感知能力較弱,在知識密集型導學任務中表現不佳;其次,領域知識庫中僅包含學習者需要學習的相關內容,缺乏其他多領域的知識,無法支持對學習者的跨領域、跨學科個性化學習需求。為此,智能導學系統亟需接入新一代人工智能技術以實現智能水平提升與功能進化。
(二)大語言模型引領智能導學系統智能革新
大語言模型基于大規模語料庫訓練,能夠生成、理解和處理自然語言文本,從而在多語言、多模態、多領域任務中展現出高度的智能和廣泛的應用潛力。大語言模型作為代理教師、學習伙伴、知識共創者等角色接入智能導學系統,提升了系統在自然語言理解、內容生成和適應性方面的能力,推動智能導學系統邁向高級智能發展階段。
首先,大模型提升智能導學系統學習者感知能力。大模型能夠基于文本、聲音、圖像等多模態信息深入感知、分析和理解學生不同層面的狀態,如學習習慣、興趣、知識水平和情感等,實現對學習者的精準畫像,為個性化的學習路徑和內容推薦提供支持[2。如在徐升等基于大語言模型開發行為統計學智能導學系統中,僅分析學習者與系統交互的自然語言即可評估其對知識的學習情況,并基于此提供具體的導學方案。Chen在MicrosoftTeams平臺上整合GPT-4與MicrosoftCopilotStudio開發智能導學系統,通過分析學習者在系統中的交互行為和學習數據,獲取學習者的學習時間、問題回答情況等信息,從而了解學習者的學習狀態和進展并向教師反饋,教師可以根據這些信息更好地了解學習者的需求和困難,為學習者提供人機協同學習支持與指導[27]
第二,大模型賦予智能導學系統生成式對話能力。憑借先進的生成技術,大模型可以模擬師生、生生之間的互動對話,提供即時的解答、指導和討論,提高導學效率和互動質量。Abdelghani等人開發了一款由GPT-3驅動的導學系統KidsAsk,旨在通過回答孩子的問題并提供提示來引導他們提出問題,幫助9一10歲的兒童激發求知欲、培養好奇心、提高提問能力,并鼓勵他們在探索過程中嘗試提出更深人的問題[28]。Gautam等人將GPT-4接入智能導學系統CTAT,學習者可通過與大模型對話搭建與自身興趣有關的個性化情景,在該情境中學習和解決問題,并在這個過程中通過CTAT平臺獲得大模型的指導與反饋,顯著提高了學習者參與度和學習效果[29]。
第三,大模型助力實現智能導學系統跨領域應用。大模型具備不同學科和多領域的知識儲備,能夠靈活適應學習者多樣化學習需求,并融合多個視角解決復雜問題。可汗學院在其學習平臺中引入了基于GPT-4的專業虛擬助手Khanmigo,Khanmigo能夠在數學、人文、編程、社會研究等多個領域為學習者提供個性化導學服務[30。翟雪松等人通過利用多個基于大模型的智能體構建智能導學系統,使系統能夠動態適應不同領域,提供多樣化的觀點,并為復雜學習問題提供強大且可擴展的解決方案,優化學習體驗的同時促進學習者的認知和社會情感發展3。
(三)大語言模型之于智能導學系統的局限
盡管大語言模型在智能導學系統中展現了非凡潛力,但現階段大模型本身仍具有不可預估的應用風險,教育者仍需回歸技術理性,維護人工智能教育應用的人本價值。
其一,大模型多領域應用能力與專業領域導學需求之間存在矛盾。目前大模型訓練數據主要來自互聯網通用型資料,且主要基于西方語言,在智能導學系統中解決學習者的專業學習領域前沿問題時,由于缺乏專業領域的知識及深入理解,可能產生“信息幻覺”(InformationHallucination)[32],從而作出無意義或虛假的回答,也使得其在文化和價值觀上更傾向于西方觀念,具體表現為以漢語為對話語言時,大模型對學習者需求的理解能力及生成回答的質量不佳[33]。
其二,導學過程的決策外包與去人性化風險加劇。大模型在智能導學系統中模擬并替代了傳統學習輔導過程的教師參與,以“決策外包”的形式彌補教師的“缺陷存在”,突破教師個體的認知能力限制[34,但同時人在教育教學過程的主體性地位受到挑戰。盡管大語言模型能夠生成連貫且具有表面合理性的文本,但它們在處理復雜的邏輯推理和深層次理解時存在顯著不足。學習者在接受導學服務過程中需要辯證看待大模型生成內容,如若過度依賴大模型給出的答案而又缺少人類教師的即時引導,將對學習者批判性思維、問題解決能力的發展產生不可逆負面影響。
其三,教育信息與學習者隱私泄漏導致安全倫理危機。大語言模型在處理和存儲學習者數據的過程中,可能會面臨信息泄漏和隱私侵犯的風險。此外,在抓取互聯網數據時,往往難以獲得數據所有者的明確許可,引發知識產權糾紛[35]。這些問題不僅威脅學習者的個人隱私,還可能引發廣泛的安全倫理問題,嚴重影響智能導學系統的合法性和可靠性。
綜上,大語言模型憑借其強大的自然語言處理和生成能力,顯著提升了智能導學系統在學習者感知、對話生成和跨領域應用等方面的智能化水平,使其能夠更好地滿足個性化學習需求。大語言模型接人智能導學系統已成為不可阻擋的趨勢,助力智能導學系統向最理想的形態演進。然而,在此過程中大語言模型本身存在的幻覺現象、去人性化風險與安全倫理危機等問題不容忽視,教育者必須謹慎看待大模型的技術優勢,避免濫用。在推動二者有機融合的過程中,高度重視并積極應對新的挑戰,確保人工智能技術應用的人本價值,維護學習者的權益和智能導學系統的安全性。
三、系統框架:本地大模型與私有知識庫增強智能導學系統
(一)RAG技術:大模型與私有知識庫檢索增強生成技術(RAG)是一種用來解決傳統大語言模型生成內容缺乏準確性和特定性的增強生成模型,能夠結合參數化和非參數化的記憶,從預備的知識庫中檢索與輸入問題有關的索引(非參數化記憶),整合在含參數化記憶的大模型中,以生成更高質量的內容,滿足用戶在特定領域的專業需求[3。RAG通常有兩個重要組件:一是用于生成文本的參數化生成器,即大語言模型;二是非參數化檢索器,即私有知識庫,用于從源于外部的、經過處理的、與特定需求相關的信息和知識資源中檢索內容,并將其與生成器結合起來增強生成內容的質量和準確性。RAG支持以熱交換(IndexHot-swapping)方式更新非參數記憶,允許在系統運行期間動態地更新私有知識庫,無需停機或重啟,也無需重新訓練大模型[3。這一特性使得私有知識庫的管理、更新與維護變得更加靈活高效,能夠在不依賴外部服務的本地環境中,隨時根據需要為知識庫添加最新信息和知識。另外,避免大模型數據泄露問題的最佳方式是進行本地化部署[38],用戶將開源大模型算法下載到個人計算機中,利用本地計算機的硬件資源支撐大模型運行。隨著個人計算機AI本地部署逐漸普及,大模型本地化運行將成為新的發展趨勢。這意味著開源大語言模型和私有知識庫可以在更安全的本地環境中實現無縫集成,基于大模型的私有知識庫能為智能導學系統的本地化部署和運行創造有利條件。
(二)基于RAG的智能導學增強生成系統框架
為實現大語言模型與私有知識庫的本地化集成,共同賦能智能導學系統構建,研究提出基于RAG的智能導學增強生成系統框架,如下頁圖1所示。整體來看,該框架可被劃分為本地空間與外部空間,圖中虛線框內為本地空間,框外為外部空間。本地空間是指學習者個人的計算機系統中所有本地化部署的資源、數據和計算能力。在本地空間內,計算任務能夠不依賴外部網絡獨立完成,并且各類數據穩定地存儲在本地設備中,有效確保數據安全和隱私性。外部空間則需要通過外部網絡或人工方式進行訪問或交互,數據被存儲在云端服務器或數據中心,具有海量存儲、實時性強、靈活訪問等優勢。但來自外部空間的數據可能面臨安全、版權和隱私風險,必須采取適當的安全措施來保障數據的可靠性。
1.外部空間
系統框架的外部空間主要包括智能導學系統的交互對象、多模態外部知識源、學習者數據等。智能導學系統的交互對象為學習者,學習者通過本地空間中的用戶界面與智能導學系統進行交互,系統識別并解決學習者學習過程遇到的困難和問題以達到有效學習的目的[39]。多模態外部知識源指的是與某專業領域學習高度相關的,存儲在其他教學平臺、學習平臺及社交平臺中,或教師日常教學常使用的資源,通常以文本、圖片、代碼、音頻、視頻等多種模態形式存在,即教材、教輔資料、教學音視頻、虛擬教學資源等40]。這些資源能夠為學習者提供多元化的學習體驗,將作為私有知識庫的儲備知識源,為智能導學系統的“檢索”過程作準備。但由于資源來源和制作標準各異,其質量并不穩定,且在使用時常涉及知識產權問題。因此在將其整合并上傳至智能導學系統之前,需要進行嚴格的篩選并從原作者處獲取明確的使用權限,確保私有知識庫的知識源是優質且合法的。學習者數據主要包括學習者知識水平、學習行為、學習風格、學習者個人信息等,通常源自教師在日常教學中的記錄以及借助智能手環、攝像頭等設備進行采集,為學習者診斷及學習者畫像構建提供數據基礎。與此同時學習者的個人隱私將變得完全透明[41],因此,將學習者數據納入本地私有知識庫必須獲得學習者本人的許可,并對數據進行脫敏處理(如隱匿姓名、泛化年齡等),以最大程度保障學習者的隱私與信息安全。

2.本地空間
本地空間是承載智能導學系統本地化運行的核心區域,檢索增強生成過程均發生在本地空間,可被分為四個模塊:本機硬件、用戶界面、大語言模型和私有知識庫。其中本機硬件作為智能導學系統的“大腦”,指的是學習者計算機中配備的硬件設備。由于其他三者均部署在本地環境中,因此其運行需要完全依靠本機硬件來提供算力及存儲資源,如本地大模型及私有知識庫的數據存儲需要依靠較大容量硬盤,知識庫向量檢索、大模型的增強運算及內容生成需要高性能CPU或GPU提供算力等。本機硬件的性能將直接影響智能導學系統的響應速度和處理能力,為此在部署本地智能導學系統時應盡可能選擇高性能計算機或工作站。
用戶界面模塊是學習者與智能導學系統之間的“交互門戶”,負責將學習者提出的問題翻譯為系統可識別的語言傳遞給智能導學系統,也能夠將系統生成的回答轉化為人可讀懂的界面語言反饋給學習者。Wenger提出,用戶界面看似功能簡單,但也承載著把控智能導學系統接受程度的重要作用,用戶界面是智能導學系統的最終呈現形式,因此其易用性、畫面呈現質量決定了學習者對智能導學系統的接受程度[42]。為此優化用戶界面設計是提高智能導學系統成功率的關鍵環節,必須注重用戶體驗和界面美學,同時保證響應速度、可訪問性和多設備兼容性,從而提升學習者的使用體驗和系統接受度。
大語言模型模塊是智能導學系統增強生成的“智慧引擎”,賦予大模型身份、角色及任務使其成為代理智能體,是導學系統“增強生成”的主要承擔者。在研究構建的系統框架中,至少需要兩個智能體分別負責處理智能導學系統的兩個關鍵任務:導學分析和回答生成。大模型和智能體之間可以形成“一對多”或“多對多”的關系,由于大模型參數被穩定部署在本地,而本地存儲資源有限,含參數量較大的模型將占用更多本地空間,因此可基于單一大模型的參數資源構建多個智能體,亦可在本地部署多個大模型以供給不同功能的智能體。智能體的生成任務遵循“刺激-反應”模式,其中刺激代表以自然語言方式輸入大模型的提示語,反應代表生成內容,刺激的質量直接影響智能體生成反應的質量[43]。為了優化生成任務需要借助教育提示語工程,例如在提示語中整合語境、目標、角色和示例四大元素[44]。語境指與智能體任務相關的關鍵信息,包括領域背景知識和學習者特征,為智能體提供理解問題背景和用戶需求的基礎;目標指明確生成需求及結果的呈現形式;角色表示要為智能體賦予特定身份,以便其能夠更加專業、精準地完成任務或回應問題;示例則提供生成樣例或結構化的模板,指導智能體生成符合期望的結果。智能體接收到高質量提示語后,將依靠本地CPU和GPU提供的算力調動大模型參數進行分析,以實現對“刺激”的精準處理進而作出有效的增強“反應”。
私有知識庫是智能導學系統增強生成的“知識倉庫”,主要負責處理、存儲和管理向量形式的私有知識,并實現精準“檢索”。研究將私有知識庫界定為專為智能導學系統量身定制的,包含某相關專業領域特定知識及學習者數據的本地化知識庫,相較于領域知識庫更加強調數據的保密性與訪問控制。來自外部空間的多模態知識及學習者數據等需要經過嚴格的篩選、脫敏與權限獲取后方可導人私有知識庫。經過智能分段后,外部知識源將通過嵌入模型被導入向量化的私有知識庫,私有知識庫中包含多個獨立向量庫,如領域專業知識、教學策略、教育教學理論、專業考試題庫及學習者畫像等。為保障知識的時效性并適配不同類型學習者,需要定期將庫中過時的、低質量的知識,及需要更換的學習者信息進行廢棄處理。同樣,經過大模型分析導學需求也將被向量化,并根據具體任務在私有知識向量庫中訪問一個或多個知識庫,采用語義相似度計算、向量檢索、關鍵詞檢索等方法檢索出與需求最相似的知識片段回傳給大模型模塊作為增強生成的內容依據。
3.系統框架中的內外雙循環
研究將系統框架劃分為外循環與內循環:外循環作為導學分析單元,負責分析處理學習者提出的問題,決定要執行何種導學任務并提交對應的私有知識庫進行檢索;內循環作為導學執行單元,基于檢索結果、導學任務及用戶問題等構建增強提示語,增強智能導學智能體的生成結果。兩個循環中的任務均有至少一個智能體參與,需要大語言模型與私有知識庫的緊密配合。
在外循環中,大語言模型首先處理來自用戶界面的學習者問題,判斷學習者導學需求和其自身特征。系統基于用戶問題、對話歷史、導學分析指令、角色限定及導學任務類型庫組建提示語輸入導學分析智能體,智能體將依據導學任務類型生成學習者的導學需求,并分析學習者自身特征(學段、學科、掌握程度等)。隨后導學分析智能體的生成內容將被向量化,并導入私有知識向量庫進行檢索,每次檢索并不需要訪問所有知識庫,而是根據導學任務類型選擇檢索一個或多個向量庫。例如,導學需求為“出練習題”時,要求訪問專業考試題庫和學習者畫像庫;導學需求為“知識講解”時,則訪問領域專業知識庫和教育教學理論庫。
內循環接收私有知識向量庫創建的索引結果并進行質量檢查。如果檢索結果不佳或檢索失敗,則需要調整檢索參數或更換檢索方法,直至得到有效的索引結果。此索引結果作為檢索增強生成的“增強內容”返回給大語言模型,并結合用戶問題、對話歷史、導學任務與學習者特征、角色限定及輸出指令等,構建增強提示語,導人智能導學智能體完成“增強生成”任務,最終生成更準確且高質量的回答。學習者收到系統回復后,會繼續思考并提出新的問題,新問題將再次進入外循環處理,確保整個系統在不斷反饋和優化中形成一個高效的閉環,促進學習者知識掌握的同時實現批判性思維、創新與問題解決能力的全面提升。
四、應用場域:“人智共生”智能導學增強共同體
基于RAG技術的大語言模型與私有知識庫造就了新一代智能導學系統。可見教育數智化離不開技術的發展,技術與教育者、學習者之間形成相互塑造、協同共生的諧和樣態,因此處理好人技關系是保障教育過程中人類主體地位的關鍵[45]。鑒于此,研究參考探究社區模型(CommunityofInquiry,CoI)并基于人機協同學習視角,構建“人智共生”智能導學增強共同體,并從中衍生出以學習者為主體、教師主導的智能導學系統應用場域,如下頁圖2所示。探究社區模型指出,探究型學習共同體由教學存在、認知存在和社會存在組成[4。其中,教學存在體現教師的教學方法與策略,需要教師創設相應的教學情境;認知存在需要選擇學習內容和任務,并促進學習者的信息加工與知識建構;社會存在則注重師生通過交互,實現高階思維培養與情感支持[47]。智能導學增強共同體由教師、學習者和新一代智能導學系統組成,他們在智能導學應用中擁有各自的“場域”,并以歐拉圖形式交織。如教師需明確教學目標及對應的學習者信息,擁有豐富的多模態教學資源,并掌握有效的教學策略與方法;智能導學系統能夠在本地環境中基于私有知識庫及大語言模型,創設多個代理智能體并通過用戶界面實現智能導學交互;學習者則應有明確的學習目標,了解自己當前的學習情況,并為實現學習目標而產生學習行為,在此過程中能夠及時調節自己的元認知策略,不斷提出新的個性化學習需求。三者所屬場域可產生三處交界:“師-智”“生-智”和“師-生”應用場域,并派生出三類新一代智能導學系統增強應用,分別映射于導學增強共同體的教學存在、認知存在與社會存在。
(一)“師-智”應用場域
“師-智”應用場域作為教學存在,要求教師在智能導學中擔任學生學習過程的主導者角色,利用自身場域優勢完成新一代智能導學系統維護和導學活動設計,實現人類教師與代理智能體導師的優勢互補[48]。
其一,教學目標制定及智能導學系統功能預設。教師要根據學習者實際情況制定明確具體的教學目標,并據此設定智能導學系統將為學習者提供何種導學功能,如學習資源及習題生成、個性化答疑等,另外教師應參考適當的教學策略與方法為具體功能編輯導學提示語的上下文,指定輸出內容的形式,使其能夠適應學習者的理解能力及接受程度。其二,本地私有知識庫更新與維護。教師將授權的高質量多模態教學資源及學習者數據導人私有知識庫,同時需注意其格式規范,可設定明確的標志符(如“#”“/”等)或進行難度分級便于智能導學系統識別、分析和向量化處理,避免因格式問題使得系統識別錯誤或效率降低,最終導致“檢索”失敗。其三,代理智能體創建與調試。教師需根據導學系統所在的本地主機性能,選擇并部署參數量適宜的一個或多個大模型確保其能夠在本地高效運行。并將大模型與私有知識庫進行鏈接,為大模型賦予特定角色構建代理智能體以創建智能導學應用。在智能導學系統投入正式使用前,教師需要通過測試來檢查系統能否從私有知識庫中檢索高質量內容,并根據測試結果調整檢索方案或大模型提示語,確保代理智能體能夠依據索引提供準確的“增強生成”內容。
(二)“生-智”應用場域
新一代智能導學系統大模型與 本地環境 個答檢索微調 私有知識庫大語言模型教學存在 大模型本地部署 用戶界面 學習資源生成 認知存在私有知識庫更新 代理智能體 自適應習題生成元認知調節支持導學提示語設計學習效果評價教學策略應用有意義知識建構學習者數據維護 “師—智” “生一智”應用場域 C 應用場域教學目標 智共生 學習目標學習者信息 共同體 知識掌握情況多模態教學資源 “師一生” 學習行為教學策略 應用場域 元認知策略教學方法 個性化需求教師 學習者情感支持 面對面交流 大模型素養培育個性化答疑 高階能力發展偏誤糾正學習體驗社會存在“生-智”應用場域作為認知存在,應充分體現學習者的學習主體地位,智能導學系統需要為學習者提供促進有意義學習的建構性導學支持,輔導學習者進行主動的有效認知加工,著重提升學習者認知水平和自主學習能力[49]
其一,開放、專業、個性化的知識問答。學習者在學習過程中可隨時提出問題,智能導學系統將根據其學習背景和個性化需求,同時記錄與學習者的對話歷史,通過外循環與內循環的往復接力完成檢索增強生成任務,通過持續對話交互幫助學習者實現知識建構。其二,學習資源與習題個性化生成。智能導學系統具備強大的數據分析能力,能夠實時監控和評估學生的學習情況,通過對話動態感知學習者的知識掌握情況變化。當學習者需要輔助資源和習題時,系統能夠從私有知識庫中動態檢索與學習者水平適應的索引結果,并返回智能體生成最適合該學習者的增強內容。其三,個性化學習支持。智能導學系統應具備獨立的學習支持模塊,可由獨立的學習支持代理智能體承擔,主要包括學習者情感調節、元認知調節、學習策略與方法指導等[50。系統可以提示學習者進行自我反思,幫助學習者主動調整學習策略,同時識別學習者的情緒狀態,適當提供情感支持與激勵,維持學習者的學習動機。
(三)“師-生”應用場域
“師-生”應用場域作為社會存在,主要通過教師與學習者之間的交互來實現“人-機”互補的導學模式,充分發揮教育過程的人本主義思想,消解人本危機。此應用場域中雖然沒有智能導學系統的直接參與,但需要借助師生交互來對智能導學系統的應用效果進行評估并提出優化策略。
其一,學習者疑難問題答疑與大模型錯誤糾正。由于大模型的深度邏輯缺失問題難以完全解決,智能導學系統可能無法解決復雜的疑難問題,或在部分復雜問題的回答中出現錯誤,教師需要通過師生交互發現這些問題并及時糾正學習者,同時定期對智能導學系統中大模型進行微調或優化提示語。其二,整體把控學習者學習進度并提供情感支持。雖然當前人工智能僅能通過學習者學習行為、面部表情等數據識別出高興、難過等簡單情緒,而困惑、沮喪等復雜情緒仍難以區分[51,且情緒感知能力遜于人類教師。為此需要教師通過與學習者的互動,了解學習者的學習進展與情感變化,以即時提供情感上的支持及鼓勵,維持學習者的學習動機與積極性。另外,也可在私有知識庫中嘗試構建情感支持策略庫,并逐漸培養情感支持代理智能體來實現情感支持的“增強”。其三,大模型素養培育及高階能力發展。大模型素養指學習者應用大模型輔助學習時應該具備的高階私有模式,包括理解、介入、提示語、印證和整合五個階段[52。除此之外,大模型素養還應包括如何有效、安全地使用大模型輔助學習,以及理解大模型的局限性和潛在風險。教師應承擔學習者大模型素養培育和高階能力發展的責任,為學習者提供智能導學系統的使用指南,并培養其批判性思維和問題解決能力等高階能力。
“人智共生”智能導學增強共同體不僅實現了技術、人與教育的三位一體,更通過三者之間的協作共生,開創新一代智能導學模式,使智能導學系統成為學習者有效學習的輔助工具與促進師生深度交互的橋梁。
五、實踐案例:來華留學預科教育“理工中文”智能導學系統
研究以面向來華留學預科生開設的“理工中文”課程為例,構建了來華留學預科教育“理工中文”智能導學系統,旨在演示與驗證基于RAG的智能導學增強生成系統框架在國際中文教育中應用的可行性,并具體闡釋在“人智共生”智能導學增強共同體中衍生出的功能應用。
國際中文教育除通用中文教學外,專業學習用途中文教學同樣是重中之重。據調查,理工類留學生在進入專業學習后面臨的最主要問題就是在閱讀專業教材、理解課堂講授內容及完成書面作業等方面存在障礙,學生們普遍反映專業知識特別是掌握的專業詞匯量極其不足,嚴重影響專業學習成效。在來華留學本科預科教育中,理工類預科生規模占比較大,理工中文作為預科階段的必修課程,更是普通漢語課和專業基礎知識課銜接的橋梁[53]。但預科生學習時間通常僅有10個月,理工中文課程課時安排有限,學習效果仍舊不夠理想[54]。為此研究借助基于RAG的開源知識庫問答系統MaxKB(MaxKnowledgeBase),結合本地大語言模型與理工中文私有知識庫,以低成本、低代碼的方式高效搭建“理工中文”智能導學系統,以理工中文學習助手身份通過即時反饋為理工類預科生解答疑難問題,提高專業詞匯量,為后續理工專業學習奠定扎實的語言基礎。
根據研究提出的“人智共生”智能導學增強共同體,“理工中文”智能導學系統的設計主導者為理工中文教師,導學交互對象為來華理工類預科留學生,下面將從“師-智”“生-智”“師-生”三大應用場域具體闡釋“理工中文”智能導學系統的核心應用模式。
(一)“師-智”場域:系統構建
理工中文教師具備豐富的教學經驗和足量的教學資源儲備,需肩負起開發高質量“理工中文”智能導學系統的重任,參與到大語言模型本地部署、理工中文私有知識庫構建、導學應用搭建、提示語設計與檢索調優等核心應用中,形成系統的完整構建流程(如圖3所示)。

步驟一,大語言模型本地部署。選用Meta發布的大模型Llama3,其優點是開源、輕量級且允許在本地硬件上部署和運行,8億參數量的Llama3模型僅占用本機約4.7GB內存空間,將其下載至本地后在MaxKB系統中設置好大模型的本地API域名即可本地運行。
步驟二,理工中文私有知識庫構建。研究將構建理工中文詞表庫和理工中文語料庫兩個知識庫并準備原始資源:詞表庫整合HSK詞表及理工中文詞表,并進行明確分級以適應不同中文水平的學習者,語料庫整合理工中文課文語料、理工中文常用表達式及理工中文習題庫等;這些知識庫原始資源需要經過語料清洗、智能分段、人工分段調整,最后被向量化以備“檢索”。研究通過以下三個方法來提高“檢索”命中率:進行語料清洗篩去特殊字符、圖片、公式等內容;創建知識庫時針對知識庫中包含的文檔撰寫詳盡的知識庫介紹;人工篩查并精細化調整MaxKB的智能語料分段,并為每個分段設置小標題輔助“檢索”命中。
步驟三,理工中文智能導學應用搭建與調優。此步驟是將部署好的本地大模型、理工中文私有知識庫及前端界面進行整合與磨合的過程。首先對用戶界面的應用名稱、描述與開場白進行設置,為學習者創設美觀、易用的導學界面,并引導學習者主動提出理工中文詞匯、概念及知識的問題;其次設置好本地大模型并構建結構化提示語,如限制大模型采用簡單的漢語表達來回復以適應預科生的漢語水平等;最后將知識庫關聯至應用中,并設置好檢索模式與相似度限制。在功能調試階段需要向導學系統提出問題并根據輸出內容質量對提示語與檢索參數進行調優,優化檢索增強生成質量。
“生-智”場域:系統應用
“理工中文”智能導學系統以“理工中文學習助手”的身份為預科留學生提供多維度的學習支持,旨在提升學習者理工中文能力和學習效能。系統通過與學生的個性化交互,提供針對性的理工中文詞匯講解、教材內容答疑以及專業知識的深入解釋,成為課堂教學的有力補充,還能夠為留學生提供情感與元認知支持,幫助學習者在高強度的學習中保持積極性與自我調節能力。
(三)“師-生”場域:系統優化
理工中文教師作為導學過程的主導者,需要與預科生開展面對面交流,并借助大語言模型的技術支持和教師自身的專業教學經驗,動態優化“理工中文”智能導學系統,以更好地服務于理工中文教學需求。例如,研究在初步的留學生使用反饋中發現系統在處理復雜理工專業詞匯、技術術語及其多樣化表達時存在不足。教師應定期查看學生在使用智能導學系統中的對話日志,分析學生的提問質量及理工中文學習助手的回答質量,調整提示語并對知識庫內容進行動態管理。針對學生普遍難以理解的數學、物理等學科專有名詞和概念,逐步優化系統的檢索邏輯,強化專業詞匯的分級講解功能,確保系統在解釋專業內容時更加簡潔、精準,符合預科生的語言水平。

為維護大模型教育應用的人本價值,理工中文教學不可過度依賴智能導學系統,教師還應承擔起智能導學系統無法勝任或表現不足的任務。如為預科生提供更深入的情感支持,輔助調節學習中的焦慮或困惑,維持積極的中文學習動機。此外,教師還需要解決導學系統難以回答的復雜問題,尤其是涉及深層次的邏輯推理和跨學科理解的部分。這種基于“人智共生”智能導學增強共同體的理工中文“人機協同”教學模式在提高留學生理工中文能力的同時,更在互動中引導學生發展批判性思維和問題解決能力,推動高階思維的培養。
六、風險治理:新一代智能導學系統持續演進
RAG技術增強了通用大語言模型在專業領域的生成能力,助力智能導學系統從排演式簡單智能向系統性高級智能轉型。隨著智能技術的進一步發展,智能導學增強系統將結合“人智共生”理念,創生出自適應高智能應用,推動教育向個性化、智能化的終極目標邁進。雖然本地大模型和私有知識庫造就了新一代智能導學系統,但與之伴隨的“下一代”危機仍不可避免。為此,研究針對可預見的風險提出四條治理策略,旨在保障智能導學系統可持續發展與未來演進。
(一)突破語言屏障:自主打造中文版教育大模型與私有知識庫
新一代智能導學系統中采用的通用大模型,如ChatGPT-4,Llama3等,均采用多國語言和海量互聯網數據完成訓練,但其中中文訓練數據占比僅不足 5% 。這導致大模型在智能導學系統中完成中文導學任務時性能不佳,甚至出現中文語義偏誤等問題[55],不足以支撐中文自然語言交互導學任務。教育部部長懷進鵬提出要打造中國版人工智能教育大模型,探索基于中文數據的大規模因材施教、創新性與個性化教學[56。為此,自主打造中文版教育大模型與私有知識庫將突破大模型語言屏障,成為增強智能導學系統在中文環境下導學能力的關鍵舉措。
(二)嚴守隱私安全:堅持新一代智能導學系統本地化部署
為了使新一代智能導學系統實現更高程度的個性化導學服務,通常需要將更多教育敏感信息、學習者個人數據投喂給大模型,來提升大模型對學習者學習情況的把控能力,這往往使得學習者變得愈發“透明”。另外,在學習者和智能導學系統交互的過程中,也會不經意地將個人信息傳遞給大模型,算法黑箱問題使得教育者無法控制信息流向,極易發生隱私泄露問題。本研究提出將大模型和私有知識庫本地化部署來支持本地智能導學系統構建,從技術、教師和學習者三個層面嚴守隱私安全。技術層面,大模型和所有知識庫的本地運行,避免了隱私數據通過網絡上傳至云端數據庫造成泄露的可能性,或可在智能導學系統中數據進行分級管理,嚴格限制隱私數據的訪問權限[57];教師層面,將負責學習者的隱私數據脫敏,所有上傳至私有知識庫的資料均需授權才可使用;學習者層面,將在教師的指導下,加強自身信息保護意識,讓學習者擁有維護自身信息安全的能力。
(三)縮小數字鴻溝:算力共享助力新一代智能導學系統低成本應用
數字鴻溝問題是人工智能賦能教育數智化轉型過程中面臨的一項復雜挑戰。新一代智能導學系統的本地化部署需要高性能計算機提供算力及存儲資源支持,然而,高昂的硬件成本可能導致不同地區之間的數字鴻溝進一步加劇,不利于實現教育公平愿景[58。為應對這一挑戰,可基于算力共享實現新一代智能導學系統的低成本推廣應用。系統在高性能服務器完成部署和調試后,可創建鏈接實現開放共享,共享對象可不受個人設備算力限制,通過網絡訪問智能導學系統,但無法訪問系統中的本地大模型及私有知識庫。該方案即能打破地域及成本限制,又保障了智能導學過程的數據安全,讓智能技術驅動的數智化學習普惠每一位學習者。
(四)應對技術沖擊:前沿技術賦能新一代智能導學系統迭代發展
人工智能技術發展迅速,智能導學系統必須緊跟時代步伐,主動融合和應用最新技術成果,以實現自身的持續創新和升級,更好地服務于學習者個性化學習需求。如Gan等人提出一種多層思維增強的檢索增強生成框架METRAG,通過在檢索過程結合相似性思維、效用思維,并在增強過程使用任務自適應摘要及知識增強,提高了檢索增強生成的性能[59],驗證了其在知識密集型任務中的卓越優勢;2024年7月2日微軟開源了被稱為下一代RAG技術——GraphRAG,該技術通過大語言模型從私有數據源中提取信息并構建知識圖譜,并利用知識圖譜中的結構化信息來改進生成模型的輸出,以增強生成模型的準確性和可解釋性。面對技術的快速變革,智能導學系統需建立動態適應和優化機制,持續引入和集成前沿技術,同時重視技術風險管理,以確保系統在不斷升級過程中保持穩定和安全,為教育的個性化和智能化提供強有力的支持。
參考文獻:
[1]Nwana HS.Intelligent tutoring systems:an overview[J].Artificial Intelligence Review,1990,4(4):251-277.
[2]MousavinasabE,ZarifsanaieyN,R.NiakanKalhoriS,etal.Intelligent tutoringsystems:a systematicreviewof characteristics,applications, and evaluation metnods[J].Interactive Learning Environments, 2021,29(1):142-163.
[3]屈靜,劉凱等.對話式智能導學系統研究現狀及趨勢[J].開放教育研 究,2020,26(4):112-120.
[4] 夏立新,楊宗凱等.教育數字化與新時代教育變革(筆談)[J.華中師范大 學學報(人文社會科學版),2023,62(5):1-22.
[5]Steenbergen-Hu S,Cooper H.A meta-analysis of the effectiveness of intelligent tutoring systems on K-12 students’mathematical learning [J]. Journal of educational psychology,2013,105(4):970.
[6]盧宇,駢揚等.新型智能導學系統構建及其關鍵技術[J].中國遠程教 育,2023,43(7):30-38+46.
[7]徐升,佟佳睿等.下一代個性化學習:生成式人工智能增強智能輔導系 統[J].開放教育研究,2024,30(2):13-22.
[8] Jeon J,Lee S.Large language modelsin education:A focus on the complementary relationship between human teachers and ChatGPT [J]. Educationand Information Technologies,2023,28(12):15873-15892.
[9]王煒,趙帥等.生成式人工智能教育創新應用的人本主義追求——對 UNESCO《教育與研究領域生成式人工智能指南》的解讀[J].現代遠程 教育研究,2024,36(1):3-11.
[10]Ma Y,Zhang C,Zhu SC.Brain inavat:On missing pieces towardsartificial general intelligence in large language models [DB/OL].htps://arxiv.org/ abs/2307.03762,2023-07-07.
[11] Tang X,Zheng Z,etal.Large language models are in-context semantic reasoners rather than symbolic reasoners [DB/OL].https://arxiv.org/ abs/2305.14825,2023-06-08.
[12]Kasneci E,SeBlerK,et al.ChatGPT for good?Onopportunities and challenges of large language models for education [J].Learning and individual differences,2023,103:102274.
[13] Carbonell JR.AI in CAI:An artificial-intelligence approach to computer-assisted instruction [J].IEEE transactions on man-machine systems,1970,11(4):190-202.
[14]劉清堂,吳林靜等.智能導師系統研究現狀與發展趨勢[J].中國電化教 育,2016.(10):39-44.
[15] VanLehn K.The behaviorof tutoring systems[J].International journal of artificial intelligence in education,20o6,16(3):227-265.
[16]劉華,祝智庭.大模型支持的會話輔導系統開發:范式轉換、架構設計 與能力訓練[J].現代遠程教育研究,2024,36(3):11-19.
[17]McNamaraDS,LevinsteinIB,Boonthum C.iSTART:Interactive strategy training for active reading and thinking [J].Behavior Research Methods, Instruments,amp; Computers,2004,36(2):222-233.
[18]Lane H C,VanLehn K.Teaching the tacit knowledge of programming to novices with natural language tutoring[J].Computer Science Education,2005,15(3):183-201.
[19] Suebnukarn S,Haddawy P.A collaborative intelligent tutoring system for medical problem-based learning [C].New York:Association for Computing Machinery,2004.14-21.
[20] Aleven V,Mclaren B,et al.Toward meta-cognitive tutoring:A model of helpseeking witha Cognitive Tutor[J].International Journal of Artificial Intelligencein Education,2006,16(2):101-128.
[21] Steenbergen-Hu S,Cooper H.A meta-analysis of the effectiveness of intelligent tutoring systems on K-12 students’mathematical learning [J]. Journal of educational psychology,2013,105(4):970-987.
[22]VanLehnK.Therelatiefetivenessofumanttoringintelligenttoring systems,and other tutoring systems[J].Educational psychologist,2O11,46(4): 197-221.
[23] Jaques N,Conati C,etal.Predicting affect from gaze data during interaction with an intelligent tutoring system [C].Cham:Springer,2014.29-38.
[24]Pardos ZABakerRSJD,etalAffctivestatesandstateests:Investgating how affect and engagement during the school year predict end-of-year learning outcomes [J].Journal ofLearning Analytics,2O14,1(1):107-128.
[25]VaessenBE,PrinsFJJeuring J.University students’achievement goals and help-seeking strategies inan intelligent tutoring system [J].Computers amp; Education,2014,72:196-208.
[26]廖劍,劉選,劉革平.理感聯通:人工智能賦能智慧教育新范式[J].中國 電化教育,2023,(6):18-24.
[27] Chen WY.Intellgent Tutor:Leveraging ChatGPTand Microsoft Copilot Studio to Deliver a Generative AI Student Support and Fedback System within Teams [DB/OL].https://arxiv.org/abs/2405.13024,2024-05-15.
[28]Abdelghani R,WangY H,etal.GPT-3-Driven Pedagogical Agents to Train Children's Curious Question-Asking Skills [J].International Journal ofArtificial Intelligencein Education,2024,34(2):483-518.
[29] Yadav G,Tseng YJ,NiX.Contextualizing problems to student interests at scale in intelligent tutoring system using large language models [DB/OL]. https://arxiv.org/abs/2306.00190,2023-05-31.
[30]FirdausMF,WibawaJN,RahmanFF.Utilization of GPT-4 to Improve Education Quality Through Personalized Learning for Generation Z in Indonesia[J].IT for Society,2023,8(1):6-14.
[31]翟雪松,季爽等.基于多智能體的人機協同解決復雜學習問題實證研 究[J].開放教育研究,2024,30(3):63-73.
[32] HuangL,Yu W,etal.Asurveyonhallucination inlargelanguagemodels: Principles,taxonomy,challenges,and open questions [DB/OL].https://arxiv. org/abs/2311.05232,2023-11-09.
[33]羅云鵬.大模型發展亟需高質量\"教材\"相伴[N].科技日報,2024-01- 15(06).
[34]張家軍,閆君子.“道\"\"器\"融合:教師減負的技術旨歸與實現路徑[J]. 中國電化教育,2022,(12):68-73+83.
[35]任玉鑫,王光臣等.數字賦能背景下研究生使用ChatGPT實際效能、風 險檢視及治理路徑[J].黑龍江高教研究,2024,42(5):73-79.
[36] Dong C.How to build an AI tutor that can adapt to any course and provide accurate answers using large language model and retrieval-augmented generation [DB/OL].https://arxiv.org/abs/2311.17696,2024-06-21.
[37]LewisP,Perez E,etal.Retrieval-augmented generation for knowledgeintensive nlp tasks[J].Advances in Neural Information Processing Systems,2020,33:9459-9474.
[38]王明程,王高開等.基于大模型智能體的安全風險態勢感知框架構建[J] 情報理論與實踐,2024,47(7):190-198.
[39]盧宇,駢揚等.新型智能導學系統構建及其關鍵技術[J].中國遠程教 育,2023,43(7):30-38+46.
[40] Zhao P,Zhang H,et al.Retrieval-augmented generation for ai-generated content:A survey [DB/OL].https://arxiv.org/abs/2402.19473,2024-06-21.
[41]楊霞,范蔚.許諾與虛諾:數字化學習空間的異化與消解[J].中國遠程 教育,2024,44(10):46-59.
[42]WengerBE,SeeFBJ.Artificial intelligence and tutoring systems [M]. Burlington:Morgan Kaufmann,1987.
[43]杜修平,王羽等.AIGC賦能“中文 + 職業教育\"資源智能生成與質量進 化—內涵、機理與模式構建[JJ.電化教育研究,2024,45(5):121-128.
[44]趙曉偉,祝智庭等.教育提示語工程:構建數智時代的認識論新話語 [JJ.中國遠程教育,2023,43(11):22-31.
[45]童慧,楊彥軍.基于\"技術道德化\"理論的生成式人工智能教育應用潛 能與風險研究[J].電化教育研究,2024,45(7):12-18.
[46]劉清堂,黃景修等.PST視角下智能導師系統的設計與新發展——以 句酷批改網為例[J].現代教育技術,2017,27(5):81-87.
[47]GarrisonDR,AndersonT,ArcherW.Critical inquiryina text-based environment:Computerconferencingin higher education [J].Theinternet and highereducation,1999,2(2-3):87-105.
[48]謝曉雪,柳士彬.數智時代人類教師與虛擬教師融合的目標、場景與 路徑[J].現代遠程教育研究,2024,36(2):45-51.
[49]戴嶺,趙曉偉等.智慧問學:基于ChatGPT的對話式學習新模式[J].開放 教育研究,2023,29(6):42-51+111.
[50]龔禮林,劉紅霞等.情感導學系統(ATS)的關鍵技術及其導學模型研 究—一論智能導學系統走向情感導學系統之意蘊[J].遠程教育雜 志,2019,37(5):45-55.
[51]王凱,余發碧等.基于情緒識別技術的學科情感目標達成檢測與教學 改進[J].中國電化教育,2023,(6):83-89.
[52]王志軍,滕志強等.國際生成式人工智能教育應用創新—一全球人工 智能學習和教育研究聯盟之\"人工智能賦能學習者會議\"綜述[J].遠程 教育雜志,2024,42(2):65-74.
[53]杜修平,楊小榮等.構建科技漢語\"預本全鏈條銜接\"教學新模式[J].云南 師范大學學報(對外漢語教學與研究版),2024,22(2):76-84.
[54]杜修平,尹曉靜.理工中文[M].北京:北京語言大學出版社,2024.
[55]馮志偉,張燈柯.語言模型與人工智能[J].外語研究,2024,41(1):1- 19+112.
[56]劉邦奇,聶小林等.生成式AI賦能教育:技術框架、應用場域及價值- 2024智能教育發展研究報告[J].中國電化教育,2025,(3):61-70.
[57]盧宇,余京蕾等.基于大模型的教學智能體構建與應用研究[J].中國電 化教育,2024,(7):99-108.
[58]蘭國帥,杜水蓮等.技術何以賦能未來高等教育教學:趨勢、實踐和場 景—《2024年EDUCAUSE地平線報告(教學版)》要點與啟示[EB/OL]. http://kns.cnki.net/kcms/detail/32.1843.G4.20240702.1011.002.html,2024- 07-30.
[59]GanC,YangD,etal.SimilarityisNotAllYouNeed:EndowingRetrieval Augmented Generationwith Multi Layered Thoughts[DB/OL].https://arxiv. org/abs/2405.19893,2024-05-30.
作者簡介:
杜修平:教授,博士,博士生導師,副院長,研究方向為學習科學、國際中文教育。王鑒羽:在讀博士,研究方向為學習科學、國際中文教育。
Retrieval-Augmented Generation Empowering Intelligent Tutoring Systems
—BasedonLocalLargeModelsandPrivateKnowledgeBases
Du Xiuping1.2, Wang Yinyu'
1.School of Education,Tianjin University,Tianjin 300350
2.School of International Education,Tianjin University,Tianjin 300072
Abstract:argengageodelsMs)avesignifantlancedteapabiliofintellgtutoigstsS)inesa perceptiontatiodsoerosicdtele. suchashalisceicaldcysodoeatstoeof ITS.Toaddressteseisses,tisstudyproposesthelocalzedeplomentofLsandprivateowlegebasesempowerdbyRetrevalAugmentedGeneration(RAG)techologytoenablelocalizedoperationofITS.ThestudyfirstconstructsaRAG-basedframeworkforthe enhancedgenerationofI.Thisfameworkcomprisesextealandlocalspaces:mutimodalknowledgesourcesandleaerifoationi theextemalseedoddodeglodinateodgssctie localITSoecealaedaldaeteceateo dual-loopstrucuedtorotetealoodlyuon” inteligenttutorgcetoityetteeiosoftTch”L-”andeacLsi risetoapafsftgeatifcteedynbotioLstlyddsal suchaslaguagesaccuitygialiidedoloicaliactseyoposfousoeaeate aimedatensuringthesustaiabledvelopmentoftenextgenerationISandpromotingthedigitaltansformationofeducationinChina.
Kewords:itelinttutongsts;gelaeodels;iateodgeseeaaugmetedgeea;human-sbsis收稿日期:2024年8月2日
責任編輯:宋靈青