


【摘要】 評(píng)估不僅是衡量各種教育方法有效性的關(guān)鍵手段,也是制訂個(gè)別化教育計(jì)劃的重要基礎(chǔ)。大語言模型作為一種新興的人工智能技術(shù),在教育領(lǐng)域受到了廣泛的關(guān)注。研究團(tuán)隊(duì)通過對(duì)373名孤獨(dú)癥兒童教育數(shù)據(jù)的處理,基于大語言模型和歷史數(shù)據(jù)生成了新型智能評(píng)估,積極探索兒童的智能評(píng)估方法,為孤獨(dú)癥教育評(píng)估提供可借鑒的價(jià)值。
【關(guān)鍵詞】 大語言模型;課程本位;孤獨(dú)癥兒童智能評(píng)估
【中圖分類號(hào)】 G76
【作者簡(jiǎn)介】 李清華,教授,嶺南師范學(xué)院廣東省特殊兒童發(fā)展與教育重點(diǎn)實(shí)驗(yàn)室(廣東湛江,524048,郵箱qhli@hqu.edu.cn);盧衍靜、張婷婷,嶺南師范學(xué)院廣東省特殊兒童發(fā)展與教育重點(diǎn)實(shí)驗(yàn)室(廣東湛江,524048);薛鈞涵,廣州醫(yī)科大學(xué)第一臨床學(xué)院(廣州,511436);曾松添、王占偉,深圳市復(fù)米健康科技有限公司(廣東深圳,518116)。
孤獨(dú)癥譜系障礙(Autism Spectrum Disorders,以下簡(jiǎn)稱ASD)是一種神經(jīng)發(fā)育障礙,核心癥狀有社會(huì)交往障礙、興趣狹窄和刻板重復(fù)行為等。在教育過程中,對(duì)ASD兒童進(jìn)行精準(zhǔn)且客觀的評(píng)估,不僅是衡量各種教育方法有效性的關(guān)鍵手段,也是制訂個(gè)別化教育計(jì)劃的重要基礎(chǔ)[1],因此評(píng)估是必不可少的關(guān)鍵環(huán)節(jié)[2]。同時(shí),教師通過評(píng)估結(jié)果與分析可以更好地了解ASD兒童的具體需求,從而優(yōu)化教育策略,提高教育質(zhì)量。目前,評(píng)估方式主要分為結(jié)果性評(píng)估和表現(xiàn)性評(píng)估兩種。結(jié)果性評(píng)估通常采用標(biāo)準(zhǔn)化量表,如心理教育量表、交往和交流障礙診斷訪談量表等[3]。表現(xiàn)性評(píng)估主要是基于特需兒童課堂表現(xiàn)的過程性評(píng)估,幫助教師及時(shí)了解學(xué)生的學(xué)習(xí)效果,并根據(jù)反饋優(yōu)化教學(xué)策略[4]。近年來,大語言模型(Large Language Model,以下簡(jiǎn)稱LLM)作為一種新興的人工智能技術(shù),在教育領(lǐng)域受到了廣泛的關(guān)注[5]。此類人工智能技術(shù)在ASD篩查和評(píng)估領(lǐng)域已有初步的應(yīng)用[6-7]。據(jù)此,研究團(tuán)隊(duì)基于LLM,探索ASD兒童的智能評(píng)估方法,為ASD教育評(píng)估提供可借鑒的價(jià)值。
一、研究背景
(一)課程本位評(píng)估
教育評(píng)估一般是對(duì)ASD兒童的行為、語言、認(rèn)知、運(yùn)動(dòng)、社會(huì)交往等多種能力進(jìn)行全面評(píng)估,以此為依據(jù)制訂個(gè)別化教育計(jì)劃。通過評(píng)估,教師可以了解ASD兒童的特殊需求與當(dāng)前能力,從而選擇合適的教育或康復(fù)方法。其中,課程本位評(píng)估(Curriculum-Based Assessment,以下簡(jiǎn)稱CBA)較為常見,與標(biāo)準(zhǔn)化評(píng)估不同,它是以兒童的教育課程為基礎(chǔ),評(píng)估特需兒童在實(shí)際學(xué)習(xí)任務(wù)和自然教學(xué)環(huán)境中的表現(xiàn)[8],通過持續(xù)監(jiān)測(cè)以評(píng)估兒童在課程中的進(jìn)展和學(xué)習(xí)需求,幫助教師和家長(zhǎng)了解兒童在學(xué)術(shù)、社會(huì)交往、語言及生活技能等多種能力以制訂或調(diào)整個(gè)別化教育計(jì)劃[9]。
CBA相較其他測(cè)評(píng)方式,能更直接地反映ASD兒童在課堂中的表現(xiàn),評(píng)估結(jié)果與分析為教學(xué)決策和兒童的個(gè)別化教育計(jì)劃制訂提供科學(xué)依據(jù)。但在一線實(shí)踐中CBA存在一定的不足,包括:1.標(biāo)準(zhǔn)化較低。由于評(píng)估基于兒童的個(gè)別化課程,缺乏統(tǒng)一的標(biāo)準(zhǔn),使跨兒童或跨機(jī)構(gòu)的比較變得困難,難以評(píng)估ASD兒童在全國(guó)或國(guó)際范圍內(nèi)的進(jìn)展;2.依賴教師的主觀經(jīng)驗(yàn)判斷。評(píng)估內(nèi)容一般來自教師的觀察和記錄,可能會(huì)因教師經(jīng)驗(yàn)不足或?qū)SD教育缺乏深入了解而導(dǎo)致評(píng)估結(jié)果不夠客觀;3.對(duì)時(shí)間和資源的要求較高。CBA要求教師投入更多的時(shí)間和精力進(jìn)行觀察和記錄,在班級(jí)人數(shù)較多或資源有限的情況下難以持續(xù)進(jìn)行;4.難以提煉總結(jié)規(guī)律。雖然CBA在評(píng)估具體的課程內(nèi)容和任務(wù)表現(xiàn)上是有效的,但紙筆記錄導(dǎo)致難以實(shí)施數(shù)據(jù)挖掘和規(guī)律提煉,缺乏智能化。
(二)大語言模型
近年來,國(guó)際上已有多個(gè)學(xué)術(shù)團(tuán)隊(duì)嘗試?yán)萌斯ぶ悄芗夹g(shù)開發(fā)和ASD相關(guān)的篩查評(píng)估與康復(fù)應(yīng)用。例如,瑞典公立醫(yī)學(xué)院(卡羅林斯卡學(xué)院)的研究團(tuán)隊(duì)推出了一種基于人工智能大模型的ASD早期篩查工具,其準(zhǔn)確率高達(dá)80%[10]。在輔助診斷方面,Cognoa公司致力將機(jī)器學(xué)習(xí)應(yīng)用于ASD兒童早期篩查,他們研發(fā)了一款自助篩查ASD的人工智能測(cè)評(píng)軟件,研究表明,人工智能系統(tǒng)利用算法模型將家長(zhǎng)量表、學(xué)生視頻、醫(yī)生填寫的問卷等資料進(jìn)行整合,提高了診斷的準(zhǔn)確性[11]。在針對(duì)18—72個(gè)月齡兒童的多地點(diǎn)臨床研究中,人工智能工具的診斷可靠性比傳統(tǒng)篩查方法提高了35%,尤其是在靈敏度和特異性方面表現(xiàn)突出。值得一提的是,該人工智能系統(tǒng)減少了評(píng)估所需的時(shí)間和人力成本,縮短了ASD診斷的等待時(shí)間。
LLM是一種基于深度學(xué)習(xí)的自然語言處理技術(shù),專用于理解和生成人類語言。它可以通過大量的文本數(shù)據(jù)來理解語法、語義和上下文,生成高質(zhì)量、連貫的語言輸出,并廣泛應(yīng)用于自動(dòng)化對(duì)話、翻譯、內(nèi)容生成、知識(shí)管理等多個(gè)領(lǐng)域。LLM的特點(diǎn)主要包括:1.大規(guī)模數(shù)據(jù)訓(xùn)練。LLM需要海量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,從中學(xué)習(xí)語言模式和結(jié)構(gòu)。訓(xùn)練數(shù)據(jù)通常來自互聯(lián)網(wǎng)、書籍、文章等各類文本資源;2.多任務(wù)處理能力。LLM在許多不同的自然語言處理任務(wù)上表現(xiàn)優(yōu)異,如文本生成、翻譯、問答、對(duì)話、總結(jié)等;3.上下文理解能力。LLM能根據(jù)輸入文本的上下文生成合理的回答或繼續(xù)文本,使生成的對(duì)話更自然;4.遷移學(xué)習(xí)能力。LLM在通用的語言任務(wù)上預(yù)訓(xùn)練后,能通過微調(diào)適應(yīng)特定領(lǐng)域的任務(wù),如醫(yī)學(xué)、法律等專業(yè)領(lǐng)域;5.無監(jiān)督學(xué)習(xí)。LLM在訓(xùn)練過程中不需要明確的標(biāo)簽數(shù)據(jù),而是通過大量未標(biāo)注的文本數(shù)據(jù)進(jìn)行自我監(jiān)督學(xué)習(xí),從中發(fā)現(xiàn)語言的規(guī)律。雖然人工智能應(yīng)用在ASD篩查和輔助診斷方面有了初步研究[12],但利用LLM在CBA中的應(yīng)用研究較少。據(jù)此,本文基于LLM系統(tǒng),采用CBA的社交階梯評(píng)估工具,對(duì)ASD兒童進(jìn)行評(píng)估實(shí)踐與效果驗(yàn)證。
二、ASD兒童智能評(píng)估系統(tǒng)模型的設(shè)計(jì)
(一)研究思路
機(jī)器學(xué)習(xí)算法擅長(zhǎng)從高維、復(fù)雜和多模態(tài)的歷史數(shù)據(jù)中提取關(guān)鍵特征,并基于歷史數(shù)據(jù)規(guī)律生成后續(xù)的建議與預(yù)測(cè)。研究團(tuán)隊(duì)通過收集ASD兒童的多維度歷史數(shù)據(jù),如行為觀察記錄、家長(zhǎng)量表和社交互動(dòng)測(cè)試等,對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)準(zhǔn)化,以確保其完整性和一致性。使用特征提取和選擇算法識(shí)別,篩選出與ASD評(píng)估相關(guān)的關(guān)鍵特征。基于這些特征,構(gòu)建和訓(xùn)練多種機(jī)器學(xué)習(xí)模型,利用歷史數(shù)據(jù)發(fā)現(xiàn)潛在的規(guī)律和特征模式,不斷微調(diào)、改進(jìn)模型。基于新的數(shù)據(jù),評(píng)估模型經(jīng)過交叉驗(yàn)證和優(yōu)化后,生成個(gè)別化教育方案建議,從而提高ASD兒童的教育質(zhì)量。
(二)評(píng)估框架
研究團(tuán)隊(duì)以美國(guó)華盛頓大學(xué)融合實(shí)驗(yàn)中心的Project DATA Checklist[13]為評(píng)估架構(gòu)基礎(chǔ),結(jié)合社會(huì)交往、溝通、認(rèn)知等多個(gè)領(lǐng)域的發(fā)展里程碑和關(guān)鍵技能的拆解,形成基于自然發(fā)展課程本位的社交階梯評(píng)估工具,評(píng)估ASD兒童是否達(dá)到相應(yīng)的能力,尤其是對(duì)已診斷的ASD兒童進(jìn)行功能評(píng)估,識(shí)別其在社會(huì)交往、溝通、行為等多個(gè)領(lǐng)域的基線能力水平,為制訂個(gè)別化教育計(jì)劃的目標(biāo)提供依據(jù)。
表1為社交階梯評(píng)估工具里的領(lǐng)域和示例題目。評(píng)估師通過家長(zhǎng)問卷、個(gè)案的日常生活視頻、教師現(xiàn)場(chǎng)觀察與測(cè)試等方式,評(píng)估ASD兒童各個(gè)領(lǐng)域的能力。在選擇教育目標(biāo)時(shí),評(píng)估師一般會(huì)將得分為“1”的領(lǐng)域列入個(gè)別化教育目標(biāo)。若出現(xiàn)多個(gè)得分為“1”的目標(biāo),則需要選擇對(duì)ASD兒童和家人的生活質(zhì)量影響最大的那些目標(biāo)。
三、研究方法
(一)研究對(duì)象
本次研究的對(duì)象是373名ASD兒童,男生比例為80.5%(n = 301),平均年齡為4.6歲(SD = 1.8),83名(22.3%)被試因年齡不足3歲,未進(jìn)行醫(yī)學(xué)診斷。
(二)研究步驟
人工智能通過對(duì)過往評(píng)估師經(jīng)驗(yàn)的學(xué)習(xí),生成從評(píng)估數(shù)據(jù)到個(gè)別化教育計(jì)劃的制訂,從而提高ASD兒童教育效果。基于LLM的運(yùn)作機(jī)理,研究團(tuán)隊(duì)通過五個(gè)步驟建立了一套自適應(yīng)的智能評(píng)估系統(tǒng)模型(以下簡(jiǎn)稱評(píng)估模型):1.從2021年1月到2023年1月期間,對(duì)2050名ASD兒童個(gè)案的歷史評(píng)估(每人約180個(gè)評(píng)估題目)和教育目標(biāo)(每人約10—15個(gè)教育目標(biāo))數(shù)據(jù)進(jìn)行格式和代碼的統(tǒng)一文本及代碼換算,同時(shí)加入個(gè)案的年齡、性別、診斷信息、共患病信息,對(duì)部分缺失的信息進(jìn)行復(fù)核,確保信息最大限度的完整性;2.通過監(jiān)督學(xué)習(xí),使用標(biāo)注好的歷史評(píng)估數(shù)據(jù)的50%用于訓(xùn)練評(píng)估模型,通過學(xué)習(xí)過往ASD患者的評(píng)估表現(xiàn)識(shí)別出特定的特征和規(guī)律,同時(shí)和教育目標(biāo)進(jìn)行對(duì)比并反饋給評(píng)估模型,對(duì)模型進(jìn)行優(yōu)化;3.利用另外50%的歷史評(píng)估和目標(biāo)合集數(shù)據(jù),繼續(xù)對(duì)評(píng)估模型進(jìn)行迭代更新,以提高其整體目標(biāo)合集的準(zhǔn)確率;4.通過2024年8月至9月新采集的300多個(gè)樣本,對(duì)比評(píng)估模型推送的目標(biāo)和評(píng)估師的判斷,利用Jaccard指數(shù)進(jìn)行分析,對(duì)子樣本進(jìn)行分組檢驗(yàn)。
(三)數(shù)據(jù)分析
CBA輸出的不是整體的診斷結(jié)果,而是ASD兒童的教育目標(biāo)合集(約8—15個(gè)教育目標(biāo))。為驗(yàn)證評(píng)估模型生成教育目標(biāo)的信效度,研究團(tuán)隊(duì)基于同一名兒童的評(píng)估數(shù)據(jù),通過比較評(píng)估模型生成的教育目標(biāo)和專業(yè)評(píng)估師判斷結(jié)果的Jaccard指數(shù)[14],從而評(píng)價(jià)其準(zhǔn)確率。Jaccard指數(shù)是一種用于衡量樣本集相似性和差異性的統(tǒng)計(jì)方法,尤其是比較兩個(gè)數(shù)據(jù)集或簇之間的相似度,它廣泛應(yīng)用于數(shù)據(jù)科學(xué)、生物學(xué)、信息檢索等多個(gè)領(lǐng)域。研究團(tuán)隊(duì)對(duì)評(píng)估模型和評(píng)估師不一致的目標(biāo)進(jìn)行統(tǒng)計(jì)分析,分析造成目標(biāo)偏差的原因。基于過往文獻(xiàn),表2列出Jaccard指數(shù)范圍和解讀標(biāo)準(zhǔn)。
Jaccard指數(shù)定義為兩個(gè)集合交集的大小除以并集的大小。數(shù)學(xué)公式為J(A,B)=[| A∩B |/| A∪B |],其中:
(1)AAA和BBB是兩個(gè)集合。(2)A∩B是集合A和B的交集,表示它們之間的共同元素;(3)A∪B是集合A和B的并集,表示兩個(gè)集合中的所有獨(dú)特元素。
Jaccard指數(shù)范圍在0到1之間,數(shù)值越大,兩個(gè)集合的相似度越大。Jaccard指數(shù)提供了一個(gè)簡(jiǎn)易但有效的測(cè)量指標(biāo),用于測(cè)試評(píng)估模型和評(píng)估師評(píng)估結(jié)果集合的相似度。舉例說明,若評(píng)估師(代號(hào)A)和評(píng)估模型(代號(hào)B)根據(jù)評(píng)估數(shù)據(jù)判斷ASD兒童的教育目標(biāo)分別為:
A = {一步模仿,提要求,游戲功能玩法,共同注意,擴(kuò)充強(qiáng)化物}
B = {一步模仿,仿說,游戲功能玩法,輪流對(duì)話,擴(kuò)充強(qiáng)化物}
兩種教育目標(biāo)的交集A∩B = {一步模仿,游戲功能玩法,擴(kuò)充強(qiáng)化物},并集A∪B = {一步模仿,提要求,仿說,游戲功能玩法,共同注意,輪流對(duì)話,擴(kuò)充強(qiáng)化物},根據(jù)Jaccard公式結(jié)果為3/7 ≈ 0.429。因此評(píng)估模型的Jaccard相似度為42.9%。通過計(jì)算一名ASD兒童教育目標(biāo)集合的Jaccard指數(shù),進(jìn)而驗(yàn)證評(píng)估模型生成教育目標(biāo)方案的信效度。
四、研究結(jié)果
研究團(tuán)隊(duì)將評(píng)估模型獲取的數(shù)據(jù)和評(píng)估師的結(jié)論進(jìn)行比對(duì),研究表明,Jaccard整體指數(shù)為72%。與60個(gè)月齡的ASD兒童評(píng)估結(jié)果對(duì)比,評(píng)估模型針對(duì)24—48個(gè)月齡的個(gè)案Jaccard指數(shù)要明顯優(yōu)異。Jaccard指數(shù)并沒有因?yàn)锳SD兒童的性別和診斷結(jié)果而存在顯著差異。表3展示對(duì)不同特征的ASD兒童,Jaccard指數(shù)存在差別。整體而言,評(píng)估模型生成的結(jié)果屬于中等相似度,約一半以上的元素重疊,有較高的相似性。盡管評(píng)估模型對(duì)不同子個(gè)案群體有較明顯的差異,但整體均在0.67到0.75的Jaccard指數(shù)范圍,這對(duì)評(píng)估模型已是較大程度的優(yōu)化。下一步,隨著評(píng)估模型在無監(jiān)督學(xué)習(xí)下繼續(xù)積累數(shù)據(jù),其準(zhǔn)確率能進(jìn)一步提升,從而有效節(jié)省評(píng)估時(shí)間,提高評(píng)估效率。
研究發(fā)現(xiàn),基于LLM的評(píng)估模型在信效度上還存在一定的不穩(wěn)定性。首先,對(duì)普通幼齡兒童的智能評(píng)估結(jié)果一致性更高。這可能因?yàn)閷?duì)ASD幼齡兒童來說,他們的目標(biāo)集合的范圍相對(duì)更小,因而結(jié)果更容易趨向一致。尤其是接近學(xué)齡的兒童,他們之間不同個(gè)體的差異和需求會(huì)相對(duì)更大,可搭配選擇的目標(biāo)可能性就更多,因而評(píng)估模型得出的結(jié)果還有待提升。其次,研究結(jié)果并沒有發(fā)現(xiàn)評(píng)估模型與評(píng)估師結(jié)論的對(duì)比結(jié)果,和ASD兒童的性別、診斷信息存在較大差異,從在一定程度上消除了上述影響因素。
五、結(jié)論
本文研究了一種基于LLM的評(píng)估模型,并對(duì)基于LLM生成的個(gè)別化教育目標(biāo)合集,與專業(yè)評(píng)估師的評(píng)估結(jié)果進(jìn)行驗(yàn)證,從而為其信效度提供依據(jù)。研究表明,評(píng)估模型生成個(gè)別化教育方案的Jaccard整體指數(shù)高達(dá)72%。此外,在探究ASD兒童智能評(píng)估系統(tǒng)時(shí)進(jìn)行了相關(guān)的探索,但也存在一定的局限和不足。首先,樣本采集的數(shù)據(jù)量不夠多,未來的研究需要復(fù)刻和加大樣本量的采集,從而進(jìn)一步驗(yàn)證該研究的結(jié)果。其次,基于LLM的評(píng)估模型本身還可能加入新的參數(shù),以進(jìn)一步提升其準(zhǔn)確率和相似度。再次,此次對(duì)比的參照是評(píng)估師的人工判斷,盡管通過復(fù)核等手段提升評(píng)估結(jié)果的客觀性,但仍可能存在主觀判斷的可能。后續(xù)研究將采用模擬數(shù)據(jù)或更真實(shí)客觀的參照系,從而更好地檢驗(yàn)評(píng)估模型的信效度。
【參考文獻(xiàn)】
[1]張雅如,邵智,陽光.眼動(dòng)技術(shù)在孤獨(dú)癥譜系障礙兒童康復(fù)效果評(píng)估中的應(yīng)用[J/OL].中國(guó)兒童保健雜志,1-6[2024-11-02].http://kns.cnki.net/kcms/detail/61.1346.R.20240827.0939.030.html.
[2]張茂林,陳琳,王輝,等.國(guó)內(nèi)康復(fù)機(jī)構(gòu)自閉癥兒童評(píng)估情況調(diào)查與分析[J].中國(guó)特殊教育,2009(8):35-38.
[3]黃可,肖非.自閉癥兒童教育診斷評(píng)估工具及其特點(diǎn)分析[J].中國(guó)特殊教育,2013(5):52-56.
[4]Shinn M R. Curriculum-based measurement:ass-essing special children[M]. New York:Guilford Press,1989.
[5]Yan L,Sha L,Zhao L,et al. Practical and ethical challenges of large language models in education:a systematic scoping review[J]. British Journal of Edu-cational Technology,2024(1):90-112.
[6]Anagnostopoulou P,Alexandropoulou V,Lorentzou G,et al. Artificial intelligence in autism assessment[J].International Journal of Emerging Technologies in Le-arning,2020(6):95-107.
[7]Shahamiri S R,Thabtah F. Autism AI:a new autism screening system based on artificial intelligence[J]. Cognitive Computation,2020(4):766-777.
[8]Deno S L. Curriculum-Based Measurement[J]. Te-aching Exceptional Children,1987(1):40-42.
[9]章永.特殊教育學(xué)校課程本位評(píng)估的操作性初探[J].樂山師范學(xué)院學(xué)報(bào),2012(10):128-130.
[10]Rajagopalan S S,Zhang Y,Yahia A,et al. Machine learning prediction of autism spectrum disorder from a minimal set of medical and background information[J]. JAMA Network Open, 2024(8):2429229.
[11]Abbas H, Garberson F,Liu-Mayo S,et al. Multi-modular AI approach to streamline autism diagnosis in young children[J]. Scientific Reports,2020(1):5014.
[12]Gimmelberg D,Volkov V,Raucher G,et al. Artifi-cial intelligence for screening and assessment of autism. State of the art. Direction to further research[R]. Washington:State of the Act. Direction to Further Research,2023.
[13]Schwartz I S,Ashmun J,McBride B,et al. The DATA model for teaching preschoolers with autism[M].Stockton:Paul H. Brookes Publishing Company,2017.
[14]Fletcher S,Islam M Z. Comparing sets of patterns with the Jaccard index[J]. Australasian Journal of In-formation Systems,2018:22.
(見習(xí)編輯:張?zhí)旎郏?/p>