一、研究背景
寫作能力是一個人的基本素養(yǎng),是一個人的語言能力、思維能力、創(chuàng)造力、想象力以及文化素養(yǎng)的綜合反映,它不僅在學(xué)術(shù)領(lǐng)域有著重要作用,在職場、社交和個人成長等方面也發(fā)揮著關(guān)鍵作用。朱永新指出,“寫作已經(jīng)不再是部分人的職業(yè)和專長,而逐步成為每個公民適應(yīng)社會變化和終身發(fā)展的核心素養(yǎng)”。但調(diào)查反映,我國中小學(xué)寫作教學(xué)花的時間和精力不少,可并沒有完全達(dá)到語文課標(biāo)要求,畏懼寫作或?qū)懽髋d趣低、不敢表達(dá)真實(shí)想法、寫作形式應(yīng)試化缺乏創(chuàng)新、內(nèi)容生硬缺乏真情實(shí)感等問題依然突出,中小學(xué)生乃至大學(xué)生的寫作水平都亟待提高[。產(chǎn)生上述問題的原因有很多,其中一個重要原因是:詳細(xì)而全批全改學(xué)生作文的工作量實(shí)在太大,導(dǎo)致教師批改作文時往往只是打分,缺少詳細(xì)、個性化且具有針對性的評語和指導(dǎo),學(xué)生獲取作文的反饋不夠及時、作文指導(dǎo)難以到位。隨著計(jì)算機(jī)、互聯(lián)網(wǎng)的普及和人工智能的興起,許多學(xué)者針對作文批改工作量大的問題,開始參與語文作文智能評價工具的研究。
21世紀(jì)初,張晉軍等人提出了“漢語測試電子評分員”的設(shè)想,他們通過編程對700份少數(shù)民族漢語水平考試的作文進(jìn)行評分,結(jié)果顯示電子評分與人工評分的一致性較高[4。李亞男則使用多元線性回歸分析形成了作文自動評分模型,其研究顯示自動評分與人工評分的相關(guān)度達(dá)到0.572[5] 。彭星源等人通過量化詞匯來實(shí)現(xiàn)自動評分,測試集上的評分相關(guān)度接近0.7。然而,這些早期模型主要依賴詞匯評分,忽略了文章的整體結(jié)構(gòu)和深層含義[
隨著人工智能技術(shù)的發(fā)展,作文智能評價工具逐漸實(shí)現(xiàn)了多層次、多維度的深層語言分析。付瑞吉等人利用卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶網(wǎng)絡(luò)來識別優(yōu)美句子,顯著降低了自動評分與人工評分的分差。鐘啟東等人構(gòu)建了基于語言感知的漢語作文評分算法,增強(qiáng)了對句子流暢度和語用能力的評估[8]。陳志恒等人設(shè)計(jì)了一種基于深度學(xué)習(xí)的中文作文智能測評方案,通過神經(jīng)網(wǎng)絡(luò)模型檢測作文中的修辭手法和優(yōu)美句子,評分結(jié)果與老師評判結(jié)果的誤差小于4分[9。目前,語文作文智能評分工具包括但不限于光速寫作、小猿作文、神筆作文批改、AI作文批改、筆神作文、IN課堂等[1]。其中,用戶較多且影響較大的有IN課堂、筆神批改和光速寫作。
本研究選取2023年深圳市高三年級二模標(biāo)桿作文和優(yōu)秀作文(下稱二模作文)為樣本,通過平均值、變異系數(shù)以及配對樣本t檢驗(yàn)這三個維度,對當(dāng)前三個主要作文智能評分工具的智能評分效果進(jìn)行對比研究。
二、研究設(shè)計(jì)
本研究選取的二模作文為材料類自命題作文,是高考和平時訓(xùn)練的一種典型作文。選取的三個作文智能評分工具為IN課堂、筆神作文與光速寫作,是應(yīng)用范圍較廣、反響度較高、各具特色的工具。IN課堂注重課堂學(xué)習(xí)與作文訓(xùn)練的緊密結(jié)合,通過豐富的課程資源引導(dǎo)學(xué)生提升寫作技巧;筆神作文側(cè)重于智能評分與即時反饋,利用先進(jìn)技術(shù)幫助學(xué)生快速定位并改進(jìn)作文中的不足;而光速寫作則強(qiáng)調(diào)高效與便捷,提供流暢的寫作體驗(yàn)與實(shí)用的寫作模板,助力學(xué)生輕松應(yīng)對各類寫作任務(wù)。通過平均值、變異系數(shù)及配對樣本t檢驗(yàn),對IN課堂、筆神作文與光速寫作進(jìn)行了深入對比,旨在評估它們在判斷作文質(zhì)量、符合標(biāo)桿作文特點(diǎn)及與人工評分差異度方面的準(zhǔn)確性、穩(wěn)定性和一致性。
1.工具選取
根據(jù)適用范圍、市場反響、技術(shù)水平等維度,選取了當(dāng)前三個較多用戶使用的作文智能評分工具,分別為:IN課堂、筆神作文和光速寫作(見表1)。除了IN課堂,另外兩個工具都能夠使用圖片識別進(jìn)行評分,方便快捷。此外,IN課堂支持批量評分,在學(xué)校的日常測試中也能夠使用。

2.數(shù)據(jù)提取
第一步,選取二模作文,共34篇作文,其中9篇標(biāo)桿作文,25篇優(yōu)秀作文。標(biāo)桿作文是在正式閱卷前,由專家組先行按比例抽取一定數(shù)量的作文,依據(jù)一定準(zhǔn)則,經(jīng)過認(rèn)真分類篩選出的作文。這些作文充分體現(xiàn)了試卷的整體特征和整體水平,是閱卷教師厘定評分標(biāo)準(zhǔn)的參考試卷。優(yōu)秀作文是在閱卷后,由閱卷教師評選出的55分以上的作文(滿分60)。每篇作文都有人工評分,為本研究第一組數(shù)據(jù)(作文原稿和人工評分的數(shù)據(jù)皆來源于深圳市教研院)。

第二步,將34篇作文的文字版,即人工提取答題卡中的文字,輸入到三個工具中進(jìn)行評分,得出第二組、第三組和第四組數(shù)據(jù)。有些工具只可以輸出百分制的分?jǐn)?shù),則按比例換算為60分制的分?jǐn)?shù),轉(zhuǎn)換公式:最終分?jǐn)?shù) ÷100×60 。(見表2)
3.數(shù)據(jù)檢測
數(shù)據(jù)讀取完后,用SPSS16.0版對所有的數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),同時對所有的數(shù)據(jù)進(jìn)行配對樣本t檢驗(yàn)(pairedt-test),檢測人工評分與各工具智能評分的差異。配對樣本t檢測是一種統(tǒng)計(jì)方法,用于檢驗(yàn)兩組配對樣本的均值是否存在顯著差異。
三、評分分析
1.描述性分析
對所有變量的有關(guān)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,包括數(shù)據(jù)的集中趨勢與離散趨勢。

從平均分的角度上看,以高考作文評分細(xì)則中,6分為誤差閾值,誤差在6分或以上的為異常卷。人工評分與智能評分的平均值相比(見表3),IN課堂與人工評分的平均值相差2.738分,符合評分要求;筆神作文與人工評分的平均值相差2.126分,符合評分要求;光速寫作與人工評分的平均值相差8.391分,不符合評分要求。
由于標(biāo)桿作文的特殊性,將其單獨(dú)進(jìn)行描述性分析,以檢測三個工具是否能夠區(qū)分作文質(zhì)量的優(yōu)劣(見表4)。

從變異系數(shù)(CoefficientofVariation,CV)的角度上看,它是原始數(shù)據(jù)標(biāo)準(zhǔn)差與原始數(shù)據(jù)平均數(shù)的比值,變異系數(shù)越大,表示數(shù)據(jù)的離散程度越大,即數(shù)據(jù)值與其平均值的偏離程度越高;變異系數(shù)越小,則數(shù)據(jù)分布越集中。標(biāo)桿作文作為各類作文的評價基準(zhǔn),具有明確且具體的描述性標(biāo)準(zhǔn),其評分區(qū)間相對較大,最低與最高分?jǐn)?shù)之間會呈現(xiàn)出較為顯著的差異。這種評分方式有助于更精確地定位和評價作文的優(yōu)劣。因此這9篇標(biāo)桿作文的人工評分差異較大,其變異系數(shù)(CV)為0.177,符合標(biāo)桿作文的特點(diǎn)
以此為基準(zhǔn),IN課堂、筆神作文和光速寫作的變異系數(shù)(CV)分別為0.099、0.008和0.086,表示當(dāng)前這三組數(shù)據(jù)差異較小,不符合標(biāo)桿作文的特點(diǎn)。
綜上研究結(jié)果表明,其一,IN課堂和筆神作文的智能評分符合高考作文評分要求。這可能是因?yàn)樗鼈冊趦?nèi)容、表達(dá)和特征等方面能夠比較全面地評估作文,并具有較強(qiáng)的適應(yīng)性和靈活性。而光速寫作不符合要求,可能是由于訓(xùn)練不足、評分維度不全或缺乏適應(yīng)性等原因?qū)е碌摹F涠齻€工具都不符合標(biāo)桿作文的評分特點(diǎn)。究其根本原因是這些工具通常只能對文題進(jìn)行表面上判斷,而無法深入理解命題的深層含義、背景、目的以及所期望的回應(yīng)方式。這導(dǎo)致智能評分往往只停留在字面意思上,缺乏深度和廣度。
2.差異性分析
Cohen'sd值是一種效應(yīng)量指標(biāo),主要用于量化兩組數(shù)據(jù)之間的差異程度。它特別適用于t檢驗(yàn)中,通過計(jì)算兩組數(shù)據(jù)的均值差異與合并標(biāo)準(zhǔn)差之比來得到。當(dāng) |d|lt;0.2 時,表示兩組數(shù)據(jù)之間的差異很小。當(dāng) 0.2?|d|lt;0.5 時,表示兩組數(shù)據(jù)之間有中等程度的差異。當(dāng) |d|?0.5 時,表示兩組數(shù)據(jù)之間的差異較大。以人工評分為基準(zhǔn),分別對IN課堂、筆神作文和光速寫作三個工具進(jìn)行差異性分析。
配對樣本t檢驗(yàn)的結(jié)果顯示,基于變量人工評分配對IN課堂,顯著性P值為0.009,因此人工評分配對IN課堂之間存在顯著性差異。其差異幅度Cohen'sd值為:0.475。(見表5)
配對樣本t檢驗(yàn)的結(jié)果顯示,基于變量人工評分配對筆神作文,顯著性P值為0.033,人工評分配對筆神作文之間存在顯著性差異。其差異幅度Cohen'sd值為:0.381。(見表6)
配對樣本T檢驗(yàn)的結(jié)果顯示,基于變量人工評分配對光速寫作,顯著性P值為0.000,人工評分配對光速寫作之間存在顯著性差異。其差異幅度Cohen'sd值為:1.778。(見表7)
綜上研究結(jié)果,IN課堂和筆神作文的智能評分與人工評分差異幅度相對較小,光速寫作的智能評分與人工評分差異幅度較大。結(jié)合各工具的特點(diǎn),我們可以發(fā)現(xiàn):第一,IN課堂和筆神作文基于機(jī)器學(xué)習(xí)算法,該算法能夠?qū)W習(xí)并模擬專家的評分行為,能夠在評分時產(chǎn)生與人工評分相近的結(jié)果。第二,IN課堂和筆神作文考慮了多種評分維度,確保評分的全面性和準(zhǔn)確性,與人工評分時的考量因素相似。
四、討論
1.智能評分問題及其原因
通過上述對比IN課堂、筆神作文和光速寫作三個語文作文智能評分工具的作文評分與人工評分的描述性分析和差異性分析,智能評分總體上能夠反映作文質(zhì)量和水平高低,這顯示出智能評分工具在作文評價中的實(shí)際應(yīng)用價值和潛力,但絕非完美無缺,需要優(yōu)化和改進(jìn)的地方不少。在實(shí)施過程中,研究發(fā)現(xiàn)有如下評分問題
第一,評分離散度與人工標(biāo)準(zhǔn)錯位。三個工具普遍存在變異系數(shù)過低的問題(筆神 CV=0.008 、IN課堂 CV=0.099 、光速CV=0.086 ),其評分分布集中程度顯著偏離人工評卷應(yīng)有的離散特征。人工評分對作文質(zhì)量差異敏感,常因思想深度、語言創(chuàng)新等維度產(chǎn)生合理分差,而作文智能評分工具因機(jī)械化執(zhí)行量化標(biāo)準(zhǔn)(如語法正確性、字?jǐn)?shù)達(dá)標(biāo)率),導(dǎo)致評分結(jié)果呈現(xiàn)“趨中化”傾向。這種離散度不足的本質(zhì)是算法對作文多維價值(如文學(xué)性、邏輯嚴(yán)謹(jǐn)性、觀點(diǎn)獨(dú)特性)的權(quán)重分配失衡,最終弱化了對優(yōu)秀作文的識別能力。例如,工具可能將一篇辭藻華麗但邏輯混亂的作文與結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)Z言平實(shí)的作文評為相近分?jǐn)?shù)。



第二,評分準(zhǔn)確性存在系統(tǒng)性偏差。工具間準(zhǔn)確性差異顯著:光速寫作與人工均分偏差達(dá)8.391分,暴露其評分標(biāo)準(zhǔn)與人工體系的根本性偏離;筆神作文(差2.126分)和IN課堂(差2.738分)雖在閾值內(nèi),但仍存在穩(wěn)定偏差,說明現(xiàn)有算法對“語言表達(dá)一邏輯結(jié)構(gòu)一思想深度”的復(fù)合評價邏輯存在誤判。例如工具可能高估堆砌復(fù)雜句式的作文,卻低估語言質(zhì)樸但論點(diǎn)深刻的文章。更深層矛盾在于,算法難以捕捉文化語境對評分的影響,如對古詩文引用、地域性表達(dá)的處理易出現(xiàn)誤判,導(dǎo)致評分偏離人工基準(zhǔn)。
第三,動態(tài)適配性與語義理解雙重局限。部分工具呈現(xiàn)的“穩(wěn)定性”實(shí)為保守策略的結(jié)果:筆神作文為避免極端誤差,可能采用“安全區(qū)間”評分機(jī)制,致使優(yōu)秀作文評分偏低。同時,工具過度依賴表層語言特征(如詞匯難度、句式數(shù)量),對深層語義關(guān)聯(lián)(如隱喻呼應(yīng)、論證鏈完整性)的解析能力薄弱,典型案例包括將比喻修辭誤判為語病,或未能識別論點(diǎn)與論據(jù)的邏輯斷裂。這種缺陷源于NLP模型對文本的符號化處理模式,難以真正理解人類語言中的模糊性和創(chuàng)造性。
導(dǎo)致以上問題的原因如下。
其一,缺乏特征提取功能,難以生成適應(yīng)不同題目的個性化評分模型。標(biāo)桿作文一般是在評分過程中給教師學(xué)習(xí)所用。在作文智能評分工具中,稱之為“定標(biāo)樣本”,用于作文智能評分工具的特征提取,通過機(jī)器的深度學(xué)習(xí)生成適合該題的評分模型,進(jìn)而有效評分,但是這三個評分工具都不具有這種功能,這也是智能評分與人工評分有差異的主要原因。
其二,手寫識別技術(shù)尚待提升,影響系統(tǒng)的整體效能。手寫識別工具(也稱為手寫輸入工具或手寫文字識別工具)是一種能夠識別和理解人類手寫輸入的技術(shù)。它使用計(jì)算機(jī)視覺和模式識別技術(shù)來分析手寫輸入(如筆跡、筆順、字形等),并將這些信息轉(zhuǎn)換為計(jì)算機(jī)可讀的字符、文本或數(shù)字?jǐn)?shù)據(jù)。筆神作文、光速寫作都可以使用手寫識別工具,這大大提高了作文評價的效率。盡管手寫識別工具在過去幾十年中取得了顯著的進(jìn)步,但由于技術(shù)的限制,其效率并不總是能達(dá)到理想的水平[]。手寫輸人具有高度的多樣性和復(fù)雜性。每個人的書寫風(fēng)格、字體大小、筆順等都可能不同,這增加了手寫識別工具的處理難度。因此,在測試過程中,筆神作文和光速寫作都會不可避免地出現(xiàn)個別錯誤識別。而IN課堂是人工輸入文字版的作文,其正確率較高。這也是IN課堂較之筆神作文、光速寫作,其智能評分更準(zhǔn)確、更一致的重要原因。
2.智能評分優(yōu)化策略
由于作文智能評價工具還處在初始階段,不盡如人意之處在所難免。其核心挑戰(zhàn)在于如何克服現(xiàn)有技術(shù)的局限性,構(gòu)建一個既能深入理解文本內(nèi)涵,又能精準(zhǔn)提取關(guān)鍵特征的智能評價體系。這一目標(biāo)的實(shí)現(xiàn),不僅依賴于技術(shù)層面的突破,更需教育理念與技術(shù)實(shí)踐的深度融合。
在特征提取功能的優(yōu)化上,關(guān)鍵在于構(gòu)建一個具有高度智能化與自適應(yīng)性的框架體系。BERT、ERNIE等預(yù)訓(xùn)練模型的引入,為這一進(jìn)程提供了強(qiáng)大的技術(shù)支持。陳宇航等人結(jié)合多頭注意力機(jī)制與BERT模型的句法和語義特征,通過多維度特征融合解決了作文自動評分中的主題相關(guān)性缺失和長文本信息丟失的問題,提高了評分精準(zhǔn)度[12]。張春云等人則采用類別對抗訓(xùn)練策略實(shí)現(xiàn)跨提示特征對齊,有效避免了錯位對齊問題并提升模型泛化能力,同時結(jié)合分類與回歸聯(lián)合學(xué)習(xí),通過共享特征增強(qiáng)評分準(zhǔn)確性[3]
手寫識別技術(shù)的短板則是語文作文智能評分工具面臨的另一大挑戰(zhàn)。近年來,盡管手寫識別系統(tǒng)領(lǐng)域的研究眾多,然而聚焦于學(xué)生群體的手寫識別系統(tǒng)研究卻相對匱乏。一方面,學(xué)生的書寫,尤其是低學(xué)段學(xué)生,往往存在筆畫順序錯誤、字形結(jié)構(gòu)松散或變形等情況[14],這無疑為手寫識別技術(shù)的精準(zhǔn)應(yīng)用帶來了挑戰(zhàn);另一方面,相較于成人手寫識別在簽名驗(yàn)證、文檔處理等方面的廣泛應(yīng)用,學(xué)生手寫識別的直接應(yīng)用場景相對較少,這限制了相關(guān)研究的動力和投入。由此可見,針對學(xué)生的手寫識別系統(tǒng)研究尚處于較為邊緣化的狀態(tài)。然而,隨著語文作文智能評分工具的日益興起,手寫識別系統(tǒng)在教育領(lǐng)域的應(yīng)用需求愈發(fā)迫切。加快學(xué)生手寫識別系統(tǒng)的研究步伐,不僅對于提升教育技術(shù)的智能化水平至關(guān)重要,更是推動教育評價模式革新、實(shí)現(xiàn)個性化教學(xué)反饋的關(guān)鍵所在。
語文作文智能評價工具技術(shù)雖然相對成熟,但由于教師對其評價標(biāo)準(zhǔn)的擔(dān)憂、學(xué)生對評價結(jié)果的不信任,以及開發(fā)者在技術(shù)突破和市場推廣上的挑戰(zhàn),導(dǎo)致其尚未在教育領(lǐng)域得到廣泛應(yīng)用。首先,對于教師而言,作文評價不僅是評分,更是對學(xué)生寫作能力的診斷和指導(dǎo)。他們更看重個性化、有針對性的反饋,而這正是當(dāng)前智能評價工具所缺乏的。此外,教師對新技術(shù)的接受度、培訓(xùn)需求以及對智能工具評價準(zhǔn)確性的疑慮,也是影響其普及的重要因素[15]。其次,對于學(xué)生,作文評價涉及主觀判斷,學(xué)生擔(dān)心機(jī)器無法準(zhǔn)確理解文章的深層含義和情感表達(dá),尤其是面對文學(xué)性較強(qiáng)的作文時,智能工具的局限性更為明顯。同時,學(xué)生也習(xí)慣于教師的直接指導(dǎo),對智能工具的適應(yīng)性和接受度有限。最后,開發(fā)者方面,推廣作文智能評價工具面臨多重挑戰(zhàn)。語義理解、創(chuàng)造力評估等方面仍然是技術(shù)難點(diǎn),尤其是在處理比喻、反諷等修辭手法時,智能工具的表現(xiàn)尚不理想。此外,智能評價工具的研發(fā)和優(yōu)化需要大量的高質(zhì)量標(biāo)注數(shù)據(jù),而作文數(shù)據(jù)的多樣性和主觀性使得數(shù)據(jù)收集和標(biāo)注成本較高。除此之外,市場推廣和用戶教育也是一大挑戰(zhàn),需要時間和資源來建立用戶信任和認(rèn)可。
推動智能評價工具的普及,需要在技術(shù)優(yōu)化、用戶體驗(yàn)提升和教育理念融合等方面進(jìn)一步努力。未來,隨著技術(shù)的不斷進(jìn)步和各方認(rèn)知的深入,其普及程度有望逐漸提升。相信在不久的將來,語文作文智能評分工具將成為教育領(lǐng)域中不可或缺的一部分,為教師的教學(xué)和學(xué)生的學(xué)習(xí)提供更加便捷、高效的支持。
參考文獻(xiàn)
[1]朱永新.讓閱讀和寫作成為一種生活方式[J].民主,2023(10).
[2]徐林祥,張志強(qiáng).課改二十年小學(xué)語文教學(xué)經(jīng)驗(yàn)與問題[J].語文建設(shè),2022(6).
[3]榮維東,唐玖江,陳磊,寫作課程教學(xué)應(yīng)該向何處去?一一來自全國31位寫作課程教學(xué)專家的建議[J].中學(xué)語文教學(xué),2021(2).
[4]張晉軍,任杰.漢語測試電子評分員實(shí)驗(yàn)研究報(bào)告[J].中國考試,2004(10).
[5]李亞男.漢語作為第二語言測試的作文自動評分研究[D].北京語言大學(xué),2006:36-40.
[6]彭星源,柯登峰,趙知,等.基于詞匯評分的漢語作文自動評分[J].中文信息學(xué)報(bào),2012(2)
[7]付瑞吉,王棟,王士進(jìn),等,面向作文自動評分的優(yōu)美句識別[J].中文信息學(xué)報(bào),2018(6).
[8]鐘啟東,張景祥,嵌入語言深度感知的漢語作文評分算法[J].計(jì)算機(jī)工程與應(yīng)用,2020(8).
[9]陳志恒.基于深度學(xué)習(xí)的中文作文智能評測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].中國科學(xué)院大學(xué)(中國科學(xué)院沈陽計(jì)算技術(shù)研究所),2021:43-68.
[10]張悅,魏順平.數(shù)智時代語文作文評價工具的比較和選用一一基于5款作文批改App的分析研究[J].中小學(xué)信息技術(shù)教育,2024(Z1).
[11]付鵬斌,劉鵬輝,楊惠榮,等.基于多重規(guī)則和路徑評價的在線中英文手寫識別方法[J].計(jì)算機(jī)工程,2022(3).
[12]陳宇航,楊勇,先木斯亞·買買提明,等.基于主題感知和語義增強(qiáng)的作文自動評分方法[J].計(jì)算機(jī)工程,2024(8).
[13]張春云,趙洪焱,鄧紀(jì)芹,等.基于類別對抗聯(lián)合學(xué)習(xí)的跨提示自動作文評分方法[J/OL].計(jì)算機(jī)研究與發(fā)展,1-14[2024-10-16].http://kns.cnki.net/kcms/detail/11.1777.tp.20241015.1438.002.html.
[14]王偉.小學(xué)低段學(xué)生漢字書寫情況的調(diào)查及教學(xué)建議[J].教學(xué)與管理,2018(14).
[15]苗逢春.基于教師權(quán)益的自主人工智能應(yīng)用一對聯(lián)合國教科文組織《教師人工智能能力框架》的解讀[J].開放教育研究,2024(5).