智能語音測評技術對中考生感知影響的實證研究

2020-09-23 05:48:14俞顯

考試研究 2020年5期

俞顯

隨著深度學習、自動化語義分析、多模態分析技術等人工智能技術的發展以及語言綜合運用能力測評的現實需求，基于智能測評技術開展大規模語言聽說能力測評受到越來越多的關注。目前，智能語音測評技術在語言綜合能力測評中已經有較多的成熟案例，如國際上的托福、雅思等語言能力認定考試，國內部分省市的中考、高考、學考的英語聽說能力測試等，從考試到評分均采用人工智能。中考英語聽力口語測試引入機考（以下簡稱“人機對話”），特別是新增口語考試模塊后，考試內容和形式的變化勢必會對英語學習帶來影響，中考生對這項改革的感知和認可程度將成為人機對話能否有效開展的關鍵因素，當前尚缺乏這方面的實踐研究。為此，本研究在S市范圍內以分層隨機抽樣的方法就中考生對人機對話的認知和態度開展調查，以期為相關研究提供實證參考。

一、研究對象與工具

（一）研究對象

以分層隨機抽樣的方式在S市內抽取14所高中學校，研究對象是參加中考人機對話的初中畢業生（該批學生已升入高一）。調查活動以網絡調查問卷形式開展，共回收問卷2165份，其中有效問卷2150份，有效率為99.31%。性別上，男生1057人（49.16%），女生 1093 人（50.84%）；所在區域，農村101人（4.70%），鄉鎮 882人（41.02%），中心城區1167人（54.28%）。

（二）研究工具

對有關文獻進行檢索和分析，初步總結中考生對智能語音測評技術應用的感知影響因素，并借鑒已有的英語口語測試研究成果[1-2]，形成了調查問卷。內容分為基本信息和調查主題兩部分，調查主題涉及感知程度選擇時采用李克特5點等級量表，按照程度由低到高排列，即很不滿意（1）到很滿意（5）賦值。經過試測和調整，采用SPSS對數據進行處理，調查的4個維度的Cronbach’s alpha系數介于0.718到0.826，整份問卷問卷的Cronbach’s alpha系數0.796，問卷信度達到測量要求。效度方面，問卷的形成過程中采用德爾菲法多輪專家征詢，問卷內容效度具有較好保證；結構效度上，采用因子分析法，KMO值為0.916，Bartlett球形檢驗的近似卡方分布為279.721，相伴概率p＜0.05，適合做因素分析，獲得4個因子并且方差解釋量為89.762%，說明問卷具有較好的結構效度。所有數據采用SPSS21.0處理。

（三）S市中考英語人機對話測試介紹

S市中考英語人機對話采用智能語音測評技術支持，包括考務編排、試題制作和考生作答結果評分在內的所有考試環節均采用計算機自動化處理。在綜合考慮計算機數量和考試風險管控后，測試采用分時段按批次進行。出于保密的要求，不同時段的測試采用不同的試卷。試卷分聽力和口語兩部分。

二、研究結果分析

（一）總體感知情況分析

總體感知調查結果顯示，中考生對人機對話的總體感知均值為4.11，呈較滿意水平。進一步對總體感知得分與中考生性別、常住區域進行獨立樣本T檢驗或方差分析發現，在中考生性別（t=-3.38，p＜0.05）和常住區域（F=4.37，P＜0.05）上存在顯著性差異，從感知程度均值上看女生高于男生，而LSD事后多重比較顯示鄉鎮考生和城市、農村考生均存在顯著性差異且在三類區域中感知程度最高。

從性別上看，可能由于女生在語言學習的動機、生理、認知能力上存在優勢，相應地獲得更多的學業成就[3]，從而加強了女生對人機對話的信心。從區域性質上看，調查結果顯示，對鄉鎮考生而言，相較于農村考生其擁更多的學習資源和工具，能較有效地支持自身的語言學習；而相比城市考生，在以升學率作為主要教學考核指標的情況下，低難度的人機對話試題為鄉鎮考生通過投入更多的時間和精力從而縮小與城市考生的差距提供更大的可能，這些可能是鄉鎮考生整體滿意度高的原因。

（二）對考試內容和形式的滿意度的感知

人機對話考試能否有效考查出考生真實的英語聽說能力、考生是否適應人機對話形式是影響考生對人機對話滿意度的重要內容之一。調查從人機對話考試內容與課程標準一致性程度、人機對話考查學生英語聽說能力的層次、考生對人機對話形式的適應度等方面展開。調查結果顯示，中考生對人機對話內容和形式的總體較為認可，滿意度均值為3.42。具體來看，對人機對話考試內容體現所學內容的程度有63.90%的考生表示滿意，但有將近1/4的中考生持不滿意的態度；而從中考生人機對話考試形式的適應度上看，有將近一半的考生表示適應，但近35%的中考生適應度為一般。進一步對人機對話考試內容和形式的滿意度總體得分與考生性別、常住區域進行獨立樣本T檢驗或方差分析發現，在考生性別上不存在顯著性差異（t=-0.766，p＞0.05）；在常住區域上存在顯著性差異（F=3.761，P＜0.05），經過LSD事后多重比較發現城市考生與鄉鎮考生在滿意度上存在顯著性差異，且鄉鎮考生的滿意度高于城市考生。

從對考試的形式和內容的滿意度上看，考生的整體的滿意度不高，呈中等略偏上。筆者分析，由于新增口語模塊和新的考試形式，考慮到中考英語的難度穩定性和人機對話的接受度，通過縮小考試內容的廣度和深度并降低話題難度來應對考試形式變化給考生帶來的額外的身心負荷是常見的命題技術。但這一做法可能會帶來一些負面效果從而影響考生對考試的滿意度:一方面試題難度降低對高水平考生存在不公平，低區分度試題無法讓其在競爭性考試中發揮優勢；二是通過降低試題難度來規避由于考試形式變化而引起的考試難度“不穩定”的風險，實際的效果并不理想，這是因為命題專家往往無法在考試形式改變引起的試題難度“變化量”和實際試卷難度“降低幅度”之間做出有效的判斷；此外，由于智能測評技術的局限，導致考試內容和形式為適應技術而做“削減式”的調整，在一定程度上違背了考試對考生真實能力考查的原有規律。

（三）對試題難度和難度等值的感知

難度作為評價試題質量的一個重要的技術指標，直接影響測試功能的實現[4]。從考試的社會屬性上講，大規模高利害考試的難度異常可能會觸發社會群體事件而影響社會穩定，因此考試難度的把握至關重要。研究設置4題，主要涵蓋中考生對整個考試難度感知、對不同時段不同批次試卷難度的感知。試題的難度方面，34.70%的中考生認為人機對話難度適中，58.25%的認為試卷較容易或很容易。總體而言，絕大部分中考生認為試卷較容易，這與考試難度設計要求達到0.80-0.85之間的要求吻合。試卷難度等值方面，有32.22%的中考生認為人機對話不同批次試卷的難度等值情況不容樂觀，僅有37.87%的中考生認為不同批次試題的難度基本等值。進一步分析發現，在性別上中考生對試題難度等值的認知程度沒有顯著性差異（t=-1.437，p＞0.05），不同區域的中考生對試題難度等值的認知程度沒有顯著性差異（F=0.576，p＞0.05）。

中考具有“兩考合一”的屬性，試題難度設計需綜合考慮標準參照與常模參照的要求，而人機對話需要兼顧考試形式變化和激發考生的學習積極性，所以難度往往偏向容易。難度等值方面，每位考生只作答一套試卷，其他批次的試卷對其保密。但考試分數公布后，同一批次的考生、同一個班級日常語言學習成績相近的考生會互相對比，從而感知自己批次試卷和其他批次試卷的難度情況。需要明確的是，考后數據顯示該年各批次試卷之間的難度基本均衡，然而考后難度均衡的結論與考生感知試卷難度等值差異大的情況呈較大的反差。可能的原因是，一是各套試卷難度是通過均值除以滿分來計算的，在教育統計中均值是常用的集中量，但易受極值影響，在轉換成難度系數時往往忽略配合標準差進行數據解讀，從而掩蓋了數據描繪全景事實的情況；二是由于中考屬于高利害競爭性考試，部分考生在考試中發揮“失常”會將考試矛盾引向考試形式的改變，從而在考生群體間營造了一種考試難度差異大的“責難”氛圍并在考生群體間蔓延，這些情況應當引起重視。

（四）對考務組織的滿意度的感知

嚴謹規范的考試組織是保證考試公平的基礎，也是考試順利實施的基本保障。調查從考務組織流程和考試物理環境兩個方面展開。考試組織流程方面，9.81%的中考生認為人機對話考務組織不太合理規范，9.24%的中考生不了解具體情況，54.16%選擇基本合理規范，26.79%選擇完全合理規范，可以發現將近80.95%的中考生認可人機對話的考務組織。在考試物理環境的保障上，調查對象群體均值為3.42，對人機對話物理環境持較為肯定的態度。進一步分析發現，男女生在考試物理環境的保障上呈顯著性差異（t=-2.064，p＜0.05），女生對考試物理環境更為認可；從不同區域看，城市中考生與鄉鎮中考生、農村中考生在考試物理環境的滿意度上呈顯著性差異（F=17.307，P＜0.05），城市中考生得分均值最低。

從S市的經驗上看，人機對話從啟動開始，先后進行了可行性論證、案例學校實地考察、仿真考試評比、模擬考試等環節，在不同環節緊緊圍繞“安全考試、服務學生”的精細化施考理念，設計和優化了一系列考務組織管理工作。但由于各個考點建設受資金投入的影響，存在考試計算機新舊、考場加裝隔板、機房布線改造等軟硬件不一致的客觀情況。從性別上看，相較于男生，女生可能更關注考試本身，對考試的支持環境并不太在意。從某種程度上說，城市學校的軟硬件環境一般會優于農村學校，如果考試物理環境與日常練習的環境有較大差異時，可能會對城市考生造成一定的影響。

（五）對考試軟件設計合理性的感知

利用信息技術支持教與學活動是教育領域關注的熱點話題。教育考試信息化已經成為考試專業能力發展、提高考試服務滿意度的重要手段，其中扮演重要角色的是考試信息軟件的設計與應用。研究從考試軟件運行穩定性、頁面布局合理性、文字設計規范性、提示信息適切性、語音語料流暢性等直接影響考生應考體驗的角度入手，調查中考生對考試軟件的滿意度的感知。結果顯示，滿意度均值為4.16，總體持較為滿意的態度。進一步分析發現，男女生在軟件設計的滿意度感知上存在顯著性差異（t=-4.967，p＜0.05），從均值上看，男生的滿意度低于女生。在常住區域因素上做方差分析發現，不同區域的中考生的滿意度感知在統計學意義上存在顯著性差異（F=6.061，P＜0.05），LSD 事后多重比較結果顯示，農村中考生與城市、鄉鎮中考生均存在顯著性差異，從均值上看農村中考生得分最低。

圖1 中考生對考試軟件的滿意度分布情況

與相關的研究結論類似，相較女生，男生在日常學習和生活中對數碼、軟件等信息產品更感興趣，接觸軟件產品的機會和愿望更多，基于自己的體驗對軟件產品的優劣有著更為明晰的判斷[5]。此外，從考生區域來源上看，農村中考生相對來說整體的信息素養偏低，新信息產品的考試應用可能會對其造成一定的壓力，從而影響了農村中考生對信息產品體驗的滿意度。可以說，考生的信息素養作為非語用能力卻直接影響了考生對人機對話的反應，這一現象在日常聽力口語教學活動中需要引起重視。

三、研究建議

信息技術與大規模高利害考試深度融合是教育考試信息化發展的重要議題，而信息技術與教育考試融合的質量直接決定應用主體（學校、教師、學生等）滿意度的感知。為進一步提高考生對人機對話的滿意度，提出以下建議。

（一）開展混合式評價視角下的項目功能差異分析

項目功能差異分析是用來檢測測試工具對目標群體是否公平的有力手段[6]。調查顯示，在滿意度的影響因素上，不同性別、區域的學生往往表現出較大的差異。因此在設計試題的過程中，要充分考慮不同學生群體的學習體驗和生活經歷，盡力消減非考試目標因素的干擾。當然，在項目功能差異分析的實際應用過程中，要注重混合式方法的運用，即在使用統計方法分析項目功能差異的同時，還需要對存在項目功能差異的項目進行深入的質性分析，尋找造成項目功能差異的可能原因[7]，既要知其然，更要知其所以然，只有這樣才能確保考試項目的質量，維護考試公平公正。而考生的信息素養分布情況、人機對話給考生帶來的心理負荷情況、試題話題廣度和深度等維度是后期教學和命題應該重點關注的內容。

（二）構建基于測量技術輔助和命題機制優化的考試難度保證

考試等值問題本質上是考試難度控制問題。傳統的試卷難度易受命題專家個人業務能力、命題偏好的影響，試卷難度的穩定性難以保證。“一考多卷”的人機對話對各套試卷難度的等值有著嚴格的要求。從已有的研究成果看，依托項目反應理論設置試卷之間的錨題機制，構建試卷等值的同一測量尺度，以解決“一考多卷”難度等值問題是當前主流的實踐[8]，但在我國高利害考試中往往難以實施。筆者認為要改善這一困境，一是要優化命題機制，即在保證考試公平和考務有效組織的前提下，減少試卷的數量和修訂考試內容，如通過增加考場壓縮考試天數、口語“語篇朗讀”部分可采用教材上的內容等。二是不同試卷成績的報告采用等級賦分的原則[9]，等級賦分的初衷是解決不同學科、不同批次考試難度不一致導致成績缺乏可比性和累加性的問題（不考慮學科屬性），當然實踐中還有一些需要注意的技術問題。長期來看，構建基于等值技術的試題庫建設依然是解決此類問題的主要方法，期待這一方面在實踐應用中有更深入的突破。

（三）實施以服務為核心的精細化考務管理

精細化管理是工業生產過程中，為了提高管理質量和效率而形成的管理理念[10]。考務精細化的過程是考務管理體系化、標準化、規范化的過程。人機對話相較于傳統紙筆測試，面臨更多的考務管理環節，需要防控更多的風險點。開展人機對話考務精細化管理，建立體系化、標準化、規范化的精細化管理方案是人機對話考試安全和穩定的內在要求。總的來講，人機對話精細化管理方案要遵循繼承性、發展性和預見性原則。繼承性是要充分歸納考試管理的普遍規律，這是設計人機對話精細化管理的“基柱”。發展性是指要注重人機對話考務管理的獨有特點，避免考務管理“經驗主義”的陷阱。在實施人機對話的過程中，要防控更多的風險點，風險的防控在于預測風險發生的概率和破壞的程度，因此人機對話精細化管理方案必須要具有預見性。與精細化考務管理內在把控考務風險對應的是外在的考試環境的呈現，包括考試的流程設計、環境構建、服務支持等等，都需要按照精細化考務管理的原則實施。

（四）推進信息技術與人機對話教學和考試的深度融合

人機對話是借助智能語音測評技術實施的新的考試形式，是信息技術教育應用的重要組成部分，提高用戶體驗、增加語言考試的情境性至關重要。一是考試軟件優化，在充分調研考生的認知和需求的基礎上，分析學生的個性特征和學習風格，提高考試軟件的交互性體驗；二是促進考試軟件與考試內容和形式的深度融合，融合不是簡單將紙質的考試內容復制到電腦軟件中，而是要全面分析紙質考試對考試內容呈現的不足以及考試軟件對傳統考試內容的呈現優勢，明確考試目標、考試內容、考試形式、考生認知特點，遵循多媒體軟件設計原則[11]，積極探索多媒體環境下的考試；三是注重考生信息素養的發展，本次調查顯示有將近85%的學生利用手機進行日常人機對話練習，如何正確引導學生使用信息設備支持學習、發展學生的信息素養是當前不可回避的重要的教學問題；四是利用信息技術縮小城鄉學生之間的英語聽說能力差距，發揮信息技術在學習資源、學習反饋、傳播方式等方面的優勢，為優化鄉村學生的語言學習環境、轉變學習方式和學習結果反饋方式提供有力條件[12]。