朱汝光 徐加永

摘? ?要:近年來,基于人工智能技術的“機器評卷”研究不斷深入,應用實踐也日漸增多。北京教育考試院依托國內一流人工智能研究團隊,開展了人工智能在大規模高利害英語聽說考試中的應用研究。自2018年起,該研究成果在全市中考聽說考試評卷中進行了實質性應用,共涉及考生50余萬人,取得了良好的效果。為切實解決英語聽說考試智能評卷的技術難題,確保公平公正,北京教育考試院聯合“科大訊飛”公司,申請了北京市教育科學“十三五”規劃優先關注課題“AI在中高考英語聽說測評中的應用研究”,力爭將研究成果應用在近年的高考英語聽說機考中,以助力北京市教育考試招生制度的改革。
關鍵詞:高利害考試;英語聽說考試;機考;機評;智能評卷
中圖分類號:G465 文獻標志碼:A 文章編號:1673-8454(2021)07-0040-04
一、引言
自2018年中考開始,北京市的英語聽說測試實行計算機化考試,并引入人工智能評卷。北京市中考英語聽說機考分值為40分,占總分100分的40%。從2021年起,高考英語聽說測試實行機考,分值為50分,占總分的33.3%。
北京市中高考英語學科考試內容和方式的改革,已成為考試招生制度改革的切入點和重要組成部分。該改革力度大、步子穩。中高考英語學科聽說考試的得分大比例計入中高考總分,這樣的評價導向,有效地引領了中學英語教學,有利于克服“啞巴英語”。同時,引入人工智能評卷,有效地減少了人為因素的影響,提高了評卷效率。
二、英語聽說考試困境突圍
高考英語要不要考聽和說?這是個簡單的問題,答案也顯然是肯定的。但是,如果把考生人數放大到10萬人甚至近100萬人的數量級,要組織一場人人交互式的聽說考試,回答就不那么容易了。就算有足夠數量的考官,要保持幾百、幾千名考官在連續幾天,每天幾個小時的現場考試中,始終把握同一標準尺度,困難恐怕是難以想像的。橫向、縱向公平都難以保證。因此,必須借助現代信息技術,在考試形式上尋求突破。
2013年前,北京教育考試院以“高考英語科目改革”為題立項,組成由國內知名專家領銜的課題組,對高考“英語聽說”內容改革和測試方式進行研究。研究歷時三年,重點調研了浙江、廣東兩省,分析了國內外已有的若干種機考系統的利弊,并對高中生、大學生、高校教師、中學校長、中學一線英語老師等人群,發放3000多份調查問卷,征求其對通過“人機對話”方式來考核聽說能力的看法。當時大家的認識還不盡相同,贊同者不到半數,具體如表1所示。
2014年,在“北京高考英語科目改革課題”研究的基礎上,北京教育考試院又承擔了市財政支持的“北京英語能力測試項目”,進一步對機考的可行性進行論證,命制試題并進行了測試研究。先后于2014年1月、5月、7月進行了3次英語聽說機考測試,測試涉及城區、郊區不同層次的19所高中學校,參加學生總數達到5100多人次,形成有關機考考場、考務管理、測試報告等方面的資料。研究發現,此時社會對機考的接納程度有了很大提高,專家意見趨于統一。研究還完成了改革版考試說明初稿,為高考英語聽說機考改革打下了堅實基礎。
2014—2016年,北京教育考試院參與信息產業部電子產業發展基金項目“智能語音技術及產品研發與產業化”研究,并為項目提供政策咨詢及戰略分析以及測試場地、機器設備等。同時還遴選參試人員,并組織測試。該研究認為機考在技術上是可行的。
在完成了理論可行性、社會接受度、專家意見等方面的系統研究后,形成了三方面的共識:一是引導社會改變觀念,回歸語言的本質屬性,把聽力考試從筆試中剝離出來,高考要考“說”;二是加大高考“聽說”比重,積極引導教學,實行“聽說一體”“上機考試”的做法,提高考試的公平性;三是共享科技成果,改革考試的形式,重新設計試卷結構,確定科學的英語測量目標,探索人工智能評卷。
三、英語聽說考試設計關鍵突破
在進行英語聽說機考考試設計的過程中,研究團隊重點關注適用題型、試卷結構、等值性等核心問題。
1.機考題型設計
經過多輪的專家論證、小規模試測、大樣本測試,北京市最終確定的中考英語聽說機考題型包括:
聽后選擇:聽一段對話或獨白,考生聽后根據屏顯問題選擇最佳答案。
聽后回答:聽一段短對話,考生在聽后根據屏顯問題口頭回答問題并完成錄音。
聽后記錄:屏顯一個留有5個空白的筆記記錄表,考生聽兩遍短文,聽后用鍵盤輸入關鍵詞。
聽后轉述:考生聽同一段短文的三遍錄音,然后考生完成轉述并錄音。
聽后朗讀:屏顯一篇短文,給一定的準備時間,然后考生完成短文朗讀并錄音。
過去三年的中考英語聽說機考實踐證明,以上題型比較適合當前的機考模式。高考聽說機考題型與中考基本相同,但在能力要求等方面有所調整。
2.試卷結構設計
在題型設計上,面臨的問題是采用聽和說完全分離,還是部分試題聽說融合,或是聽和說完全融合。經過多輪研究,北京最終選擇了“部分分離、部分融合”的測試路徑,即同一套試題既包括單純的聽力試題和口語試題,也包括聽說相結合的試題
四、聽說考試環境重點保障
考試環境是考試施考的基本條件,也是確保考試公平的基礎。北京市從物質基礎到管理措施兩個方面同時發力,為考生提供了一個平等、可靠、舒適的考試環境。
1.考試環境要求統一
北京市教委印發的《關于做好中、高考英語聽說計算機考試考點建設的通知》中,明確了全市考點建設的原則和主體責任。
北京教育考試院制定并發布的《北京市英語聽說機考考點建設標準》中,統一了設備技術要求。
由于是應用于中考、高考這樣的高利害性考試,對考試環境和硬件的要求都應當是嚴格而統一的。北京沒有采用在原有機房上改造的辦法,而是要求按統一的標準,建設全新的機考考場。
考試機配置為:四核CPU,主頻3.3Ghz以上(相當于Intel i7性能);內存4G以上;操作系統版本為Windows7或以上;主板自帶聲卡,也可以是獨立聲卡;顯示器自帶攝像頭或單獨配備攝像頭,攝像頭需支持人像追蹤功能,像素在不低于130萬。
耳機:USB耳麥,自帶聲卡。雙指向駐極體式麥克風,具有單向拾音特性,聲源距離音孔50cm以上時麥克風拾音效果迅速衰減。
卡座:專用桌椅,桌子左、右、前三邊帶隔音檔板,防止相鄰考生窺屏,減少聲音串擾。擋板高度1.2米,如兼顧日常教學使用,則采用可升降式檔板。
2.管理與技術協調統一
文件要求每個考點設置候考室、備考室,供考生考前使用。相鄰兩場考生出入場不交叉。
考試實行四重身份認證,謹防替考。四重認證分別是入校常規驗證、入場指紋等生物識別、刷臉登錄考試和考中無感知抓取照片。
考試系統能提供換機登錄、斷點續考、轉場再考、擇日再考、下期重考等功能,并對考生每題答題用時等行為進行后臺記錄,上傳到考務云平臺待用。
3.牢牢把控關鍵和重點
機考的關鍵技術環節有兩個:一是確保考試不能中斷;二是確保錄音質量。這些功能由考試子系統來完成。考試子系統要確保在復雜多變的考場環境中,采集到清晰完整的考生答題錄音,并能夠應對停電、死機、噪聲過大等各類突發情況。
保證考試連續性的主要措施有:一是考場采用兩路供電,秒級切換;二是暫無雙路供電的, 協調供電部門備好應急供電車,進行熱備份;三是考場服務器(監考機)必須配備UPS,延時不少于30分鐘;四是考試系統自動檢測考試機網線、耳機的聯線情況,發生中斷立即報警,考試系統具備斷點續考功能。
確保錄音質量的具體措施有:一是采用專用耳機,嚴格執行市里頒發的技術標準,耳機為考試進行特殊設計。例如:去掉音量調節鍵,防止考生誤操作;自帶聲卡,避免各計算機自帶聲卡帶來的差異;采用包耳式耳機,以降低環境雜音的影響;采用高指向定向麥克風(多個),智能降噪;設有三色警示燈,清晰提示耳機的工作狀態等。二是用智能音質檢測技術對考生的語音數據進行實時監測,確保監考機收回的語音數據物理參數(如音量、信噪比等)正確,及時發現截幅、音量過小、噪音過大、敲擊桌子等異常作答。如果音質不合格,系統會提出警示,提醒監考老師及時處理,判斷是否要進行重考,避免到評卷時才發現音頻質量不佳而造成工作被動。
北京市于2017年10月前完成了全市標準化機考考場的建設。共建成286個考點、634個考場、25342個考位。
五、人工智能助力試卷評閱
1.智能評分目標
智能評分子系統的目標是實現計算機對朗讀、聽后問答、復述、話題表達等主觀性試題的自動評分,其核心是智能口語評測技術。智能評測技術首先從考生數據中提取到反映口語發音的標準程度、正確性、語速、語氣、語調等物理特征;然后分析噪聲對各個物理特征的影響,通過累積分布函數匹配等規整化處理,建立從帶噪聲語音物理特征到干凈語音物理特征之間的映射,排除噪聲對打分特征的影響;最后收集大量的語音數據,并由專家對數據進行細致的定標,再用定標的結果來訓練計算機系統,建立物理特征與人工評測間的高精度映射模型,最終實現機器智能評分。
2.智能評卷過程
人工智能評測主要分為以下幾個步驟:裸評與標桿卷挑選、定標抽樣、專家定標、機器評分。
裸評與標桿卷挑選:機器在未學習專家標準的情況下,以“機器人”標準初步運算出考生的總成績,即為“裸評”,同時檢測出異常數據包。以“裸評”成績高低為標準,按試卷、題型抽取一定比例的優、中、差數據,提供給定標專家進行培訓學習,掌握統一的評分標準。
定標與樣卷抽樣:高、中、低分級抽樣。機器按一定的抽樣規則抽取一定量的樣本數據,樣本數據在專家評分后提供給機器用于學習標準。抽樣方法是等距抽樣,即將總體“裸評”成績按一定順序排列,根據樣本容量要求確定抽選間隔,然后隨機確定起點,每隔一定的間隔抽取一個單位。樣本容量存在動態調整,需依據考生的基數來確定。
專家定標:專家對樣卷進行評判,將結果反饋給“機器人”。主要是由遴選的少量評分專家,對機器挑選的樣本數據按培訓學習的統一標準進行閱卷定標,并將樣本數據的評分結果提供給機器進行學習。
機器評分:“機器人”按照專家的標準,重新評判試卷。這里主要分為兩類題型:一類是朗讀題型。該類題型技術研究較早,目前已比較成熟,主要是按照語音、語調、流暢度、內容完整度等特征進行評測。另一類是口頭表達題型,比如聽后轉述,主要是將考生的作答識別成文本,然后提取文本內容的相關特征,通過機器學習專家評分樣卷的方式進行訓練和評測。目前,這種半開放題型的評測效果可以和專家水平相當,已經可以代替人工閱卷,但為確保準確性和安全性,目前北京市采用“一人加一機”的評分方式。
3.智能評分效果
北京市英語聽說考試采用的方式為:首先全市統一機評,然后再分區進行人工二評,當機評、人評分數超過閾值時,再由組長進行三評。從近三年的數據情況來看,不同題型的三評率略有不同,平均三評率較低,人工智能評分表現出較好的效果。各區考試機構、教研機構都表示贊同,并希望逐步加大人工智能機器評卷的使用力度。
六、不斷探索人工智能應用
雖然北京市對“人工智能助力中高考英語聽說機考”進行了有益的探索,也取得了一些實質性應用成果,但技術的發展日新月異,教育考試公平公正的要求越來越高,科學技術的貢獻率還沒得到充分體現。在“新基建”的大環境下,考試招生現代化未來還有很長的路要走。
北京教育考試院于2020年聯合“科大訊飛”公司,申請了北京市教育科學“十三五”規劃優先關注課題“AI在中高考英語聽說測評中的應用研究”。該課題對人工智能評卷的關鍵技術及影響因素進行了系統研究,力爭將研究成果實質性應用在近年高考英語聽說機考中,讓人工智能技術助力北京市教育考試招生制度的改革。
課題主要研究內容包括以下六個方面:
1.中高考英語聽說機考測評效果對比
利用北京市中考英語聽說機考近三年的歷史數據以及后續兩年內的實考數據,在平均分、標準差、相關度、評分一致率等多個維度上,對智能評分結果和人工評閱結果對比分析。通過對拒評數據的研究,從算法處理、數據采集以及評卷質量監控等方面提出優化建議。
2.考試環境對測評結果的影響及應對策略
主要研究:機考系統與云桌面機房的適配性;軟硬件設備、音頻采集方式、網絡等考試環境對數據采集質量的影響;特殊情況下(如佩戴口罩)進行考試對機評結果的影響。從成功考試案例中汲取經驗、提煉模式,探索大規模遠程考試的可行性。
3.中考英語聽說機考雙機評分的可行性
主要研究:不同智能評分引擎驅動下,智能評卷的評測效果比對;不同測評模式下,定標集選取的策略,比如在沒有專家評分前提下,如何利用普通評卷教師的評分數據選取定標集合;探索采用智能評分模式時規避系統性風險的方法;探究“雙機評+人工仲裁”模式。
4.英語聽說機考關鍵技術實證研究
針對北京地區中高考英語聽說考試的機考流程、題型特點以及機評流程,驗證機評技術提供方“科大訊飛”最新研發的關鍵技術的應用效果。具體包括:在機考流程中,驗證語音音質檢測技術,提升機考過程的異常錄音檢出率,大幅度降低機考流程風險;根據題型特點,驗證多系統融合技術、聲學模型和語言模型無監督自適應技術、高區分度朗讀題型評分技術、多特征技術等評測新技術;在機評流程中,驗證依靠GPU算力提升機評速度的途徑。
5.非語言交際維度相關信息的采集方式與應用
充分發揮標準化聽說考場計算機配備的前置攝像頭的作用,記錄考生在考試過程中的嘴唇動作、頭部姿態、面部表情等非言語行為,構成視頻模態信息,與學生語音模態信息一起形成學生答題多模態數據。多模態數據的應用包括兩個方面:①相對單一語音錄音數據,融合唇部動作的計算機視覺信息記錄,有可能提升異常錄音的檢測效果;②融合唇部動作的視覺模型分析能力,有可能提升帶噪錄音的語音識別準確率。
6.中高考英語聽說機考信息安全監管框架
本研究基于現行考試組織流程,對網絡傳輸、加密運算、云存儲等技術的應用進行探索,并提出英語聽說機考平臺的安全監管框架,確保數據和算法使用合規、合理、透明和可審核,保障數據安全。
本研究的落腳點是:將研究成果轉化為生產力,從考試環境、考試平臺、考試管理、答卷評判等方面制定實施策略,形成完備的北京市高考英語聽說機考實施方案和技術策略。
七、結語
人工智能在網上閱卷的質量控制(檢出空白卷、雷同卷、作文抄寫題干等)方面,已得到較為充分的應用。同時,國內考試機構也進行了人工智能評閱主觀題、英文作文題、漢語作文題的研究,但都未進入實質性應用階段。在全國英語四、六級考試的口語考試中,采用了機器評閱。相比之下,在中高考英語學科的聽說考試中,北京是第一個采用機器評分的城市。研究還在進行,檢索永不止步,筆者將進行更深入的實證研究,通過大量語料,訓練出更加智能的評分機器人,進一步提升評卷的效率和質量。
參考文獻:
[1]汪張龍.人工智能技術在考試中的應用[J].中國考試,2017(11):30-36.
[2]何屹松等.人工智能測評技術在大規模英文作文閱卷中的應用探索[J].中國考試,2018(6):63-71.
[3]何屹松等.新一代智能網上證券系統的技術實現及在高考網評中的應用實例分析[J].中國考試,2019(6):57-65.
[4]北京教育考試院.高考英語能力試測研究成果匯編[R].北京:內部資料,2015.
[5]北京教育考試院.中高考英語改革研究暨北京市中高考英語機考系統建設項目成果匯編[R].北京:內部資料,2017.
(編輯:王曉明)