999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

普通話水平測試“命題說話”項計算機評測質量的考察與評價

2021-12-28 22:28:57胡智丹田娜王萌
現代語文 2021年10期
關鍵詞:評價

胡智丹 田娜 王萌

摘? 要:普通話水平測試“命題說話”項的計算機評測,技術難度要大大高于其他三項題型,其評測質量直接關涉考試信度。采用抽樣統計的方法,對比人工評測和人機評測的組內初評數據、人機評測的組內復審數據,并對復審案例進行復聽,試圖通過人機數據互證來考察計算機評測的質量。研究結果顯示,計算機評測總體達到人工評測水平,評分穩定性優于人工評測,但尚存在因信息處理能力欠缺而導致的少量誤判、漏判現象。具體表現為對某些語言材料的識別不夠精準,對不同水平考生的評分尺度難以高度一致。

關鍵詞:普通話水平測試;命題說話;計算機評測;統計;評價

普通話水平測試是一項大規模的國家級通用語口語測試。2007年之前,該測試全程采用人工評測;2007年起,計算機輔助普通話水平測試開始試行[1](P108)。這一時期的計算機輔助測試僅實現了“讀單音節字詞”“讀多音節詞語”“朗讀短文”三項內容的自動評測,第四項“命題說話”(以下簡稱“說話”)仍然由測試員評定分數[2]。2017年,“說話”項計算機輔助評測開始試點,本文調查的考點采用一名測試員和計算機合作評分的模式(以下稱“人機評測”)。與前三項不同,“說話”項屬于無固定文本參照的語音評測,評測內容不僅涉及語音,還涉及詞匯語法、語言流暢度、內容相關性、缺時等多個方面,其性質決定了自動評測的技術難度要高于前三項。“說話”項計算機評測的質量究竟如何?本文抽取同一考點人工評測時期和人機評測時期的初始評分數據、人機評測中的復審評分數據進行統計對比,并對進入復審環節的考生錄音再次復聽,嘗試通過人機數據相互論證的分析方法,來考察計算機的評測質量。人機評測的初始評分數據來自初評測試員(以下稱“測試員1”)和計算機評測系統(以下稱“機評”),復審樣本的評分數據則在前兩者的基礎上又加入了復審測試員(以下稱“測試員2”)的評分。

一、抽樣考生的基本情況

關于人機評測的數據,本文采用某高校普通話水平測試考點2019年9月至12月4195名考生的樣本。這些考生中,高校在讀學生占93.37%,其余為高校教師和附屬醫院醫務人員。考生來自全國31個省、直轄市、自治區,七大方言區均有分布。考生構成與測試成績的等級分布分別如表1、表2所示:

我們同時抽取了該考點2016年9月至2017年6月人工評測的4863名考生數據作為對比組的樣本,這些考生的構成情況與上述人機評測模式下的情況基本相似。

二、人機評測與人工評測初始評分結果的統計分析

(一)組內評分差異的比較

各省、直轄市、自治區對“說話”項的偏差數據都有復審的要求,如果兩個初始評分的差異值在一定范圍之內,成績取兩者的平均值;如果差異值超出一定范圍,需要對考生錄音進行偏差復審,重新計算成績。因此,測試員間的評分差異是反映測試員評分一致性的主要指標,也是管理過程中衡量評分質量的重要依據。表3是對人機組、人工組各自初始評分差異值的統計學描述,表4是人機組、人工組各分差段人數及比例的統計。

“平均值”反映一組數據的一般水平,“標準差”則反映各項數據與平均值的接近程度,標準差越小,數據的離散程度越低。初始評分差異的平均值低、標準差小,則說明評分的準確性、穩定性較好。從表3的統計數據來看,人機組與人工組組內評分差異的平均值在1.27~1.29分之間,幾乎沒有差別,標準差則人機組略低。組內評分差異的“最大值”,兩者雖然都達到10分以上,但通過“中位數”和“眾數”可知,差異值小于等于1分的數據占多數。表4也顯示,分差在1.5分以內的評分在兩組的占比均接近70%,而分差大于等于4分的占比不到5%。

(二)評分相關系數的比較

兩個初始評分的相關系數是反映評分一致性的另一項重要指標。普通話水平測試屬于主觀性測試[3](P101),依據被測人的語音表現來評定其能力水平。人工評測可能會因聽測能力、標準把握、心理和生理等多種因素的影響而出現評分的不穩定。因此,兩名測試員之間或測試員與計算機之間的評分不可能完全同步,而是呈現出非確定的關系。這里主要是利用相關系數來度量評測者評分的相關程度和相關方向。表5是人機組和人工組評分相關系數的比較。

相關系數r是介于-1到1之間的一個數值。當|r|≥0.8時,認為兩個變量有高度的線性相關性;當0.5≤|r|<0.8時,認為有中度線性相關;當0.3≤|r|<0.5時,認為有低度相關性;當|r|<0.3時,說明兩個變量之間的線性相關關系極弱[4](P191-192)。相關系數r還只是總體相關系數的近似值,它能否說明總體的相關程度還需要結合樣本相關系數的顯著性檢驗進行考察,如果檢驗結果低于給定的顯著性水平,則表示相關性顯著。表5顯示,人機組和人工組的相關系數都屬于中度線性相關。我們按0.01顯著性水平檢驗,顯示兩組的相關性均達到了統計學意義上的顯著水平。雖然兩組都處于中度相關水平區域,但人機組的數值臨近低度相關,人工組接近高度相關,人機組相關系數明顯低于人工組。

(三)人機組內部評分分布的比較

人機組相關系數低于人工組,說明機評系統與測試員1在有些評分上存在較為明顯的不一致性。這種不一致具體表現在哪里?兩者的評分分布可以提供分析依據。表6是人機組機評分和測試員1評分分布情況的對比,圖1為表6數據的曲線示意圖;表7是人機組機評和測試員1各自的總平均分及在不同成績等級的平均分。

表6顯示,機評給出35分以上高分126個,測試員1給出458個;機評給出29.5分以下低分122個,測試員1給出281個。機評分35分以上高分和29.5分以下低分的數量明顯少于測試員1。圖1則直觀地顯示了兩者分數的分布,機評分在高分段和低分段的數量較少,評分有向中間分數段集中的傾向。

表7對比了機評和測試員1的總平均分及在各等級的平均分,同樣揭示了上述傾向。兩者總平均分幾乎相同,但在不同成績等級的平均分卻并不一致。一級乙等中,機評分明顯低于測試員1;二級甲等中,兩者趨于一致;從二級乙等開始到三級乙等,機評分逐漸高于測試員1,并且隨著等級的降低而差距逐漸擴大。

三、人機評測復審評分結果的統計分析

(一)機評、測試員1、測試員2的評測結果比較分析

初始評分數據可以從全局角度考察“說話”項的計算機評測狀況,而復審數據則為深入分析提供了新的視角。偏差復審是測試管理中矯正評分偏差的重要手段。現將參與初評的機評系統、測試員1和參與復審的測試員2三者之間的評分差異、評分相關系數進行比較,分析大分差數據中它們各自的評分信度。我們從復審樣本中隨機抽取125份初始評分差異值≥4分的樣本作進一步考察。復審測試員2的成績來自兩名測試員,一名國測、一名省測,兩人均長期從事普通話教學和測試工作。表8、表9為機評系統、測試員1、測試員2相互之間評分差異和評分相關系數的統計。

表8顯示,“機評—測試員2”和“測試員1—測試員2”的組內分差在中位數、眾數、平均值各項均明顯小于“機評—測試員1”。由此可見,復審測試員2評分的準確性顯著高于初評測試員和機評系統。表9顯示,“機評—測試員1”的評分出現負相關,雖然顯著性不強,但同樣能說明“機評”和“測試員1”中至少有一方的評分存在問題。“機評—測試員2”的相關系數高于“測試員1—測試員2”,這與初始評分中人工組相關系數高于人機組的總體情況并不一致。據此可以推測,在大分差樣本中,機評系統評分的穩定性、準確性較高。

需要指出的是,機評系統的評分偏誤同樣存在。據統計,復審樣本中仍有31.2%是測試員1、測試員2評分接近而與機評分偏離較大。對于機評系統而言,復審樣本中發現的問題有可能在全體樣本的初始評分中就已存在,應引起充分重視。

(二)復審樣本的個案分析

復審后考生的最終成績取三個評分中兩個相近分值的平均值,這一規則的依據是相近評分的可信度較高,而偏差較大的評分可能會存在偏誤。這樣的預判與事實是否一致?評測偏誤一方的問題可能在哪里?我們按照分值接近這一標準將樣本分成兩組進行了再次復聽。

第一組是機評分與測試員2接近的68個樣本錄音。通過復聽證實,機評分和測試員2的評分更加合理,而測試員1存在明顯偏誤。測試員1的偏誤主要集中在兩個方面:一是對缺時的計算不夠準確,尤其對說話時中斷多次的缺時計算扣分偏少;二是對語音面貌的評判有失誤,評分有較大偏差。這一印象也可以通過比較考生前三項與第四項得分的相關性得到驗證。例如:某考生前三項得分46.09分,按照前三項分值所占比例測算,該考生的總成績應該低于80分。機評和測試員2對該考生“說話”項扣分均在10分以上,而測試員1僅扣6分。測試員1的評分不僅與機評、測試員2很不一致,也與考生前三項的成績倒掛,這足以說明測試員1對語音面貌的評測存在偏誤。

第二組是測試員1、測試員2評分相近而機評分偏離較大的39份樣本。通過復聽可以證實,機評分存在明顯偏誤。表10選取了6個典型案例進行描述(見下頁)。

以上案例反映出機評系統的評測偏誤主要有以下三種類型:

第一,“語音規范程度”評測偏誤。表中第一類的前兩例除“語音”項需要扣分,其他5項均無需扣分。案例(1)考生某一類語音錯誤或缺陷比較嚴重。案例(2)考生方言口音明顯,語音錯誤類別在兩類及以上,錯誤數量較多。機評對這兩名考生少扣3—4分。案例(3)則相反,考生語音面貌較好,但或因錄音質量問題而被過度扣分。

第二,“缺時”與“語音規范程度”失誤共存時的評測偏誤。第二類考生的扣分原因除語音不規范外,還伴有缺時。“缺時”和“語音規范程度”是兩項分列的扣分規則,如果考生普通話水平相當,伴有缺時的考生得分應低于僅有語音問題的考生。但從案例(4)的機評分推測,機評系統在兩項失誤共存時扣分偏少。

第三,“離題”“無效語料”評測偏誤。第三類考生在“離題”“無效語料”上出現明顯失誤,但機評系統沒有作出有效識別,存在漏判現象。“離題”“無效語料”是評判說話內容與主題之間相關性的重要規則,需要機評系統對語義作出準確理解和判斷。從案例(5)、案例(6)的評測結果來看,機評系統對這類現象的識別能力不足,因此造成評判的偏差。

四、“說話”項計算機評測質量的評價與思考

(一)智能評測系統具有較高可信度

“說話”項的自動評測雖然具有一定的復雜性,但依靠人工智能領域的研究成果和日趨成熟的語音識別、語義分析技術,機評系統整體上已經達到了測試員的平均評測水平。本文對初始評分的抽樣調查顯示,機評系統替代測試員之后,人機評分差異值的各項指標已經達到該測試點人工評測時期的水平。將人機評測的抽樣數據與其他考點的人工評測結果比較,可以得出同樣的結論。上海市語言文字水平測試中心2009年和2010年人工評測的組內分差標準差的估計值為1.47和1.53[5](P68),以該考點人工評分差異值的標準差進行估算,“在整個評分過程中,大概會有15%左右的考生,測試員對他們評分的差異會超過3分”[5](P71)。在我們的調查中,人機評測的標準差為1.133,人機評分差異值大于等于3分的只占11.21%。

在復審樣本中,機評系統更是表現出穩定的評測性能。初評樣本中人工組評分的相關系數為0.72,高于人機組的0.53,但復審樣本中測試員1與測試員2之間的評分相關系數降為0.36,而機評系統與測試員2的相關系數仍然保持在0.52。這說明,測試員有可能受個人狀態的影響而出現評分的不穩定,而計算機在這方面具有明顯的優勢。

(二)對某些語言材料的識別能力仍有欠缺

在初始評分中,雖然人機組評分差異的各項指標與人工組接近,但其相關系數卻明顯低于人工組。這說明相比人工評測,機評系統與測試員之間存在更多分歧,其中就有因計算機信息處理而引起的評測偏誤。

復聽復審樣本發現,機評系統對某些語音錯誤和缺陷存在明顯誤判,僅我們觀察到的就有兩類。一類是對平翹舌音錯誤和缺陷的評判。這類考生的普通話存在舌尖后音明顯偏前,或平翹舌混讀同時伴有r讀作l的現象。測試員對此一般都能明顯感知并作出準確評判,而機評系統漏判較多。另一類是對明顯具有粵方言口音的評判。這類問題人耳同樣容易聽辨,但機評系統扣分明顯偏少。

復審樣本中,還有一定比例的評測偏誤表現為計算機對說話中“離題”“無效語料”等現象無法有效識別,致使考生的錯誤沒能在評分中得到體現。如一位考生在講述“我的朋友”時,將歷史上的一位革命領袖說成自己的朋友,并杜撰了共同參加戰爭的經歷。對于如此離奇的編造,評分中只有“離題”一項可以反映,人工評測很容易判斷出謬誤,而計算機卻未能識別,造成“離題”項的漏判。語義理解方面的缺陷反映出計算機在常識學習與歸納推理方面的能力亟待提高[6](P24)。

人工智能的近期研究目標在于研究用機器來模仿和執行人腦的某些智力功能[7](P18),但在進行智能信息處理時,人和計算機可以用不同的原理和方式進行活動[7](P13)。測試員對語音的評測建立在人耳聽辨的語感基礎上,而計算機的評測則是以聲學建模、預測算法等為基礎。數據學習表現的是統計頻率,不是因果關系,不是客觀規律[8](P3)。因此,計算機評測雖然在客觀性、穩定性上會優于人工評測,但一旦信息處理系統的設計存在某些缺陷,它在某一類甚至某幾類問題上的評測準確性以及對待各類考生的公平性都會受到影響。

(三)對不同水平等級的評測尺度不夠統一

4195份人機初評樣本顯示,機評35分以上的高分和29.5分以下的低分的數量明顯少于測試員1,分值有向中間集中的趨勢。結合成績等級考察發現,機評與測試員1的總平均分幾乎相同,但在不同等級的評測結果卻有差別,機評分呈現出高等級評測嚴格、中低等級評測寬松的特點。我們在機評偏誤的39份錄音中也發現,機評分顯著偏高的31個樣本中,二級甲等只有1個,其余均為二級乙等與三級甲等,這也再次印證了機評在中低等級存在寬容評測的傾向。

以上情況說明,對于不同普通話水平的考生群體,機評系統的評測尺度具有一定差異。總體而言,對一級以上的高水平考生評分偏低,對二級乙等及以下的中低水平考生評分偏高,其評測體現出寬嚴不一的特點。機評分的這一表現,反映了機評系統對語音面貌較好的高分考生和口音較重的中低分考生的評測還不夠準確,識別能力尚有不足。雖然這類偏誤程度較輕,但同樣會造成一部分考生的測試成績與實際水平相偏離,在一定程度上影響了測試的信度與測試結果的公平公正。

總的來看,提高評測的自動化程度是普通話水平測試走向現代化、科學化的必然需求,而自動化評測的生命力主要體現在評測的效率和評測結果的可信度。我們需要在廣泛的評測實踐中不斷反饋信息、檢驗結果,發現計算機評測的偏誤,優化評測系統的性能。普通話水平測試“命題說話”項采用人機合作評分的模式,恰好為我們提供了人機數據互證的條件。通過人機評分數據的對比、分析、論證,我們得以從宏觀和微觀兩個層面審視計算機評測質量的總體面貌及存在的問題。“說話”項的機評質量在總體上達到了人工評測的水平,但人機評測的相關性仍然明顯低于人工評測,反映出機評系統的評測能力尚有某些不足。語音識別能力強而語義理解能力弱;面對不同水平程度的考生,評分寬嚴尺度還難以高度一致;對某些方言口音的感知還不夠敏銳;錄音背景噪音對評分產生的干擾也不能完全避免。上述問題都反映出智能語音評測技術和評測系統設計尚有繼續完善的空間,有必要在自然語言的深度理解、高質量的語音數據庫建設與算法的優化等方面作出進一步的探索與改進。可以說,計算機智能只有在與人類的合作中才能不斷提高,本文的討論主要是基于語言學的知識和測試員對評分規則的把握,但分析的現象及揭示的問題能為進一步完善計算機評測系統提供參考。

參考文獻:

[1]王暉,曹昭,云天驕.普通話水平測試發展歷程的分期[J].語言文字應用,2013,(3).

[2]教育部語言應用管理司.計算機輔助普通話水平測試評分試行辦法[S].2009-01-09.

[3]宋欣橋.普通話水平測試員實用手冊(增訂本)[M].北京:商務印書館,2005.

[4]張瑜,牟曉云,等.統計學原理與應用[M].南京:東南大學出版社,2014.

[5]趙偉國,喬麗華,王頤嘉,等.普通話水平測試的評分誤差的影響分析[J].語言文字應用,2012,(S1).

[6]宗成慶.中文信息處理研究現狀分析[J].語言戰略研究, 2016,(6).

[7]蔡自興,等.人工智能及其應用(第5版)[M].北京:清華大學出版社,2016.

[8]李宇明.計算機正改變著我們的語言生活[J].韓山師范學院學報,2020,(1).

猜你喜歡
評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
自制C肽質控品及其性能評價
寫作交流與評價:詞的欣賞
中學語文(2015年21期)2015-03-01 03:52:11
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
HBV-DNA提取液I的配制和應用評價
西南軍醫(2015年1期)2015-01-22 09:08:16
有效評價讓每朵花兒都綻放
模糊數學評價法在水質評價中的應用
治淮(2013年1期)2013-03-11 20:05:18
保加利亞轉軌20年評價
主站蜘蛛池模板: 欧美成一级| 久久亚洲高清国产| 欧美日韩精品一区二区视频| 夜夜操国产| 欧美啪啪一区| 女同国产精品一区二区| 久久99国产综合精品1| 精品一区二区三区无码视频无码| 亚洲第一视频免费在线| 国产成人久久综合一区| 国产主播在线一区| 亚洲一区波多野结衣二区三区| 久久无码高潮喷水| 国产第一页免费浮力影院| 免费不卡在线观看av| 欧美一级黄片一区2区| 亚洲av日韩av制服丝袜| 26uuu国产精品视频| 最新亚洲av女人的天堂| 国产精品女主播| 99视频精品全国免费品| 亚洲男人在线| 国产流白浆视频| 伊人无码视屏| 欧美精品成人一区二区视频一| 国产成人精品男人的天堂下载 | 少妇精品久久久一区二区三区| 91娇喘视频| 亚洲色精品国产一区二区三区| V一区无码内射国产| 日韩欧美高清视频| 丁香综合在线| 国产精品深爱在线| 亚洲欧美日韩成人高清在线一区| 一级爆乳无码av| 国产精品永久免费嫩草研究院| 欧美成人综合在线| 青青操国产视频| 亚洲美女一区| 99这里只有精品在线| 亚洲精品波多野结衣| 亚洲二区视频| 成人一级黄色毛片| 这里只有精品在线| 99精品在线看| 美女无遮挡拍拍拍免费视频| 日韩国产欧美精品在线| 亚洲AⅤ综合在线欧美一区| 欧美日韩精品综合在线一区| 97人妻精品专区久久久久| 看你懂的巨臀中文字幕一区二区 | 中字无码av在线电影| 亚洲狼网站狼狼鲁亚洲下载| 天堂av综合网| 久久福利网| 精品国产一区二区三区在线观看| 亚洲成人高清无码| 日韩成人免费网站| 国产香蕉97碰碰视频VA碰碰看 | 国产福利一区视频| 香蕉久久国产精品免| 久久免费视频播放| 老司机精品一区在线视频| 国产一区二区福利| 久久公开视频| 夜夜拍夜夜爽| 一级不卡毛片| 在线观看国产精品第一区免费| av在线人妻熟妇| 亚洲天堂网2014| 亚洲无码久久久久| 欧美一级在线看| 国产99视频精品免费视频7 | 国产特一级毛片| 丰满少妇αⅴ无码区| 免费无码又爽又黄又刺激网站| 欧美日韩精品综合在线一区| 亚洲an第二区国产精品| 白丝美女办公室高潮喷水视频| 免费 国产 无码久久久| 国产中文一区a级毛片视频| 国产人前露出系列视频|