摘 要:網絡遠程教學是目前最具潛力的遠程教學方式,評價系統是遠程教育系統的重要組成部分。現有的系統對于教師評價工作的支持是不足的,評價系統可支持是非、選擇等題庫,但不易以標準答案作為評分依據,且無法客觀評分的論述性題目是遠程教育發展的障礙。論述類題目評分的難點在于評分者易受其它因素影響,缺乏客觀且一致的評分標準。本文應用中文自然語言處理與信息檢索技術,構建一個論述性題目自動評分系統模型,以期增強遠程教育系統的評價支持功能。
關鍵詞:遠程教育 教學評價 信息檢索 論述類題目
一、問題提出
對遠程教育來說,除了教學內容與環境的提供外,教學評價也十分重要。由于評價能夠反映學生的學習成效并提供給教師作為修改教學策略的參考,所以,遠程教育系統應當包含教學評價功能,尤其是教學評價的自動化與實時反饋等功能。現有系統對評價的支持功能,大體上是對是非、選擇、填空等題型的命題、評分與統計分析等功能,有些教學系統還提供動態題庫的教學支持功能。但是,對于問答或論文式考題這類的題型,或者是學生的在線討論與報告等以文字為主的學習檔案,目前的系統尚不能以自動評分的方式支持教師,而仍必須依賴教師以人工的方式綜合歸納與評分。因此,對于國內的遠程教育系統而言,提供有效的對論述類題目評價的自動評分支持工具,是十分值得研究的題材。
二、論述類題目的教學評價
論述類題目在評分時通常存在不夠客觀的問題。論述類題目評分時,易受其它無關因素影響,如拼字、標點、文法錯誤、答案長短等因素影響,評分者常會偏重寫作的表達能力。評分時很難維持一致的標準,因此信度偏低,需教師以人工方式逐一評閱,缺乏效率。
計算機技術在測驗上的應用,由最早的只是作為測驗后結果的計算,發展為由測驗設計、題庫建立、計分等等過程都可以在計算機上執行,大大提高了時間與經濟上的效率。其中評分方面,以本研究所針對的論述類題目而言,人工逐一評分的方式會耗費相當大的時間與成本,如果能以計算機自動評分,則會帶來許多的方便。除此之外,現在的遠程教育系統也要求將論述類題目的答案在網上提交,所以計算機自動評分有相當的可能性。
三、論述類題目自動評分系統模型
一般來說,相同等級的論述類題目使用的字詞大致上會相同(Burstein,1998),因此,本模型是提取學生所用的關鍵詞作為評分的依據。關鍵詞提取的方法有詞性過濾(part-of-speech filtering)與詞性標記法(part-of-speech tagging),但是,詞性過濾法不適合中文,因為其斷詞的模糊不清會加重詞性模糊的問題,所以,處理中文字通常都是使用詞性標記的方式(Chen,2000)。
在本模型中論述類題目自動評分程序分為兩個階段:
第一個階段屬于訓練的階段。
首先,先以傳統人工的方式,對于每篇文章先給予評等,將文章分為n 等級。第二個步驟,將n 等級內的答案分別合并成各等級的答案文件。第三個步驟,從合并的答案文件中建立n 個等級的關鍵詞向量。最后,再將各個向量存入評分規則數據庫。其過程如圖一。
但是中文各字之間沒有像英語等語言的字詞間以空格產生的斷詞,因此,在尋找出評分規則建立關鍵詞向量之前,必須先將文字作事先的處理,就是利用自然語言處理技術將所有的文章都先經過斷詞與去虛詞(如:之、的、將等)的處理,再利用詞性標記方式,將每各詞的詞性標示出來,接下來再按照句法取出文章中的關鍵詞為何并建立關鍵詞向量,如圖二。
第二個階段為自動評分機制階段。
首先,將每一個待評分的答案先如圖三模式建立關鍵詞向量,也就是先經過事先處理。建立關鍵詞向量的方法將采用信息檢索領域中沿用多年的Salton所提出的Vector space model(Salton,1994),自動評分機制將評分規則中的關鍵詞向量看作Vector space model 中所提的文件向量D ,學生答案的關鍵詞向量看作待處理之向量Q
第二步,如圖四所示,運用所建立的關鍵詞向量Q 逐一與評分規則數據庫中若干個等級的關鍵詞向量D 計算出每一個等級的相似程度S 。其中的Q 就是第j個學生答案的關鍵詞向量。
最后,找出相似程度最高S 的等級,將該答案歸于這一等級,即得到該答案的分數。
四、討論與結束語
此模式能夠支持遠程教學系統中的教學評價,減少教師負擔與閱卷成本。本評分系統模型中評價規則部分仍需要以人工的方式建立評分規則庫。雖然無法完全取代人工,但可以替代部分人工的評分工作,且具有可信度。對于較重要的考試,如資格認證等等,通常需要兩個以上的評分者,其所需的成本較高,此時該系統便可作為第二個閱卷者,以減少評分花費的成本。雖然自動評分系統能夠減少成本,但是它仍有些缺點存在,由于以字詞作為處理的根據而未將其順序加以考慮,所以,會出現兩篇的分數相同、用詞相似但是其內容差異較大的情況。不過大體上來說,自動評分系統的存在還是有必要的,并且可有效地解決教師及評價等問題。
參考文獻:
[1]曹亦薇,楊晨.使用潛語義分析的漢語作文自動評分研究考試研究[J].考試研究,2007,(1):63-71.
[2]嵇敏.自動評分系統的設計與實現[J].遼寧師范大學學報(自然科學版),2006,(6):93-94.
[3]Chen Y.J.,Scalable summarization for chinese text[D].2000.6.
[4]Burstein,J.,Automated Scoring Using A Hybrid Feature Identification Technique,PAMAC,,Montreal,Canada,1998.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”