999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

BETSY在自動作文評分中的原理與應用

2011-12-06 01:17:34
當代外語研究 2011年1期
關鍵詞:特征文本作文

唐 進

(咸寧學院,湖北,咸寧,437100)

1. 概述

大規模的語言測試如TOEFL、CET機考等都要對應試者進行寫作能力測試。不過,英語作文大規模人工閱卷存在耗費大量人力、物力的問題,閱卷員的評判也帶有很強的主觀性。隨著計算機技術的飛速發展,自動作文評分(Automated Essay Scoring,AES)在國外已進入實際應用階段(Kukich 2000:25)。國內自動作文評分的研究雖然起步較晚,但也越來越受到學者們的重視。萬鵬杰(2005:11-13)利用電子軟件評估系統對大學英語寫作進行測試,探討電子軟件評估代替人工評估的可能性。陳瀟瀟和葛詩利(2008:78-83)等人對國外英語作文自動評分做了綜述,初步介紹了PEG(Project Essay Grade)、IEA(Intelligent Essay Assessor)、E-rater(Electronic Essay Rater)、IntelliMetricTM、BETSY(Bayesian Essay Test Scoring sYstem)等自動評分系統的基本功能。梁茂成(2005)則把他利用220個樣本的訓練集得出的評分模型應用在120個樣本的驗證集上以進行可信度驗證。

在國內外學者的研究中,我們發現BETSY系統能夠整合許多自動作文評分系統(如PEG、LSA、E-rater和IntelliMetricTM等)的優點,而且應用廣泛(文本篇幅可長可短)、容易操作、非統計學人員更容易理解(Lawrence & Tahung 2002:3-21)。因BETSY是開源軟件,它還可以免費從Internet上下載①。本文具體分析該評分系統的工作原理,并采用實證方法驗證該系統在英語作文自動評分中的應用效果。

2. BETSY的工作原理

BETSY是國外一款流行作文自動評分系統,由美國馬里蘭大學Lawrence M. Rudner博士為主研制。BETSY的核心原理是貝葉斯理論(Bayes’ Theorem),是建立在文本分類(Text Classification)基礎上的自動作文評分系統。BETSY根據一個己標注的訓練文檔集合,找到文檔特征和文檔類別之間的關系模型,然后利用這種關系模型對新的文檔進行類別判斷,達到自動評分的目的。BETSY的核心技術由文本預處理(Text Preprocessing)、文本表征(Representation)、分類方法等幾部分構成。下面,我們將分別進行說明。

2.1 文本預處理

BETSY要處理大量非結構化的自然語言文本數據,因此在對文檔進行特征提取前,需要先對這些文本數據進行相應的預處理,這將直接影響文本分類的效率、準確度以及最終模式的有效性。因此,為減少文本特征表示中的數據干擾(data-noises),改善文檔表征的質量,同時也為提高分類器的訓練和分類效率,BETSY在特征使用前,通常需要對文檔進行必要的自然語言預處理。預處理主要包括刪去停用詞(stop words)、提取詞根(stemming)和特征選擇(feature selection)等(古平2006:21)。

刪去停用詞是將英語中大量的介詞、代詞、形容詞、副詞等從特征集中去掉。BETSY停用詞列表中有319個單詞,研究者也可以自定義添加額外的停用詞。提取詞根是指將具有相同或相近形式的單詞合并為一個語義單位的過程。提取詞根的主要手段是將字尾的變化去除,例如將shopping替換為shop。BETSY采用波特算法(Porter’s stemming algorithm)進行取詞,步驟包括:將詞尾有元音的單詞es、e、ed、y替換掉(如將agreed替換為agre),替換詞尾tional、fulness、iveness為tion、ful、ive,替換詞尾icate、iveness、alize為ic、ive、al,刪除剩余的標準詞尾,例如al、ance、er、ic等等,去除詞尾的e,例如用becaus替換because等。這樣能將絕大多數字母的變化型去除掉,減少數據儲存的空間,并且能搜索出有用的信息。當然,波特算法所做的是技術處理,而不是語法規則的變換。本文預處理的特征選擇是特征降維(feature dimension reduction)方法的一種,是指從一組已知特征集中按照某一準則選擇出有很好區分特性的特征子集,或按照某一準則對特征的分類性能進行排序以用于分類器的優化設計(宋國杰等2003:1544-1545)。同時,必須先確定一個特征評價函數,并根據該函數計算每個特征得分(古平2006:21)。信息增益(information gain)是常見的特征評價函數之一(參見公式(1))。在公式中,對于特征f和文檔ci,信息增益可以通過f在ci中出現和不出現的情況來計算f的信息量:

(1)IG(f)=∑P(ci)logP(ci)+

P(f)∑P(ci|f)logP(ci|f)+

2.2 文本表征

在BETSY中,文本表征就是在給定的分類體系下,根據文本內容自動地確定文本關聯的質量類別。或者說,這就是給定一篇英語作文,為了得到其文檔表示,需要將作文中提取的有效特征合理地組織起來的過程。BETSY中文檔表征的方法采用樸素貝葉斯分類器,這是一個基于類條件的獨立性假設(樸素假設),即假設一個文檔中任何兩個特征詞之間的出現與否是相互獨立的(梁宏勝等2007:328)。其主要思想就是計算在給定一待分類文檔的條件下其屬于各個類別的條件概率,然后選擇條件概率最高的那個類別為該文檔所屬的類別。BETSY采用兩種文本表示模型:多元伯努利模型(Multivariate Bernoulli Model,MBM)和多項式模型(Multinomial Model,MM)。

多元伯努利模型是樸素貝葉斯方法最常用的實現模型之一,它使用0和1二值向量(Vector)來表示一個文檔。即d={x1,…xn},xk=1就說明特征項(item)在文本中出現,反之特征項沒有在文本中出現。無論文檔中出現或未出現的特征項均被檢測。在BETSY中,由于伯努利模型將文檔看作多重獨立的伯努利實驗,對于給定的分類cj,文本di的條件概率見公式(2):

(1-Bit)(1-P(wt|cj))]

其中V表示文章中單詞出現的特征,Bit∈(0,1),表示特征項t是否出現在文章i中。P(wt|cj)表示特征項wt出現在評分為cj的文章中的概率(在多元伯努利模型中至少要出現一次)。模型中用到的參數都要通過訓練階段,從訓練數據中訓練得到,通常取它們的最大或然估計(Maximum Likelihood Estimation)作為它們的估計值,見公式(3):

公式(3)中,Dj為訓練文檔集中分類cj的文檔數,J為分數組數。為避免出現零概率,采用Laplace平滑技術進行調整。對于給定的分類cj,文章di的概率由公式(2)給出,并乘以先驗概率,經標準化處理后得到較高的后驗概率(posterior probability)。

多項式模型也常被稱作Unigram語言模型。Unigram語言模型是N-gram的一種,當N=1時,成為Unigram模型,即詞與詞之間互相獨立,完全沒有上下文信息,反映的只是詞頻統計特性。Unigram語言模型假設詞與詞之間是相互獨立的,一個詞出現的概率與這個詞前面的詞不存在必然聯系。換句話說,在多項式模型中,文檔被看成是長度為m的單詞序列,并且假定文檔的長度與類別無關,考慮特征項在文檔中出現的頻率。并且,文檔得分的概率di在給定類別的條件概率P(di|cj)可以由公式(4)計算得到:

其中Nit是wt在文章中出現的次數,P(wt|cj)表示特征項wt出現在評分為cj的文章中的概率,從訓練集的數據中計算得到公式(5):

其中D為訓練集中所有文檔數。同樣的道理,多項式模型在評判作文分數的時候,也只能使用頻率非零的特征項。

在多變量伯努利模型中,文本中出現或未出現的特征項都需計算。在多項式模型中,只計算一篇文章中出現的特征項,每個特征項可以出現多次,并假定文檔的長度與文檔的分數無關。經過訓練集的參數估計后,多項式模型在評估一篇新的文本時,速度要比多變量伯努利模型快(Lawrence & Tahung 2002:3-21)。

2.3 分類方法

BETSY采用基于貝葉斯定理的分類方法。這是根據貝葉斯理論計算概率的一種方法,即認為一個事件會不會發生取決于該事件在先驗分布中已經發生過的次數。貝葉斯定理指出,對于事件X和Y,已知Y的概率時X發生的概率(用p{X|Y}表示)等于已知X的概率時Y發生的概率(用p{Y|X}表示)乘以X的概率(p{X}),再除以Y的概率(p{Y}),見公式(6):

(6) p{X|Y}=p{X}*p{Y|X}/p{Y}

因此,貝葉斯理論的應用有三個步驟:(1)已知類條件概率密度參數表達式和先驗概率;(2)利用貝葉斯公式轉換成后驗概率;(3)根據后驗概率大小進行決策分類。

貝葉斯理論在作文自動評分中的主要任務是根據大量的文本特征項對文本進行分類,一般分為三類或四類。Lawrence和Tahung(2002)的例子較為簡單,他們將文本分為三類(好、中、差)。因此我們需要確定三個概率:第一,“好”的文本中特征項出現的概率;第二,“中”的文本中特征項出現的概率;以及第三,“差”的文本中特征項出現的概率。我們分別設Pi=(ui=1|A),Pi=(ui=1|R)和Pi=(ui=1|I);對于每一個特征i有不同的概率;A、R和I分別代表文本的分類“好”、“中”和“差”。同時,Lawrence和Tahung(2002:3-21)強調,確定條件概率需要1000個以上的樣本量。

表1 假設特征項的條件概率②

在BETSY的官方網站上提供了一個4個特征項的例子(參見表1)。在這個例子中,假設文章包涵4個特征項,每個特征項按照“好”、“中”、“差”統計概率。觀察表1中的特征項與相應的概率,很容易發現:“好”的文章包涵特征項1(.7)和2(.8);“中”的文章包涵特征項3(.8);而“差”的文章包涵特征項4(.9)。為對這篇文章進行評分分類,我們假設先驗概率相同,即P(A)=P(R)=P(I)=.33。根據貝葉斯理論,即公式(6),得出這篇文章為“好”的概率為:P(A|ui=1)=P(ui=1|A)*P(A)/P(ui=1)=.7*.33=.233;“中”的概率為:P(R|ui=1)=P(ui=1|R)*P(R)=.6*.33=.200;“差”的概率為P(I|ui=1)=P(ui=1|I)*P(I)=.1*.33=.033。根據這些聯合概率就可獲得后驗概率:P′(A)=.233/(.233+.200+.033)=.500;P′(R)=.200/(.233+.200+.033)=.429;P′(I)=.033/(.233+.200+.033)=.071。接著,我們用得到的后驗概率作為新的先驗概率,去驗證下一個特征項,重復這一過程直到所有特征項被歸類。表2就對這一重復過程進行了說明。

表2 文本分類③

進一步假設,一篇作文包涵了特征項1、3和4,P(ui|S)的值來自表1。由于假設規定本篇習作不包涵特征項2,因此對于特征項2,就有P(ui=0)=1-P(ui=1)。根據極大后驗估計法(Maximum a posterior estimation),習作為“中”的概率為.815(表2),是最高的概率。也就是說,本篇習作的分類為“中”。BETSY就是采用這種算法對文本進行分類與評分。

3. BETSY在英語自動作文評分中的應用

下面,我們將采用實驗方法驗證BETSY在英語作文自動評分中的應用效果。在實驗中,我們比較BETSY自動作文評分與人工評分的結果,并作相關統計學處理與分析。

首先收集寫作樣本。采用2009年12月全國大學英語四級考試寫作試題“Create a Green Campus”作為數據收集工具。要求被試完成的習作字數在120左右,并要求緊扣題目。被試為1504名湖北某高校公共英語大學二年級學生。聘請兩名大學英語教師對學生習作人工評分。為簡化操作程序,習作只分為A、B、C、D四個等級,分別對應的分數為14分、11分、8分和5分,滿分為15分。兩位教師評分的一致率在86%以上。同時兩位教師對評分有爭議的樣本進行磋商,最終給出這部分樣本的平均分。綜合各方面因素,在1504篇習作中,最終確定有效樣本1187篇。其中987篇習作為訓練集樣本,200篇習作為驗證集樣本。

接下來采用版本號為1.03.55d.03.13的BETSY系統讀取樣本數據,并自動進行單詞(words)和詞對(word pairs)訓練。在此過程中,BETSY會去掉每1000詞中出現不足5次的單詞,避免數據庫過于龐大。同時,BETSY根據內建的英語停用詞表標記停用詞、采用波特算法進行取詞根處理、特征降維等,使向量維數得到進一步降低。BETSY收集完足夠信息后,實驗分別采用多元伯努利模型和多項式模型對另外200篇習作的驗證集進行自動評分,并對BETSY與人工評分的結果進行統計分析。表3是相關參數的描述統計結果。

表3 描述統計

從表3的統計結果來看,人工閱卷、多元伯努利模型和多項式模型的均值、標準差差別并不大,但多元伯努利模型與多項式模型的平均得分都比人工評分高。

表4是對人工閱卷、多元伯努利模型和多項式模型結果所作的相關性分析。從表4可知,人工閱卷與多元伯努利模型之間、人工閱卷與多項式模型之間、多元伯努利模型與多項式之間存在顯著相關(r人工閱卷-多元伯努利模型=.624,r人工閱卷-多項式模型=.611,r多元伯努利模型-多項式模型=.860,p<.01)。而且,人工閱卷與多元伯努利模型、多項式模型之間均為強相關。多元伯努利模型與多項式模型之間的相關系數達.860,兩種模型均來源于樸素貝葉斯理論,在本次實驗中的結果差別不大。

表4 相關性

注:**p<0.01。

以人工評分為x軸、以多元伯努利模型和多項式模型為y軸,分別畫出人工評分與多元伯努利模型、人工評分與多項式模型的散點圖(圖1、圖2);以多元伯努利模型為x軸,多項式模型為y軸畫出多元伯努利模型與多項式模型之間的散點圖(圖3)。從圖1-3可以看出,人工閱卷與多元伯努利模型之間、人工閱卷與多項式模型之間、多元伯努利模型與多項式模型之間均為線性正相關。

圖1 人工評分與多元伯努利模型散點圖

圖2 人工評分與多項式模型散點圖

圖3 多項式模型與多元伯努利模型散點圖

重新觀察樣本數據,發現有部分數據(14組,占總數的7%)人工評分與BETSY自動評分差別較大(表5),相差等級在兩個以上。根據整個實驗流程,我們認為出現這種現象的主要原因有三個:第一,樣本數據量不夠。和其他自動作文評分軟件相比,BETSY的樣本量要求相對較小。較小的樣本量也許會帶來評分精度的降低,不過這需要進一步的研究才能確定。第二,BETSY系統本身存在一定的系統誤差。例如,波特算法并非完美,部分字詞無法正確地將詞型、時態變化還原成原型(柯淑津2007);樸素貝葉斯模型也存在性能不穩定的問題等等(石志偉、吳功宜2004)。第三,BETSY內建的停用詞列表中有319個詞匯,這是一個通用停用詞列表,并不包含中國英語學習者的語言特征。實驗在設計過程中未考慮到要增刪停用詞列表以適合中國英語學習者特征,這也會影響到模型評分的精度。

表5 人工評分與BETSY之間的差異

綜上所述,盡管實驗中存在的一些問題尚需通過進一步的研究驗證,但BETSY的評分結果與人工評分結果確存有較強的相關性,這也充分表明BETSY具備推廣基礎。當然,我們同時也期待下一個版本的BETSY系統能夠進一步提高其評分的穩定性與準確性。

4. 結語

BETSY自動作文評分系統集多種自動作文平分系統的優點于一身。本文的實驗結果也清楚地表明它與人工評分之間存在很強的相關性,可見BETSY系統具備一定的應用基礎。

總體來看,雖然自動作文評分還面臨著一些問題,但隨著自然語言處理技術的不斷發展,相信它們在中國的大規模實施為期不遠。

附注:

① 見:http:∥echo.edres.org/betsy

② 見:http:∥echo.edres.org/betsy/bayesian_ov.htm

③ 見:http:∥echo.edres.org/betsy/bayesian_ov.htm

Kukich, K. 2000. Beyond Automated Essay Scoring [A]. In Marti A. Hearst (ed.). The debate on automated essay grading [J].IEEEIntelligentsystems(5): 25.

Lawrence M. Rudner & Tahung Liang. 2002. Automated essay scoring using Bayes’ Theorem [J].TheJournalofTechnology,LearningandAssessment(2): 3-21.

陳瀟瀟、葛詩利.2008.自動作文評分研究綜述[J].解放軍外國語學院學報(5):78-83.

古平.2006.基于貝葉斯模型的文檔分類及相關技術研究[D].重慶大學博士學位論文.

柯淑津.2007.英文檢索原型化處理[OL].http:∥www.cis.scu.edu.tw.

梁宏勝、徐建民、成岳鵬.2007.一種改進的樸素貝葉斯文本分類方法[J].河北大學學報(自然科學版)(3):328.

梁茂成、文秋芳.2007.國外作文自動評分系統評述起始[J].外語電化教學(5):18.

梁茂成.2005.中國學生英語作文自動評分模型的構建[D].南京大學博士學位論文.

石志偉、吳功宜.2004.改善樸素貝葉斯在文本分類中的穩定性[OL].http:∥www.intsci.ac.cn.

宋國杰、唐世渭、楊冬青、王騰蛟.2003.基于最大熵原理的空間特征選擇方法[J].軟件學報14(9):1544-1545.

萬鵬杰.2005.電子軟件評估系統測試大學英語寫作的研究報告[J].外語電化教學(6):11-13.

猜你喜歡
特征文本作文
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
紅批有聲作文
紅批有聲作文
紅批作文
紅批作文
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 97在线视频免费观看| 色噜噜狠狠狠综合曰曰曰| 99久久性生片| 国产自产视频一区二区三区| 国产91视频免费观看| 久青草网站| 狠狠色丁香婷婷| 欧美国产日韩另类| 欧洲在线免费视频| 亚洲视频免| 中文字幕免费播放| 高清大学生毛片一级| 在线亚洲小视频| 麻豆国产在线观看一区二区| 亚洲精品无码在线播放网站| 麻豆国产在线观看一区二区| 激情亚洲天堂| 波多野一区| 亚洲精品视频免费看| 日韩国产黄色网站| 五月婷婷综合色| 日本少妇又色又爽又高潮| 亚洲一欧洲中文字幕在线| 人人91人人澡人人妻人人爽 | 亚洲制服丝袜第一页| 老司国产精品视频| 精品夜恋影院亚洲欧洲| 三级视频中文字幕| 国产一区二区三区视频| 久久99国产综合精品女同| 欧美综合激情| 不卡无码h在线观看| 久久综合五月| 韩日无码在线不卡| 在线国产毛片| 国产成人高清在线精品| 中文字幕久久波多野结衣| 韩国v欧美v亚洲v日本v| 久久精品国产91久久综合麻豆自制 | 在线观看亚洲成人| 国产丝袜无码精品| 日韩欧美国产综合| 日韩欧美国产成人| 美女无遮挡拍拍拍免费视频| 久久狠狠色噜噜狠狠狠狠97视色 | 亚洲一级无毛片无码在线免费视频| 青青操视频在线| 欧美日韩另类国产| 欧美亚洲一区二区三区导航| 亚洲无码视频图片| 99re在线视频观看| 国产精品久久久久鬼色| 免费国产无遮挡又黄又爽| 一区二区三区在线不卡免费| 毛片久久久| 波多野结衣无码AV在线| 国产高清精品在线91| 国产精品美女网站| 日韩第一页在线| 中国国产高清免费AV片| 成年午夜精品久久精品| 免费看美女毛片| 国产超薄肉色丝袜网站| 亚洲啪啪网| 亚洲欧美日韩动漫| 九九视频在线免费观看| 午夜爽爽视频| 国产精品19p| 欧美色视频在线| 亚洲天堂精品在线观看| 国产拍在线| 久久这里只精品热免费99| 日韩精品资源| 国产91视频免费| 日本a级免费| 日日摸夜夜爽无码| 波多野结衣一二三| 国产成人喷潮在线观看| 免费无码在线观看| 成人在线视频一区| 日韩一区精品视频一区二区| 亚洲国产av无码综合原创国产|