999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于余弦文本相似度計算的英語作文評分算法的應用研究

2018-03-15 23:49:15許浩周亞萍趙亞慧
教育教學論壇 2018年6期

許浩 周亞萍 趙亞慧

摘要:本文采用TF-IDF算法以及余弦相似度的思想,提出了一種大批量英文作文的評分系統。首先以提高大批量英語作文評分效率為出發點,介紹了英文文本處理現狀及機器自動評分發展現狀。其次對如何實現機器評分做出了詳細的介紹。最后將機器評分結果與人工打分結果相對比,驗證機器評分可行性,評價其優缺點,并對其未來發展做出展望。

關鍵詞:批量處理;機器評分;預處理;余弦相似度;TF-IDF

中圖分類號:TP391.1 文獻標志碼:A 文章編號:1674-9324(2018)06-0255-02

一、引言

自然語言處理(Natural Language Processing,NLP)的應用領域非常廣泛,它是人工智能領域的重要內容。計算機自動評分(Computer-Automated Scoring)是指通過計算機程序來對導入的開放式試題文件來按照一定的標準來進行評分[1]。英語寫作是我國英語教學中很重要的一個教學環節,英語作文一般被老師用來檢測學生的英語綜合應用能力。而隨著評分試卷數量的劇增,教師為了給學生批改英語作文,需要費心費力,一字一句的對作文進行評卷檢查。長時間的評卷會造成教師過度勞累,導致評卷速度慢,效率低。再加上對作文這樣的開放式命題進行人工評分,教師難免對作文會有一些個人偏向和喜好,不同的老師批改同樣的作文也會批出不一樣的分數。

二、預處理

文本預處理(Text preprocessing),英文的文本預處理包括以下幾個步驟:除去數據中非文本部分,文本更正(如果忽略拼寫錯誤,這一步可以省略),詞干提取(stemming)和詞干還原(lemmatization),轉換為小寫,去除停用詞。

1.去除數據中非文本部分。由于英語本身就以空格作為分隔符,因此不需要像漢語文本分詞那樣使用不同的算法進行分詞。(1)去除所有的標點符號。(2)去除所有非英文字母的字符。(3)將所有的大寫英文字母轉換為小寫。

2.詞干提取。英語單詞總數雖沒有漢語組詞個數多,但具有非常豐富的詞形變化。對作文進行分詞后,應對每個詞進行詞干提取,以方便去除停用詞或更好地進行詞頻統計。詞項詞干化對于分詞結果的影響不大,但可以節省存儲空間和提高搜索和處理效率。詞干提取的方法大體可以分為兩類:基于規則的方法,基于統計的方法。

3.去除停用詞。停用詞:在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成后的停用詞會形成一個停用詞表[3]。但是,并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的[4]。

三、TD-IDF算法

對于一篇非常長的文章,想要提取它的關鍵詞,只使用詞頻作為依據是不夠的,比如在一篇研究高斯算法的文章中“均值”、“方差”、“算法”這三個詞出現的次數是一樣的,但是卻不能說這三個詞的重要性是一樣的。根據我們人工分析,很明顯地知道在高斯算法中“均值”、“方差”比“算法”更重要,單靠詞頻不能完全反映詞項的權重。但是如果在這篇文檔中“均值”出現的次數非常多,也應當給它較大的權重,單靠文檔頻率不能完全反映詞項的權重。因此為了正確反映某個詞項的重要性,引入了TF-IDF算法[6]。

詞頻越大說明該詞在該作文中出現的次數越多,逆文檔頻率越大說明該詞越重要,因此選取TF-IDF最大的20個詞作為關鍵詞(若學生作文字數不足60詞或去除停用詞后詞項不足20個則該作文作為不規范作文,評分時只給2-5分辛苦分)。對于范文和需要評分的作文均按照以上方法選取20個關鍵詞。

四、余弦相似度

余弦相似度(Cosine similarity)是用向量空間中兩個向量夾角的余弦值作為衡量兩個文本之間的相似度。如果兩篇文本之間用詞越相似,那么這兩篇文本之間的內容也就越相似。這就是余弦相似性的基本思想[7]。向量空間模型(VSM:Vector space model)在自然語言處理領域中是很常用的相似度計算模型,在目前的研究和發展中得到了很廣泛的應用[7]。在向量空間模型中,我們可以根據每篇文章的詞頻計算得到一個詞頻向量,把兩篇文章的詞頻向量想象成空間中的兩條從坐標原點出發,指向不同方向的兩條線段。這兩條線段之間一定會形成一個夾角,夾角越小,也就意味著計算所得的余弦值越接近1,即兩個向量距離越小,也就是用詞越相似,在不涉及上下文的情況下,我們可以認為這兩個文本的內容越相似。假定a向量是[x1,y1],b向量是[x2,y2],那么可以將余弦定理改寫成下面的形式:

五、實驗設置

收集延吉市延邊二中某次英語考試所掃描答題卡1000份,從中隨機挑出205份作文,整理成文本文檔,統一命名,方便批量讀入程序。從中隨機挑出4篇題目,每個題目隨機挑出205份作文,整理成文本文檔,統一命名,方便批量讀入程序。

機器評分與人工評分之間是存在一定差異的,這是由于教師在為作文評分的時候是根據上下文對學生的作文進行評分,主要以作文的語義為主,而機器評分不根據上下文對學生的作文進行評分,只關注與范文之間的相似度,對于跑題的作文可以給出很好的評判,但是對抄襲的作文無法給出很好的評判。

六、結束語

本系統使用Matlab編程實現,可以對任何統一命名的英語作文進行批量評分,對格式的要求不高,可以應用于各大高校以及各初高中,在不涉及上下文語義的情況下,能夠比較客觀地對大批量英文作文做出合理評分,能夠減少教師由于主觀判斷導致的作文誤判和錯判,對作文跑題的處理非常有效。

參考文獻:

[1]陳鄞.李生.自然語言處理基本理論和方法[M].哈爾濱工業大學出版社,2013:08.

[2]孔明.國外計算機自動評分研究現狀述評[D].北京師范大學.

[3]CSDN博客,shijiebei2009,最全英文停用詞表整理(891個),2014,9-30[Z].

[4]百度百科[EB/OL].baike.baidu.com.

[5]CSDN博客,一座青山,TF-IDF及其算法,2016,9-15[Z].

[6]阮一峰.TF-IDF與余弦相似性的應用,2013,3-13[Z].

[7]博客園,CNBlog,文本相似度算法——空間向量模型的余弦算法和TF-IDF,2014[Z].

主站蜘蛛池模板: 日韩在线第三页| 国产一区二区三区在线精品专区| a国产精品| 色综合激情网| 亚洲天堂视频在线播放| 免费在线色| 真人免费一级毛片一区二区| 亚洲黄色网站视频| 久久伊人操| 国产一级二级三级毛片| 精品亚洲麻豆1区2区3区| 亚洲午夜天堂| 欧美国产日本高清不卡| 精品久久久久久中文字幕女| 久久狠狠色噜噜狠狠狠狠97视色| 国产玖玖玖精品视频| 亚洲天堂网在线播放| 日本尹人综合香蕉在线观看| 欧美日韩国产在线播放| 亚洲娇小与黑人巨大交| 1769国产精品视频免费观看| 97精品国产高清久久久久蜜芽 | 欧美国产菊爆免费观看| 免费无遮挡AV| 72种姿势欧美久久久大黄蕉| 国产精品成人AⅤ在线一二三四| 91视频区| 激情综合婷婷丁香五月尤物 | 国产va欧美va在线观看| 视频国产精品丝袜第一页| 91国内视频在线观看| 天堂av高清一区二区三区| 国产欧美日韩免费| 亚洲视频影院| 国产a v无码专区亚洲av| 无码日韩视频| 欧美性色综合网| 亚洲av无码久久无遮挡| 欧美精品亚洲二区| 国产成人无码Av在线播放无广告| 国产精品网址在线观看你懂的| 激情综合激情| 怡红院美国分院一区二区| 女人一级毛片| 精品人妻无码中字系列| 亚洲色无码专线精品观看| 久久人搡人人玩人妻精品一| 欧美不卡视频在线| 国产一级一级毛片永久| 无码精品国产VA在线观看DVD| 久久黄色毛片| 中文字幕有乳无码| 日本在线免费网站| 亚洲国产精品一区二区第一页免 | 波多野结衣中文字幕久久| 国产白丝av| 91麻豆国产视频| 99久久国产自偷自偷免费一区| 91久久偷偷做嫩草影院免费看 | 亚洲精品无码成人片在线观看| 欧美一区二区精品久久久| 日本三级欧美三级| 国产美女在线观看| 99视频在线精品免费观看6| 又黄又湿又爽的视频| 99久久这里只精品麻豆| 免费在线色| 国产主播一区二区三区| 91在线播放免费不卡无毒| 国产91视频免费观看| 全裸无码专区| 日本在线欧美在线| 日本不卡视频在线| 亚洲乱码精品久久久久..| 四虎成人免费毛片| 全部毛片免费看| 在线另类稀缺国产呦| 女同久久精品国产99国| 好吊色妇女免费视频免费| 久久99精品久久久久久不卡| 青青青草国产| 尤物亚洲最大AV无码网站|