基于余弦文本相似度計算的英語作文評分算法的應用研究

2018-03-15 23:49:15許浩周亞萍趙亞慧

教育教學論壇 2018年6期

許浩　周亞萍　趙亞慧

摘要：本文采用TF-IDF算法以及余弦相似度的思想，提出了一種大批量英文作文的評分系統。首先以提高大批量英語作文評分效率為出發點，介紹了英文文本處理現狀及機器自動評分發展現狀。其次對如何實現機器評分做出了詳細的介紹。最后將機器評分結果與人工打分結果相對比，驗證機器評分可行性，評價其優缺點，并對其未來發展做出展望。

關鍵詞：批量處理；機器評分；預處理；余弦相似度；TF-IDF

中圖分類號：TP391.1 文獻標志碼：A 文章編號：1674-9324（2018）06-0255-02

一、引言

自然語言處理（Natural Language Processing，NLP）的應用領域非常廣泛，它是人工智能領域的重要內容。計算機自動評分（Computer-Automated Scoring）是指通過計算機程序來對導入的開放式試題文件來按照一定的標準來進行評分[1]。英語寫作是我國英語教學中很重要的一個教學環節，英語作文一般被老師用來檢測學生的英語綜合應用能力。而隨著評分試卷數量的劇增，教師為了給學生批改英語作文，需要費心費力，一字一句的對作文進行評卷檢查。長時間的評卷會造成教師過度勞累，導致評卷速度慢，效率低。再加上對作文這樣的開放式命題進行人工評分，教師難免對作文會有一些個人偏向和喜好，不同的老師批改同樣的作文也會批出不一樣的分數。

二、預處理

文本預處理（Text preprocessing），英文的文本預處理包括以下幾個步驟：除去數據中非文本部分，文本更正（如果忽略拼寫錯誤，這一步可以省略），詞干提取（stemming）和詞干還原（lemmatization），轉換為小寫，去除停用詞。

1.去除數據中非文本部分。由于英語本身就以空格作為分隔符，因此不需要像漢語文本分詞那樣使用不同的算法進行分詞。（1）去除所有的標點符號。（2）去除所有非英文字母的字符。（3）將所有的大寫英文字母轉換為小寫。

2.詞干提取。英語單詞總數雖沒有漢語組詞個數多，但具有非常豐富的詞形變化。對作文進行分詞后，應對每個詞進行詞干提取，以方便去除停用詞或更好地進行詞頻統計。詞項詞干化對于分詞結果的影響不大，但可以節省存儲空間和提高搜索和處理效率。詞干提取的方法大體可以分為兩類：基于規則的方法，基于統計的方法。

3.去除停用詞。停用詞：在信息檢索中，為節省存儲空間和提高搜索效率，在處理自然語言數據（或文本）之前或之后會自動過濾掉某些字或詞，這些字或詞即被稱為Stop Words（停用詞）。這些停用詞都是人工輸入、非自動化生成的，生成后的停用詞會形成一個停用詞表[3]。但是，并沒有一個明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的[4]。

三、TD-IDF算法

對于一篇非常長的文章，想要提取它的關鍵詞，只使用詞頻作為依據是不夠的，比如在一篇研究高斯算法的文章中“均值”、“方差”、“算法”這三個詞出現的次數是一樣的，但是卻不能說這三個詞的重要性是一樣的。根據我們人工分析，很明顯地知道在高斯算法中“均值”、“方差”比“算法”更重要，單靠詞頻不能完全反映詞項的權重。但是如果在這篇文檔中“均值”出現的次數非常多，也應當給它較大的權重，單靠文檔頻率不能完全反映詞項的權重。因此為了正確反映某個詞項的重要性，引入了TF-IDF算法[6]。

詞頻越大說明該詞在該作文中出現的次數越多，逆文檔頻率越大說明該詞越重要，因此選取TF-IDF最大的20個詞作為關鍵詞（若學生作文字數不足60詞或去除停用詞后詞項不足20個則該作文作為不規范作文，評分時只給2-5分辛苦分）。對于范文和需要評分的作文均按照以上方法選取20個關鍵詞。

四、余弦相似度

余弦相似度（Cosine similarity）是用向量空間中兩個向量夾角的余弦值作為衡量兩個文本之間的相似度。如果兩篇文本之間用詞越相似，那么這兩篇文本之間的內容也就越相似。這就是余弦相似性的基本思想[7]。向量空間模型（VSM：Vector space model）在自然語言處理領域中是很常用的相似度計算模型，在目前的研究和發展中得到了很廣泛的應用[7]。在向量空間模型中，我們可以根據每篇文章的詞頻計算得到一個詞頻向量，把兩篇文章的詞頻向量想象成空間中的兩條從坐標原點出發，指向不同方向的兩條線段。這兩條線段之間一定會形成一個夾角，夾角越小，也就意味著計算所得的余弦值越接近1，即兩個向量距離越小，也就是用詞越相似，在不涉及上下文的情況下，我們可以認為這兩個文本的內容越相似。假定a向量是[x1，y1]，b向量是[x2，y2]，那么可以將余弦定理改寫成下面的形式：

五、實驗設置

收集延吉市延邊二中某次英語考試所掃描答題卡1000份，從中隨機挑出205份作文，整理成文本文檔，統一命名，方便批量讀入程序。從中隨機挑出4篇題目，每個題目隨機挑出205份作文，整理成文本文檔，統一命名，方便批量讀入程序。

機器評分與人工評分之間是存在一定差異的，這是由于教師在為作文評分的時候是根據上下文對學生的作文進行評分，主要以作文的語義為主，而機器評分不根據上下文對學生的作文進行評分，只關注與范文之間的相似度，對于跑題的作文可以給出很好的評判，但是對抄襲的作文無法給出很好的評判。

六、結束語

本系統使用Matlab編程實現，可以對任何統一命名的英語作文進行批量評分，對格式的要求不高，可以應用于各大高校以及各初高中，在不涉及上下文語義的情況下，能夠比較客觀地對大批量英文作文做出合理評分，能夠減少教師由于主觀判斷導致的作文誤判和錯判，對作文跑題的處理非常有效。

參考文獻：

[1]陳鄞.李生.自然語言處理基本理論和方法[M].哈爾濱工業大學出版社，2013：08.

[2]孔明.國外計算機自動評分研究現狀述評[D].北京師范大學.

[3]CSDN博客，shijiebei2009，最全英文停用詞表整理（891個），2014，9-30[Z].

[4]百度百科[EB/OL].baike.baidu.com.

[5]CSDN博客，一座青山，TF-IDF及其算法，2016，9-15[Z].

[6]阮一峰.TF-IDF與余弦相似性的應用，2013，3-13[Z].

[7]博客園，CNBlog，文本相似度算法——空間向量模型的余弦算法和TF-IDF，2014[Z].

教育教學論壇2018年6期

教育教學論壇的其它文章: 基于項目驅動的機械基礎實驗教學改革與實踐; 食品微生物實驗教學改革之探討; 翻轉課堂在物理化學實驗教學中的應用; 基于演化博弈理論的高校間實驗室資源共享研究; “互聯網+”時代下的高職UI課程教學改革研究; 運動類APP對高校體育教學的影響