周小平,王 佳,馬曉軒
(北京建筑工程學院電氣與信息工程學院實驗教學中心,北京 100044)
基于VSM的電子作業反抄襲系統的設計與實現
周小平,王 佳,馬曉軒
(北京建筑工程學院電氣與信息工程學院實驗教學中心,北京 100044)
針對日益嚴重的電子作業抄襲現象,在分析目前的電子作業抄襲檢測系統無法將抄襲作業拒絕于提交之前等問題的基礎上,闡述了一套基于空間向量模型TF-IDF方法的電子作業反抄襲系統。該系統在對電子作業進行分詞的基礎上,使用空間向量模型的TF-IDF方法計算文本相似度,并依據相似度判斷電子作業是否有抄襲行為。為了解決因短時間內大量的電子作業提交而導致系統崩潰,系統使用MSMQ建立電子作業提交隊列,同時,系統還提供了電子作業評閱及系統設置等功能。系統使用時間優先策略來認定抄襲作業,有效地從抄襲者和被抄襲者上杜絕了抄襲行為。
電子作業反抄襲系統;抄襲檢測;文本相似度;向量空間模型
隨著計算機的普及和計算機技術在教學中的廣泛使用,以及電子文檔的易編輯性和閱讀性強,越來越多的教師希望作業以電子文檔的方式提交,尤其在一些以培養應用型人才為主的高等學校的計算機相關專業的課程中,幾乎所有的實踐課程成果都需要有電子版作業或電子版實踐報告,作業電子化使得學生作業整潔、易讀、美觀和易于保存。然而,電子作業的可修改和復制性,使得電子作業的抄襲更為簡單。越來越多的學生更愿意使用簡單的“復制”、“粘貼”等操作來“完成”一份作業,并且這種現象在大多數的高校中愈演愈烈[1]。它極大地影響了學習的主動性,對學習效果產生了巨大的負面效果。因此,如何有效地防止電子作業抄襲成為了計算機教學,尤其是實踐教學亟需解決的一個問題。
在高等教育大眾化的背景下,依靠人工檢測電子作業的抄襲行為,不僅效率低下[2-4],而且,準確度也不高。因此,建立行之有效的針對實踐教學環節的電子作業抄襲檢測系統,已成為了高校教學質量管理的一個重要課題。目前,部分高校的教學質量管理部門對電子作業抄襲檢測也做了相關研究。參考文獻[5]闡述了一種基于數據庫注冊機制,以句子為單位進行相似度判斷的電子作業抄襲檢測系統。它將所有學生提交的電子作業上傳到數據庫中,通過計算2篇文檔間的內容相似度來判斷該作業是否有抄襲行為。但是,該系統不能拒收存在抄襲可能的作業。參考文獻[6]提出了一種建立在網絡郵件系統基礎上的,基于句子相似度的電子作業抄襲檢測技術,其也存在著相似的問題,且依賴于郵件系統。
在研究大量實踐教學電子作業存在抄襲現象的基礎上,本文設計了一套電子作業反抄襲系統。該系統以詞為單位對文檔進行分詞,用向量空間模型表示文本,用TF-IDF公式計算分詞權重,根據向量間夾角余弦計算相似度。它在電子作業提交之前,檢測該電子作業,并拒絕接收重復率過高的電子作業,起到了很好的反抄襲作用。
大量的實踐教學電子作業表明,目前電子作業抄襲現象主要體現在:對一篇或多篇文檔的直接復制和簡單組合,即通過直接復制一篇或多篇文檔中的相關段落和句子,經過移位、刪除、同義詞替換、少量內容增加等簡單加工、組合而成。對于抄襲者而言,其能很輕易地“完成”一個作業;對于評閱教師而言,由于這些作業都是針對同一個實驗完成的,其本身就具有一定的相似性,因此,其很難通過作業內容判定該作業是否有抄襲行為。甚至,在認定2份作業存在抄襲行為的情況下,評閱教師也無法確切地知曉哪份作業是原始作業,哪份作業是抄襲作業。因此,系統在設計和實現時,主要存在的難點和核心問題有:
(1)抄襲檢測。絕大多數抄襲作業都是將多份作業進行“組裝”而成,而且,此類抄襲現象人工很難辨別。因此,本系統需要能夠檢測出一份作業抄襲自另一份或者多份其它作業的行為,從而才能有效地杜絕抄襲現象。本系統采用向量空間模型的TF-IDF方法來計算文本相似度。TF-IDF綜合考慮了不同的詞在所有文本中的權重信息[7],它能夠檢測出電子作業是否“組裝”自一份或多份已提交的電子作業。
(2)抄襲對象認定。抄襲對象認定是指當2個或者多個作業之間存在抄襲行為時,認定哪份或者哪幾分是抄襲作業的方法。當2個電子作業相似度很高時,在不采用任何策略的情況下,人工或者計算機將很難或不可能判斷哪個電子作業是屬于原創的。本系統采用時間優先策略進行抄襲對象認定。它假定先提交的電子作業不可能抄襲后提交的電子作業。也即,當2個電子作業相似度很高時,后提交的電子作業將被視為抄襲作業,并被拒絕提交到系統中。
在分析并合理解決上述問題的基礎上,綜合考慮電子作業及其提交過程中的實際情況,本文設計了一個電子作業反抄襲系統,其工作流程如圖1所示。當學生提交電子作業后,電子作業依據其提交時間的先后順序進入作業提交隊列,等待系統對其進行作業抄襲檢測。作業抄襲檢測模塊依次從作業提交隊列中取出電子作業進行檢測。作業抄襲檢測模塊依據已成功提交的電子作業,采用向量空間模型的TF-IDF算法計算相似度[8-10]。當某份電子作業所檢測的相似度大于設定閾值時,系統認為該電子作業有抄襲行為;否則,該作業為原創。當電子作業抄襲檢測完畢后,系統將檢測結果提交給檢測結果處理模塊進行處理。檢測結果處理模塊將抄襲檢測結果反饋給提交人員,并將原創的電子作業加入到電子作業數據庫。

圖1 系統結構及工作流程圖
很多實驗都要求在課程結束之前提交電子作業,由于各方面因素,大量的電子作業都會是在最后幾分鐘內提交。它要求系統能夠在短時間內接收大量的電子作業,并進行抄襲檢測。在硬件等資源有限的情況下,為了避免系統在短時間內因需要處理大量的電子作業而癱瘓,本系統使用隊列(作業提交隊列)對短時間內提交的大量的電子作業進行緩沖。
電子作業依照提交時間順序進入作業提交隊列。作業抄襲檢測模塊從作業提交隊列中取出電子作業,并進行抄襲檢測。由于隊列采用“先進先出”的原則,因此,作業抄襲檢測模塊能夠依照作業提交的先后順序進行抄襲檢測,符合時間優先策略,從而有效地認定抄襲作業。
作業抄襲檢測模塊從作業提交隊列獲取等待檢測的電子作業,并進行抄襲檢測。由于多數抄襲屬于一抄多的行為,因此,系統需要能夠檢測出一份作業抄襲來自一份或者多份作業的情況。文本相似度是表示2個或多個文本之間匹配程度的一個度量參數,相似度大,說明文本相似程度高,反之文本相似度低。本文使用文本相似度來衡量電子作業是否有抄襲已提交的電子作業的行為。
本文使用向量空間模型的TF-IDF方法計算文本相似度,其單詞權重計算使用如下公式計算。TF值通過單詞在電子作業中出現的次數除以該文檔的詞數得到。IDF由總文件數除以包含該詞的文件數目,在將得到的商取對數得到。詞語的權重由公式TF× IDF獲得[11]。
作業抄襲檢測模塊以已成功提交并保存到電子作業數據庫的電子作業為依據,計算從隊列獲取的電子作業同數據庫中電子作業的相似度。當相似度達到給定的閾值[12]時,系統將認為該電子作業有抄襲行為,反之,則認為該作業為原創作業。
作業抄襲檢測模塊將檢測結果反饋給檢測結果處理模塊。對于抄襲行為的電子作業,系統將反饋客戶端作業提交失敗,并將該電子作業置入抄襲作業文件夾。對于原創作業,系統將反饋客戶端作業提交成功,并將該電子作業置入電子作業數據庫。
在作業提交之前,教師可以根據實際情況,對電子作業進行相關設置,如實驗名稱設定、抄襲閾值設定等。當作業提交完成后,教師可以通過系統提取電子作業,并對電子作業進行評閱。
電子作業數據庫是抄襲檢測的依據,它存儲成功提交的電子作業,以及相關的基礎設置信息等。系統使用Microsoft SQL Server 2008作為電子作業數據庫。
本系統使用Visual Studio 2010實現。在作業提交隊列上,系統使用Microsoft Message Queue(MSMQ)實現。MSMQ是在多個不同的應用之間實現相互通信的一種異步傳輸模式,無論是發送方還是接收方都不用等待對方返回成功消息,就可以執行余下的代碼,因而大大地提高了事件處理的能力。在抄襲檢測模塊上,系統使用SOGOU提供的互聯網詞庫作為語料庫,使用盤古分詞法對電子作業進行分詞;然后,使用TF-IDF算法計算詞語權重,使用向量空間模型計算相似度;最后,依據所得的相似度同設定的閾值對比,判定電子作業是否有抄襲行為。檢測結果處理模塊根據所得的檢測結果,將相關信息寫入電子作業數據庫,同時,將結果反饋給客戶端。此外,系統還為教師提供了電子作業評閱及系統設置功能。該系統運行的部分界面如圖2所示。
目前,系統在幾門課程的實踐課程中進行嘗試使用,從所提交的電子文檔來看,內容重復現象較以往有巨大的改觀。

圖2 作業提交結果界面圖
針對日益嚴重的電子作業的抄襲現象以及其給教學效果帶來的巨大負面影響,本文在分析現有電子作業抄襲檢測系統的基礎上,設計并實現了基于空間向量模型的電子作業反抄襲系統。系統使用sogou語料庫,采用盤古分詞對電子作業進行分詞。為了能夠識別出大量存在的一份作業抄襲自多份作業的情況,系統使用IF-IDF方法計算各分詞權重,最終使用空間向量模型,計算文本相似度,并判斷該電子作業是否具有抄襲行為。
系統引入MSMQ建立作業提交隊列,以解決因短時間內大量上傳的電子作業而導致系統癱瘓。它是提交作業和抄襲檢測的一個緩沖,有效地緩解了系統高負荷下的壓力。為了有效認定抄襲作業,系統使用時間優先策略,也即系統認為先提交的作業不可能抄襲后提交的作業。時間優先策略使得原創作業得以提前提交,抄襲作業能夠被拒絕提交。它能有效地從抄襲者和被抄襲者上杜絕抄襲行為。
(References)
[1]王懷成.德國關注學生抄襲因特網現象[N].光明日報,2006-11-23,(12).
[2]史彥軍,騰弘飛,金博.抄襲論文識別研究與發展[J].大連理工大學學報,2005,45(1):50-57.
[3]黃俊花.反抄襲檢測系統的研究與實現[D].沈陽:沈陽理工大學,2010.
[4]金振蓉.學術不端文獻檢測系統研制成功[N].光明日報,2009-03-17:(6).
[5]秦新國,丁國勇.作業抄襲檢測系統的設計與實現[J].南京審計學院學報,2008,5(3):86-88.
[6]秦新國.電子作業管理和作業抄襲檢測技術研究[D].南京:南京師范大學,2007.
[7]冷強奎,秦玉平,王春立.基于句子相似度的論文抄襲檢測模型研究[J].計算機工程與應用,2011,47(24):199-201.
[8]郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計算的研究[J].計算機應用研究,2008,25(11):3256-3258.
[9]費洪曉,康松林,朱曉娟,等.基于詞頻統計的中文分詞的研究[J].計算機工程與應用,2005(7):10-11.
[10]沈斌.基于分詞的中文文本相似度計算研究[D].天津:天津財經大學,2006.
[11]汪忠國,吳敏.基于向量空間模型的題庫相似度檢查算法[J].計算機系統應用,2010,19(3):213-216.
[12]刁力力,王麗坤,陸玉昌,等.計算文本相似度閾值的方法[J].清華大學學報:自然科學版,2003,43(1):108-111.
Design and implementation of an anti-plagiarism system of e-homework based on vector space model(VSM)
Zhou Xiaoping,Wang Jia,Ma Xiaoxuan
(School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044,China)
To solve the issue of increasingly severe e-homework plagiarism,an anti-plagiarism system of e-homework based on the vector space model(VSM)and TF-IDF is given,after the analysis of current counterparts systems.Similarity is calculated by VSM theory and TF-IDF after the segmentation of the e-homework,and plagiarism is decided by the similarity.Microsoft Message Queue(MSMQ)is used to relieve the stress of the system,and e-homework and system configuration functions are supported.Also time preference tragedy is used.And it can validly avoid the plagiarism from both copycat and the source.
anti-plagiarism system of e-homework;plagiarism detection;similarity of text;vector space model(VSM)
TP302
A
1002-4956(2013)03-0109-03
2012-06-30
北京市優秀人才項目(2011D005017000002);北京建筑工程學院校教育科研項目(Y11-20)
周小平(1985—),男,福建壽寧,碩士,實驗師,主要從事計算機應用技術和建筑信息建模等的研究.
E-mail:zhouxiaoping@bucea.edu.cn