梁斌 陳家湖 馮曉鋒 周富肯

摘 ?要:查重抄襲分析是在計算機系教學領域中尤為重要的一個研究支線,近年來,越來越多計算機門類的教評工作者采取了線上批改方案以此進行教學工作的展開,故代碼的查重抄襲分析工作開始逐步成為了業內焦點,由此引申出的分析模型系統自然備受矚目,目的是為每一名使用者完成其自身獨立的數據模型構建,產出相對便利教學工作的優勢輸出。本文將對目前主要查重以及抄襲分析的研究方向,應用等方面進行展開討論,通過比較和分析的手法完成查重分析目前的應用趨勢以及未來展望。
關鍵詞:查重;抄襲分析;數據模型;類比分析;綜述;性質
1 數據模型及公式
抄襲檢測分析系統中,使用者的數據內容主要有以下幾點,提交人的學號,學生姓名,提交時間,成功提交題目數量,總得分,代碼內容等。由此完成抄襲檢測抄襲分析的首要工作。每一位使用者錄入的數據模型不盡相同,故此將會根據每人相應的數據內容得出不同的分析數據,但這份分析報告也并非為獨立個體,將會劃分入統計系統中,以直觀圖表形式顯示。上述討論為分析的基本信息,當然對于使用者數據部分不僅于此,根據不同試題提交時間的不同,可以對每一道題目進行時間間隔的分類管理,從而得出這一題的大致耗時為多久,同時計算成功提交題目的數量,計算在相應時間間隔中,一次即提交成功的題目數量占比為多少,這些使用者的數據皆能良好反應抄襲率的起伏變化。同時代碼內容的錄入也能夠成為抄襲分析的數據支撐量,從而在頁面上精準顯示相應的計算分析內容,使得教評工作人員直觀得出需求數據。
對于一個學生來說,該名學生的平均查重率 為
學生的抄襲率 為
在不同的課程中有不同的題型,對于選擇填空這種有固定答案的題目,要將分數權重控制在20%以內,著重分析編程題這種不止一種寫法的題目情況。
一個學生在一次題目集的作業中的分數score為
2 抄襲分析的具體實現
抄襲分析是為了找出那些學習編程只是為了應付作業,敷衍了事的學生。在進行分析之前,我們要分析下這類的學生學習習慣。一般來說,對于認真學習的學生的定義是在老師布置好作業后,會第一時間去完成作業,會對學習抱有熱情,這樣的學生在代碼提交平臺上的具體表現就是會大量的做編程題目,對于一些難題會出現多次提交,但是不會是一次就得到正確答案的。而對于敷衍了事的學生,老師布置的作業從來都是漠不關心,甚至很多時候都會拖到最后時刻逼不得已才去做的。只要抓住這種學生的做作業習慣很容易可以推斷出實行抄襲的學生的作業特點為:
(1)作業提交的時間接近作業提交的截止時間。
(2)編程作業的代碼的查重率會非常高。
(3)在短時間內多次提交作業,并且連續提交的通過率接近甚至等于100%。
抓住以上的三個特點就可以容易的指定出一條篩選抄襲作業的學生的規則,對于第一個提交時間接近截至時間,我們選擇忽視掉,因為每個人的學習時間都不是固定的,作業晚提交也不能說他抄襲作業。
進行抄襲分析主要通過特點2和特點3來進行篩選:
對于一個學生,首先利用代碼提交表查找這個學生在這次作業中提交正確的題目,然后根據查重表找出這些題目查重率是100%的題目(查重率100%不代表這個人是抄襲的,因為對于某些題目的解題方法都存在相同的解法)。找出查重率為100%的題目后,根據提交時間將這些題目進行排序,如果相鄰的兩個題目在短時間內(10分鐘到30分鐘)進行提交并且一次就通過了,那么的話這個學生的做的這個題目就很大概率是抄襲的,這個短時間在不同的難度的作業應該是可以進行適當的進行改變,對于大多數的題目來說,經過多次實驗短時間內的時間設置在15分鐘內最為合適。
抄襲分析的結果與實際結果的誤差與誤差分析:
將實際手動進行篩選抄襲的題目與抄襲分析得出的結果進行比較后,兩者之間的誤差在10%以內,說明雖然實現的邏輯簡單但是得到的結果也是有效的。會得到這種效果的原因在于:
認真編程的學生通常會完成一道題目就會提交一次,出錯就會改進后再提交直到題目通過為止,而敷衍了事去抄襲作業提交的學生會從別人或者從網上得到答案后直接進行復制粘貼點擊提交就完成一道題目。這樣做得到的結果就是短時間內產生大量的正確提交。然后這樣就會被我們設置的規則捕捉到,進而找出抄襲的題目。
之所以會產生10%以內的誤差經過分析得出的主要原因有一下幾點:
(1)在某些作業集中會存在個別題目十分簡單,這類題目的查重率會非常之高,此時設置的15分鐘的時間限制就會出現差錯。
(2)存在一些學生會將題目全部完成再進行提交。
3 結束語
隨著互聯網逐步跨越性發展,大數據時代的不斷深入,越來越多的高校采取了完全網絡化的課程方式,這種現象在計算機系學科中尤為突出,將網絡化以及數據化應用于日常教學中,例如課程上的設置以及作業的安排。在這一背景趨勢下,題庫網站的出現成為了熱門焦點,其中抄襲查重分析的出現使得這一門類的學業輔助網站更添競爭力,擁有著更加廣闊的發展前景。據此基于本文的討論內容我們可以輕易得出,目前的市場應用場景處于一個穩步上升期。我們在本文上述討論內容中,介紹了查重的基本性質,分類,作用等,同時完成了代碼分析的數據處理工作詳述,構建了用戶數據模型,完成更有效的精準分析工作,于此這一的工作我們期望更多同行研究人員能夠朝著這一方向開展更為詳盡的探討以及更為深入的研究。
參考文獻
[1] ?方興林.博弈論視野下大學生課程作業抄襲現象研究[J].《安慶師范學院學報:社會科學版》,2016,35(3期):128-130.
[2] ?何曉柯.大學生畢業論文抄襲現象透析及遏制對策[J].現代物業(中旬刊),2011:35-37.
[3] ?王明昊.程序代碼相似性檢測在論文抄襲判定中的應用[J].計算機光盤軟件與應用,2010:145-146.
[4] ?沈林.大學生作業抄襲現象的根源分析及解決思路探討[J].中國科技信息,2009(17):247-248.
[5] ?李書偉,王琪.大學生抄襲作業現象的分析探討[J].中國科技信息,2007:241+243.