999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于VSM的電子作業反抄襲系統的設計與實現

2013-01-17 02:13:12周小平馬曉軒
實驗技術與管理 2013年3期
關鍵詞:文本作業檢測

周小平,王 佳,馬曉軒

(北京建筑工程學院電氣與信息工程學院實驗教學中心,北京 100044)

基于VSM的電子作業反抄襲系統的設計與實現

周小平,王 佳,馬曉軒

(北京建筑工程學院電氣與信息工程學院實驗教學中心,北京 100044)

針對日益嚴重的電子作業抄襲現象,在分析目前的電子作業抄襲檢測系統無法將抄襲作業拒絕于提交之前等問題的基礎上,闡述了一套基于空間向量模型TF-IDF方法的電子作業反抄襲系統。該系統在對電子作業進行分詞的基礎上,使用空間向量模型的TF-IDF方法計算文本相似度,并依據相似度判斷電子作業是否有抄襲行為。為了解決因短時間內大量的電子作業提交而導致系統崩潰,系統使用MSMQ建立電子作業提交隊列,同時,系統還提供了電子作業評閱及系統設置等功能。系統使用時間優先策略來認定抄襲作業,有效地從抄襲者和被抄襲者上杜絕了抄襲行為。

電子作業反抄襲系統;抄襲檢測;文本相似度;向量空間模型

隨著計算機的普及和計算機技術在教學中的廣泛使用,以及電子文檔的易編輯性和閱讀性強,越來越多的教師希望作業以電子文檔的方式提交,尤其在一些以培養應用型人才為主的高等學校的計算機相關專業的課程中,幾乎所有的實踐課程成果都需要有電子版作業或電子版實踐報告,作業電子化使得學生作業整潔、易讀、美觀和易于保存。然而,電子作業的可修改和復制性,使得電子作業的抄襲更為簡單。越來越多的學生更愿意使用簡單的“復制”、“粘貼”等操作來“完成”一份作業,并且這種現象在大多數的高校中愈演愈烈[1]。它極大地影響了學習的主動性,對學習效果產生了巨大的負面效果。因此,如何有效地防止電子作業抄襲成為了計算機教學,尤其是實踐教學亟需解決的一個問題。

在高等教育大眾化的背景下,依靠人工檢測電子作業的抄襲行為,不僅效率低下[2-4],而且,準確度也不高。因此,建立行之有效的針對實踐教學環節的電子作業抄襲檢測系統,已成為了高校教學質量管理的一個重要課題。目前,部分高校的教學質量管理部門對電子作業抄襲檢測也做了相關研究。參考文獻[5]闡述了一種基于數據庫注冊機制,以句子為單位進行相似度判斷的電子作業抄襲檢測系統。它將所有學生提交的電子作業上傳到數據庫中,通過計算2篇文檔間的內容相似度來判斷該作業是否有抄襲行為。但是,該系統不能拒收存在抄襲可能的作業。參考文獻[6]提出了一種建立在網絡郵件系統基礎上的,基于句子相似度的電子作業抄襲檢測技術,其也存在著相似的問題,且依賴于郵件系統。

在研究大量實踐教學電子作業存在抄襲現象的基礎上,本文設計了一套電子作業反抄襲系統。該系統以詞為單位對文檔進行分詞,用向量空間模型表示文本,用TF-IDF公式計算分詞權重,根據向量間夾角余弦計算相似度。它在電子作業提交之前,檢測該電子作業,并拒絕接收重復率過高的電子作業,起到了很好的反抄襲作用。

1 系統設計

大量的實踐教學電子作業表明,目前電子作業抄襲現象主要體現在:對一篇或多篇文檔的直接復制和簡單組合,即通過直接復制一篇或多篇文檔中的相關段落和句子,經過移位、刪除、同義詞替換、少量內容增加等簡單加工、組合而成。對于抄襲者而言,其能很輕易地“完成”一個作業;對于評閱教師而言,由于這些作業都是針對同一個實驗完成的,其本身就具有一定的相似性,因此,其很難通過作業內容判定該作業是否有抄襲行為。甚至,在認定2份作業存在抄襲行為的情況下,評閱教師也無法確切地知曉哪份作業是原始作業,哪份作業是抄襲作業。因此,系統在設計和實現時,主要存在的難點和核心問題有:

(1)抄襲檢測。絕大多數抄襲作業都是將多份作業進行“組裝”而成,而且,此類抄襲現象人工很難辨別。因此,本系統需要能夠檢測出一份作業抄襲自另一份或者多份其它作業的行為,從而才能有效地杜絕抄襲現象。本系統采用向量空間模型的TF-IDF方法來計算文本相似度。TF-IDF綜合考慮了不同的詞在所有文本中的權重信息[7],它能夠檢測出電子作業是否“組裝”自一份或多份已提交的電子作業。

(2)抄襲對象認定。抄襲對象認定是指當2個或者多個作業之間存在抄襲行為時,認定哪份或者哪幾分是抄襲作業的方法。當2個電子作業相似度很高時,在不采用任何策略的情況下,人工或者計算機將很難或不可能判斷哪個電子作業是屬于原創的。本系統采用時間優先策略進行抄襲對象認定。它假定先提交的電子作業不可能抄襲后提交的電子作業。也即,當2個電子作業相似度很高時,后提交的電子作業將被視為抄襲作業,并被拒絕提交到系統中。

在分析并合理解決上述問題的基礎上,綜合考慮電子作業及其提交過程中的實際情況,本文設計了一個電子作業反抄襲系統,其工作流程如圖1所示。當學生提交電子作業后,電子作業依據其提交時間的先后順序進入作業提交隊列,等待系統對其進行作業抄襲檢測。作業抄襲檢測模塊依次從作業提交隊列中取出電子作業進行檢測。作業抄襲檢測模塊依據已成功提交的電子作業,采用向量空間模型的TF-IDF算法計算相似度[8-10]。當某份電子作業所檢測的相似度大于設定閾值時,系統認為該電子作業有抄襲行為;否則,該作業為原創。當電子作業抄襲檢測完畢后,系統將檢測結果提交給檢測結果處理模塊進行處理。檢測結果處理模塊將抄襲檢測結果反饋給提交人員,并將原創的電子作業加入到電子作業數據庫。

圖1 系統結構及工作流程圖

1.1 作業提交隊列

很多實驗都要求在課程結束之前提交電子作業,由于各方面因素,大量的電子作業都會是在最后幾分鐘內提交。它要求系統能夠在短時間內接收大量的電子作業,并進行抄襲檢測。在硬件等資源有限的情況下,為了避免系統在短時間內因需要處理大量的電子作業而癱瘓,本系統使用隊列(作業提交隊列)對短時間內提交的大量的電子作業進行緩沖。

電子作業依照提交時間順序進入作業提交隊列。作業抄襲檢測模塊從作業提交隊列中取出電子作業,并進行抄襲檢測。由于隊列采用“先進先出”的原則,因此,作業抄襲檢測模塊能夠依照作業提交的先后順序進行抄襲檢測,符合時間優先策略,從而有效地認定抄襲作業。

1.2 作業抄襲檢測

作業抄襲檢測模塊從作業提交隊列獲取等待檢測的電子作業,并進行抄襲檢測。由于多數抄襲屬于一抄多的行為,因此,系統需要能夠檢測出一份作業抄襲來自一份或者多份作業的情況。文本相似度是表示2個或多個文本之間匹配程度的一個度量參數,相似度大,說明文本相似程度高,反之文本相似度低。本文使用文本相似度來衡量電子作業是否有抄襲已提交的電子作業的行為。

本文使用向量空間模型的TF-IDF方法計算文本相似度,其單詞權重計算使用如下公式計算。TF值通過單詞在電子作業中出現的次數除以該文檔的詞數得到。IDF由總文件數除以包含該詞的文件數目,在將得到的商取對數得到。詞語的權重由公式TF× IDF獲得[11]。

作業抄襲檢測模塊以已成功提交并保存到電子作業數據庫的電子作業為依據,計算從隊列獲取的電子作業同數據庫中電子作業的相似度。當相似度達到給定的閾值[12]時,系統將認為該電子作業有抄襲行為,反之,則認為該作業為原創作業。

1.3 檢測結果處理

作業抄襲檢測模塊將檢測結果反饋給檢測結果處理模塊。對于抄襲行為的電子作業,系統將反饋客戶端作業提交失敗,并將該電子作業置入抄襲作業文件夾。對于原創作業,系統將反饋客戶端作業提交成功,并將該電子作業置入電子作業數據庫。

1.4 作業評閱及系統設置

在作業提交之前,教師可以根據實際情況,對電子作業進行相關設置,如實驗名稱設定、抄襲閾值設定等。當作業提交完成后,教師可以通過系統提取電子作業,并對電子作業進行評閱。

1.5 電子作業數據庫

電子作業數據庫是抄襲檢測的依據,它存儲成功提交的電子作業,以及相關的基礎設置信息等。系統使用Microsoft SQL Server 2008作為電子作業數據庫。

2 系統實現

本系統使用Visual Studio 2010實現。在作業提交隊列上,系統使用Microsoft Message Queue(MSMQ)實現。MSMQ是在多個不同的應用之間實現相互通信的一種異步傳輸模式,無論是發送方還是接收方都不用等待對方返回成功消息,就可以執行余下的代碼,因而大大地提高了事件處理的能力。在抄襲檢測模塊上,系統使用SOGOU提供的互聯網詞庫作為語料庫,使用盤古分詞法對電子作業進行分詞;然后,使用TF-IDF算法計算詞語權重,使用向量空間模型計算相似度;最后,依據所得的相似度同設定的閾值對比,判定電子作業是否有抄襲行為。檢測結果處理模塊根據所得的檢測結果,將相關信息寫入電子作業數據庫,同時,將結果反饋給客戶端。此外,系統還為教師提供了電子作業評閱及系統設置功能。該系統運行的部分界面如圖2所示。

目前,系統在幾門課程的實踐課程中進行嘗試使用,從所提交的電子文檔來看,內容重復現象較以往有巨大的改觀。

3 結論

圖2 作業提交結果界面圖

針對日益嚴重的電子作業的抄襲現象以及其給教學效果帶來的巨大負面影響,本文在分析現有電子作業抄襲檢測系統的基礎上,設計并實現了基于空間向量模型的電子作業反抄襲系統。系統使用sogou語料庫,采用盤古分詞對電子作業進行分詞。為了能夠識別出大量存在的一份作業抄襲自多份作業的情況,系統使用IF-IDF方法計算各分詞權重,最終使用空間向量模型,計算文本相似度,并判斷該電子作業是否具有抄襲行為。

系統引入MSMQ建立作業提交隊列,以解決因短時間內大量上傳的電子作業而導致系統癱瘓。它是提交作業和抄襲檢測的一個緩沖,有效地緩解了系統高負荷下的壓力。為了有效認定抄襲作業,系統使用時間優先策略,也即系統認為先提交的作業不可能抄襲后提交的作業。時間優先策略使得原創作業得以提前提交,抄襲作業能夠被拒絕提交。它能有效地從抄襲者和被抄襲者上杜絕抄襲行為。

(References)

[1]王懷成.德國關注學生抄襲因特網現象[N].光明日報,2006-11-23,(12).

[2]史彥軍,騰弘飛,金博.抄襲論文識別研究與發展[J].大連理工大學學報,2005,45(1):50-57.

[3]黃俊花.反抄襲檢測系統的研究與實現[D].沈陽:沈陽理工大學,2010.

[4]金振蓉.學術不端文獻檢測系統研制成功[N].光明日報,2009-03-17:(6).

[5]秦新國,丁國勇.作業抄襲檢測系統的設計與實現[J].南京審計學院學報,2008,5(3):86-88.

[6]秦新國.電子作業管理和作業抄襲檢測技術研究[D].南京:南京師范大學,2007.

[7]冷強奎,秦玉平,王春立.基于句子相似度的論文抄襲檢測模型研究[J].計算機工程與應用,2011,47(24):199-201.

[8]郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計算的研究[J].計算機應用研究,2008,25(11):3256-3258.

[9]費洪曉,康松林,朱曉娟,等.基于詞頻統計的中文分詞的研究[J].計算機工程與應用,2005(7):10-11.

[10]沈斌.基于分詞的中文文本相似度計算研究[D].天津:天津財經大學,2006.

[11]汪忠國,吳敏.基于向量空間模型的題庫相似度檢查算法[J].計算機系統應用,2010,19(3):213-216.

[12]刁力力,王麗坤,陸玉昌,等.計算文本相似度閾值的方法[J].清華大學學報:自然科學版,2003,43(1):108-111.

Design and implementation of an anti-plagiarism system of e-homework based on vector space model(VSM)

Zhou Xiaoping,Wang Jia,Ma Xiaoxuan
(School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044,China)

To solve the issue of increasingly severe e-homework plagiarism,an anti-plagiarism system of e-homework based on the vector space model(VSM)and TF-IDF is given,after the analysis of current counterparts systems.Similarity is calculated by VSM theory and TF-IDF after the segmentation of the e-homework,and plagiarism is decided by the similarity.Microsoft Message Queue(MSMQ)is used to relieve the stress of the system,and e-homework and system configuration functions are supported.Also time preference tragedy is used.And it can validly avoid the plagiarism from both copycat and the source.

anti-plagiarism system of e-homework;plagiarism detection;similarity of text;vector space model(VSM)

TP302

A

1002-4956(2013)03-0109-03

2012-06-30

北京市優秀人才項目(2011D005017000002);北京建筑工程學院校教育科研項目(Y11-20)

周小平(1985—),男,福建壽寧,碩士,實驗師,主要從事計算機應用技術和建筑信息建模等的研究.

E-mail:zhouxiaoping@bucea.edu.cn

猜你喜歡
文本作業檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
快來寫作業
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
作業
故事大王(2016年7期)2016-09-22 17:30:08
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 特级毛片免费视频| 亚洲一区免费看| 欧美成人亚洲综合精品欧美激情| 福利在线不卡| 国产成人无码综合亚洲日韩不卡| 国产美女91呻吟求| 国产小视频在线高清播放| 波多野结衣二区| 欧美一区日韩一区中文字幕页| 亚洲AV人人澡人人双人| 亚洲清纯自偷自拍另类专区| 亚洲性日韩精品一区二区| 无码精品国产dvd在线观看9久| 在线va视频| 女同久久精品国产99国| 无码精油按摩潮喷在线播放 | 亚洲综合专区| 亚洲综合第一页| 日韩免费毛片| 精品国产一区91在线| 91久久精品国产| 国产精品视屏| 日韩一级毛一欧美一国产| 老汉色老汉首页a亚洲| 国产高清在线精品一区二区三区 | 一级毛片免费的| 亚洲A∨无码精品午夜在线观看| 99久久精品国产自免费| 日韩一区二区三免费高清| 国产在线高清一级毛片| 在线观看国产精美视频| 综合天天色| 中文字幕日韩视频欧美一区| 久久精品丝袜高跟鞋| 国产最爽的乱婬视频国语对白| 亚洲欧洲综合| 国产精品美女在线| 国产主播喷水| 亚洲国产精品久久久久秋霞影院| 天天躁夜夜躁狠狠躁躁88| 精品国产成人高清在线| 无码专区国产精品一区| 伊人久久久大香线蕉综合直播| 亚洲AⅤ无码国产精品| 97视频精品全国免费观看| 一级片一区| 多人乱p欧美在线观看| 国产欧美另类| 亚洲视频a| 国产av无码日韩av无码网站| 538国产在线| 91啦中文字幕| 国产微拍一区| 午夜精品区| 日本午夜影院| 国产真实乱了在线播放| 亚洲国产91人成在线| 日本午夜视频在线观看| 亚洲中文字幕97久久精品少妇| 三上悠亚精品二区在线观看| 毛片网站观看| 国产一区免费在线观看| 日韩高清一区 | 日本少妇又色又爽又高潮| 毛片免费在线视频| 午夜久久影院| 国产美女无遮挡免费视频网站| 精品偷拍一区二区| 国产尹人香蕉综合在线电影 | 国产H片无码不卡在线视频| 久久久国产精品无码专区| 亚洲AV人人澡人人双人| 72种姿势欧美久久久大黄蕉| 国产精品久久久免费视频| 日韩精品成人在线| 亚洲第一色网站| 永久免费无码成人网站| 成人午夜亚洲影视在线观看| 在线99视频| 成人午夜视频网站| 午夜a级毛片| 国产午夜无码片在线观看网站|