999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于C++的抄襲檢測系統應用

2018-02-23 12:47:26申桂可
電子技術與軟件工程 2018年6期
關鍵詞:定義分析檢測

申桂可

摘要 本篇論文針對c++代碼,研究抄襲檢測方法。通過觀察與統計分析,歸納出幾類常見的抄襲攻擊,并提出相對應的防范措施。我們運用文字分析、結構分析、變量分析等方法彌補單一方法的不足。最后,我們實現出檢測系統并且和現有的抄襲檢測系統比較,實驗結果顯示我們的系統明顯的比現有系統更能檢測各種抄襲的攻擊。

【關鍵詞】抄襲 檢測 c++

1 前言

現正處于信息電子化的時代,許多信息都可通過互聯網來取得,在互聯網上也常會出現許多相似的文件。因此,當學生為了繳交的作業或報告,可能通過互聯網去收集數據,如此一來學生的作業或報告就可能有許多相似的地方,為了防止學生抄襲,我們必須要一一比對所有學生的作業,找出這些相似的部分,將會是一個浩大的工程。如果有大量的程序需要做比對,以人工的方式來檢測將會是一個很龐大的工程,因此我們嘗試開發出一個不需以人工檢測的方式去比對,但卻具有以人工方式檢測的精準度的工具,來幫助我們解決這些問題。

2 C++抄襲檢測方法

本系統分析的方法分為三種,文字分析、結構分析、變量分析。文字分析的部分我們采用了winnowing algorithm來判斷文字相似度,結構分析部部分我們引用DCS Tree的方法,并且加入了function compare和classcompare,再來是變量部分我們采用了統計分析的方法來做變量相似度的計算。通過代碼正規化和roken屬性設置能將不同代碼的格式統一化,以利于文字分析。token屬性的設置有利于結構、變量、函數、類別的分析。函數、類別分析有助于文字分析的缺失的改善。

2.1 token定義和token屬性設置

一開始我們將讀進來的檔案先轉成一字串,在將字串的每一個token取出,取出之后我們將會設置token的屬性。

token的name代表token的名稱。type代表roken是屬于文字、數字、變量、參數、函數、類別。dataType代表token的數據型態是int、 long、double. short, floatbyte. char.String、bool、void。level代表token是在第幾階層。line代表token是在整個程序的第幾 行。range、statistical Simiarity、formatlonSimiarity主要用于變量、或參數。range代表此變量、或參數適用的范圍。StatisticalSimiarity用來記錄此變量、或參數的統計相似度。formationSimiarity用來記錄此變量、或參數的結構相似度。

function的name用來記錄funciton的名稱,dataType用來記錄function的數據型態,level記錄此function在程序中的第幾層,line記錄此funciton開頭在第幾行,functionRange代表function的范圍。parameterList代表這個function所有參數的index。variableList代表這個function所有變量的index。

如果token是一個class時,我們將會以classtoken的方式來記錄所需要的信息。class的name用來記錄class的名稱,line記錄此class開頭在第幾行,classRange記錄class所包含的范圍,parameterList記錄class所有參數的index,variableList代表這個function所有變量的index,inheritancelndex表示class所繼承的class的index。childlndex記錄class被哪些class所繼承。funcitonList則記錄class里面的function。

2.2 文字分析

本論文研究的文字分析方法,采用的是Winnowing算法,而我們必須先定義幾個變量。

2.2.1 變量定義

Winnowing算法一開始會定義四個重要的變量:

(1)t:一個字串的長度。

(2)k:一個gram的長度。

(3) w: window的大小。

(4)g:gram與gram之間的間距。

2.2.2 算法流程

(1)設置變量:①k:k值必須滿足f1≤k≤t),k若超過字串的范圍則無法使用此算法,相對的,k值越小則計算出來的相似度則會明顯偏高,失去其代表的意義。因此k值的定義非常重要。②w:使用者可以依照文件大自行定義值。③g:g值必須滿足(1≤g≤k),若g值大于k則會造成某些數據會被遺漏掉。

(2)字串處理:將字串中空白的字元刪除,并將文字的中有大寫的部分全部轉成小寫。

(3)字串分割:將字串依照使用者定義的k作分割,分成一個一個gram。

(4) hash運算:將分好的gram使用hash函數產生一連串hash值。

(5)產生wmdow:將一連串計算好的hash值分別加進Wmdow里,產生一連串windOW。

(6)產生fingerprint:取出window中最小的值并記錄下其所在的位置,以方便之后辨別是否有重復取到同樣的值。

(7) fingerprint比對:比較兩個文件的fingerprint的相似度。

2.3 變量分析

此變量分析針對Kuo統計分析方法做改良,我們將不記錄變量名稱和數據型態,原因是因為最基礎的抄襲攻擊就是變量名稱的更改,所以變量名稱就沒那么的重要。統計性記錄和結構性記錄仍然會保留下來,在此我們加入了變量所在代碼的比對,以確保統計性記錄和結構性記錄的誤判。

3 總結

系統具有多方面檢查方式,包括文字、結構及統計方法,讓檢測上更具客觀性,且能夠補足單一分析方法的不足。實驗結果也顯示,我們的系統較其他更能找出抄襲的部分,也減少許多誤判的概率。

參考文獻

[1]王育花.利用遠程稿件處理系統和AMLC鑒別可疑學術不端的方法[J].編輯學報,2017(01).

[2]王文福,網絡時代期刊論文隱形學術不端挖掘策略[J].中國科技期刊研究,2016 (07).

[3]陳志賢,學術不端防范中科技期刊編輯的主體意識[J].編輯學報,2015 (02).

猜你喜歡
定義分析檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
小波變換在PCB缺陷檢測中的應用
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
主站蜘蛛池模板: 国产乱子伦无码精品小说 | 91成人在线观看| 99中文字幕亚洲一区二区| 亚洲一区二区无码视频| 久久精品人妻中文系列| 99精品欧美一区| 久久五月天国产自| 婷婷午夜影院| 99久久国产综合精品女同| 亚洲精品国产日韩无码AV永久免费网| 精品视频第一页| 日韩精品毛片人妻AV不卡| 亚洲人成网站18禁动漫无码| 男人天堂亚洲天堂| 婷婷激情五月网| 亚欧乱色视频网站大全| 国产欧美视频在线| 极品国产在线| 青青操视频在线| 内射人妻无套中出无码| jizz亚洲高清在线观看| 亚洲另类国产欧美一区二区| 日韩精品一区二区三区免费在线观看| 国产成人资源| 高清视频一区| 亚洲精品成人片在线播放| 天天摸夜夜操| 99热这里只有精品在线观看| 国产精品黑色丝袜的老师| 另类综合视频| 亚洲精品无码AⅤ片青青在线观看| 99视频国产精品| 欧美一级黄色影院| 国产对白刺激真实精品91| 在线亚洲精品自拍| 亚洲国产清纯| 免费xxxxx在线观看网站| 亚洲品质国产精品无码| 亚洲综合天堂网| 久久综合结合久久狠狠狠97色| 国产无套粉嫩白浆| 欧美成人午夜影院| 四虎永久在线精品影院| 99在线观看国产| 国产成人亚洲精品蜜芽影院| 亚洲欧美综合另类图片小说区| 91日本在线观看亚洲精品| 热99精品视频| 91无码视频在线观看| 亚洲日韩Av中文字幕无码| 再看日本中文字幕在线观看| 55夜色66夜色国产精品视频| 四虎影视8848永久精品| 亚洲无码视频图片| 国产精品xxx| 日韩一区二区三免费高清| 天堂成人av| 国产午夜福利亚洲第一| 亚洲国产精品久久久久秋霞影院| 日韩区欧美国产区在线观看| 国产成人精品第一区二区| JIZZ亚洲国产| 国产精品人人做人人爽人人添| 亚洲人成网站观看在线观看| 伊人网址在线| 久久香蕉国产线| 国产无码精品在线| 亚洲AV无码久久精品色欲| 精品三级网站| 日韩欧美国产综合| 91啦中文字幕| 狂欢视频在线观看不卡| 91欧美在线| 欧洲熟妇精品视频| 免费看a级毛片| 精品国产免费第一区二区三区日韩| 日韩精品免费一线在线观看| 亚洲AV电影不卡在线观看| 亚洲经典在线中文字幕| 国产 在线视频无码| 亚洲第一成网站| 91九色最新地址|