999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

實(shí)驗(yàn)報(bào)告抄襲檢測(cè)系統(tǒng)的研究

2021-06-21 01:39:36于海浩黃成哲
關(guān)鍵詞:特征文本檢測(cè)

于海浩,汪 偉,黃成哲,孫 栩

(黑龍江工程學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150050)

抄襲檢測(cè)是反抄襲的有效手段,是幫助教師評(píng)價(jià)學(xué)生學(xué)習(xí)成果的有力工具,對(duì)學(xué)校教育教學(xué)質(zhì)量的提高有重大的促進(jìn)作用[1]。許多學(xué)校和機(jī)構(gòu)都制定了各種學(xué)術(shù)規(guī)范和標(biāo)準(zhǔn)來(lái)檢測(cè)抄襲[2-4]。國(guó)內(nèi)應(yīng)用最廣泛的是CNKI,國(guó)外抄襲檢測(cè)系統(tǒng)主要有Turnitin、PlagScan、Dupli Checker、Plagiarism Checker、Copyleaks等系統(tǒng)。

針對(duì)抄襲檢測(cè)技術(shù)的應(yīng)用,學(xué)生不斷實(shí)施反抄襲技術(shù)。他們利用改變語(yǔ)序、相似詞替換、主被動(dòng)語(yǔ)句修改、概念泛化等多種手段來(lái)逃避抄襲系統(tǒng)的檢測(cè)。這種行為對(duì)抄襲檢測(cè)軟件構(gòu)成嚴(yán)峻挑戰(zhàn),需要抄襲檢測(cè)軟件不斷地改進(jìn)抄襲檢測(cè)的算法和模型。抄襲語(yǔ)料是抄襲檢測(cè)技術(shù)的研究基礎(chǔ),反映真實(shí)抄襲文本的語(yǔ)料庫(kù)對(duì)抄襲現(xiàn)象和規(guī)律的分析、抄襲檢測(cè)算法的設(shè)計(jì)起著至關(guān)重要的作用[5]。但抄襲者一般不會(huì)同意將他所采用的多種反抄襲手段和反抄襲改寫(xiě)的內(nèi)容應(yīng)用于研究中,使得真實(shí)抄襲檢測(cè)語(yǔ)料庫(kù)的獲取比較困難。

針對(duì)學(xué)生多變的抄襲手段和抄襲語(yǔ)料匱乏的問(wèn)題,開(kāi)發(fā)了實(shí)驗(yàn)報(bào)告抄襲檢測(cè)系統(tǒng),在實(shí)現(xiàn)實(shí)驗(yàn)、實(shí)習(xí)報(bào)告、課程論文、作業(yè)等抄襲檢測(cè)的基礎(chǔ)上,創(chuàng)新性地增加了以下三項(xiàng)功能:

1)針對(duì)不同抄襲類(lèi)型的自適應(yīng)抄襲檢測(cè)。系統(tǒng)使用自適應(yīng)抄襲類(lèi)型檢測(cè)算法[6],動(dòng)態(tài)判別不同抄襲類(lèi)型,涵蓋了對(duì)照搬照抄、簡(jiǎn)單修改的低模糊抄襲、釋義修改的高模糊抄襲的檢測(cè)。

2)抄襲語(yǔ)料自動(dòng)獲取。系統(tǒng)使用基于自然標(biāo)注的抄襲語(yǔ)料獲取算法[7-9],從學(xué)生多次提交的同一主題的文檔中自動(dòng)獲取高質(zhì)量的釋義抄襲語(yǔ)料。

3)抄襲算法自動(dòng)更新。系統(tǒng)通過(guò)自動(dòng)獲得的抄襲語(yǔ)料不斷訓(xùn)練抄襲檢測(cè)模型,實(shí)現(xiàn)抄襲檢測(cè)算法的自動(dòng)更新。

在實(shí)現(xiàn)創(chuàng)新性功能的基礎(chǔ)上,使用實(shí)驗(yàn)報(bào)告抄襲檢測(cè)系統(tǒng),對(duì)提高高校教學(xué)質(zhì)量、減輕教師工作負(fù)擔(dān)具有重要價(jià)值。主要作用有如下幾個(gè)方面:

1)方便了解學(xué)生專(zhuān)業(yè)知識(shí)的掌握情況。教師利用系統(tǒng)的智能化分析,能夠很好地了解學(xué)生對(duì)專(zhuān)業(yè)知識(shí)的掌握情況,并能夠做出合理的作業(yè)評(píng)價(jià),有利于學(xué)生水平的整體提高。

2)減輕教師的工作負(fù)擔(dān)和壓力。系統(tǒng)的重復(fù)性檢測(cè)可以讓教師免去審查學(xué)生是否具有抄襲行為的工作,極大地減輕了教師的工作負(fù)擔(dān)和壓力,同時(shí)通過(guò)報(bào)告質(zhì)量檢測(cè)中的自動(dòng)打分,可以輔助教師完成作業(yè)、報(bào)告的批改工作,減少教師的工作量。

3)有利于改變學(xué)校學(xué)風(fēng)。反抄襲技術(shù)在教學(xué)活動(dòng)中的使用,能夠促進(jìn)學(xué)生的自主學(xué)習(xí)和創(chuàng)新意識(shí),保證學(xué)校畢業(yè)生的質(zhì)量,營(yíng)造學(xué)生良好的學(xué)習(xí)氛圍。

1 系統(tǒng)框架和核心算法

實(shí)驗(yàn)報(bào)告抄襲檢測(cè)系統(tǒng)以在抄襲檢測(cè)國(guó)際評(píng)測(cè)PAN@CLEF上多次獲得第一名的抄襲檢測(cè)算法為技術(shù)基礎(chǔ),圍繞高校與課程相關(guān)的各種文檔的原創(chuàng)性檢查這一主要功能,實(shí)現(xiàn)實(shí)驗(yàn)、實(shí)習(xí)報(bào)告、作業(yè)等全過(guò)程質(zhì)量管理,輔助教師評(píng)估學(xué)生報(bào)告質(zhì)量,實(shí)時(shí)發(fā)現(xiàn)報(bào)告中的學(xué)術(shù)不端問(wèn)題,有效預(yù)防抄襲行為,引導(dǎo)學(xué)生遵守學(xué)術(shù)規(guī)范,樹(shù)立學(xué)術(shù)誠(chéng)信。

在本系統(tǒng)中,教師的主要任務(wù)是建立課程和該課程下的所有實(shí)驗(yàn),導(dǎo)入學(xué)生數(shù)據(jù),設(shè)定相關(guān)參數(shù)。教師人工檢查學(xué)生報(bào)告是否抄襲交由系統(tǒng)自動(dòng)完成,極大地減輕了教師的工作負(fù)擔(dān),降低了抄襲率。具體對(duì)比情況見(jiàn)表1。學(xué)生主要任務(wù)是將自己的報(bào)告形成電子文檔后上傳到系統(tǒng)中,對(duì)于報(bào)告沒(méi)有通過(guò)的學(xué)生,需要修改后重新上傳報(bào)告。系統(tǒng)通過(guò)從學(xué)生多次提交的同一主題文檔中自動(dòng)獲取高質(zhì)量的釋義抄襲語(yǔ)料,并且利用這些語(yǔ)料不斷訓(xùn)練更準(zhǔn)確的抄襲檢測(cè)算法和模型[6]。具體對(duì)比情況見(jiàn)表2。

表1 抄襲比重與效率對(duì)比調(diào)查

表2 抄襲檢測(cè)時(shí)間與準(zhǔn)確率對(duì)比

1.1 系統(tǒng)總體框架

系統(tǒng)總體框架如圖1所示。其中,文本的深度匹配模塊實(shí)現(xiàn)針對(duì)不同抄襲類(lèi)型的自適應(yīng)抄襲檢測(cè),抄襲語(yǔ)料構(gòu)建器實(shí)現(xiàn)抄襲語(yǔ)料自動(dòng)獲取,并且向文本的深度匹配模塊提供模型訓(xùn)練和更新的數(shù)據(jù)。

圖1 系統(tǒng)總體框架

1.2 抄襲語(yǔ)料自動(dòng)獲取

圖2 抄襲語(yǔ)料構(gòu)建過(guò)程

1.3 自適應(yīng)抄襲檢測(cè)

1.3.1 多類(lèi)型文本特征提取

現(xiàn)有的研究大多以文本在某類(lèi)特征上(如詞匯、語(yǔ)義等)的相似度作為是否存在抄襲的依據(jù)。這樣的方法在低模糊的抄襲和非模糊的抄襲上取得了較好的效果,但在高模糊抄襲的識(shí)別上卻丟失了大量的抄襲種子,最終無(wú)法獲得令人滿(mǎn)意的效果。筆者采用的多類(lèi)型文本特征主要有詞匯特征、語(yǔ)義特征和句法特征。詞匯特征采用的是基于單詞的n-gram和基于字符的n-gram。這些特征包括N-gram距離、Dice系數(shù)、Jaccard系數(shù)等;語(yǔ)義特征采用WordNet3.0作為語(yǔ)義庫(kù),利用語(yǔ)義距離,根據(jù)文獻(xiàn)[10]計(jì)算兩個(gè)概念的語(yǔ)義相似度,從而獲得待比較文本片段在語(yǔ)義上的相似度;句法特征方面采用文獻(xiàn)[11]POS n-gram距離;結(jié)構(gòu)特征采用文獻(xiàn)[12]的Word Pair Order,該特征用于計(jì)算兩個(gè)文本片段中以相同順序出現(xiàn)的兩個(gè)單詞。

1.3.2 基于邏輯回歸模型的抄襲檢測(cè)自適應(yīng)算法

使用邏輯回歸模型結(jié)合詞匯、句法、語(yǔ)義和結(jié)構(gòu)特征來(lái)自適應(yīng)各類(lèi)型的抄襲,并通過(guò)利用各種特征來(lái)捕獲更多抄襲種子。

(1)

系統(tǒng)通過(guò)訓(xùn)練這個(gè)基于二項(xiàng)邏輯回歸的分類(lèi)器C,學(xué)習(xí)各類(lèi)抄襲特征的預(yù)測(cè)結(jié)果在最終分類(lèi)決策中的權(quán)重,據(jù)此判斷文本片段si∈dplg與rj∈dsrc存在抄襲的概率。如果si與rj存在抄襲的概率大于si與rj不存在抄襲的概率,則分類(lèi)器輸出為1,否則輸出為-1。利用分類(lèi)器C(si,rj),對(duì)給定的dplg=(s1,s2,…,sn)和dsrc=(r1,r2,…,rn),獲得dplg和dsrc中所有疑似抄襲片段對(duì)(si,rj)的列表,這些抄襲片段對(duì)將作為抄襲種子。

2 應(yīng)用效果及分析

系統(tǒng)目前支持用戶(hù)并發(fā)數(shù)1 000以上,單篇論文詳細(xì)分析時(shí)間5.9 s以?xún)?nèi),日檢測(cè)量可達(dá)10 000篇,可疑片段召回率70%,抄襲檢測(cè)精確率96%,系統(tǒng)界面展示如圖3所示。

圖3 系統(tǒng)界面展示

文中選取三門(mén)課程,對(duì)每門(mén)課程同一實(shí)驗(yàn)內(nèi)容的所有學(xué)生的實(shí)驗(yàn)報(bào)告分別通過(guò)人工方式和系統(tǒng)自動(dòng)檢測(cè)方式進(jìn)行數(shù)據(jù)對(duì)比,如表1所示。其中,合格抄襲率是教師設(shè)定的學(xué)生報(bào)告確認(rèn)為合格的抄襲率最高值,抄襲率=抄襲字?jǐn)?shù)/全文字?jǐn)?shù),抄襲占比=抄襲學(xué)生數(shù)/全部學(xué)生數(shù)。從表1—2可以看出,使用系統(tǒng)的教師平均檢查時(shí)間降低至原來(lái)的1/6,學(xué)生的抄襲占比下降近38%。

將上述三門(mén)課程實(shí)驗(yàn)內(nèi)容每名學(xué)生的實(shí)驗(yàn)報(bào)告分別在兩個(gè)抄襲檢測(cè)算法中運(yùn)行,一個(gè)抄襲檢測(cè)算法是使用自動(dòng)獲取抄襲語(yǔ)料來(lái)不斷訓(xùn)練、更新抄襲檢測(cè)模型的機(jī)器學(xué)習(xí)算法,另一個(gè)使用傳統(tǒng)的啟發(fā)式算法。從表1—2對(duì)比可知,每篇抄襲檢測(cè)平均時(shí)間提高近5 s,準(zhǔn)確率提高近3%。

3 結(jié)束語(yǔ)

文中設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的實(shí)驗(yàn)報(bào)告抄襲檢測(cè)系統(tǒng)。該系統(tǒng)采用基于自然標(biāo)注的抄襲語(yǔ)料自動(dòng)獲取方法,從學(xué)生多次提交的同一主題的文檔中自動(dòng)獲取高質(zhì)量的釋義抄襲語(yǔ)料,利用這些語(yǔ)料不斷訓(xùn)練更準(zhǔn)確的抄襲檢測(cè)算法,模型的應(yīng)用提升了抄襲檢測(cè)的性能。實(shí)際應(yīng)用表明,該系統(tǒng)能夠滿(mǎn)足高校教學(xué)科研活動(dòng)的需要,對(duì)實(shí)踐教學(xué)質(zhì)量的提升有良好的促進(jìn)作用。

猜你喜歡
特征文本檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 九九热精品免费视频| 亚洲综合一区国产精品| 激情视频综合网| 国产毛片高清一级国语| 国产免费精彩视频| 在线中文字幕网| 午夜啪啪福利| 免费一看一级毛片| 最新国产网站| 99精品视频在线观看免费播放| 国产在线日本| 亚卅精品无码久久毛片乌克兰 | 亚洲国产成人精品无码区性色 | 国产福利在线免费| 成人免费网站在线观看| 亚洲欧美日韩中文字幕在线| 国产欧美视频在线观看| 国产真实乱子伦精品视手机观看 | 青青草原偷拍视频| 国产成人区在线观看视频| 免费人欧美成又黄又爽的视频| 2018日日摸夜夜添狠狠躁| 欧美成人精品高清在线下载| 欧美精品一区二区三区中文字幕| 亚洲无码一区在线观看| 91福利免费视频| 国产免费高清无需播放器 | 久久semm亚洲国产| 国产精品综合久久久| 一本大道香蕉久中文在线播放| 伊人天堂网| 亚洲色欲色欲www网| 国内精品视频在线| 日本精品视频| 五月婷婷精品| 一级成人a毛片免费播放| 日韩成人在线网站| 成人国产精品2021| 亚洲成人精品| 国产精品欧美激情| 欧美日韩免费| 午夜日韩久久影院| 亚洲AV无码久久精品色欲| 久久77777| 69综合网| 色综合天天娱乐综合网| 亚洲无线国产观看| 91麻豆国产在线| 很黄的网站在线观看| 亚洲一区国色天香| 国产真实乱了在线播放| 国产一级裸网站| 欧美不卡二区| 手机在线看片不卡中文字幕| 在线毛片免费| 精品一区二区三区视频免费观看| 亚洲国产亚洲综合在线尤物| 特黄日韩免费一区二区三区| 国产一级在线播放| 成年人久久黄色网站| 日韩一区二区三免费高清| 中文字幕亚洲综久久2021| 精品无码国产自产野外拍在线| 国产96在线 | 欧美激情第一欧美在线| 久久久精品国产SM调教网站| 另类综合视频| 欧美性精品不卡在线观看| 国产一区二区色淫影院| 永久在线精品免费视频观看| 亚洲天堂久久久| 亚洲欧美人成人让影院| 激情视频综合网| 国产第一页屁屁影院| 72种姿势欧美久久久大黄蕉| 欧美成人日韩| 欧美激情首页| 波多野结衣一区二区三区四区| 亚洲黄色网站视频| 国产成年女人特黄特色毛片免| 日本精品视频一区二区| 日韩精品成人网页视频在线|