





摘要: 為解決源代碼剽竊檢測(cè)的問題, 以及針對(duì)現(xiàn)有方法需要大量訓(xùn)練數(shù)據(jù)且受限于特定語言的不足, 提出了一種基于預(yù)訓(xùn)練Transformer 語言模型的源代碼剽竊檢測(cè)方法, 其結(jié)合了詞嵌入、相似度計(jì)算和分類模型。該方法支持多種編程語言, 不需要任何標(biāo)記為剽竊的訓(xùn)練樣本, 即可達(dá)到較好的檢測(cè)性能。實(shí)驗(yàn)結(jié)果表明,該方法在多個(gè)公開數(shù)據(jù)集上取得了先進(jìn)的檢測(cè)效果, F1 值接近。同時(shí), 對(duì)特定的能獲取到較少標(biāo)記為剽竊訓(xùn)練樣本的場景, 還提出了一種結(jié)合有監(jiān)督學(xué)習(xí)分類模型的方法, 進(jìn)一步提升了檢測(cè)效果。該方法能廣泛應(yīng)用于缺乏訓(xùn)練數(shù)據(jù)、計(jì)算資源有限以及語言多樣的源代碼剽竊檢測(cè)場景。關(guān)鍵詞: 源代碼剽竊檢測(cè); Transformer 模型; 預(yù)訓(xùn)練模型; 機(jī)器學(xué)習(xí); 深度學(xué)習(xí)
中圖分類號(hào): TP181 文獻(xiàn)標(biāo)志碼: A
0 引言
隨著互聯(lián)網(wǎng)的發(fā)展,源代碼的傳播越來越容易,從而導(dǎo)致源代碼剽竊行為增多。源代碼剽竊行為會(huì)造成知識(shí)產(chǎn)權(quán)的侵犯,影響軟件開發(fā)的效率和質(zhì)量。國務(wù)院于2019年發(fā)布的《關(guān)于強(qiáng)化知識(shí)產(chǎn)權(quán)保護(hù)的意見》中明確強(qiáng)調(diào)“探索加強(qiáng)對(duì)商業(yè)秘密、保密商務(wù)信息及其源代碼等的有效保護(hù)”。源代碼剽竊檢測(cè)是指通過計(jì)算機(jī)程序?qū)υ创a進(jìn)行分析,判斷是否存在剽竊行為的研究。
源代碼剽竊檢測(cè)研究具有重要的背景和意義。對(duì)軟件開發(fā)人員,有助于發(fā)現(xiàn)源代碼中的剽竊行為,避免侵犯知識(shí)產(chǎn)權(quán)。對(duì)軟件使用者,有助于判斷軟件是否存在剽竊行為,避免使用侵權(quán)軟件。……