999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字圖書館視域下學術論文圖像篡改造假檢測研究

2018-07-26 03:01:48徐彤陽任浩然山西財經大學信息管理學院山西太原030006中科院文獻情報中心北京0090
現代情報 2018年7期
關鍵詞:圖書館檢測系統

徐彤陽 任浩然(.山西財經大學信息管理學院,山西 太原 030006;2.中科院文獻情報中心,北京 0090)

2016年1月15日,教育部、財政部和國家發展改革委三部委聯合印發了《統籌推進世界一流大學和一流學科建設實施辦法(暫行)》,表明我國高校變革發展正式進入實施階段。在建設一流大學和一流學科的過程中,科研綜合實力是判斷各大高校是否屬于一流學校的重要標準之一。然而,在加快雙一流建設的過程中,由于科研管理制度的不完善導致社會出現急功近利思想,驅使學術不端人員為了“成就”和“聲譽”抄襲、剽竊他人的學術成果,造成學術風氣的敗壞,破壞了學術研究的公平和公正,直接影響我國雙一流建設的成果。同時,隨著互聯網技術的發展以及信息傳播平臺的多樣化,信息傳播更加便捷,在促進各個學科的快速發展,方便人們便捷的獲取學術信息的同時,也為某些學術不端者的抄襲提供了捷徑。

在大數據時代,紙質型的學術資源慢慢淡出人們的視野,學術作品的電子化、網絡化程度越來越高,數字圖書館積累了大量的電子化數據。作為學術健康發展的“守門人”,各高校圖書館對科研成果進行甄別和鑒定時承擔著重要的責任。因此,研究數字圖書館的信息鑒別技術,提升其信息服務質量具有重要的意義[1]。

目前,雖然已經有了許多成熟的技術去鑒別造假的科研文章,但研究仍然集中在對文字抄襲方面,而電子期刊的論文中除了文字以外,還有大量的圖像數據,這些數據往往能夠表達豐富的內涵,在論文中起到至關重要的作用,也極易引起抄襲和篡改[2]。而且,隨著圖像處理軟件的普及和操作簡便化,人工鑒別的方式很難判斷圖像是否經過修改。這就使學術不端人員有機可乘,擅自利用軟件篡改他人論文中的圖像數據,形成圖像篡改的學術造假。因此,數字圖書館對科研成果中圖像篡改的學術造假行為的甄別和檢測已經迫在眉睫。

本文提出了一種能夠檢測高校圖書館數據庫中論文存在圖像篡改痕跡的方案,為彌補數字圖書館檢測系統缺陷提供一種新的參考思路,進一步加快大數據時代數字圖書館服務技術變革,促進信息服務水平的提升。

1 論文查重檢測技術概述

1.1 論文查重技術研究現狀

大數據時代下,人們獲取信息的途徑十分便捷,這就為一些研究人員抄襲和篡改他人的研究成果提供了便利。數字圖書館作為收錄方和檢測方,應該不斷革新技術,杜絕抄襲數據流入互聯網絡,為用戶提供優質的信息服務。因此,為了防止學術造假的現象進一步擴大化,學術造假檢測研究成為信息服務領域的一個新的研究方向。目前,論文的查重技術主要檢測的對象以文字為主[3]。

1976年,Ottenstein等人最先指出數字圖書館中文檔數據容易被復制造成版權侵犯,后來又提出了一種源代碼屬性計數法[4],通過實驗能夠有效檢測被抄襲的代碼,之后,隨著互聯網技術的發展和數字資源的不斷膨脹,研究人員逐漸加大對文本抄襲現象的研究力度。1991年,相關學者研發出首個可以檢測文本中有抄襲內容的檢測工具——WordCheck[5],采用關鍵詞匹配的方法來計算相似度。Z Su等人[6]采用了一種混合的檢測算法,該算法結合了生物序列局部相似性識別和量化原理,并考慮了心理因素,可以有效檢測包括插入、刪除或替換單詞等剽竊行為。Anguita A等人[7]基于自然語言處理技術和機器學習方法,提出了一種檢測電子文檔中跨語言剽竊的新方法。國內關于復制檢測方面的研究落后于西方,2002年,宋擒豹等人[8]針對數字上非法復制和擴散,提出一種數字正文重疊性度量算法可以準確地檢測復制和移位等數字非法復制行為,具有較強的擴展性。趙俊杰等人[9]提出了一種基于段落詞頻統計的論文抄襲判定算法,不但可以檢測出抄襲者成段抄襲的情況,而且可以檢測出段落中語句順序改變、段落內容壓縮和擴充的情況,若疑似抄襲還可以將抄襲論文和被抄襲論文的相似內容輸出,方便用戶進一步審查。楊超[10]提出了一種綜合文本分析、結構度量和屬性計數的混合式程序抄襲檢測方法,可以多種抄襲行為,具有較高的準確率和查全率。

隨著對檢測技術的深入研究,我國對學術論文的復制檢測技術已經達到商業應用的程度,各大高校、圖書館和機構常用的中文電子期刊全文數據庫主要有CNKI、萬方和維普這3種數據庫,每種數據庫都有各自的檢測系統,各檢測系統的特點如表1所示:

表1 國內學術不端檢測系統的特點

其中,中國知網開發的科技期刊文獻檢測系統AMLC在3個常用檢測系統中對論文數據查重監測最為全面,數據庫中包含的類型有中國學術期刊網絡出版總庫、中國博士/碩士論文全文數據庫、中國會議全文數據庫、互聯網資源、英文數據庫、圖書資源等。在檢測時,CNKI檢測系統在檢測一篇文章時能夠在約2~5秒的時間內就能比對完各個數據庫,并顯示比對的結果,檢索效率高,檢測結果精確[11]。萬方論文相似性檢測系統是基于萬方數據公司所收錄的期刊論文、學位論文、萬方數值數字化期刊全文數值庫、萬方數值學位論文、常識服務平臺的全文數值庫等海量數據,運用先進的檢測算法研制而成,它具有檢測速度快、檢測準確等特點[12]。通達論文檢測系統是由維普公司與通達恒遠信息技術有限公司及北京多所重點高校共同合作開發的文本檢測系統,該系統自主研發的大規模文本處理技術,通過對文檔關鍵語義片斷的識別、檢測,可檢測出文檔中存在的不當引用、過度引用,甚至是抄襲等現象。通過計算出文檔的引用率、復寫率和自寫率等重要指標,為各級論文評定、檢測、發表機構提供論文評定和論文收錄的檢測依據,為個人寫作者提供寫作輔導及論文自查服務[13]。

1.2 論文查重技術目前存在的問題

隨著對學術不端文獻檢測系統的大量運用,但系統的局限性也導致一些問題出現:

1.2.1 檢測盲區影響檢測結果

檢測系統無法全面檢測論文,主要體現在以下3個方面:第一,時間上的滯后性。論文發表一般要經歷投遞、審核、排版和收錄等環節,周期在幾個月甚至一年以上,這些未公開的文章還沒有被數據庫收錄,因此在檢測時就會缺少一部分比對數據。第二,語言上的限制。近年來,國內越來越多研究人員為了完成科研任務,從外文文獻中剽竊他人的觀點甚至直接翻譯抄襲他人的學術成果,國內的檢測系統中跨語言檢測功能還未完善,導致“跨國抄襲”的現象日益嚴重。第三,數據庫的有限性。目前國內的檢測系統還無法做到全面的收錄所有的文獻數據,例如互聯網資源,由于互聯網傳播速度快,發表內容便捷,其中不乏一些質量高、具有一定價值的文章,檢測系統無法及時有效的收錄這些信息就會導致在檢測時存在漏檢的問題。此外,由于知網、萬方等知名數據庫之間競爭激烈,為了在行業中獲取優勢,爭相與不同的學術期刊簽訂獨家合作協議,獲取優先出版的版權,這也導致各檢測系統中的學術資源并不全面,不可避免地影響到最后的檢測結果[14]。

1.2.2 無法甄別合理引用

學術不端檢測系統的智能化程度較低,無法正確區分論文中的引用部分和抄襲部分。有些引用部分被檢測系統檢測為抄襲的合理性也有待商榷,例如綜述類的文章往往被檢測出的重復率更高,但這類文章僅僅是對前人的觀點做復述和引證;又如在引用專業性的理論和概念時,為了體現論文的嚴謹,會整句引用,也會被檢測系統標為抄襲內容。此外,學術不端檢測系統在識別文章中不加標注的合理引用與不當引用也缺乏有效性,二者均顯示為高重合率[15]。因此,如何提高學術不端檢測系統檢測的合理性,不斷完善和改進系統功能從而解決鑒別文章是合理引用還是抄襲的問題,也將是相關研究人員接下來值得關注的主要方向。

1.2.3 文本以外的其他形式的抄襲無法檢測

在檢測系統中,還存在一個比較明顯的局限性:文章中除文字以外的數據檢測功能缺失,從表1中我們不難看出,目前國內的三大常用的檢測平臺都沒有針對圖件的識別。圖像往往內容豐富,相比文字能夠更加生動表達作者的觀點、創新等,在文中具有十分重要的意義,然而隨著圖像編輯軟件的普及和應用的便捷,越來越多的人對圖像內容進行人為的篡改。目前對文章中是否有圖件數據抄襲,要靠編輯和專家依靠經驗進行查詢,認真分析、審核判斷,然而人的精力有限,無法做到對相關的所有文獻進行比對。因此盡快在論文相似性檢測系統中增設完善的圖表識別功能顯得尤為重要和迫切,這也是本文研究意義之所在。

2 數字圖書館圖像篡改檢測模型的設計

通過梳理國內外學者對論文查重的研究和國內學術不端檢測系統的不足發現,檢測系統大都是針對文本內容的甄別檢測,而圖情領域對論文中存在圖像篡改現象的檢測尚處于探索階段,對圖像篡改檢測的研究會是一個新的發展趨勢。

論文中圖像數據的篡改體現在原圖像的真實性或者內容完整性的改變。真實性就是原圖像所表達的概念被扭曲,被篡改后的圖像與原圖像呈現不同的意義,圖像編輯里常用的技術有圖像增強、變形等。完整性是指圖像中部分內容被增加或者刪除。不論論文中原圖像的真實性被改動還是內容的完整性被破壞,都會留下改動的痕跡,通過判斷這些痕跡就能找到圖像中被篡改區域并且定位,是圖像篡改檢測的理論基礎[16]。

2.1 數字圖書館圖像篡改檢測系統模型構建

為了解決目前數字圖書館或學術資源平臺中存在的檢測系統無法識別圖像篡改這一問題,本文提出一種基于圖像篡改的學術不端檢測模型,該模型主要由論文圖像提取、圖像預處理、特征計算、置換區檢測4個模塊組成。圖像采集提取模塊主要負責圖像數據的收集工作。圖像預處理模塊實現圖像數據歸一化、圖像插值放大等功能。特征計算是該模型能否實現的核心,本文采用的是有限差分特征提取算法,可以有效提取被放大后圖像的特征值。置換區檢測最終實現圖像篡改檢測功能。具體模型如圖1所示。

圖1 數字圖書館圖像篡改檢測系統模型

2.1.1 圖像采集提取模塊

數字圖書館和學術資源平臺中存儲的數據大多是PDF格式的論文,雖然也有部分少量的圖像數據,但圖像信息主要集中在PDF論文中。因此,在采集圖像數據作為比對數據庫時,除了直接收集以圖像格式存儲的數據,還要提取論文中的圖像信息。提取PDF文件中圖像信息是實現圖像篡改盲檢測的基礎,直接影響檢測效果。本文提取PDF文件中圖像數據采用的方法是:首先讀取PDF中的交叉參考表,交叉參考表中存有所有對象的入口地址,利用相關程序就可以定位圖像對象;然后,根據PDF文檔結構和頁面樹結構,對PDF中包含圖像信息的頁面按順尋進行精準的搜尋,定位圖像具體的位置后依次提取壓縮數據,將得到的圖像數據保存為JPEG格式。最后要將提取的圖像信息正確的組織起來,不同類型的圖像在保存到文件時可以按照中圖分類號放置于圖像數據庫當中。

2.1.2 圖像預處理模塊

采集完成后,就要進行圖像預處理工作。圖像預處理是為了改進特征提取、提高匹配和識別的可靠性而進行的消除圖像中無關的信息或增強有關信息的可檢測性等采取的一系列操作。經過預處理操作,可以方便后續工作的開展,提高工作效率。數字圖像篡改的種類非常多,學術不端人員可以對原圖像進行拼合、潤色、增強、變形等操作,不同的篡改行為會導致不同的效果。為了驗證本文提出的圖像盲檢測模型的可行性,筆者主要針對論文中一類被放大篡改行為的圖像檢測。因此,實驗過程中,該環節首先對被檢測圖像數據進行放大處理以更好地完成圖像篡改檢測。

圖像縮放算法中常用有最鄰近插值算法與線性插值方法。最鄰近插值算法就是將目標圖像各點的像素值設為源圖像中與其最近的點,該算法計算量小,運算速度塊,但可能造成插值生成的圖像灰度上的不連續,在灰度變化的地方可能出現明顯的鋸齒狀,如果用這個方法進行圖像放大,那么在放大比例較大的情況下就會出現非常明顯的“馬賽克”現象。線性插值就是連接兩個已知量的函數表達式,確定這兩個已知量之間的某一函數值的方法。該方法在放大圖像時能使像素的過度較為平滑,有效解決了最近鄰插值算法的缺點,在圖像處理領域經常使用。因此,圖像預處理時本文主要采用線性插值方法對圖像放大。

圖像經過不同比例插值放大的效果如圖2所示。

圖2 不同插值變換后的圖像

2.1.3 特征計算模塊

圖像特征提取是圖像篡改盲檢測的關鍵環節,直接影響圖像篡改檢測的檢測效果。目前圖像篡改特征計算方式主要有兩種方式,一種是針對圖像的復制粘貼進行特征提取;另一種是圖像的拼接篡改進行特征提取[17]。復制粘貼篡改就是將原圖像中的部分內容經過篡改行為從新復制粘貼到圖中的其他地方,經過粘貼的區域為篡改區域。針對圖像復制粘貼篡改盲檢測技術有基于DCT的塊特征檢測方法,如Y Cao等人[18]提出一種有效檢測區域復制圖像的方法,首先將原始圖像分成固定大小的塊,然后對每個塊應用離散余弦變換DCT系數來表示。其次,每個余弦變換塊由一個圓塊表示,并提取四個特征以減少每個塊的維數。最后,將特征向量按字典序排序,組成一個4維的向量。T song等人[19]提出一種新的特征描述符,對圖像局部結構進行量化,然后提取和重排二維DCT特征,所得到的DCT系統的一個子集作為新的特征描述符。常用的檢測方法還有基于紋理的檢測算法和基于傅里葉變換的塊檢測算法等等[20-21]。圖像拼接篡改就是將原圖像中的部分內容截取放入另一幅圖像當中去。拼接篡改的盲取證方法有基于整體特征分類檢測方法,如Z He等人[22]提出一種基于馬爾科夫的方法,首先利用馬爾可夫等人提出的離散余弦變換概率矩陣生成的原始特征,然后在小波變換域構造更多的特征來表征小波系數在位置、尺度和方向上的3種依賴關系,最后利用支持向量機對真實圖像和拼接圖像進行分類。仝威等人[23]提出一種基于熵和多步馬爾可夫特征的圖像拼接檢測算法,該方法先從原圖、3階Haar離散小波變換(DWT)和多尺度分塊離散余弦變換(DCT)中提取圖片的信息熵,再從圖像的分塊DCT系數中提取多步馬爾可夫轉移概率矩陣,由信息熵和多步馬爾可夫轉移概率矩陣組成統計特征,利用支持向量機分類器進行分類得到判決結果。除此之外還有基于局部特征的拼接算法和基于篡改圖像處理痕跡的拼接檢測算法等。

圖像篡改方式種類繁多,為驗證本文提出的數字圖書館圖像篡改檢測模型可行性。在實驗時主要針對一類圖像放大的拼接篡改檢測。在篡改他人圖像時,經常會發現學術不端人員常常將原圖像中的某一重要內容截取,拼接到另一幅圖像中去,并且在拼接的過程中對篡改內容的大小進行修改,最終被篡改者引用到自己的文章當中。經過放大后篡改的圖例如圖3所示。

圖3 圖像插值置換

針對插值放大圖像檢測方法的研究已經受到廣泛的關注,如B Mahdian等人[24]通過插值分析,提出一種能夠找到重采樣和插值痕跡的周期檢測方法;M Kirchner等人[25]提出一種基于空間域局部線性預測殘差信號的周期性檢測方法。這些算法雖然能夠檢測出插值放大的痕跡,但存在運算復雜、有損JPEG圖像和檢測正確率較低等問題。因此,在實驗過程中,本文主要采用一種新的有限差分算法對上述篡改現象進行特征提取。該方法不需要迭代運算,計算簡便,能夠對圖像篡改痕跡進行精準的定位。有限差分公式中yi[n]經過R階有限差分后可以表示為:

ΔRyi[n]=ΔR-1yi[n+1]-ΔR-1yi[n]

(1)

其中,n=0,1,2,…,n,ΔR代表R階有限差分。

2.1.4 圖像檢測模塊

提取出圖像篡改的特征值后,我們就要進行最終的篡改盲檢測階段。通過有限差分置換方法能夠對經過放大的插值圖像引入周期性,利用這種周期性的特點就能計算出被篡改圖像的插值數,此外,不同插值數可以根據差分序列的時域周期性進行判斷和鑒別。在檢測時,就可以根據圖像是否具有周期特性來檢驗圖像插值篡改的行為,如果存在插值操作,就可以通過周期性的異同實現對局部置換區域的準確定位,從而實現論文中被篡改的圖像盲檢測功能。

2.2 實驗驗證與分析

為保證本文所設計模型的有效性,筆者針對本模型進行實驗驗證。實驗環境如下:操作系統為Windows7,雙核2.1GHz,內存為4GDDR3,采用Matlab2015B軟件編程。本次在預處理時首先采用上述3種插值放大方法對圖1(a)所示的像素大小為256×256的圖像,分別進行1.5、2.25及4倍于原圖像的3次插值放大。然后采用有限差分方法提取具有周期性的篡改特征,最終完成定位和檢測圖像中被篡改的痕跡。再利用有限差分算法對其周期特征進行檢測。其中,最近鄰插值方法在經過一階有限差分序列后會出現周期性,而另外兩種方法則需進行二階或多次差分。經過3種插值方法放大并選取不同的插值因子后,具有周期性的頻譜就能夠清晰地呈現出來,如圖3所示。因此,可通過歸一化的幅頻就能準確的計算和定位被篡改的圖像痕跡。仿真實驗的結果驗證了本文采用方法的實用性和有效性。

最后,為了展示篡改圖像的實際檢測效果,筆者選取了3組篡改的圖例進行檢測。對經過最近鄰插值、線性插值及3次插值3種不同類型的插值放大方法分別對圖像部分內容進行1.25倍、1.5倍和2倍放大。如圖5所示,其中a和b為原圖像,將a圖像中的部分區域經過插值放大后拼接到b圖像形成篡改圖像c,而圖像d中的白色區域即為經過有限差分置換檢測后顯示的區域。從仿真實驗的結果可以清晰地看到,不同插值算法放大的圖像能夠被有效地檢測定位出來,其中針對最近鄰插值檢測的效果最好。因此,本文設計的圖像篡改盲檢測模型在針對論文中圖像篡改的檢測具有較高的可行性。

3 結 語

近年來,學術不端在期刊中頻頻發生,伴隨著大數據的發展,數字圖書館和相關學術資源平臺的抄襲數據呈現逐漸蔓延的趨勢。而隨著圖像處理軟件技術的快速發展,為圖像篡改這類學術不端行為提供了新的土壤。目前人們更多的是對文字抄襲等進行鑒別和檢測,而現有圖像取證技術發展的速度相比圖像篡改技術的要遠遠落后,尤其在圖情領域中,大部分檢測系統缺乏對論文中圖像的檢測功能,缺乏對篡改圖像痕跡的取證技術,侵害了他人的知識產權,造成學術不端行為進一步加深。因此,面對這類問題的日益嚴重,需要引起人們的高度重視,同時迫切需要一種對接觸到的圖像的信息真實性進行有效確認的方案和技術,形成一道堅實的抵御學術不端行為的“防火墻”。

圖4 3種插值方式和插值因子對應的幅頻圖

圖5 檢測結果圖

在這種背景下,相關學者逐漸加大了對圖像篡改盲取證研究的力度,該領域應用廣泛,具有良好的研究前景。本文針對數字圖書館學術不端檢測系統中無法有效檢測圖像篡改的缺陷,提出了一種數字圖書館圖像篡改檢測模型,詳細介紹了每種模型的功能,并通過實驗證實了該模型的有效性,為數字圖書館的圖像篡改盲檢測提供了理論支持。在提取圖像篡改特征值時,主要采用了有限差分方法,通過仿真實驗證明,本文提出的圖像篡改模型對最近鄰插值、線性插值和3次插值這3種不同插值放大后的拼接放大篡改圖像,通過周期性的異同性能夠精確捕捉被修改的痕跡,其平均檢測率可高達99.67%。同時筆者提出的有限差分置換檢測方法在面對高斯白噪聲和有損JPEG壓縮等因素的干擾時具有一定的魯棒性。論文中圖像篡改除了插值放大置換還有很多其它方式,如何能夠高效的檢測不同類型的篡改圖像,提高檢測的效率是今后筆者繼續研究和努力的方向。

猜你喜歡
圖書館檢測系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
飛躍圖書館
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 久久综合久久鬼| 欧洲亚洲一区| 免费全部高H视频无码无遮掩| 美女内射视频WWW网站午夜| 国产青青操| 999精品视频在线| 久久久久久午夜精品| 国产亚洲精品资源在线26u| 国产精品久久久久鬼色| 欧美色香蕉| 精品黑人一区二区三区| 国产熟睡乱子伦视频网站| 精品无码一区二区三区电影| 久久免费视频6| 国产精品微拍| 久久久久久久蜜桃| 日韩在线视频网站| 中文字幕人成乱码熟女免费| 熟女日韩精品2区| 亚洲中文字幕在线观看| 色视频久久| 国产91久久久久久| 国产乱人伦精品一区二区| 国产专区综合另类日韩一区| 欧美全免费aaaaaa特黄在线| 色偷偷男人的天堂亚洲av| 欧美成人区| 欧美成a人片在线观看| 欧美成人第一页| 园内精品自拍视频在线播放| 久久99国产综合精品1| 亚洲伊人电影| 国产精品视频观看裸模| 久久黄色视频影| 欧美日韩国产精品va| 亚洲综合亚洲国产尤物| 2021天堂在线亚洲精品专区 | 国产高潮流白浆视频| 亚洲无码精彩视频在线观看| 国产成人一区免费观看| 国产91全国探花系列在线播放| 亚洲成人播放| 午夜视频在线观看区二区| 亚洲九九视频| 免费毛片在线| 亚洲三级色| 欧美日韩第二页| 国产理论一区| 中国一级特黄大片在线观看| 亚洲日本中文综合在线| 亚洲美女操| 欧美成人日韩| 亚洲欧美成aⅴ人在线观看 | 99视频在线观看免费| 国产激情第一页| 极品国产在线| 在线播放精品一区二区啪视频| 99久久国产自偷自偷免费一区| 国产成人亚洲精品色欲AV | 人妻一本久道久久综合久久鬼色| 精品99在线观看| 97免费在线观看视频| 99视频精品全国免费品| 成年人久久黄色网站| 天堂亚洲网| 欧美中文一区| 九九视频免费看| 91探花国产综合在线精品| 久热re国产手机在线观看| 亚洲永久免费网站| 香蕉综合在线视频91| 亚洲精品天堂自在久久77| 99久久这里只精品麻豆| 最新日本中文字幕| 日本不卡在线| 亚洲无码免费黄色网址| 国产剧情无码视频在线观看| a级毛片网| 午夜不卡福利| 欧美成人午夜视频| 久久精品人妻中文系列| 国产高清国内精品福利|