數字檔案館作為智慧城市建設的重要環節,作為檔案永久保存的電子載體,在信息技術手段日益復雜多變的環境下,人工智能的浪潮給數字檔案館帶來了機遇的同時也給檔案工作者帶來了巨大的挑戰。不論是掃描類文檔,照片還是聲像視頻類數字檔案,圖像都是數字檔案資源的主要載體,如何保障圖像真實性在新時代仍然是檔案學者們關注的重點問題。在“互聯網+人工智能”發展的大背景下,中國的人工智能已被提升至國家戰略高度,深度學習作為人工智能的重要組成部分,其在檔案學領域的應用研究相比于其他領域相對較少,因此必須結合新時代的新技術特點加強對數字檔案真實性保護研究,確保數字檔案的真實性。
一、深度學習在保障數字檔案真實性的應用可行性
(1)技術可行。進入21世紀,我國人工智能技術進入蓬勃發展時期。更多的人工智能與智能系統研究課題獲得了各種國家基金計劃支持,并與中國國民經濟和科技發展的重大需求相結合,力求為國家科技發展做出更大貢獻。近兩年來,中國的人工智能已發展成為國家戰略。國家最高領導人習近平、李克強多次發表重要講話,表示對發展中國人工智能和機器人學給予高屋建瓴的指示與支持。結合深度學習的人工智能在計算機視覺領域更是得到了長足的發展,因此,利用深度學習結合計算機視覺相關領域技術為圖像類數字檔案篡改檢測提供了技術保障。
(2)實踐可行。我國人工智能技術攻關和產業應用近年來發展勢頭迅猛,已經涉及到國民經濟39個行業的大類,目前已被廣泛應用于語音識別、計算機視覺、機器人、語言處理等領域,并且我國目前技術創新能力不斷增強[1]。此外,我國數字檔案館建設經過近十年的發展,大部分檔案館信息化基礎設施完備,專業技術人力資源充足,國家政策上也給予了一定的支持,相繼出臺了國家級別的標準GB/T18894-2002《電子文件歸檔與管理規范》,行業標準DA/T15-1995《磁性載體檔案管理與保護規范》等我國數字檔案資源安全標準[2],這些都為結合深度學習技術保障圖像類數字檔案真實性提供了實踐可行性。
(3)經濟可行。2012年以來,我國的信息化發展進入新階段,云計算,物聯網,大數據,人工智能等各項技術蓬勃發展,國家特別是中央政府各部門按照國家電子政務相關規劃的要求,逐步實施了“一站,兩網,四庫,十二金”等重點工程[3]。這些國家重點項目的啟動為實施深度學習技術在檔案領域的應用提供了經濟上的支持。
二、深度學習在保障數字檔案真實性的應用必要性
(1)圖像篡改威脅數字檔案真實性。原始憑證性是檔案的基本屬性[4],檔案一旦失去了真實性的保障,不論從何種角度來說,都會給社會造成難以估量的損失和影響。在互聯網即將進入5G時代的背景下,信息傳播速度快、規模大、影響范圍廣泛,一旦發生數字檔案信息安全問題,相關信息會借助互聯網快速擴散出去,勢必會引發“蝴蝶效應”[5],這嚴重阻礙了數字檔案資源建設工作,也使得檔案的公信力得不到保障。
(2)對圖像類檔案管理理論提供支持。圖像類檔案真實性保障作為數字檔案管理的重要環節,數字檔案信息安全保障是檔案事業現代化、信息化進程中不可避免的問題,也是數字檔案館建設工作中必不可少的環節。數字檔案信息安全保障的初衷是為了保證數字檔案信息的安全、系統、可用,這是一項復雜而系統的任務,因為數字檔案館建設的每一環節都或多或少存在安全隱患,所以要求數字檔案館建設過程中的每項工作都要小心謹慎、認真仔細。結合深度學習的圖像類數字檔案篡改檢測技術可以作為一項輔助手段,對圖像類檔案管理提供支持。
(3)多種技術保障圖像類檔案真實性檢測效果。對圖像類檔案真實性檢測的技術補充。目前多數的圖像像檔案真實性檢測都采取依靠數字水印,數字簽名等技術的主動取證技術,該類技術有長達幾十年相對成熟的發展基礎,但其缺點在于必須事前知曉原始水印或者原始簽名信息才能進行圖像類檔案的篡改檢測。利用神經網絡對圖像類檔案進行真實性檢測屬于被動取證技術,不需要提前知曉原始圖像信息,僅根據圖像本身的紋理特征,結構特點等判斷圖像類數字檔案是否被篡改。
(4)對數字檔案館知識產權的保護。“互聯網+”使得數字檔案資源的利用范圍更加廣泛,面臨的風險更大。如,數字檔案資源知識產權風險,在網絡環境下未經允許擅自復制數字檔案信息資源的問題較為普遍,這些問題容易引發知識產權糾紛;信息篡改風險,數字檔案資源在“互聯網+”時代容易被越權非法篡改,影響數字檔案的真實性[6]。“互聯網+”時代給數字檔案資源安全帶來了更大挑戰,引入圖像類檔案檢測技術,可以助力數字檔案安全工作開展,以“互聯網+”理念做好數字檔案資源建設工作,并為這項工作構建一個安全、平衡的秩序。
三、深度學習在保障數字檔案真實性的應用
深度學習(Deep Learning)是一類算法集合,是機器學習的一個分支。它嘗試為數據的高層次摘要進行建模。深度學習是一種機器學習架構,所有的個體單元以權重的方式連接在一起,且這些權重是通過網絡來訓練的,那么它就可以稱之為神經網絡算法。神經網絡算法的思想來源于模仿人類大腦思考的方式。人類大腦是通過神經系統得到輸入信號再作出相應反映的,而接受外部刺激的方式是用神經元接受神經末梢轉換的電信號。深度學習算法通過采用層的方式組織神經元,層與層之間可以互相連接來模擬大腦的思考。
(1)應用背景
對于圖像類數字檔案,為了達到隱藏某些信息的目的,主要有復制和粘貼篡改和拼接篡改兩種篡改手段[7]。在復制粘貼篡改方法中,篡改者往往會把本圖像中的某一個區域復制粘貼到本圖像的另一個區域。在拼接篡改中,篡改者為了達到某種目的,把圖像A的一部分拼接到圖像B上。為了使篡改不被發現,篡改者往往還會對所要復制的區域進行變換,如旋轉和縮放,然后將所變換的區域粘貼到其他區域,并對這個粘貼后的區域進行加噪和模糊等后續處理。這些處理即使在圖像表面拼接肉眼無法識別出與真實圖像的區別,但在圖像的一些低級特征和統計學特征上,不可避免的留下篡改痕跡。這類篡改與真實圖像之間區別性的特征可以作為神經網絡的輸入,利用深度神經網絡學習的能力,判別圖像的真偽。以圖像的邊緣為例,篡改圖像的粘貼區域,會引起邊緣灰度的劇烈變化。如下圖所示,在數據庫MICC-F2000 中:圖a,b為真實為篡改圖像,圖c,d為復制粘貼篡改圖像(紅色邊框內為篡改粘貼區域),圖像a,c經過邊緣提取得到圖片b,d,從圖b,d的對比中可以看出,篡改粘貼區域面源明顯灰度變化明顯。
(2)應用流程
在完整的篡改檢測流程中,主要分為以下三個部分:特征提取,訓練網絡和驗證與測試。針對圖像篡改檢測任務的深度神經網絡可以看作完成二分類問題的分類器,輸出結果為1或0,即篡改或真實。在特征提取模塊,主要是利用數據庫訓練集里真實圖像與篡改圖像之間的區別性特征,作為深度神經網絡的輸入來不斷訓練網絡形成新的參數。在訓練網絡模塊,利用驗證集驗證訓練好的網絡是否具備一定的泛化性,如驗證集效果不如人意,則需要重新調整神經的參數重復訓練過程。在驗證集的結果達到一定精度要求后,利用測試集測試網絡性能。最終測試集輸出的結果即為深度神經網絡判別結果。
(3)應用難點分析
國內外已經有開源的針對不同格式圖像的篡改檢測數據庫供研究者訓練和測試神經網絡,但是在數字檔案領域,目前還沒有統一的數據庫來驗證一個算法的好壞。對于研究者來說,第一步是需要建立適用于圖像類數字檔案領域的篡改數據庫。由于訓練深度神經網絡需要大量的正負樣本,因而在采集源數據,制作篡改樣本這兩項工作上要耗費大量的時間和精力。
從硬件上來說,訓練深度神經網絡需要高性能的GPU 進行并行計算,我國目前的數檔案館建設工作雖然推進多年,在檔案館硬件資源上也投入了大批資金,但是在計算機硬件這方面,重視程度還不及檔案館其他硬件設施投入。因此,要引入深度學習技術仍需領導決策層面的重視與支持。
從人力資源配備來說,我國目前的數字檔案館從業人員以檔案專業的工作者為主,計算機,統計學等理工科專業人員為輔。將深度學習的方法靈活運用到數字檔案領域需要技術人員具有先進的計算機專業知識和深厚的數學功底,這對于數字檔案館從業人員的也是一項新的挑戰。
四、總結與展望
現如今科學技術發展日新月異,圖像篡改手段日益多樣化,篡改圖像在表面上看來雖然掩人耳目,但是在檢測與篡改的博弈中,只要充分利用現有的技術手段,定能為圖像類數字檔案真實性保駕護航。作為檔案工作者,在夯實自身檔案專業素質的同時,也要緊跟技術潮流,及時了解最新技術,探索檔案管理新技術。
參考文獻:
[1]國務院. 國務院關于印發新一代人工智能發展規劃的通知.國發〔2017〕35號:http://www.gov.cn/zhengce/ content/2017-07/20/content_5211996.htm,2017-07-20.
[2]張勇. 數字檔案信息資源安全保障體系研究[D]. 蘇州 : 蘇州大學, 2007:17-19.
[3]中國電子政務網.我國電子政務工程的頂層設“兩網一站四庫十二金”.http://www.e-gov.org.cn/egov/web/ article_detail.php?id=151138, 2014-07-29.
[4]徐峰. 試論檔案在依法治縣中的作為[J]. 檔案記憶, 2015(7):23-23.
[5]聶云霞, 張加欣, 甘敏. “互聯網+”背景下數字檔案資源安全研究[J]. 浙江檔案, 2016(6):22-25.
[6]許鵬. “互聯網+”時代數字檔案信息資源建設探討[J]. 城建檔案, 2017(10):30-31.
[7]李子健. 圖像盲篡改檢測算法研究[D]. 北京:北京交通大學,2017:11-13.
注釋:
①復制粘貼篡改圖像數據庫MICC-F2000,源網址:http://lci.micc.unifi.it/labd/2015/01/copy-move-forgery-detection-and-localization/
作者簡介:王璐玥,女,1994年12月,民族:漢,江蘇鹽城人,碩士學位,上海大學,研究方向:數字檔案館。