周文劍 林浩文 鐘健
(廣州理工學院,廣東 廣州 510540)
現代社會萬物互聯,時代的網絡化、信息化在給生活帶來便捷的同時,也引發了各類關于信息安全與法理方面的問題。數字媒體和電子產品出現的同時,更多關于數字產品的侵權行為也愈發猖獗,但是過往的版權保護方式已然過時,其僅僅只是對數字產品本身進行一些加密操作,基于密碼學的方式雖然達到了保密性的要求,卻也只能確保數字產品在傳輸過程中的安全性,卻沒有對數字作品的盜版行為做防范和監管,沒有辦法防止二次傳播,非法拷貝,對盜版源追溯等。所以本文以數字水印在文本中的應用入手,希望能管中窺豹研究出可追述處理的大數據資源共享問題。
結合百度詞條的解釋:數字水印是一種使用計算機算法將安全信息掛載嵌入數據或者說媒體文件的保護信息。數字水印技術,它可以理解為基于內容的編碼組織的信息隱藏技術,它在確保原始數據的原有使用價值不變的同時,將某些識別信息(即數字水印)直接嵌入所要保護的數據之中,同時水印本身也不容易被發現和被修改。但是它是可以被數據提供者識別和辨認的,提取水印能夠向內容的作者和購買者確認隱藏在數據載體中的信息,從而確保傳輸的信息或者信息載體是否被篡改。數字水印是一種有效的維護數據的共享和安全的有效性的方法。數字水印在對數據進行保護的時候維護其可審查性,確保可追溯性和版權保護,同時也是信息技術領域的一個重要領域和研究方向。
針對文本數字水印,一般將文本分成三類進行討論:
(1)非格式化文本,即純文本文件,例如計算機程序的源碼文件或 ASCII 等,這類文件被廣泛用于記錄信息,只因為結構簡單,無格式信息,但也因此很難嵌入水印信息——這類文件沒有可以嵌入標識信息的冗余空間;
(2)格式化文本,是與純文本相對,這類文本除了文本信息以外,還有很多標記文本格式的信息,具有風格、排版等信息,如字體、顏色、大小、行間距、段落縮進及其他版面布局信息等。文本的格式多種多樣,常見的有Word、WPS、PDF、RTF、PostScript 等高級文檔,在本文中主要討論基于格式化文本的數字水印技術;
(3)用像素矩陣來表示內容的文檔圖像,這類文檔圖像通常以二值圖像形式表示,與彩色圖像相比具備一些自身所固有的特性:其一是色彩單一,所有圖像都是黑白色,其二是內容形式簡單,主要包括漢字、英文字母及一些常用標點符號等。
文本是文本數字水印所依附的載體對象,因而只要涉及到文本的地方都有可能用到文本數字水印技術。隨著信息社會的推進及網絡的普及,互聯網成為人們獲取信息資源的重要途徑之一。如何有效保護網絡上豐富的文學書籍、電子文件、期刊雜志等文本類資源的版權,是新環境下網絡出版等應用領域亟需解決的問題,而文本數字水印技術在這些應用領域可以發揮積極作用。目前,文本數字水印技術在電子文本文件的網絡發行中應用較廣。出于互聯網上所存在的大量電子文本文件(如書籍、文章和雜志等)都需要版權保護,若向這些文件中嵌入能標識文件版權信息的數字水印,則在文件后續的分發過程中,可將其水印信息作為版權糾紛的證據,能有效打擊盜版侵權行為、推動數字作品網絡發行的發展。目前,CNKI 等數字圖書館、起點、晉江小說等文學作品網站都采用了文本數字水印技術。
文本數字水印技術在數字版權保護中的應用主要有:所有者鑒別、所有權驗證、交易跟蹤、內容認證、拷貝控制和設備控制。
(1)所有者鑒別
在出版的作品中都會附有文本版權聲明,用于宣示版權歸屬,但對于作品所有者鑒別具有一定局限性。首先,在作品拷貝時很容易忽略或去除這些版權聲明。例如,某盜用者拷貝一本書或其某幾頁時,一般不會復印前頁的版權聲明,如此版權聲明的作用并沒有得到體現。而利用文本水印技術,可以將代表作品版權所有者身份的水印信息隱藏到作品當中,只要作品的用戶擁有水印檢測器,就能夠識別出含水印作品的所有者,即使作品所附的版權聲明被去除,水印依然能夠被檢測到,從而達到了所有者鑒別的目的。相對于文本版權聲明,數字水印具備透明性,以及與其被嵌作品的不可分離性,使得數字水印更利于在所有者鑒別中使用。
(2)所有權驗證
利用文本數字水印驗證版權所有者信息也是文本數字水印技術的--項應用。由于傳統的文本版權聲明極易被偽造和篡改,而無法解決所有權驗證問題,解決辦法之-是建立一個公共產品庫,用戶需注冊后才能拷貝相應的數字產品,但由于注冊費用高而不為人們所普遍采用。為了省去注冊費用,人們可以使用文本數字水印來保護版權,在發生版權糾紛時,以提取的水印作為證據,驗證作品版權歸屬。同時為了增強所有權驗證的安全級別,可以嚴格限制水印檢測器的使用權限,如果攻擊者未獲得水印檢測器,則很難去除作品中的水印信息。另一方面,攻擊者也可能再次向作品中嵌入水印信息以覆蓋作品中的原有水印或附加新的水印,使得數字產品中同時也存在攻擊者的標識信息。解決此問題的方法是,鑒別方要尋找出作品的傳播渠道,證明一個數字作品是從另一作品得來,而不是直接根據作品中包含的水印信息驗證版權。這種水印系統能夠間接驗證存在爭議的數字產品的版權歸屬,因為版權所有者擁有包含水印產品的原始產品而攻擊者沒有。
(3)交易跟蹤
在交易跟蹤過程中,文本數字水印主要是用來鑒別合法獲得數字產品后,對產品進行非法傳播的人。利用數字水印可對作品所經歷的拷貝交易進行記錄,跟蹤每個作品交易的傳送者和接收者。另外作品的創作者或所有者可根據不同版本的作品嵌入不同的水印標識,若作品在發行過程中被盜用,則可以根據作品中的水印跟蹤作品的傳播渠道,找出非法傳播者。
(4)內容認證
內容認證是指將簽名信息嵌入到作品內容中,用于日后檢查作品內容是否被篡改,以保護作品的完整性,一般使用的是脆弱性水印。出于文本文檔的可編輯性,使得人們對數字作品的篡改變得容易而頻繁,因而保護作品的原創性和完整性是當前亟需解決的問題。消息認證問題的研究在密碼學領域里已比較成熟,其中數字簽名是應用最廣的認證方法,若消息被篡改過,則通過與原始簽名對比便可發現其已被篡改。然而由于這些簽名信息是單獨存在的,須將它們傳送給認證方。由于網絡傳輸的不安全性,使得簽名容易丟失或被攻擊者截獲,而影響作品的后續認證。因此,利用數字水印技術直接將簽名插入到作品中,隨同作品一起分發而無須單獨傳送,便可避免簽名丟失的問題。
(5)拷貝控制
前面所述的文本數字水印應用都是在不合法行為發生之后起作用,例如交易跟蹤系統只能在作品被非法拷貝之后才能識別出對手身份,而最理想的版權保護方法是能夠防止非法拷貝行為的發生。拷貝控制則是專注于防止他人對受版權保護的內容進行非法拷貝。通常加密是防止非法拷貝的常用手段,經過特定加密算法加密后的作品,能夠使未擁有解密密鑰的人即使獲得作品也無法使用。但是,人們通常希望作品可以被瀏覽而不被非法拷貝,此時即可將水印嵌入到內容中,使用水印來限制錄制設備不能錄制什么內容。錄制設備需要安裝水印檢測器,如果設備在輸入端檢測到“禁止拷貝”水印,則拷貝操作會被禁用。
(6)設備控制
設備控制是在設備制造過程中引入水印檢測功能,使設備具備在檢測到內容中的相關水印時作出反應的能力。目前市面上已經存在這類產品,例如Digimarc 集團公司推出的MediaBridge系統,該系統可將水印嵌入到雜志廣告、票據、包裹等已印刷、發售的圖像中。如果使用 MediaBridge 系統嵌入水印的圖像被數碼攝像機再次拍攝,則PC 機的 MediaBridge 軟件便會設法打開一個指向相關網站的鏈接,進而控制圖像的使用。
數字水印技術的應用只有滿足一定的條件,才能成為版權保護和產品數字完整性認證以及數據可追溯的系統的核心。一個安全可靠的水印系統一般應滿足如下要求:
(1)隱蔽性
也稱不可感知性,也就是說,在正常視覺條件下,水印是不可見的,水印的存在不會影響載體本身的視角效果可確保其可視性的完整,即水印處理系統不應產生任何明顯的數據修改。
(2)魯棒性
水印一定很難消除(希望不可能消除),當然,理論上只要足夠理解嵌入水印的過程,任何水印都可以被移除,但是如果只是部分理解水印的底層原理,任何嘗試破壞或移除水印的行為都會導致數據載體等出現偏差或者損害甚至不可用。
(3)抗篡改性
與魯棒性的要確保的抗毀壞不同,抗篡改性是要確保水印的完整性以及正確性,也就是指已經嵌入載體的水印應不能被攻擊者修改與偽造。對魯棒性有較高要求的系統或者應用,往往也是要求其抗篡改性也要很強。在版權的保護應用中,要將抗篡改性維護的足夠好是比較艱難的一件事。
(4)水印容量
水印的容量指的是,嵌入水印的信息量必須能夠完整地表示出數據內容的創建者和購買者以及所有擁有者的標志信息,同時也要包含其相應的購買鏈路。只有這樣在發生版權糾紛或數據倒賣追溯的時候,才能根據水印的信息來回溯本真,打擊盜版和違法行為。
(5)安全性
應確保嵌入數據的水印的保密性有所保障,同時誤檢測率也要確保處于足夠低。水印的數據形式可以多種多樣(包括多媒體、文檔、軟件等)。所有的水印至少都該有嵌入和提取對應的系統。
(6)低錯誤率
縱使在無網絡或網絡波動失真和沒受到攻擊的情況下,也要求不能檢測出水印。在不存在水印的時候,檢測出水印的概率必須要非常小。
本文主要研究針對格式化文本的數字水印技術,文本數字水印通常結合文本結構和內容的特性,以一定的方式改變文本的編碼內容或編碼格式從而實現水印信息的嵌入,既可以標識和驗證數字版權信息等,也可進行追溯文本數據的非法傳播。
下面介紹水印信息嵌入基本步驟為:
(1)編碼轉化,將水印信息用Unicode 編碼轉換為二進制序列;
(2)編碼擴展,對水印信息Unicode 編碼嵌入奇偶校驗和漢明糾錯碼;
(3)編碼統計,對水印信息編碼進行統計得到基調編碼;
(4)文本分行分段,根據編碼長度提取文本的有效行,并對有效行進行合理分隔成段;
(5)構建基調參考行,對第一個有效行按是否下移按基調代碼進行行距調整;
(6)水印嵌入,對其他有效行結合水印信息編碼,按是否與基調行代碼一致進行行距調整。
水印信息的提取是水印信息嵌入文本載體的反過程,對紙質文檔進行掃描得到各行分段質心變化,對文本有效行針對基調參考行進行質心檢測,不變時表示與基調行一致,否則相反.包括多媒體、文檔、軟件等或文本類,或圖像類,或視頻和音頻等各種數據可以很輕松被非法拷貝和傳播,使數據所有者的知識產權得不到有效的保護,這無疑會損害數字內容生產者、銷售者以及消費者的正常利益。但是數字水印技術在這方面的應用就很有效防止和打擊這種行為,如何在其他數字內容下實現魯棒性更強的數字水印的嵌入是我們接下來的研究重點。