王春霈, 董 劍, 谷博文
(哈爾濱工業(yè)大學 計算機科學與技術學院, 哈爾濱 150001)
隨著互聯(lián)網(wǎng)日新月異,在其上運作著的數(shù)字內容也逐漸成為一個龐大的數(shù)字。據(jù)估計,到2020年網(wǎng)絡上存在著的數(shù)據(jù)量將達到44 ZB,而其中不乏存在著大量的原創(chuàng)性內容及作品。目前對于著作或知識產(chǎn)權等,只能進行出版或申請專利保護。而對于很多自由撰稿人,如現(xiàn)在互聯(lián)網(wǎng)上大量出現(xiàn)的網(wǎng)絡作家而言,他們大多使用假名或匿名寫作,使得他們的權利通常無法得到有效的保護。另外,知識產(chǎn)權的歸屬一直是網(wǎng)絡上乃至社會上公認的容易存在糾紛的問題。此類事件的發(fā)生大多是由于當前對于知識產(chǎn)權保護的力度不夠,版權信息不夠透明。
區(qū)塊鏈技術是新興的技術之一,隨著比特幣的出現(xiàn)才逐漸進入人們的視線,并迅速獲得了全球范圍內的關注。區(qū)塊鏈技術不僅僅是用于數(shù)字貨幣的特定技術,還是一種能徹底解決信任問題、去中心化問題的重要工具。由于其不可篡改、公開透明等特點,目前已經(jīng)被廣泛使用在物聯(lián)網(wǎng)、金融、保險、物流、公益等領域。
本文設計并實現(xiàn)了一種面向原創(chuàng)作者的基于區(qū)塊鏈技術的數(shù)字知識產(chǎn)權保護方法與系統(tǒng),對于無論是何種形式、何種類型的原創(chuàng)內容生產(chǎn)者來說,都能通過這種方法使得自己的知識產(chǎn)權得到保護[1]。相對應的,已經(jīng)擁有著作權、出版物或是商標權的所有權人,也可以加入到本方法保護的范圍,使其能夠更方便地行使自己的權利。
由于傳統(tǒng)知識產(chǎn)權保護存在自主申請不便、保護范圍較小、懲罰難度較大等缺點,現(xiàn)將視線瞄準向了區(qū)塊鏈技術。目前,區(qū)塊鏈技術能夠有效解決以下幾類傳統(tǒng)知識產(chǎn)權保護存在的問題:
(1)權利主體的認定存在不確定性[2]。傳統(tǒng)書面或實體多媒體作品在流轉和傳播過程中,通常會存在出版社水印、防偽等標識,以及相關的版權和作者信息。但是網(wǎng)絡作品就難以附加此類信息,如作者的身份信息等,即使通過特殊加密方式隱藏在數(shù)據(jù)中,也有被篡改或破解的可能。通過引入?yún)^(qū)塊鏈技術,在作品生成時,利用特殊算法對作品及作者、權利要求等產(chǎn)生一個數(shù)字指紋信息,將該指紋信息通過區(qū)塊鏈保存[3]。該指紋信息一旦上鏈,就不可再更改,保證了真實作者一定會擁有對作品的所有權。
(2)作品的利用方式不合理。以往的知識產(chǎn)權作品在使用方式上通常是授權的模式,即作者授權出版商出版或是傳播。然而,不合理的授權許可模式不僅有礙于優(yōu)秀作品的自由廣泛傳播,還會有悖于著作權法鼓勵創(chuàng)作、促進作品傳播的初衷。例如,騰訊旗下的QQ音樂與多家國際唱片公司簽訂了獨家授權合同,在國內占據(jù)了近90%的總曲庫授權,其他音樂公司若想要使用這些音樂,均需要向QQ音樂付費,幾乎成為了實際意義上的音樂版權管理組織,這極大降低了作品傳播的范圍。如果將作品通過區(qū)塊鏈保存,每當需要使用該作品時,由使用者向區(qū)塊鏈網(wǎng)絡提出請求。這一過程突破了原有的授權管理模式,跨越了管理組織、代理平臺等中介機構,實現(xiàn)了著作權人與消費者直接的接觸,實現(xiàn)了智能許可、自動化的報酬分配等目的,所有過程會被區(qū)塊鏈所記錄,形成了透明化的產(chǎn)業(yè)鏈。
(3)侵權成本較低且難以認定。當前網(wǎng)絡上廣泛流傳著諸多盜版或是侵權的作品,通常是由盜版者手工復制或翻錄發(fā)布在網(wǎng)絡上,這一過程非常難以追溯。當發(fā)現(xiàn)有侵權行為時,很多網(wǎng)絡著作權人無法準確提供自己網(wǎng)絡作品的創(chuàng)作證明或是所有權證明,因此也就無法對侵權行為予以打擊。如果借助區(qū)塊鏈技術來記錄作品的發(fā)布、轉讓或許可等過程,根據(jù)這一透明的價值鏈,就可以很方便地追溯到作品的來源以及每一次授權的信息,從而解決了著作權人難以舉證的問題[4]。
本文所述系統(tǒng)是為了保護越來越多的網(wǎng)絡普通創(chuàng)作者的知識產(chǎn)權,維護所有人的合法權益,保護網(wǎng)絡空間對知識產(chǎn)權的尊重。本項目由前端,后端,本地數(shù)據(jù)庫,區(qū)塊鏈部分組成,基本的流程是:用戶注冊登錄,用戶賬戶密碼等數(shù)據(jù)保存在本地數(shù)據(jù)庫,登錄后用戶可上傳將自己的作品上鏈,通過特征提取算法將作品壓縮,將壓縮后的作品轉換為字符串進行哈希運算,得出一個定長哈希值,將這個哈希值傳到區(qū)塊鏈上的同時將作品原件存儲到IPFS分布式數(shù)據(jù)庫中[5]。這個上傳過程需要查重,檢查該上傳的作品是否已經(jīng)被保存過版權,防止盜版侵權行為。
根據(jù)系統(tǒng)的功能需求,可以主要劃分為以下功能:
(1)用戶交互:用戶可視化的交互界面。
(2)作品保存:將用戶上傳的作品原件做備份保存,以備提取使用。
(3)特征提取:提取作品的唯一指紋信息,作為原創(chuàng)檢測及區(qū)塊鏈存證的證據(jù)。
(4)原創(chuàng)檢測:防止系統(tǒng)中存在有惡意修改原創(chuàng)作品并試圖上傳為自己作品的行為。
(5)區(qū)塊鏈交互:與區(qū)塊鏈網(wǎng)絡交互,以保證上傳登記與查詢。
本系統(tǒng)設計有3種不同的用戶登錄權限,分別是管理員、原創(chuàng)作者與查詢者。不同用戶可以使用的權限不同。
根據(jù)系統(tǒng)設計要求,系統(tǒng)功能共有5個模塊構成,如圖1所示。

圖1 系統(tǒng)功能設計
(1)用戶交互模塊。對用戶進行管理,未注冊的用戶可以賬號注冊,通過不同權限區(qū)分了普通用戶和管理員。同時提供給用戶可視化的操作界面,是其余模塊與用戶的橋梁。
(2)特征提取模塊。用戶上傳文件到后臺,進行特征提取。將文件原件通過感知哈希算法處理,提取過的文件對小幅的修改如旋轉、拉伸等具有抵抗性,最后文件轉化為一個64位的哈希值,即為作品所對應的唯一特征值。
(3)區(qū)塊鏈交互模塊。系統(tǒng)與區(qū)塊鏈網(wǎng)絡通信的端口,使用服務器的令牌創(chuàng)建本地客戶端,并與遠程節(jié)點連接,向系統(tǒng)提供打包新交易或查詢的功能支持。
(4)原創(chuàng)檢測模塊。向區(qū)塊鏈提交新作品信息前,需要先通過特征提取模塊將文件特征提取為哈希值,并在已有存證中檢查是否已存在該特征值,如果沒有發(fā)現(xiàn)重復就認定為是原創(chuàng)作品,上傳后將返回的交易ID作為索引保存;若發(fā)現(xiàn)具有相似特征值,則拒絕上鏈。
(5)作品保存模塊。作品信息存儲到區(qū)塊鏈后,還必須把作品原件無壓縮的存儲到服務器,以保證作為證據(jù)使用。本項目采用星際文件系統(tǒng)IPFS,同時將作品的具體信息及備注也存儲起來,IPFS為每個作品生成唯一地址進行訪問。
本項目使用MVC架構設計實現(xiàn),主要框架如圖2所示。

圖2 系統(tǒng)架構設計
圖2中自上到下依次為用戶應用層、服務提供層以及區(qū)塊鏈網(wǎng)絡層,用戶請求由網(wǎng)頁界面開始,經(jīng)過服務層,最終到達區(qū)塊鏈服務。用戶應用層與服務提供層通過前后端分離的程序編寫方式,React構建的前端界面是一個獨立運行的程序,通過fetch與后端交流數(shù)據(jù)。MySQL數(shù)據(jù)庫作為系統(tǒng)記錄作品歷史及存儲信息的核心數(shù)據(jù)庫。 Spring內置的Web服務器Tomcat為前端用戶操作提供相應服務,根據(jù)用戶請求自動編譯代碼將頁面資源發(fā)送給請求地址。
目前已有的基于區(qū)塊鏈對原創(chuàng)作品提供保護的成熟方案中,所采用的圖像特征提取技術實際上只是對于作品文件內容的摘要提取,即使用密碼學哈希函數(shù)。這一過程極易被規(guī)避,只要被壓縮的內容有輕微改動,所產(chǎn)生的哈希值就會有極大變化。對于這種情況就有可能存在惡意篡改作品,并當作自己的作品登記的行為。
本文根據(jù)消息摘要過程中信息的損失,提出了一種改進的特征提取方案,其主要原理是圖像學中的感知哈希算法[6],圖像的特征提取方案如圖3所示。

圖3 圖像的特征提取方案
本方案同樣需要先將原始的作品文件提取特征值并保存在存儲介質中,若發(fā)生侵權行為,就將侵權行為文件也做一次提取,并在已有存儲庫中和已有記錄進行比對。
不同之處在于本文在感知哈希處理過程中,每次處理的過程都會產(chǎn)生一個實例,對于不同的圖片大小,需要根據(jù)其長度與高度的比例,計算出能夠保證最終的phash值長度相同的一組參數(shù)。通常情況下,會將該參數(shù)設定為8或8的整數(shù)倍,以保證最終能夠有效產(chǎn)生具有充分意義的16進制的phash值。
在對侵權行為檢測時,根據(jù)產(chǎn)生的侵權文件的phash值去和已有存證中所有的記錄比對。該比對過程使用的是漢明距離(Hamming Distance, HMD)檢測方案[7]。漢明距離代表著兩個字符串之間字符的差異數(shù),是用于衡量字符串相似程度的指標,采用式(1)計算到兩個圖片的相似性。
(1)
即漢明距離/感知哈希值長度,這個比例值記作不相似度(Dissimilarity)。在比較過程中,若發(fā)現(xiàn)與某個已有作品的不相似度較低,則代表著它們之間的差異可能較小,就有較高概率發(fā)生侵權。
與現(xiàn)有技術相比,本文所提出的基于區(qū)塊鏈的原創(chuàng)作品保護系統(tǒng)的優(yōu)點在于:
(1)提出了一種基于區(qū)塊鏈的作品登記的方法,實現(xiàn)了快速作品登記、自動防抄襲原創(chuàng)檢測、通過區(qū)塊鏈固化證據(jù)等重要功能,并能利用區(qū)塊鏈的特性為原創(chuàng)作者提供強有力的創(chuàng)作證據(jù),為改善創(chuàng)作環(huán)境作出很大貢獻。
(2)提出的原創(chuàng)圖片登記與保護系統(tǒng),使用便利,使廣大原創(chuàng)作者足不出戶就能自主、快速地將圖片登記存證,不再需要經(jīng)過著作權等流程的處理,同時減輕作者與線下操作人員的工作負擔。
(3)通過高效的特征提取算法配合重復檢測算法,不僅為作者將作品提交到區(qū)塊鏈上提供了便利,還提供了強有力的保護,確保了原創(chuàng)作品的唯一性和價值,有效避免抄襲、盜用等惡意行為。
(4)系統(tǒng)不僅適用于網(wǎng)絡作者的小規(guī)模使用,同時能夠適用于批量作品的處理,內部模塊設計完善、穩(wěn)定性與性能良好,登記效率高,能夠為日后第三方機構接入提供支持。
但是,本文所述系統(tǒng)及其所提供的高效特征提取算法與原創(chuàng)檢測算法目前還均不適用于除圖片形式之外的原創(chuàng)作品,如文本、視頻等。文本內容目前只能通過密碼學哈希函數(shù)解決,而視頻文件可以通過將其按照關鍵幀拆分,進而形成一組相關聯(lián)的圖片作品,再利用本方案中的特征提取方案,就能夠形成同樣有效的保護[8]。另外,對于區(qū)塊鏈網(wǎng)絡還遠遠沒有利用最大化,后期系統(tǒng)可以進一步建立在區(qū)塊鏈智能合約上,形成完全分布式的運行環(huán)境。
本文提出了一個利用區(qū)塊鏈技術構建的原創(chuàng)作品保護系統(tǒng),設計了較為新穎的特征提取技術與原創(chuàng)檢測方案,使作品在上傳到區(qū)塊鏈網(wǎng)絡存證之前有了一次篩選,避免了惡意抄襲行為的產(chǎn)生,有利于原創(chuàng)作品的發(fā)展。由于區(qū)塊鏈的不可篡改性與時間戳特性,使得系統(tǒng)構建出了一個具有可信力的原創(chuàng)作品保護環(huán)境,這也恰恰體現(xiàn)出了區(qū)塊鏈技術所希望建立的信任的價值。