
摘要:數據溯源技術是計算機技術的重要組成部分,它是分析數據質量和評估數據可靠性的有用方法。但是,溯源信息也可能會丟失或被欺騙,從而大大降低其可靠性。因此,為了提高數據追蹤的可靠性和安全性,需要保證配套技術手段的可靠性。將區塊鏈技術應用于數據監控,可以更好地保護溯源數據,從而保證數據溯源的可靠性。本文簡要介紹了區塊鏈在信息追蹤技術中的應用。
關鍵詞:區塊鏈;科學數據;科學數據溯源
在大數據時代下,科學數據是極為關鍵且重要的科研資源,無論是國家創新發展抑或是科技建設,都是非常關鍵的組成要素。然而,面對看似常規的科學數據產品,如果沒有良好的可追溯性和足夠全面的分析,便難以確定其真實性和準確性。所以完成對數據的溯源處理是非常關鍵的措施與方法,將會為科學數據管理工作的深度開展提供更多的支持和保障,進而減少數據風險的出現概率,促進各項工作的穩定落實[1]。目前來看,區塊鏈的主要目標是完成對數據的整合歸檔處理,實現節點間分布式訪問以及無障礙交互共享,可以有效地避免出現信息不對等問題并推進多主體協同治理的激勵約束機制,并使用加密算法實現創新的安全措施。對于科學數據的可追溯性,它適用性非常高。有鑒于此,本文將會重點聯系區塊鏈理念,從全新的角度探討科學數據可追溯性問題,以期找到一種科學合理且高效保質的數據追溯方法,以此來為數據管理、應用提供必要的支持。
一、傳統數據追溯技術存在的問題
1.信息受篡改簡單。以往的數據追溯的方法是將各種關鍵信息全部存儲在中央服務器當中,所以在應用此種方法的時候,應確保數據應用程序和數據所有者的完整性。否則,它可能會在包含一些自己的利益之后破壞數據。即使增加數據控制,也很難避免這種情況,從而降低了數據的可靠性。
2.數據可溯性弱。傳統的信息追蹤技術可以輕松追蹤組織和企業的內部信息。但是,由于企業和組織之間的信息是分開注冊的,沒有聯系,因此很難溯源。
3.數據受銷毀簡單,因為各種信息都是被存儲到中央服務器中的,所以如果服務器受到安全威脅,那么可追溯性數據就會被損壞,這對數據的安全構成了負面沖擊。
二、區塊鏈的特點
1.權力下放。去中心化可以說是區塊鏈技術的核心特征,技術產生數據可以被直接存儲到各個節點當中,而并非是傳統由中央服務器進行集中存儲和管理,這使得數據的安全性有更大的保障。
2.開放性。區塊鏈技術的關鍵就是透明,通過對其應用,除非某些個人信息被加密,否則其他信息對任何人都是透明的,并且可以隨意使用此類信息資源。
3.獨立性。只要能夠從共同協議的視角出發,就可以避免數據驗證和交換,而不影響每個區塊鏈系統中的任何第三方。
4.安全性。采用區塊鏈技術使數據中心更加安全非常重要,這大大降低了數據中心被篡改的可能性。
三、科學數據可追溯性的內涵和體系
真實、可靠和具體的科學數據將會直接促進科學研究的開展,更可以增強研究人員的工作熱情和工作信心,減少有可能會出現的風險概率。科學數據所具備的可追溯性可以說是控制其真實性、具體性和科學性的關鍵路徑,所以其已經逐漸發展為目前行業工作者所研究的核心內容。作為大數據時代下的重要衍生物,數據溯源的主要目標是完成對目前已有科學數據的源頭、發展的綜合分析判定[2]。聯系數據的流動情況。科學數據的可追溯性直接囊括生產、使用、復制等多流程,同時還需要為潛在用戶提供必要的訪問機會,同時針對性地做好對科學數據的全方向以及多角度溯源管理,實現科學數據源的查詢和局部利用,到達目的地可追溯、數據質量有保障的指標,也就是科學數據的可追溯性是囊括多方面的針對數據的生產過程、使用過程等的全流程追溯。
由圖1可以明確,科學數據溯源的對象既有數據自身,也有各種和其相互關聯的主題信息以及或數據生成、使用經過的各種相互關系。此類相互關系也是需要予以重點關注的追溯內容,首先,其能夠保障以科學數據為核心的科學研究的科學性、合理性,借由數據平臺完成對數據質量的精準監督,在發現部分數據存在問題的時候,則可以迅速將問題數據做召回處理,潛在用戶能夠依托可追溯性信息有效地認識數據的質量,切實有效地保障未來數據應用過程的科學性、合理性以及安全性,由此避免有可能出現的非確定性問題的影響和限制,切實有效地維護數據用戶的切身利益。其次,可以有效地保障數據生產主體的切身利益,尤其是伴隨數據周轉利用頻次的持續增長,將會逐漸衍生出全新的數據產品,此時就要做好對科學數據二次開發的利益的保護,也需要做好對此前原有數據的保護的應用和流通的溯源和知情權。因此,基于科學數據的學科間聯系是開展數據追蹤的重要方向[3]。
從微觀視角切入,針對科學數據的溯源處理往往可以為用戶提供更加穩定的信息來源和渠道,有效降低用戶所需要花費的時間成本和精力成本。從科學數據的產生者視角切入,優質合理的科學數據溯源系統可以為他們控制科學數據的后續流通渠道提供更多的輕松和便捷。從宏觀視角切入,科學數據的追溯可以說是開展數據協同治理的核心,其既可以保護利益相關者在科學數據共享活動中的權利,還可以規范他們的責任。
四、相關理論與技術
(一)分布式系統
在步入新時代后,互聯網信息技術的發展迅速加快,信息的數量如同爆炸般增加,傳統的以計算機為中心的計算機服務越來越難以滿足當前信息社會的需求,導致碎片化系統逐漸出現在用戶群嚴重,分布式系統的存在可以使得傳統成本維護困難方面的問題被有效解決,目前已經有越來越多的企業開始拋卻傳統的大型機,轉而采取分布式系統做好對企業服務機制的構建。分布式系統的關鍵特征就在于其具備良好的兼容性和分布性,但是需要重點關注的是,相同分布式系統所存在的技術問題較為多樣,其綜合體現在系統故障方面,需要有與其相互對應的解決措施,為更為有效地保障分布式系統作用的發揮,解決目前存在的各種問題,有必要以更加科學合理的方法保障分布式系統的安全有序。現階段,較為普遍的分布式通信模型主要有消息傳遞和內存共享兩部分,二者均能夠切實有效地維持分布式系統的建設和運行。
(二)加密技術
加密技術是保障實時通信安全的核心,雙方依托彼此提前做好約定的特殊措施隱藏實際信息,使聯系信息不泄露給第三方。借助數據加密的方式,可以有效地解決數據丟失或者遭受竊取的問題,其安全系數能夠獲得顯著增長,數據跟蹤以及鏈路在加密方面的要求非常多。關鍵應用條件包括數據驗證、數據加密等,通過加密驗證,能夠更加有效地保障用戶行為的科學性、合理性,有效地解決可能會出現的非法情況,避免數據受到第三方的剽竊,使得數據信息的安全性可以獲得顯著增長。現階段應用較多的加密技術主要在如下幾點[4]。
對稱加密技術的應用頗為廣泛,并且整體簡單度高,無論是在部署還是計算方面都相對便捷。但是,由于這種加密方式的密鑰是對稱的,安全性相對較低,而且在連接兩個聯系人時必須使用特殊的密鑰,這會增加密鑰的數量,是一個大問題。
時間戳技術主要依托計算機生成隨機字符串,同時利用此字符串來識別特定事件的具體時間。使用區塊鏈技術,每個區塊都包含一個時間戳,以確定區塊的創建時間。雖然此項技術目前已經獲得普遍利用,但是通過對區塊鏈的整合滲透,可以保障未來區塊鏈技術更為健全完整。
哈希算法在目前計算機體系下,是最廣泛的數學算法。這個算法是不可逆的。可靠的哈希算法是無沖突、隱藏和解密的,這也正是哈希算法能夠獲得全面應用的主要原因。其核心優勢為數字簽名,但是需要重點關注的是哈希算法的作用并非是加密,而是用來提取數據行為值的。簡單地說,哈希是一串唯一標識原始數據的簽名代碼。區塊鏈中的主要信息通常不存儲在其中,而只是原始信息的摘要。有了這個區塊鏈系統,每個區塊都會產生一個唯一的哈希值,然后區塊會保存哈希值,這樣可以確保信息被持續監控,信息不被泄露。
(三)P2P技術
P2P技術是一項非常重要的網絡技術。只有有了 P2P 技術,我們才能更好地理解區塊鏈技術。通過P2P技術,可以在設備之間建立點對點的通信,所以關系中的雙方都是點對點的模式,沒有中心這種東西,可以明確的是P2P具有強大的網絡的實力。在 P2P 網絡中,每個節點都可以自由進出,沒有一個交叉點對其他節點沒有太大影響。因此,整個 P2P 網絡中任何一個節點的故障都不會對整個網絡產生重大影響。
五、基于區塊鏈的科學數據溯源實施方案
(一)基于區塊鏈確定科學數據可追溯性的內容
以區塊鏈理念為核心支撐的數據溯源本質上可以區分為全系溯源和數據溯源,若是從內容存儲的方面分析,可追溯性內容主要囊括基礎數據對象以及再生數據對象。其中的基礎數據對象囊括科學數據對象自身以及描述相應對象的信息,也就是科學數據元數據;再生數據對象主要囊括科學數據的生產、應用和流通的全體過程,同時還包含在進行二次開發后生產的各種過程數據以及結果數據,此類數據都是進行科學追溯的關鍵內容,同時也是相當重要的構成要素[5]。在龐大的系統當中,無論是科學數據對象還是元數據都是基本追溯的組成要素,追溯的結果形成最終的檔案記錄,并且直接影響到未來各項數據整理、應用工作的開展,可以為未來的科學數據溯源活動提供參考經驗藍圖。
(二)構建基于區塊鏈的科學數據追溯平臺
聯系科學數據溯源的基本內容來看,以區塊鏈理念為支撐的溯源平臺將數據對象作為關鍵就要素,將數據生產、應用和流通等作為前提條件,通過對實際生產主體、應用主體和流通主體信息的前后追溯存儲,將所有可追溯記錄全部記錄到相互對應的科學數據系統當中,最終形成覆蓋全面且具備充足價值的信息集合。所以以區塊鏈科學數據追溯為核心的平臺系統當中囊括有相當充足的智慧,是極為關鍵的重要的且無可忽略的組成要素,可以從根本上切合科研活動的剛性需要,保障科學數據溯源的科學開展,解決用戶利益受到侵犯或者平臺可信程度降低等問題的影響。
以區塊鏈理念為關鍵的數據可追溯系統的每項操作都是透明的,其并不會被限制到具體的項目當中,即便是其他具備學科需要的主體也能夠積極有效地融入其中,共同推動數據生態機制的建設和打造。但是可追溯性系統平臺并非是主體匿名以后即可隨意進出的數據場,而是判定主體的身份以及其應用數據的關鍵目標,也就是確定入場者自身的身份是否合理合法。來自用戶主體的訪問信息等都會被記錄到區塊鏈當中,但是若是想要獲取用戶的數據信息,只有科學數據的提供者,也就是供應商可以,其他主體沒有能力獲取響應信息,也就是說只有在應用他人生產的數據,數據用戶方需要承擔起報告自身數據使用痕跡的責任,然而僅僅允許訪問科學數據用戶的大致情況。換而言之,雖然知道有人在應用數據,但是卻沒有權力明確主體所應用信息的目標,只有后續出現爭議才可以進入系統當中,調集獲取相應信息內容。對于初級生產主體,科學數據通過區塊鏈提供給次級生產主體。
(三)實行私有鏈與聯盟鏈相結合的科學數據溯源運行模式
區塊鏈有三種運營模式:公共鏈、私人鏈和聯盟鏈。在科學數據溯源活動的實施進程中,若是想要切實有效地保障科學數據溯源的可持續建設,關鍵就是參與者形成必要的相互信任,這是前提。結合聯盟鏈和專用鏈的實際特性,可以將二者相互融合起來運行,以此來保障數據追溯活動可以被更好地貫徹落實。第一,運營模式是以聯盟鏈為基礎的科學數據追溯運營模式,數據生產主體、應用主體和開發主體都需要獲得授權以后才能夠參加網絡或者退出網絡。在網絡系統當中的科學數據的各種信息都是公開透明的,并且為雙方提供的數據連接信息也是相互對等的,要求內部參與者共同維護和交流,也就是保障科學數據流通鏈的信息的可追溯,對所有環節的參與者,尤其是最終用戶,它可以借助網絡內部的公開信息以及對稱信息,先行追蹤科學數據的來源和走向,進而切實有效地強化對科學數據質量管控的信念和態度,所以參與者相互信任的前提是能夠獲得有效保障。此外,在聯盟鏈內部仍然需要設置相應的私有鏈,因為私有鏈的開放范圍并非全部,科學數據追溯的參加者的自身權限必然需要獲取認證以及相應的制約,通過對兩種鏈的整合處理,科學數據的產生主體可以完成對所有數據的有效記錄與管理,即便在聯盟鏈當中獲得確認,身為聯盟內部的成員的個體也有權利不提供數據,這便要求從科學數據需要者的信用等級方面切入,判定其是否可以滿足期望。
六、結束語
伴隨目前信息時代的來臨,數據監控技術所出現的變化較為顯著,以往的信息跟蹤技術越發難以切合信息時代的建設進程,所以需要積極地強化對區塊鏈技術的應用,使其可以成為數據追蹤技術的重要支撐。通過對區塊鏈的作用的挖掘,可以更為有效地優化完善以往數據挖掘的技術形式,極大地提高了信息安全和監控。所以目前應該重點關注區塊鏈在數據監控當中的實際利用,以此種方式促進數據監控科學性、合理性的增長率。
作者單位:游濤? ? 北京國創鼎誠司法鑒定所
參? 考? 文? 獻
[1] 張力. 基于區塊鏈的數據溯源研究[D]. 貴州大學.
[2] 張國英. 基于區塊鏈的數據溯源技術的研究[D]. 南京郵電大學, 2019.
[3] 郭子賢. 基于區塊鏈技術的放射源物流溯源數據存儲算法研究[J].
[4] 深圳市安證鑒定所課題組, Research Group of ShenzhenAnzheng Forensic Institute. 基于時間和區塊鏈技術的證據溯源研究.
[5] 郭少友, 胡斐然. 應用區塊鏈構建健康醫療大數據溯源機制[J]. 文獻與數據學報, 2020, 2(4):16.