文·丁枚
大數據檔案開發利用起步戰略
文·丁枚
本文分析了當下大數據檔案開發利用特點及影響大數據檔案開發利用的有利、不利因素,探討了大數據檔案開發利用起步戰略。
大數據 開發利用戰略
自美國2012年啟動大數據研究開發計劃,尤其是2015年國務院印發《促進大數據發展行動綱要》以來,大數據成為政府、企業、科研部門關注的焦點,檔案界、學術界也感受到了大數據戰略帶來的機遇,發表了幾百篇關于大數據背景下檔案開發利用新趨勢的文章。近一、二十年來,社會進入了信息化時代,檔案信息呈現出數量大、增長快、載體形式多樣化、時效性強的特點,這幾乎與大數據4V特征相同。部分檔案信息具備了大數據特征,通過一定的收集、整合方式其將成為大數據檔案。大數據檔案的開發利用也就提到了議事日程。大數據檔案開發利用能夠產生巨大的經濟效益和社會效益,這正是幾十年來檔案界孜孜以求的目標。搞好大數據檔案的開發利用,將使整個檔案開發利用工作產生重大突破,將對我國經濟、科技、社會發展起到巨大的推動作用,檔案機構也將由一般的文化事業單位轉變為重要的經濟科技文化事業單位。目前,大數據檔案的開發利用工作還沒有開展起來,全面論述大數據檔案開發利用戰略的時機尚未成熟。本文將在分析當下大數據檔案開發利用特點、影響大數據檔案開發利用有利因素、不利因素情況下,結合檔案機構、檔案工作者的現有條件,探討大數據檔案開發利用起步戰略。
了解大數據檔案首先要搞清楚數據、傳統數據與大數據,傳統檔案與大數據檔案的概念與區別。
數據是計算機語言,指對客觀事件進行記錄并可鑒別的符號。雖然數據概念的產生只是近幾十年的事情,但它與已經產生幾千年的檔案概念基本相同,都是對客觀事件的記錄。檔案也是數據。
傳統數據又稱小數據,是相對于大數據而言的。大數據指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合,而傳統數據也就是用常規方法獲得的數據,例如用抽樣調查方法獲得的數據就是傳統數據。
傳統檔案指用常規方法獲得數據形成的檔案,例如檔案形成單位向檔案館移交的紙質檔案。大數據檔案主要指用感應技術、存儲技術、云計算等非常規方法獲得數據形成的檔案。在實際工作中,可以用兩種方法判斷大數據檔案,除了看是否是用非常規方法獲得的數據外,還可以用大數據4V特征來判斷,一般來說滿足數據量巨大和應用價值大這兩個特征,就是大數據檔案。像會計報表、查體報告這樣的傳統檔案在數量非常大且具有應用價值的情況下,也成為大數據檔案。應用價值大是判斷大數據檔案的必要條件,如果僅僅是數量大,但無應用價值,也不是大數據檔案。
目前,我國檔案機構中基本上還不存在現成的大數據檔案,也還沒有見到大數據檔案開發利用的報道,從整體上看,我國大數據檔案的開發利用還沒有起步。
(一)檔案界自身開發利用大數據檔案的能力不足,采用聯合模式有利于起步。從開發利用經驗看,檔案部門不僅缺乏大數據檔案開發利用的經驗,就連傳統檔案開發利用的經驗也不足。從技術條件看,大數據開發利用的優勢部門是互聯網企業和電信企業,以及少量的用戶單位,檔案機構在這方面的能力是比較弱的。當下檔案機構靠自身的能力開發利用大數據檔案面臨諸多困難,起步時,宜與其它機構合作,采用聯合模式。
(二)大數據檔案不是現成的,需要把部分符合一定條件的傳統檔案通過一定方式集合起來作為大數據檔案使用。目前,我國檔案館館藏的主要是傳統檔案。但部分傳統檔案,如會計報表、查體報告等,通過一定方式集合起來可以做為大數據檔案使用。現在,這些傳統檔案分散在全國4000多家檔案館中,有的還由檔案形成單位保管。起步時,需要先做統一檔案標準格式,以及檔案館之間互聯互通等基礎性工作。
(三)互聯網企業、電信企業開發利用的主要是反映最近行為的新鮮大數據,而檔案部門在起步時,則需要從開發利用反映歷史行為的大數據開始。美國互聯網數據中心指出,目前世界上90%以上的數據是最近幾年才產生的,互聯網上的數據每年增長50%,兩年就翻一番。盡可能使用新鮮度高的大數據是大數據開發利用的一個重要原則。然而,對檔案機構而言,一是不具備收集新鮮大數據的技術條件,二是受檔案開放時限的制約,一些檔案還沒有達到開放時限,或者還沒有移交給檔案館,使即時開發受到限制,開發利用新鮮大數據不是檔案機構的優勢。一般來說,相對于新鮮大數據而言,歷史大數據的價值是低一些,但對某些研究項目來說,是必須使用歷史大數據的,其在某些情況下的價值也是非常大的,例如研究幾十年前人們的生活方式對人體血脂、血糖的影響,就必須使用幾十年前的查體數據。
(四)大數據開發利用的用戶主體是企業,而大數據檔案的開發利用在起步階段宜面向政府部門和科研單位。市場化的大數據開發利用的主要目的是取得經濟效益,其用戶主要是企業,如百度、騰訊、阿里巴巴等互聯網企業、中國移動、中國聯通、中國電信等電信企業。例如電信企業通過把開發的大數據用于改善自身的經營管理或賣給其它企業的方式獲得收益。檔案機構目前不具備這樣的條件,搞不了這樣的服務。政府部門、科研單位也是大數據開發利用的服務對象。政府部門通過大數據分析實現決策科學化??蒲袉挝煌ㄟ^大數據分析進行科學研究。雖然這兩個部門不是大數據開發利用的最重要用戶,但檔案機構在開發利用大數據檔案的起步階段,主要面向政府部門和科研單位,符合檔案機構的實際情況。
(一)有利因素
1.社會環境發生了重大變化,國家支持大數據檔案開發利用。2015年8月31日,國務院印發了《促進大數據發展行動綱要》?!毒V要》指出,運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢。還提出要實行政產學研用相結合的協同創新模式,推動大數據的開發利用。我國經濟發展持續向好,大數據開發利用技術迅速發展,各地積極建設數字城市以及國家鼓勵智庫建設等,也都是有利于大數據開發利用的社會環境因素。
2.進入大數據時代后,檔案所具有的原始數據屬性,大大提升了檔案的價值和檔案部門的地位。在小數據時代,檔案的價值與圖書、情報的價值相差不大,進入大數據時代后,情況發生了根本性的變化,檔案是原始數據,圖書、情報不是原始數據,只有原始數據才有可能成為大數據,圖書、情報與大數據無緣。這樣檔案的價值就大大高于圖書、情報了。這是有利于大數據檔案開發利用的最根本因素。
3.《檔案法修訂草案》送審稿和檔案事業十三五規劃對大數據檔案的開發利用提供了法律、法規保障。修訂草案對檔案的開放、利用做出了重大改革,原來檔案的開放期限是自形成之日起滿30年,現在取消了對檔案開放期限的限制,提出“開放為原則,不開放為例外”的精神,并規定國家檔案館保管的檔案,開放日最晚不遲于形成后20年。這對需要快速處理的大數據檔案而言是重大利好?,F行的《檔案法》沒有關于信息化建設的內容,修訂草案專門增設了“檔案信息化與電子檔案管理”一章,對電子檔案管理系統的建立、電子檔案的安全及檔案數字化都做出了明確的法律規定,這有利于大數據檔案的形成和開發利用。檔案事業十三五規劃確定到2020年全面推進檔案資源存量數字化、增量電子化、利用網絡化的管理模式,還提出探索電子檔案與大數據行動融合,采用大數據、智慧管理等技術,提高檔案館業務信息化和檔案信息資源深度開發與服務水平的要求,這更是對大數據檔案的開發利用做出了具體規定。
4.大數據的廣泛傳播,提升了人們的大數據意識,形成了一批大數據檔案開發利用的潛在用戶,這是大數據檔案開發利用的市場基礎。近幾年,大數據作為重要信息資源、重要資產的理念已經深入人心。雖然一些機構暫時還沒有認識到檔案里面也有大數據,但只要認可大數據的開發利用價值,就是大數據檔案開發利用的潛在用戶。
5.檔案機構兼有政府部門角色,具有整合資源能力強的優勢。檔案機構既是檔案館又是檔案局,既具有文化事業單位的性質,又具有政府部門的角色。檔案機構與政府部門、科研單位、互聯網企業、電信企業以及用戶單位合作,共同對檔案資源進行開發利用的聯合模式是檔案開發利用的一個很重要的模式。檔案機構所具有的政府部門角色對聯合開發利用大數據檔案是十分有利的。
(二)不利因素
1.檔案界在整體上缺乏開發利用檔案信息資源的經驗。檔案界對傳統檔案的開發利用一直滯后于經濟科技社會發展的需要,現在又面臨開發利用難度更高的大數據檔案的任務,存在先天經驗不足的問題。從近幾年發表的幾百篇涉及大數據檔案的論文就可以看出這一點,這些論文大都注意到進入大數據時代后,將出現大數據檔案的開發利用問題,但對如何開發利用基本上都沒有提及。
2.檔案機構收集新鮮大數據的能力,無法與互聯網企業、電信企業相比。新鮮大數據主要來自互聯網、物聯網和移動電話,在當今時代,人們在頻繁地打電話、瀏覽網頁、網上購物、發微信等,都在不停地產生著新鮮大數據,互聯網企業、電信企業具有收集新鮮大數據的天然優勢,檔案機構在這方面處于弱勢。
3.檔案工作者的觀念、素質不適應大數據檔案開發利用的需要。檔案工作者是大數據檔案開發利用的重要主體之一,但其在觀念、素質等方面還存在一些問題。例如,進入大數據時代后,檔案所具有的原始數據屬性,使檔案工作搭上了大數據的快車,但在調研中發現檔案工作者普遍沒有認識到這個機遇;很多檔案工作者也不知道通過一定方式能夠把部分傳統檔案整合成大數據檔案。
4.檔案館藏狀態不適合大數據檔案開發利用的需要。目前,各級各地檔案館館藏主要是傳統檔案,還沒有現成的大數據檔案。一些能夠整合成大數據檔案的傳統檔案,也因檔案館之間互聯互通做的不夠,檔案館之間形成了信息孤島,增加了把傳統檔案整合成大數據檔案的難度。
5.檔案用戶的大數據檔案信息素質尚需提高。雖然部分檔案用戶認識到了大數據的重要性,但在調研中了解到,大多數用戶單位還不了解檔案里面也有大數據,還沒有想到開發利用大數據檔案。
(一)以開發利用歷史大數據檔案為主。檔案機構目前總體上不掌握感應技術、存儲技術、云計算等用于收集大數據的非常規方法,不具備收集新鮮大數據的能力。而通過整合歷史檔案中的傳統數據獲得歷史大數據是檔案機構的優勢。這一點又恰恰是互聯網企業、電信企業等具有收集新鮮大數據優勢的企業所不具備的。起步時應揚長避短,以開發利用歷史大數據檔案為主,例如開發利用幾十年前的人體查體數據等。
(二)以一次性項目合作為主。目前檔案機構不具備持續開發利用大數據檔案的能力,能夠整合成大數據檔案的傳統檔案分散保存在眾多檔案館中,檔案館之間的互聯互通比例還不高,廣泛、持續開發利用大數據檔案受到了限制。起步階段的主要任務是試點、總結經驗,從一個具體項目開始比較適宜,這類項目多是科研項目。
(三)以采用聯合模式為主。檔案機構存在收集大數據能力差、分析大數據能力弱等問題,同時具有整合資源能力強的優勢。在起步階段,檔案機構與互聯網企業、電信企業、政府部門、科研單位聯合,有利于更好地完成大數據檔案的開發利用任務。
(四)以為政府和科研單位服務為主。檔案機構是政府部門,也是文化事業單位,這一點與科研單位相同。它們的運轉資金性質也類似,因此檔案機構具有與政府和科研單位方便溝通、方便合作、方便為它們服務的優勢。政府、科研單位、企業都是檔案機構的服務對象,但在起步階段,把政府和科研單位作為主要服務對象比較有利,這樣還有利于獲得政府資金的支持。
(作者單位:濟南市技師學院)
