劉宇琪
一、開放數據環境下的檔案工作
(一)開放數據的內涵
開放數據近些年來作為一個熱點話題,有相當數量的研究成果,但是很多作者并沒有對“開放數據”下一個嚴格的定義,大多是針對其開放性的描述。而關于開放數據,至今尚無統一標準的定義。常見的如以下幾種觀點。
吳旻在《開放數據在英、美政府中的應用及啟示》中,采用了維基百科的定義:“開放數據是一種哲學理念及實踐,要求數據可以被任何人自由獲取,沒有來自版權、專利或其他機制的限制。”開放知識基金會對開放數據的闡釋:開放數據是一類可以被任何人免費使用、再利用、再分發的數據,在其限制上,頂多是要求署名和使用類似的協議再分發。相麗玲、王晴在文章中指出,“開放數據是一種自然屬于或被許可進入公有領域,可以面向所有人自由使用或被授權利用、再利用和重新分配的數據”。李佳佳提出:“開放數據不是可供人們獲取的數據,也不是免費的數據,它是總是被給予的數據,它依賴于見證者而存在?!焙钊巳A、徐少同對美國聯邦政府開放數據網站進行分析時,指出開放數據具有免費、非私有性、可再利用、合法性、數據格式多樣性等特點。
要明確“開放數據”的定義,首先得明確開放數據的理論根源。如果為了“開放數據”而對數據進行開放,難免會遇到許多問題,如:數據的來源、數據的安全性等。開放數據旨在建立一個數據完全開放的世界,但是很多高價值的數據是不同的主體耗費了無數的精力才得到的,如果無條件的開放數據很容易對這些企業或者其他主體積極性造成損傷。在當前生產力水平下,無疑會產生消極的影響。
所以開放數據的主客體的界定都不是一個隨意為之的事情。開放數據的目的是“數據共享”,以減少為獲得數據過程中造成的資源浪費,同時以期形成數據共享的社會,促進社會的發展?!皵祿梢员蝗魏稳俗杂色@取,沒有來自版權、專利或其他機制的限制。”這樣理想化的情況,在現行的制度下,是不可能行得通的。換句話說,在全世界未形成一個技術或者數據共同體的前提下,任何數據自由獲取“開放數據”是不能形成的。
基于上述分析,本文對“開放數據”的定義,選取曹凌在《大數據創新:歐盟開放數據戰略研究》一文中所提出的,開放數據是指公共機構產生、收集或支付的所有信息,包括地理信息數據、統計資料、氣象資料,由政府資助的研究項目的數據。公共機構由國家出資,國家資金來源分為兩部分,一是稅收收入,二是國有企業上繳利潤。而稅收理應取之于民,用之于民,國有企業為全體人民所有,所以公共機構的“開放數據”具有合理性。
(二)開放數據與檔案工作
在開放數據背景下,檔案機構作為“公共服務機構”,為公民和法人提供數據服務,是具有合理性的。自從美國在2009年建立政府數據開放平臺以來,世界多個國家政府也開始紛紛建立起自己的政府數據開放平臺,向公眾開放政府數據。
目前,我國的政府數據開放仍處在起步階段,無論是在理論研究還是實踐探索層面都與歐美國家有著相當大的差距。我國并沒有統一的政府數據開放平臺,僅有的政府數據開放平臺也只是地方政府自己建設的地方性政府數據開放平臺,無法滿足全國公眾的需要。中國不管在政策上、技術上還是在創新上都沒有足夠的保障來建立統一的政府數據開放平臺。
在信息化時代,掌握了數據,也就相當于擁有了一座金礦。檔案部門掌握這大量“高價值”的數據,但是因其身份的原因無法對這些數據進行完全的開發和利用。又因為數據的敏感性,讓檔案數據開放成為亟待研究的問題。檔案部門應當充當怎樣的角色,和公民、企業又當保持怎樣的關系,如何找準自身所處的位置,是開放數據背景下不可避免的問題。而開放數據的大環境,也必然會給檔案信息資源開發利用帶來各方面的影響。
二、開放數據對檔案信息資源開發主體的影響
(一)檔案部門角色的變化
在傳統檔案視角下,檔案工作既是信息的提供者,又是信息資源開發的主體。但是作為開發者,檔案開發工作很難真實的了解需求者的意圖,也就是需求不匹配的問題。然而在開放數據的語境下,不存在這樣的問題。因為,在開放數據環境下,數據的需求者(用戶)自身就是數據開發的主體,檔案工作只起到信息提供的作用。
所以檔案部門在檔案信息資源開發的過程中,應當從“開發者”的身份跳出來,只作為原始數據的提供者或者相關開發工具的提供者。開放數據的視角下,政府機關等公共服務機構的數據都應向公眾開放。而檔案部門作為數據的保管者,理應牽頭各部門制定開放數據的標準化程序。法律法規政策是開放數據的有力武器,走在開放數據運動前列的歐美國家已經制定了國家層面的開放數據政策和法令。在跳出“開發者”身份,充當法律法規的制定者的同時,檔案部門應該肩負起檔案真實性與完整性維護的重任。大概念的“檔案信息資源”包括:公共安全、公共教育、文體休閑、科學技術等各個領域。檔案部門應當對各個方面數據的真實性負重要職責。檔案部門可以在數據的歸檔、收集和保存方面為其他機構提供方法指導,參與到開放數據中去,并指導其數據的發布。
(二)用戶角色的再定位
信息化時代的到來,帶來了大量的信息資源,但是檔案部門作為信息資源的開發主體并沒有對自身的開發手段做出相應的改變。硬件和軟件的提升并沒有給檔案信息開發工作帶來本質上的變化,是檔案部門自身在完成“用戶需求匹配”的工作。面對龐大的數據量和復雜的用戶需求,這一問題日益凸顯。
在這里,筆者想引入UGC的概念。UGC最早起源于web2.0時代,即用戶將自己原創的內容通過互聯網平臺進行展示或者提供給其他用戶。UGC本身其實就是用戶根據自身需求,進行內容的開發和再生產的過程,然后進行分享。
傳統的檔案工作,由檔案館或者其他的檔案機構進行開發工作,然后向社會公眾進行開放。但檔案部門的人力資源是有限的,并且難以做到用戶需求的精確匹配。當下我們所講的開放數據,本質上就是一個更廣義的UGC模式。傳統的UGC中,用戶只負責上傳資料,然后用戶之間進行共享。但是在開放數據的環境下,用戶不僅可以就內容進行共享,還可以對開發工具和模式等開發的全過程進行共享,而不只是對最后的結果進行共享。檔案部門在開放數據的環境下,扮演的角色應當是UGC整個模式規則制定者,通過現有的“檔案信息資源”去吸引用戶加入其中,從而使檔案部門從“開發者”的身份中跳出去,不在作為檔案開發工作的主體存在。
從檔案部門和用戶分別在檔案價值實現過程中所發揮的作用來看,檔案部門在檔案信息資源開發過程中可以利用館藏資源做好檔案信息資源開發的基礎性工作,但不適宜作為檔案信息資源開發的主體;而用戶因其具備的檔案信息需求動力和檔案信息資源開發條件,在檔案館提供有序化檔案信息資源的前提下,是可以承擔起檔案信息資源開發主體責任的。而這種開發主體從“檔案部門”到“用戶”的轉變,正是開放數據最核心的理念。
三、開放數據對檔案信息資源開發客體的影響
(一)檔案形態的轉變
開放數據給檔案信息資源開發客體帶來的第一個轉變就是檔案形態的數字化到數據化。為應對信息時代對于檔案工作新要求,檔案數字化的工作已經進行了多年,并在一定程度上解決了傳統檔案利用信息技術進行管理及共享的問題,收到了相當的成效。但數字化僅僅是解決了載體形式或者說是信息技術的應用問題,可以理解為檔案工作對信息技術的適應性應用。
隨著移動互聯網、云計算、物聯網等新興技術的蓬勃發展和廣泛應用,以及各種傳感器的無所不在,信息技術已經可以將一切事物“數據化”。技術的革新勢必給現有的檔案存在形態帶來沖擊,數字化的檔案已經不能滿足用戶的需求,對于對檔案信息資源進行深入的數據挖掘與利用也是遠遠不夠的。檔案部門不能再被動地適應信息化發展需要,更應該主動根據檔案信息利用需求,積極的完成檔案數字化到數據化的轉變。更要將檔案的管理深入到數據層面,注重對數據本身的研究和開發利用。
(二)檔案信息資源價值的轉變
檔案因其歷史性和原始記錄性構成信息資源體系中最具基礎意義的部分,具有其他信息資源難以比擬的價值。有效開發檔案信息資源是實現檔案價值的前提條件,可以將檔案由封閉的內部資源轉化為流動的社會信息資源,為科學進步、社會全面發展服務。
在開放數據時代來臨之前,檔案的價值是由檔案鑒定工作者完成的工作,且因為儲存技術的原因要制定一個歸檔范圍,即確定哪些要歸檔保存,哪些不需要歸檔保存;同時對歸檔保存的信息和數據要根據其價值確定不同的保管期限以節省人力和物力資源。隨著物聯網技術的普及、互聯網時代媒體的網絡化,各種信息的數據化。并且近些年來,儲存設備的價格大幅下降,“將一切歸檔”成為可能。不同類型的“檔案”對應不同的主體,也會體現不同的價值,不再是檔案鑒定工作者的“一家之言”。所以檔案信息資源的價值隨著數據挖掘技術的應用而有了不同的解讀,所有的信息管理者都面臨著同樣一個問題:即需要對自身所掌握的信息的價值有準確的理解。這對檔案服務利用工作將是全新的挑戰,這不僅僅要求能夠靈活地運用各種技術挖掘檔案數據中蘊含的價值,更需要檔案工作者對于信息價值有著更為清晰的認識。
四、開放數據下檔案信息資源開發途徑的轉變
我國檔案工作已融入經濟社會發展各領域,檔案部門傳統的復印、借閱、展覽等提供利用方式顯然已經無法滿足公眾的需求。開放數據的開展,要求檔案部門能夠根據用戶需求,合理組織、整合館藏檔案數據,對海量的數據資源進行知識化輸出,實現檔案信息資源協同共享和信息增值服務。但目前為止,無論是編制檔案館藏目錄、檔案檢索工具,還是編研出版史料匯集、文件匯集等都依賴于檔案館內工作人員。檔案館人力資源、資金投入及技術力量畢竟有限,館內工作人員受精力、時間和知識儲備的限制在面對海量的檔案信息資源以及“并不容易”的開發工作時往往力不從心。
所以開放數據背景下,要積極探索檔案信息資源開發的新途徑。如檀竹茂在《檔案信息資源開發的有效途徑——協同合作》中提出,檔案部門應該與社會外部力量的協同合作,協同合作可以實現不同資源擁有者之間的優勢互補,是彌補檔案部門自身力量不足、實現檔案信息資源開發的有效途徑。周文泓將公眾參與的理念引入檔案信息資源開發中,從立足開放政府建立公眾參與制度、創建公眾參與的組織架構與社區、設計與開放檔案信息資源體系、布局數字工具的應用策略、以最佳實踐引領大眾參與五個方面探討如何構建公眾參與的檔案信息資源開發模式。在探索新途徑之余,也要注重各級檔案部門之間以及與其他信息機構之間數據的關聯,為公眾提供最全面的數據資源,消除網絡數據孤島。
檔案部門作為國家核心的數據機構,檔案部門應當牽頭建立全國統一的“公共服務部門”數據開放平臺,在開放數據的大環境下,邁出堅實的一小步,迎接“大一統”的開放數據時代的到來。
(作者單位:上海大學圖書情報檔案系)