摘要:大數據為社會各界帶來了深遠影響,檔案館也不例外。來自多種渠道的大數據為檔案館服務帶來了數據安全、數據挖掘處理以及數據表示等挑戰;同時大數據也為檔案館的服務帶來了機遇。檔案館應抓住這一機遇推動服務創新。
關鍵詞:大數據檔案館信息服務
一、大數據與檔案館
(一)大數據背景
2011年5月,知名咨詢公司麥肯錫發布了報告《Big data: The next frontier for innovation, competition, and productivity》,用長達一百多頁的篇幅,圖文并茂地論述了大數據對全球各個領域帶來的影響。《Nature》、《Science》、《紐約時報》、《華爾街日報》等在世界范圍內具有重大影響的期刊及媒體對大數據進行了專欄介紹,大數據已成為繼Web2.0、云計算之后最受關注的詞匯。2012年3月,美國政府宣布投資2億美元啟動“大數據研究和發展計劃(Big Data Research and Develop? ment Initiative)”,這不僅將大數據應用于實踐當中,還上升到了國家層面。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發展部署。美國政府認為,大數據是“未來的新石油”,并將對大數據的研究上升為國家意志,這對未來的科技與經濟發展必將帶來深遠影響[1]。
“大數據”這一概念比較抽象,至今仍未有一個公認的定義,麥肯錫將其定義為“大小超出了典型數據庫工具收集、存儲、管理和分析能力的數據集。”人們另辟蹊徑從它的特征入手試圖對其進行深入地理解。目前就它的特征已經基本達成了共識,概括為“3V”。“3V”指的是Vol? ume、Variety、Velocity。Volume是指數據量大而且增長迅速;Variety指數據來源廣泛、格式繁多,且其中以非結構性數據居多;Velocity指為了應對不斷變化的環境對大數據快速地處理。除去“3V”,通常還有“4V”的說法,然而關于第“4V”的含義眾說紛紜,有Value、Veraci? ty、Vitality等,其中以Value較為流行,綜合起來的“4V”含義基本指向價值大但密度低這一方向。這些爭議不僅可以加深對大數據的輔助理解,還可以促進對大數據進一步的研究。
(二)檔案館大數據的構成
1.檔案館數據庫資源
在全球數據量突飛猛漲的背景下,檔案館作為大多數信息資源的最終歸宿,其存儲量也是與日俱增。據統計,2011年,各級國家檔案館館藏已達3.3億卷,到2020年,各級國家檔案館館藏將達到6億多卷[2]。在檔案館數字化的浪潮中,大量的紙質檔案已經被數字化為電子資源,以文本、圖片、音頻、視頻等多種格式存儲于檔案館中,這些數據中所蘊含的價值只有被盡快挖掘出來并加以應用才能充分實現它們的價值。因此,這也正好符合大數據的三個基本特征:Volume、Variety、Velocity。
2.檔案館業務流程中產生的數據
隨著經濟社會發展需要以及人們檔案意識的提高,檔案館查檔的人次也在不斷增長,涉及到的領域也越來越廣泛。用戶的查詢、瀏覽數據也是檔案館大數據來源的重要方面,充分挖掘利用這些數據中潛在的價值,可以提高檔案館的服務能力和服務水平。
3.來源于互聯網的數據
大數據研究最初主要出現在營銷等商業領域,研究者從大量非結構性數據中挖掘出有價值的信息用以取得經濟效益。據DCCI互聯網數據中心在2012年7月26日舉辦的“Adworld2012互動營銷世界”上給出的數據顯示:2010年,全球數據量已達1.2ZB(1ZB=1024EB,1EB相當于10億GB),到2020年將暴增30倍達35ZB;2011年,全球被創建和復制數據總量為1.8ZB;2013年,我們生成這樣規模的信息量卻只需10分鐘。而在如此龐大的數據中,只有10%的數據是存儲在數據庫中的結構化數據,其余的則是由郵件、視頻、微博、帖子、頁面點擊等產生的大量的半結構化數據和非結構化數據[3]。這些來源于社會網絡中的數據記錄了大量用戶信息,檔案館可與相關的部門合作,通過對這些數據的獲取和挖掘,可以分析社會的熱點、用戶的偏好,從而有針對性地提供一些推送服務。
二、大數據給檔案館服務帶來問題與挑戰
(一)檔案館大數據安全問題
安全問題是大數據給檔案館帶來的首要挑戰。大數據雖然以非結構性數據居多,但是由于其數據量大、信息量多、涉及面廣,一旦管理出現問題造成數據泄露,便會引發嚴重后果。其次,檔案館的大數據中包含著公民隱私以及一些涉密信息,這些數據的使用權限、開放程度如果未能明確化,同樣將會給檔案館帶來大數據的安全問題。第三,由于這些大數據承載的內容豐富而且價值巨大,難免成為網絡攻擊的目標。在網絡空間中,大數據成為更容易被“發現”的大目標,承載著越來越多的關注度[4]。同時由于數據的大量聚集,一旦受到攻擊造成的損失更加嚴重。
(二)檔案館大數據挖掘處理問題
在傳統的檔案館服務工作當中,檔案館所需要做的只是從館藏檔案中找出用戶需要的信息,提供最大限度的利用。但在大數據時代,檔案館的數據處理方式、范圍、目的都發生了巨大變化,對大量數據的挖掘與處理將成為檔案館的一項重要工作[5]。傳統的數據分析方法如聚類分析、因子分析、社會化網絡分析等只針對于結構性數據進行處理,對于大量的非結構性數據卻難以挖掘其中的有用信息。因此,綜合數學、統計學、計算機智能等多個學科的知識,探索出有效的方法對海量的非結構性數據進行挖掘處理,是大數據時代對檔案館提出的又一項挑戰。
(三)檔案館大數據表示問題
當前物聯網、傳感網及互聯網中的數據正在向著異質、異構、半結構化、非結構化及不可信等方向發展,半結構化和非結構化數據占據了非常大的比例[6]。現有的數據表示方法已經不能或者不能完整、準確的表示這些數據的含義。因此探索出有效的數據表示方式迫在眉睫。另外,作為用戶最關心的數據分析結果,如果不能直觀明了地表示出來,用戶可能難以充分理解其中的含義甚至可能會受到誤導。在對數據處理之后如何將結果更精準、直觀地表示出來,也是需要關注的一個方面。
三、大數據給檔案館服務帶來機遇
(一)大數據有助于檔案館服務內容的豐富
大數據為檔案館提供了豐富的數據資源,使得檔案館的服務能力與范圍打破了館藏量限制的瓶頸。上文已經提到,檔案館的大數據除了儲藏于檔案館中的信息資源之外,還具有廣泛的外延,包括用戶在查詢利用檔案信息資源中產生的數據以及產生于整個互聯網當中的數據。這些海量信息為檔案館的服務提供了內在的支持,使其提供的服務內容更加豐富多樣。
(二)大數據有助于檔案館服務方式的轉變
檔案館傳統的服務都傾向于被動服務,而且服務方式比較簡單。最常見的模式就是用戶提出查檔要求,檔案館查詢并提供相關的檔案。然而在大數據時代,這已經遠遠不能滿足社會發展的需要,檔案館在保持原有的服務方式之外,還要不斷拓展服務。檔案館應立足于大數據,在提高原來服務水平和服務質量的同時,積極主動地向社會發布一些知識成果,提供參考咨詢等服務。這就要求檔案館的服務模式和流程發生相應的轉變,檔案館基于大數據的服務流程應為:用戶提出要求—數據收集—數據分析—提供方案。
(三)大數據為檔案館服務目的的轉變提供了新契機
檔案館的服務產生于其業務基礎之上,即服務作為一項業務進行。在這種情況下,服務的目的僅限于本職工作的完成。大數據時代,對檔案館的服務提出了更高的要求,檔案館可以以此為契機轉變服務目的,使其落腳于以用戶為中心、為用戶提供更加優質的服務之上。同時,大數據也為檔案館轉變服務目的提供了現實基礎,其豐富的數據資源使檔案館為用戶提供精準的解答、優質的服務成為可能。
四、大數據機遇下檔案館服務創新思考
(一)檔案館可以更加精準地定位用戶的需求
檔案館的服務面向整個社會,用戶的需求千差萬別,而且存在著“碎片化”現象,這對檔案館提出了新的要求。而檔案館要提高自身的服務,僅僅對原有的查檔工作抱殘守缺是遠遠不夠的。在積極拓展服務、主動向社會提供額外服務的過程中,對用戶需求的定位必不可少。只有準確掌握了用戶的需求,知道他們需要什么,才能具有針對性的提供相應的服務,滿足他們的需要。在這方面,檔案館可以借鑒市場營銷中的做法,通過獲取豐富的數據,如用戶的查詢歷史記錄、社交數據等,對這些數據進一步挖掘和分析,準確地描繪出用戶的需求行為。
(二)檔案館可以通過數據分析提供更優質的服務
面對大數據,檔案館傳統的工作環節及其側重點也需要發生相應的改變。在大數據時代,收集管理等環節必不可少,但還要加入數據分析環節。也就是說檔案館提供給用戶的信息并不限于原始的、粗糙的記錄,還包括經過深入處理分析之后精細化、準確化的二次信息。隨著大數據時代相關業界對大數據的重視及應用,大數據的特性與優勢將在日常的生活中凸顯出來。通過對這些大量非結構性數據的分析,使得檔案館的服務定量化、精確化,民眾的需求也將隨著這些個性化、人性化、高滿意度的服務出現而對檔案館的服務呈現出明確和迫切的需求。為了適應社會的發展、滿足用戶的需求,復雜數據的處理也將成為大數據時代檔案館工作的一個重要方面[7]。
(三)檔案館可以主動推送服務
隨著社會的發展,檔案館的服務意識和服務理念也發生了改變,它在經濟社會發展中扮演的角色也在逐漸地轉變。檔案館慢慢地由幕后走向臺前,由被索取信息轉向主動推送信息,也就是由被動地提供服務轉向主動地推送服務。首先,大數據為檔案館主動推送服務提供了內在的動力。在大數據的背景下,檔案館掌握著數量巨大、內容全面的數據,以檔案館為核心形成一個信息高壓中心,源源不斷地向四周推送信息服務。而以往檔案館僅僅基于數量和內容有限的館藏量,在快速發展的社會中產生的影響有限,只能被動地接受社會的汲取。其次,與被動地提供服務不同的是,主動推送服務面臨著“向誰”、“推送什么樣的服務”這一難題。如果推送的信息與服務不符合公眾的需要,這些信息不但沒有實現自身價值,而且還花費了相應的成本。數據挖掘技術對用戶的檢索行為進行分析,抽取用戶的數據信息,形成用戶數據庫,再根據用戶的興趣和訪問規律利用推送技術實現信息的主動推送。信息推送服務變用戶定制為主動有目的地推薦,提高了信息服務的主動性,可擴大信息的利用率[8]。
(四)檔案館可以提供個性化的服務
個性化服務的內涵是指以用戶的知識結構以及信息需求、心理傾向和行為方式等為依據,向用戶提供符合其個性的服務環境,向用戶提供信息預訂服務,并建立用戶個人的信息系統[9]。大數據時代信息受眾分類更加明確,很多數據信息服務是根據個人需求量身定做的,目的性更強、定位更準確、效果也更好[10]。大數據給檔案館傳統的服務方式帶來了新機遇,通過對大數據的收集、挖掘和分析,可以把握社會熱點、不同人群的關注點以及學術研究的重點等,借助檔案網站、移動終端等多種手段針對不同人群的不同需求推送相應的信息服務。只有立足于其掌握的大數據,面向整個社會,提供經濟社會以及科學技術發展所需要的信息服務,檔案館才能拓展自己的服務空間,實現自己的社會價值。
(五)檔案館可以提高服務的智能化程度
大數據背景下的檔案館服務,對技術將提出更高的要求,服務的智能化程度也將達到一個新的水準[11]。首先,大數據的收集、挖掘、分析本身就是一項智能型的活動。面對海量的、復雜的非結構性數據,單靠人工力量以及單一學科領域的知識是無法對其進行處理的。與之相反,更需要結合數學、統計學、計算機等多學科的知識,采用物聯網、傳感網、云計算、可信計算和信息物理融合系統等新興信息技術,對這些高價值而低密度數據進行分析。其次,在大數據的背景下,檔案館需要吸納高素質、復合型的人才,還要對已有的工作人員進行培訓,建設知識型、智慧型檔案館,提高檔案館的服務能力。
*本文系安徽大學研究生學術創新研究項目“檔案館轉型及服務評估方式創新研究”(項目編號:01001770-10117700406)的研究成果之一。
注釋:
[1]李國杰,程學旗.大數據研究未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2012.27(6):647-657.
[2]楊冬權.關于隨館藏數量增加而相應增加各級國家檔案館人員編制的提案[N].中國檔案報,2013-3-7.(1).
[3]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.
[4]馮偉.大數據時代面臨的信息安全機遇和挑戰[J].中國科技投資,2012(34):49-53.
[5]楊海燕.大數據時代的圖書館服務淺析[J].圖書與情報,2012(4):120-122.
[6]秦曉珠,李晨暉,麥范金.大數據知識服務的內涵典型特征及概念模型[J].情報資料工作,2013(2):18-22.
[7]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.
[8]馬仁杰,謝詩藝,李小剛.美國NARA網站的小眾化服務特色解析及其啟示[J].檔案,2012(5):40-43.
[9]杜成軍.大數據時代圖書信息服務的創新探討[J]電子測試,2013(10):157-158.
[10]劉葉婷,王春曉.“大數據”,新作為大數據時代背景下政府作為模式轉變的分析[J].領導科學,2012(3):4-6.
[11]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1):121-122.
作者單位:安徽大學合肥市圖書館