摘要:云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)已成為時代話題,我國有關(guān)大數(shù)據(jù)的報道和討論已蜂擁而至,各行各業(yè)都在努力迎接這一重大挑戰(zhàn),大數(shù)據(jù)已然成為學(xué)界的熱點話題。相比之下作為信息范疇的檔案學(xué)界反而談?wù)摬欢唷N恼聰M從大數(shù)據(jù)的概念特征、檔案實踐、檔案科研出發(fā)提出檔案學(xué)領(lǐng)域探討大數(shù)據(jù)的必要性,通過發(fā)現(xiàn)新環(huán)境下檔案現(xiàn)象和檔案理論面臨的新問題,闡述了大數(shù)據(jù)時代檔案學(xué)的挑戰(zhàn),進(jìn)而從檔案學(xué)的研究對象與內(nèi)容、檔案學(xué)研究方法論、檔案工作模式、檔案學(xué)理論體系分析大數(shù)據(jù)時代檔案學(xué)的發(fā)展趨勢。
關(guān)鍵詞:大數(shù)據(jù)檔案學(xué)云計算
Consideration about the Development Trend of Archival Science Influenced by Big Data
Abstract: Cloud Computing, Big Data and EPC System Network have become era topics, and re? search on Big Data becomes a development program of American government, and is paid much attention by types of organization. As is focused on, Big Data is now a scholastic hotspot. As paid far less attention from archives circles than form academic circles in ar? chives field which is a part of information field, Big Data discussion is pointed out to be necessary in this article, which is summarized based on concepts and features of Big Data, archives practices and archival science researches. Problems of archives phenome? na and archival theories in new environment are found out, and challenges of archival science in Big Data Times are discussed. Finally, trends of research object and contents, the methodology and the theo? retical system of archival science and the model of ar? chives cause are predicted.
Keywords: Big Data; Archives Science; Cloud Computing
2011年5月EMC[1]和McKinsey[2]幾乎同時將“Big Data”的概念拋向世人,大數(shù)據(jù)開始成為幾乎整個世界的焦點。2013年3月奧巴馬政府頒布《大數(shù)據(jù)研究和發(fā)展倡議》,繼“信息高速公路計劃”之后,注資2億美元以上,正式啟動“大數(shù)據(jù)發(fā)展計劃”。[3]我國有關(guān)大數(shù)據(jù)的研究和報道蜂擁而至,2011年12月工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上也提出了4項關(guān)鍵技術(shù),都與大數(shù)據(jù)密切相關(guān),[4]云計算、物聯(lián)網(wǎng)和大數(shù)據(jù)已經(jīng)成為時代話題。筆者在百度搜索“大數(shù)據(jù)”獲得約58,200, 000個結(jié)果,在谷歌搜索“Big Data”獲得約600,000,000個結(jié)果;在CNKI學(xué)術(shù)文獻(xiàn)總庫中按照題名中包含“大數(shù)據(jù)”進(jìn)行精確檢索共得到2923條記錄,只選擇“圖書情報與數(shù)字圖書館”“檔案及博物館”學(xué)科領(lǐng)域時得到55條記錄,并有兩篇文獻(xiàn)計量相關(guān)文獻(xiàn)[5][6],而只選擇“檔案學(xué)、檔案事業(yè)”學(xué)科領(lǐng)域時只得到6篇文獻(xiàn)(2013年10月30日)。檔案界對大數(shù)據(jù)的研究和關(guān)注相對較弱,目前對大數(shù)據(jù)的探討主要局限在概念和觀念的引入[7][8],有些學(xué)者也談到大數(shù)據(jù)引入檔案的必要性,甚至提到大數(shù)據(jù)時代檔案工作和服務(wù)方面的挑戰(zhàn)[9][10][11]。雖然這些研究已部分觸及檔案領(lǐng)域大數(shù)據(jù)的核心問題,但研究顯然不夠深入。同時,這些探討往往僅針對檔案工作的某些環(huán)節(jié),還未關(guān)照到對檔案整個學(xué)科的影響以及可能涉及的檔案學(xué)理論的突破。本文試圖結(jié)合檔案學(xué)以往的發(fā)展規(guī)律,探討大數(shù)據(jù)影響下檔案學(xué)的發(fā)展趨勢,進(jìn)而引發(fā)大數(shù)據(jù)時代檔案學(xué)理論可能性突破的思考。
一、檔案學(xué)領(lǐng)域有必要探討大數(shù)據(jù)
(一)大數(shù)據(jù)及其特征
業(yè)界對大數(shù)據(jù)的概念眾說紛紜,學(xué)界也無定論。總體而言,大數(shù)據(jù)可以用“一種資源(Source)、一種理念(Idea)、一種應(yīng)用(Application)”來概括。一種“資源”是指大數(shù)據(jù)本身的物性,即以二進(jìn)制形式記錄于磁性載體的可以被識別和處理的有用代碼,海量數(shù)據(jù)是對大數(shù)據(jù)最基本的認(rèn)識,但數(shù)據(jù)資源的價值和利用形式具有更深遠(yuǎn)的意義。一種“理念”是指大數(shù)據(jù)活動中的一種觀念或邏輯思維,是對數(shù)據(jù)資源價值實現(xiàn)形式的價值觀和方法論的革新,最典型的就是“啤酒+尿不濕”的營銷案例。這種理念催生了人類經(jīng)歷了實驗、理論和計算后的第四種科學(xué)研究范式,這種范式暫且被稱為“科學(xué)發(fā)現(xiàn)”,具有鮮明的革命性,在其影響下,社會科學(xué)有可能實現(xiàn)定量化研究,從而成為真正的自然科學(xué)[12]。一種“應(yīng)用”是指由于大數(shù)據(jù)處理需求而產(chǎn)生的各種技術(shù)、基礎(chǔ)設(shè)施平臺,以及以大數(shù)據(jù)為基礎(chǔ)的人類活動和產(chǎn)品,直接體現(xiàn)了大數(shù)據(jù)的社會價值。任何人在談及大數(shù)據(jù)時,其范疇無外乎這三者中的一種,或兼而有之。
業(yè)界對大數(shù)據(jù)的基本特征用4V來概括,其中包括規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity),在第四個V上有不同的理解,IDC認(rèn)為大數(shù)據(jù)應(yīng)該具有價值性(Value),而IBM認(rèn)為大數(shù)據(jù)必然具有真實性(Ve? racity)。這主要從大數(shù)據(jù)的物性角度考慮,實際上并非一定要有巨大的數(shù)據(jù)量才能稱為大數(shù)據(jù),它更多的是強調(diào)從各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中獲取有價值信息的能力,這種能力以其速度和準(zhǔn)度來衡量[13]。從ScholarSpace[14]的目標(biāo)與體系來看,我們可以發(fā)現(xiàn)其實大數(shù)據(jù)更多的是關(guān)注人,而非數(shù)據(jù)本身,正如研究機構(gòu)Gartner所指出,“大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用”[15]。從目前大數(shù)據(jù)的應(yīng)用案例[16]來看,大數(shù)據(jù)試圖實現(xiàn)“信息關(guān)聯(lián)->行為預(yù)測->精準(zhǔn)推送”,它將通過移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)逐漸改變?nèi)祟惖男袨榉绞健?/p>
(二)檔案領(lǐng)域的大數(shù)據(jù)趨勢
檔案實踐領(lǐng)域,以檔案館館藏資源為主體,包括數(shù)字化檔案、歸檔電子文件等檔案數(shù)字資源總量達(dá)到了PB級,檔案館具有了大數(shù)據(jù)特征[17],同樣具有檔案價值的其他零散數(shù)字記錄、日志文件等非結(jié)構(gòu)化數(shù)據(jù)也在以井噴式的速度爆發(fā),大數(shù)據(jù)處理能力必然成為檔案工作中的基本需求。而隨著整個社會和生產(chǎn)環(huán)境中大數(shù)據(jù)的運用,公共服務(wù)、輔助決策等檔案活動中也要求更快更準(zhǔn)確的智力支持。大數(shù)據(jù)無孔不入,將逐漸滲透到各個行業(yè),這將與檔案實踐需求最終耦合。
檔案科研領(lǐng)域,大數(shù)據(jù)不可避免要成為檔案研究的一個方面。丁華東在其論著中從檔案屬性的角度構(gòu)建出五種檔案學(xué)理論范式,并認(rèn)為檔案信息資源管理范式是主流范式,知識管理范式是前沿范式。[18]它們的基本問題之一就是“電子文件”。利用CNKI學(xué)術(shù)研究熱點工具對“檔案學(xué)、檔案事業(yè)”學(xué)科領(lǐng)域進(jìn)行檢索,“電子文件,電子檔案,電子文件管理”的熱度、文獻(xiàn)量、作者、機構(gòu)都牢牢占據(jù)第一位。以學(xué)術(shù)趨勢搜索工具搜索“電子文件”,其學(xué)術(shù)關(guān)注度仍然呈上升趨勢。可見電子文件相關(guān)研究是目前檔案學(xué)科研的最核心領(lǐng)域。從電子文件的分類來看,按來源和形成方式可分為數(shù)據(jù)庫文件、電子數(shù)據(jù)表、字處理文檔、電子郵件等八類,按信息組織的方式可以分為結(jié)構(gòu)化文件、非結(jié)構(gòu)化文件。[19]這種對數(shù)字資源的分類其實就是大數(shù)據(jù)的構(gòu)成形式,而實際上電子文件研究試圖構(gòu)建數(shù)據(jù)的檔案意義(資源),檔案知識管理研究試圖從海量數(shù)據(jù)中挖掘高價值信息提煉知識以輔助決策(理念),數(shù)字檔案館研究則試圖提供相應(yīng)的技術(shù)和平臺(應(yīng)用),可見某種意義上檔案學(xué)領(lǐng)域探討大數(shù)據(jù)已經(jīng)在進(jìn)行。而另一方面,2011年后檔案學(xué)領(lǐng)域?qū)υ朴嬎愕年P(guān)注也非常高,經(jīng)過檢索,檔案學(xué)領(lǐng)域僅2011年和2012年題名中包含“云計算”的文獻(xiàn)就有38篇。大數(shù)據(jù)和云計算有著極其密切的聯(lián)系,實際上是先有大數(shù)據(jù)的事實,而后有云計算的概念,兩者之間是靜與動的關(guān)系[20],“云計算與大數(shù)據(jù)是一個硬幣的兩面,云計算是大數(shù)據(jù)的基礎(chǔ),而大數(shù)據(jù)是云計算的一個殺手級應(yīng)用”,云計算最初就是為了解決大數(shù)據(jù)問題,同時也是大數(shù)據(jù)實現(xiàn)的基礎(chǔ)[21]。因此,檔案學(xué)領(lǐng)域不可能只關(guān)注云計算而忽視大數(shù)據(jù)。
二、大數(shù)據(jù)帶給檔案學(xué)的挑戰(zhàn)
(一)檔案現(xiàn)象的新變化
從上古結(jié)繩記事到如今以秒來計算的ZB級海量數(shù)據(jù),每一次人類文明的進(jìn)步、信息革命的開始,都給檔案工作增添了新鮮的色彩[22]。以電子文件為例,從最早引進(jìn)國外相關(guān)思想開始[23],圍繞電子文件是否屬于檔案學(xué)探討范疇的爭論從未淡退,然而信息革命帶來的新興檔案現(xiàn)象是檔案學(xué)無法回避的歷史課題,不到20年的時間,檔案學(xué)領(lǐng)域已經(jīng)將電子文件管理上升到國家戰(zhàn)略的高度[24]。21世紀(jì)初注定是一個互聯(lián)網(wǎng)爆發(fā)的時期,近十年來我國互聯(lián)網(wǎng)迅猛發(fā)展,據(jù)一份報道[25],2011年我國互聯(lián)網(wǎng)年產(chǎn)值2660億元。中國互聯(lián)網(wǎng)快速進(jìn)入了移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)時代,隨之而來的互聯(lián)網(wǎng)技術(shù)革命也在劇烈的展開中,云計算和大數(shù)據(jù)帶來的時代革命一方面被廣泛運用于商業(yè)活動中,另一方面也在輿情監(jiān)測[26]、醫(yī)療健康[27]、防止犯罪[28]等社會領(lǐng)域發(fā)揮作用,以數(shù)據(jù)為核心概念的檔案現(xiàn)象悄然發(fā)生著。一方面,檔案的范疇正在變化。檔案概念經(jīng)歷了(史料)文件論、記錄論、信息論和記憶論,但無論在什么概念范疇中探討,其實都將檔案定義在某一特定的意義區(qū)間。經(jīng)過20多年的探討,電子文件的檔案意義已經(jīng)無人質(zhì)疑,然而作為記錄這個社會真實一面,與公民身份、財產(chǎn)、健康、安全等切身利益密切相關(guān)的各種網(wǎng)絡(luò)信息、電子郵件、碎片化文本、簡訊、電子書、活動記錄等等非官方的零散性非結(jié)構(gòu)化數(shù)據(jù),恰恰被這個時代的檔案學(xué)者和工作者拋諸腦后。實踐領(lǐng)域已經(jīng)有企業(yè)試圖利用大數(shù)據(jù)為客戶建立檔案以提高利潤[29],也有企業(yè)順勢推出了服務(wù)于政務(wù)、行業(yè)和企業(yè)的大數(shù)據(jù)檔案信息系統(tǒng)[30]。而另一方面,檔案意義的數(shù)據(jù)正在社會領(lǐng)域發(fā)揮價值。如前所述,檔案意義的數(shù)據(jù)在輿情、醫(yī)療、治安、商業(yè)、政務(wù)等領(lǐng)域中開始發(fā)揮巨大作用,還有博友呼吁依靠大數(shù)據(jù)來分析個人的誠信和道德[31]。隨著整個社會認(rèn)知水平的提升,公民檔案意識越來越強,人民群眾成為檔案利用主體,不少檔案館過去每天接待幾個人,現(xiàn)在每天接待幾十人甚至幾百人[32]。在大數(shù)據(jù)影響下,檔案服務(wù)的方式也正在從被動服務(wù)向主動服務(wù)轉(zhuǎn)變。雖然檔案法規(guī)定“檔案國有”,然而檔案的實際控制權(quán)也在發(fā)生變化:雖然以網(wǎng)絡(luò)信息為主的檔案數(shù)據(jù)在某種程度上更能反映這個時代的真實全貌,但它們正在逐漸被商業(yè)機構(gòu)所壟斷,而這些商業(yè)化機構(gòu)為了自己的經(jīng)濟利益,按照自己的衡量標(biāo)準(zhǔn)管理和銷毀這些數(shù)據(jù)。檔案學(xué)人必須提高對這些現(xiàn)象的關(guān)注,研究其本質(zhì)與規(guī)律,提出科學(xué)的管理模式,以盡自己的歷史責(zé)任。
(二)檔案學(xué)理論的逆境
大數(shù)據(jù)中所蘊含的檔案學(xué)意義不言自明,但如何將理論與現(xiàn)實接軌,或?qū)⒊蔀榇髷?shù)據(jù)視野下檔案學(xué)研究的基本突破點。20世紀(jì)中葉以來,機讀檔案大量產(chǎn)生,檔案信息化步伐加快,檔案信息開發(fā)和利用成為“檔案人員的首要任務(wù)”,北美檔案界率先對來源原則發(fā)出質(zhì)疑。直到20世紀(jì)80年代電子文件時代到來,對來源原則的質(zhì)疑發(fā)生了變化,特里·庫克等提倡“新來源觀”,戴維·比爾曼在90年代將“元數(shù)據(jù)”引入電子文件管理領(lǐng)域,最終完成了來源原則的“重新發(fā)現(xiàn)”。來源原則仍然被認(rèn)為是檔案學(xué)核心理論,并能適用于電子文件管理活動中。[33]進(jìn)入信息時代以來,檔案學(xué)理論不斷經(jīng)歷著各種挑戰(zhàn),發(fā)展步伐愈加急湊,“文件生命周期理論”“檔案鑒定理論”等檔案學(xué)核心理論都遭受了巨大的挑戰(zhàn),并實現(xiàn)了飛躍。可以發(fā)現(xiàn),每一次檔案資源范疇和檔案信息形式的變化,都會對現(xiàn)有的檔案學(xué)理論帶來挑戰(zhàn),當(dāng)現(xiàn)有檔案學(xué)理論相遇大數(shù)據(jù)時,很多理論也表現(xiàn)出短板與無奈。實際上20多年來,檔案學(xué)理論的發(fā)展似乎陷入了瓶頸,在時代推力下其外延在不斷擴展,但核心理論體系仍然沒有大的突破,真正意義的范式革命并沒有發(fā)生。H·托馬斯·希克森指出,21世紀(jì)檔案管理的一項挑戰(zhàn)即將更多的資源用于非文字館藏的管理[34],大數(shù)據(jù)資源中充斥著碎片化的離散型檔案數(shù)據(jù),這些數(shù)據(jù)時而表現(xiàn)出極強的關(guān)聯(lián)性,例如同一信息中的文字、圖片、視頻和鏈接因同一主題而聚合在一起;時而又表現(xiàn)出極弱的聚合價值,又如同一用戶常常關(guān)注非常多的領(lǐng)域,其產(chǎn)生的信息聚合意義相對降低。面對互聯(lián)網(wǎng)、局域網(wǎng)、PC、移動終端產(chǎn)生的檔案數(shù)據(jù),不能陳守來源原則,也不能以傳統(tǒng)的整理鑒定理論一而概之,否則很難為挖掘高價值信息并提煉知識提供幫助。更值得一提的是,大數(shù)據(jù)表現(xiàn)出來的活力似乎還不能用現(xiàn)有的理論將其概括,或許將會有新的理論來為將要發(fā)生的檔案理論變革奠定基礎(chǔ)。
三、大數(shù)據(jù)影響下檔案學(xué)的發(fā)展趨勢
(一)檔案學(xué)研究對象或內(nèi)容的擴充
前文多次提及,非正式非官方非結(jié)構(gòu)化的信息在構(gòu)建社會記憶中有著舉足輕重的作用,很多以往沒有被關(guān)注的信息形式正在被不斷發(fā)現(xiàn),成為檔案信息資源體系中的重要組成部分。檔案學(xué)的研究對象是檔案現(xiàn)象及其本質(zhì)與規(guī)律,檔案范疇的變化,檔案意義的數(shù)據(jù)在社會各個領(lǐng)域發(fā)揮價值,都促使檔案學(xué)者開始思考大數(shù)據(jù)時代檔案管理與服務(wù)的新模式[35][36][37][38][39]。首先,作為資源的大數(shù)據(jù)中包含了電子文件在內(nèi)的檔案意義的數(shù)字資源,其中很多超出了我們目前檔案信息資源管理領(lǐng)域探討的資源形式。其次,在這種資源形式基礎(chǔ)上進(jìn)行的檔案活動很多是我們以往未曾預(yù)料的新現(xiàn)象。最后,就像電子文件時代檔案學(xué)研究內(nèi)容的擴展一樣,大數(shù)據(jù)特性帶來的技術(shù)、設(shè)備、平臺、制度等,都要求檔案學(xué)者進(jìn)一步研究,這些研究將極大程度地豐富檔案學(xué)。本質(zhì)上,在檔案學(xué)領(lǐng)域探討大數(shù)據(jù),首先是對電子文件管理和檔案信息化研究領(lǐng)域的擴展;但由于其理念的革命性,大數(shù)據(jù)很有可能會對檔案學(xué)核心理論體系帶來巨大的撼動。
(二)檔案學(xué)研究方法論的創(chuàng)新
方法論研究是科學(xué)研究的重要基礎(chǔ),檔案學(xué)研究方法論是檔案學(xué)研究的重要方面。前文已經(jīng)提及,Watts指出借助社交網(wǎng)絡(luò)和計算機技術(shù),社會科學(xué)可能成為一門真正的自然科學(xué)[40];計算機圖靈獎得主Jim Gray提出科學(xué)研究的第四范式[41]——數(shù)據(jù)密集型科學(xué)研究(Data-in? tensive Science)——引起了學(xué)界的強烈反應(yīng)。以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)密集型科學(xué)研究,無需模型就可以通過數(shù)據(jù)挖掘出可靠的新模式、新知識、新規(guī)律,微軟發(fā)布了《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》論文集對此進(jìn)行解釋[42]。計算社會科學(xué)(Computational Social Science)[43]是基于特定社會需求在特定的社會理論指導(dǎo)下,收集、整理和分析數(shù)據(jù)足跡(data print)以便進(jìn)行社會解釋、監(jiān)控、預(yù)測與規(guī)劃的過程和活動。數(shù)字人文(Digital Humanities)也被稱為人文計算[44],則是將現(xiàn)代先進(jìn)的信息技術(shù)運用到人文社會科研中以獲得基于非傳統(tǒng)理論與模式的結(jié)論,其本質(zhì)是方法論,倫敦大學(xué)學(xué)院數(shù)字人文中心主任Melissa M. Terras認(rèn)為“未來,數(shù)字人文必將成為人文學(xué)科研究的主流之一”[45]。檔案學(xué)的研究尚以理性思辨或?qū)嵶C考查為主,而隨著數(shù)字人文等上述以數(shù)據(jù)聯(lián)系為基礎(chǔ)的研究方法論的出現(xiàn),也將彌補檔案學(xué)研究中存在的遺憾,甚至推翻原有的一些曾被認(rèn)為是真理的理論。例如在檔案推廣評價研究中,目前主要基于“是否開展”“展示量”“人次”等被動數(shù)據(jù)作為支撐,而如果擁有大數(shù)據(jù),研究者則可以充分挖掘參與檔案推廣活動的受眾用戶相關(guān)數(shù)據(jù),獲得用戶對活動的評價及傳播力等,建立更為科學(xué)的體系來評價活動價值和尋找問題的解決辦法。我國檔案學(xué)研究正在從定性走向定量[46],大數(shù)據(jù)時代的到來,為檔案學(xué)研究方法提供了更多的選擇,甚至可能實現(xiàn)“以嚴(yán)格的學(xué)術(shù)研究取代目前常用的經(jīng)驗總結(jié)和定性判斷”[47]。
(三)檔案工作模式的發(fā)展
檔案工作主要為“八項內(nèi)容”和“兩大方面”[48],“管”和“用”這兩方面一直是檔案管理理論研究的重要課題。由于物質(zhì)技術(shù)條件、社會條件的限制,“卷”被作為早期檔案管理的基本單位,但隨著檔案數(shù)量的急劇增加、檔案類型的繁多、檔案工作重心轉(zhuǎn)向利用為主,在技術(shù)條件允許的情況下,立卷改革后檔案管理逐漸以“件”作為基本單位,這一改革使得檔案管理更加科學(xué)[49]。而隨著大數(shù)據(jù)時代到來,以“件”為單位的方法可能仍然無法適應(yīng)實際中的某些特殊情況,大數(shù)據(jù)有即時性、碎片化、非結(jié)構(gòu)化等特征,很多數(shù)據(jù)的出現(xiàn)不能以“件”論之,它們有的還可以分拆,有的甚至難以用某一個量詞來形容。而大數(shù)據(jù)對檔案資源本身的組織形式的依賴性也將進(jìn)一步弱化,依靠智能化的檢索和挖掘技術(shù),從大數(shù)據(jù)中挖掘出有用信息不再需要較為嚴(yán)格的組織形式,例如,在文本挖掘中,常常以句段,甚至是字、詞或詞組作為知識來源,傳統(tǒng)以全宗為檔案組織形式的管理模式甚至可能束縛新技術(shù)的挖掘能力。因此,未來以“條”或其他更小的單位作為檔案管理的基本單位將成為可能。同時,檔案利用工作也可能發(fā)生變化。傳統(tǒng)模式下,檔案利用以“檢索”作為一切利用和服務(wù)的基礎(chǔ),無論從最初的人工服務(wù)方式,還是發(fā)展后的檔案信息系統(tǒng)服務(wù)方式,要對檔案信息進(jìn)行利用和開發(fā),都無法繞過檢索活動。而進(jìn)入大數(shù)據(jù)時代,以符合用戶需求的即時性快速精準(zhǔn)的信息推送模式,或?qū)⒊蔀槲磥硇畔⒎?wù)的主要方式,檔案信息服務(wù)的底層基礎(chǔ)可能不再是檢索,而是智能化的數(shù)據(jù)挖掘。檔案信息資源的價值將在大數(shù)據(jù)技術(shù)的支持下得到最大程度的釋放。這些新的變化,將促進(jìn)檔案學(xué)者對檔案工作模式的進(jìn)一步探索。
(四)檔案學(xué)理論體系的新增長
檔案學(xué)理論的擴展受到實踐環(huán)境的影響,雖然從實踐出發(fā),可以將檔案學(xué)的發(fā)展軌跡歸納為“簡單總結(jié)過去經(jīng)驗->科學(xué)抽象指導(dǎo)實踐->超越現(xiàn)實預(yù)測未來->深刻反思理論自身”[50],但線性的發(fā)展模式過于簡單,理論與實踐之間常常具有時而牽制又時而促進(jìn)的關(guān)系,30多年來我國檔案學(xué)經(jīng)歷了一個波浪式前進(jìn)、螺旋式上升的曲折發(fā)展過程[51]。為了適應(yīng)檔案工作實踐環(huán)境的變化,適應(yīng)社會、政治、經(jīng)濟、文化等各個方面的發(fā)展,檔案學(xué)理論被不斷擴展,或是揚棄,或是發(fā)展,或是創(chuàng)新,構(gòu)成了創(chuàng)新性檔案學(xué)理論集合概念[52]。前文提到,檔案學(xué)理論的發(fā)展似乎陷入了瓶頸,檔案學(xué)者作為主導(dǎo)檔案學(xué)變革的主體應(yīng)與時俱進(jìn),檔案與生俱來同信息的一致性和自身的特殊性決定了檔案學(xué)能積極適應(yīng)和主動調(diào)整變革[53]。在面對21世紀(jì)新的信息科技環(huán)境,檔案實踐本身不可避免地在信息環(huán)境中跟隨科技大潮的推進(jìn)而不斷跟進(jìn),通過上文的闡述可知,大數(shù)據(jù)時代的到來也將使得檔案實踐發(fā)生巨大的變化,這一變化又將深刻影響檔案理論體系的發(fā)展。這種發(fā)展不僅僅是單方面的進(jìn)步,就像數(shù)字檔案館的研究一樣,大數(shù)據(jù)和云計算給檔案學(xué)理論體系帶來的增長也可能是系統(tǒng)的:檔案意義的大數(shù)據(jù)資源、理念模式、技術(shù)平臺都將擴展檔案學(xué)理論體系。面對大數(shù)據(jù)帶來的理論與實踐挑戰(zhàn),同時借助逐漸成熟的大數(shù)據(jù)技術(shù)與理念,檔案學(xué)理論體系本身很有可能實現(xiàn)新的突破,甚至對來源原則、鑒定理論等核心理論提出革命性觀點。
四、結(jié)語
據(jù)DCCI互聯(lián)網(wǎng)數(shù)據(jù)中心2012年給出的數(shù)據(jù)顯示:2010年全球數(shù)據(jù)量已達(dá)1.2 ZB,到2020年將達(dá)到35ZB[54];2011年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB,到2013年產(chǎn)生這樣規(guī)模的數(shù)據(jù)只需要10分鐘[55],大數(shù)據(jù)時代已經(jīng)到來。有人詼諧地打了一個比方,“如果一名大學(xué)教授因生病而取消上午的課程,其學(xué)生的鬧鐘和咖啡機就會自動修改程序,讓他們可以多睡一個小時。”可見人們對大數(shù)據(jù)的依賴越來越強,人類生活方式也在悄然變化,這種變化集中反映為數(shù)據(jù)作為核心資源地位的提升。雖然大數(shù)據(jù)還未被檔案學(xué)領(lǐng)域深入探討,具有什么特征的數(shù)據(jù)才屬于檔案學(xué)研究范疇還尚無定論,但無疑這些記錄人類記憶數(shù)據(jù)的研究、保護(hù)和開發(fā)利用工作,將是歷史賦予檔案學(xué)的責(zé)任。檔案學(xué)的發(fā)展歷程告訴我們,每一次重大的技術(shù)革新都必然影響著檔案學(xué)的發(fā)展,計算機和網(wǎng)絡(luò)技術(shù)的引入,出現(xiàn)了電子文件、檔案信息化和數(shù)字檔案館等管理理念與實踐,它改變了文件與檔案的處理流程,也為檔案大數(shù)據(jù)奠定了基礎(chǔ)。學(xué)科發(fā)展的前瞻性,使我們不得不思考,新的更大的技術(shù)和觀念的變化,必將為檔案學(xué)帶來新的增長,它注定會打破當(dāng)前檔案學(xué)研究的瓶頸。在很近的未來,或許我們應(yīng)該探討大數(shù)據(jù)對檔案領(lǐng)域更為具體和深入的影響。這既是挑戰(zhàn),也是契機,檔案學(xué)人是否準(zhǔn)備好迎接大數(shù)據(jù)時代?
參考文獻(xiàn):
[1] EMC World 2011云計算相遇大數(shù)據(jù)[EB/OL].http://news.watchstor.com/spec/emcworld2011/
[2] McKinsey Global Institute. Big data: The nextfron? tier forinnovation, competitionand productivity[EB/OL]. http://www.mckinsey.com/insights/business_technology/ big_data_the_next_frontier_for_innovation
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(1):146-169
[4]大數(shù)據(jù).百度百科[EB/OL].http://baike.baidu.com/ view/6954399.htm
[5]楊繹.基于文獻(xiàn)計量的“大數(shù)據(jù)”研究[J].圖書館雜志, 2012(9):29-32+37;
[6]韓芳芳,范群,韓青青.我國大數(shù)據(jù)領(lǐng)域研究論文的計量分析[J].圖書館學(xué)研究,2013(8):2-7
[7]吳緒成.淺談大數(shù)據(jù)背景下的第四代檔案館建設(shè)[J].湖北檔案,2013(3):9-12
[8]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9
[9]李小晨.大數(shù)據(jù)時代背景下的檔案管理探討[J].云南檔案,2013(6):48-50
[10]施永利.大數(shù)據(jù)時代背景下的檔案利用服務(wù)探討[J].商,2012(11):145+129
[11]庫俊平.大數(shù)據(jù)環(huán)境中企業(yè)文書檔案的信息化管理及利用[J].創(chuàng)新科技,2013(9):50-51
[12] Watts D J.A twenty- first century science[J].Na? ture.2007.445(7127):489
[13]郭自寬,張興旺,麥范金.大數(shù)據(jù)生態(tài)系統(tǒng)在圖書館中的應(yīng)用[J].情報資料工作,2013(2):23-28
[14]ScholarSpace[EB/OL].http://www.cdblp.cn/
[15]大數(shù)據(jù)的概念、技術(shù)應(yīng)用與分析及數(shù)據(jù)的處理[EB/ OL].http://bbs.pinggu.org/bigdata/
[16]大數(shù)據(jù)的概念、技術(shù)應(yīng)用與分析及數(shù)據(jù)的處理[EB/ OL].http://bbs.pinggu.org/bigdata/
[17]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9
[18]丁華東.檔案學(xué)理論范式研究[M].上海:世界圖書出版公司,2011
[19]劉家真.電子文件管理——電子文件與證據(jù)保留[M].北京:科學(xué)出版社,2009
[20]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(5):37-40
[21]蘇金樹,李東升.大數(shù)據(jù)的技術(shù)挑戰(zhàn)與機遇[J].國防科技,2013(2):18-23
[22]時云.信息革命與檔案沿革——淺議科技研究與檔案承載媒介變更的關(guān)系[J].蘭臺世界,2006(5):4-5
[23]羅伯特·F·威廉斯,許士平.電子文件管理——即將來臨的文件管理革命[J].檔案學(xué)訊,1988(1):102-105+34
[24]馮惠玲,趙國俊,等.電子文件管理國家戰(zhàn)略芻議[J].檔案學(xué)通訊,2006(3):4-8
[25]互聯(lián)網(wǎng)一年產(chǎn)值2660億行業(yè)掘金正當(dāng)時[EB/OL]. http://tactic.asiafinance.cn/news/2012-01-12/ asia0000032807.shtml
[26]李彪.大數(shù)據(jù)視域下社會輿情研究的新境界[J].編輯之友,2013(6):13-15+19
[27]健康云上的大數(shù)據(jù)分析[EB/OL].http://tech.ccid? net.com/art/40955/20120516/3861093_1.html
[28] BBC.地平線.大數(shù)據(jù)時代[EB/OL].http://video.si? na.com.cn/v/b/107900125-2192582404.html
[29]大數(shù)據(jù)實際運用,如何給企業(yè)創(chuàng)利?[EB/OL].http://www.36dsj.com/archives/3398
[30]東方飛揚大數(shù)據(jù)平臺掀起檔案大數(shù)據(jù)浪潮[EB/ OL].http://esoft.ctocio.com.cn/399/12691899.shtml
[31]新浪微博[EB/OL].http://weibo.com/ 1907073627/A67l8oLYX
[32]楊冬權(quán)關(guān)于增加各級國家檔案館人員編制的提案全文[EB/OL].http://www.saac.gov.cn/news/2013- 03/07/ content_23540.htm
[33]馮惠玲,張輯哲.檔案學(xué)概論[M].北京:中國人民大學(xué)出版社,2006:250-258
[34] H·托馬斯·希克森,肖永英.檔案行業(yè)面臨的十項挑戰(zhàn)[J].山西檔案,2004,01:13-17
[35]吳緒成.淺談大數(shù)據(jù)背景下的第四代檔案館建設(shè)[J].湖北檔案,2013(3):9-12
[36]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):6-9
[37]李小晨.大數(shù)據(jù)時代背景下的檔案管理探討[J].云南檔案,2013(6):48-50
[38]施永利.大數(shù)據(jù)時代背景下的檔案利用服務(wù)探討[J].商,2012(11):145+129
[39]庫俊平.大數(shù)據(jù)環(huán)境中企業(yè)文書檔案的信息化管理及利用[J].創(chuàng)新科技,2013(9):50-51
[40] Watts D J.A twenty- first century science[J].Na? ture.2007.445(7127):489
[41] Jim G. On eScience—A transformed scientific method[C]//Tony H, Stewart T, Kirstin T.The fourth para? digm:Data- intensive scientific discovery.Redmond, WA: MicrosoftResearch,2009:19-33
[42]微軟《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》中文版發(fā)布[EB/OL].http://www.msra.cn/Articles/ArticleItem.aspx? Guid=62d4765a-635e-4558-80a2-77c5c329f1f2
[43] Kumar R. Two computaional paradigm for big da? ta.KDD summer school 2012[EB/OL].http://kdd2012.sig? kdd.org/sites/images/summerschool/Ravi-Kumar.pdf
[44]數(shù)字人文.百度百科[EB/OL].http://baike.baidu. com/view/4754105.htm
[45]楊敏.數(shù)字人文:人文學(xué)科范式轉(zhuǎn)變新思路[N/OL].中國社會科學(xué)報.2013-6-24
[46]熊志云.檔案學(xué)研究的定性與定量方法淺析[J].檔案學(xué)研究,2002,06:24-27
[47]高大偉.檔案學(xué)的元問題及可能的形而上[J].檔案學(xué)通訊,2012(4):45-48
[48]馮惠玲,張輯哲.檔案學(xué)概論[M].北京:中國人民大學(xué)出版社,2006:237
[49]陳智為,鄧紹興,劉越男.檔案管理學(xué)[M].北京:中國人民大學(xué)出版社,2008:171-176
[50]劉燕華.從理論覺醒到理論自覺——論檔案學(xué)理論發(fā)展中的層次性[J].檔案管理,2000(5):11-12
[51]汝信,易克信等.當(dāng)代中國社會科學(xué)手冊[Z].社會科學(xué)文獻(xiàn)出版社
[52]王佳.網(wǎng)絡(luò)時代創(chuàng)新性檔案學(xué)理論發(fā)展[J].信息系統(tǒng)工程,2011(2):34-35
[53]李健.信息理論與技術(shù)對檔案學(xué)的影響研究[D].天津:天津師范大學(xué),2012
[54] Adworld2012互動營銷世界[EB/OL].http://www. adworld.org.cn/index2012.html
[55]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(5):37-40
作者單位:南昌大學(xué)人文學(xué)院