周文泓 黃思詩
(中國人民大學信息資源管理學院 北京 100872)
計算檔案學由2015 年明確提出,至今已有7 年的探索歷程,成為檔案學在人類世界數字轉型大背景下錨定的發展方向之一,甚至被認為將建構出檔案學融合計算機科學、數據科學等多學科的超學科[1]。當前,理論闡釋與實踐歸納推進了計算檔案學的建設。理論建構方面:一是由跨(超)學科屬性界定計算檔案學,指出檔案學同計算科學、數據科學等學科之間實現融合性建構以促進新的理論與方法論的形成[2][3];二是由計算檔案學的發展背景指出計算檔案學應深挖數據化的理論與方法內涵[4][5];三是提出計算檔案學應當以計算科學與數據科學中計算思維為方法域進行建構[6]。實踐的示例與歸納以啟示計算檔案學應有什么為目前多數的研究路徑,從如下方面充實計算檔案學:跨學科屬性驅動異質主體協同參與[7]、數據化情境賦予多元泛在對象[8]、融合計算思維再造檔案管理活動[9],問題導向下的技術應用策略。隨著建構的內容日趨豐富,計算檔案學的建設方向進一步明確,如同新文科建設相結合[10][11],以及面向數字人文的計算思維、方法實踐等。盡管計算檔案學已有一定成果,但作為學科或分支研究方向,應有的理論與方法未得到充分闡述,更未形成系統框架。
因此,本文將從外部著手,即梳理與挖掘計算社會科學的基本要點,用以啟示計算檔案學有何內容可吸收、有何方向可參考等,由此進一步明確計算檔案學可能存在的缺失之處與發展空間。
當前所指的計算社會科學主要源于2009 年大衛·雷澤等15 位學者在《科學》發表專題文章解釋了計算社會科學的產生背景、應用價值、人才培養等內容[12]。由此,更加立足于大數據情境的計算社會科學得到各學科的關注,以此為研究認識論與方法論深入于各學科的“計算+”,如計算法學、計算傳播學、計算經濟學、計算語言學、計算教育學等,也進一步豐富計算社會科學乃至社會科學的內涵。于計算檔案學而言,計算社會科學的框架與內容要點是重要建構參考與方向。基于對計算社會科學相關研究成果的梳理分析,可發現如下要點:
于計算社會科學而言,首先轉變的是研究數據伴隨數字技術的發展有了顆粒度、廣度、時效性等方面的綜合變化,從而改變對社會的認知,這是拓展完善社會科學的相關認識與方法的基礎[13]。
一方面,計算社會科學關注的是社會的數據生態,即社會范疇內形成了怎樣的數據、這些有怎樣的內容與形式表現,于社會科學而言有怎樣的特點與價值,由此幫助社會科學確定如何用這些數據用于研究。當前的計算社會科學研究認識到,研究所用的多是社會活動中使用網絡自然形成的數據,同以前基于抽樣做實驗、做調查所獲得的數據有較大差異。這些數據的特點為顆粒度的細化、廣度上覆蓋更多人群、密度上顯示為海量密集增長、時效性體現為實時采集等,以豐富的數據源解釋更多的社會現象[14]。因之,社會科學要識別不同的生產階段以及與之對應的數據情境,以此指導研究認知與方法的變化。[15]
另一方面,依循當前的數據情境,探討這些數據同社會的關系,以進一步確定這些數據可以怎樣解決有關社會科學的研究問題[16]。當前,主要的討論在于這些數據適用于揭示因果還是相關關系、可用于重復預言還是新穎語言[17]、是可以反映總體還是局部的知識[18]。于計算社會科學而言,高度數字化的社會形態顯示為高度數據化的人類行為,計算社會科學如果實現依托大數據認識社會的本體論、認識論、方法論的建構,就可以挖掘人類行為規律與方式[19][20]。雖然不同研究各有其觀點,但就理想層面來說,還是認定計算社會科學體現的是把社會作為復雜系統的研究范式,只是無論是互聯網自動生成的數據還是科研機構專門建立的數據平臺,當前的數據還是不能完全實現與整個社會復雜系統的對照[21]。因此,計算社會科學要求既要基于現有數據去探查社會現象,也要考慮那些缺失的數據同研究結果的關系[22]。同時,計算社會科學也意識到,多數數據不是為了研究而生成,網絡中形成的數據也不一定能對應于現實的人事物,用于研究時如何處理及其局限都要放入研究中去考慮[23]。
在數據化的推進下,社會更多的現象的可計算性得到加強。在計算化的背景下,社會科學的研究方法即要用怎樣的數據如何解答相應的社會問題[24]。
一是,圍繞數據與對數據認知的變化,引發社會科學中新問題的發現與識別,即計算社會科學主要解決的研究問題產生變革[25]。研究明確指出,計算社會科學既要利用新數據及其相關要素發現新問題,又要基于新數據去重構經典概念與問題[26]。換言之,同數據密集型研究范式的融合驅動產生新的研究問題和研究關注點[27][28]。這在各領域均有表現,例如盡管失敗但亦有取得研究成效的谷歌流感趨勢實驗。再如,計算思維融入法學,推進了人工智能法、互聯網信息服務法等新的發展方向。[29]對應于此,探索目標是新概念的提出與界定、社會現象的新解釋或優化解釋、新理論的提出或是經典理論的重構。
二是研究方法層面,如何使用數據得到較大程度的發展。隨著計算社會科學不斷發展,研究范式由數據驅動發展至同理論驅動相融合,即在相關關系的基礎上進一步重視因果關系[30][31]。研究方法隨之拓展擴充,其起點是計算社會科學很大程度上有別于總體中選取部分的隨機抽樣,而是基于數字場景中直接生成的數據展開研究[32]。目前,研究方法分類各有差異,但總體形成了社會數據計算、互聯網社會科學實驗、社會模擬三大方法體系[33-35],并在各大領域得到應用。
三是研究保障同樣有所變革。組織方式、研究者構成、知識評價標準等在計算社會科學的推進下均在變化中。例如,社會科學將有更多的實驗室、以計算科學、計算機科學、物理學等為基本組成的研究隊伍建設、可重復性在知識評價中凸顯等都可以看作重要表現[36][37]。
數據化和計算化的本質是為了推進社會各要素的優化,直接表現為各領域社會活動的智能化甚至實現智慧化。顯示于社會科學中就是要探索應用技術與工具來解決具體問題。
一方面,計算思維如何系統融入相應領域的社會問題,成為更體系化的方法論或路徑得以探討。計算化涉及的數據、算法、平臺和場景都成為社會的特定領域與活動中需要深入考察與描摹的內容,這需要在特定的社會活動中去界定人、行為、對象、場景等實體,并對其進行計算化轉換,進而理解特定領域宏觀的活動模式與構成要素。在此基礎上,計算社會科學探討的則是每一個社會問題如何轉化為適應于計算空間的運行要素、方法、模式等,用計算思維進行表達[38]。
另一方面則落于具體的技術與工具,研究如何解決具體問題,甚至發展該領域的數字科技。以技術為驅動也得到重點關注,從研究工具的角度強化計算社會科學,用以加強對數據的收集、處理、分析、輸出等[39][40]。例如,計算廣告學探討的重點之一是基于互聯網語境提供的豐富用戶行為數據在市場與消費者洞察、復雜變量的綜合考量、宏觀發現等方面實現突破[41]。這進一步推動數字技術融合于特定領域乃至特定活動開發出定制化工具,如計算科學也用于環境法治生產平臺、計算法學由此出現數字法律科技的分支[42][43]。
基于目前數據化以及相關要素的不足,討論計算社會科學存在的現有局限,并由此展望計算社會科學的發展亦是研究重點。現有研究通過細化數據情境的局限,探討計算社會科學的相應不足,這本質上也折射出計算社會科學的發展空間。
一是由數據對象本身出發,從數據安全與開放、隱私、知識產權、被遺忘權等主體權益討論計算社會科學的規范與倫理問題[44]。二是所謂大數據本身存在的局限對計算社會科學的影響亦有關注,例如偏重大數據而忽視其他數據源、所獲得數據為互聯網壟斷平臺而生成等是否會造成不客觀或削弱多樣性等風險[45][46]。三是研究人員對數據的應用能力的問題對計算社會科學存在的影響。例如,研究人員可能只具備基本的數據處理能力,但對技術、算法、數據對象缺乏系統認識,導致研究成果的科學性受限[47][48]。
參考計算社會科學的總體要點,計算檔案學諸多需要對照思考的地方進一步明確:
首先,計算檔案學所處的是怎樣情境,研究數據從何而來,有著怎么樣的表現、價值與特點?
其次,計算檔案學從學科角度應有的主要研究框架是什么,計算檔案學為檔案學科帶來哪些新的研究問題,研究方法有怎樣的發展,對應的研究保障有什么需求?
再次,計算檔案學核心的研究對象即融入計算思維、方法、技術和工具的檔案管理怎么構建,都要解決哪些實踐問題以及如何解決?
最后,計算檔案學存有怎樣的局限,從數據要素到研究主體等維度都有怎樣的風險與不足?
計算檔案學在多年的探討中已從學科整體構思至實踐經驗總結逐步豐富其框架與具體內容。然而,對照計算社會科學,計算檔案學無論是作為學科予以構建還是作為研究新方向進行拓展,都還需要更體系化的脈絡搭建與內容填充。因之,結合計算社會科學啟示的建構方向,基于已有探索,建構空間可圍繞如下方面展開。
當前,盡管計算檔案學顯示出同數據化的融合,但主要偏重于兩個方面。一是檔案對象的數據化,主要是將歷史檔案加工轉換至數據顆粒度。二是數據方法與技術應用于檔案管理問題的解決。對比之下,計算社會科學乃至計算傳播學、計算法學等領域,數據情境則更為系統與多元,以下要點值得關注與思考以豐富計算檔案學的建構場景。
一是,互聯網作為大數據重要的生成空間,計算檔案學應從數據角度與其加強連接。具體來說,計算檔案學當前同互聯網的關聯更在于把互聯網作為工具,引導著將檔案信息資源予以開發利用。對比之下,互聯網用戶生成的行為數據、內容數據、背景數據等尚未充分納入計算檔案學當前的研究范疇。而這些實時產生、社會面多元、來源與結構復雜的數據本身是各個學科數字轉型的重要資源。它們的缺失使得計算檔案學所強調的大數據發展背景存不足,不利于跟進人類世界發展進程并重構檔案認知與方法。因此,對計算檔案學而言,未來要更多地將檔案活動的場景拓展至互聯網之中,考察互聯網中的檔案與檔案與檔案現象。
二是,計算檔案學尚待將檔案管理納入數據化的范疇中。計算檔案學目前更偏重于檔案對象的數據化,但檔案活動的數據化并未系統納入其數據情境。換言之,檔案管理本身所形成的數據依照計算社會科學的思路是極為重要的行為數據,依循這些數據設定專屬維度可以更好探查該領域的行為規律與模式。當前,多數研究雖對檔案管理展開數據映射,但更對是為了匹配數據化的檔案以形成數據技術與工具的方案,并未以實時和持續采集的檔案管理數據作為重要的研究數據源。因此,計算檔案學需要對檔案現象尤其是檔案管理進行系統的數據追蹤與分析,發現更多的相關、因果關系,并促進更多的檔案管理預測以實現更加智慧和高效的檔案管理方法與實踐。
計算檔案學目前作為研究體系的建構并不充足,多是從宏觀角度對所涉學科有所闡釋,并基于計算思維給定建構方向,但尚需要從研究體系的多個層面予以新建或補充。
一是,由理論層面加強研究問題群的建設。當前,計算檔案學更多圍繞實踐,將計算工具或技術對照檔案管理所需探討方案。對應于實踐問題的引領,理論層面的建設則有所不足。在這其中,圍繞本體論、認識論、方法論的系統建設:核心概念的識別與界定,如計算科學、信息科學的概念同檔案學如何對接、重組;基礎理論的重構與擴充,如來源原則、文件生命周期理論、文件連續體是否要重新闡釋,立足于互聯網情境是否有新的檔案理論提出等;新的視角與場景是什么,有哪些新的研究分支,如人工智能是否要推動新的研究方向產生。
二是,由研究方法層面補足計算檔案學的內容組成。當前,有關計算檔案學的相關研究提及研究方法的較少。然而,研究方法作為學科的必要組成不可缺失。對計算檔案學而言,一方面可借鑒計算社會科學的方法論,將其已相對明確的研究方法予以拓展擴充,這就涉及到如何將社會數據計算、互聯網社會科學實驗、社會模擬應用于檔案學之中并展開適應性發展。另一方面,計算檔案學是否有特定的或專屬的研究方法,這也是需要加大研究投入之處。
三是,研究保障上需要依據計算檔案學建構進展、目標以及所處場景動態形成可行方案。為了更系統地推進計算檔案學發展,計算檔案學的研究共同體、科研與教學實驗室、教學改革等都是重要的有待完備的保障要素。同時,對計算檔案學研究成果從知識評價上的優化與推廣,同樣重要,以此推動作為新學科、新方向及時融入實踐應用與學科發展。
計算檔案學的研究內容很大程度上是檔案部門或相關記憶機構推進的檔案活動,這固然為檔案學提供豐富、重要、典型的場景。但依循數據情境的必要擴充,計算檔案學的研究內容也可參照計算社會科學予以拓展。依照對已有研究的分析可發現,計算檔案學所對照發展的實踐有如下特征:實踐主體以長期保存“歷史”檔案的檔案館或記憶機構為主;從生命周期來看,偏重于檔案后端的環節如保存、開發利用、開放鑒定等;檔案對象上,更多是官方或大型組織機構形成的檔案。對應于此,計算檔案學需要完備之處在于:
一是,研究范疇擴展至更多參與和開展檔案活動的主體及其利益相關者,除了檔案館等記憶機構與同樣較為關注的檔案形成官方機構外,互聯網場景中更多的網絡用戶形成者、提供基礎設施的網絡服務提供商、檔案管理規則制定和監管的機構等都要納入其中。不同主體在信息、數據活動中自發或自覺形成的檔案認知、理念、方法、能力、作用、行為等都是重要的研究對象。
二是,研究內容在檔案活動上要從更全景的視角延伸向檔案的全生命周期,從形成至保存或刪除的全流程都要有所體現。線性思維在數字空間中多面受阻,檔案管理環節也同樣以非線性的方式連接。在此背景下,檔案的形成甚至系統或平臺建設,所有的相關活動都可以視作檔案活動的組成。
三是,社會范疇所形成的檔案要進一步顯示于計算檔案學之中。盡管目前大數據還達不到所謂的總體數據,但多元廣泛的社會面覆蓋已是事實,這是檔案學不可忽視的范疇。通過考察這部分檔案以及相關檔案活動,檔案的認知與方法也將擴充。當前,計算檔案學銜接的依舊是官方為主的場景所構筑出的理論與方法,如若同社會范疇的部分檔案強化對接,區別于官方場景的檔案現象將大大豐富有關檔案行為模式與規律的認識。
計算檔案學無論是作為學科還是研究方向,其建構難度較大。在難以一蹴而就的背景下,更多地需要識別風險與機遇,將其轉換為發展空間與應對策略。計算社會科學所識別出的風險同樣具有參考意義。
一是,計算檔案學本身就是以檔案對象為核心,來自數據層的風險對計算檔案學而言有著重要價值。一方面,計算檔案學要積極發現數據風險以盡量規避計算檔案學出現的倫理、法理以及研究結果有效性等方面的不足。因此,計算檔案學的建構要全面全程審視所選取的數據源、數據的優勢與不足、數據使用的方法與技術工具等。另一方面,對計算檔案學而言,從檔案角度發現數據風險并形成對策,本身也可作為計算檔案學的研究內容。例如數據安全與權益保障等議題,本身也可以同檔案已有的鑒定、開放利用等實現雙向的擴展。
二是,面對數據存有的局限,計算檔案學同樣需要積極探尋與梳理數據情境。圍繞數據源、數據主體、數據內容、數據形式、數據價值、數據特點、數據局限等要素,要做好研究數據的盤點,并立足不同場景的研究,形成示例,也為計算檔案學認知與方法的升華提煉奠定基礎。
三是,立足研究能力的問題,計算檔案學要從兩大方面進行消解。一方面,在于研究隊伍的優化,這主要從科研訓練和學科教育著手,強化計算與數據素養在能力矩陣中的融合,加強引導與培訓。另一方面,從研究基礎設施和數字空間的對接上做好機制建設。當前數字空間提供的研究數據并非為研究而生成,它們只是有研究價值。因之,研究的透明度與數字空間的安全度、商業利益保障等之間的平衡應得到考慮,并建立更系統的合作機制。例如,通過計算檔案學的研究共同體或檔案學的學術機構同網絡平臺達成合作,就數據的生成機制、數據共享、數據的使用、數據使用后的權益保障等細化規則。
計算社會科學為眾多學科的“計算+”提供了基本的認知與方法參考,計算檔案學在其中可視為重要建構方向,已有內容涵蓋融合計算思維的理論闡釋以及經由計算檔案管理的方法發現,但整體仍需系統的框架搭建與內容完善。本文梳理了計算社會科學的內容要點,對照計算社會科學提出了計算檔案學建構空間的展望。同時,計算檔案學如何參照計算社會科學實現更完備的建設與產出,仍需更多元而深入的研究與實踐探索。