王倩倩
(中國艦船研究設計中心,湖北武漢,430064)
檔案服務依賴于一定的檔案資源,檔案資源的收集是檔案工作的基礎性工作之一。檔案資源的積累最主要的途徑有征集和接受移交,后者在檔案資源建設中的地位尤其重要。檔案移交的理論基礎是文件生命周期理論。文件生命周期理論對文件運動的全程加以描述,對相關文檔工作起到了巨大的理論指導作用,但是,這一理論也存在著一定的問題。本文在承認文件生命周期理論的前提下,基于信息生命周期的概念,提出了一種新的文件保存策略動態確定方法,以指導文獻歸檔工作的開展。
關于文件生命周期的確定,很早就有基于利用情況的確定策略:法國檔案局《檔案學教程-法國公共檔案館理論與實踐》(1970)根據文件的活躍程度劃分為活躍期、半活躍期、不活躍期;西班牙埃雷拉在《檔案學概論》(1991)中根據對文件的管理次數劃分生命周期。巴斯克斯批評了這種看法,認為這種根據利用情況劃分文件生命周期的策略同文件(檔案)的價值本質是矛盾的[1]。巴斯克斯的提法得到了廣泛的接受,學界都比較贊同根據文件反映事件的效用期以及文件對事件反映價值來確定文件生命周期。
隨著電子文件的盛行,一旦建立文檔管理系統和文檔資源,文檔的檢索、調用、傳遞,其邊際成本非常小,這使得原先橫亙于各個機構間的文件調用和傳遞的障礙不再存在;另外,在電子文件時代,很多機構在處置文件時也不再過多的銷毀,甚至有些機構已經不再銷毀文件,只是采取成本更低(同時存取效率相對較差)的設備存儲這些文件罷了。這種環境下,文件的生命周期不再是原先的各個階段分離的情況,僅從文件自身來看,各個階段的文檔處置情況是同質的。由此,根據利用情況來考察文檔的生命周期是可行的。
正是基于對上述問題的考慮,本文引入了信息生命周期理論,旨在通過對文件相關屬性(特別是文件的利用情況)的考察確定文件的運動階段。本文接下來的安排如下:在第二節,本文將對相關概念以及相關研究進行介紹;第三節,提出文件保管的最優化策略,以作為后面的具體方法的參照物;第四節介紹本方法的理論框架,第五節,通過具體方法的引入實現這一框架;最后一節,對本文提出的方法進行總結。
(一)文件生命周期理論
文件生命周期這一概念最早由菲利普布魯克斯提出,羅吉爾艾利斯基于布魯克斯的思想提出了文件運動的三階段理論,但直到此時,文件運動理論仍然只是作為文件中心的依據而提出。20世紀80年代,阿根廷學者Manuel 在前人研究的基礎上,系統的論述了文件生命周期理論,通過Manuel及其他學者的工作,文件生命周期理論不僅僅是作為文件中心的依據而存在,而擴展為描述文件運動和相關管理工作的系統理論[2]。
文件生命周期理論可以簡單的表述為:文件從其形成到銷毀或永久保存是一個整體運動過程;文件的整體運動過程由于文件價值形態的變化可劃分為若干階段;不同階段的文件與服務對象、保存場所和管理方式之間存在著內在的對應關系[3]。
文件生命周期理論隨著電子文件的興起,也遭遇了一些挑戰,如電子文件運轉的迭代過程對周期理論的挑戰、新興的管理方式帶來的對于文件生命周期理論的質疑等等。盡管如此,文件生命周期理論由于其理論價值仍然作為檔案學的基礎理論而存在。
(二)信息生命周期
對于信息生命周期理解,人們有多種理解,但是其基本思想都是一樣的,信息的生命周期是指信息從生成到其價值完全失去的整個時間區間[4],不同理解的差異在于如何理解信息的價值。例如:對于情報學科而言,價值更多的通過用戶的利用體現,而對于計算機學科而言,價值更多的體現為信息本身的固有價值。
信息生命周期理論在多個場合都有應用,如文獻老化分析[5]、搜索引擎中的網頁回訪策略的確定[6]等等。
本節提出文檔管理的最優化策略。
根據文件生命周期理論,文件的整體運動過程由于文件價值形態的變化可劃分為若干階段;不同階段的文件與服務對象、保存場所和管理方式之間存在著內在的對應關系。一般而言,現行階段的文件保存在業務機關,半現行文件由檔案室(文件中心)保存,非現行文件保存于檔案館。不同的場所保存文件有著不同的存儲代價(記為se(?,保存場所))和使用代價(記為ue(?,保存場所)),各類型保存場所的存儲代價和使用代價關系表示如下表1:
假定一種保存策略下,保存方案所帶來的總成本為E,則有:

最優化的策略使得E最小化。
最優化策略是理想狀態的,在實際上很難實現,原因如下:
首先,不存在一種策略能夠準確的預測文件在未來的使用情況。文件在未來的利用情況永遠是未知的。管理者也只能通過該類型文件或者該文件的歷史使用數據預測其在未來可能的使用情況。
其次,利用代價和存儲代價都難以確定一個準確的數值。以存儲代價舉例,隨著文件存儲數量的上升,在某一個階段,存儲一份文件的邊際成本是0,對存儲代價的測算只能是一個大概的數值。(存儲代價與文件數量的關系圖可以形象化的表示如圖1)

表1

圖1 文件存儲的總成本和邊際成本示意圖
另外,最優化的策略存在著操作上可能難以解決的困難,其中之一便是各個場所所能保存的文件數量是有限的,這使得最優化策略所得出的文件保管計劃難以實現,例如,按照最優化策略,可能有1000份文件需要在文件形成機構保存,但由于人員設備的原因,文件保存機構最多只能保存800 份文件,這樣多出來的200份文件就不得不進入其他場所保存。
最優化策略是理想的,在實際操作中很難實現。但是,最優化策略可以作為各種具體實現策略的參照物。
本文的目標是構建一種具體策略以確定文件的運動階段,它的出發點是文件保管的最優化策略,即是得保管策略帶來的成本最小化,為了使得提出的策略易于實現,本文將忽略對存儲成本和利用成本具體數值的計算。
ILDM方法基于這樣的假設:
文件的價值可以通過它的利用情況得以反映。(假設1)
利用情況具體包括文件的利用頻次和利用人群。正如宏觀鑒定理論所給出的假設一樣,我們假定人們沒有辦法直接確定文件的價值,文件的價值來自于人們對其的利用,以及利用所帶來的效用。鑒于文件利用的效用沒有辦法考察,本文僅僅考察文件的利用者以及利用頻次。
假設1 雖然看起來不盡合理——人們似乎可以用多種標準評判文件的價值,比如文件的形成者、文件的發布機關等等,但是作為文件歸檔策略,本文提出的方法并不需要考察這些指標,因為文件是否需要歸檔,在于其所處的生命周期階段,而階段的確定,深層次的標準是文件的效用和價值,也就是說引起文件階段性變化的深層次原因是文件價值形態的規律性變化,這種價值正是文件對于利用者需要的滿足[7]。當然,本文不否認其他指標對文件運動的影響。作為一種歸檔時間的確定方法,本文將重點考察文件的利用頻次和利用者這兩個數據項。
基于假設1,本文提出了基于信息生命周期的文獻歸檔時間確定方法(ILDM)。該方法的思想是這樣的:文件自生效發布開始,即進入了現行階段;文件的利用者和利用頻次可以用于區分文檔運行階段,文檔價值類型可以從文檔利用者類型的變化得到反映;文件有多種價值,單獨考察某一種價值,基于此價值判斷,如果文件長期得不到利用,則此后該文件利用的概率也會相對較低。
下面具體介紹文件利用頻次和文件利用者類型兩個指標。
(一)文件利用頻次對于確定文件生命周期運營階段的作用
為了闡述方便,下文將采用更加形式化的表示:文檔集合D 中的某份文檔di,i 為d 在D 中的編號,t時刻的文檔表示為di(t)。di(·)屬于某一文件運行階段,表示為S(di),文件所有可能處于的階段表示為S(·)={“現行”;“半現行”;“非現行”};ILDM 用于確定文檔的運行階段;文件的初始狀態為現行階段,即S(d(0))=“現行”。為了確定di 的運行階段,本文引入文檔年齡這一概念,表示為Age(di,t),即在時間t的時候di的文檔年齡,文檔的年齡越大,意味著文檔更有可能出于半現行和非現行階段,文件初始年齡為0。
文件都不是孤立存在的,多份文件因某種聯系構成集合,在文件歸檔時間的確定上,很多時候我們需要根據文檔集合的年齡。因此需要對于文檔集合的年齡進行定義。定義文檔集合的年齡如下:

W(di)用于衡量文件在文件集合中的重要性,如果不考慮文件重要性的不同,則對于D 總的任一文檔d,W(d)都為1。
(二)文件利用群體對于文件運動生命周期確定的作用
正如前文所述,文件運動周期變化的深層次屬性是檔案價值屬性的內在變化。價值是客體(文件)對利用者(包括制作人和利用人)需求的滿足。我們沒有辦法從文件自身知道文件的價值屬性,只能通過文件的利用情況——被什么人、以什么目的利用。因此,通過分析文件利用群體類型可以間接的探求文件價值屬性的變化。
分析文件利用者群體的前提是對文件利用者情況的統計,當然,對于公開文件而言,用戶類型的數據是很難獲得的,但對于政府內部文件而言,文件利用情況通常是可以獲得的,檔案館在提供檔案服務的過程中也會對使用者數據進行一定的統計。
通過分析文件的利用這類型的變化可以反映不同時刻文件所呈現的主要價值類型的變化,一般而言,在文件發布前期,文件多由相關業務人員使用,而在后期,文件更多的作為參考數據或者研究資料出現,這時候,其他業務人員以及科研學者在文件使用者中的比重會逐漸提升。通過分析文件利用者類型的變化可以在一定程度上發現文件價值類型的變化情況。
另外,需要注意的是,通過對上述模型的簡化,可以得到現行通用的文件歸檔模式。給出一個假設,即新發布的文件被業務人員利用的概率更高,不同文件分享同樣的利用概率,隨著時間推移,業務人員使用文件的概率下降,而其他人員利用文件的概率上升。基于這樣的假設,同類型文件有著相同的歸檔期限,而這正是現行的文件歸檔模式。
第四節已經給出了ILDM方法的框架,但是有一個關鍵問題卻沒有得到解決:文檔年齡該如何確定。本節將詳細論述文檔年齡的確定方法。
當文檔首次發布利用時,毫無疑問文檔是處于現行階段的,此時,將文檔年齡Age(d)置為0。一旦文檔發布,文檔的年齡就開始上升,當文檔年齡超過一定期限以后,也就意味著文檔過于老化,其所處的文件生命周期階段發生了變化。
有多種方法可以用于計算文檔年齡,本文介紹其中的兩種:基于平均值的計算方法和基于函數擬合的方法。兩種方法都依托于文件的利用數據提出。
5.1 文件利用情況統計數據
文檔利用情況統計數據既可以采用文檔累積利用頻次的形式,也可以將某段時間內文檔利用情況轉化為0和1的二元形式表示。

圖2 二元形式數據的直觀表示圖

表1 文檔利用頻次數據
(一)二元表示方法
定義u(di,t),用于記錄文件的利用情況,u(di,t)定義如下:

定義了u(di,t)以后,則文檔的利用情況可以表示如圖2,橫坐標表示時間t,藍色線條表示對應的時間t時,文件di得到了利用。
通過對各個時間段的文檔利用情況的分析,可以得到連續的文檔利用頻次數據u(di,t0)、u(di,t1)、u(di,t2)……u(di,tn)。一份文件的時序利用數據構成該文檔的利用情況統計數據
(二)文檔累積利用頻次
文檔累積利用頻次是對該文檔利用頻次的累積量的統計量。文檔利用頻次統計從某個初始時間t0開始,從t0開始,知道某個時間t,將其分 為m 段,依 次 表 示 為t0,t1,t2,……,時間區段構成集合T,|T|表示T 中元素的個數。截至tn(n為變量,且0≤n≤m-1)的文檔利用累積頻次表示為u(d,tn),意味著從t0開始到tn止該文檔的利用頻次為u(d,tn)。
ILDM 策略工作時,將維護對每個文檔累積利用頻次u(d,tn)的記錄,并對其持續更新,每當文件得到利用時,相關的u(d,tn)將得到更新,或者一個新的u(d,tn)將被創建,并與該文檔相關聯。
5.2 基于利用頻次平均值的計算方法
基于頻次平均值的方法相對簡單,它是一種啟發式的方法,根據經驗得出。它的思路是是:文檔年齡與利用頻次、文檔發布時間相關,與前者呈反相關關系,與后者呈正相關關系,即平均頻次越高,年齡越小,反之越大,文檔發布時間越長,年齡越大,反之越小。
計算文檔d利用頻次的平均值uˉ(d,t),給定一個閥值λ,文檔d 的文檔年齡計算為:

假設兩個文獻的利用數據如表1所示,設定閥值λ為300,則兩個文檔的年齡增長曲線表示如圖3。
基于利用頻次數據平均值的方法較易理解和實現,但是它也存在著較大的不足,而這一不足本身是由平均值的特性帶來的,它不考慮文檔利用概率分布的具體類型,使得在年齡計算上容易出現問題。例如,某一文檔在早期得到了大量的利用,但在后期卻幾乎在沒有使用過,但是由于早期利用頻次過高,其文檔年齡將長期處于較低的數值,這顯然是不合理的。5.3 提出的方法將部分的解決這一問題,當然效果的改進也會帶來實現上的困難。

圖3 文檔年齡增長曲線
5.3 基于函數擬合的計算方法
函數擬合的方法首先需要通過歷史數據得到頻次分布的概率分布類型,這可以通過數據擬合的方式獲得。不同類型的文件擁有不同的分布模型,對于利用頻次較小的文件,簡單的線性擬合就可以取得一定效果,但對于有著較多利用頻次的文件,如常常為公眾所查閱的文件,指數分布或者冪律分布更為常見[8]。當然,具體何種分布,還需要針對特定文件的歷史使用數據加以分析得到。
本節介紹一種較為常見的分布,其他分布的處理思路也是類似的。
已經有研究證明,對于公開性的web 文件,其訪問量分布符合冪律分布。給定文檔d,d利用頻次符合冪律分布,則形式化的表示為:

β可以通過對歷史數據的分析得到,對于web文件,β一般為-1.5±0.1[9]。
給定t,可以得到,在t 時間段內,該文件的利用頻次的一個估計。設定一個閥值λ。
同5.2 節一樣,基于啟發式的方法,給出一個經驗性的公式。

α是與t-β相關的系數。
上述計算是基于分段時間進行的,為了將實際時間計算進去,以t1表示每個時間段的長度,得到公式4。

鑒于文件生命周期理論在應用中的某些不足之處,本文提出了基于信息生命周期的文件生命周期動態確定策略(ILDM),以動態的確定文件的運行狀態,從而更好的管理文件(特別是電子文件)。此外,本文還給出了一個文檔管理的最優化策略,最優化策略雖然難以實現,卻可以作為具體實踐策略的參照策略。
本文的研究存在著一定的不足,最大的不足是沒有對文件類型進行細致的區分。實際上,按照二八定律,多數文件只有較小的利用率,而相對少數的文件卻有著較高的利用率,對不同的文件,生命周期的確定方式是不同的,對此問題還需做進一步的研究;其次,本文雖然提出了一個新的策略,但限于缺乏驗證數據,沒有對此方法進行實際驗證;此外,用戶類型變化如何反映文件主要價值屬性的變化,本文沒有給出一個完善的解答;最后,文件的價值并不能僅僅通過利用頻次和利用人群類型來反映,探索更好的可計量的文件價值評測策略還需要進一步加以研究。
[1]曼努埃爾·巴斯克斯,何嘉蓀. 文件生命周期的精確期限[J]. 北京檔案,1997(3):12-14。
[2]黃霄羽:魂系歷史主義[M].北京:中國人民大學出版社,2006.
[3]馮惠玲等:檔案學概率[M].北京:中國人民大學出版社,2006.
[4]邱均平.文獻計量學[M].北京:科學技術文獻出版社,1988.
[5]段宇鋒.網絡信息資源老化規律研究[J].圖書情報知識,2005,106(4):28-30.
[6]Christopher Olston,SandeepPandey.Recrawl scheduling based on information longevity[Z].the 17th international conference on World Wide Web,2008.
[7]同[2]
[8]Malone T etc. Dynamics of information access on the web[J]. The American Physical Society,2006(6):132-138.