賈玲李真李俐巨珺周曉林陸江
(1.中國礦業大學檔案館,江蘇徐州,221116;2.徐州市中醫院,江蘇徐州,221009;3.徐州市檔案局,江蘇徐州,221008)
Jia ling,Li zhen,Li li,Ju jun,Zhou xiaolin,Lu jiang
(1.Archives of China University of Mining and Technology,Xuzhou,Jiangsu,221116;2.Xuzhou Traditional Chinese inedical Hospital,Xuzhou,Jiangsu,221009;3.Xuzhou Municipal Archives Burean,Xuzhou,Jiangsu,221008)
數據挖掘技術是知識管理的一項重要技術,它可以從大量的結構化數據中揭示隱含的模式,這些模式是人們事先不知道的但又潛在有用的模式,對決策行為具有指導價值[1]。目前數據挖掘技術迅速發展并廣泛應用于各領域,使其也成為檔案工作無法回避的一個問題:數據挖掘技術能否應用于檔案管理工作?很多學者對這個問題進行了思考和研究,研究主要集中于宏觀理論探討,提出數據挖掘技術在檔案工作中也可以得到運用,它能推進檔案知識管理的進程,提升檔案管理整體技術水平和管理效率。但也有部分學者認為數據挖掘技術在檔案管理領域的應用價值不大,對其應用的可行性和必要性存在疑慮。
本文利用概念描述和數據立方體兩種方法,對Y大學檔案利用登記數據進行挖掘,采用實證方法對數據挖掘技術在檔案管理中的應用進行了研究,以期拋磚引玉,期望更多檔案專家學者投入到這項研究中,將數據挖掘技術在檔案工作中的應用推向深入。
利用登記是檔案管理一個十分重要的環節,它不僅是館藏管理必不可少的工具,同時對于分析檔案利用特點和利用發展趨勢具有十分重要的意義。但是,檔案利用登記數據庫中存放的數據是大量的細節數據,這些數據只是對利用事件的具體登記(如用戶姓名、單位,利用檔案的時間、內容、檔號、目的等),無法直接揭示檔案利用的現實特點,也無法直接反映檔案利用將來發展的趨勢。為此,必須對檔案利用登記原始數據庫進行有針對性、有意義的抽象、匯總和概括,才能達到研究和發現檔案利用特點和發展趨勢的目的。
概念描述是數據挖掘的一種專門方法,它就是對原始細節數據的有意義的抽象,以完成對某類對象的特征性描述或者幾個類之間的區別性描述。概念描述一般要經過概念分層、數據泛化、泛化結果表示等步驟。
利用概念描述方法對Y大學檔案利用登記數據進行挖掘,具體步驟如下:
第一步:數據清洗與準備
本文所采用數據來自Y大學檔案館檔案利用登記數據庫,截取其中2004-2010年的數據。根據數據預處理的方法,結合本文所需解決的問題,要進行的挖掘相關的主要屬性值均不可以為空值。在進行系統數據庫分析時,若這些相關屬性出現空值,根據表的屬性以及挖掘的內容將空值進行填充。另外,由于Y大學檔案館檔案利用登記采用人工錄入方式,在進行系統數據庫分析的過程中發現部分數據由于工作人員在進行數據錄入時,部分數據錄入錯誤。因此,在進行數據清洗時,對這些噪聲數據進行了相應的處理。

表1 Y大學2004-2010年各類檔案利用頻率情況(單位:人次)

表2 Y大學2004-2010年不同檔案利用形式被選用情況(單位:人次)
第二步:概念分層
數據庫中原始的細節數據通常屬于較低層的概念,如果直接對這些細節數據進行挖掘,可能得到許多難以理解的規則。利用較高層概念替換低層次概念可以減少數據集的數據量,而且,在較高層次上的挖掘,將產生更為廣泛的、具有指導意義的規則和知識。
筆者在對Y大學檔案館檔案利用登記數據庫進行挖掘時,通過仔細考察檔案利用登記數據庫的原始數據,將與檔案利用相關的概念分為了三個層次:第一層為檔案類別,可分為文書檔案、會計檔案、榮譽檔案、照片檔案、學籍檔案、學位檔案等;第二層為年度;第三層為利用方式,可分為查閱、抄寫、出具證明、打印、復印、掃描或數碼拍攝、外借、委托等。
第三步:概念泛化與結果表示
在運用概念描述的方法進行數據挖掘時,經過概念分層后,將相關數據集從較低的概念層抽象到較高的概念層,這個處理過程稱為數據泛化。
筆者采用了SQL數據挖掘查詢語言對Y大學檔案館檔案登記利用數據庫進行數據挖掘查詢,得到了2004-2010年各類檔案利用頻率的數據,及不同檔案利用形式被用戶選用的數據(見表1、表2)。
分析表1,可以得出不同類型檔案利用頻率的變化情況:(1)學籍檔案、會計檔案利用人次逐年上升,特別是學籍檔案利用人次增加較快。(2)榮譽檔案、學位檔案利用人次逐年下降。(3) 文書檔案利用人次在2008、2009年顯著增加,這與Y大學這兩年開展的大型編史修志工作有關。除去這兩年的數據,其他各年度文書檔案利用人次基本持平,如果與文書檔案歸檔量逐年上升相比,實際上,文書檔案的利用頻率有緩慢下降趨勢。
分析表2,可以得出不同的檔案利用形式被用戶所選用的變化趨勢:(1)通過抄寫、打印、外借、委托等方式來利用檔案的用戶數量逐年下降,反映出傳統檔案利用方式逐漸被新的利用方式所取代。(2)通過出具證明、掃描或數碼拍攝的方式來利用檔案的用戶數量逐年上升,特別是出具證明的,增幅較大。(3)通過查閱和復印方式利用檔案的用戶數量在2008、2009年有較大增長,其原因也在于Y大學于這兩年中所做的編史修志工作。除去這兩年的數據,歷年查閱和復印檔案的用戶數量有小幅下降趨勢。
利用概念描述方法進行數據挖掘的結果,只能大致看出不同類型檔案的利用頻率,或不同利用形式的總體變化情況,不能對每一類檔案的每一種利用形式的變化情況作出具體分析,即無法得出針對某一類型檔案,哪種利用形式逐年減少,哪種利用形式日益增多,也就無法據此做出有針對性的應對策略。

圖1 3維數據立方體
為了更深入地分析高校檔案利用的發展趨勢,發現用戶對不同類檔案的使用規律,筆者對Y大學檔案利用登記數據庫進行了更深入地挖掘,構造了高校檔案利用數據立方體,該立方體為3維數據立方體,3個維度分別為:時間維、檔案類別維、利用形式維(見圖1)。
進一步采用SQL數據挖掘查詢語言對Y大學檔案館檔案登記利用數據庫進行數據挖掘查詢,得出數據立方體的各項度量值,即2004-2010年不同類別檔案、不同利用形式的利用人次數據。Y大學檔案利用數據立方體可轉化為2維表(見表3)。
仔細分析表3,結合Y大學及其檔案館的具體情況,可分析得出各類檔案不同利用形式的變化走向及其深刻原因:(1)表3中所列6種檔案,文書檔案、學籍檔案、學位檔案的利用量較大,它們在利用形式的變化上幾乎呈現了相同的趨勢:查閱、抄寫、復印、外借的用戶日益減少,出具證明的大幅增加,尤其是利用學籍檔案出具證明的,增幅較大。(2)文書檔案利用形式的變化主要反映在兩點:一是通過查閱、復印、外借等形式利用文書檔案的利用量呈下降趨勢,其原因主要在于國家、國家整個教育系統及Y大學自身辦公自動化的普及和功能的日益完善,相當部分文件在發行或公布時就是電子文件,另有部分以紙質文件下發的都已進行了數字化,并以電子版在高校內部進行傳遞。由于文件電子資源的日益豐富,部分需要利用文書檔案信息的用戶,直接通過網上電子文件資源滿足了利用需求,這就相對造成了文書檔案利用量的下降。二是出具證明的利用量日益增加,這顯示出文書檔案的作用日益多元化,通過出具證明的方式,可為單位、個人解決工作、生活中多方面的問題提供有力支持。(3)學籍檔案利用形式的變化,最顯著的一點就是出具證明的大幅增加,其原因主要在于Y大學出國留學的學生越來越多,他們均需從檔案館出具中英文成績證明及學歷學位證明。這一變化趨勢反映了目前中國越來越多的學生選擇海外教育,也從一定程度上反映出Y大學外語教學、國際化教學工作日益達到較好的水平,學生的國際視野開闊了、綜合能力提高了,他們可以選擇海外教育繼續深造。(4)會計檔案的利用形式以查閱和復印為主,利用量整體較小,但呈逐年上升趨勢。(5)榮譽檔案的利用多集中在科研項目申報、個人報獎或評定職稱等方面,以前多利用復印形式,現在主要利用掃描或數碼相機拍攝手段,獲得榮譽檔案原件的電子版。(6)照片檔案的利用量也較小,其利用形式主要是掃描或數碼拍攝,有少量外借的。
根據這些不同類型檔案利用趨勢的分析和預測,Y大學檔案管理部門可以針對性地制定應對策略,包括調整基礎工作方向,明確工作重點,采用新的工作技術和手段等。

表3 Y大學2004-2010年各類檔案不同利用形式的利用人次情況(單位:人次)
本文應用概念描述和數據立方體兩種方法,對檔案利用登記數據庫進行了數據挖掘,并根據數據挖掘結果進行了檔案利用趨勢的分析和預測,可見,數據挖掘技術具備應用于檔案管理工作的可行性。數據挖掘的方法很多,概念描述和數據立方體是兩種較為基礎的數據挖掘方法,此外還有分類、回歸分析、聚類、關聯規則、變化和偏差分析等多種方法。筆者在研究初期準備對檔案用戶信息和被利用檔案信息以聚類和分類方法進行挖掘,但在選擇具體挖掘方法時卻受到了數據庫資源的限制——筆者所掌握的Y大學檔案利用登記數據庫是由人工錄入登記的,其中有許多不盡如人意的地方,如用戶信息和被利用檔案信息十分有限且缺項較多等,無法支持聚類和分類挖掘。
對于實行館藏檔案條形碼管理,且通過自動掃描檔案條形碼、自動識讀用戶身份證或工作卡的方式完成檔案利用登記的檔案管理部門,則可獲取檔案用戶和被利用檔案的全面信息。基于信息全面的檔案利用登記數據庫,完全可以順利進行聚類和分類的數據挖掘研究,其研究成果也將對實際工作具有更好的指導意義。如,通過聚類分析可以得出不同檔案的利用頻率,對于利用頻率高的檔案可以進行全文數字化,既可提高利用效率,也可起到保護檔案原件的作用,同時還可指導歸檔工作加強對這種類型檔案的收集;通過對不同時期檔案利用關鍵詞的分類,甚至可以分析出某些部門重點工作的走向和變化;通過用戶信息挖掘,可發現哪些用戶經常來檔案部門利用檔案,對于這些用戶可根據其以往利用檔案的記錄,實行推送服務、定題服務等主動服務方式,拓展檔案服務空間。
數據挖掘是一種決策支持過程,它能高度自動化地分析數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整策略,減少風險,做出正確的決策。隨著信息社會檔案信息量呈“幾何級”的急劇增長及檔案事務的不斷拓展,檔案決策也日益復雜起來。在這種情況下,檔案工作應探索借助數據挖掘技術推進決策科學化。如依據本文利用概念描述和數據立方體方法對Y大學檔案利用數據庫進行挖掘而得出的結果,即可幫助Y大學在制定檔案工作發展策略時,采取更加有針對性的措施。如:①實施檔案數字化工程。挖掘發現用戶對電子文件的利用需求日益增加,根據這種情況,在進行各類檔案歸檔時應強化電子版的收集,同時根據檔案館人力、物力及財力狀況,適時對館藏檔案逐步開展數字化工作,即“新增檔案電子化,存量檔案數字化”。②加快檔案資源共建共享,推進檔案管理軟件升級。挖掘發現檔案利用形式呈現多元變化趨勢,據此應對檔案管理軟件進行功能升級,或重新開發功能更為強大的軟件以滿足突出利用需求。如,利用學籍檔案出具證明的需求量大幅增加,應重新開發功能強大的成績翻譯軟件,這將是高效快捷地提供成績證明服務的有效保證。③加強與其他單位的協作。挖掘發現在當前的社會人文環境和信息技術條件下,檔案部門與社會各界聯系日益緊密,檔案事務日益復雜,因此高校檔案部門不能再固步自封,僅局限于館內的具體業務工作,必須加強與校內外有關單位的協作,以使高校檔案工作獲得更好更快的發展。如加強與學校綜合辦公部門的合作,使檔案工作成為學校辦公自動化的一部分,實現檔案管理系統與學校辦文系統的無縫連接;加強與有關職能部門協作,使檔案管理系統與有關教學管理、科研管理等業務管理系統的連接,實現檔案利用能合理調用有關業務系統中的數據。
數據挖掘技術以其在各社會領域廣泛而深入的應用,突出表現了該項技術的巨大優越性及其提升工作水平和工作效率的顯著作用。雖然目前多數檔案管理單位業務相對簡單,暫時看來,采用數據挖掘技術的必要性不突出,但是我們應該主動把握時代發展的脈搏,主動創造條件應用先進技術。只要越來越多的專家學者投入這方面的研究,數據挖掘等信息技術必將為提高檔案管理水平發揮重要作用,而大量應用信息技術的檔案管理工作也將在現代社會發展中充當更重要的角色。
*本文系江蘇省檔案科技項目“現代檔案管理創新模式——檔案知識管理研究”(項目編號2010-L09)階段性成果之一。
[1]蘇新寧.數據倉庫和數據挖掘[M].清華大學出版社,2006:140.