趙旭 魯達志
(吉林大學(xué))
隨著社會的發(fā)展、信息化程度的提高,檔案管理中的信息化技術(shù)日益受到社會重視。目前,檔案管理型的傳統(tǒng)模式已不能適應(yīng)當今時代檔案管理的現(xiàn)實要求,所需是一種能夠適應(yīng)時代、系統(tǒng)性和需求的技術(shù)模型。數(shù)據(jù)挖掘技術(shù)的存在使檔案分類、收集和保存工作得到了極大的提高。
隨著技術(shù)的發(fā)展,傳統(tǒng)的檔案管理無法適應(yīng)工作的需要,而新的信息也給檔案管理帶來了很大的困難,而現(xiàn)在,隨著信息化的發(fā)展,檔案管理的能力得到了極大的強化,工作的速度也得到了極大的提升。數(shù)字化數(shù)據(jù)挖掘技術(shù)是將大量的信息流進行分類,并將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息流。通過對數(shù)據(jù)、信息的綜合,對其進行分析、高效地加工,從而使其具有較高的價值,具有實際意義。數(shù)據(jù)挖掘技術(shù)在很多方面都有廣泛的用途,他首先涉獵的是數(shù)學(xué),在實際運用中,他對資料的管理和查詢進行了優(yōu)化,對數(shù)據(jù)的保存和監(jiān)控都有很好的效果,直到后來,才開始在各行各業(yè)中使用[1]。
在這個資訊大爆炸的年代,我們必須要在各種資訊資源的基礎(chǔ)上,挑選自己所需的資訊,加以加工,以建立自己的知識系統(tǒng),為整個產(chǎn)業(yè)的發(fā)展提供依據(jù)。數(shù)據(jù)挖掘技術(shù)可以說是與因特網(wǎng)一起成長起來的。20世紀80年代,在第11次國際 AI大會上,人類首先提出了“數(shù)據(jù)知識倉庫”這個詞,讓人意識到了數(shù)據(jù)的潛在意義,而數(shù)據(jù)挖掘也逐漸進入了人類的視線。然而,在國內(nèi),數(shù)據(jù)挖掘技術(shù)仍處在初級發(fā)展的初期,許多實際問題都有待于處理,以充分利用和服務(wù)于各個產(chǎn)業(yè)。從80年代起,我國的檔案館信息系統(tǒng)已經(jīng)基本建立,并已積累了海量的資料,并產(chǎn)生了各種各樣的管理格式和各種 檔案管理型的資料。目前,檔案管理的主要任務(wù)是“資料存儲”和“資料檢索”,并沒有能夠挖掘出更多的信息。單純的數(shù)據(jù)堆積不僅會造成資源的消耗,還會導(dǎo)致系統(tǒng)的維修成本大幅上升。在我國,隨著信息技術(shù)的飛速發(fā)展,人們對于檔案管理的認知也越來越深刻,并開始探索其背后的價值。要深入地挖掘和使用這些數(shù)據(jù),就必須要有一套完整的數(shù)據(jù)挖掘系統(tǒng),才能將這些數(shù)據(jù)進行全面的挖掘[2]。
在如今的大環(huán)境下,檔案管理模式已經(jīng)逐漸從過去的紙質(zhì)文件發(fā)展到今天的數(shù)碼化。檔案管理室肯定儲存了海量的資料,資料的覆蓋范圍也在不斷擴大,資源也在不斷地增加。很顯然,過去的檔案管理模式和手段已經(jīng)不能適應(yīng)我們的需要了。因此,由于各種媒介形式多樣、數(shù)據(jù)覆蓋量大,電腦數(shù)據(jù)庫對數(shù)據(jù)處理工作提出了新的要求,并將其運用到檔案管理中。
知識管理是未來檔案管理發(fā)展的必然趨勢,如今的用戶已經(jīng)不僅僅局限于資料和文檔,他們更愿意從數(shù)據(jù)中獲取更多的知識和信息。因此,檔案使用也不能只是單純地提供資料,而是要把資料轉(zhuǎn)變成知識。
在當今的信息化社會中,電子檔案得到了大量的應(yīng)用。然而,由于大量的各類資訊檔案,導(dǎo)致資訊的大量涌入,難以有效地甄別資訊。隨著我國檔案館信息化工作不斷強化,資料覆蓋面不斷擴大,經(jīng)常會把一些有價值的資料掩埋在無用資料中,搜索效率也大幅降低。所以,在海量的文件中尋找有用的資料,是當前的一個關(guān)鍵問題。
檔案的經(jīng)營目標是為了方便今后使用,因此必須對文獻資料進行二次開發(fā),形成多種類型的文獻研究成果,并積極為檢索人員服務(wù)。隨著社會經(jīng)濟的發(fā)展,各類檔案數(shù)量急劇增加,各類檔案種類繁多,編研人員大量發(fā)放檔案資料,給檔案資料的二次發(fā)展帶來了難度。首先要從大量的資料中找到有用的資料,然后是編寫、研究、發(fā)展無組織的文件資料,減少檔案開發(fā)的工作量[3]。
檔案記錄文件都是非常關(guān)鍵的,也是檔案管理工作的一個縮影。由于數(shù)據(jù)挖掘技術(shù)和電腦技術(shù)的發(fā)展,逐步將數(shù)據(jù)挖掘技術(shù)引入到檔案資料的處理中,改變了以往的檔案管理型,從而推動了檔案管理的發(fā)展。首先,它可以增加檔案管理的安全性。檔案文獻記載的都是具有一定歷史意義的珍貴文獻,而檔案信息是其價值的主要載體。作為檔案管理工作的工作者,應(yīng)該盡量多地保持和保持檔案資料的使用,以更好地反映和增添其使用的價值,同時也應(yīng)該提高其使用的頻度。然而,在這樣的條件下,檔案的存儲和管理工作將面臨困難,而且隨著使用時間的延長,其生命周期也會隨之減少。而在管理工作中,保密工作也是重中之重,一旦資料外泄,將會對工作人員的個人隱私造成不良的后果,造成文件管理和利用的困難。而在檔案管理中采用數(shù)據(jù)挖掘技術(shù)可以有效避免此類問題的發(fā)生,提高文件的保密程度。其次,利用數(shù)據(jù)挖掘技術(shù)可以降低檔案管理的費用支出,從而改善經(jīng)營的效益。數(shù)據(jù)挖掘技術(shù)可以極大地改善傳統(tǒng)檔案管理的缺陷,從而使檔案管理的工作效率和質(zhì)量得到改善。使用數(shù)據(jù)采集技術(shù),可以節(jié)約大量的時間,加快數(shù)據(jù)的收集速度。在檔案資料的處理中,鑒定工作是一個非常關(guān)鍵的工作,以前的鑒定工作主要依靠檔案主管的工作經(jīng)歷,具有很大的主觀性,數(shù)據(jù)挖掘技術(shù)的運用可以有效地防止由于行政人員的主觀原因造成的資料遺失等現(xiàn)象,從而達到定性的目的,確保檔案鑒定更加科學(xué)、有依據(jù)[4]。
檔案分類就是根據(jù)某種標準和規(guī)范,對各種類型的文件進行劃分,利用歸類可以區(qū)分出各種類型和性質(zhì)的文件。將數(shù)據(jù)挖掘技術(shù)引入到文件的分類中,可以實現(xiàn)對文件的分類和歸檔,從而提高了檢索的速度和效率。把數(shù)據(jù)挖掘技術(shù)用于文件的歸類和解析,通常是通過數(shù)據(jù)庫的分析函數(shù),把各個數(shù)據(jù)進行分解,形成各種工作流程。當用戶在網(wǎng)上存取文件時,數(shù)據(jù)挖掘技術(shù)會根據(jù)用戶的具體狀況和資料,將用戶的存取資料進行分類。由于使用者本身的特性和偏好等不同,所以采用數(shù)據(jù)挖掘技術(shù)可以提高使用者資訊的準確性,提高資訊的品質(zhì)與水準[5]。
數(shù)據(jù)挖掘技術(shù)在檔案收集中心的應(yīng)用,實際上就是通過對數(shù)據(jù)庫的數(shù)據(jù)進行科學(xué)的研究,并構(gòu)建一個數(shù)據(jù)模型,比較不同的數(shù)據(jù)模式和不同的樣品,當檢測結(jié)果與數(shù)據(jù)的一致性時,可以根據(jù)不同的數(shù)據(jù)類型進行不同的劃分。數(shù)據(jù)挖掘技術(shù)要求對數(shù)據(jù)庫中的數(shù)據(jù)進行科學(xué)化的研究,確保所描述的方法是科學(xué)的、合理的,能對現(xiàn)有的數(shù)據(jù)和模型進行有效的刻畫,并且通過實驗驗證,在經(jīng)過反復(fù)的實驗之后,該方案的精確度達到了一定程度,就可以用它來進行科學(xué)的劃分。檔案管理工作中的檔案搜集是基本工作,要實現(xiàn)檔案管理的個性化,首先要對資料進行搜集。比如,在網(wǎng)上發(fā)布了一份調(diào)查表,把該調(diào)查表的內(nèi)容錄入了資料庫,其中包含了用戶的基本信息等。如有新的使用者資訊被錄入到資料庫,程式會根據(jù)檔案資料與現(xiàn)實需求,進行自動的剖析,明確使用者類別,讓服務(wù)更具針對性和效能。
檔案保留是利用科技方法對舊職工的資料進行管理,避免檔案丟失。科學(xué)地挖掘、分析和整合老干部的檔案丟失情況,找準造成的原因,采取科學(xué)的管理措施和手段,可以避免人才的外流。數(shù)據(jù)挖掘技術(shù)在檔案管理中的運用,可以提高檔案管理的工作效率,使得查詢更為便捷和快速,從而把檔案管理和人力資源的管理有機地融合在一起,從而達到人力資源的有效利用。
對于檔案管理工作來說,其工作費用是檔案管理業(yè)務(wù)整個工作流程中的一個關(guān)鍵因素。在對文件進行鑒別時,既要考慮其真實性,又要對檔案管理工作的科學(xué)化起到一定的作用。但是,在某些領(lǐng)域,沒有什么條條框框,全靠工作人員的工作經(jīng)驗,很可能會影響到檔案的工作。將數(shù)據(jù)挖掘技術(shù)運用到檔案資料的管理中,可以根據(jù)檔案的使用狀況和檔案的現(xiàn)實狀況,了解檔案的形成過程、方式、規(guī)律和涵蓋的領(lǐng)域,從而掌握檔案的搜集工作的要點。通過該方法,可以為檔案的識別工作提出一種定量的方法,增強檔案的可信度[6]。
學(xué)校檔案館管理的是檔案,檔案資料目的是育人,校史館、博物館管理的是實物,實物信息也是育人的價值。三者在本質(zhì)上有很大的相似之處,都有教書育人的文化特色。有些高校綜合管理檔案館、校史館、博物館,使其融為一體,充分發(fā)揮其教育職能;有些高校雖然各自行政相對獨立,但相互之間卻有著緊密的關(guān)系。比如,許多書籍的資料都是從史書、校史館、博物館中搜集的資料,并在這些資料的基礎(chǔ)上,再進行二次加工、打磨。對高校檔案館、校史館、博物館等進行統(tǒng)一管理,將現(xiàn)有的資料與檔案大數(shù)據(jù)庫進行整合,使使用者能夠在高密度的數(shù)據(jù)中,找到有價值的資料。通過對資源的統(tǒng)一管理和綜合使用,各種信息將互相補充、互為補充,形成大型檔案館的數(shù)據(jù)資源庫[7]。
將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到了海量的檔案中的效果取決于檔案數(shù)據(jù)的有效程度。由于在與外界的信息系統(tǒng)連接時,存在著大量的差錯或矛盾,造成了數(shù)據(jù)噪音和冗余,因此必須進行清理、篩選和集中。例如,檔案資料中的數(shù)據(jù)會不準確,按照一定的程序,可以判斷哪些數(shù)據(jù)是不正確的,哪些數(shù)據(jù)會由于各種因素而丟失,或是數(shù)據(jù)中有很多的重復(fù),所以要進行核對和加工。具體的解決方法是:如果依據(jù)檔案的操作規(guī)程或一般知識,數(shù)據(jù)有不一致的地方,例如輸入方法、專門領(lǐng)域知識的可辨識等易于修正的問題,可以通過電腦進行自動的辨識和修正;如果無法進行自動的辨識和修正,可以將其分類發(fā)給有關(guān)的業(yè)務(wù)單位,以修正對應(yīng)的系統(tǒng)內(nèi)數(shù)據(jù)。對于數(shù)據(jù)的無效性問題,如果確實是重要數(shù)據(jù),可以采取整型方式進行處理,而不是使用刪除變數(shù)或使用專用代碼,以確保數(shù)據(jù)的總數(shù)量。通常情況下,數(shù)據(jù)丟失問題都是由數(shù)據(jù)負責人人工進行補充的。可以采用合并或刪除的方法來解決數(shù)據(jù)重復(fù)問題。數(shù)據(jù)清洗是一項長時間的處理工作,要求檔案工作者和相關(guān)部門的工作人員,本著責任心和毅力,多角度反復(fù)清洗、反饋、處理,通過不懈的工作,才能保證數(shù)據(jù)價值的高效利用。
除了防止自然災(zāi)害、環(huán)境影響和人為因素造成的高溫、高濕、蟲蛀、霉變等危害文件的安全性問題,網(wǎng)絡(luò)入侵、網(wǎng)絡(luò)泄密等問題已構(gòu)成了數(shù)據(jù)時代異常重要的安全隱患。針對此類風險,目前我國的檔案館大多采取的是基于身份的認證方式,即利用不同的身份來設(shè)置相應(yīng)的權(quán)限。隨著資料保密技術(shù)的不斷發(fā)展,許多資料保密技術(shù)可以在檔案資料資料的處理中得到應(yīng)用。數(shù)據(jù)傳輸加密、數(shù)據(jù)存儲加密、密鑰處理等都是保障個人信息和敏感數(shù)據(jù)的一種主要手段,保證不會泄露文件數(shù)據(jù),不會對文件數(shù)據(jù)進行非法利用,并能根據(jù)自身的權(quán)限對文件數(shù)據(jù)進行有選擇的存取,保證了海量文件數(shù)據(jù)的高效、安全[8]。
數(shù)據(jù)挖掘技術(shù)能夠有效地處理復(fù)雜的數(shù)據(jù)問題,但它需要滿足數(shù)據(jù)的需求。數(shù)據(jù)挖掘的先決條件是:
(1)必須滿足數(shù)據(jù)的挖掘需求,并將最少的數(shù)據(jù)量與利用的導(dǎo)向相聯(lián)系,并按照scikitlearn數(shù)據(jù)挖掘開放源碼的標準來進行,數(shù)據(jù)挖掘必須確保數(shù)據(jù)的數(shù)量超過50。數(shù)據(jù)的數(shù)量愈多,其表現(xiàn)的就愈具代表性。
(2)數(shù)據(jù)必須要有品質(zhì),也就是要反映其本身的信息。因為電子文件管理的信息化,使傳統(tǒng)的紙質(zhì)文件變成了電子文件。但是,無法將數(shù)字文件直接應(yīng)用到數(shù)據(jù)挖掘中去。數(shù)據(jù)挖掘是以文字資料為基礎(chǔ),若數(shù)字化文檔無法真正地反映原始文本,則會出現(xiàn)亂碼、錯別字等現(xiàn)象。
(3)數(shù)據(jù)之間要反映出特性差異,不能反映同一屬性。例如工程圖紙若在色彩、輪廓等方面沒有清晰的劃分,特點不鮮明,很難進行數(shù)據(jù)挖掘[9]。
在檔案管理中要根據(jù)使用者的需要進行數(shù)據(jù)挖掘,在挖掘的時候要滿足普遍的使用者需要,同時要兼顧將來的各種情況,并確保出現(xiàn)的問題能夠得到快速反應(yīng)。
數(shù)據(jù)挖掘技術(shù)對 檔案管理的運用需要人力、物力、財力的支持。目前,很多單位的檔案室都處在“邊緣化”的位置,資金有限,兼職人員眾多,實際訓(xùn)練程度低。要確保文獻數(shù)據(jù)的有效利用,不僅要有相應(yīng)的投資,而且要盡可能地減少科研經(jīng)費,而且要把投資與產(chǎn)出的收益相聯(lián)系。所以,在進行數(shù)據(jù)挖掘時,應(yīng)側(cè)重于使用價值,以達到有效地使用以前生成的文檔,并在數(shù)據(jù)挖掘后為輔助決策提供支持[10]。
檔案大數(shù)據(jù)挖掘技術(shù)是在當前數(shù)據(jù)激增的社會背景下,有效地挖掘、整理、存儲、分析、判斷海量數(shù)據(jù)資源的有效途徑。同時,也要對檔案管理手段與技術(shù)策略進行及時更新,使之成為提高檔案利用服務(wù)功能的一個重要突破口。大數(shù)據(jù)挖掘是一種具有趨勢性的知識服務(wù)技術(shù),它越來越引起了人們的重視。高校檔案館要加強與各級部門的溝通與合作,將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到日常工作中,以提高工作的效率和服務(wù)水平。