李元鋒
摘要:在大數據技術運用在檔案管理的過程中,產生的最為顯著的特點是檔案數據的深度挖掘,這個顯著特點可以顯著的幫助檔案管理發生以下幾方面的改變:首先,檔案管理的流程更加精細化;其次,細致化的檔案資源和用戶的需求之間的雙向控制關系更進一步。
關鍵詞:大數據技術;數據挖掘;檔案管理
1前言
當前的時代是一個信息化的時代,也是一個數據化的時代,數據挖掘技術在檔案管理過程中的運用得到進一步的加深。知識管理和知識的挖掘在很早之前就已經在檔案界提出了,但是對知識挖掘的提出尚停留在概念的提出及初步理論的提出。已經有大量的數據證明,從大數據中進行知識的挖掘可以更加高效地解決數據與知識之間的鴻溝,這是許多檔案管理者認為檔案館的傳統業務將發生向數據分析和數據挖掘方面的轉移,傳統的檔案信息服務底層將不再是進行知識的簡單檢索,而是進行智能化的深度數據挖掘。大數據時代的到來,給數據挖掘技術帶來的改變最為顯著的是為數據的深度挖掘提供了可能。對數據的深度挖掘過程中,不僅要注重數據挖掘的深度和廣度,還要注重數據的全面性、可靠性和價值等。
2數據深度挖掘是大數據技術在檔案管理中的主要特點
數據挖掘首先是對海量的數據進行建模,然后通過建好的模型對企業的大量數據進行整理和分析,從而幫助企業進行數據進行劃分,包括客戶的年齡段分析、市場分析、產品特征分析及技術手段分析等。對數據進行深度挖掘,不僅是數據建立模型的過程,也是探索數據中規律的過程。比如,檔案管理人員在進行檔案的編研選題過程中,不僅要深入調查用戶使用檔案數據過程中,使用的檔案調卷數量、檔案利用的次數、檔案的復制次數、檔案的制備數量等。此外,還要進行用戶訪問記錄的深度挖掘,包括用戶檢索的關鍵詞、下載的記錄、用戶運用網絡的時間和頻度等。通過這些數據建立用戶模型,一方面可以根據不同的類型進行編研選題,另一方面可以通過用戶需求分析來預測未來的發展趨向,總結出社會熱點,總結出讓檔案編研部滿意的編研成果。在進行檔案的利用過程中,我們可以選取不同的方向進行建模,得出不同的檔案利用形式的變化趨勢,一些變化高的檔案進行全文數字化,使之得到高效的利用,進而有效的保護檔案的原件。從以上分析,我們不難看出,對檔案的數據進行深度的挖掘是大數據時代的一大特點。檔案管理進程中的每一次重大變革都對檔案學的發展產生了重大的影響。比如在這個過程中引入的計算機和網絡技術,讓檔案管理理念發生了重大的改變,讓文件和檔案的處理流程也發生了重大的轉變。
3大數據技術有助于檔案管理模式走向精細化
在傳統的數據挖掘基礎上進行大數據的挖掘,這個過程中使用的是數據倉庫形式,進行了“泛關系”的分類模型的構造,在這個過程中采取了海量數據分析方法,進行的是傳統數據挖掘方式的深化改革。現已有相關分析認為,大數據技術對數據的挖掘主要包括了一下幾個過程:數據來源、數據的抽取和收集、數據的分析、數據的解釋。
3.1檔案數據質量更高
在數據收集過程中,是大數據技術處理的基礎步驟,數據的質量直接影響大數據技術的效能,只有在高質量的數據前提下,大數據技術菜能發揮出它的作用。大數據具有實時l生和動態性,為了得到兼具兩種特性的數據,進行數據采集的手段十分重要。數據采集過程中還要重視數據的來源,數據來源不同使得數據更具有現實意義。
3.2處理方式得到改進
現有的數據來源十分復雜,數據形式多樣化,為使數據統計便于進行,我們有必要進行相應的數據處理。首先,將結構較為復雜的數據進行單一化轉變,在互聯網時代,數據呈現了半結構化和半結構化數據的增長,這些都是一些館藏數據的重要來源。其次,還要對收集的數據進行篩選,保證數據的質量和可靠性。原始數據中可能摻雜著一些無效或多余的數據,因此,我們有必要進行數據的深處理。
3.3數據分析精細化
數據分析是大數據處理過程中的核心步驟,相關性分析是大數據處理過程中的一個重要思維模式,通過這種分析可以讓我們更好的發現數據之間的密切聯系。進行相關性分析的精細化,可以讓數學檔案資源得以活化,進行數據倉庫價值的深入挖掘。進一步展現數據分析的價值,進行新知識的創造。
3.4服務更加精準,突出以人為本
對廣大的檔案用戶而言,最重要的不是數據分析的過程而是結果以及相關的結石。檔案用戶需要的是明確精準的結果,否則,他們心中有疑惑,就容易產生困擾,甚至被誤導。在檔案管理信息系統中,進行相關數據的深化分析,讓用戶對未來的發展把握更深,更明確,從而做出更加準確有效的決策,這也是判斷數據挖掘是否有價值的重要衡量標準。
4大數據技術對檔案數據深度挖掘,讓檔案管理更加精細化
4.1檔案資源挖掘
在檔案管理中存在普遍的現象是對檔案的管理比較重視,檔案的運用較少,這就導致檔案的價值沒有得到發揮。為此,我們需要深度挖掘檔案中的數據,讓其中包含的數據價值得到發揮,產生新的價值。在進行數據挖掘過程中,我們首先要樹立一個大檔案的工作思路。要重視數據的整體性和完整性,將之完善成一個具體的體系;其次,我們要建立數據共享的資源庫,可以以地級關系為依托,進行數據庫的設立,是數據庫之間的聯系更加緊密;最后,利用當前的計算機技術和云服務,進行數據資源網的構建,為檔案用戶提供更好的服務平臺。
4.2用戶數據挖掘
對用戶的數據進行深入挖掘可以幫助用戶提升認同感,提高檔案服務工作的價值。進行用戶數據的深度挖掘主要包括以下幾個方面:進行用戶數據的深度挖掘,從用戶留下的檢索信息中提取他們的具體需求,推測他們的興趣,進行統計,為用戶提供人性化的服務。其次,對用戶的點擊率進行統計,將點擊量高的檔案進行數據化;進行檢索詞和關鍵詞的細化和擴充,提高檢索的效率,提升用戶的滿意度。
5實現數據深度挖掘的策略
5.1建立數據資源體系以及用戶關系管理
建立一個完善的數字資源庫,要求我們從以下幾個方面做起:首先進行數據的擴容,進而構建完備的資源數據庫,其次,加強數據化的資源建設,最后數據開放,有效提升數據的價值。
5.2保護客戶隱私,完善大數據技術
大數據分析過程中,我們經常面臨的問題主要包括技術層面的問題和人力層面的問題。在進行數據挖掘的過程中勢必會牽涉到一些用戶的因素問題,那么如何避免這些問題呢?首先健全法律保護,健全信息安全管理條例,還要使用可以保護用戶隱私的數據挖掘方法,進行數據的合理挖掘。
6結語
綜上所述,在大數據時代,我們不斷的進行檔案管理的創新。將大數據技術運用在檔案管理的各個環節,使得在檔案管理中大數據技術得到合理的運用,有效的推動了檔案數據價值的發揮。endprint