付啟明
隨著大數(shù)據(jù)理論的普及和應(yīng)用,大數(shù)據(jù)的商業(yè)價值已在諸多領(lǐng)域得以充分展現(xiàn)和證實,從早期亞馬遜圖書網(wǎng)站的智能推薦功能,到如今具備信息智能推送服務(wù)的移動應(yīng)用程序等,大數(shù)據(jù)已與我們的日常生活息息相關(guān),“數(shù)據(jù)”也被認定為極具價值的“無形資產(chǎn)”,甚至是除“土地、勞動力和資本”之外的第四生產(chǎn)要素。但對許多企業(yè)而言,數(shù)據(jù)仍然只是其經(jīng)營管理的附屬產(chǎn)物,存在于各類記錄或業(yè)務(wù)管理信息系統(tǒng)中,其真正價值并未得以發(fā)現(xiàn)和利用。檔案管理部門作為各類記錄的最終責任主體,管理著巨大的歷史數(shù)據(jù)“寶藏”,因此,發(fā)掘企業(yè)檔案所蘊含的數(shù)據(jù)資源,為大數(shù)據(jù)在企業(yè)的應(yīng)用提供數(shù)據(jù)支撐,并依托大數(shù)據(jù)應(yīng)用創(chuàng)新檔案管理模式,應(yīng)成為大數(shù)據(jù)時代企業(yè)檔案管理的重要理念之一。
一、大數(shù)據(jù)理論與企業(yè)檔案資源
國務(wù)院于2015年9月印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》對大數(shù)據(jù)給出了相對權(quán)威的定義,即“大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)”。定義明確了大數(shù)據(jù)的主要特征、核心環(huán)節(jié)及應(yīng)用目的,就主要特征而言,容量大指數(shù)據(jù)規(guī)模龐大到無法通過人工在合理時間內(nèi)達到截取、管理、處理并整理成為人類所能讀解的信息;類型多是指大數(shù)據(jù)所包含數(shù)據(jù)類型已由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)并存,且數(shù)據(jù)來源眾多;存取速度快要求大數(shù)據(jù)依托分布式文件存儲系統(tǒng)、分布式計算框架及分布式數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)對海量數(shù)據(jù)的實時讀取分析,以確保數(shù)據(jù)利用的時效性;應(yīng)用價值高則意味著大量低價值密度數(shù)據(jù)的集合所隱藏的價值是巨大的,挖掘數(shù)據(jù)背后的價值也正是大數(shù)據(jù)應(yīng)用的目的。
要將大數(shù)據(jù)理論應(yīng)用到企業(yè)檔案管理實踐中,必須先明確檔案資源與大數(shù)據(jù)的關(guān)系,對此,已有學者從數(shù)據(jù)、信息與檔案的定義及特征的角度進行了對比論證,認為檔案資源屬于數(shù)據(jù)范疇,且檔案資源包含大量價值密度更高的數(shù)據(jù)(以下簡稱“檔案數(shù)據(jù)”),但對比大數(shù)據(jù)與檔案數(shù)據(jù)的特征,檔案數(shù)據(jù)并不是完全意義上的大數(shù)據(jù)。這一點可以通過企業(yè)檔案管理的實際情況來證實,首先,企業(yè)檔案資源仍然以紙質(zhì)檔案、電子檔案及相關(guān)的元數(shù)據(jù)等為主,大量紙質(zhì)檔案和電子檔案有待數(shù)字化、數(shù)據(jù)化,大量數(shù)據(jù)有待提取整合后才可用于數(shù)據(jù)分析;其次,從數(shù)據(jù)存儲模式及利用需求來看,基于管理需求及數(shù)據(jù)安全考慮,大部分企業(yè)依然以集中式數(shù)據(jù)存儲為主,通過關(guān)系型數(shù)據(jù)庫進行管理,無法實現(xiàn)對多類型大量數(shù)據(jù)的實時讀取分析;第三,檔案歸檔范圍側(cè)重于具有查考利用價值的記錄,而大數(shù)據(jù)則強調(diào)收集分析與某一事物相關(guān)的所有數(shù)據(jù),兩者價值屬性判斷標準的不一致導致企業(yè)檔案數(shù)據(jù)無法完全滿足大數(shù)據(jù)應(yīng)用的來源要求。
二、應(yīng)用前提
上述《大綱》明確了數(shù)據(jù)的采集、存儲和關(guān)聯(lián)分析是大數(shù)據(jù)應(yīng)用的核心環(huán)節(jié),采集是前提,存儲是基礎(chǔ),分析是關(guān)鍵。從具體實施來看,數(shù)據(jù)采集需要具體業(yè)務(wù)人員提供數(shù)據(jù)的有效識別支持,而數(shù)據(jù)存儲、分析則需要信息管理、統(tǒng)計學、數(shù)學模型建立等專業(yè)技術(shù)的支持,因此,企業(yè)大數(shù)據(jù)應(yīng)用可以看作是多部門、多專業(yè)協(xié)同合作的結(jié)果,而要實現(xiàn)大數(shù)據(jù)在檔案管理業(yè)務(wù)中的應(yīng)用,必須先具備以下條件。
(一)建立以企業(yè)數(shù)據(jù)管理為核心業(yè)務(wù)的職能機構(gòu)。一方面,逐步建立完善的數(shù)據(jù)管理工作體系,聯(lián)同各業(yè)務(wù)部門從公司層面開展全方位、全局性的數(shù)據(jù)梳理、收集工作,并從數(shù)據(jù)存儲、提取、整合及分析需求出發(fā)部署滿足企業(yè)大數(shù)據(jù)應(yīng)用的軟硬件設(shè)施,實現(xiàn)為公司經(jīng)營管理提供基于大數(shù)據(jù)應(yīng)用的決策建議;另一方面,則從企業(yè)各部門業(yè)務(wù)需求出發(fā),以業(yè)務(wù)開展所有相關(guān)數(shù)據(jù)為基礎(chǔ),為業(yè)務(wù)流程優(yōu)化提供技術(shù)支持或建議,基于大數(shù)據(jù)理論的檔案管理提升正屬于此類。
(二)充分發(fā)掘檔案數(shù)據(jù)資源,為大數(shù)據(jù)在檔案管理中的應(yīng)用創(chuàng)造條件。檔案數(shù)據(jù)從來源上可分為兩部分,一部分來源于檔案自身,即各部門所產(chǎn)生的具有查考利用價值的記錄,是需要經(jīng)過數(shù)字化、數(shù)據(jù)化后方可使用的數(shù)據(jù),是公司決策和各部門業(yè)務(wù)流程優(yōu)化的重要數(shù)據(jù)來源;另一部分則是檔案管理部門在檔案管理過程中所產(chǎn)生的數(shù)據(jù),如各種介質(zhì)檔案相關(guān)的元數(shù)據(jù)、基于物聯(lián)網(wǎng)的檔案實體管理所產(chǎn)生的數(shù)據(jù)、員工查詢利用各類檔案所產(chǎn)生的數(shù)據(jù)等,這部分數(shù)據(jù)涵蓋檔案管理各項具體業(yè)務(wù)的所有工作環(huán)節(jié),是檔案管理提升的主要數(shù)據(jù)來源。檔案數(shù)據(jù)的發(fā)掘必須充分依托于企業(yè)數(shù)據(jù)管理機構(gòu),檔案管理部門則應(yīng)從業(yè)務(wù)流程層面為數(shù)據(jù)的識別和收集反饋需求或建議。
三、策略初探
大數(shù)據(jù)的核心在于預測,是通過將數(shù)學算法運用到海量的數(shù)據(jù)上來預測事情發(fā)生的可能性,從另一個角度來看即通過大量數(shù)據(jù)的分析來發(fā)現(xiàn)事物之間的潛在關(guān)聯(lián),基于大數(shù)據(jù)理論的企業(yè)文檔管理提升,一方面是借助大數(shù)據(jù)的預測核心來優(yōu)化檔案管理業(yè)務(wù)流程,另一方面則是通過提升檔案管理水平為企業(yè)大數(shù)據(jù)應(yīng)用創(chuàng)造條件,具體包括以下幾個方面。
(一)優(yōu)化企業(yè)內(nèi)部文件管理流程。檔案是文件的歸宿,而文件在現(xiàn)行利用階段往往對時效性有較高的要求。筆者以負責建設(shè)項目EPC總包管理的工程公司為例,項目建設(shè)期會產(chǎn)生大量來自設(shè)計院、施工單位、設(shè)備供應(yīng)商等單位的文件需要在規(guī)定時間內(nèi)完成內(nèi)、外部分發(fā)流轉(zhuǎn),傳統(tǒng)操作以管理程序(分發(fā)規(guī)則)為依據(jù),由專人逐份或批量內(nèi)部分發(fā)及外部轉(zhuǎn)發(fā),隨著項目的增多及管理信息化水平的提升,管理信息系統(tǒng)逐漸積累大了量的文件分發(fā)數(shù)據(jù),且同類型項目的文件在內(nèi)容、分發(fā)及編碼規(guī)則上基本一致,因此,根據(jù)大數(shù)據(jù)預測的核心,可以建立基于文件分發(fā)規(guī)則、企業(yè)各部門組織機構(gòu)代碼、文件標題、編碼、版本等元數(shù)據(jù)、文件關(guān)聯(lián)信息、多項目歷史分發(fā)信息的數(shù)據(jù)分析模型,并利用模型來分析預測后續(xù)文件的分發(fā)信息,代替?zhèn)鹘y(tǒng)分發(fā)方式以提升文件管理的工作效率。同樣,企業(yè)內(nèi)部的其它文件也可以基于合理的數(shù)據(jù)分析模型來實現(xiàn)預測性流轉(zhuǎn)。
(二)檔案信息主動推送。傳統(tǒng)檔案利用多是檔案管理人員根據(jù)用戶需求提供被動式的利用服務(wù),且檔案用戶一般不會主動關(guān)注企業(yè)館藏檔案的變化情況,后續(xù)館藏如增加符合利用需求的新檔案,往往不能第一時間為檔案用戶所知悉。隨著公司發(fā)展,檔案管理部門在業(yè)務(wù)過程中必然會積累大量的包含檔案用戶信息、文件查詢記錄、檔案利用需求說明等在內(nèi)的利用數(shù)據(jù),建立基于利用數(shù)據(jù)、員工崗位信息、文件歷史分發(fā)信息及檔案文本信息的數(shù)據(jù)分析模型以預測檔案用戶的潛在利用需求,一方面可根據(jù)歷史利用記錄為用戶推送新的檔案信息,另一方面,可為用戶推送與崗位職責相關(guān)的檔案信息,將傳統(tǒng)被動服務(wù)模式轉(zhuǎn)變?yōu)橹鲃油扑头?wù)模式。信息推送應(yīng)用過程中還應(yīng)綜合考慮檔案的密級屬性及企業(yè)密件管理要求,以提供關(guān)鍵信息如標題、關(guān)鍵詞等為主,而非直接推送電子案卷,此外,還應(yīng)建立成熟的反饋機制,由用戶對主動推送的信息就適用性等進行評估反饋,并作為后續(xù)的數(shù)據(jù)來源,實現(xiàn)主動推送功能的動態(tài)完善。
(三)從檔案管理角度拓展數(shù)據(jù)來源,為企業(yè)大數(shù)據(jù)應(yīng)用提供“資源”。首先,探索擴展企業(yè)文件材料歸檔范圍,在傳統(tǒng)的檔案價值鑒定基礎(chǔ)上向數(shù)據(jù)價值鑒定拓展,逐步將業(yè)務(wù)部門的低價值密度數(shù)據(jù)納入“數(shù)據(jù)”歸檔范圍;其次,建立覆蓋全部檔案資源的全文數(shù)據(jù)庫,為數(shù)據(jù)的識別、提取創(chuàng)造條件。全文數(shù)據(jù)庫的建立一方面是針對已有的檔案資源開展全面的數(shù)字化和文本識別工作;另一方面則通過提升檔案管理的信息化水平,對后續(xù)各類記錄從編制、生效到歸檔、利用實現(xiàn)全生命周期的基于管理信息系統(tǒng)的跟蹤和管控,實現(xiàn)檔案數(shù)據(jù)更直接、更高效的利用。
(四)利用大數(shù)據(jù)發(fā)現(xiàn)文件的潛在關(guān)聯(lián)關(guān)系。檔案案卷是基于卷內(nèi)文件的關(guān)聯(lián)關(guān)系而形成的,這種關(guān)聯(lián)需要檔案人員通過特定信息來識別和判斷,檔案編研亦是圍繞某一特定主題來開展信息的收集、匯總和整合工作,本質(zhì)上也是圍繞特定主題來發(fā)現(xiàn)不同來源文件的關(guān)聯(lián)關(guān)系,都與大數(shù)據(jù)“發(fā)現(xiàn)事物之間的潛在關(guān)聯(lián)”的理念一致,因此,在文件元數(shù)據(jù)、文本內(nèi)容等大量數(shù)據(jù)基礎(chǔ)上建立基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)分析模型,既可為傳統(tǒng)紙質(zhì)檔案整理反饋卷內(nèi)文件排列建議,逐步實現(xiàn)用電子案卷的生成和管理,也可為相對簡單的編研工作如大事記、組織沿革等識別、提取所需的相關(guān)信息。
四、結(jié)語
企業(yè)大數(shù)據(jù)應(yīng)用應(yīng)基于專業(yè)的數(shù)據(jù)管理團隊和技術(shù)平臺,檔案管理作為一項具體業(yè)務(wù),基于大數(shù)據(jù)理論的管理提升只是應(yīng)用的具體體現(xiàn)之一,檔案資源為大數(shù)據(jù)應(yīng)用提供數(shù)據(jù)來源,大數(shù)據(jù)應(yīng)用為檔案管理提升提供技術(shù)支持,二者相互促進,相互依賴,大數(shù)據(jù)時代企業(yè)檔案管理應(yīng)遵從這一理念來不斷創(chuàng)新業(yè)務(wù)開展模式,實現(xiàn)企業(yè)檔案管理業(yè)務(wù)效率和工作深度的共同提升。
(作者單位:中廣核工程有限公司)