摘要:大數據時代,企業“檔案數據湖”的構建順應企業檔案數據轉型趨勢,符合企業檔案數據治理需求,有助于消除企業檔案數據孤島,充分釋放企業檔案數據價值。以目前最典型的“數據湖”架構為參考模板,結合企業檔案數據的工作實際,從“入湖:檔案數據接入模塊”“蓄湖:檔案數據存儲模塊”“治湖:檔案數據管理模塊”“測湖:檔案數據計算模塊”“調湖:檔案數據調度模塊”和“用湖:檔案數據應用模塊”六大層級構建企業“檔案數據湖”功能模型。根據該功能模型,提出從數據摸底、技術選型、數據接入、融合治理、業務支持五方面著手構建該為企業在實際工作中構建“檔案數據湖”提供參考價值,充分發揮檔案數據賦能企業業務發展的新勢能。
關鍵詞:企業檔案 檔案數據 數據湖 構建路徑
Abstract: In the era of big data,the construc? tion of the enterprise\"Archival Data Lake\" aligns with the trend of enterprise archival data transfor? mation and meets the needs of enterprise archi? val data governance.It helps to eliminate archival data silos in enterprise and fully unleash the val? ue of enterprise archival data.Taking the most typical \"Data Lake\" architecture as a reference template, and combining the actual work of en? terprise archival data, the enterprise \"Archival Da? ta Lake\" functional model is constructed from six layers: \"In- Lake:Archival Data Access Mod? ule\"\"Store- Lake:ArchivalDataStorageMod? ule\"\"Manage- Lake:Archival Data Management Module\"\"Calculate- Lake: Archival Data Calcula? tion Module\"\"Dispatch-Lake:Archival Data Sched? uling Module\"and\"Use- Lake:Archival Data Appli? cation Module\".Based on the six functional mod? els of the enterprise \"Archival Data Lake\", it is pro? posed to build the enterprise \"Archival Data Lake\" from five aspects, namely data evaluation, tech? nology selection, data access, integrated gover? nance and business support, so as to provide ref? erence for enterprises to build the \"Archival Data Lake\" in practical work and give full play to the new potential of archive data in enabling the busi? ness development of enterprises.
Keywords:Enterprise archive; Archival data; Data lake;Construction path
當前,數據作為一種全新生產要素,與土地、勞動力、資本、技術等共同影響著經濟社會的發展走向。隨著大數據時代的到來,各行各業相繼步入數字化、數據化轉型序列,檔案領域亦不例外。在此背景下,檔案數據的資源價值日益顯現,尤其對于企業而言,檔案數據因其之于各項主營業務的賦能效用而備受重視。然而,與此同時,由于傳統數據庫、數據倉庫技術等無法滿足其集中、統一管理需求,導致數據孤島現象頻頻出現,企業檔案數據價值發揮受限嚴重。而“數據湖”作為一種新型數據存儲架構,正能夠為該問題解決提供技術支撐。如今,它已被初步應用于商業、交通、氣象等領域,并取得一定成效。由此,本文將“數據湖”引入企業檔案數據管理,探討其必要性、功能模型、構建路徑等,以期有助于企業檔案數據價值釋放與企業檔案工作高質量發展。
(一)檔案數據概念與特點
1992年,馮惠玲[1]首次在文章中使用“檔案數據”一詞,并在第十三屆中國電子文件管理論壇上指出其“雙向融合特點”[2],即檔案數據化與數據檔案化。然而,目前學界尚未對檔案數據達成統一認知。從概念上看,熊志云[3]、陳陽[4]等認為檔案數據是檔案;陶水龍[5]、于英香[6]、劉慶悅[7]等認為檔案數據是數據;金波[8]、于瑾[9]等認為檔案數據既是檔案,又是數據。從特點上看,檔案數據的特點主要體現為“兩多兩性”,即多來源、多模態、異構性、動態性。多來源是指檔案數據形成主體既涵蓋組織層面的業務機構(部門)、檔案機構(部門),又包括個體層面的社會大眾;多模態是指檔案數據形態類目包括文本模態、圖像模態、音頻模態、視頻模態以及社交媒體交互數據等[10];異構性是指檔案數據結構特征包含結構化、半結構化、非結構化等;動態性是指檔案數據演化發展迅猛,檔案數據價值持續更迭。因此,本文將檔案數據定義為以數據態形式存在、具有檔案屬性、具有保存價值的記錄。
(二)“數據湖”的概念與特點
鑒于數據在網絡環境下的流轉與自然界的水生態系統存在相似之處,數據基礎設施因而被命名為“數據湖”。從概念上看,“數據湖”最早由企業提出、實施構建并進行定義。美國商務智能軟件服務商Pentaho公司首席技術官詹姆斯·迪克遜[11](James Dixon)于2010年首次提出“數據湖”大數據基礎設施架構,強調數據從來源流入,用戶或程序可按需從中查詢和抽取。亞馬遜公司[12]和維基百科[13]均將“數據湖”定義為一個可以存儲原始狀態數據的集中式存儲庫,不要求對來源數據進行結構化處理。微軟公司[14]則從功能角度對“數據湖”進行定義,認為“數據湖”既支持用戶存儲任意規模、任意類型、任意產生速度的數據,又輔助用戶跨平臺、跨語言進行數據分析和處理。從特點上看,“數據湖”特點可概括為“五化”,即存儲空間可拓展化、存儲類型多元化、數據收集保真化、數據處理靈活化和數據管理雙重化。存儲空間可拓展化是指“數據湖”作為一種利用云計算等先進技術構建的存儲系統,擁有龐大的數據存儲容量和良好的可擴展性。存儲類型多元化是指“數據湖”能夠存儲不同來源、模態、結構的大量原始數據,既包括非結構化數據,也包括半結構化數據和結構化數據。數據收集保真化是指“數據湖”采用“讀取型schema”,不需要預先設計標準化數據結構和模式,獲取數據時可以完整保留數據的真實性和原始性。數據處理靈活化是指“數據湖”保持數據的原始狀態,使得企業可以根據實際需求對數據進行定制化加工處理,快速響應業務需求變化。數據管理雙重化是指“數據湖”一方面對原始數據進行管理,另一方面對原始數據讀取后生成的處理數據進行管理,滿足不同業務場景的可定制靈活應用。因此,本文將“數據湖”定義為一種能滿足多源異構數據存儲、管理、計算等需求,并按需為用戶提供數據應用的集中式、可擴展新型數據系統。
綜上,本文定義企業“檔案數據湖”是以檔案部門為主管、以檔案數據為對象、以數據存儲為基礎功能、以數據管理與計算為拓展功能的為企業提供數據應用、實現企業檔案數據價值釋放與企業檔案工作高質量發展的系統。
隨著市場環境日益數字化,企業構建“檔案數據湖”迫在眉睫。這既是順應企業檔案數據轉型趨勢之舉,又能契合企業檔案數據治理需求,助力消除企業檔案數據孤島,充分釋放企業檔案數據價值,為企業決策、創新、風險防控等提供有力支撐,驅動企業在激烈市場競爭中穩健前行。
(一)順應企業檔案數據轉型趨勢
《“十四五”全國檔案事業發展規劃》提出:“主動融入數字經濟、數字社會、數字政府建設,推動檔案全面納入國家大數據戰略。”[15]這就意味著企業檔案工作應注重以檔案數據為驅動,以相關技術為支撐,打通業務系統與檔案系統,推動全流程、全鏈條檔案數據價值發揮。例如,采用物聯網、云計算、深度學習、多模態人工智能大模型等,實現檔案數據的高級處理、智慧服務和決策支持,助力企業的戰略規劃和市場適應。企業“檔案數據湖”正提供了一個高性能大數據平臺,它集檔案數據收集、存儲、管控、利用等諸多功能于一體,能夠推動企業檔案數據轉型工作向縱深化發展。
(二)符合企業檔案數據治理需求
檔案數據呈現多來源、多模態、異構性、動態性特點,具體表現為檔案數據形成主體之多、檔案數據形態類目之多、檔案數據結構特征之雜、檔案數據演化發展之快。因此,其管理系統至少應具備以下能力。一是完備的輸入、輸出能力。即能夠兼容多元化數據源,并實現從中采集;同時能夠將分析處理后的檔案數據提供給不同用戶,以滿足不同業務需求。二是完全的存儲能力。即能夠存儲任意類型的海量檔案數據,包括結構化、半結構化和非結構化檔案數據,也包括文本模態、圖像模態、音頻模態、視頻模態等檔案數據。三是完善的管理能力。即能夠滿足檔案數據在不斷積累、演變中所產生的新要求。鑒于傳統數據倉庫難以同時具備以上能力,引入企業“檔案數據湖”至關重要。它作為新型大數據架構,良好適配檔案數據內在特點與治理需求,是其管理系統建設的極佳選擇。
(三)助力消除企業檔案數據孤島
新修訂的《中華人民共和國檔案法》指出:“推進檔案信息資源共享服務平臺建設,推動檔案數字資源跨區域、跨部門共享利用。”[16]這就要求推進檔案數據共享,使得其能夠在企業檔案部門與業務部門之間高效流動。然而,由于大多數企業在建設檔案管理系統時,未充分統籌業務管理系統建設,導致兩者之間因數據標準、接口規范等差異未能實現全面對接。[17]目前,大多數企業檔案管理系統僅實現與OA系統對接,[18]但與產品數據(業務)管理系統、企業資源計劃系統、會計核算系統、電子郵件系統等之間仍存在“隔墻”,檔案數據孤島現象較為嚴重。而企業“檔案數據湖”能夠提供統一的存儲位置,集中存儲來自各個部門和系統的檔案數據。這有助于打破檔案數據孤島瓶頸,促進檔案數據跨部門共享和協作,同時簡化檔案數據安全和合規性管理。
(四)充分釋放企業檔案數據價值
如今,數據要素發揮著至關重要的作用。檔案數據憑借其邊際成本低、規模效應大、流動性高和可復用性強等特點,[19]正日益成為推動企業高質量發展的新動力。企業“檔案數據湖”建設正為充分釋放檔案數據價值提供支撐。一方面,它能夠集中存儲企業的全量檔案數據,打下堅實的資源基礎;另一方面,依靠全鏈條管理流程,既能應對多樣檔案數據爆發式增長,又能從中持續洞察檔案數據價值,幫助企業作出更多高質量決策。此外,企業“檔案數據湖”的高度靈活性和可擴展性支持更廣泛的數據處理技術與工具集成,有利于進一步增強檔案數據在促進業務創新、優化運營流程、提升客戶體驗等方面的戰略價值,進而為企業發展提供強有力的數據支撐和智能驅動。
早期“數據湖”架構僅分為數據接收和數據存儲兩大功能,并在數據存儲中劃分臨時數據區和原始數據區兩層結構。[20]在此基礎上,Lambda架構[21]和 Kappa架構[22]相繼出現。它們均具有數據采集、數據處理和數據服務三類功能,區別在于前者同時使用流處理與批處理,后者僅采用流處理。隨著大數據技術的融合發展,“數據湖”架構功能愈加完善。《2022年中國云原生數據湖應用洞察白皮書》提出,目前最典型的“數據湖”架構具備接入層、存儲層、管理層、計算層、調度層和應用層六個功能層級。[23]基于此,本文從檔案數據接入、檔案數據存儲、檔案數據管理、檔案數據計算、檔案數據調度、檔案數據應用六大模塊構建企業“檔案數據湖”功能模型,如圖1所示。
根據與數據湖對應的“湖泊水生態系統”的運行規律,[24]六大模塊可進一步劃分為六個層級:“入湖”“蓄湖”“治湖”“測湖”“調湖”“用湖”。其中,檔案數據接入對應“入湖”;檔案數據存儲對應“蓄湖”;檔案數據管理對應“治湖”;檔案數據計算對應“測湖”;檔案數據調度對應“調湖”;檔案數據應用對應“用湖”。
(一)入湖:檔案數據接入模塊
該模塊主要功能是從不同數據源中獲取檔案數據。其一,從業務角度上說,檔案數據接入模塊涵蓋了與企業內部各業務系統的接口,如辦公自動化系統、產品數據(業務)管理系統、企業資源計劃系統、會計核算系統、電子郵件系統等,以及企業外部機構的系統接口,即與企業業務存在合作、隸屬關系的機構。其二,從數據源角度上說,檔案數據接入模塊覆蓋數據庫數據、binglog增量數據、日志數據、數倉存量數據、埋點信息和物聯網數據等各類數據源,能夠從這些數據源中獲取檔案數據。其三,從數據結構角度上說,檔案數據接入模塊兼容結構化數據、半結構化數據和非結構化數據,能夠對多源異構的檔案數據做到無差別采集,做到應收盡收。此外,為保障檔案數據的全生命周期管理,在檔案數據接入時,企業“檔案數據湖”不僅從不同的數據來源中采集原始狀態的檔案數據,還攝取其對應的元數據。元數據所包含的數據存儲位置、數據格式、數據模式、數據分布等信息有助于確保檔案數據的可發現性、可理解性和可信度,為企業檔案數據資產化和檔案數據要素化提供了必要的支持。
(二)蓄湖:檔案數據存儲模塊
檔案數據存儲模塊的主要功能是對接入后的數據進行儲存,應當具有可擴展性、高可用性、可伸縮性、數據持久性以及安全性等特征。[25]因為檔案數據存儲模塊的存儲對象包括多模態、多結構的檔案數據,所以傳統的單一存儲系統已經無法滿足企業“檔案數據湖”的現有需求,需要采用多存儲系統來存儲檔案數據。在檔案數據存儲模塊中接入多類型數據庫,如關系數據庫、NoSQL數據庫、圖數據庫等,對應地存儲不同類型的檔案數據。在此基礎上,為了保證數據安全和訪問權限控制,還可以對檔案數據進行分區存儲。橫向上可以根據檔案數據的生命周期進行劃分,分為原始數據區、數據加工區、數據產品區;[26]縱向上,可以根據數據主題或者企業業務性質進行劃分,如在鐵路行業數據湖中,就將數據按照主題和業務劃分為了運輸對象、運輸產品、市場營銷、調度指揮、運輸生產、設備設施、物資管理、人員及機構、建設管理、綜合協同規劃、財務管理等11塊區域。[27]此外,為保證部分涉密檔案數據的安全問題,在上述分區方式外還可以單獨設置敏感數據區,將涉密、不公開的檔案數據存儲在此區域以防泄露。

(三)治湖:檔案數據管理模塊
檔案數據管理模塊的主要功能是對存儲在企業“檔案數據湖”的檔案數據進行統一管理。檔案數據管理模塊是為了保證企業“檔案數據湖”的檔案數據能夠關聯的、有組織的供用戶檢索利用,具備良性價值,以免“檔案數據湖”退化為“數據沼澤”。在此背景下,企業“檔案數據湖”更強調對于檔案數據的管理、治理和資產化能力。具體實踐層面,企業“檔案數據湖”需要具備一系列的數據管理組件,即基本管理組件和擴展管理組件。其中,基本管理組件包括數據安全管理、主數據管理、元數據管理、數據資產目錄管理及數據標準管理等功能;[28]擴展管理組件包括任務管理、流程編排以及與數據質量、數據治理相關的能力。前者是為了保證企業“檔案數據湖”具備最基礎的檔案數據管理能力,后者是在前者的基礎上通過管理、編排、調度、監測在“數據湖”中處理數據的各類任務來保證檔案數據不失準,確保企業“檔案數據湖”的可信性。
(四)測湖:檔案數據計算模塊
檔案數據計算模塊的主要功能是通過不同的計算引擎對存儲在企業“檔案數據湖”的檔案數據進行處理、分析。在檔案數據計算模塊中可以劃分為三種計算方式:離線數據處理、實時數據處理和人工智能處理。其中,離線數據處理,即批處理,是指在離線狀態下對企業“檔案數據湖”中存儲的歷史數據進行統一批次的處理;[29]實時數據處理,即流處理,是指企業“檔案數據湖”一旦獲取新的實時數據后就立即對實時數據進行處理分析。[30]前者的主要優點是能夠處理的數據量巨大,自企業成立以來的歷史數據,都可以存儲、計算處理、分析應用,且數據結果更加準確,但缺點是數據處理存在延時性。后者的主要優點是數據處理結果時效性強,能夠為企業提供快速的數據分析和反映,提供即時性的決策支持,但缺點是資源消耗大。此外,隨著人工智能技術的發展,自然語言處理、機器學習等前沿應用更是日臻成熟,為企業的數字化轉型注入了強大動力。聚焦于企業“檔案數據湖”建設,借助自然語言處理技術,能夠讓系統精準理解檔案數據中的文本信息,無論是合同條款、報告內容還是員工反饋,都可快速解析;機器學習算法則能依據海量檔案數據的內在規律,自主構建模型,對檔案數據執行深度挖掘、分類以及預測等復雜運算。如此一來,諸多原本依賴人工手動操作的檔案數據分析任務得以實現自動化處理,大幅削減了人工干預環節,不僅有效規避了人為誤差,還極大地提升了檔案數據處理的效率與速度。企業在實際運用當中需要根據不同的業務需要選用企業“檔案數據湖”中不同的檔案數據計算組件。
(五)調湖:檔案數據調度模塊
檔案數據調度模塊的主要功能是支持用戶從企業“檔案數據湖”中讀取檔案數據。在檔案數據調度模塊中需要注意三點設計思路:一是構建“三個統一”體系。重點聚焦于設置統一標準、推行統一查詢語言,并為用戶打造統一的API接口。通過這一系列舉措,打通檔案數據流通渠道,切實達成檔案數據的全面共享,徹底打破長期以來阻礙檔案數據互通的“數據孤島”困境,為檔案數據的調度筑牢根基。二是設置讀取型schema模式。企業的“檔案數據湖”別具匠心地引入動態架構機制,根據具體的業務需求和使用目的,在每次調用檔案數據的瞬間定義所需的數據結構,順勢觸發ETL流程,高效地對原始數據進行抽取、轉換與加載,讓檔案數據能夠以最適配當下業務場景的形態呈現。這種靈活性不僅打破了傳統靜態數據架構的桎梏,還使得檔案數據猶如靈動的工具,能夠緊密貼合企業不斷變化的業務流程與決策需求,為企業發展注入強大的數據驅動力。三是強化用戶訪問權限管控。為了保障檔案數據的安全性,在統一API接口的訪問設置下認證和授權是至關重要的環節。將用戶清晰劃分如“普通查閱員”“數據錄入員”“系統管理員”等角色,并根據不同級別的用戶生成不同等級的API密鑰,即用戶訪問API的“電子身份證”。不同級別用戶的API密鑰對應不同權限集,每一級別的用戶只能訪問權限內的檔案數據,而無法跨權限訪問。
(六)用湖:檔案數據應用模塊
檔案數據應用模塊的主要功能是利用企業“檔案數據湖”為企業各業務部門提供檔案數據服務。企業“檔案數據湖”建立的最終目的是充分發揮檔案數據的潛在價值,賦能企業主營業務高質量發展,提升企業核心競爭力。為了實現這一目的,檔案數據應用模塊的建設不可或缺。檔案數據應用模塊需要根據企業的實際業務需求設計數據服務組件,包括BI報表、數據大屏、數據挖掘、機器學習、數據科學等,進而提供行業預測、用戶畫像、個性化推薦等服務。例如,油氣田企業在“勘探開發數據湖”中就設置了數據查詢、項目庫、高速索引、大數據分析、領域知識庫等數據應用。[31]
基于企業“檔案數據湖”的架構模型,可以從數據摸底、技術選型、數據接入、融合治理、業務支持五方面著手構建企業“檔案數據湖”。
(一)數據摸底
對于企業而言,進行全面的檔案數據資產摸底是構建企業“檔案數據湖”的基石,是至關重要的第一步。這一步不僅涉及對檔案數據的來源、類型、形態、模式、總量和增量等基本屬性的詳盡記錄,而且還包括對檔案數據的存儲位置、使用頻率、訪問權限和質量狀況等方面的細致盤點。通過數據摸底。企業能夠清晰掌握檔案數據資源的全貌,識別數據孤島,評估“數據湖”建立的復雜性和可行性。此外,數據摸底也是一次深入梳理分析企業結構的機會,通過追蹤數據流路徑,分析業務流程與企業結構的關系,有助于優化企業流程,促進業檔融合,提升檔案數據共享效率。這一步的摸底結果將直接影響企業“檔案數據湖”的用戶角色設計、權限控制策略和服務交付模式。明確不同角色用戶的檔案數據處理和訪問需求,可以為企業設計出更加精細化和動態的權限管理系統,在確保檔案數據安全的同時,也促進了檔案數據的合理利用。
(二)技術選型
根據數據摸底的情況,確定企業“檔案數據湖”建設的技術選型是一個關鍵決策點,它將直接影響數據湖的功能性、可擴展性和成本效益。目前,市面上已經涌現了一些較為成熟的數據技術,可以為企業“檔案數據湖”提供參考:檔案數據接入上可以采用RDS全量模板、DTS增量模板、TableStore模板、SLS模板以及文件格式轉換5種模板;[32]檔案數據存儲上可以采用關系型數據庫、Hadoop分布式文件系統(HDFS存儲)、對象存儲等方式(云存儲,如S3、OSS和OBS)等;[33]檔案數據管理可以采用元數據管理系統如Apache Atlas等工具;檔案數據計算可以采用Spark、Trino、Prestodb、Flink、Hive等多模態計算引擎;[34]檔案數據調度可以采用Lake Formation[35]、YARN[36]、Apache Kyuubi[37]等為企業“檔案數據湖”提供統一的訪問接口;檔案數據應用可以采用人工智能、大數據等技術。
(三)數據接入
明確識別并選定將被整合進企業“檔案數據湖”的數據源,進行全面數據抽取和建立持續的數據增量更新機制。在數據接入環節,需要根據數據摸底的結果并結合企業實際業務需求,明確需要接入企業“檔案數據湖”的業務系統,如辦公自動化系統、產品數據(業務)管理系統、企業資源計劃系統、會計核算系統、電子郵件系統等,以實現檔案數據匯入企業“檔案數據湖”進行統一集中管理。同時根據選取的數據源選定檔案數據接入技術,保證能滿足非結構化檔案數據、半結構化檔案數據和結構化檔案數據的兼容性,同時涵蓋數據源元數據、檔案數據、檔案數據元數據,為企業“檔案數據湖”的檔案數據處理打好基礎。
(四)融合治理
為保障檔案數據真實性、完整性、可用性和安全性,企業“檔案數據湖”將檔案數據治理與檔案數據管理、處理、應用等環節相融合。企業“檔案數據湖”可以實現對檔案數據的全生命周期的管理,依賴于檔案數據治理的要求融入檔案數據管理、處理、應用等環節。因為企業“檔案數據湖”采用讀取型sche? ma的特點,這會導致在調度檔案數據之前并不對檔案數據進行統一標準的定義,因而需要在檔案數據管理模塊對原始檔案數據進行有序性、關聯性管理,尤其是在處理低質量檔案數據、缺失檔案數據和重復檔案數據等問題時,保證檔案數據質量。而在調度檔案數據時,會觸發企業“檔案數據湖”對檔案數據進行ETL操作從而出現檔案數據精度缺失、格式錯誤、邏輯錯誤等問題。所以,企業“檔案數據湖”需要設計一整套全流程、全鏈條的檔案數據治理策略,包含數據清洗、數據質量監控、數據規范、數據審計、數據加密和驗證等。
(五)業務支持
企業“檔案數據湖”的建立,為用戶提供了一個集中化的數據訪問和處理平臺,這個平臺通過統一的API接口,簡化了檔案數據的檢索和分析過程。然而,為了更深入地賦能企業的各主營業務,提升應用性能和用戶體驗,推薦采取一種更為主動的檔案數據服務策略。這種策略不僅響應業務需求,還通過預測和引導業務發展,提供更加精準和高效的檔案數據支持。利用企業“檔案數據湖”的技術優勢,可以保持檔案數據處理和建模的高度靈活性和敏捷性,快速適應并支持業務的持續發展和變化。這意味著“數據湖”中的檔案數據不再是靜態存儲,而是動態地與業務流程和決策過程相結合,為業務創新提供源源不斷的檔案數據動力。在這種策略指導下,各個業務部門可以根據自己業務的獨特需求和特點,細化和定制檔案數據模型。這些檔案數據模型將更貼近實際業務場景,更有效地支持復雜的業務分析和決策。同時,業務部門還可以根據檔案數據模型優化檔案數據使用流程,提高檔案數據處理的自動化和智能化水平,減少人工干預,提升檔案數據處理效率。
在企業實現高質量發展道路上,檔案發揮著基礎性、支撐性作用,數據發揮著放大、疊加作用。檔案數據因其擁有前述兩者的雙重特性,而發揮著“1+1>2”的倍增效能,是企業至關重要的資產與生產要素。但由于檔案系統與業務系統之間的融合度尚有提升空間、檔案信息化與企業信息化的協同發展程度有待加強、檔案數據化的推進速度相對較為緩慢等多重因素,企業仍存在著檔案數據供給質量不高、流通機制不暢、價值釋放不夠等問題。鑒于此,企業“檔案數據湖”建設勢在必行。作為企業高質量發展的重要驅動力量,它能夠為企業提供一個集集中存儲、有序管理、精準處理、智能服務等功能為一體的檔案數據平臺,進而充分發揮檔案數據賦能企業業務發展的新勢能。
*本文系中國人民大學科學研究基金(中央高校基本科研業務費專項資金資助)(項目編號:23XNL018)的研究成果之一。
注釋及參考文獻:
[1]馮惠玲,李華.檔案工作現代化的重大課題:論檔案計算機檢索的數據準備[J].檔案學通訊,1992(1):41-45.
[2]中國人民大學電子文件管理研究中心.會議速遞|2023檔案數據產教融合大會主旨報告內容速覽![EB/OL].(2023-10-17)[2024-06-07]. http:// erm.ruc.edu.cn/n/2023/10/17/3553.html.
[3]熊志云.計算機輔助檔案管理概述[J].成人教育學報,1998(1):29-31.
[4]陳陽,吳雁平,劉永.檔案數據與數據檔案定義的演化過程[J].檔案管理,2022(3):20-24.
[5]陶水龍.大數據視野下檔案信息化建設的新思考[J].檔案學研究,2017(3):93-99.
[6]于英香.從數據與信息關系演化看檔案數據概念的發展[J].情報雜志,2018,37(11):150-155.
[7]劉慶悅,楊安蓮.檔案數據:概念、分類及特點初探[J].檔案與建設,2019(10):4-7.
[8][10]金波,楊鵬.大數據時代檔案數據治理研究[J].檔案學研究,2020(4):29-37.
[9]于瑾.區塊鏈賦能高校檔案數據治理:價值審視與路徑分析[J].蘭臺內外,2023(18):15-16+19.
[11]DIXON J.Pentaho,hadoop,and data lakes [EB/OL].(2010- 10- 14)[2024- 06- 09].https://jamesdixon.wordpress. com/2010/10/14/pentaho-hadoop-and-data-lakes.
[12]叢莉.淺析數據湖技術在檔案信息化領域的應用[J].山東檔案,2023(3):35.
[13][14]黃家凱.地質數據湖構建方法淺析[J].數字技術與應用,2020,38(11):135-138.
[15]中華人民共和國國家檔案局.中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL].(2021-06-09)[2024- 06- 13].https://www.saac.gov.cn/daj/toutiao/ 202106/ecca2de5bce44a0eb55c890762868683.shtml.
[16]中華人民共和國國家檔案局.《中華人民共和國檔案法》已由中華人民共和國第十三屆全國人民代表大會常務委員會第十九次會議于2020年6月20日修訂通過[EB/OL].(2020-06-20)[2024-06-14].https://www.saac.gov.cn/daj/yaow/ 202006/cfc8c422e68f4d3aae46389a3c470a5f.shtml.
[17]葉英俊.國有企業檔案數字化的探索與實踐探究[J].辦公室業務,2023(22):161-163.
[18]洪剛.“單套制”要求下的國有企業電子檔案自動歸檔及統一管理研究:以江蘇省N市為例[J].改革與開放,2023(22):7-15.
[19]趙德芹.智慧化背景下檔案管理信息化面臨的挑戰與對策研究[J].蘭臺內外,2023(36):49-51.
[20]GIEBLER C,GROGER C,HOOS E,et al.Leverag? ing the data lake:current state and challenges[C]//0RDONEZ C,SONGL-Y,ANDERST-KOTSIS G,et al.Big Data Analyt? ics and Knowledge Discovery.Cham:Springer,2019:179-188.
[21] MUNSHI A A,MOHAMED Y A I.Data Lake Lambda Architecture for Smart Grids Big Data Analytics[J].IEEE Access,2018(6):40463-40471.
[22] J. Lin.The Lambda and the Kappa[J].IEEE Internet Computing,2017,21(5):60-66.
[23]馬妍嬌.2022年中國云原生數據湖應用洞察白皮書[J].數字經濟,2022(Z2):20-27.
[24]趙生輝,胡瑩,白秋晨.基于數據湖架構的智慧檔案館生態系統構建研究[J].山西檔案,2021,(6):5-14.
[25]陳氫,張治.融合多源異構數據治理的數據湖架構研究[J].情報雜志,2022,41(5):139-145.
[26]秦麗娟,吳恩政,趙逸君,等.地質數據湖數據存儲架構與統一元數據實現[J].自然資源信息化,2024,(4):19-26;33.
[27]李國華,鄒丹,李海軍,等.鐵路數據分布式湖倉一體架構分析與設計[J].現代信息科技,2024,8(1):54-58.
[28]田蕾.油氣田企業數據湖的構建與應用探討[J].信息與電腦(理論版),2023,35(18):30-32.
[29]杜曉萍.融媒體監測監管大數據分析技術研究[J].廣播與電視技術,2023,50(6):124-127.
[30]陳洪軍,葉麗珠,陳其龍,等.產品全生命周期工業大數據采集與管理范式探究[J].機電工程技術,2024,53(3):72-77.
[31]張蕓.油氣田企業勘探開發數據湖架構設計[J].中國管理信息化,2022,25(12):133-136.
[32]彭志偉.數據湖|多數據源一站式入湖解決方案[EB/ OL].(2020-11-23)[2024-06-20].http://t.csdnimg.cn/XkjuU.
[33][37]郭利榮,童坤坤.數據湖研究綜述[J].軟件工程,2023,26(12):6-11.
[34]魏文定,鄂海紅,王曦,等.云原生數據湖服務平臺的設計與實現[J].計算機技術與發展,2024,34(2):17-22.
[35]賈寧波,孫琢,王凌.基于磁光電存儲技術的數據湖總體架構探討[J].中國信息化,2023,(5):39-44.
[36]謝麗.大數據分布式處理技術賦能企業財務報告審計研究[J].財會通訊,2024,(23):138-141;154.
作者單位:中國人民大學信息資源管理學院