劉伊玲 王胡燕 楊本富 王聰杰 趙樣
(1.云南電網有限責任公司信息中心 昆明 650217;2.南方電網數字企業科技(廣東)有限公司 昆明 650217;3.云南師范大學 昆明 650500)
檔案數據作為歷史留存數據,是一個企業項目及其重要事件的寫照。隨著技術的不斷發展,業務的類型及其數量的不斷增加,檔案的來源、類型及其數量也不斷增加。目前企業檔案數據的多樣化、海量化,造成了檔案數據的難以利用:檔案數據利用成本高,需要付出大量的人力成本,耗時耗力,成本難以支撐;檔案數據結構復雜、類型多樣、來源廣泛,通過文本、圖像、視頻、語音等多種不同類型的形式來進行存儲和展示,難以從海量的檔案數據中得到關鍵的檔案知識,知識獲取難且不全。同時,現存的檔案數據中檔案大部分為孤本,在開展利用服務時,容易丟失、失控、影響檔案的壽命。同時,檔案數據對于數據的完整性、安全保密性、真實性、準確性要求高。基于此,檔案的智能化管理也就顯得尤為重要。
隨著電網建設的快速發展,每年產生上萬卷項目檔案,需要大量人工對歸檔資料進行審查,存在工作量巨大、周期長等困難及資料不完整、錯漏等風險。云南電網有限責任公司信息中心借助人工智能等當前主流技術解決上述問題,切實提升檔案工作效率。
通過對電網科技檔案歸檔審查領域所涉及的技術進行研究和應用,構建和訓練面向行業通用的科技檔案歸檔智能審查業務模型,實現檔案數據智能獲取、智能審查、智能組卷,大大縮短檔案從收集、整改到上架的工作時間;此外通過構建電網檔案數據分析模型,挖掘電子檔案的隱性信息和知識,實時進行檔案數據智能分析,為企業管理提供高可用的數據支撐。
檔案信息化作為檔案事業的關鍵,強化院所兩級協同,推動數字化檔案室的建設刻不容緩[1]。楊冬權[2]強調了檔案資源的重要性,正視檔案的價值,要加強人們對檔案的重要性的認識,強調了使用人工智能技術對檔案信息的“智慧性開發”,最大限度地發揮檔案的價值,更好地為企業、社會決策等提供支持服務。金波等人為了充分挖掘檔案數據價值、釋放檔案數據能量,對檔案信息開發利用與檔案數據共享利用進行辨析,為現檔案信息的開發利用和數據共享利用提供了研究思路[3]。
隨著人工智能、大數據等信息技術的不斷發展,這為檔案智能化利用提供了新的技術思路,要注重檔案非結構化資源的整合、數據挖掘、知識發現、知識關聯和知識服務,深化理論實踐研究[4]。2021年,《“十四五”全國檔案事業發展規劃》明確指出要應用人工智能助力檔案管理工作轉型升級,并與數字檔案館(室)建設相結合[5-8]。2022年,國家檔案局在科技項目立項工作中也表明要開展人工智能技術應用于檔案管理的研究[9]。需要借助信息化技術,推動數智賦能檔案事業轉型升級,加強人工智能技術、大數據技術等新一代信息技術在數字檔案建設中的應用,實現檔案資源數據化、知識化、智能化[10]。
基于此,人工智能技術也被逐漸應用到檔案管理及利用中。在檔案數據處理上,借助語音識別、語音轉寫、OCR 圖片識別等人工智能技術進行檔案結構化處理,不斷形成新的檔案成果[11]。在檔案檢索和檔案服務方面,利用智能Agent 技術實現全文檢索,結合人工智能技術提高檔案智能檢索的準確率[12]。
為了充分利用檔案多模態數據,鄧君[13]結合NLP 相關技術將多來源、多模態檔案知識進行知識抽取和圖譜可視化構建,并基于此實現檔案資源知識發現,實現了檔案知識的升華但沒有考慮到檔案的實際業務應用。為了充分實現檔案價值的高效利用,邱杰峰等人[14]將不同來源的文檔、圖像檔案數據進行處理后,結合OCR、語義理解、文本分詞、屬性推測等技術進行檔案知識挖掘,實現檔案的智能著錄、分類、編研利用等業務需求,并實現檔案知識利用的流程化處理。為了有效學習檔案知識,楊曉芳[15]將人工智能技術與檔案智能問答服務相結合,通過人工智能自然語言處理模型對檔案特征向量進行深度語義理解與分析,在檔案知識中進行問題的檢索與匹配,實現問答對的匹配。
檔案的智能化技術越來越成熟,但是檔案數據復雜多樣,不同數據類別具有不同數據特點,例如:文書、科技檔案、實體檔案等,以上的研究沒有考慮到檔案的類別,但是知識抽取技術給我們提供了新的思路。針對文書檔案,楊建梁[16-17]等人通過結合深度學習模型挖掘檔案文書內部知識,進行知識聚類、實體抽取實現檔案知識關聯和可視化,充分挖掘出了文書檔案資政價值、憑證價值和情報價值,為檔案知識的進一步利用提供了服務支撐。
以上學者的這些研究,為智能化挖掘科技檔案中的知識提供了研究思路。基于此,針對科技檔案的特點,本研究針對不同的檔案數據類進行知識挖掘,并結合深度學習算法,將檔案知識進行聚類、關聯,并結合知識圖譜技術將結構化知識進行可視化。在處理的過程中,充分與科技檔案的實際業務相結合,實現檔案的自動化合規性、完備性校驗及其科技檔案的智能化審查,實現科技檔案知識的充分利用。
基于深度學習的智能化科技檔案管理的應用研究平臺架構分成數據采集層、AI 服務接入層、web 層,整體研究框架如圖1所示。通過將智能化技術與檔案實際業務相融合,提高了檔案業務的工作效率,有效實現了科技檔案的智能化服務水平。

圖1 整體研究框架
數據采集層:采用SFTP 技術獲取文件,實現安全可靠傳輸。
AI 服務接入層包括:數據存儲層、信息與知識層、計算引擎層、算法訓練層、AI 服務層、可視化層。
數據存儲層:針對不同的數據類別結合數據存儲技術,實現不同數據的分布式存儲、列式存儲、索引存儲和結構化存儲,構建底層數據存儲結構。
信息與知識層對全局數據知識進行結構化規范化劃分處理。其中,信息知識包括:文章數據、業務系統數據、知識圖譜及其多領域資源數據。需要結合數據分析技術分析處理不同的數據,并針對不同的數據特點對數據知識進行結構化處理,在處理的過程中,需要調用AI 服務層來對不同的數據進行知識抽取。AI 服務層則通過調用不同的算法模型來進行算法配置,算法配置過程中需要調用算法訓練層,選擇合適的算法模型,并結合模型調用計算引擎實現模型訓練來支撐業務數據的處理。
AI 服務層中配置的算法包括但不限于:圖像處理技術、自然語言處理技術、推薦算法、智能知識抽取技術、知識圖譜技術等,配置了支撐業務處理的算法服務。算法訓練層:基于AI 服務層的算法配置了常用的算法模型庫,包括:分類算法、聚類算法、關聯規則算法以及常用的深度學習模型,這些模型算法基于不同的業務處理來封裝。
可視化層:將實時業務處理的數據進行可視化展示,包括:模型評估的結果、知識圖譜可視化、以及數據分析結果等,便于用戶理解以及后續的業務數據分析。
后端監控層:包括服務監控和運維監控。服務監控為對平臺的實時業務數據跟蹤、資源可用性跟蹤、系統的性能跟蹤、用戶數據監控、關鍵指標跟蹤等,為平臺提供安全可靠的監控服務。運維監控為:對系統的異常數據的跟蹤、系統病毒跟蹤警報等,對異常的業務功能進行日志記錄跟蹤,便于后續的運維和功能優化。
本案例主要針對電網企業科技檔案歸檔資料及管理過程進行研究,結合當下主流的先進技術,針對性的對檔案管理工作中存在的痛點、難點問題提出對應的解決方案,對科技檔案歸檔進行嚴格監管,實現檔案資料合規性、完備性在線校驗,保證合規性校驗的準確性,提高對檔案資源的利用、科技檔案歸檔智能化水平、科技檔案管理工作效能,降低管理成本,保證科技檔案的完整性、真實性、可靠性和可用性,同時提高科技檔案資源利用率和分析能力,提升科技檔案精益化管理水平。
通過對電網科技類項目的現行管理制度進行研究,同時參閱了大量資料對工程類、信息化、科技類項目的歸檔資料管理現狀進行分析研究,為后期的項目開展提供理論及業務管理奠定基礎。編制項目的工作方案,擬定項目計劃并按照項目階段工作計劃推進項目的研究。以云南電網為基礎對科技檔案的管理脈絡進行了梳理,對同行業的國家電網公司的科技項目檔案歸檔進行了調研,了解和學習國家電網在檔案管理方面的信息化建設成果。
細化需求分析,根據現狀調研情況結合項目的研究目標,完成項目需求規格說明書的編制工作。明確關鍵技術研究方向,按照需求說明書的相關任務目標,對行業內的主流關鍵技術進行學習和研究,并通過查閱大量文件及對BAT 公司的技術情況進行對比,對實現項目目標所需的關鍵技術進行研究形成了技術研究報告。結合業務管理需要及技術實現的融合,完成項目的概要設計及詳細設計說明書編制。
根據合規性規則組織項目研究開發,完成主要開發工作任務后,進行了充分的業務驗證及技術驗證,并請第三方機構進行了功能、性能的測試驗證。項目具備上線試運行條件后,選取網內網外試點單位進行項目成果試運行。通過試運行不斷對系統應用的易用性、友好性進行調優,提升系統應用性能。
運行測試合規性規則驗證模型可用性,將規則按照不同項目類別進行配置,對試用過程中出現誤判、不準確等情況進行分析,優化校驗模型,通過人工智能算法優化校驗的準確性,實現合規性校驗(包含有無蓋章、是否為紅頭文件、時間序列校驗等)準確率達到99%。公司每年新增的項目近千個,檔案歸檔案卷每年約新增上萬卷,利用本成果進行智能審查、整理組卷等,大幅提升歸檔審查工作效率。
構建基于人工智能的檔案智能審查及一鍵式組卷模型。檔案的規范性、可靠性是檔案管理的重點工作,只有符合規范的檔案資料才能為企業的長期發展提供支持,傳統的人工合規性檢查,效率低下且準確性不高。通過開展檔案合規性自動校驗技術研究,將采集到的項目資料運用人工智能技術對檔案合規性進行檢查校驗。
根據南網電網公司檔案管理相關規范梳理完整性、合規性規則,對檔案資料的合規性包括歸檔資料的必要信息進行自動審查,采用Word2Vector 模型對文本信息資料中所有內容條目與規范化文檔條目進行相似度計算,進而對其規范化做出評價。采用Faster R-CNN 深度神經網絡模型對提交材料中局部內容,包括印章、時間、紅頭文件等進行自動檢測識別,判定檔案資料是否合規有效,同時對檔案資料的合規性進行排查,排除有問題的檔案數據并進行告警提醒。
通過人工智能的智能主體建立自動匯編模型,對檔案進行自動匯編,實現匯編排序、一鍵匯編、匯編導出。滿足檔案管理人員在線檔案自動匯編的業務需要,提高檔案匯編工作效率,降低匯編成本。利用BiLSTM+CNN 深度學習網絡模型對已實施完成提交驗收的項目資料按照完整性規則進行校驗,系統會自動識別檔案信息(包括項目類型、項目名稱等),根據識別到的類型和項目名稱,將檔案按照設置的匯編模板進行自動排序整理,統一檔案的規范性、一致性,實現檔案自動化、智能化整理及完整性檢查,保證檔案的完備性。
根據合規性規則組織項目研究開發,完成主要開發工作任務后,進行了充分的業務驗證及技術驗證,并請第三方機構進行了功能、性能的測試驗證。項目具備上線試運行條件后,選取網內網外試點單位進行項目成果試運行。通過試運行不斷對系統應用的易用性、友好性進行調優,提升系統應用性能。運行測試合規性規則驗證模型可用性,將規則按照不同項目類別進行配置,對試用過程中出現誤判、不準確等情況進行分析,優化校驗模型,通過人工智能算法優化校驗的準確性,實現合規性校驗(包含有無蓋章、是否為紅頭文件、時間序列校驗等)準確率達到99%。公司每年新增的項目近千個,檔案歸檔案卷每年約新增上萬卷,利用本成果進行智能審查、整理組卷等,大幅提升歸檔審查工作效率。
搭建基于人工智能的檔案利用模塊,促進檔案資料的高效利用。目前科技檔案中的信息數據大部分屬于非結構化數據,關鍵的信息數據和知識通常都隱藏在非結構化的企業檔案中,由于非結構化檔案信息沒有進行很好的分類,重要信息的搜索查詢及利用價值不高。
基于大量的檔案數據,利用文本挖掘技術將檔案資料中隱性知識進行分類、聚類、關聯規則挖掘、語義分析,實現關鍵詞檢索,智能分析內容摘要、屬性提取、標簽識別與內容關聯,總結出知識來源以及檔案信息間的關聯,提高檔案關鍵信息的利用性。采用echarts 技術對數據進行可視化分析處理,以檔案云圖、知識圖譜的形式建立起人與檔案知識之間的橋梁,發現檔案數據新的聯系并展現之間的關系,建立一系列全新的搜索查詢,為智能檢索與分析提供數據支撐,輔助檔案管理決策及日常工作開展同時創新檔案服務模式,為企業輸出更為有價的檔案信息。
基于構建的知識圖譜,利用文本挖掘技術常用的文本分類、聚類、關聯規則挖掘、語義分析、內容分析等技術方法,對檔案資料數據進行分析、挖掘,并通過可視化的呈現方式展示檔案價值服務。通過可視化信息技術手段直觀展示隱藏在非結構化數據中的關聯信息并展現之間的關聯關系,生成大數據智能分析報告,用戶可實時查看高頻詞云、常見問題等信息,為科技檔案利用奠定結構化的數據支撐。
通過本案例成果的應用實施有效避免了檔案歸檔過程中人工核查歸檔資料的完備性、合規性及檔案歸檔資料線下組卷時的費時費力、主觀核查差異性等問題,科技檔案的管理更為規范,提高了檔案資料的數據準確性及完整性,有效的解決了紙質檔案與電子檔案的一致性問題。實現檔案數據一鍵式組卷、一鍵式歸檔,減少了人工的參與度,在降低人工投入同時提高歸檔工作效率。通過對檔案數據智能分析,對檔案用戶進行應用分析,形成雙向橋梁,主動推送智能輸出檔案利用,結合檔案重要性、大數據利用情況、時間軸給出檔案銷毀提醒與建議,為管理決策及日常工作提供支撐。依據梳理的合規性規則中的完整性、合規性規則驗證檔案完整性模型的可用性,科技檔案完備性及合規性的校驗準確率達到99%。
經濟效益:按公司每年新增10000 卷檔案計算,通本案例成果進行歸檔資料完整性、合規性智能審查,平均每卷檢查時間可減少5.4 小時,將為公司節約人力資源成本約320 萬元。
社會效益:該成果是人工智能技術與檔案管理業務深度融合的創新典范。通過轉變傳統檔案管理服務模式,提高公司檔案歸檔管理智能化水平、檔案利用效率,滿足公司檔案數據量不斷增大、人工檢查檔案準確率不高、檔案數據關鍵信息無法查找利用等需求,實現公司檔案智能化、數字化、精益化管理,對推動公司檔案數字化建設,豐富數字檔案資源,充分發揮科技檔案作用具有重要意義。
本案例被云南省檔案局立為2020年度云南省檔案科技項目計劃,2022年通過云南省檔案局驗收,獲評2022年云南省檔案局科技項目成果一等獎,參加云南電網公司首屆人工智能應用創新大賽,榮獲創意類三等獎,榮獲云南電網公司2022年科技進步三等獎。
本案例成果已在云南電網公司推廣應用,計劃2023年通過成果轉化方式推廣至外部多家單位應用。目前除云南電網應用外,在華電云南發電有限責任公司、云南省教育廳的科技檔案管理中開展試用,通過行業應用反饋,該工具與檔案業務深度融合,適應不同的業務場景,智能水平較高,在檔案業務領域尚屬領先,具有較好的推廣前景。
本案例2022年通過云南省檔案局驗收,被評為2022年云南省檔案局科技項目成果一等獎。參與云南電網公司首屆人工智能大賽榮獲創意類三等獎。創新性本案例引入人工智能技術與檔案業務深度融合,促進技術創新同時持續推動檔案服務模式不斷創新。引入“以用戶為中心”的檔案服務理念,將被動服務轉變為主動服務,實現檔案“線下人工歸檔”轉變為“線上一鍵式智能歸檔”,推動檔案管理模式向智能化邁進,借助大數據分析技術對檔案資源進行合理配置和數據挖掘,為檔案用戶提供個性化、專業化、多元化的檔案服務。
1、首次構建檔案數據完整性模型。根據南網電網公司檔案管理規范梳理,形成電網企業檔案資料智能審查規則,引入人工智能技術開展檔案智能管理,按照文件關鍵字所處的項目類別、項目階段將檔案文件劃分歸類,根據識別到的類型和項目名稱,將檔案按照設置的匯編模板進行自動排序整理,邁出了網省公司在檔案管理完整性檢查方面向智能化轉變的關鍵一步。
2、首次實現神經網絡機器學習模型的檔案合規性檢查及自動匯編。根據云南電網有限責任公司檔案管理相關的規范梳理項目合規性規則,并基于機器學習模型、OCR 識別等技術,實現系統自動對檔案材料中印章、簽字、紅頭文件等規范點進行目標檢測識別,是智能化應用于檔案管理領域的又一次初探。合規性校驗通過后,將檔案資料按照設置的匯編模板進行自動排序整理、自動編頁,統一檔案的規范性、一致性,實現檔案自動化、智能化整理及合規性檢查,保證檔案的合規性,同時提高檔案組卷的效率,解決了人工組卷工作繁雜、易錯易漏的實際問題。
3、引入文本挖掘技術提升檔案價值利用。基于大量的檔案數據,利用基于深度學習的文本挖掘技術挖掘出隱性知識,實現關鍵詞檢索,智能分析內容摘要、屬性提取、標簽識別與內容關聯,總結出知識來源以及檔案信息間的關聯,提高檔案關鍵信息的利用性。采用知識圖譜技術對數據進行可視化分析處理,發現檔案數據新的聯系并展現之間的關系,構建智能化搜索查詢,為智能檢索與分析提供數據支撐,輔助檔案管理決策及日常工作開展同時創新檔案服務模式,為企業輸出更為有價的檔案信息。
本案例成果用于科技類檔案資料歸檔前的前置審查,按照科技檔案管理要求對歸檔的資料進行合規性、完整性的校驗,實現了檔案數據自動識別、自動校核、自動組卷、智能應用等功能,轉變了傳統人工檔案管理模式,提升了檔案精益化管理水平和檔案工作效率。針對目前電網工程投資大,周期短、項目多、人工檢查項目檔案耗時耗力、效率低等特點。通過本成果應用能高效完成歸檔材料合規性、完整性智能審查,一鍵組卷和智能應用等內容,解決了建設項目歸檔過程中的大量重復性工作,輔助甚至替代資料審核人力,實現人工智能技術在電網檔案管理領域智能化方面的突破性和創新性應用示范。