摘 要: 在智慧校園建設(shè)和教育數(shù)字化轉(zhuǎn)型背景下,人工智能技術(shù)深刻變革著高校檔案管理工作,為檔案管理工作帶來了全新的機遇與挑戰(zhàn)。本研究詳細探討了人工智能在檔案資源建設(shè)、檔案利用和檔案編研等檔案管理中展現(xiàn)的極大優(yōu)勢,并進一步分析了其在技術(shù)瓶頸、數(shù)據(jù)質(zhì)量與安全問題以及專業(yè)人才短缺等方面面臨的挑戰(zhàn),并從技術(shù)研發(fā)與優(yōu)化、數(shù)據(jù)治理與安全保障、完善人才培養(yǎng)與隊伍建設(shè)等方面提出相應(yīng)的應(yīng)對策略,從而推動檔案管理現(xiàn)代化發(fā)展,提高檔案管理的效率和質(zhì)量。
關(guān)鍵詞:檔案管理 人工智能挑戰(zhàn) 應(yīng)對策略
隨著智慧校園建設(shè)和教育數(shù)字化轉(zhuǎn)型的深入推進,傳統(tǒng)檔案管理的方式、服務(wù)乃至理念都面臨著新的機遇與挑戰(zhàn)。檔案管理作為高校信息資源管理的關(guān)鍵一環(huán),高校應(yīng)充分認(rèn)識到“人工智能+檔案管理”研究的重要性和緊迫性。傳統(tǒng)檔案管理依賴人工,效率低且易出錯,而檔案數(shù)字化轉(zhuǎn)型加速,海量信息處理成為難題。憑借機器學(xué)習(xí)、自然語言處理、圖像識別等技術(shù)[1],人工智能可實現(xiàn)檔案自動化分類、智能化檢索、安全管理等,提升管理效率、檔案利用率和安全性,推動檔案事業(yè)現(xiàn)代化發(fā)展,滿足社會對檔案信息資源的需求。
一、人工智能在檔案管理中具有諸多應(yīng)用場景
在檔案資源建設(shè)上,人工智能技術(shù)應(yīng)用主要體現(xiàn)在智能采集與數(shù)字化、智能分類與編目中。借助先進的光學(xué)字符識別(OCR)技術(shù)與自然語言處理算法可實現(xiàn)智能采集與數(shù)字化,系統(tǒng)能快速掃描紙質(zhì)檔案或解析電子文檔,自動提取關(guān)鍵信息,并按照預(yù)設(shè)標(biāo)準(zhǔn)準(zhǔn)確填充元數(shù)據(jù)字段。經(jīng)實際案例測算,通過人工智能完成一份檔案著錄可大幅度提升工作效率,且準(zhǔn)確率高達85%以上,極大減少了人工錯誤與后續(xù)糾錯成本。[2]利用機器學(xué)習(xí)算法構(gòu)建智能分類與編目模型,模型基于檔案的內(nèi)容特征、文種、形成年代、責(zé)任者等多維度信息進行訓(xùn)練學(xué)習(xí),優(yōu)化檔案整理流程。在檔案編目環(huán)節(jié),智能系統(tǒng)依據(jù)分類結(jié)果自動生成詳細編目信息,包括檔案名稱、編號、日期、摘要等核心元數(shù)據(jù),編目人員只需對自動生成內(nèi)容進行審核微調(diào),即可完成編目工作,效率提升約3倍,且分類準(zhǔn)確性超過90%,有效避免了人工分類主觀偏差,讓檔案整理更規(guī)范、科學(xué),為研究人員快速鎖定所需檔案資料提供便利,極大提升了館藏檔案資源的利用效率。
在檔案利用上,人工智能技術(shù)應(yīng)用主要體現(xiàn)在檢索服務(wù)中。應(yīng)用先進的自然語言處理技術(shù)、知識圖譜關(guān)聯(lián)等實現(xiàn)了智能檢索與精準(zhǔn)推薦功能的深度融合。通過深度剖析語句語義,精準(zhǔn)識別關(guān)鍵信息,可突破傳統(tǒng)檢索基于關(guān)鍵詞匹配的局限,智能檢索平均響應(yīng)時間縮短至秒級,顯著提高了檢索速度。[3]這讓檔案查找變得高效便捷,為檔案利用者節(jié)省大量時間成本,使檔案信息能快速轉(zhuǎn)化為知識生產(chǎn)力。如上海大學(xué)檔案館運用知識圖譜技術(shù)構(gòu)建本科學(xué)科發(fā)展脈絡(luò),為校內(nèi)師生、校外科研合作者提供可視化知識導(dǎo)航,輔助學(xué)術(shù)研究與項目合作決策,避免重復(fù)研究,激發(fā)創(chuàng)新靈感,縮短了科研項目前期調(diào)研周期,有力推動了學(xué)術(shù)創(chuàng)新與學(xué)科發(fā)展,彰顯檔案知識深度挖掘與整合應(yīng)用價值。
在檔案編研上,人工智能技術(shù)應(yīng)用主要體現(xiàn)在智能編研中。使用開源框架、自建數(shù)據(jù)庫、購買算力等構(gòu)建高校檔案行業(yè)自己的輕量級語言模型,并選擇合適的數(shù)據(jù)、模型結(jié)構(gòu)、訓(xùn)練方法優(yōu)化語言模型,生成自然語言響應(yīng)的檔案管理人工智能——Archives GPT,進而實現(xiàn)輸入編研主題等指令,自動生成編研成果。[4]人工智能技術(shù)應(yīng)用還體現(xiàn)在智能安防監(jiān)控、數(shù)據(jù)加密與備份、創(chuàng)新服務(wù)模式等方面。
二、人工智能時代檔案管理面臨的挑戰(zhàn)
(一)技術(shù)瓶頸
1. 算法局限性
深度學(xué)習(xí)算法暴露出顯著的局限性。面對檔案中復(fù)雜語境下的語義理解,算法時常陷入困境。部分歷史檔案夾雜著大量專業(yè)術(shù)語、典故及特定時代的詞匯用法,深度學(xué)習(xí)模型難以精準(zhǔn)把握其確切含義,極易造成審核偏差。手寫文字識別更是難點重重。檔案館藏的大量近現(xiàn)代手稿、契約等檔案,書寫風(fēng)格各異,字跡潦草、連筆、涂改現(xiàn)象屢見不鮮。當(dāng)前的手寫文字識別算法在應(yīng)對這類復(fù)雜手寫體時,準(zhǔn)確率大打折扣。實驗數(shù)據(jù)表明,對于一些年代久遠、書寫隨意的個人信件檔案,識別錯誤率甚至高達30%—40%[5],使得檔案信息錄入與檢索的源頭便出現(xiàn)偏差,嚴(yán)重制約后續(xù)管理流程的精準(zhǔn)性,為檔案數(shù)字化與智能化推進設(shè)下障礙。
2. 系統(tǒng)兼容性
當(dāng)檔案館試圖引入先進的人工智能系統(tǒng)時,常面臨與既有檔案管理軟、硬件的兼容性難題。根據(jù)前期調(diào)研統(tǒng)計結(jié)果,有些高校繼續(xù)沿用南大之星檔案管理系統(tǒng),也有結(jié)合自身特色重新開發(fā)綜合檔案管理系統(tǒng)的高校,還有為個性化服務(wù)量身打造個性化服務(wù)系統(tǒng)的高校。[6]在檔案管理系統(tǒng)的開發(fā)與應(yīng)用方面,至今仍未形成統(tǒng)一的管理系統(tǒng)標(biāo)準(zhǔn),在數(shù)據(jù)結(jié)構(gòu)、接口規(guī)范、運行環(huán)境等方面千差萬別。新引入的人工智能系統(tǒng)若要與之協(xié)同工作,需打通數(shù)據(jù)交互通道,實現(xiàn)無縫對接。但實踐中,常出現(xiàn)數(shù)據(jù)格式轉(zhuǎn)換錯誤、接口調(diào)用失敗等問題,導(dǎo)致檔案數(shù)據(jù)傳輸受阻,無法正常導(dǎo)入新系統(tǒng)進行智能分析處理。
硬件層面同樣面臨老舊服務(wù)器算力有限的難題,難以支撐人工智能算法的高強度運算需求,出現(xiàn)頻繁卡頓甚至死機;一些專用的圖像采集、存儲設(shè)備與新系統(tǒng)的適配性不佳,影響檔案數(shù)字化采集精度與存儲穩(wěn)定性。這不僅阻礙人工智能系統(tǒng)的順利部署,還可能因頻繁調(diào)試、更換設(shè)備軟件,額外耗費大量人力、物力與時間成本,使檔案管理機構(gòu)在技術(shù)升級面前望而卻步,延緩智能化轉(zhuǎn)型步伐。
(二)數(shù)據(jù)質(zhì)量與安全問題
1. 數(shù)據(jù)質(zhì)量參差不齊
以某高校檔案館為例,在檔案數(shù)字化進程中,數(shù)據(jù)質(zhì)量問題頗為突出。部分早期錄入的檔案信息存在諸多錯誤,如學(xué)生學(xué)籍檔案里,姓名出現(xiàn)錯別字、出生日期錄入格式不統(tǒng)一,有的為“年月日”,有的簡寫為“..”,專業(yè)名稱使用簡稱或存在筆誤,這些錯誤導(dǎo)致后續(xù)學(xué)籍管理、學(xué)歷認(rèn)證等環(huán)節(jié)數(shù)據(jù)比對困難,影響學(xué)生權(quán)益保障與學(xué)校管理決策的準(zhǔn)確性。
在科研檔案方面,項目成果、經(jīng)費使用明細等數(shù)據(jù)錄入時,因工作人員疏忽或?qū)I(yè)內(nèi)容理解偏差,出現(xiàn)數(shù)據(jù)缺失、錯填現(xiàn)象,使得科研項目評估、成果轉(zhuǎn)化分析失去可靠數(shù)據(jù)支撐,阻礙科研創(chuàng)新發(fā)展與資源合理配置。而且,不同時期、不同部門采集的檔案數(shù)據(jù)格式各異,文本型、數(shù)值型數(shù)據(jù)存儲混亂,未遵循統(tǒng)一標(biāo)準(zhǔn)規(guī)范,致使人工智能分析模型在處理數(shù)據(jù)時頻頻出錯,難以精準(zhǔn)挖掘數(shù)據(jù)價值,極大制約了檔案智能化管理成效。
2. 數(shù)據(jù)安全風(fēng)險
檔案數(shù)據(jù)蘊含海量個人隱私、商業(yè)機密與國家安全信息,面臨嚴(yán)峻安全挑戰(zhàn)。網(wǎng)絡(luò)攻擊層面,近年來黑客組織頻繁將目標(biāo)指向檔案管理系統(tǒng),運用惡意軟件、釣魚郵件、漏洞攻擊等手段,試圖突破防線竊取檔案數(shù)據(jù)。部分檔案管理人員安全意識淡薄,違規(guī)操作頻發(fā),如隨意共享賬號密碼,在未授權(quán)設(shè)備上訪問敏感檔案,甚至私自拷貝檔案數(shù)據(jù)用于不當(dāng)用途,為數(shù)據(jù)安全埋下隱患。隨著檔案數(shù)據(jù)共享、跨境傳輸增多,數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)管控難度加大,若缺乏有效加密、脫敏與訪問審計機制,極易在傳輸過程中遭遇竊取、篡改,進而對國家安全、社會穩(wěn)定與個人權(quán)益構(gòu)成威脅。
(三)專業(yè)人才短缺
迅猛發(fā)展的人工智能技術(shù)與檔案專業(yè)人才儲備不足的矛盾日益凸顯。傳統(tǒng)檔案管理人員大多精通檔案學(xué)理論、熟悉檔案業(yè)務(wù)流程,在檔案的收集、整理、保管與利用等環(huán)節(jié)積累了豐富經(jīng)驗。然而,面對人工智能這一新興技術(shù)浪潮,他們的知識結(jié)構(gòu)短板盡顯。一方面,檔案管理人員對人工智能核心技術(shù),如機器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理等的理解較為淺薄,難以把握技術(shù)原理與應(yīng)用潛力,在面對智能檔案系統(tǒng)選型、部署與運營時力不從心。例如,當(dāng)引入基于機器學(xué)習(xí)的檔案分類系統(tǒng),管理人員因不了解算法訓(xùn)練機制,無法針對館藏檔案特點優(yōu)化模型參數(shù),導(dǎo)致分類效果不佳。另一方面,復(fù)合型人才培養(yǎng)難度較大。既懂檔案專業(yè)知識又熟練掌握人工智能技術(shù)的人才稀缺,高校檔案專業(yè)課程設(shè)置雖逐步融入信息技術(shù)內(nèi)容,但與人工智能深度融合不足,實踐教學(xué)環(huán)節(jié)薄弱,學(xué)生缺乏實操經(jīng)驗。在職培訓(xùn)方面,受限于培訓(xùn)師資、時間與經(jīng)費,難以系統(tǒng)提升檔案人員的技術(shù)水平,使得檔案部門在推進人工智能應(yīng)用時缺乏關(guān)鍵人才支撐,阻礙了技術(shù)落地與創(chuàng)新發(fā)展,亟須構(gòu)建全方位人才培養(yǎng)體系以填補缺口。
三、人工智能時代檔案管理的應(yīng)對策略
(一)技術(shù)研發(fā)與優(yōu)化
1. 持續(xù)改進算法
高校與科研機構(gòu)應(yīng)攜手人工智能企業(yè),組建跨學(xué)科研發(fā)團隊,聚焦檔案管理需求,對自然語言處理、圖像識別等核心算法展開聯(lián)合攻關(guān)。針對檔案文本中復(fù)雜語義理解難題,借鑒知識圖譜構(gòu)建思路,引入領(lǐng)域?qū)<抑R,為算法注入語義推理能力,使其能精準(zhǔn)解析古舊檔案、專業(yè)檔案術(shù)語。在手寫文字識別方面,融合深度學(xué)習(xí)與強化學(xué)習(xí),利用強化學(xué)習(xí)的試錯反饋機制,優(yōu)化模型對不同書寫風(fēng)格的適應(yīng)性,通過大量手寫檔案樣本訓(xùn)練,持續(xù)提升識別準(zhǔn)確率,縮小與印刷文字識別的差距,為檔案數(shù)字化提供堅實技術(shù)支撐,推動人工智能從“可用”邁向“好用”。
2. 加強系統(tǒng)集成
軟件廠商應(yīng)遵循行業(yè)規(guī)范,開發(fā)具有通用性的標(biāo)準(zhǔn)化接口,支持多種數(shù)據(jù)格式轉(zhuǎn)換與交互協(xié)議,確保新開發(fā)的人工智能模塊能便捷嵌入既有檔案管理系統(tǒng)。檔案館應(yīng)成立技術(shù)整合小組,全面梳理內(nèi)部軟、硬件資源,依據(jù)接口標(biāo)準(zhǔn)制定系統(tǒng)集成方案,對數(shù)據(jù)傳輸、功能調(diào)用流程進行統(tǒng)一規(guī)劃,實現(xiàn)檔案采集、存儲、檢索、利用等不同模塊間無縫對接;定期開展兼容性測試,及時解決數(shù)據(jù)沖突、運行卡頓等問題,保障系統(tǒng)整體穩(wěn)定運行,讓人工智能技術(shù)融入檔案管理全流程,而非孤立“插件”,充分釋放技術(shù)集成效能。
(二)數(shù)據(jù)治理與安全保障
1. 提升數(shù)據(jù)質(zhì)量
檔案館應(yīng)依據(jù)國家標(biāo)準(zhǔn)、行業(yè)規(guī)范,結(jié)合自身館藏特點,制定詳盡的數(shù)據(jù)采集、錄入、存儲標(biāo)準(zhǔn),涵蓋檔案著錄格式、元數(shù)據(jù)標(biāo)準(zhǔn)、分類類目體系等關(guān)鍵要素,確保檔案數(shù)據(jù)在源頭上的一致性與規(guī)范性。利用人工智能數(shù)據(jù)清洗技術(shù),對歷史遺留的錯誤、重復(fù)、不完整數(shù)據(jù)進行精準(zhǔn)篩查與糾正。例如,通過自然語言處理技術(shù)識別并修正檔案文本中的錯別字和語病,運用機器學(xué)習(xí)算法和數(shù)據(jù)關(guān)聯(lián)規(guī)則查找補齊缺失信息,如在人事檔案中,依據(jù)已有出生日期、入職時間等信息推算補齊工齡數(shù)據(jù),以提升數(shù)據(jù)完整性。
檔案館應(yīng)定期開展數(shù)據(jù)質(zhì)量校驗工作,運用智能校驗工具對比標(biāo)準(zhǔn)規(guī)范,自動生成數(shù)據(jù)質(zhì)量報告,明確問題數(shù)據(jù)清單及整改方向,反饋至相關(guān)責(zé)任部門及時優(yōu)化,為加快人工智能應(yīng)用提供堅實、高質(zhì)量的數(shù)據(jù)基礎(chǔ),同時保障后續(xù)分析結(jié)果的可靠性。
2. 強化數(shù)據(jù)安全防護
在檔案數(shù)據(jù)存儲與傳輸環(huán)節(jié),檔案館應(yīng)采用多重加密技術(shù),如基于量子密鑰分發(fā)的加密算法,結(jié)合傳統(tǒng)對稱、非對稱加密,為檔案數(shù)據(jù)加密,抵御外部破解;引入?yún)^(qū)塊鏈技術(shù),利用其去中心化、不可篡改等特性,確保檔案數(shù)據(jù)全生命周期的真實性與完整性,尤其適用于珍貴檔案、電子憑證的存儲。嚴(yán)格訪問控制體系,依據(jù)用戶角色、權(quán)限級別,結(jié)合生物識別、數(shù)字證書認(rèn)證等技術(shù),精準(zhǔn)授權(quán)檔案訪問,實時監(jiān)控操作行為,對異常訪問如異地登錄、批量下載敏感檔案等及時預(yù)警阻斷。
檔案館應(yīng)聯(lián)合學(xué)校信息技術(shù)中心部署入侵檢測系統(tǒng),借助人工智能機器學(xué)習(xí)模型,實時分析網(wǎng)絡(luò)流量、系統(tǒng)日志,智能識別潛在攻擊,如針對新型的分布式拒絕服務(wù)(DDoS)攻擊、零日漏洞攻擊,及時啟動防護策略,如自動切換備用服務(wù)器、更新漏洞補丁,同時健全數(shù)據(jù)安全管理制度,明確人員操作規(guī)范、應(yīng)急處置流程,定期組織培訓(xùn)演練,全方位構(gòu)建檔案數(shù)據(jù)安全體系,守護數(shù)據(jù)資產(chǎn)。
(三)完善人才培養(yǎng)與隊伍建設(shè)
高校作為檔案專業(yè)人才的培養(yǎng)搖籃,應(yīng)與時俱進,優(yōu)化檔案專業(yè)課程體系,增設(shè)如“人工智能概論”“檔案信息智能處理技術(shù)”“機器學(xué)習(xí)基礎(chǔ)與檔案應(yīng)用”等核心課程,讓學(xué)生系統(tǒng)掌握人工智能的基本理論與檔案領(lǐng)域的關(guān)鍵技術(shù)和應(yīng)用方法。高校還應(yīng)打造跨學(xué)科教學(xué)團隊,組織計算機科學(xué)、信息管理、檔案學(xué)等專業(yè)教師協(xié)同授課,依托校內(nèi)實驗室、校外實習(xí)基地,為學(xué)生提供豐富的實踐機會,使其在項目實踐中深化知識理解,成長為兼具檔案專業(yè)素養(yǎng)與人工智能實操技能的復(fù)合型人才。
對于專職檔案管理人員,檔案館需構(gòu)建常態(tài)化、多層次在職培訓(xùn)體系。短期培訓(xùn)可聚焦實用技能,如定期舉辦“人工智能檔案管理工具實操培訓(xùn)班”,邀請技術(shù)專家、資深從業(yè)者講解主流智能檔案系統(tǒng)的操作技巧、故障排除方法;中長期培訓(xùn)著眼知識體系更新,組織“檔案智能化轉(zhuǎn)型專題研修班”,深入剖析人工智能前沿技術(shù)、行業(yè)發(fā)展趨勢、管理模式變革,助力檔案人員拓寬視野,提升戰(zhàn)略思維。檔案館還應(yīng)鼓勵檔案人員參與行業(yè)學(xué)術(shù)交流、技術(shù)研討會,與同行分享經(jīng)驗、切磋技藝,激發(fā)創(chuàng)新靈感;建立職業(yè)技能認(rèn)證機制,依據(jù)培訓(xùn)內(nèi)容與實踐成果,頒發(fā)相應(yīng)技能證書,激勵檔案人員持續(xù)學(xué)習(xí),為檔案管理智能化轉(zhuǎn)型打造一支知識型、技能型、創(chuàng)新型的人才隊伍。
四、結(jié)語
本研究全面圍繞人工智能在檔案資源建設(shè)、檔案利用和檔案編研等高校檔案管理工作的應(yīng)用場景,剖析了人工智能技術(shù)所帶來的技術(shù)瓶頸、數(shù)據(jù)質(zhì)量與安全問題以及專業(yè)人才短缺等挑戰(zhàn)。為此,本研究提出了技術(shù)研發(fā)與優(yōu)化、數(shù)據(jù)治理與安全保障、人才培養(yǎng)與隊伍建設(shè)等應(yīng)對策略,以期為高校檔案管理現(xiàn)代化轉(zhuǎn)型提供參考。未來,隨著人工智能技術(shù)的不斷進步和發(fā)展,人工智能技術(shù)將在檔案管理工作中發(fā)揮越來越重要的作用,為智慧校園建設(shè)和教育數(shù)字化轉(zhuǎn)型提供有力支撐,進一步推動檔案事業(yè)的現(xiàn)代化發(fā)展。
參考文獻
[1]陳栩杉.人工智能與檔案管理:進展、愿景與挑戰(zhàn)[J].中國檔案,2022(11):30-32.
[2]廖勇軍.基于人工智能技術(shù)的檔案整理及數(shù)據(jù)驗收輔助系統(tǒng)的運用研究[J].四川檔案,2023(3):39-42.
[3]陳亮.人工智能技術(shù)在智慧檔案館建設(shè)中的應(yīng)用初探——以太倉市檔案館為例[J].檔案與建設(shè),2016(7):80-82.
[4]吳建軍.人工智能時代高校檔案編研開發(fā)應(yīng)用探索——基于ChatGPT的思考[J].蘭臺世界,2024(9):80-83.
[5]Peng D., Jin L., Ma W., et al. Recognition of Handwritten Chinese Text by Segmentation: A Segment-annotation-free Approach[J]. IEEE Transactions on Multimedia, 2022(25): 2368-2381.
[6]周建秋.“互聯(lián)網(wǎng)+”形勢下建設(shè)新型服務(wù)型高校檔案館[J].蘭臺世界,2018(7):83-86.