岳幸暉 楊智勇
(上海大學文化遺產與信息管理學院,上海,200444)
當下,人工智能正加速與經濟社會各行各業深度融合,檔案行業也概莫能外。《“十四五”全國檔案事業發展規劃》明確指出“加強大數據、人工智能等新一代信息技術在數字檔案館(室)建設中的應用,推動數字檔案館(室)建設優化升級”[1];2023年度國家檔案局擬立項的科技項目中涉及人工智能的多達28個[2]。與其他信息技術相比,人工智能的特殊性主要體現在其具有生物智能的自學習、自組織、自適應、自行動等特征[3],借助數據、算力和算法來模仿人類認知過程和思維能力,在面臨復雜且多樣的檔案管理場景時能夠自主學習和適應,進而做出最優選擇。目前,人工智能在檔案管理中的應用這一主題已引起國內外學者的廣泛關注,相關研究主要集中于三個維度:一是從宏觀層面探討人工智能應用于檔案管理的影響,如人工智能的方法與技術將推動檔案管理理論創新、檔案管理實踐優化、檔案管理人員角色轉變等[4-5];二是從中觀層面分析人工智能嵌入檔案管理的具體環節;[6]三是從微觀層面剖析人工智能中的某一類技術如何應用于檔案管理,如機器學習[7]、ChatGPT[8]、圖像和語音識別[9]等。
總體而言,上述研究表明人工智能在檔案管理領域已得到一定的發展與應用,但現有文獻對人工智能可能給檔案管理帶來的風險鮮有提及。基于此,本文落腳于中觀層面,系統分析人工智能在檔案管理中的應用現狀,深入探討檔案管理應用人工智能技術所面臨的潛在風險,并提出風險的防范策略,以期提高檔案管理智能化、科學化水平,助力檔案工作智慧化轉型升級。
人工智能的主要技術領域包括:計算機視覺、自然語言處理、機器學習、智能機器人、模式識別等[10],這些技術目前在檔案“收管存用”的具體環節中已實現不同程度的探索應用,切實提高了檔案管理的效率與水平。未來,利用人工智能逐步實現檔案管理全流程智能化將成為實踐發展的重要方向。
大數據時代,各類電子文件指數級增長,迫切需要信息技術的嵌入來滿足電子文件的歸檔要求,而人工智能可介入電子文件前端控制,提高電子文件歸檔質量。借助機器學習、自然語言處理、模式識別等技術,提前將電子文件的歸檔范圍、分類方案、歸檔時間、通用文件格式要求、元數據方案、命名規則、封裝要求等配置在業務系統或歸檔接口中[11],根據預先設定的形式實現電子文件的在線自動歸檔和全程留痕,從前端確保電子文件的真實、完整、可用、安全。如上海市浦東新區檔案館運用人工智能技術,將電子檔案管理和“四性”檢測需求融入受理平臺和業務系統,確保電子文件在審批服務過程中即符合歸檔要求,實現事項隨辦隨歸、要素自動歸集。[12]
在網絡環境下,檔案數據廣泛產生于電子辦公、電子業務、信息系統、網站網頁、新媒體及傳感設備等環境[13],而人工智能可輔助檔案數據全域采集。通過融合智能感知終端、網絡爬蟲、數據采集、智能轉錄等人工智能技術,感知采集多模態、多來源檔案信息資源,有效提升檔案收集質量與效率,構建立體多元的館藏檔案資源體系。如浙江省檔案館與科大訊飛公司合作,綜合運用卷積神經網絡、AI識別等技術,實現對音視頻檔案的采集、整理和有效利用,有效盤活音視頻檔案資源。[14]
就檔案形態而言,檔案資源包括實體檔案資源和數字檔案資源。針對實體檔案資源,OCR識別、人臉識別、語音識別等技術的應用,能夠自動識別并提取檔案中的關鍵信息和文字內容,將其轉化為可供計算機編輯處理的數字化、數據化信息。如荷蘭國家檔案館和KNAW人文小組聯合開發了開源轉錄軟件Loghi,目前該軟件對手寫、打字、印刷文本轉錄識別率已達到96%,有效提高了歷史檔案數字化的效率。[15]針對數字檔案資源,借助自然語言處理、機器學習等技術,可對檔案進行聚類分析,發現不同文本間的關聯與特征,實現文本型數字檔案資源的自動著錄標引、分類排序;還可基于模式識別技術,實現照片檔案、錄音錄像檔案等媒體型數字檔案信息資源的一站式檢索。
借助專家系統、機器學習、語義分析等技術,在對已開放鑒定的成果進行模型訓練的基礎上,結合專家提供的理論知識和已有的鑒定規則,預制敏感詞庫和規則庫,實現檔案目錄、原文信息審讀和段落、詞句語義理解,進而作出檔案內容的價值判斷與開放結果的預測。如遼寧省檔案館結合人工智能技術,構建多維語義理解算法模型,從敏感字段、敏感詞、敏感語句、敏感圖像等多層次對檔案全件進行語義分析,提升檔案開放審核業務的智能化水平。[16]
一方面,人工智能有助于實現檔案資源的多層次開發。運用數據挖掘、數據分析、知識圖譜、知識地圖等智能技術對檔案資源進行細粒度、內容級開發,發現檔案數據間的內在關聯和趨勢脈絡,并以可視化的形式構建知識要素的關系網絡,以便最大限度激活檔案信息資源的潛在價值,賦能政府決策、城市發展等宏觀場景。如上海市檔案館綜合運用人工智能、知識圖譜等技術,打造“跟著檔案觀上海”數字人文平臺,將建筑、歷史事件以及身處其中的人有機融合,為了解城市文脈與歷史記憶提供檔案數據支撐。[17]另一方面,人工智能助推檔案資源的個性化供給。借助自然語言處理、用戶畫像、智能推送等技術,可從關鍵詞理解提高到語義、知識級別的理解,深度分析檔案用戶在利用過程中的需求、偏好、行為等信息,獲取檔案用戶個性化的服務訴求,主動為其推送更加精準的檔案信息。如可利用對話式語言模型ChatGPT,對大規模檔案數據資源進行訓練,并構建檔案領域知識庫,以知識問答的形式提供智能化的檔案利用服務。[18]
人工智能技術的應用也會對檔案管理帶來諸多挑戰。全面理解人工智能在檔案管理中的應用風險,是促使其良好發展的先決條件。
制度風險指人工智能介入檔案管理的過程中,由于相關部門針對這一新型領域的制度制定和修改不及時、不到位而可能引發的風險。一方面,頂層設計尚不完善。當下檔案領域涉及人工智能的政策更側重于宏觀層面的方向引導,缺乏微觀層面具體性、針對性、配套性的實施辦法和操作指南,如人工智能在檔案領域中的應用范圍和準入條件、相關主體的職責分工和權屬規范、人工智能研發成果應用的評估體系等。人工智能的應用需要更為全面系統的戰略規劃進行引導和支持,而相關制度的缺失則成為掣肘。
另一方面,行業規范有待健全。人工智能在檔案管理中的運用需依賴大量的檔案數據作為語料投入,但當前缺乏體系化的檔案數據標準規范。現有國家標準較多局限于數據存儲、系統功能等方面,如《檔案數據硬磁盤離線存儲管理規范》(DA/T 75—2019)、《電子檔案管理系統基本功能規定》等[19],在檔案數據獲取、數據傳遞、數據利用、數據隱私保護等方面尚無明確規定,致使檔案數據化程度較低、數據質量參差不齊、數據共享利用受限,直接影響和限制了人工智能在檔案領域的應用成效。
技術風險指由于人工智能自身技術缺陷以及人類認知局限,在應用過程中可能產生技術濫用、技術誤用等現象,導致檔案數據泄漏、系統遭受攻擊等風險。一方面,內部技術缺陷而引起的風險。人工智能技術本身具有高度的專業性、復雜性和不可解釋性,猶如不透明的“黑箱”,除少數技術設計者外,多數外部人員無法理解算法做出智能決策的邏輯和結果,一旦算法結構具有缺陷、模型數據出現問題,則會對檔案安全造成威脅。如檔案鑒定環節涉及諸多復雜問題,算法無法完全量化,若由算法掌握檔案的“生殺大權”,可能會導致鑒定結果出現誤判、錯判。
另一方面,外部技術攻擊而引起的風險。檔案數據是人工智能應用于檔案領域的基礎和“燃料”,隨著各種智能感知終端、采集終端在檔案系統、檔案網站中的落地,大量非結構化的檔案數據在匯聚流轉過程中易被未授權人員或非法組織竊取、篡改,尤其是檔案用戶在利用檔案信息的過程中,個人行為軌跡、敏感信息等被不可避免地記錄在網絡中,極易造成檔案用戶隱私信息的泄露。此外,部分檔案部門的基礎設施存在老化現象,加之檔案服務開放共享的天然特質,一些不法分子可能會利用平臺漏洞以及病毒傳播、惡意代碼、智能技術等手段對檔案管理系統、人工智能模型、訓練數據集等進行非法攻擊、肆意刪除、違規使用,嚴重危害檔案信息安全和公共服務秩序。如2021 年11 月,美國執法機構的1.9TB監控錄像機密數據被黑客組織竊取,致使美國警方400 萬份檔案永久丟失,影響到大約17500 個案件。[20]
倫理風險是由于人工智能研發與應用中的諸多不確定因素,導致其應用于檔案管理的過程中,可能引起歧視偏見、公平破壞、人機矛盾等負面影響。一方面,算法歧視引發檔案用戶的話語流失。算法是人工智能應用于檔案管理的核心要素,但算法本身是人的產物,在算法設定和開發的過程中不可避免會存在設計者的主觀意愿,如因設計者的性別歧視、個人經歷、行為動機而忽視弱勢邊緣等特定群體的檔案需求;設計者的數據選擇、運用偏差等控制檔案用戶的信息推薦,這與檔案促進社會公平正義的價值理念相悖。由于算法的精準推薦機制,用戶個體只關注自身選擇和偏愛的檔案信息,長此以往,阻隔其他額外信息的傳播,檔案用戶被束縛于“信息繭房”“回音室”當中,容易導致用戶價值偏離、思想僵化、視角局限等問題。
另一方面,人機關系的“矛盾沖突”引發主體的認同危機。智能技術在推動檔案管理發展的同時也變革了其中的人機關系,人工智能的應用一定程度上加劇了檔案工作者、業務部門的職業危機。一部分檔案工作者對于人工智能技術產生的抵觸、恐慌、畏懼等情緒,認為其會取代自身職業;一部分則陷入“技術唯上”“技術決定論”的泥沼,期望通過人工智能技術來解決檔案管理中的一切問題。此外,截至2022 年底,在全國各級檔案主管部門和綜合檔案館共有專職人員中,研究生學歷僅占比10.5%,本科學歷占比達68.7%,大專及以下學歷占比20.8%,具有檔案學專業程度的僅占比18.12%。[21]現有的檔案人才隊伍專業程度和文化水平整體較低,尚處于技術弱勢和被動地位,這與人工智能所要求的技術素養和知識儲備不相匹配,難以保障人工智能在檔案領域的應用。
監管風險指在檔案業務管理活動中,相關行為主體缺乏對于人工智能技術的控制或調節而引發的風險。一方面,檔案主管部門監管力度不夠。目前,檔案領域雖然積極擁抱人工智能技術,但尚未意識到人工智能在應用過程中的合規性問題,面臨監管責任不明確、監管手段不能及、監管能力與監管要求不匹配等監管風險。若人工智能在檔案管理中使用不當,將進一步加劇其帶來的制度風險、技術風險、倫理風險等,進而弱化人工智能在檔案領域的應用成效。
另一方面,缺乏多元主體的協同監管。針對人工智能的監管不僅是檔案主管部門的責任,更是在人工智能設計研發、生產制造、服務使用等過程中各方主體都需應對的問題。[22]其中,技術企業是人工智能程序與算法的設計者,扮演著“吹哨人”的角色,但現階段缺乏一定的激勵機制,使得第三方監管組織參與和評估的積極性不足;公眾是人工智能研發成果的應用者和監管者,可幫助檔案主管部門發現人工智能產品存在的問題。但通過對智能檢索系統、智能查檔機等檔案領域已有的人工智能產品調研發現,較少產品開通了用戶滿意度評價、匿名意見反饋等功能入口,致使公眾參與人工智能監管的渠道缺失。
有效識別、管控、規避風險是提升人工智能應用效能的必然要求。為此,文章按照“制度先行—技術集成—倫理規約—監管防控”的路線,提出應對風險的防范策略。
完備的制度體系是檔案領域應用人工智能技術的基本前提,推進人工智能管理制度的構建能夠遏制人工智能所帶來的風險。第一,加強人工智能應用的頂層設計。自2019 年以來,國家層面針對人工智能技術已相繼發布《新一代人工智能治理原則——發展負責任的人工智能》《國家新一代人工智能標準體系建設指南》《生成式人工智能服務管理暫行辦法》等指引性文件,為人工智能應用提供治理框架和行動指南。檔案主管部門應以上述文件為指引,發揮“元治”角色,從前端性、全局性、系統性的視角,科學謀劃人工智能等新一代信息技術在檔案領域的應用規劃和行動計劃;從制度層面明確人工智能應用的權責分配、管理模式、安全保障、組織架構等,并將人工智能風險管理貫穿于檔案管理的全過程;積極支持企業、高校、科研院所等主體協同參與人工智能的前沿課題研究,鼓勵和引導人工智能在檔案領域的持續健康應用。
第二,健全檔案數據標準規范體系。一方面,構建包括檔案數據管理標準、技術標準、安全標準、隱私保護在內的標準體系,明確檔案數據管理的職責權限和組織架構,強化檔案數據質量控制和權益保障;另一方面,制定涵蓋檔案數據全生命周期的配套細則,確保其來源可靠、程序規范、要素合規,為推進人工智能在檔案領域的應用提供數據資源保障。如2022年,浙江省出臺的《浙江省公共數據條例》,從公共數據收集、歸集、存儲、加工、傳輸、共享、開放、利用等方面作出明確規定,促進了公共數據依法有序自由流動。[23]
人工智能不是一項自成體系的技術,其應用場景的深化需要與其他技術手段相互支撐,因此,加強區塊鏈、數字孿生等新一代信息技術的集成運用,構筑技術風險防御屏障是保障檔案安全的重要途徑。一是區塊鏈技術。可通過可信時間戳和非對稱加密技術,為檔案數據創建唯一標識符,防止其被篡改、損壞、盜取,確保在傳輸過程中的真實性和可靠性;通過智能合約和共識機制,控制檔案數據訪問權限,以節點對節點的形式加強數據的互聯互通和溯源追蹤;通過去中心化存儲,將檔案數據分散于多個節點并實現實時備份,提高檔案數據的安全性和穩定性。
二是數字孿生技術。數字孿生是以數字化方式創建物理實體的虛擬模型, 借助數據實現物理世界與數字世界的虛實映射。[24]利用數字孿生技術可將檔案館建筑、檔案實體、系統設備的狀態以可視化的形式呈現,根據實時數據感知、監測、溯源檔案館運行過程中面臨的不確定因素和風險狀況,從而提高檔案館的風險防御水平。如上海市靜安區運用數字孿生技術實現檔案庫房、館藏資源在數字空間中的映射,提高了數據積累、分析和挖掘能力,為后續人工智能的應用奠定基礎。[25]
第一,檔案工作者應堅持人本理念,秉承包容審慎的原則。“明確人工智能應先‘人工’再‘智能’,即智能技術在檔案工作的輔助性作用,人的‘智慧’始終占據主導地位”[26],避免由于過度依賴技術而導致檔案管理人員角色地位的邊緣化與削弱。同時,數智化的發展潮流也為檔案工作者提出新的要求,檔案工作者既要順勢而為,具備駕馭新技術的能力,密切關注外部技術環境的發展變化,提高自身數字素養;又要應勢而動,充分了解人工智能等新一代信息技術的應用風險及其負面效應,提升風險認知能力。
第二,推動算法設計的不斷優化。一方面,檔案部門應充分發揮主觀能動性,主動介入算法研發和設計的前端,將檔案專業理論、服務理念與算法設計高度融合,把公平、正義、平等等主流價值觀念嵌入算法應用的全過程,適時優化和完善算法模型,加強論證、測試與審核,以人的價值理性規約智能技術的歧視與偏見,提高算法決策的科學性;另一方面,進一步擴大算法模型的信息推薦范疇,增加更加多元化的信息推送內容,例如可采用逆向推薦思維,為檔案用戶提供可能“不感興趣”“應關注但沒有關注”的檔案信息,從而構建立體化的信息推送機制,避免由“信息繭房”效應帶來的認知窄化現象。
我國《新一代人工智能發展規劃》明確指出“建立健全公開透明的人工智能監管體系,實行設計問責和應用監督并重的雙層監管結構,實現對人工智能算法設計、產品開發和成果應用等的全流程監管。”[27]檔案領域針對人工智能應用的監管是多方聯動的動態過程,亟須構建覆蓋事前、事中、事后的全生命周期的協同監管機制,推動人工智能風險預警與化解。
在事前階段,檔案部門應加強人工智能技術的前瞻預防與約束引導,強化質量認證的準入監管,建立由業務部門、技術企業、第三方監管組織、專家等多方力量組成的監管小組,對人工智能設計、產品和系統的復雜性、風險性、可解釋性等進行安全評估,未達標或未通過安全評估的算法、產品或系統不能使用,將風險防患于未然。在事中階段,按照“誰使用誰負責,誰運行誰負責”的原則,明確監管主體必須遵守的原則和義務,重點監督和審查相關使用者應用人工智能系統或產品的合規性和合法性,強化組織內部風險管理的技術和安全保障,避免技術失控、技術濫用風險的發生。在事后階段,構建問責機制,整合分析在人工智能系統應用、算法應用、檔案數據使用過程中的現存問題,及時調整和優化監管措施、使用流程、評估體系等,實現人工智能應用風險的閉環控制,進而確保人工智能在檔案領域的應用成效。