999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI賦能:探索人工智能在檔案開放審核中的應用

2024-07-31 00:00:00于海娟
檔案天地 2024年7期

2023年,一款能聊天、會作詩的程序ChatGPT橫空出世,隨后一系列大語言模型產品如谷歌bard及國內百度文心一言、復旦大學Moss相繼推向市場,將人工智能(AI)技術推向了新一輪高潮,成為社會上最“火”的技術話題。人工智能呈現的深度學習、跨界融合、人機協同等新特征,使其在眾多領域應用中取得了突破性進展,為經濟社會發展注入了新動能。同時,AI的應用場景也越來越多,逐步走入老百姓的日常生活,如隨處可見的人臉識別、翻譯助手、服務機器人等。目前,我國政府正處于數字化轉型的關鍵期,檔案部門也在積極探索和尋找利用人工智能、大數據等新一代信息技術推進檔案管理模式變革的新途徑和新方法。人工智能應用于檔案管理的落地實踐過程中,當前最受關注且已真正實現成果轉換的是賦能檔案開放審核。

一、人工智能審核的現實依據

檔案開放審核工作量大,與現有人力資源矛盾突出。檔案開放審核是檔案開放利用的基礎,也是檔案工作中的難點問題,隨著新《檔案法》《國家檔案館檔案開放辦法》的實施,檔案開放審核越來越受重視。然而,目前檔案開放審核工作大部分停留在純人工審核階段,需要大量專業工作人員參與。依靠人工逐字逐句審核、判斷,工作量大,工作效率低,制約了檔案開放的進程。傳統的檔案開放審核模式已難以適應海量館藏檔案開放審核工作要求,急需技術變革,將開放審核人員從重復、繁重的腦力判斷工作中解放出來。

2019年,國家檔案局發布的《國家檔案局科技項目立項選題指南》中首次出現“人工智能”一詞。隨后幾年,AI+檔案應用研究一直出現在《選題指南》中。2022年和2023年度的《選題指南》更是將“AI+檔案開放審核”列為重點課題項目。在國家檔案局剛剛發布的2024年選題指南中,“檔案解密與開放的技術創新”“人工智能大模型應用”也是熱點議題。

加大開放力度已是檔案館的現實趨勢,各地檔案館都在積極制定開放審核辦法或引入技術手段加以落實,以更好地處理過程中的協同、權責優先等問題。人工智能檔案開放審核作為AI檔案應用場景落地的重要突破口,目前研發已經取得階段性成果,產生很多優秀案例。

自2019年以來,部分檔案館陸續通過課題研究結合試點應用的方式,開展了基于人工智能的檔案開放審核研究和應用實踐。比如,青島市檔案館“人工智能技術在檔案開放劃控中的應用”研究、江蘇省檔案館“基于語義分析的檔案館劃控開放智能鑒定的研究”、浙江省檔案館“基于NLP技術的檔案智能輔助開放審核研究”、安徽省檔案館“人工智能技術在檔案劃控上的應用研究”、福建省檔案館開展“基于數字檔案的人工智能檔案開放審核系統實現研究”、上海靜安區檔案館“AI+檔案開放審核關鍵技術研究及實踐應用”等。

二、人工智能審核實現路徑

通過文獻研究和案例分析不難發現,目前各單位已經研究建立的檔案開放審核模型都是基于本館的少數檔案數據訓練得出,能否適用于所有檔案尚有待驗證。實際上,目前市場上還沒有出現具有普適性、可以推廣應用的檔案智能開放審核系統或工具。但目前已有的實踐案例足以證明人工智能技術在我國檔案工作中的應用前景廣闊,也為我們探索實現人工智能審核提供了寶貴的實戰經驗。

實現人工智能審核的整體思路:首先使用通用OCR技術提取檔案全文,然后利用自然語言處理的中文分詞、詞性標注、關鍵詞提取、關鍵詞相似度分析、自動分類等技術,建立一種基于規則和語義驅動的開放審核模型,并且通過深度學習算法不斷對其進行訓練和學習,從而優化開放審核模型,協助檔案鑒定人員開展檔案開放審核工作,提出開放審核建議。其中涉及的一些關鍵技術和準備工作如下:

(一)文檔預處理

涉密文件篩查。按照有關規定,涉密文件不開放,首先要對預開放文檔進行涉密篩查,運用神經網絡、自然語言處理、深度學習等AI技術,智能識別文本中的密級標識,將檢出的涉密文件從開放審核隊列中剔除。

OCR識別。OCR是一種能夠將紙質文檔、圖片等中文、符號、數字等信息轉換為計算機可以識別處理的電子文本的技術,掃描的數字化副本經OCR識別后生成文本信息,為檔案開放審核做好數據準備。識別檔案文本時面臨著手寫體識別的難題,特別是大批20世紀五六十年代的手寫體檔案、歷史檔案,掃描圖像識別率很低。但是,隨著AI技術的發展,這一問題也并非不能解決,可以通過優化OCR的算法和使用更高精度的OCR引擎來提高識別率,并對極少量無法識別的數據采取手工標注的方式來進行補充。目前,中國第一歷史檔案館開發的滿文圖像識別軟件、科大訊飛OCR識別技術、中科院自動化研究所的手寫字掃描識別技術,能夠較準確地識別手寫字體。

文檔分類。從自然語言處理領域來看,檔案開放審核大致屬于“文本分類”問題,通過對文本與圖像內容進行智能分庫、敏感詞標注,輔助開放審核系統快速判斷文檔類型并與審核規則匹配,進一步提升開放審核效率。

(二)構建規則庫

規則庫基于本館館藏的敏感詞庫,如“會議記錄”“統計報表”“簡歷表”等;基于相關法律法規、專家經驗而積累的規則知識,如涉及個人隱私、科技科研、外事、非正式文件等不開放的情況,為下一步根據規則庫確定技術實現方法、配置規則與實施審核奠定了規則基礎。

福建省檔案館在審核中收集整理了近600個敏感詞,并聯動省公安廳網安部門吸收了部分當前網絡敏感、關鍵字詞,設計制定了開放審核檔案關鍵詞表,建立了檔案開放審核動態管理敏感詞庫;安徽省檔案館在實踐中構建了包括2000多個敏感詞的檔案劃控敏感詞庫、5000多條知識點的檔案劃控知識庫和2000多條規則的檔案劃控規則庫。

(三)優化開放審核模型

“人工”與“智能”到底是什么關系?關于這點最經典的回答是“無人工不智能”,這是因為在很多人工智能項目實施過程中往往需要花費大量的時間和精力完成對用于訓練AI數據的處理。智能檔案開放審核系統的成熟度取決于開放審核模型的成熟度,在開放審核過程中需根據人工審核反饋結果不斷優化模型,特別是針對誤差樣本進行強化訓練和迭代,不斷提高開放審核準確率。

總之,引入人工智能技術必然能極大地提升檔案開放審核工作效率,但在當前環境下仍然存在一些問題,如人工智能技術尚不成熟、沒有可套用的通用算法模型、開放審核模型開發難度大、投入成本高等,我們還需繼續強化智能審核技術的學習、調研,探索以合理適當的方式引入人工智能技術,推動館藏檔案的科學有序開放。

展望未來,隨著人工智能技術在文本乃至圖像、音視頻處理等方面的發展,將在智能庫房管理、資源建設、服務利用等方面,與檔案工作有更多相互結合的應用場景。這些都需要繼續深入探索研究,以新技術賦能檔案工作,充分發揮檔案數據資源要素的優勢,持續推動檔案工作服務中心大局和社會民生。

作者單位:河北省檔案館(河北省地方志編纂委員會辦公室)

主站蜘蛛池模板: 日韩AV无码免费一二三区| 在线免费看片a| 久久天天躁狠狠躁夜夜2020一| 欧美在线伊人| 91丝袜在线观看| 国产熟女一级毛片| 欧美不卡在线视频| 免费无码在线观看| 亚洲综合二区| 福利在线不卡| 第九色区aⅴ天堂久久香| 中文字幕无码av专区久久| 亚洲手机在线| 亚洲 成人国产| 免费看的一级毛片| www.91在线播放| 色综合色国产热无码一| 国产香蕉在线| 2024av在线无码中文最新| 日韩国产亚洲一区二区在线观看| 毛片免费观看视频| 在线国产毛片| 自拍偷拍欧美日韩| 成人免费午间影院在线观看| 欧美日韩在线成人| a级毛片免费网站| 小13箩利洗澡无码视频免费网站| 国产乱子伦手机在线| 99久久精彩视频| 日本少妇又色又爽又高潮| 亚洲无码视频喷水| 国产欧美日韩另类精彩视频| 婷婷亚洲综合五月天在线| 亚洲一级色| 国产xx在线观看| 97国产精品视频自在拍| 亚洲乱码在线播放| 国产欧美日韩综合在线第一| 欧美综合一区二区三区| 色悠久久久久久久综合网伊人| 欧美精品成人一区二区视频一| 亚洲精品国偷自产在线91正片| 日韩人妻少妇一区二区| 国产福利拍拍拍| 99中文字幕亚洲一区二区| 日本午夜在线视频| 婷婷五月在线| 欧美精品亚洲精品日韩专| 美女被狂躁www在线观看| 欧美性猛交一区二区三区| 女人18毛片久久| 日韩无码视频网站| 国产另类视频| 婷婷丁香色| 亚洲码在线中文在线观看| 国产成人无码Av在线播放无广告| 91久久精品国产| 国产在线视频导航| 凹凸国产分类在线观看| 免费无码网站| 88国产经典欧美一区二区三区| 色网站在线视频| 精品無碼一區在線觀看 | 久久视精品| 永久在线播放| 日韩无码精品人妻| 色国产视频| 538精品在线观看| 欧美另类第一页| 中文字幕日韩久久综合影院| 狠狠色成人综合首页| 色亚洲激情综合精品无码视频| 亚洲中文无码h在线观看| 广东一级毛片| a网站在线观看| 伊人无码视屏| 99精品国产自在现线观看| 黄色网页在线播放| 国产精品亚洲天堂| 国产国拍精品视频免费看| 不卡视频国产| 国产一在线|