陳會明 史愛麗 王寧 金文光
摘要:隨著深度學習技術的迅速發展,人工智能逐漸進入行業應用階段,也為檔案工作的智能化發展提供了契機,尤其是文本處理、信息抽取、模式識別、專家系統等技術在檔案工作中體現出廣闊的應用前景。文章以北京市市場監督管理局為案例,分析了其引入人工智能技術進行檔案智能挑選和智能鑒定劃控等工作取得的成果,并研究探索了人工智能技術在檔案審核和音視頻檔案管理中的應用思路,最后對人工智能在檔案領域中的挑戰和對策進行了思考。
關鍵詞:人工智能;檔案;深度學習;模式識別;自然語言處理
分類號:G271
近年來,人工智能技術的發展取得了較大的突破,尤其是在大量數據的推動下,深度學習技術日益成熟,在醫療、交通、教育、企業管理等多個領域呈現出良好的應用態勢,“人工智能+”在多個行業逐漸落地。世界主要發達國家正在把發展人工智能技術作為提升國家核心科技競爭力的關鍵目標,將人工智能提到前所未有的戰略高度。人工智能呈現出的跨界融合、人機協同等特征,與產業發展的基礎層、技術層和應用層相互配合、相互促進,將成為今后人工智能與產業發展融合的主要方向[1]。人工智能技術在檔案行業中的應用也正在不斷突破發展,“大”數據成為數字時代檔案資源的顯著特征,為人工智能技術提供了充分的數據儲備,使得模式識別、文本處理、信息抽取、專家系統等技術在檔案智能管理中能夠發揮重要的作用。經過不斷迭代,人工智能技術的應用將從很大程度上提高檔案管理工作的效率,節省人力物力資源,提升管理和服務質量,并適應檔案數據化發展的趨勢,推動檔案工作的智能化變革。而在未來發展過程中,也要著眼于人工智能技術應用的風險控制路徑和人機協作與融合發展問題,以取得更高的效益和提供良好的人機環境。
一、人工智能與深度學習
人工智能是通過人類設定相應的程序并操作,使計算機可以模擬人類思維過程與智能行為的技術,是計算機科學發展到一定階段衍生出來的產物[2]。經過半個多世紀的坎坷發展歷程,近年來迎來新的發展曙光,尤其是云計算和大數據技術的巨大發展,為人工智能的突破提供了強大的計算平臺和充實的數據資源。在這一過程中,最顯著的便是深度學習的突破。深度學習技術在機器學習技術的基礎上發展而來,依托更多的數據資源和更高級的算法,實現更精確的學習輸出和效率,在自然語言理解、計算機視覺技術等學習中具有突出表現。機器學習和深度學習的本質是從數據中尋找規律的過程,通過給定的摘要信息或數據對尋找規律,并設計出算法和模型,應用于解決預測問題、分類分析、聚類分析等實踐問題。
在檔案工作中最常用到的人工智能和深度學習技術主要包括文本處理技術、信息抽取技術、模式識別技術、專家系統等關鍵技術成果。(詳見表1)
二、北京市市場監督管理局的檔案智能化應用與探索
企業登記檔案是市場監督管理機關依法對企業法人登記注冊、監督管理過程中形成的具有保存價值的文字、圖表、聲像等形式的歷史記錄,它們對于規范市場主體行為、保障企業合法權益、促進社會信用體系建設具有十分重要的意義。北京市市場監督管理局近幾年將人工智能技術和思維引入局內檔案的管理工作中,經過多次迭代,在檔案智能挑選、檔案智能鑒定劃控方面取得了一定的實踐應用成果,同時不斷探究智能音視頻檔案管理和智能審核等功能實現方案,是人工智能在檔案行業的應用典型。
1.智能檔案精準檢索

從內容而言,企業登記檔案包含了對企業法人登記注冊和監督管理過程中形成的公司章程、驗資報告、財務審計報告、法人承諾書、企業法人和股東的身份證明和聯系方式等數十種材料。但是在檔案的查詢利用過程中,用戶未必要用到一份企業登記檔案中的全部材料,可能只需要檢索和利用其中一項材料或者一頁內容、一條數據,那么如何在短時間內在體量龐大的數十種材料中定位到用戶想要利用的目標性內容,是目前企業登記檔案利用服務中迫切需要解決的問題之一。
針對這一需求,北京市市場監督管理局引入人工智能技術中的圖像識別技術和信息抽取技術等,針對檔案利用過程中無法直接查找定位身份證明文件等精細化利用問題,研發了檔案圖文智能定位與精細化檢索工具,實現了對存量數字化圖像內容的批量智能自動識別預處理和精確查找定位,目前部分類型的檔案智能精確檢索率已經超過90%,在很大程度上提升了檔案利用效率,提高了用戶滿意度。
2.智能檔案劃控鑒定
檔案開放是各級各類檔案館和組織機構開展檔案利用服務的主要形式,館藏檔案在開放前,都必須要進行劃控鑒定。檔案劃控鑒定是檔案館館藏檔案達到開放年限后經過組織鑒定審查、劃控、審核、審批,向社會開放的過程[5]。
北京市市場監督管理局的企業登記檔案具有利用率高、共享性強的特點。企業登記檔案的利用采用頁面級安全控制,但部分早期館藏沒有進行檔案頁面內容的公開屬性鑒定,且不同歷史時期檔案內容公開屬性的鑒定標準有所不同,導致在檔案共享利用過程中存在檔案信息泄露等安全隱患。面對高達數億頁的海量檔案,原來只能根據查詢要求進行人工鑒定。針對這一情況,北京市市場監督管理局采用檔案圖像識別和內容識別等人工智能技術,結合專家系統的應用,研發了某些類型檔案的頁面公開級別智能鑒定工具。該工具在企業登記檔案大數據的基礎上,通過大量檔案圖像數據樣本學習訓練出可靠的算法模型,首先保證海量圖像內容的識別精度,然后再按照現有的鑒定標準,采用批量智能識別處理的模式對存量檔案圖像頁面的公開級別進行全自動鑒定與校核處理,有效消除了檔案共享利用過程中的檔案信息泄露等安全隱患,促進檔案安全體系建設,同時降低了成本、提高了鑒定效率,有效促進了檔案管理工作方式的創新。
3.智能檔案審核、音視頻檔案管理
在電子文件增量迅速擴大的背景下,在線電子化歸檔成為企業登記檔案中最主要的歸檔方式之一,需要提高電子檔案的數據質量、歸檔效率和查詢時效性。針對現階段在線電子歸檔的質量問題,北京市市場監督管理局發現電子化檔案歸檔審核難度大、效率低,以及檔案查詢利用的時效性低等,因而研究采用檔案圖像內容識別等人工智能相關技術,正在設計研發智能化在線歸檔的處理工具,實現對在線歸檔的原生電子文件圖文質量進行智能化的自動批量校核,包括圖像清晰度、內容完整性和規范性等方面的質量檢查,在確保企業登記檔案大數據質量的同時,有助于提高電子文件在線歸檔效率及查詢時效性。
音視頻檔案也包含有大量管理性和業務性價值信息,但是大量音視頻檔案并不便于查詢利用,例如行政執法等多媒體檔案文件片段多、內容不連貫無規律,利用十分不便。對此,北京市市場監督管理局嘗試研究采納語音識別技術、計算機視覺技術等,探索以視、音頻信息服務為主體的多媒體內容分析處理等智能化信息處理工具,研究對行政執法過程的視頻和音頻文件進行自動分類管理和智能檢索利用的工作方法,以提高音視頻檔案的利用率,同時最大程度地對其中有價值的數據信息進行挖掘和分析。
北京市市場監督管理局的檔案管理現實需求構成了人工智能技術應用的驅動力,并將人工智能的深度學習技術真正納入智能檔案管理的實踐層面,說明檔案領域的人工智能也已經進入實踐應用階段,并且在未來檔案行業專家和技術應用相結合的過程中,還將更有可為。
三、人工智能在檔案行業應用的挑戰與對策
將人工智能應用于檔案管理工作中具有重要的價值。首先,效率和成本方面,能夠大大提高檔案審核、鑒別和檢索服務的效率,在準確率方面也超出人工管理的平均水平,同時能夠節省大量的人力資源,以二十四小時工作的機器人代替人類完成大量程序性操作。此外,伴隨著大數據時代的到來,檔案管理的“數據化”趨勢也將不可逆轉,單憑人腦來分析、處理和挖掘大量檔案數據中的信息幾乎不現實,人工智能技術的應用是必然的選擇。而將人工智能技術應用到檔案行業中,尚處于不斷摸索的階段,同樣面臨著諸多的風險和挑戰,需要合理規劃和應對。
1.人工智能應用的風險控制
人工智能技術雖然已經大規模應用,但是整體上仍處于“弱人工智能”階段,是在一瘸一拐的摸索中前行,其自身技術革新的局限性也必然會導致在檔案行業中應用的風險。
一方面,人工智能的深度學習技術是建立在大量數據儲備基礎上的,為了提高操作的準確率和效率,檔案應用人工智能技術必然需要大量的用戶數據進行機器學習,以提供更加精準和便捷的用戶服務,因而存在用戶信息安全與隱私保護方面的風險[6]。尤其是隨著人工智能技術的大規模應用,機器將有越來越多的機會接觸數據,并且是龐大的數據體,那么數據泄露等風險將成為重要性問題。另一方面,人工智能技術是在學習人腦知識和人腦思維的基礎上進行應用,機器對于數據和信息的識別和理解能力也具有一定的局限性,技術的不成熟、檔案專家系統的不完善等要素,都會成為人工智能應用水平的重要影響因素。因而在實踐應用過程中和人類一樣會出現操作失誤,甚至會犯通常情況下人類并不會犯的錯誤,易導致檔案內容誤讀、頁面安全級別鑒定錯誤等工作風險。
對此,有必要在人工智能技術引入檔案工作實踐的同時,充分考慮到其潛在的風險問題,采取風險控制措施。針對人工智能應用存在的數據泄露和隱私安全風險問題,需要建立有效的用戶信息安全保護制度,在信息授權、信息傳遞等方面明確機器學習的權限,有效規避在人工智能應用過程中潛在的信息泄露風險。在人工智能管理者、技術人員和用戶之間建立起合理的利用觀念,在遵守倫理道德的前提下利用人工智能[7]。同時,面對機器可能造成的失誤,在應用測試階段對人工智能的失誤率進行有效評估,不斷優化目標函數,并保證在多次迭代達到可控風險的階段才能真正納入實踐應用,實現人工智能應用的損失控制,在必要時采用人工輔助的手段進行風險保留。
2.人機協作融合的發展走向
將人工智能技術應用到檔案工作中,雖然很大程度上是要實現解放人類勞動力,提升工作效率的目標,但并不意味著人工智能要替代人類工作,當然也不可能替代人類工作。相反,技術的局限性和技術為人服務的本質,要求人和機器更好地協作,人機協作和融合才是人工智能行業應用的最佳圖景。
人工智能技術在檔案行業的應用過程中,必然也要解決人工智能技術迭代和革新過程中的人工參與和人機并存問題。首先,作為設計者和管理者的角色,檔案工作者和技術人員應該不斷增強自身對檔案信息資源的理解能力,增強對用戶需求理解的能力,并將這種能力盡可能應用到機器學習和迭代的設計流程中,同時盡可能多地將功能需求、專家系統和糾錯方案等要素納入機器學習過程,對其安全性、可靠性和準確性等進行不斷改進,使得機器在學習檔案業務的同時也不斷學習人類思維,促進人工智能技術的成功應用。其次,人要給機器學習檔案工作創造好的條件和環境,此時人將作為協助者的角色,在功能要求、行業知識、檔案數據等關鍵要素設定完備的前提下,在機器學習和運行的過程中,盡可能少地干擾其學習和工作過程,給予其充分自我學習和解決問題的發展空間,充分發揮機器在某些特定工作環境中的主導作用。
人工智能不僅是一種技術,更是一種思維。目前國內外人工智能技術本身及各行業應用的發展速度雖然很快,但其在檔案工作中的應用還在起步階段,仍然存在技術發展欠缺、管理理念落后、資源挖掘不足等問題,可謂機遇與挑戰并存。在知識融合和信息大爆炸的時代,相對滯后的檔案人工智能行業應用需要主動迎接新技術新思想,結合自身的數據資源優勢和行業專家水平,將科學技術與檔案人文精神相結合,不斷推進人工智能在檔案領域的更深層次和高水平的發展。
*本文系國家檔案局“人工智能技術在工商檔案管理中的應用研究”(課題編號:2018-X-23)及北京市檔案局“人工智能技術在工商檔案管理中的應用研究”(課題編號:2019- 06)科研項目階段性研究成果。
注釋及參考文獻
[1]宋之杰,肖寒.加強人工智能和產業發展融合[N].河北日報,2019-02-13(7).
[2]陳映村,程鵬飛.人工智能的發展現狀及應用[J].信息與電腦,2019(2):136.
[3]人工智能/騰訊研究院.人工智能[M].北京:中國人民大學出版社,2017:24.
[4]信息抽取技術及前景淺析.[EB/ OL].[2018-03-09].http://www.docin.com/ p-70263324.html.
[5]張師師.如何做好檔案開放中的劃控鑒定工作[J].黑龍江檔案,2018(4):74.
[6][7]楊九龍,陽玉堃,許碧涵.人工智能在圖書館應用的理論邏輯、現實困境與路徑展望[J].圖書情報工作,2019(4):35+36.