
[摘要]人工智能已經成為“互聯網+”時代下中國發展戰略之一,對中國各行各業產生深遠影響,檔案行業也不例外。論文概述了人工智能的發展歷程和代表性技術,認為人工智能在檔案工作中的應用主要包括網絡檔案信息資源智能收集、數字檔案信息資源智能分類與檢索、智能化檔案價值鑒定、智能化檔案安全管理和智能化檔案提供利用服務。在實際應用中人工智能還存在一些問題,需要深入研究并加以解決。
[關鍵詞]人工智能檔案工作智能化
[分類號]G270.7
The Application of Artificial Intelligence in Archival Work
Sha Zhou
(Management School of Anhui University,Hefei,Anhui,230601)
Abstract: Artificial intelligence has become one of the development strategies in China under the"Internet +" era. It will have far-reaching impact on all walks of life in China, and the archives industry is no exception. This paper summarizes the development process and representative technology of artificial intelligence, and points out that the application of artificial intelligence in archives work mainly includes intelligent collection of network archives information resources, intelligent classification and retrieval of digital archives information resources, intelligent archives value appraisal, intelligent archives security management and intelligent archives utilization services. However, there are still some problems in the practical application of artificial intelligence, which need to be studied and solved.
Keywords: Artificial Intelligence; Archives Work; Intelligent
2017年7月,國務院印發《新一代人工智能發展規劃》,指出到2030年我國的人工智能理論、技術與應用總體達到世界領先水平,成為世界主要人工智能創新中心[1]。因此,研究人工智能在檔案工作中的應用對實現“互聯網+檔案”的戰略目標有著十分重大的意義。
1人工智能概述
1.1人工智能的“前世今生”
人工智能一詞最早可以追溯到20世紀50年代在美國Dartmouth學院召開的“Dartmouth會議”,在會上Minsky等科學家將人工智能定義為用機器模擬人類智能的一門科學,他們也因此被稱為人工智能之父[2]。此后,人工智能的發展可謂跌宕起伏,總體上可以分為三個階段。第一階段是“推理期”,當時人們認為邏輯推理能力是機器具有智能的重要成分;第二階段是“知識期”,即認為知識是有智能的機器所必備的;第三階段是“學習期”,人工智能開始從數據中學習知識,通用的學習方法在許多商業應用中顯示出無可替代的價值[3]。
1.2人工智能的代表技術
人工智能的代表技術主要有自然語言處理、模式識別、專家系統、機器學習以及分布式人工智能。自然語言處理是用計算機對人類的口頭和書面形式的自然語言進行加工處理和應用的技術[4]。自然語言處理的應用包括機器翻譯、信息檢索和社會計算等[5]。模式識別研究的是使一個計算機系統具有模擬人類通過感官接受外界信息、識別和理解周圍環境的感知能力[6]。模式識別的應用包括文字識別、語音識別以及人臉識別等。專家系統是一個智能計算機程序系統,其內部含有大量的某個領域專家水平的知識與經驗,能夠利用人類專家的知識和解決問題的方法來處理該領域問題[7]。機器學習是研究機器模擬人類的學習活動、獲取知識和技能的理論和方法,以改善系統性能的學科[8]。分布式人工智能研究的是由多個問題求解實體組成的系統中,各實體間交互作用、知識和動作如何分布與協作,從而提高系統的整體性能[9]。Agent(艾真體)是一種具有智能的實體,它通過傳感器感知環境并通過執行器對所處的環境產生影響[10]。
2人工智能在檔案工作中的應用
2.1網絡檔案信息資源智能收集
網絡檔案信息資源是以數字化形式記錄,以多媒體形式表達,分布式存儲在網絡計算機磁介質、光介質以及各類通信介質上,并通過計算機網絡通信方式進行傳遞和再現出來的檔案信息內容的集合[11]。在“互聯網+”時代,網絡檔案信息資源的數量不斷增加,種類也越來越豐富。因此,在檔案工作中可以應用各種智能Agent對海量的網絡檔案信息資源進行搜索、分析和過濾,從而達到智能收集所需網絡檔案信息資源的目的。智能Agent有很多種結構,包括基于模型的反射Agent、基于目標的Agent以及學習Agent等[12]。智能Agent具有非常強的自主性和交互性,它可以根據使用者制定的收集規則主動地收集所需信息,并為使用者提供相應的服務。每種智能Agent的實際功能和所要達到的目標是不同的,比如百度和谷歌所使用的智能爬蟲就是智能Agent的一種,它的功能就是將定向或者非定向的網頁抓取下來進行分析并得到格式化的數據。在實際檔案工作中,檔案工作者可以根據不同的收集需要選擇不同的智能Agent。
2.2數字檔案信息資源智能分類與檢索
數字檔案信息資源一般包括文本類數字檔案信息資源和多媒體類數字檔案信息資源。在檔案工作中可以應用自然語言處理、模式識別和機器學習的相關技術對數字檔案信息資源進行智能分類。文本分類是自然語言處理技術的一種,它根據一個已經被標注的訓練文本樣本集合,找到文本屬性和文本類別之間的關系模型,然后利用這種學習得到的關系模型對新的文本進行類別判斷[13]。文本分類可以實現對文本類數字檔案信息資源的智能分類:一方面,它可以通過檔案工作者預先設定的檔案分類法對數據庫中的文本類數字檔案信息資源進行智能分類;另一方面,它也可以對存在于網頁中的文本類數字檔案信息資源進行智能分類。此外,檔案工作者還可以采用基于圖像識別、語音識別和視頻識別等技術的智能分類技術對多媒體類數字檔案信息資源進行智能識別和分類。
由于數字檔案信息資源數量和種類的急劇增多,導致傳統信息檢索的弊端越來越明顯,特別是在檢索效率方面已經無法達到檔案工作者的要求。因此,在檔案工作中可以應用智能檢索技術來提高檢索效率。智能檢索運用了自然語言處理和模式識別等多種人工智能技術,它和傳統信息檢索最大的區別在于它可以檢出與用戶所輸入的檢索內容關系最為密切的結果,并且可以對這些結果進行相關度排序,從而大幅度縮短用戶獲取所需信息的時間。智能檢索不僅可以檢索文本信息,也可以檢索圖像、聲音和視頻等多媒體信息,它在多媒體類數字檔案信息資源越來越多的“互聯網+”時代已經發揮出傳統信息檢索無法比擬的能力。
2.3智能化檔案價值鑒定
檔案價值鑒定工作是一項非常復雜的系統工程,它直接決定了檔案的“生”或“死”,因此在鑒定過程中要注意各種規則和方法的綜合運用。建立檔案價值鑒定專家系統可以輔助檔案工作者開展鑒定工作,特別是對那些難以確定保存價值的文件,檔案價值鑒定專家系統不僅能夠像人類檔案價值鑒定專家一樣給出相對權威的建議,而且不受任何時間地點的限制。檔案價值鑒定專家系統的建立一般有三個步驟:設計初始知識庫是將人類檔案價值鑒定專家的知識(鑒定規則和方法等)獲取到知識庫中,并將這些知識轉化為計算機可以理解的形式;開發并實驗原型系統是在設計好初始知識庫之后,用一些足夠簡單的檔案價值鑒定任務來訓練整個系統;改進與完善知識庫則是通過檔案價值鑒定的實踐反復對知識庫和推理規則進行改進,從而歸納出更加完善的結果。一個基本的檔案價值鑒定專家系統模型如圖1所示,將檔案價值鑒定專家的知識存入知識庫之后,檔案工作者通過接口向專家系統提出鑒定問題,專家系統經過推理再通過接口將結果反饋給檔案工作者,其中解釋器負責對系統行為進行解釋。
2.4智能化檔案安全管理
檔案安全是檔案工作的底線,是檔案事業的根基[14]。檔案工作者可以將指紋識別、人臉識別以及虹膜識別等智能識別技術用于檔案庫房的門禁系統中,這樣既可以保證未經許可的人員無法擅自進入庫房,也使得檔案工作者進入庫房更加便捷。智能監控是第三代視頻監控技術,它可以通過對原始視頻圖像經過背景建模、目標檢測與識別、目標跟蹤等一系列算法分析,進而分析其中的目標行為以及事件[15]。智能監控系統最大的優點在于能自動進行實時分析報警,能在威脅發生之前提醒工作人員注意防范,因此檔案部門采用智能監控系統可以進一步提高檔案庫房的安全程度。此外,在檔案庫房中還可以將智能控制技術應用在恒溫恒濕系統中,從而達到自動控制環境溫濕度的目的。
目前,在數字檔案信息安全保護方面可以應用的人工智能產品主要是智能防火墻和智能入侵檢測系統。智能防火墻運用了多種人工智能技術來識別和決定訪問控制,在大多數情況下可以自主地完成病毒攔截和阻止網絡攻擊等任務,還可以提供強大的身份認證和審計管理等功能。傳統的入侵檢測系統雖然可以通過實時監控檢測到入侵現象并發出警告,但缺點是效率低且誤報率高。智能入侵檢測系統不僅可以更加快速、準確地識別入侵現象,還能夠自動追擊攻擊者并收集攻擊數據。因此,在檔案工作中使用智能防火墻和智能入侵檢測系統能從多個方面來保護數字檔案的信息安全。
2.5智能化檔案提供利用服務
檔案提供利用工作是檔案工作的中心任務,是檔案工作為社會主義事業服務的直接體現[16]。傳統的檔案提供利用服務方式一般包括閱覽服務、展覽服務和咨詢服務等,而新型的檔案提供利用服務方式主要是網站服務和新媒體服務。2016年4月,工信部、國家發改委和財政部印發了《機器人產業發展規劃(2016—2020年)》,其中指出要推進重大標志性產品率先突破,并將智能型公共服務機器人列為十大標志性產品之一[17]。未來,檔案工作者可以將智能型公共服務機器人應用在傳統的閱覽服務、展覽服務和咨詢服務中,為用戶提供各種智能化服務。比如在閱覽服務中給用戶定時提供茶水,在展覽服務中為用戶提供指引和講解,在咨詢服務中更加快速地幫用戶解答相關問題等等。由于新型的檔案提供利用服務方式是通過網絡進行的,因此用戶量巨大是其最明顯的特點,尤其是“兩微一端”的飛速發展,直接使得檔案利用者的數量呈幾何級數增長。檔案工作者可以應用數據挖掘技術對利用者的行為進行深度挖掘,以便及時準確地掌握利用者的個性化信息需求,從而真正地實現“以用戶為中心”。
3人工智能在檔案工作中應用的問題及對策
3.1人工智能與其它技術綜合應用
在“互聯網+”時代,移動互聯網、云計算、大數據以及物聯網等技術在檔案工作中的應用并不是孤立,而是彼此相互促進。同樣,人工智能技術的應用也離不開云計算和大數據等技術的支持。但目前大多數檔案部門并沒有許多云計算和大數據技術的應用經驗,應用物聯網技術對檔案實體進行管理的檔案部門也不是很多。在檔案信息化程度參差不齊的現狀下,盲目地應用人工智能技術不僅不利于檔案工作智能化的發展,而且在一定程度上可能適得其反。因此,檔案部門在應用人工智能技術時應注意其與云計算和大數據等技術的深度結合,做到均衡發展、綜合應用。
3.2人工智能的應用成本
由于人工智能的研究方向比較多,導致其技術應用成本大小不一。特別是在目前的實際檔案工作中,如果檔案部門在檔案工作的各個環節都應用人工智能技術,其成本必然大大增加。比如開發各種功能的智能Agent和檔案價值鑒定專家系統、安裝智能防火墻和智能入侵檢測系統以及購買智能機器人等等,都需要大量的資金投入。其中開發檔案價值鑒定專家系統以及購買智能機器人的成本可能會很高,而目前一般的檔案部門顯然無法承受如此巨大的因技術升級所帶來的成本問題。因此,檔案部門要想全面應用人工智能技術,降低其應用成本是十分必要的。
3.3人工智能的應用安全性
在檔案工作中應用人工智能技術的目標就是更多地減少人工干預,使各項工作更加智能化。然而,在檔案工作實際中許多環節都涉及到安全性問題,如果不能保證人工智能本身的應用安全性,那么所謂的智能化也只能是紙上談兵。目前,人工智能最大的安全性問題在于其最終是否能夠超越人類智能。現階段這種可能性并不大,檔案工作使用人工智能技術還面臨著技術不可控進化以及被黑客控制的風險。因此,檔案部門在應用各種人工智能技術之前應充分了解其設計思路及具體功能,做好一定的安全評估和管理工作。
3.4檔案工作者與人工智能
檔案工作者難以適應人工智能主要表現在兩個方面:一是檔案工作者對人工智能的抵觸;二是檔案工作者自身的素質不高,無法靈活運用各種人工智能技術。任何一種新技術在檔案工作中應用的初期都會使檔案工作者產生一定的抵觸情緒,特別像人工智能這樣的技術,可以應用到檔案工作的方方面面,勢會顛覆檔案工作者的原始認知。因此,檔案部門可以通過一定的教育方式讓檔案工作者明白人工智能的優點,從而改變他們的觀念。此外,在應用每種人工智能技術之前,都應安排一定的技術人員對檔案工作者進行全面的培訓,從而保證他們可以靈活地運用這些人工智能技術。
4結語
人工智能在檔案工作中的應用非常廣泛,包括網絡檔案信息資源智能收集、數字檔案信息資源智能分類與檢索、智能化檔案價值鑒定、智能化檔案安全管理和智能化檔案提供利用服務等。但目前人工智能在檔案工作實際中的應用還存在著與其它技術綜合應用的問題、成本問題、安全性問題和檔案工作者難以適應等問題。從國務院印發實施的《新一代人工智能發展規劃》中可以看出,人工智能的各項技術將會愈加成熟。因此,“互聯網+”時代下檔案工作者要緊緊抓住這次契機,通過不斷的探索和研究,將人工智能應用到檔案工作實際中,使檔案工作真正地實現智能化。
參考文獻
[1]國務院.國務院關于印發新一代人工智能發展規劃的通知[EB/OL].[2017-9-11].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2]Nilsson N J. The Quest for Artificial Intelligence: A History of Ideas and Achievements[M]. Cambridge: Cambridge University Press,2009:77-80.
[3]余揚.人工智能六十年[J].中國發展觀察,2016(6):11.
[4][6][7][8][9]蔡自興,等.人工智能及其應用[M].第5版.北京:清華大學出版社,2016:377,28,197,253,373.
[5][13]李生.自然語言處理的研究與發展[J].燕山大學學報,2013(9):380-382,379.
[10][12]Russell S J, Norvig P.人工智能:一種現代的方法[M].殷建平,等譯.第3版.北京:清華大學出版社,2013:32,43-49.
[11]曾娜.網絡檔案信息資源組織研究[J].檔案學通訊,2010(1):45.
[14]國家檔案局.國家檔案局關于印發李明華同志在全國檔案安全工作會議上的講話的通知[EB/OL].[2017-9-26].http:// www.saac.gov.cn/news/2017-06/26/content_192040.htm.
[15]黃凱奇,陳曉棠,康運鋒,等.智能視頻監控技術綜述[J].計算機學報,2015(6):1095.
[16]王英瑋,陳智為,劉越男.檔案管理學[M].第4版.北京:中國人民大學出版社,2015:242.
[17]工業和信息化部,國家發展和改革委員會,財政部.三部委關于印發《機器人產業發展規劃(2016-2020年)》的通知[EB/ OL].[2017- 9- 26]. http://www.miit.gov.cn/n1146295/n1652858/ n1652930/n3757018/c4746362/content.html.
[作者簡介]
沙洲,安徽大學管理學院2016級檔案學碩士研究生,研究方向是檔案利用理論與實踐、電子文件管理。