人類正在步入人工智能時代,這是繼互聯網、移動互聯網之后又一次大的技術變革。人工智能的發展對社會生活方方面面產生了深刻影響。在多學科交叉發展的環境下,檔案事業同樣需要人工智能技術的參與,專題檔案的收集工作尤其需要人工智能技術的協助。
一、專題檔案收集工作的特點
專題檔案分兩大類,一類是以某一主題(事件)為歸檔對象的專題,與該主題有關的文書、圖片、實物等,譬如重大科研、鄉村振興等;另一類是以名人為歸檔對象,包含名人在其公務活動、社會活動和個人活動中形成的具有保存價值的文件材料。專題檔案是以專題為核心的“專題全宗”,包含了與專題有關的所有有價值的材料,有紙質、聲像、實物等多種形態。專題檔案在收集工作中呈現出以下特點。
(一)歸檔時間的不固定性
不同于其他門類檔案有固定的歸檔時間,專題檔案的歸檔時間是不固定的,主要根據選題的確定而決定,在時間上有前有后。
有些專題具有“前瞻性”,在事件發生之前就確定了選題,可以提前介入收集工作,通過“向前看”提升歸檔文件的質量。譬如建黨周年慶,從建黨周年慶準備階段就可以收集專題檔案材料,伴隨著建黨周年慶各項活動的開展,不停地收集,最終形成建黨周年慶專題。
有些專題具有“滯后性”,是在事件發生之后確定選題,事后收集,而這種“滯后”專題的檔案收集工作通常會比較困難,需要“回過頭”去查找與專題有關的文件資料等。譬如,高校根據名人專題檔案制度和校內教職員工的科研成果、感人事跡等,確定建立某名人專題檔案,這類專題檔案需要從檔案保管部門存量檔案中收集與之有關的文書、照片等,對存量檔案的整理質量提出了較高要求。而對非存量檔案的社會信息資源等,則需要名人主動提供有關信息。
還有些專題兼具“滯后性”與“前瞻性”于一體,即確定選題時,事件已經發生,但還會繼續發生。該類專題檔案的收集既要“回過頭”,也要“向前看”。譬如脫貧攻堅專題,早在2005年,國家就制定了“全面建設小康社會、消除貧困”的目標,實施了一系列脫貧計劃和政策,但直到2020年國家檔案局提出了要規范建設脫貧攻堅專題檔案數據庫,很多檔案部門才開始重視脫貧攻堅專題,“回過頭”去搜集相關材料、建立專題。2021年,我國脫貧攻堅戰取得全面勝利,為了進一步鞏固拓展脫貧攻堅成果,接續推動脫貧地區發展和鄉村全面振興,中共中央、國務院發布《關于實現鞏固拓展脫貧攻堅成果同鄉村振興有效銜接的意見》,于是在脫貧攻堅專題的基礎上,發展鄉村振興專題,用“向前看”的方式,繼續不斷豐富專題內容。
(二)來源多樣
不同于其他門類檔案有固定的檔案生成部門,財會檔案由財務部門生成,文書檔案由發文部門生成,專題檔案是根據選題,將與之有關的各種材料歸集到一起,其來源是多種多樣的,檔案保管部門、業務部門、社會團體、個人等等都有可能是檔案的來源。
譬如名人專題檔案。一是制作單位,收集其參加各項業務工作和社會活動的檔案。二是通過名人本人及其家人,收集其日常生活中的檔案。三是通過其所在單位的檔案保管部門,檢索館藏,歸類與之有關的檔案。四是其他單位、團體中與之有關的檔案材料。
(三)形式豐富
專題檔案形式多樣,內容豐富,只要是與專題有關,各種類型、載體、形式的材料都可以收集。
譬如高校校慶專題,既包含有關校慶議程文件、政府部門的賀信、校友捐贈公示等紙質檔案,又有記錄校慶宣傳、校慶活動中形成的錄像或照片檔案,還有校慶文化衫、錦旗和各種紀念品等實物檔案。
二、人工智能技術的應用
人工智能是指計算機像人一樣擁有智力能力,是一個融合計算機科學、統計學、腦神經學和社會科學的前沿綜合學科,可以代替人類實現識別、認知、分析和決策等多種功能。當代的人工智能的主流方法是機器學習(Machine Learning),即通過學習的方法來獲得判斷和預測的能力,從已知的數據中去學習數據背后所蘊含的規則或者規律,然后根據學習到的規則或者規律對新的輸入進行判斷或者預測。人工智能最核心的能力,是根據給定的輸入作出判斷和預測[1]。這樣的人工智能技術可以有效地服務于專題檔案的收集。
首先,檔案工作人員讓人工智能學習具體某個專題的內涵和外延,使人工智能獲得分辨專題不同于其他信息的能力,然后讓人工智能投入到收集工作,從浩瀚的信息中篩選出可以歸入此專題的信息。
因此,將人工智能技術應用到收集工作中來,將大大提高工作效率。成熟的人工智能可以作出判斷,確定哪些材料屬于這個專題,也可以預測未來的某些材料是否可以歸結到該專題中來。
(一)圖像識別
圖像識別是指通過計算機算法將圖像中的內容進行分析、識別和理解,從而實現對圖像的自動處理和分析,是目前人工智能領域最為社會大眾所了解的一項技術。不論是進出固定場所的人臉識別,抑或某些購物軟件的人臉支付,還是當遇到不認識的花草樹木拍照后的“看圖識物”,都是圖像識別技術的應用。圖像識別通常使用深度學習等機器學習技術,以提取圖像的特征,并通過訓練分類器等方法實現識別。專題檔案來源豐富、類型多樣,在檔案數據庫或選擇某些網絡信息資源庫中置入圖像識別技術,根據具體專題的要求,人工智能可以協助判定某些材料是否屬于該專題以及圖片所展示的各種信息。
譬如名人專題中數量最龐大的照片檔案,可以先讓機器學習該名人的人臉信息,提取名人的人臉特征,然后分析數據庫中圖片人臉、環境、文字等信息,抓取與名人特征一致的有用信息,判定該照片是否屬于該專題。成熟的圖像識別技術甚至可以根據照片中場景、光線等信息,判定照片拍攝的時間、事件等。中國人民大學牛力教授團隊在建立吳寶康專題檔案過程中,對大量照片檔案圖像進行識別 [2]。該團隊還完成了對照片中吳寶康及其合影人物的識別,對其中的重要人物進行再標注等,有效地豐富了吳寶康專題檔案的內容。
(二)語音識別
語音識別技術是讓機器通過識別和理解過程把語音信號轉變為相應的文本或者命令的技術。專題檔案中比較常見的聲像檔案可以使用語音識別技術對語音信息進行文本輸出。利用深度學習語音識別技術對文本化的信息進行上下文理解和語義分析,然后自動化著錄音頻的主題、概念、事件、觀點等,自動生成內容摘要,聚合音頻數據,構建知識圖譜,形成知識體系,為音頻檔案內容挖掘和知識化加工創造條件[3]。
譬如大型會議專題,一般會產生大量的錄音錄像材料,檔案管理人員需要花費大量的時間去觀看并記錄內容,從而篩選出會議的重要內容并對聲像檔案的內容做相應的標記。借助語音識別技術,可以在相對較短時間內對全部聲像內容做出文本輸出,以供檔案管理人員了解并掌握聲像檔案的具體內容,確定是屬于哪個名人、參加什么活動、發表了什么觀點等,從而更好、更便捷地對聲像檔案進行分割、收集。語音識別的文本結果,還可以通過接下來要介紹的自然語言處理完成分類,進一步提高專題檔案收集的效率。
(三)自然語言處理
自然語言處理是人工智能領域中的一個重要方向,它研究能實現人與計算機之間用自然語言進行有效通信的各種理論,主要應用于機器翻譯、輿情監測、自動摘要、觀點提取、文本分類、問題回答、文本語義對比、語音識別、中文OCR等方面。實現人機間自然語言通信就是要求計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖和思想等。自然語言處理的目標與意義,是能夠通過設計出對應的算法與規則,來達到讓計算機能夠理解自然語言的目的。
在專題檔案收集工作中,自然語言處理通過信息提取、文本感情分析、自然語言生成,能迅速判斷處理對象是否全部、部分屬于該專題。信息提取可以分析文件的關鍵詞,并理解該文件所講述的內容進而確認是否屬于該主題;文本情感分析是在文件信息提取的基礎上進一步分析文件內容的具體指向是褒義的還是貶義的;自然語言生成可以通過分析文件資料進而生成自然語言,譬如重要會議專題的文件資料,通過自然語言生成的分析,可以分辨出會議前的準備、會議過程中、會議結束后等不同時期的文件資料,從而為會議專題的整理打好基礎。
三、使用人工智能的基礎
人工智能是為人服務的智能,但它在檔案工作中的應用比想象中的要復雜。人工智能的主流方法是機器學習,不論是監督學習、無監督學習還是半監督學習,機器學習的前提是有學習的對象——數據集。半監督學習介于監督學習和無監督學習之間,是目前較為流行的機器學習方式,它是對小部分帶標記數據(訓練集)學習,找到數據背后的規則、規律(測試集),進而去分析剩余部分未標記的數據的結果[1]。由此可見,建立數據集并找到數據的規則、規律非常重要。
(一)建立數據集
人工智能能否應用在專題檔案收集工作中,首先在于檔案是否建立了數據集(即檔案信息資源數據庫)。在檔案領域,檔案的數字化成果和電子文件等都可以作為數據集,所以要想使用人工智能為檔案工作服務,前提是加快檔案的數字化和電子文件的確權,這也是當前檔案工作開展的重要方向。
(二)半監督學習
在專題檔案收集工作開展前,需要將已完成的某幾個專題檔案的數字化成果作為訓練集和測試集,以半監督學習的方式通過訓練和測試,不斷優化人工智能對于專題的規則或者規律的理解,進而去學習新的專題,分析新的數據集并作出判斷和預測。成熟的人工智能可以在海量的數據集中,根據現有的規則或者規律,迅速分析出數據的結果,進而判定數據是否屬于某個專題的檔案。
四、結語
專題檔案歸檔時間不固定、來源分散、形式多樣,僅靠檔案人員去一一收集和甄別,需要耗費大量的時間和精力,成熟的人工智能可以極大地提高工作效率和準確性,同時海量的機器學習也可以提高人工智能的性能,更好地為檔案事業提供有效服務。
參考文獻:
[1] 楊清平. 人工智能 [M]. 北京:北京航空航天大學出版社, 2022:1.
[2] 牛力,高晨翔,張宇鋒,等.發現、重構與故事化:數字人文視角下檔案研究的路徑與方法[J].中國圖書館學報,2021 (1):88-107.
[3] 楊巍,王茂煥. 基于深度學習的語音識別技術在音頻檔案數據化中的應用 [J]. 浙江檔案, 2024 (2): 52-54+60.
作者單位:安徽大學檔案館