摘 要:生成式人工智能為檔案館智慧編研帶來了機遇和挑戰。在生成式人工智能背景下,檔案館智慧編研顯露出檔案數據處理智能化、編研作品呈現多樣化、用戶服務推薦智慧化等態勢,存在語料構建成本高、技術應用難度大和相關人才儲備少等困境,需要推進全國檔案資源集成與整合,加強語料安全控制;扶持國內生成式人工智能技術,降低技術應用風險;開展檔案工作人員專業化培訓,提升檔案編研水平等。
關鍵詞:檔案館;生成式人工智能;智慧編研
分類號:G270.7
The Desirable Situation, Practical Dilemma, and Necessary Path of Intelligent Compilation and Research of Archives Under the Background of Generative Artificial Intelligence
Xing Bianbian1,2, Liu Yang1
( 1. School of Information Management, Zhengzhou University, Zhengzhou, Henan 450001, 2. Key Laboratory of the National Archives Administration of China “Key Laboratory of Archives Disaster Prevention and Emergency Rescue” , Zhengzhou, Henan 450001 )
Abstract: Generative artificial intelligence brings opportunities and challenges for the intelligent compilation and research of archives. Under the background of generative artificial intelligence, the intelligent compilation and research of archives presents the trends of intelligent archival data processing, diversified compilation and research works, and intelligent user service recommendation, etc. There are difficulties such as high corpus development cost, difficult technology application and small talent reserve. It is necessary to promote the integration of national archival resources, strengthen corpus security control, support domestic generative artificial intelligence technology, reduce the risk of technology application, carry out professional training of archival staff, and improve the level of archival compilation and research.
Keywords: Archives; Generative Artificial Intelligence; Intelligent Compilation and Research
隨著ChatGPT在社會各領域內的火熱應用,生成式人工智能越來越引起人們的關注。作為一種具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術[1],生成式人工智能在檔案領域具有發展需求和應用空間。中共中央辦公廳、國務院辦公廳印發的《“十四五”全國檔案事業發展規劃》(以下簡稱《規劃》)指出要積極探索知識管理、人工智能、數字人文等技術在檔案信息深層加工和利用中的應用。[2]目前,我國檔案館智能化編研工作的部分環節已初見成效,如浙江省檔案館與科大訊飛聯合開展的人工智能項目為音頻檔案整理利用提供了高效便捷的新途徑[3];河南省檔案館應用人工智能等技術實現了對中福公司檔案的深度挖掘、知識管理與可視化呈現。[4]生成式人工智能的內容生成特性是檔案館編研工作從智能走向智慧的關鍵一步。在實踐工作中,泉州市檔案館首次利用生成式人工智能技術,推出《AI主播小君讀清明僑批》《泉州僑批里的清明》兩期視頻節目[5],這是生成式人工智能在檔案編研工作中的重要嘗試。將生成式人工智能技術應用于檔案館編研工作,有助于檔案資源的深層次開發利用,提高檔案編研的智慧化水平,服務于人民群眾日益增長的檔案文化需求。
檔案領域現有相關研究主要側重于生成式人工智能在檔案管理、資源開發、利用服務中的應用,較少從檔案編研的角度展開研究。周海專門論述了生成式人工智能輔助檔案編研工作的可行性,并從數據處理層、模型訓練層、智能應用層、機制保障層等四個層面提出了實施方案。[6]楊晶晶[7]、許劍穎[8]、尹良鑫[9]、劉麗[10]等在討論生成式人工智能對檔案工作的影響以及應用場景時提及了檔案編研工作。因此,探討生成式人工智能背景下檔案館智慧編研的應然態勢、實然困境和使然策略,不僅是對國家政策的積極響應,更有助于探索檔案編研新路徑,實現檔案編研工作高質量發展。
1 生成式人工智能背景下檔案館智慧編研的應然態勢
1.1 編研過程:檔案數據處理智能化
生成式人工智能背景下的檔案館智慧編研能夠做到選題、選材、挖掘、整合的全流程智能化處理。第一,基于大數據模型,檔案館可以應用趨勢分析和預測技術在全網范圍內搜尋熱點話題,結合館藏數據資源情況生成編研選題,使選題更加切合社會熱點與市場需要。第二,檔案館可以應用自然語言處理技術從海量數據中精準識別并提取與選題相關的關鍵信息并對其進行整合,實現檔案編研資料的快速摘編與全面匯集,縮短編研工作的周期,提高編研選材的豐富度。第三,知識圖譜和機器學習技術擁有關聯性知識挖掘的能力,能夠在現有檔案信息中進行深挖,創造性產出知識內容,提升檔案編研作品的創新性,契合用戶多樣化需求。第四,生成式預訓練模型能夠基于語義連續性原則自動化生成內容,可以連續產出編研內容,兼顧上下文整體的協調統一。例如,美聯社通過Automated Insights的Wordsmith平臺實現了數據驅動型新聞報道的自動化[11],使記者能夠更專注于撰寫批判性的定性文章。此外,生成式對抗網絡可以應用于照片檔案的修復工作中,為檔案編研工作提供更為豐富完整的檔案資料。這些技術的綜合使用,不僅有助于提升檔案館編研工作的效率和質量,同時也可為用戶提供更具價值和吸引力的內容。
1.2 內容生成:編研作品呈現多樣化
隨著近些年新媒體的快速發展,人們的閱讀習慣以及文化消費習慣發生了深刻變革,對影視類、游戲類和虛擬展覽類等多樣化的文化產品需求顯著增長,更加關注檔案編研作品的生動性與趣味性。[12]生成式人工智能擁有多模態內容生成能力,能夠輔助檔案館產出文字、圖片、聲音、視頻等更為豐富的多媒體編研作品,滿足人民群眾日益增長的檔案文化需求。例如,通過預設創作風格,經由文字或圖像的描述,可以生成初級的影視劇本,再經過細致的描述加工則可最終形成一個完整的作品。2023年2月,第一部由AI編劇和導演的短片《安全地帶》(The Safe Zone)就是通過這樣的方式生成的。[13]ChatGPT深度參與了該影片制作的各階段,僅用7天就完成了拍攝,極大縮短了影片制作進程,節省了時間和資源,其完整的故事結構與清晰的戲劇張力都顯露出ChatGPT在影視制作方面不容忽視的內容創作能力。有了生成式人工智能的參與,檔案編研人員可專注于編研作品的內容把關,而將文獻類作品的內容生成、影視類作品的腳本設計、展演類作品的流程設置等內容交給生成式人工智能模型,就能極大提高編研效率,豐富編研作品形式。
1.3 成果傳播:用戶服務推薦智慧化
生成式人工智能可為檔案用戶提供更具靈活性、更為個性化的推薦服務。借助算法和深度學習能力,它不僅能夠根據用戶的興趣和需求,智能地篩選和整理海量的檔案信息,為用戶呈現定制化的編研產品推薦列表,而且能夠根據用戶的反饋和行為數據,不斷優化推薦策略,使推薦服務更加精準。例如,在電商營銷領域,亞馬遜使用生成式人工智能技術不僅能夠優化產品描述,提高產品的可發現性,還可提供符合用戶需求的定制化產品推薦和個性化服務體驗。[14]作為生成式人工智能的典型代表,ChatGPT擁有高水平的自然語言處理能力,能夠準確理解、連續回答用戶提問,并進行文本生成與內容創作任務。將此種自然語言生成模型應用于檔案編研作品推薦服務,能夠降低用戶利用檔案編研作品的門檻,檔案用戶不必具備專業的提問表達能力,也不必拘泥于特定的檢索式,通過日常化的語言表達便能獲得所需的檔案信息。同時,ChatGPT能夠根據用戶提問生成知識總結類內容,通過用戶不斷細化提問細節,從而提供與用戶意圖相匹配的高質量檔案編研作品信息,針對性地提供推薦服務,優化用戶體驗,提升檔案編研成果質量。
2 生成式人工智能背景下檔案館智慧編研的實然困境
2.1 語料構建成本高
生成式人工智能的關鍵技術之一是大數據預訓練模型,強大的數據支撐是模型開發的基礎性保障,這也意味著需要巨量的檔案數據資源集成與復雜的安全控制。
一方面,檔案數據資源集成工程量大。智慧編研需要在數字環境中開展,生成式人工智能模型的開發需要大量檔案數據的“投喂”,因此一個龐大且信息完備的檔案語料庫是重要且必要的。生成式人工智能模型基于語料庫開展預訓練,語料庫內的信息越豐富,所得出的訓練模型越接近理想狀態,后續應用中的內容生成也就越可靠。我國館藏檔案資源豐富,截至2023年底[15],我國各級綜合檔案館館藏檔案126846.5萬卷、件,館藏照片檔案2862.0萬張,館藏錄音磁帶、錄像磁帶、影片檔案112.3萬盤,但其數字化率有待提高?!兑巹潯诽岢鋈珖h級以上綜合檔案館檔案數字化率要達到80%,但我國檔案數字化整體情況距此目標仍有距離,且數字化成果多停留于圖片、PDF文檔等形式,檔案信息與載體并不能有效分離,檔案資源數據化轉向有待加強。
另一方面,語料安全控制程序復雜。語料安全控制須關注語料的來源是否合規、語料內容是否真實、語料標注是否準確等問題,每一個環節都需要嚴格的控制和監管,任何疏忽都可能導致語料安全事故的發生,從而對檔案資源的保護和利用造成不可逆的損害。在生成式人工智能環境下,檔案隱私安全問題和語料真實性問題更加突出:開放檔案數據中包含個人隱私信息,如若不能對敏感信息進行有效控制,在內容生成階段就容易引發個人信息泄露風險;真假難辨的網絡數據、真實性存疑的檔案數據、不可控的用戶上傳數據等語料來源極易造成檔案數據庫污染,生成內容的真實性也會遭到質疑。[16]如何獲得一個干凈安全的語料庫是我們亟須解決的問題。
2.2 技術應用難度大
目前檔案領域還沒有較為成熟的生成式人工智能模型,要將其應用于實踐,一是靠模型引入,二是靠模型開發,但這二者都有應用難度。
一方面,模型引入風險高。由于算法設計、信息搜集、數據共享等方面不透明,生成式人工智能模型的引入可能會引發安全問題。尤其是語料訓練模型和隱私安全控制規則方面的差異帶來的模型適用性問題,可能會造成應用過程中生成內容混亂失實、隱私泄密等后果。此外,技術依賴和控制權問題所引發的服務中斷、合作終止等情況也會影響模型應用的長期性和穩定性。檔案本身具有很強的政治性和保密性,將檔案數據資源接入一個存在安全風險的智能模型不符合檔案安全準則,同時違反了相關法律規定,容易引發檔案數據泄露、非法訪問與篡改等惡性情況,威脅國家安全和社會穩定。
另一方面,模型開發難度大。在專業問題上生成式人工智能的回答質量至關重要。為實現精準的檔案館智慧編研,所開發模型除了要具備常規語言模型的處理能力外,還須具備深厚的檔案專業知識,對檔案知識尤其是檔案編研相關工作有足夠的了解,這意味著在模型開發階段需要大量的檔案數據接入語料訓練庫,開發檔案領域專屬的生成式人工智能模型。但我國檔案資源數字化工作還未實現全覆蓋,檔案數據的全面接入難度較大。另外,檔案的特殊性和敏感性還要求模型在開發時必須確保檔案信息的安全和隱私,進一步增加了開發的技術難度和復雜程度。
2.3 相關人才儲備少
一方面,檔案專業人才儲備少。據中華人民共和國國家檔案局數據統計[17],2023年我國各級綜合檔案館中具有檔案專業程度的專職人員占比雖較2022年有所上升,但整體受教育水平偏低,檔案人才隊伍的專業化程度仍有較大的提升空間(詳見表1)。缺乏檔案專業背景容易造成檔案編研工作專業性、系統性不足,從而影響檔案編研成果質量。只有在檔案專業知識的指導下,立足檔案內容,深挖檔案資源的多維價值,才能創作出符合人民群眾需求的檔案文化產品。
另一方面,數字技術知識儲備弱。傳統環境下檔案館人才隊伍更多側重于實體檔案的管理工作,而在人工智能、數據分析、編程語言等相關領域的知識儲備則較弱。如某市檔案館工作人員就存在由于缺乏數字技術等知識而無法適應數字化轉型下的檔案服務工作的情況。[18]檔案館缺乏能夠同時掌握檔案學專業知識和人工智能技術的復合型人才,從而難以對生成式人工智能環境下的智慧編研工作做到有效控制與監管。例如在ChatGPT的使用過程中,如果不對用戶行為加以控制和監管,用戶可能會通過修改措辭、多次提問等方式避開其安全機制,從而獲取帶有偏見或有害的內容[19],甚至實施危害國家和社會的行為。
3 生成式人工智能背景下檔案館智慧編研的使然策略
3.1 推進全國檔案資源集成與整合,加強語料安全控制
其一,推進檔案數字化進程,實現檔案數據化轉向。《規劃》指出要加快檔案資源數字轉型,繼續做好“存量數字化”,加快推進對重要檔案數字化成果進行文字識別和語音識別。[20]各級各類檔案館應嚴格按照相關數字化標準規范,推進館藏資源數字化工作,積極對數字化成果進行數據化處理,以數據態檔案為對象,進行深層次的檔案資源開發利用。在此基礎上,由政府牽頭,集全國檔案館之力,推動全國檔案資源互聯共通,建設統一的開放檔案語料庫,為檔案領域專屬的生成式人工智能模型開發創造條件。例如浙江省委辦公廳、省政府辦公廳印發的《關于推進新時代檔案事業現代化先行的意見》提出“實施數字檔案‘匯聚暢流’行動,制定檔案數據匯流標準和安全策略,全面打造安全可控、高效暢流的數字檔案‘水系’;支持建立人工智能海量訓練資源庫、標準測試數據集”[21]。
其二,遵守相關服務規范,加強語料安全控制。2023年1月10日,由國家網信辦、工信部、公安部聯合發布的《互聯網信息服務深度合成管理規定》針對利用深度學習等生成合成類算法制作文本、圖像等網絡信息的技術,對篇章生成、文本風格轉換、問答對話等生成或者編輯文本內容的技術進行監管,為生成式大語言模型的應用提供了基礎性規則。[22]2023年7月10日發布的《生成式人工智能服務管理暫行辦法》指出生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,并對訓練數據來源的合法合規性方面作出了相關規定。[23]2024年3月1日,全國網絡安全標準化技術委員會發布的《生成式人工智能服務安全基本要求》規定了生成式人工智能服務在安全方面的基本要求,包括語料安全、模型安全、安全措施、安全評估等。[24]在項目實施過程中,一方面檔案館應嚴格遵守生成式人工智能相關服務規范,通過組建專業的語料審核團隊來制定相關安全審核機制,明確審核目標、規范審核標準、細化審核流程;另一方面檔案館也應嚴格遵守《國家檔案館檔案開放辦法》,對接入檔案語料庫的開放檔案資源數據進行篩選和控制,做到語料來源合規、內容真實、標注準確,建設高質量檔案語料庫。
3.2 扶持國內生成式人工智能技術,降低技術應用風險

盡管國外生成式人工智能技術模型相對成熟,但由于其訓練語料庫和算法設計的不透明,容易造成由意識文化差異、國別偏見和隱私安全引發的技術應用障礙,技術應用風險增加。[25]我國目前已經有一批較為成熟的生成式人工智能模型,如百度的ERNIE、阿里巴巴的盤古、華為的NEZHA等,能在文本生成、語言理解等多個任務中展現出色的性能。此外,科大訊飛作為語音識別和語音合成領域的領先企業之一,其開發的生成式人工智能技術廣泛應用于智能助手、自動翻譯、輔助閱讀等場景。2020年4月,安徽省檔案館與訊飛智元信息科技有限公司合作的“檔案智能劃控系統”正式發布。在項目實施過程中,安徽省檔案館負責規則制定與數據保障,訊飛智元信息科技有限公司負責系統設計與技術實現,此次館企合作或可為檔案館應用生成式人工智能技術開展檔案編研工作提供案例參考。
普適性的大語言模型難以成為某一特定細分領域專家,基于基礎模型開發檔案領域的垂類模型是實現檔案館智慧編研目標的有效途徑。[26]在需要深入專業知識的應用場景中,垂類模型能夠更好地理解和處理特定領域的專業術語、知識和任務,專業化使得它們能夠提供更加準確的結果。目前,醫學、法律和金融等領域的垂類模型已有比較成功的典型示范,檔案館應以其為參考,積極與生成式人工智能技術公司開展對接與合作,結合檔案領域的實際需求和檔案編研工作的規律特點,共同研發出符合檔案工作專業要求的垂類模型。有了技術公司的參與,檔案館可以充分利用其專業能力和資源,降低技術開發風險,確保模型在實際應用中的穩定性和可靠性。同時,隨著檔案領域的發展和變化,模型需要不斷更新和優化,以適應新的需求,因此研發過程中模型的靈活性和可定制性也應得到重視,以便在未來的發展中能夠輕松地進行模型調整和升級。此外,生成式人工智能的插件化趨勢也為其在檔案領域內的應用提供了新方向,如今各檔案數據庫與檔案信息利用平臺的建設已相對完善,生成式人工智能插件的應用將為其提供更為便捷的服務。
3.3 開展檔案工作人員專業化培訓,提升檔案編研水平
生成式人工智能在檔案館編研工作中應用的關鍵是人,應充分發揮檔案工作人員的能動價值。[27]這不僅是提升檔案館智慧編研工作質量和效率的關鍵,也是確保檔案信息安全和合規利用的重要保障。
其一,培養兼具檔案學專業知識和人工智能技術的復合型人才。一方面積極引進人才。檔案館招聘人才要有專業要求,尤其是具備信息技術背景的人才,能夠有效輔助檔案館智慧編研工作的順利進行。可以通過設立專項招聘計劃,如信息技術人才專項招聘、跨界人才招募等,確保人才精準定位,提升檔案館專業人才隊伍的信息技術能力。同時,還可以通過建立人才評估機制,確保引進人才的專業技能與檔案館的實際需求相匹配,做到人才引進來、用得好、留得住,充分發揮人才價值。另一方面,定期組織業務培訓與項目交流活動。通過邀請行業專家組織內部培訓會、對接技術公司參與外部實踐項目等方式,設立人工智能基礎理論、自然語言處理技術、數據分析與解讀等培訓課程,鼓勵檔案工作人員在學習理論知識的同時參與實踐項目,通過實踐加深對生成式人工智能技術的理解與掌握。還要建立良好的學習成果評估與反饋機制,確保培訓效果得到持續提升,從而更好地輔助檔案館智慧編研工作。
其二,強化檔案工作人員全流程監管者的角色定位。一方面是對智慧編研的流程監管。檔案工作人員應全面把控數據采集、處理、分析、生成等各個環節,確保各階段工作的準確性和高效性,還應特別關注采用生成式人工智能技術進行編研活動的合規性。例如在智慧編研過程中,檔案工作人員不僅要關注所生成編研內容的準確性和邏輯性,還要仔細審查生成內容是否存在誤導信息或偏見。如果發現算法生成的某些內容不符合檔案事實或存在爭議,則應立即停止流程,并通過調整算法參數或采用其他方法進行修正。另一方面是對用戶服務的監管。檔案工作人員既要保證用戶高效訪問和利用檔案編研成果的效率,也應嚴格監督用戶在獲取和使用人工智能生成內容時的行為。確保用戶在享受檔案編研服務的同時,嚴格遵循相關的法律法規和標準規范,防止出現任何可能發生的濫用或侵權行為,保障檔案信息傳播安全,維護檔案工作的公信力和權威性。例如制定明確的用戶行為規范,包括但不限于禁止未經許可的傳播、復制、篡改等行為;規定用戶在特定的范圍內利用編研成果并注明來源及出處;利用數字水印、訪問日志等技術手段,對用戶的使用活動進行追蹤與記錄,以便迅速識別并應對可能存在的濫用情形或侵權行為。
作者貢獻說明
邢變變:設計論文框架,提出核心觀點,修改論文;劉陽:撰寫論文,收集資料。
注釋與參考文獻
[1][23]生成式人工智能服務管理暫行辦法[EB/OL].[2024-07-20].https://www.cac.gov. cn/2023-07/13/c_1690898327029107.htm.
[2][20]中辦國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL].[2024-07-20].https://www. saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb5 5c890762868683.shtml.
[3]省檔案館承擔的科技項目通過國家檔案局驗收[EB/OL].[2024-07-20].https://www.zjda.gov. cn/art/2021/3/12/art_1378521_58922763.html.
[4]河南省檔案館中福公司檔案史料開發結碩果[EB/OL].[2024-07-20].https://www.hada.gov. cn/2022/10-11/176055.html.
[5]福建泉州創新運用AI技術傳播檔案文化[EB/OL].[2024-07-20].https://www.saac.gov. cn/daj/c100211/202404/f1b944f7c9844fd5adeb150827 7ab54f.shtml.
[6]周海.生成式人工智能輔助檔案編研工作的實現路徑構建[J].北京檔案,2024(6):45-48.
[7]楊晶晶.生成式人工智能在檔案數字場景中的應用研究[J].浙江檔案,2024(1):45-47,54.
[8]許劍穎,馮桂珍.ChatGPT賦能檔案服務:技術特征、應用場景與實現路徑[J].山西檔案,2023(6):111-120.
[9][16]尹良鑫.論生成式人工智能檔案產品的真實性維護[J].檔案與建設,2023(12):39-42.
[10]劉麗,王兆偉,張明智,等.生成式人工智能對檔案工作的影響——從ChatGPT談起[J].浙江檔案,2023(9):47-50.
[11]美聯社自動寫稿系統運營正?;巡恍枞斯ぜm錯[EB/OL].[2024-07-20].https://world. huanqiu.com/article/9CaKrnJHnTx.
[12]張輝華.學習貫徹習近平文化思想推動檔案編研高質量發展——在2023年檔案編研工作座談會上的講話(摘要)[J].四川檔案,2023(6):12-14.
[13]人工智能ChatGPT當導演,電影人真要失業了?[EB/OL].[2024-07-20].https://www.163.com/ dy/article/HT9P0HD10517CGO5.html.
[14]亞馬遜云科技:跨境電商新動力——生成式AI技術的應用與創新[EB/OL].[2024-07-20]. https://www.sohu.com/a/793989791_120157439.
[15][17]2022年度全國檔案主管部門和檔案館基本情況摘要(一)[EB/OL].[2024-07-20]. https://www.saac.gov.cn/daj/zhdt/202308/b2d8cfbede054 6c68b4bfdb0889f2702.shtml.
[18]李建港.數字化轉型背景下麗水市檔案館公共服務優化研究[D].南寧:廣西民族大學,2024.
[19]邱瑾,黃茂漢.生成式人工智能對高校圖書館的影響及應對策略——以ChatGPT大型語言模型為例[J].圖書館工作與研究,2024(3):58-66.
[21]浙江省委辦公廳 省政府辦公廳印發《關于推進新時代檔案事業現代化先行的意見》[N].中國檔案報,2024-04-08(04).
[22]互聯網信息服務深度合成管理規定[EB/ OL].[2024-07-20].https://www.cac.gov.cn/2022-12/11/c_1672221949354811.htm.
[24]全國信息安全標準化技術委員會.TC260-003《生成式人工智能服務安全基本要求》發布[EB/ OL].[2024-07-20].https://www.tc260.org.cn/ front/postDetail.html id=20240301164054.
[25]李明昊.生成式人工智能的數據風險與中國路徑[J].網絡安全技術與應用,2024(4):139-141.
[26]儲節旺,羅怡帆.人工智能生成內容賦能圖書館知識服務的路徑研究[J].情報理論與實踐,2024(8):34-42.
[27]李姍姍,王小云,房小可,等.檔案教育與檔案人才隊伍建設的守正創新[J].檔案與建設,2024(8):19-23.
(責任編輯:陳 騫)