現階段生成式人工智能在檔案開發利用中的應用瓶頸分析
——以ChatGPT類人工智能為例

2024-01-05 15:55:40王冠袁燁

檔案與建設 2023年11期

王冠袁燁

（馬來亞大學人文與社會科學學院，馬來西亞吉隆坡，50603）

作為一個里程碑式的人工智能產品，ChatGPT自2022 年11 月30 日發布以來就受到了人們火爆式地關注和應用。國內部分大型科技公司也積極響應，開發出了多款國產的生成式人工智能產品，如百度的文心一言、阿里的通義千問、商湯的商量、科大訊飛的星火認知大模型等。同時，ChatGPT類人工智能憑借其強大功能以及在世界范圍內的火爆態勢，使得生成式人工智能也成了當前科技界的關注熱點。鑒于這一態勢，2023 年8 月15 日，由國家互聯網信息辦公室、國家發展改革委、教育部等七部委聯合發布的《生成式人工智能服務管理暫行辦法》開始施行。這是我國首個關于生成式人工智能的國家級監管文件，對于規范生成式人工智能的現實應用及行業發展具有重要意義。

但是，在熱烈擁抱生成式人工智能的同時，人們對其安全性問題以及在應用過程中產生的倫理問題和潛在風險的認知也越來越深刻。以ChatGPT為例，2023 年3 月29 日，美國的生命未來研究所在其網站上公布了一封公開信，呼吁所有AI實驗室立即暫停訓練比GPT-4 更強大的AI系統，暫停時間至少應為6 個月，并稱其“可能對社會和人類構成深遠的風險”［1］。該公開信得到了包括多位科技領袖如埃隆·馬斯克、史蒂夫·沃茲尼亞克、杰弗里·辛頓等在內的1000 多位業內人士的支持。2023 年3月31 日，意大利個人數據保護局宣布從即日起禁止使用ChatGPT平臺。如果說公開信的公布直白呈現出了科技界的謹慎態度的話，意大利的封禁措施則從現實層面為ChatGPT的應用注入了一針強冷靜劑。

當前檔案界已有學者就人工智能在檔案行業的應用展開了探討，如贠疆鵬等指出，當前人工智能技術在我國檔案管理中還存在應用場景有待拓展和豐富、應用環節有待深化和集成、技術與管理原則有待落地和融合等問題［2］；孫琳等指出人工智能技術應用在城建檔案管理工作中具有可行性，檔案智能檢索與利用、檔案開放鑒定、檔案智慧服務、檔案分類整理和檔案安全保護是其中可能的應用場景，但也存在著諸多風險。［3］同時，檔案領域圍繞生成式人工智能的應用問題也已展開探討，主要圍繞ChatGPT展開。其中，周文歡認為ChatGPT在檔案領域的應用存在“數據質量問題、語言和文化差異問題、隱私和安全問題、人工智能倫理問題”［4］等挑戰和限制?？傮w而言，當前學者對于ChatGPT在檔案領域的應用均持謹慎態度。

目前，生成式人工智能的主要優勢在于其內容生成、多模式介質處理以及人機互動等方面具備的強大功能，其在檔案數據的智能化采集、組織、分析、檢索等工作中均可得到廣泛應用。而且，從理想狀態來看，生成式人工智能的這三項功能優勢在檔案開發利用環節最有可能得到較大發揮。但筆者認為，雖然生成式人工智能已然表現出了令人驚嘆的強大功能、驚人的更迭速度和廣闊的應用前景，但是其本身存在的技術、倫理等方面的問題，短時間內仍無法得到很好解決，再加上檔案行業較強的專業性以及檔案安全底線的重要性等原因，現階段將生成式人工智能應用于檔案開發利用尚存在諸多瓶頸。

1 數據準備階段

1.1 數據庫層面

大數據是生成式人工智能運行的基礎和必要條件。相較于其他人工智能產品，生成式人工智能的核心競爭力就在于其“海量數據”與“海量訓練”，也正因如此，生成式人工智能的開發公司對數據庫的建設和維護非常重視。以ChatGPT為例，其海量訓練是基于一個固定的數據庫而展開的。截至目前，OpenAI并未公布模型訓練數據集的來源和內容，這也是在應用ChatGPT的過程中產生黑匣子效應的主要原因，而黑匣子效應又會導致侵權、隱私泄露等嚴重風險。

要想在檔案開發利用中應用生成式人工智能，首先需要準備由海量開放性檔案數據構成的檔案語料。其中的主體應是檔案部門提供的檔案內容數據、檔案實體數據、檔案環境數據、其他數據等，還包括由立檔單位和個人提供的開源信息、用戶在使用過程中輸入的個人信息及其獲取的輸出結果信息等。現階段，我國檔案部門要想使生成式人工智能在檔案開發利用中落地，就需要將海量的檔案數據尤其是檔案內容數據上傳至相應公司的數據庫。對于國外的生成式人工智能產品而言，這種做法在法律層面是被嚴格禁止的，在實際操作中也會因為違背國家安全底線而斷不可行；國產的ChatGPT類人工智能產品如百度的文心一言、阿里的通義千問等雖然已獲得了廣泛應用，但相較于ChatGPT而言，其在語料、芯片、算法上都有短板，想要建立我國專用的檔案語料庫并應用于檔案的開發利用也十分困難。此外，雖然當前生成式人工智能業已體現出了明顯的插件化發展趨勢，已有部分科技公司和人士將其與搜索引擎、微信等連接并得到了成功應用，且未來由我國自主設計研發的ChatGPT類插件產品也可接入全國檔案查詢利用服務平臺、跨區域檔案信息資源共享平臺、專題檔案數據庫等，但是目前為止，這一理想前景的實現可能性尚顯渺茫。

1.2 數據量層面

生成式人工智能依托海量數據庫信息存在，如“OpenAI為了讓ChatGPT（指ChatGPT-3）的語言合成結果更自然流暢，用了45TB的數據、近1萬億個單詞來訓練模型，大概是1351 萬本牛津詞典”［5］。功能更為強大的ChatGPT-4、ChatGPT-5 則需要更大體量的數據才能滿足其訓練需求以更加準確地處理和反饋人類設置的生成條件，而若想要達到符合人類常識、認知乃至價值觀層面的要求，則需要更大體量數據的訓練。

由于檔案與檔案需求的特殊性和復雜性、檔案業務工作的專業性等原因，將ChatGPT類人工智能的通用大模型應用于檔案開發利用，若不是量身定制的話，其輸出答案的準確性會較差，因此，需要對海量檔案語料展開大量訓練才能滿足專業性、復雜性需求。即便是在應用之后，也須依靠由巨大體量的檔案數據，尤其是檔案內容數據支撐的檔案語料庫運行。根據統計，2022 年度我國“館藏電子檔案2372.9TB，其中，數碼照片220.0TB，數字錄音、數字錄像1040.0TB，館藏檔案數字化成果28069.0TB”［6］。而2001 年至2020 年我國綜合檔案館的檔案平均開放率為21.91%［7］，據此測算，理論上我國可納入檔案語料庫的電子檔案達519.9TB，符合生成式人工智能對數據體量的要求。但是也不難看出，要達到這一要求就需要整合全國范圍內的開放性檔案數據并建設統一的檔案語料庫，這在當前的情況下是不可能實現的。而且，即便是建成了檔案語料庫，在檔案部門提供海量開放性檔案數據的過程中，檔案鑒定工作不充分、對提供數據的范圍把握不準確、工作人員誤操作或失職等原因均可能造成檔案泄密。此外，如果生成式人工智能在采集網絡信息的過程中，將未經權利主體授權卻受到著作權保護的文本、圖片、視頻等信息直接復制到檔案語料庫中，那么，在此基礎上修改、拼湊而成的內容就會侵害到他人的著作權。如此巨大的工作量和風險度也是檔案部門難以承受的。

2 內容生成階段

2.1 內容生成機制——關聯

生成式人工智能通過所挖掘的單詞之間的關聯統計關系合成語言答案。如ChatGPT將大數據、大模型和大算力進行工程性結合，不僅使其具備了強大的統計關聯能力，而且有助于挖掘海量數據中單詞與單詞、句子與句子等之間的關聯性，并通過機器智能的方式將關聯結果呈現出來。關聯統計與呈現的生成機制固然有助于深入挖掘檔案數據以產出高質量的檔案開發產品，但是也會產生嚴重后果。

生成式人工智能以“共生則關聯”為標準訓練模型，由于未來建成的檔案語料庫中的數據來源較為復雜，不僅包括檔案部門提供的檔案數據，以及立檔單位和個人產生和提供的開源信息；還包括用戶上傳和生成的數據，以及生成式人工智能通過互聯網采集的信息。如此一來，生成式人工智能則會因無效關聯或虛假關聯生成大量不真實，甚至是由違背常識或東拼西湊的信息合成的答案，但其自身卻無法明晰判斷答案中內容的可信度。這類檔案開發產品的大量產出不僅會削弱檔案及檔案部門的權威性，還有可能會在大規模社會性傳播之下動搖基于檔案真實性而構建起來的檔案價值理念和文化。再加上生成式人工智能對信息、數據來源無法進行事實核查，所以這一問題幾乎無法從源頭上予以解決。

2.2 內容生成結果——指令

指令對生成式人工智能的內容生成結果有著重要影響。以ChatGPT為例，其底層技術包括Transformer、自監督學習、微調、人類反饋強化學習（RLHF）、AI對齊等。其中，指令微調和人類反饋強化學習是決定內容生成結果質量的重要技術，也是提升指令學習能力和用戶意圖捕獲能力的重要影響因素。值得注意的是，ChatGPT-4 已經在用戶意圖捕獲能力方面有了較大提升，其產生的結果也越來越符合用戶需求，并且其還可以通過用戶指令賦予獨特的“人格”以生成更高質量的內容。

但是，生成式人工智能在內容生成結果層面受主觀因素的影響較大。一方面，ChatGPT類模型的能力上限是由獎勵模型決定的，該模型需要巨量的語料來擬合真實世界，對標注員的工作量以及綜合素質要求較高。在此背景下，檔案語料庫的建設及其質量保障將面臨較大挑戰。另一方面，用戶設置的生成條件將直接決定生成內容的結果和質量，若在此過程中，用戶有意或無意設置了模糊性較，帶有偏見或冒犯性，甚至是帶有欺詐、違法等意愿的條件，就會產生大量與事實和常識不符、違背倫理和違反法律的毒性信息，這些信息還會被自動納入檔案語料庫，進而產生不可預知的嚴重后果。同時，生成式人工智能還存在主觀猜測提問者意圖等問題，這無疑會加劇后果的嚴重性。

3 社會傳播階段

3.1 高并發性

生成式人工智能的一個顯著特征是高并發性，主要表現為：一是其可同時生成很多答案內容，包括不實信息和毒性信息，而這些信息又會進入其數據庫成為語料來源。如果有不法分子對其進行惡意訓練，就會有大量有害信息被源源不斷地生產出來，如虛假的政策文件、政府公文、電子郵件等，并可借助多元化的社交媒體廣泛傳播出去。二是其可同時與很多用戶進行交互，若有不法分子將其作為插件與詐騙系統連接，便可同時完成很多詐騙行為，如可同時給很多人打電話，并憑借其優秀的人機交互能力和內容生成能力完成大規模詐騙。

生成式人工智能的這一特征在檔案開發利用中將有可能被無限放大。一方面，公文是檔案的重要來源，由于生成式人工智能的核心功能之一即是按照用戶要求自動模仿有固定模式的文本內容，如此一來，檔案部門上傳至語料庫的大量檔案資源將會成為不法分子制造假政策文件、假政府公文等的訓練范本。另一方面，社會公眾基于檔案真實性而對檔案和檔案部門形成的權威性認知，也會成為不法分子借以實施詐騙行為的一個重要條件，即可能會使社會公眾在被詐騙時深信不疑、上當警覺之后質疑檔案的真實性和檔案部門的公信力。由上分析可知，在檔案開發利用中應用生成式人工智能不僅可能會引發社會性違法行為的發生，而且也會給檔案部門的公信力造成廣泛性損害。

3.2 強破壞性

隨著生成式人工智能的迭代升級，其在內容生成方面的功能也更加強大。但與此同時，生成式人工智能生成內容的欺騙性也更強，由此產生的破壞力則更強。以ChatGPT為例，根據《科學報告》發表的一項研究，人類對道德困境的反應可能會受到人工智能對話機器人ChatGPT所寫陳述的影響。這表明用戶可能低估了自己的道德判斷受ChatGPT影響的程度。［8］因此，生成式人工智能可能會產生更深層次的破壞性。

檔案開發利用是檔案部門傳播檔案理念和價值觀的重要途徑，生成式人工智能強大的功能固然有助于生產出高質量的檔案產品、增強檔案用戶的體驗等，但同時其產生的虛假信息和毒性信息將更具有隱蔽性和欺騙性，尤其是其對人類道德和價值觀產生的深刻影響，可能會削弱檔案價值和理念的傳播成效，甚至會扭曲正確的檔案理念和價值觀?！渡墒饺斯ぶ悄芊展芾頃盒修k法》中對生成式人工智能服務提出了全方位管理的要求，其中第四條規定：提供和使用生成式人工智能服務，應當遵守法律、行政法規，尊重社會公德和倫理道德，并從五個方面進行了具體規制；第五條規定生成式人工智能服務的提供者應當依法承擔網絡信息內容生產者責任。［9］由此可知，檔案部門在應用生成式人工智能開展檔案開發利用的過程中還需要承擔起艱巨的法律和道德責任。

4 余論

生成式人工智能業已展現出了巨大的應用潛力、摹繪出了AI應用的美好圖景。［10］我們在熱切擁抱它的時候也應該以謹慎的態度視之，尤其是應考慮到其在應用過程中可能帶來的巨大風險和倫理問題。在檔案開放利用中，我們固然可以合理暢想其可能的應用場景，但是更需要依據謹慎性原則預警風險和化解風險。更何況在生成式人工智能產品的主要核心技術和數據庫等多掌握在國外公司的當下，我國檔案部門不可能將檔案數據的安全命運交給其掌握；同時，生成式人工智能也存在巨大的技術倫理和社會傳播風險，因此綜合考慮，現階段在檔案開發利用中應用生成式人工智能尚存在一些瓶頸。

值得注意的是，當前我國已有單位和企業嘗試將生成式人工智能應用于知識圖譜的建構且取得了一定成果［11］，但是距離徹底打破上述瓶頸尚有較大差距。主要原因在于：其一，在應用方式方面。生成式人工智能以插件的形式得以與知識圖譜軟件或平臺連接，其尚未經過大體量檔案語料庫的專門性訓練，在構建符合檔案專業特點和要求的知識圖譜中可能會存在偏差。其二，在應用效果層面。由于當前的知識圖譜軟件或平臺將網絡信息也納入了分析范疇，因此基于其建構出的知識圖譜會因為虛假或不實網絡信息的污染而導致準確性較差，而生成式人工智能由于其“共生則關聯”的內容生成機制則可能會加劇這一后果。

現階段生成式人工智能在檔案開發利用中的應用瓶頸分析——以ChatGPT類人工智能為例