
摘要:生成式大語言模型以ChatGPT為代表在科技文獻、企業文件、法律文書等各領域的應用取得了顯著的成就,也引起了眾多研究者的關注。文章以水利檔案的大語言模型應用為觀察點,從適應性和應用場景兩方面進行分析,就大語言模型在水利檔案領域的應用可能存在的問題包括:數據安全性問題、專業性不強問題、信息準確性未知問題和技術成本問題等,提出對策及進行探討,為大語言模型在該領域的拓展提供建議。
關鍵詞:生成式模型;大語言模型;水利部門檔案;檔案分類;知識圖譜
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)31-0015-03
開放科學(資源服務)標識碼(OSID) :
0 引言
將人工智能應用于檔案管理已成為國家對發展檔案事業的明確要求,并寫入《“十四五”全國檔案事業發展規劃》中。水利部門檔案管理是國家國土規劃、水利事業發展的基礎性工作。同時水利部門檔案存在數量多、類型廣、存儲格式復雜等特點,近年來隨著信息化和數字化的發展,在水利部門檔案管理中取得了一定的成效,但存在兩個方面需要改進的方向:一是現有部門檔案數據的利用效率不高;二是原有部門檔案按照數字化要求重新整理需要大量的工作。
在人工智能領域,近年來以ChatGPT為代表的生成式大語言模型是重要的熱點,在眾多應用領域中表現出優異的性能[1]。生成式大語言模型通過預訓練過程能夠理解復雜文本和隱含的語義關系,針對上述兩方面的問題,可以推動對水利部門檔案數據的知識圖譜的構建和新的服務領域的拓展。作為工程領域自然語言處理的典型應用,本文結合生成式大語言模型在水利部門檔案中的應用場景,來分析存在的問題,并提出可行的對策方法,其在水利檔案領域中的應用和研究具有理論和實踐的雙重意義。
1 生成式大語言模型概述
人工智能生成技術(Artificial Intelligence Gener?ated Content, AIGC)是目前最吸引人的前沿技術之一[2]。用戶可以根據自己的個性化需求,使用生成式大語言模型自動創建需要的內容(如圖片、文字、視頻等)。隨著人工智能算法和網絡結構的迭代發展,AIGC取得了重大進展[3]。生成式對抗網絡(GAN)、對比語言-圖像預訓練(CLIP)、擴散模型以及多模態生成是AIGC各個領域的核心技術,以便自動生成高質量的內容[4]。在2022年底,OpenAI發布了ChatGPT的公開版本,它完美地回應了任何用自然語言描述的人類請求,進一步吸引了全世界的關注[5-6]。
1.1 發展過程
ChatGPT集成了深度學習、無監督學習、指令微調、多任務學習、上下文學習和強化學習等多種技術,功能強大。ChatGPT 建立在最初的GPT(GenerativePretrained Transformer) 模型之上,該模型已從GPT-1 迭代更新為GPT-4。GPT-1于2018年開發,其最初目的致力于通過無監督學習訓練基于一個Transformer 框架的生成式語言模型,并通過對下游任務進一步微調該預訓練模型。2019 年開發的GPT-2,則相對GPT-1基礎上主要引入多任務學習的思想,采用比GPT-1更多的網絡參數和數據進行訓練,使預訓練的生成語言模型可以推廣到大多數監督子任務中,而無須進一步微調。2020年為了進一步提高模型在少樣本或零樣本設置上的性能,GPT-3被推出。GPT-3將元學習和上下文學習相結合,使模型的泛化能力得到大幅提升,在各種下游任務上超過了大多數現有方法。2023年推出的GPT-4是一個接受圖像和文本輸入并發出文本輸出的大型多模態模型,并且隨著自監督學習和多模態大模型的不斷發展,ChatGPT在各種專業和學術基準上已經表現出了接近人類水平的性能。
ChatGPT的zero-shot learning能力是重要的研究亮點,這一能力也被稱為通用適配能力。這一能力使其在無需特定領域任務數據訓練微調的情況下,就能夠發現新的類別。這一特點使其靈活性和通用性在面對新的任務或數據時發揮作用。
1.2 工作原理
生成式大語言模型是基于Transformer框架的自然語言處理模型。以ChatGPT為例,其主要通過預訓練和微調兩種方式進行訓練。在預訓練方式中,模型通過自監督學習方式訓練模型參數,嘗試預測給定上下文的每一個詞,從而學習到訓練語言中的語法、語義、語序和上下文相關的知識。微調的目的是針對特定的任務對模型參數進行優化,使其能更加適應具體的場景。
2 生成式大語言模型在水利部門檔案中的應用
2.1 適應性分析
水利部門檔案根據其不同的數據及技術規范要求,具有多種不同的類型。這些類型在內容、格式、采集方式、使用領域等方面存在差異。這就需要生成式大語言模型的泛化能力。ChatGPT在對海量的數據的訓練下,憑借其對泛化能力的設計,展現出對水利部門檔案電子文檔的優秀處理能力。
同時在通用的大語言模型之外,可以通過特定類型的水利部門檔案電子文檔對大語言模型進行微調,從而呈現垂直細分領域的大語言模型,更具有針對性。這就需要高質量和一定數量的領域數據,水利部門檔案經過多年的積累和電子化過程,其專業性和規范性使其比其他類型電子文檔更具有真實、全面、專業等優勢。這些數據加入特定領域生成式大語言模型中作為訓練語料,可有效補充該領域數據偏置的問題。
2.2 應用場景分析
1) 水利部門檔案分類與摘要抽取。
在水利部門檔案的編制過程中,需要對每份檔案的目錄與內容進行核對及分析,確定其分類,并對檔案的內容進行摘要抽取,并做好記錄。這一過程通過生成式大語言模型可以很好地理解檔案文檔的內容,從而對該檔案進行準確的分類,并生成流暢的符合水利檔案要求的摘要。
大語言模型經過海量各種類型文本的訓練,生成了大規模的模型參數,這些參數針對文本中的各種顯式和隱式的知識進行獲取,能夠對水利部門檔案中各類信息進行精確的理解和分析,再輸出按照任務所需要的各類型信息和摘要,能夠顯著改善檔案管理過程中的效率和質量。
2) 水利部門檔案的知識圖譜構建。
水利部門檔案工作的一個重要任務是構建每份檔案之間的知識圖譜,面臨的挑戰主要有:一是檔案之間的關聯及關聯程度如何快速有效地獲取;二是已經構建的知識圖譜可能存在不全遺漏等問題。
通過大語言模型可以有效緩解或解決上述問題,協助構建更加完整準確的水利部門檔案知識圖譜。在水利部門檔案檢索任務中,通過大語言模型與知識圖譜相互協作,可以先在大語言模型中解析查詢要求,構建語義相似度檢索目錄,再通過知識圖譜尋找最優的檢索結果,從而精準查詢用戶需求,提升質量和效率;在知識圖譜不全過程中,可以利用大語言模型對原有知識圖譜進行知識的再發現,對原知識圖譜中的錯誤、遺漏、增加等工作進行快速有效的反應[7]。通過智能化的處理極大提高知識圖譜構建的科學性和可靠性,為水利部門檔案管理智能化提供解決方案。
3) 水利部門檔案智能問答系統。
水利部門檔案的智能問答系統可以為社會公眾需求提供有益的智力和技術支持,從而提升水利部門檔案服務社會的能力。在具體的實施過程中存在的問題有:一是如何有效區分所需要回答服務的安全性和保密性方面的要求;二是如何有效準確、全面地理解所提問的問題,并有效檢索知識庫,作出及時響應;三是如何通過收集各種問題的需求,從而有效迭代提升現有知識庫的系統性和結構化。
通過人工的方式無法有效和快速地做到深入分析水利部門檔案各種敏感信息,而大語言模型能夠結合現有自然語言處理的各種算法和技術,再對水利部門檔案文檔進行深度理解和分析,識別各種敏感信息,快速有效提升智能審核的效率和質量,保障安全。在智能問答系統中,大語言模型在與用戶的幾輪對話式互動中,了解用戶提問的上下文語境,從而全面理解用戶的需求,并根據每輪的反饋檢索知識圖譜,整理結果,及時給出流暢的詢問結果,同時現有大語言模型能夠理解文字、圖像等信息,所以反饋的結果既包含了詳盡的文字內容也可以圖文并茂地展示對應的多模態信息,從而提高用戶對問答系統的體驗。大語言模型是開放的模型架構,能夠通過自監督學習和主動學習的機制,將問答系統中收集到的各種問題進行聯系,迭代挖掘水利部門檔案中的各類信息,從而實現知識圖譜和問答系統知識庫的迭代更新,使現有的知識利用最大化。
3 應用中可能存在問題及對策
3.1 可能存在問題分析
1) 水利部門檔案數據安全性問題。
數據安全是國家安全的重要組成部分,如何保障水利部門檔案中各類涉及個人、企業、部門、國家的信息安全,敏感信息的保密是一項極其重要的問題。在水利部門檔案通過生成式大語言模型進行開發過程中,需要將大數據量的水利部門檔案文檔上傳至該模型所在的云端,這就存在敏感信息泄漏的風險。因此構建屬于我國自主知識產權的生成式大語言模型,并在使用中嚴格遵守相應的法律法規,通過各種加密技術來全閉環地解決信息泄漏的風險挑戰。需要考慮。現有的大語言模型與檔案類相關的研究以小的模型為主,實際場景中的應用在安全性仍存在一定風險。
2) 大語言模型在水利部門檔案應用中專業性不強問題。
以ChatGPT為代表的大語言模型是在海量的各類型數據集上訓練得到的通用大語言模型,其能夠在較為普通的非專業領域的數據上獲得較好的效果。但在不同的下游任務中,其獲得的結果會表現為綜合性好但專業性的不足。水利部門檔案數據相對于通用大語言模型訓練的海量通用數據存在數據構建和用詞等語言規范上的不同,從而會在語料數據的術語、語言組織、表現形式、專業知識內涵等方面存在顯著差異。這些差異明顯的數據直接應用于通用大語言模型,會因為缺乏對水利部門檔案這一專業領域知識的缺乏而無法完全匹配,從而導致從理解到生成的偏差。這樣的問題也會影響在智能問答系統中的表現,表現為非專業性。
3) 大語言模型獲取水利部門檔案中信息準確性未知的問題。
生成式大語言模型采用基于神經網絡的深度學習框架,其結構由Transformer構成,結構復雜且參數眾多,在這一框架中每層的特征無法準確解釋,從而造成人們對系統在學習過程中得到的知識準確性未知,進而給生成式大語言模型在實際中的使用帶來一定的風險挑戰。這一特性會導致生成式大語言模型在一些特殊場合生成無法控制的創造性結果,這對相對固化的水利部門檔案應用帶來潛在風險。從而使生成的內容相對于水利部門檔案真實性下降,造成一定的不可信度上升。
4) 大語言模型在水利部門檔案應用中的技術成本問題。
生成式大語言模型需要強大的算力支持和一定的技術支持,在這一新技術應用于水利部門檔案應用時,會帶來技術成本問題。體現在:一是傳統的水利部門檔案管理人員需要在原有的檔案技術標準和硬件基礎之上,進一步接受新的技術培訓,從而在水利部門檔案的編輯管理中引入新的標準和內容。二是生成式大語言模型采用的基于神經網絡的深度學習技術存在復雜度相對較高,對使用者能力要求也相應提高的問題,從而需要加大對管理者的培訓投入,從而在普及階段投入較多人力和物力成本。
3.2 對策分析
生成式大語言模型作為人工智能技術的一個重大突破,在各行業中的應用隨著時間的推移會更加深入和廣泛,在其應用于水利部門檔案應用過程中,需要從以下兩個方面進行有針對性的投入。
1) 技術角度。
綜合前面提到的問題,在技術方面首先,提倡使用代碼開源或具有獨立自主知識產權的生成式大語言模型。首先,開源代碼的系統其模型細節可知,即對數據處理的過程安全有保障,在部署到云平臺等互聯網時安全可信,可以從模型最底層就控制好用戶的數據安全。其次,生成式大模型在水利部門檔案應用中,需要對原始檔案文檔進行準確的語義理解,因此需要同時關注生成式大模型的兩個能力即自然語言理解和自然語言生成。自然語言理解能力對于水利部門檔案數據輸入后對其內容全面、準確完整地理解,直接關系到自然語言生成時的推理能力,并對摘要質量、智能問答結果起到關鍵的作用。最后應該在使用通用的生成式大語言模型的基礎上,構建專業性更強的水利部門檔案大語言模型。通過在通用生成式大語言模型基礎上,加入水利部門檔案數據集進行訓練,同時在模型內容引入水利部門檔案先驗知識,并進行有針對的優化,這樣產生的生成式大模型在水利部門檔案領域中具有更強和更高質量的結果輸出。
2) 管理角度。
任何技術都需要在落地過程中與水利部門檔案管理相結合,在考慮技術的條件下,同時降低管理成本。即引導管理人員在使用生成式大模型時能夠切實接受對檔案管理工作帶來的效率提升,從而更加主動地學習生成式大語言模型,形成良性循環。首先,應用生成式大語言模型的管理部門需要摸清楚本部門的檔案信息化程度、員工的信息技術操作水平,對最新的人工智能技術了解程度,是否已經在水利檔案的信息化過程中應用了知識圖譜等新技術手段。其次,需要按照水利部門檔案管理的性質和要求,結合生成式大語言模型的優勢,制定切實可行的推進計劃。最后在水利部門檔案管理的各個層面,結合實際利用生成式大語言模型進行各層次的優化,逐步推向深入,從而節省培訓成本。最終有效結合生成式大語言模型和水利部門檔案管理的應用,達到雙贏結果。
4 總結
在生成式大語言模型不斷取得技術突破,能夠應用的場景更加廣泛的今天,水利部門檔案的智能化是大勢所趨,生成式大語言模型必然在該領域大有可為。如何有效迎接挑戰,抓住機會,是本文想要提供的一個方面的思考。從人工智能技術發展的趨勢來說,生成式大語言模型在水利部門檔案應用中的使用場景會更加多樣化和深入,構建基于水利部門檔案的自有可控的生成式大語言模型是一個重要的方向。同時也會面臨諸多問題,通過針對性的應對策略可以有效提升水利檔案服務社會的深度和廣度,促進水利部門檔案工作高效智能化發展。
參考文獻:
[1] 皇甫超.大語言模型在檔案實踐中的應用研究[J].山西檔案,2024(1):128-131.
[2] 張丹.大語言模型與檔案資源開發:前景、挑戰與應對[J].山西檔案,2023(5):108-111.
[3] 胡毅.大語言模型在檔案領域中的應用研究[J].辦公自動化,2024,29(13):83-86.
[4] 楊磊.新質生產力引擎:大語言模型的原理與應用[J].中國信息技術教育,2024(9):77-82.
[5] 陳遠洋.大語言模型在企業數字化轉型中的應用[J].通訊世界,2024,31(3):129-131.
[6] 張婷婷.企業檔案部門對大語言模型的使用意愿影響因素研究[J].山西檔案,2023(5):112-117,107.
[7] 馮鈞,暢陽紅,陸佳民,等.基于大語言模型的水工程調度知識圖譜的構建與應用[J]. 計算機科學與探索,2024,18(6):1637-1647.
【通聯編輯:王力】