999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大語言模型微調(diào)訓(xùn)練與檢索增強(qiáng)生成技術(shù)在油氣企業(yè)制度問答應(yīng)用中的效果對(duì)比研究

2024-12-31 00:00:00唐嘉龐大崴劉書銘范志弘
數(shù)字通信世界 2024年11期
關(guān)鍵詞:文本實(shí)驗(yàn)模型

摘要:油氣企業(yè)在長(zhǎng)期發(fā)展過程中積累了大量企業(yè)內(nèi)部資料,如規(guī)章制度、技術(shù)標(biāo)準(zhǔn)和操作指南等。這些文件數(shù)量龐大,分布廣泛,查閱和共享存在困難,應(yīng)用LLM技術(shù)為解決這些問題提供了創(chuàng)新的解決方案。在開發(fā)基于LLM的知識(shí)問答應(yīng)用時(shí),常采用微調(diào)和檢索增強(qiáng)生成(RAG)這兩種策略整合專有和特定領(lǐng)域的數(shù)據(jù)。上述方法的優(yōu)缺點(diǎn)尚未在企業(yè)級(jí)應(yīng)用得到充分理解,如何選擇合適的技術(shù)路線,快速落地應(yīng)用是目前企業(yè)在LLM本地化應(yīng)用中首先需要解決的重要問題。該文基于油氣企業(yè)內(nèi)部管理制度構(gòu)建特定領(lǐng)域知識(shí)問答系統(tǒng),通過實(shí)驗(yàn)對(duì)比,從客觀角度開展評(píng)價(jià),為企業(yè)建設(shè)私有化知識(shí)庫提供了實(shí)證經(jīng)驗(yàn)。

關(guān)鍵詞:LLM大規(guī)模預(yù)訓(xùn)練語言模型;油氣企業(yè);RAG微調(diào)

doi:10.3969/J.ISSN.1672-7274.2024.11.035

中圖分類號(hào):TP 3" " " " " " " " "文獻(xiàn)標(biāo)志碼:A" " " " " " 文章編碼:1672-7274(2024)11-0-03

A Comparative Study on the Effects of Fine-tuning Training and Retrieval Enhancement Generation Technology for Large Language Models in the Application of Institutional Question Answering in Oil and Gas Enterprises

TANG Jia, PANG Dawei, LIU Shuming, FAN Zhihong

(Southwest Oil and Gas Field Digital Intelligent Technology Branch, Chengdu 610000)

Abstract: Oil and gas enterprises have accumulated a large amount of internal documents in the long-term development process, covering contents such as rules and regulations, technical standards, and operation guidelines. These files are not only in large quantities, but also widely distributed, making them extremely difficult to access and share. LLM based technology provides innovative solutions to address these issues. When building knowledge question answering applications based on LLM, we often use two strategies: fine-tuning and Retrieval Augmented Generation (RAG) to integrate proprietary and domain specific data. However, the advantages and disadvantages of these two methods have not been fully understood in enterprise-levelapplication. How to choose a suitable technical route and quickly apply large model technology is currently an important issue that is needed to be solved. This article is based on the internal management files of oil and gas enterprise, constructing a specific knowledge base, comparing two methods through experiments, and evaluating from an objective perspective, providing some empirical experience for enterprises to build a private knowledge base.

Keywords: LLM; Oil and gas enterprises; RAG fine-tuning

1" "研究背景

問答系統(tǒng)是自然語言處理領(lǐng)域的一項(xiàng)熱門研究課題。解決問答問題通常需要清楚地理解問題描述的場(chǎng)景,然后利用相關(guān)知識(shí)進(jìn)行推理[1],近段時(shí)間,大語言模型(Large Language Model,LLM)成為流行的解決方案[2],性能表現(xiàn)也有明顯提升。由于通用模型不掌握企業(yè)私有知識(shí),因此在企業(yè)落地應(yīng)用過程中,無法直接根據(jù)個(gè)性化業(yè)務(wù)需求進(jìn)行推理,企業(yè)要想利用LLM技術(shù)構(gòu)建私有的知識(shí)庫應(yīng)用,還需要針對(duì)LLM的能力進(jìn)行增強(qiáng)[3],常用的方式有微調(diào)訓(xùn)練與RAG兩種,對(duì)于油氣生產(chǎn)企業(yè)來說,其內(nèi)部管理制度有通用性,也有專業(yè)性,兩種技術(shù)在該領(lǐng)域的的應(yīng)用難度、成本、效果尚不明確,如何選擇合適的技術(shù)路線,快速落地應(yīng)用是目前企業(yè)在LLM本地化應(yīng)用中首先需要解決的重要問題。本文圍繞兩種技術(shù)開展本地化應(yīng)用實(shí)驗(yàn),就上述方面對(duì)兩種技術(shù)進(jìn)行比較和評(píng)價(jià)。

2" "技術(shù)介紹

2.1 文本切割算法

(1)字符切割。字符切割是按字符數(shù)來切割文檔,將文本簡(jiǎn)單地劃分為N個(gè)字符大小的塊。這種方式不會(huì)考慮文本的結(jié)構(gòu)和上下文之間的關(guān)系。

(2)遞歸切割。遞歸切割按不同的字符遞歸地分割文檔,同時(shí)兼顧被分割文本的長(zhǎng)度和重疊字符。遞歸分塊使用一組分隔符以分層和迭代的方式將輸入文本分成更小的塊。

(3)語義切割。語義切割方式將文本中的語義單元進(jìn)行分割,以便于更好地理解文本內(nèi)容和結(jié)構(gòu)。這種方式適用于上下文有較為明顯的關(guān)系的場(chǎng)景,可以幫助識(shí)別文本中的不同主題、觀點(diǎn)或信息片段。

2.2 Embedding模型

(1)Bge-large-zh-v1.5。它有1 024個(gè)維度,包含了支持中文和英文的多個(gè)版本的Embedding模型。

(2)Jina-embeddings-v2-base-zh。它是支持中英雙語的文本向量模型,支持長(zhǎng)達(dá)8192字符的文本編碼,該模型運(yùn)行無須依賴GPU。

(3)gte-Qwen1.5-7B-instruct。一個(gè)采用SOTA指令調(diào)優(yōu)的多語言嵌入模型,最低要求使用16GB顯存卡型。

2.3 LLM模型

(1)ChatGLM-6B[4]——雙語對(duì)話語言模型。它是一個(gè)開源的、支持中英雙語問答的對(duì)話語言模型,并針對(duì)中文進(jìn)行了優(yōu)化。該模型具有62億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費(fèi)級(jí)的顯卡上進(jìn)行本地部署。

(2)LLaMA[5]——Meta大語言模型。LLaMA語言模型全稱為“Large Language Model Meta AI”,是一個(gè)模型系列,可根據(jù)參數(shù)規(guī)模進(jìn)行劃分。

(3)QWEN-7B[6]——它是基于Transformer架構(gòu)的大型語言模型,具有70億參數(shù)規(guī)模,使用超過2.4萬億tokens數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。

2.4 微調(diào)方法

模型微調(diào)通常采用三種主流方法:Freeze、P-Tuning和LoRA方法[7]。Freeze方法源自傳統(tǒng)的遷移學(xué)習(xí),通過凍結(jié)原始模型的部分參數(shù),僅訓(xùn)練部分參數(shù)以適應(yīng)新任務(wù);P-Tuning(提示調(diào)優(yōu))固定預(yù)訓(xùn)練模型的參數(shù),在模型輸入端添加可學(xué)習(xí)的“prompt”(提示),通過優(yōu)化這些提示來調(diào)整模型輸出,只需更新少量參數(shù),并且不改變模型結(jié)構(gòu);LoRA方法在LLM上引入額外的低秩矩陣并行于指定的權(quán)重矩陣,在訓(xùn)練過程中僅調(diào)整這些額外低秩矩陣的參數(shù)。

3" "實(shí)驗(yàn)設(shè)置

3.1 評(píng)估數(shù)據(jù)集和標(biāo)準(zhǔn)

首先,從企業(yè)管理手冊(cè)中選取了若干包含關(guān)鍵管理信息的章節(jié)。這些章節(jié)涵蓋了管理流程、政策和操作指南等方面,確保了數(shù)據(jù)的廣泛性和代表性。在選定章節(jié)后,將每個(gè)章節(jié)細(xì)分為若干段落(標(biāo)注為標(biāo)準(zhǔn)答案)。每個(gè)段落包含一個(gè)相對(duì)獨(dú)立的主題。這樣的細(xì)分有助于提高檢索模塊的精度,確保生成模塊能夠獲得足夠具體且上下文相關(guān)的信息(標(biāo)注為檢索上下文)。在段落提取過程中,針對(duì)每個(gè)提取的段落,設(shè)計(jì)了多個(gè)相關(guān)問題(標(biāo)注為問題)。

本文在設(shè)計(jì)問題時(shí)包含基本事實(shí)性問題和復(fù)雜的操作性問題,確保問題集合能全面反映段落內(nèi)容,最終生成lt;問題,檢索上下文,標(biāo)準(zhǔn)答案gt;的數(shù)據(jù)集。標(biāo)注過程采用雙重標(biāo)注法,每個(gè)問題和答案都由兩名獨(dú)立的專家進(jìn)行標(biāo)注,然后進(jìn)行一致性檢驗(yàn),確保標(biāo)注結(jié)果的準(zhǔn)確性和可靠性。上下文段落作為檢索模塊的輸入,標(biāo)準(zhǔn)答案則用于后續(xù)評(píng)估模塊的對(duì)比和分析。

根據(jù)上述數(shù)據(jù),由專家評(píng)價(jià)兩種方法生成答案的質(zhì)量。評(píng)價(jià)指標(biāo)主要包括:答案的準(zhǔn)確性、信息提煉度、文本一致性以及拒答能力[8]。針對(duì)每一類指標(biāo)設(shè)置了1~5分五檔評(píng)分選項(xiàng),分?jǐn)?shù)越高表示該方法在相應(yīng)指標(biāo)上表現(xiàn)越好。

3.2 技術(shù)選型

本文在選擇Embedding模型時(shí)綜合考慮了模型大小、顯存占用和檢索任務(wù)的平均召回率,選擇Bge-large-zh-v1.5作為Embedding模型。在選擇LLM模型時(shí),同樣綜合考慮了性能和配置要求,微調(diào)的難度以及模型配套的各種工具成熟度,選擇了ChatGLM-6B作為兩個(gè)實(shí)驗(yàn)中RAG的LLM底座和微調(diào)基模型??紤]到本實(shí)驗(yàn)需要對(duì)模型進(jìn)行新知識(shí)更新,因此選擇了LoRA方法進(jìn)行微調(diào)[7]。

3.3 實(shí)驗(yàn)過程

3.3.1 搭建環(huán)境

為了進(jìn)行模型微調(diào)和RAG系統(tǒng)的實(shí)驗(yàn),實(shí)驗(yàn)硬件配置如下:CPU采用Intel Core i9-12900K;GPU選用NVIDIA GeForce RTX 4090,配備24 GB GDDR6X顯存。實(shí)驗(yàn)中使用的模型和數(shù)據(jù)集均保存在本地存儲(chǔ)中。

3.3.2 RAG實(shí)驗(yàn)

構(gòu)建一個(gè)小型的油氣企業(yè)管理制度知識(shí)庫,該知識(shí)庫包含了15個(gè)企管關(guān)鍵制度文檔,專業(yè)覆蓋企業(yè)管理、油氣開發(fā)生產(chǎn)、信息化三個(gè)方向,由于大模型本身對(duì)企業(yè)內(nèi)部知識(shí)理解有限,直接進(jìn)行初始化向量處理通常存在檢索命中率不高的情況。為提高檢索質(zhì)量,本實(shí)驗(yàn)檢索前和檢索后階段,采用了父文檔回溯方法,以解決傳統(tǒng)文檔分塊方法中因固定長(zhǎng)度而導(dǎo)致的塊文本過小或過大的問題。該方法將文檔分解為小塊存儲(chǔ),平衡了準(zhǔn)確性和上下文需求。

完成上述優(yōu)化后進(jìn)行測(cè)試,專家對(duì)反饋的檢索上下文和答案進(jìn)行評(píng)估打分。

3.3.3 LoRA微調(diào)實(shí)驗(yàn)

從知識(shí)庫抽取1 000條數(shù)據(jù)進(jìn)行模型微調(diào),800條用于訓(xùn)練,200條用于對(duì)比。其中,LoRA的配置參數(shù)為低秩矩陣的秩設(shè)為16,縮放因子設(shè)為32,Dropout率為0.1。目標(biāo)模塊選擇了注意力機(jī)制中的查詢投影矩陣(q_proj)和值投影矩陣(v_proj)。訓(xùn)練配置參數(shù):學(xué)習(xí)率為2e-5,訓(xùn)練批次大小為8個(gè)樣本,訓(xùn)練總共進(jìn)行10個(gè)epoch,權(quán)重衰減率設(shè)為0.01。一次實(shí)驗(yàn)訓(xùn)練耗時(shí)大約為16小時(shí)。模型訓(xùn)練完成后交由評(píng)估團(tuán)隊(duì)對(duì)反饋答案進(jìn)行評(píng)評(píng)估。

3.4 實(shí)驗(yàn)結(jié)果分析

3.4.1 實(shí)施情況

RAG實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備以各類非結(jié)構(gòu)化文本為主,無需做特殊處理,自動(dòng)向量化后即可進(jìn)行推理問答,微調(diào)需要專門構(gòu)建訓(xùn)練數(shù)據(jù)集,本次實(shí)驗(yàn)中構(gòu)建的訓(xùn)練數(shù)據(jù)集條數(shù)為1 000余條,標(biāo)注耗時(shí)約為80小時(shí)。

RAG實(shí)驗(yàn)向量化處理時(shí)間約為1小時(shí)(僅首次加載需要);模型微調(diào)訓(xùn)練實(shí)驗(yàn)需要多次嘗試不同參數(shù)配置,在合適的參數(shù)且不報(bào)錯(cuò)的情況下,單次訓(xùn)練耗時(shí)約16小時(shí)。

硬件配置方面,RAG所需的配置要求更低,僅需保證推理所需的GPU運(yùn)算能力即可,訓(xùn)練的算力要求則需要推理算力的2~3倍[9]。

3.4.2 性能表現(xiàn)

(1)答案準(zhǔn)確性:RAG得分4.5,微調(diào)得分3.8,RAG表現(xiàn)略優(yōu)于微調(diào)模型,但在油氣開發(fā)生產(chǎn)管理制度方面,RAG在召回過程中容易出現(xiàn)召回錯(cuò)誤或目標(biāo)文檔排名靠后的問題,導(dǎo)致后續(xù)推理準(zhǔn)確性受到影響。

(2)信息提煉度:兩者表現(xiàn)差距不大,RAG得分3.2,微調(diào)得分3,生成的答案對(duì)問題的回答均存在細(xì)節(jié)上的缺失,在理解用戶提交的描述性需求時(shí)信息提取尚不夠完整。

(3)文本對(duì)齊度:RAG得分為4.3,微調(diào)得分為3.8,生成內(nèi)容與原文檔均表現(xiàn)出較好的相關(guān)度,微調(diào)模型在面對(duì)信息化相關(guān)問題時(shí),文本對(duì)齊能力更差,這是因?yàn)榛P驮械闹R(shí)與訓(xùn)練數(shù)據(jù)集提供的企業(yè)私有知識(shí)相似度較高,微調(diào)訓(xùn)練對(duì)模型原始的參數(shù)分布影響過小。

(4)拒答能力:RAG得分為3.2,顯著優(yōu)于微調(diào)的1.2。RAG能夠更好地拒絕回答敏感問題或無關(guān)信息,而不是提供模糊答案。這是因?yàn)镽AG模通過知識(shí)庫檢索信息可以更準(zhǔn)確地判斷問題是否在其知識(shí)范圍內(nèi),從而決定是否回答。相比之下,微調(diào)模型在面對(duì)敏感問題或無關(guān)信息時(shí),往往傾向于提供模糊或不準(zhǔn)確的答案。

4" "結(jié)束語

本文對(duì)比了微調(diào)和增強(qiáng)檢索生成(RAG)兩種技術(shù)在油氣企業(yè)知識(shí)庫本地化應(yīng)用中的表現(xiàn)。通過一系列嚴(yán)格的實(shí)驗(yàn)和評(píng)估,發(fā)現(xiàn)RAG綜合表現(xiàn)略優(yōu)于微調(diào)模型,在應(yīng)用效果上,RAG表現(xiàn)出了更好的準(zhǔn)確性、文本對(duì)齊度和拒答能力,同時(shí)其數(shù)據(jù)準(zhǔn)備和實(shí)施難度也更低;在算力消耗上,RAG具備明顯的優(yōu)勢(shì),但由于本文的實(shí)驗(yàn)數(shù)據(jù)均為制度文檔,涉及的油氣專業(yè)概念相對(duì)較少,因此兩種方式的表現(xiàn)是否能在專業(yè)文檔中繼續(xù)保持還有待考證??傮w來說,在初期應(yīng)用階段,RAG的綜合優(yōu)勢(shì)更明顯。未來研究可以在以下方面進(jìn)一步展開:探索文本切割算法和更高效的Embedding模型,提高RAG模型的檢索和生成能力;嘗試結(jié)合多種微調(diào)方法,以期在減少計(jì)算成本的同時(shí)提高模型性能;針對(duì)模型在油氣專業(yè)知識(shí)理解上的幻覺問題,對(duì)基模型、Embedding模型同步進(jìn)行微調(diào);隨著油氣企業(yè)內(nèi)部知識(shí)文檔的不斷更新擴(kuò)展,動(dòng)態(tài)更新知識(shí)庫的方法也是一個(gè)重要的研究方向。

參考文獻(xiàn)

[1] Jin Qiao, Yuan Zheng, Xiong Guangzhi, et al. Biomedical question answering: a survey of approaches and challenges. ACM Computing Surveys, 2022, 55 (2):1–36

[2] 劉合,任義麗,李欣,等.油氣行業(yè)人工智能大模型應(yīng)用研究現(xiàn)狀及展望[J].石油勘探與開發(fā),2024,51(4):1-14.

[3]" Y. Gao, Y. Xiong, X. Gao, K. Jia, J. Pan, Y. Bi et al., \"Retrieval-augmented generation for large language models: A survey,\" arXiv preprint arXiv:2312.10997, 2023.

[4] T. GLM, A. Zeng, B. Xu, B. Wang, C. Zhang, D. Yin et al., \"ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools,\" arXiv preprint arXiv:2406.12793, 2024.

[5] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, et al.,\"Llama 2: Open Foundation and Fine-Tuned Chat Models\"https://arxiv.org/abs/2307.09288

[6] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cuiet Kai Dang, Xiaodong Deng, et al.,\"Qwen Technical Report,\"https://arxiv.org/abs/2309.16609

[7] X. Sun, Y. Ji, B. Ma, and X. Li, \"A comparative study between full-parameter and lora-based fine-tuning on chinese instruction data for instruction following large language model,\" arXiv preprint arXiv:2304.08109, 2023.

[8] Liang Xu, Anqi Li, Lei Zhu , Hang Xue , Changtai Zhu , Kangkang Zhao, Haonan He1 , Xuanwei Zhanget al.,“SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark,”https://arxiv.org/pdf/2307.15020

[9] A. Balaguer, V. Benara, R. L. de Freitas Cunha, R. d. M. Estev?o Filho, T. Hendry, D. Holstein et al., \"RAG vs fine-tuning: Pipelines, tradeoffs, and a case study on agriculture,\" arXiv e-prints, p. arXiv: 2401.08406, 2024.

猜你喜歡
文本實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 中国毛片网| 狠狠干欧美| 国产成人精品无码一区二| 日韩国产亚洲一区二区在线观看| 国产一二三区在线| 亚洲中文字幕无码爆乳| 亚洲男人的天堂网| 丁香综合在线| 99久久国产综合精品女同| 久久国产精品夜色| 亚洲无码精品在线播放| 天天摸天天操免费播放小视频| 国产91色| 蝴蝶伊人久久中文娱乐网| 成年女人18毛片毛片免费| 天天综合网亚洲网站| 亚洲三级网站| 亚洲日韩Av中文字幕无码| 无码免费的亚洲视频| 特级做a爰片毛片免费69| 免费看av在线网站网址| 亚洲自偷自拍另类小说| 鲁鲁鲁爽爽爽在线视频观看| 免费看一级毛片波多结衣| 国产精品网址你懂的| 国产毛片高清一级国语| 又爽又大又光又色的午夜视频| 日本在线欧美在线| 91精品人妻互换| 欧美、日韩、国产综合一区| 毛片久久久| 国产激情无码一区二区免费| 亚洲成网站| a亚洲视频| 久久综合九色综合97婷婷| 久久亚洲综合伊人| а∨天堂一区中文字幕| 国产自在线播放| 人妻夜夜爽天天爽| 亚洲综合第一页| 在线无码九区| 中文字幕人妻av一区二区| 中文字幕伦视频| 国产在线八区| 成人免费视频一区| 国产无码性爱一区二区三区| 热re99久久精品国99热| 日韩高清成人| 99re视频在线| 91视频免费观看网站| 午夜欧美理论2019理论| 久久精品中文字幕免费| 亚洲日韩久久综合中文字幕| 日本不卡免费高清视频| 97视频在线精品国自产拍| 亚洲av中文无码乱人伦在线r| 视频在线观看一区二区| 四虎影视永久在线精品| 久久国产黑丝袜视频| 一本大道香蕉中文日本不卡高清二区| 久久大香伊蕉在人线观看热2 | 在线国产91| 国产精品开放后亚洲| 国产成人精品无码一区二 | 久久99国产综合精品女同| 亚洲精品少妇熟女| 国产91视频观看| 亚洲美女一区| 久久精品电影| 91国内视频在线观看| 国产偷国产偷在线高清| 高清国产va日韩亚洲免费午夜电影| 国产真实乱子伦精品视手机观看| av在线无码浏览| 午夜激情婷婷| 国产人人射| 免费国产黄线在线观看| 国产精品视屏| 久久久亚洲色| 欧美一级在线| 波多野结衣一二三| v天堂中文在线|