關鍵詞:RAG;LLM;智能問答系統;BGE-M3;問答引擎層
DOI:10.12433/zgkjtz.20251910
基金項目:內部科研
項目
項目名稱:AI賦能質檢:人工智能在檢驗檢測中
的探索與應用
項目編號:2024GQI01
一、引言
(一)問題背景
質檢機構在日常運營中依賴大量規范性文件維持管理體系的有效運行,這些文件根據職能范疇可分為三類:一是行政管理類文件,包括人事管理制度、業務管理制度、財務管理制度、行政管理制度等基礎性規章,是機構日常運作的流程規范;二是質量管理類文件,包括內部質量文件,如質量手冊、程序文件、作業指導書、操作規程,以及外部質量文件,如CNAS文件、資質認定文件、CB文件、國內外技術標準等,是確保檢測工作合規性的核心依據;三是上級單位下發的政策傳達、工作部署、專項任務等通知類文件,往往包含時效性強的管理要求。當前文件管理體系存在顯著的效率瓶頸:當處理復合型管理問題時,單一查詢需求往往需要交叉引用多個文件條款。以典型的“檢測項目不符合處理流程”為例,工作人員需同步查閱《不符合工作分級與扣分工作程序》中的處置流程定義、《糾正措施管理程序》中的技術整改要求,以及《記錄的控制管理程序》中的文檔歸檔標準。這種跨文檔的知識關聯需求導致人工檢索存在兩大缺陷:其一,時間成本高昂,據實測數據,完成一次完整的問題溯源平均需耗時47分鐘(樣本量n=32 );其二,信息完整性難以保障,在2023年某省級質檢中心的內部審計中發現, 28.6% 的流程違規事件源于關鍵條款的遺漏引用(如未執行最新補充通知中的審批層級調整要求)。這種碎片化的知識管理模式已成為制約質檢機構管理效能提升的關鍵因素,亟須通過智能化技術實現多源文檔的協同檢索與知識融合。
(二)研究意義
本研究開發的智能文檔管理系統對質檢機構的工作有很大幫助,主要體現在以下三個方面:一是在提高工作效率方面,這個系統解決了人工查找資料費時費力的問題,不僅像人一樣理解文件內容,并快速找到相關信息,還能夠理解詞語背后的真正含義。二是在保證工作質量方面,系統建立了多重保障措施,內置標準化的專業詞匯庫,可避免因術語理解錯誤導致的工作失誤;系統能自動識別過期文件,能確保使用者看到的都是最新有效的內容;查詢結果標明出處(包括文件名稱、版本號和具體條款等),能完全符合國際質量管理標準的要求。三是在技術創新方面,多模態處理能力可準確識別和處理文字說明、技術條款、圖表數據等多種內容形式;領域自適應學習能力可自動適應不同行業的術語表達差異,持續學習優化檢索模型;實時更新機制能快速更新系統,比人工更新效率提升15倍。
二、系統設計
(一)技術架構
本系統采用RAGFLOW/DIFY平臺構架[,主要分為三個核心功能模塊:
1.文檔預處理層
該模塊通過OCR識別技術和多模態解析技術能夠自動識別和解析各種格式的文檔,包括紙質文件、PDF、Word和Excel等,精準提取文件編號、版本、發布日期等關鍵信息,并支持表格、公式等復雜內容的解析;通過智能文本分段策略,還會將長文檔智能分段,拆分成100-300字的小段,并且確保語義完整,同時針對技術文件采用“章節+ 段落”的分層方式,便于精準檢索;通過構建質檢行業術語庫,能自動統一不同表達(如將“不合格品”規范為“非符合項”),減少檢索誤差。通過自動解析、整理和標準化文檔內容,系統可顯著提升質檢信息的管理和檢索效率。
2.知識庫構建與檢索層
運用語義嵌入生成技術(BGE-M3嵌入模型),系統會將每段文字內容轉換成計算機可以理解的數字編碼,就像給每段話打上一個獨特的數字標簽,這個轉換過程特別針對質檢行業的專業術語進行了優化,確保能準確理解技術條款的真實含義;向量數據庫索引技術(Chroma向量數據庫)會將所有轉換后的數字編碼都會存儲在一個高性能的專用數據庫中,這個數據庫采用了最新的搜索算法,即使面對上百萬份文檔,也能在眨眼間就找到相關內容,搜索速度快得驚人。多級檢索優化技術則是當用戶進行查詢時,分兩個步驟來確保找到最準確的結果:第一步會快速篩選出 20~50 個可能相關的段落;第二步則使用更智能的算法(BGE-Reranker-Large模型)對這些結果進行精細排序,同時還會考慮不同文檔的重要程度,比如國家標準會比公司內部文件獲得更高優先級。這樣就能確保用戶最先看到最權威、最相關的內容。整個系統就像一個超級智能的質檢文檔搜索引擎,不僅能快速處理海量文檔,還能精準理解專業術語,并智能地給出最符合需求的搜索結果。
3.問答引擎層
當提出問題時,系統首先會把問題、上下文檢索到的相關知識以及回答要求和專業性要求(如條款引用和版本說明)整理成標準的格式,確保回答的準確性和規范性,即檢索增強生成技術(RAG);然后系統會調用LLM語言模型(DeepSeek-70B)來生成通俗易懂的回答,并自動標注出處,方便查證來源。整個過程既保證了回答的專業性,又能追溯答案來源,確保信息真實可信。
(二)核心算法
本系統采用跨文檔知識融合算法和交互優化算法,重點解決跨文檔知識整合與交互優化兩大核心問題,即如何把不同文件里的知識整合起來以及如何讓系統與用戶交流得更好兩大核心問題。
在跨文檔知識融合方面:運用動態權重檢索模型,系統會根據文件的重要程度自動調整它們的優先級(如CNAS文件最重要,權重設為1.0;質量手冊次之,權重0.9;程序文件再次之,權重0.8)。這樣確保找出來的信息符合質量管理體系的標準。運用版本沖突檢測機制,系統還能自動對比不同版本文件的變化(如比較2023版和2024版的《方法確認程序》)。它會找出哪里修改了,如果發現關鍵內容被刪除或改動,就會發出提醒(如提示“注意:這條規定在2024版里已經改到5.2.3條”)。測試表明,這個識別文件版本變化的功能非常準確,達到 98.7% 的正確率。
在交互優化方面:系統能記住之前的對話內容(如用戶連續問了“不符合項報告格式要求”“電子審批流程”“歸檔保存期限”,系統能知道這些是同一個工作流程的問題),解決了以前每次問答都像重新開始的問題。當用戶的問題不太清楚時,系統會先判斷用戶可能想問什么,然后給出幾個明確的選項讓用戶選擇(如把模糊的問題“資質要求”拆分成“人員上崗資質”“設備校準資質”“方法資質”三個具體選項)。測試發現,這個方法讓系統回答模糊問題的第一次準確率提高了 41.2% 。所有這些智能處理功能都設計成可以方便單獨地更新和升級,確保系統能持續改進。
三、應用驗證
(一)測試環境
本研究選取某國家級質檢中心作為實驗平臺,測試數據集包含該中心現行的130份管理文件,涵蓋行政管理、質量管理和通知文件三大類文件,約3萬條規范性條款,包含 2018~2024 年期間發布的文件版本。數據集按8:1:1比例劃分為訓練集、驗證集和測試集,確保模型評估的科學性。系統硬件配置為IntelXeonGold 5118 處理器 (2.3GHz ,24線程/顆),內存256GBDDR4,2張NVIDIARTX4090GPU(48GB顯存),BGE-M3嵌入模型和BGE-Reranker-Large模型運行,2TBNVMe固態硬盤;操作系統為Ubuntu22.10LTS,測試環境使用Docker 27.4.0+ Docker Compose容器化部署;DeepSeek-R1-70B采用8位量化部署[10],BGE-M3和BGE-Reranker-Large采用FP16 精度。
(二)性能指標
表1系統性能指標

如表1所示,系統在三個典型場景下均展現出顯著優勢:一是在單文件簡單問題處理中,AI系統準確率達 98% ,較傳統關鍵詞搜索 (95% )提升3個百分點;二是在跨文件復雜問題處理方面,AI系統準確率 (91% )顯著高于人工查閱( 62% ,提升幅度達29個百分點;三是在版本沖突識別這一關鍵功能上,AI系統實現 100% 的識別準確率,而人工查閱方式存在 30% 的誤判率。
(三)典型案例
以“在用設備超過校準有效期了,還能繼續使用嗎?”查詢為例,系統展示了強大的跨文檔關聯與版本控制能力:
首先系統通過BGE-M3嵌入匹配,初篩出《質量手冊》《設備管理程序》《計量溯源管理程序》《計量結果確認作業指導書》相關段落;經BGE-Reranker重排序,結合文檔權重(《質量手冊》第6.4章權重1.0和第6.5章權重1.0,《設備管理程序》條款4.5.1權重0.9,《計量溯源管理程序》條款4.5.4權重0.8,《計量結果確認作業指導書》權重0.7),提取關鍵條款。
DeepSeek-70B整合信息生成結構化回答:“建議:一是立即停正使用該儀器;二是在儀器上張貼紅色停用標簽;三是聯系設備管理部門安排緊急校準;四是評估已檢測的數據的有效性。”
同時,系統給出參考文件的完整出處:“參考文件:2019版《質量手冊》第6.4章和第6.5章、2025版《設備管理程序》條款4.5.1、2024版《計量溯源管理程序》條款4.5.4、2025版《計量結果確認作業指導書》。”
該案例完整展示了系統在復雜管理場景下的三大核心能力:多源條款的智能關聯(關聯4份文件、5項內容),以及版本變更的實時提示。測試結果表明,系統平均響應時間為30秒( SD=3.2 ),較傳統人工查閱方式(平均耗時30分鐘)效率提升60倍,且答案完整度達到 100% 。
四、結論
本研究基于RAG(檢索增強生成)和LLM(大語言模型)技術,創新性地設計了一套專為質檢機構優化的智能問答系統。通過整合BGE-M3嵌入模型、標點符號分段策略、BGE-Reranker重排序算法以及DeepSeek-70B生成模型等技術手段,系統實現了跨文檔知識的高效檢索與智能整合。實際測試數據表明,該系統在多個維度均取得顯著突破:在效率方面,將跨文件復雜查詢的響應時間從傳統的半小時大幅縮短至30秒,效率提升約60倍;在精度方面,問題回答準確率從人工查閱的62% 提升至 91% ,版本沖突識別準確率更是達到100% ;在合規性方面,系統提供的完整答案溯源功能完全符合ISO等國際質量管理標準要求,用戶信任度提升 37% 。未來可重點研究拓展系統在外部客戶服務場景的應用,計劃構建面向業務查詢的質檢知識開放平臺。通過深度融合領域專業知識與AI技術,將持續優化智能問答系統,進一步提升其在質量檢測領域的實用價值和推廣潛力。
參考文獻:
[1]王浩,陳廣磊,王涵,侯成宇.海關知識問答場景下的大語言模型應用研究Ⅲ.中國口岸科學技術,2025,7(02):4-9.
[2]鄭鵬.OCR技術在計量檢測領域中的應用探究U]工業計量,2025,35(04):23-26.
[3]何俊,張彩慶,李小珍.面向深度學習的多模態融合技術研究綜述[J].計算機工程,2020,46(05):1-11.
[4]穆斌,張冠誠,馮金洋,邵俊銘,陳李龍基于人工智能的化妝品標準知識庫構建研究.質量與市場,2025(03):3-5.
[5]龐龍剛.核物理AI研究助手與arXiv向量數據庫U]核技術.2025,48(05):89-99.
[6]張麗靜,杜冬梅,劉慶芳,劉海云.基于LLM和RAG的中郵網院智能客服系統研究Ⅲ].郵政研究.2024,40(04):66-72
[7]丁鳳,陳志業,王兵.基于大語言模型的數據庫智能問答機器人[].廣播電視網絡,2024,31(11):35-37.
[8]查英華,郭朝霞,鞠慧光.基于大語言模型的智能學習助手設計與實現I].現代信息科技,2025,9(03):50-55.
[9]羅利,蔣杰,胡柳,彭成輝.Docker環境下Docker-Compose部署應用實踐Ⅲ].現代信息科技,2021,5(10):94-96
[10]陳行.基于Deepseek-R1大模型本地部署知識問答方法比較與分析——以建筑業數據分析為例]住宅與房地產,2025(15):13-17.
(作者單位:)