999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種知識(shí)圖譜與大型語(yǔ)言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術(shù)研究

2025-08-28 00:00:00馮琪王繼剛汪健
指揮控制與仿真 2025年4期

引用格式:,,.一種知識(shí)圖譜與大型語(yǔ)言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術(shù)研究[J].指揮控制與仿真,2025, 47(4):34-39.FENGQ,WANGJG,WANGJResearchonbigdatatechnologyformiliaryhumanresourescombining knowledgegraph andlargelanguagemodel[J].Command Controlamp; Simulation,2O25,47(4):34-39.

摘要:針對(duì)大數(shù)據(jù)時(shí)代背景下的軍事人力資源數(shù)據(jù)領(lǐng)域,提出了一種知識(shí)圖譜與大型語(yǔ)言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術(shù),該技術(shù)通過(guò)構(gòu)建多源知識(shí)圖譜消除數(shù)據(jù)孤島,引入大型語(yǔ)言模型提升智能交互能力,應(yīng)對(duì)軍事人力資源領(lǐng)域數(shù)據(jù)應(yīng)用難度大和智能化程度低的問(wèn)題。通過(guò)在試驗(yàn)環(huán)境中進(jìn)行數(shù)據(jù)孤島存量測(cè)試、智能問(wèn)答性能驗(yàn)證和對(duì)比分析,證明了該技術(shù)的可行性和準(zhǔn)確性。

關(guān)鍵詞:大數(shù)據(jù);軍事人力資源;跨模態(tài)數(shù)據(jù)融合;雙重注意力;知識(shí)圖譜;大型語(yǔ)言模型中圖分類號(hào):E917;N945 文獻(xiàn)標(biāo)志碼:A DOI:10.3969/j.issn.1673-3819.2025.04.006

Research on big data technology for military human resources combining knowledge graph and large language model

FENG Qi,WANG Jigang,WANG Jian(Unit96741ofPLA,Weinan714000,China)

Abstract:Aimingatthefieldofmilitary humanresourcesdataintheeraofbigdata,this paperproposesamilitary human resourcebigdata technologycombining knowledge graphand large languagemodel(Mhr-KL).Thistechnologyeliminates datasilos byconstructing multi-source knowledge gaph,and introduceslargelanguage model toimprove inteligent interactionability,soastosoletheproblemsofdificultdataapplicationandlowdegreeintellgentinteractioninthefeldf militaryhumanresources.Thefeasibilityandaccuracyof thistechnologyareprovedbythedataislandinventorytest,inteligent question answering performance verification and comparative analysis in the test environment.

Key words:bigdata;militaryhumanresources;cross-modal datafusion;doubleatention;knowledgegraph;large language model

隨著大數(shù)據(jù)時(shí)代的到來(lái)和社會(huì)發(fā)展的需要,海量、多樣化且高速增長(zhǎng)的數(shù)據(jù)已經(jīng)成為重要的資產(chǎn)和決策依據(jù),它們的處理需要依賴強(qiáng)大的數(shù)據(jù)處理中心、智能的算法和處理技術(shù)[1-3]。在人力資源領(lǐng)域,人力資源數(shù)據(jù)中與人員強(qiáng)相關(guān)的信息數(shù)據(jù)體量極大,是社會(huì)各組織(單位)管理過(guò)程中不可或缺的部分。它對(duì)推動(dòng)各組織(單位)高效、創(chuàng)新發(fā)展起到重要作用,但也面臨來(lái)自大數(shù)據(jù)時(shí)代的挑戰(zhàn)[4]。這些挑戰(zhàn)在涉密程度高、數(shù)據(jù)使用嚴(yán)格遵守法規(guī)、更側(cè)重?cái)?shù)據(jù)規(guī)范化管理和新技術(shù)采納更加保守的軍隊(duì)等組織(單位)體現(xiàn)得尤為明顯。因此,在大數(shù)據(jù)時(shí)代背景下研究一項(xiàng)相對(duì)通用、使用便捷、準(zhǔn)確性高且更加智能的軍事人力資源大數(shù)據(jù)技術(shù),具有較大的現(xiàn)實(shí)意義。

1研究現(xiàn)狀及存在的問(wèn)題

我軍的人力資源信息化工作起步較早,目前,已經(jīng)積累了大量的、時(shí)間跨度很長(zhǎng)的軍事人力資源數(shù)據(jù),并進(jìn)行了部分開(kāi)發(fā)利用,建立了基本的管理和維護(hù)機(jī)制[5]。這些數(shù)據(jù)大多是軍隊(duì)人力資源管理部門、軍內(nèi)其他部門和社會(huì)相關(guān)部門三類有關(guān)部門以信息系統(tǒng)錄入和日常填表上報(bào)的方式采集、留存下來(lái)的。

對(duì)于注重?cái)?shù)據(jù)統(tǒng)一化、規(guī)范化管理和使用的軍隊(duì)而言,任何形式的不統(tǒng)一都是難以容忍的。然而,目前的軍事人力資源數(shù)據(jù)時(shí)間跨度很大,各類填表模板、屬性字段以及填寫規(guī)范等內(nèi)容已經(jīng)發(fā)生了重大變化,兼容不同歷史階段的軍事人力資源數(shù)據(jù)信息是一個(gè)挑戰(zhàn)。另外,基于不同歷吏階段的信息技術(shù)發(fā)展水平和人力資源信息使用需求而設(shè)計(jì)的軍事人力資源信息化系統(tǒng)在建設(shè)標(biāo)準(zhǔn)和技術(shù)路線上不統(tǒng)一:系統(tǒng)之間不兼容或兼容性很差,數(shù)據(jù)流動(dòng)性較低:同質(zhì)化數(shù)據(jù)重復(fù)收集現(xiàn)象嚴(yán)重,各部門脫節(jié)情況明顯,部門間的互聯(lián)互通和數(shù)據(jù)共享還有較大的提升空間[5]。同時(shí),軍事人力資源領(lǐng)域存在龐大的政策、制度和法規(guī)等方面的問(wèn)答需求,目前軍內(nèi)各級(jí)基本上以信箱留言、人工回復(fù)的形式進(jìn)行處理,同類型問(wèn)題多,牽扯精力大,處理周期長(zhǎng)。

總體來(lái)說(shuō),在軍事人力資源數(shù)據(jù)的具體使用過(guò)程中,主要存在以下問(wèn)題:

(1)數(shù)據(jù)應(yīng)用難度大,缺乏統(tǒng)一、有效的管理手段處理不同歷史階段、不同格式、不同系統(tǒng)的軍事人力資源數(shù)據(jù),信息數(shù)據(jù)“孤島化”問(wèn)題嚴(yán)重,數(shù)據(jù)共享、校驗(yàn)和維護(hù)更新機(jī)制不完善,難以被充分挖掘、利用;

(2)智能化程度低,缺乏人機(jī)交互能力,問(wèn)答類需求無(wú)法智能化處理,對(duì)復(fù)雜任務(wù)場(chǎng)景支持程度低或不支持,難以應(yīng)對(duì)非預(yù)設(shè)模式的內(nèi)容生成。

這些問(wèn)題出現(xiàn)的深層次原因在于軍事人力資源數(shù)據(jù)不是單一的結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù),而是兩者高度綁定的復(fù)雜嵌合體。當(dāng)前亟須通過(guò)異構(gòu)融合、重研新建等途徑對(duì)軍事人力資源數(shù)據(jù)進(jìn)行分類整合和深度解析,消除數(shù)據(jù)孤島并提升其智能化水平,為軍事人力資源領(lǐng)域的業(yè)務(wù)辦理和輔助決策提供堅(jiān)強(qiáng)支撐。

2 解決方案

知識(shí)圖譜(knowledgegraph,KG)在解決數(shù)據(jù)孤島問(wèn)題上具有顯著作用,它通過(guò)構(gòu)建一個(gè)基于語(yǔ)義關(guān)系的數(shù)據(jù)結(jié)構(gòu)將分散的數(shù)據(jù)連接起來(lái)形成一個(gè)統(tǒng)一的知識(shí)體系,從而提升數(shù)據(jù)整體的管理和利用效率,YAGO[6、WiKidata[7]等都是基于KG開(kāi)發(fā)的知名產(chǎn)品。大型語(yǔ)言模型(large languagemodel,LLM)具備高效的自然語(yǔ)言處理能力和知識(shí)泛化能力,被廣泛用于開(kāi)發(fā)智能系統(tǒng),如ChatGPT[8]、GPT-4[9]等先進(jìn)的LLM具有數(shù)百甚至上千億個(gè)參數(shù),它們已經(jīng)能通用地解決許多現(xiàn)實(shí)存在的復(fù)雜任務(wù)。在學(xué)術(shù)研究領(lǐng)域,KG與LLM的聯(lián)合成為研究熱點(diǎn)[10-12]

本文基于KG與LLM聯(lián)合的思路,提出了一種知識(shí)圖譜與大型語(yǔ)言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術(shù)(a big data technology for military human resourcescombining knowledge graph and large language model,Mhr-KL),該技術(shù)通過(guò)深度解析軍事人力資源數(shù)據(jù),構(gòu)建多源軍事人力資源知識(shí)圖譜(multi-sourceknowledgegraphofmilitaryhuman resourcesdata, Mhr-Mkg ),消除數(shù)據(jù)孤島,并以 Mhr-Mkg 賦能Bert[13]的改進(jìn)模型Mhr-Bert完成智能化推理,有效地應(yīng)對(duì)大數(shù)據(jù)時(shí)代背景下的軍事人力資源數(shù)據(jù)領(lǐng)域數(shù)據(jù)應(yīng)用難度大和智能化程度低的問(wèn)題。Mhr-KL的工作流程如圖1所示,圖中主要包含 Mhr-Mkg 和Mhr-Bert兩部分,但為完整描述其流程,添加了必要的其他內(nèi)容。

圖1Mhr-KL工作流程Fig.1The workflow of Mhr-KL

2.1多源知識(shí)圖譜構(gòu)建,消除數(shù)據(jù)孤島

軍事人力資源數(shù)據(jù)歷史遺留多、時(shí)間跨度長(zhǎng),數(shù)據(jù)格式和存儲(chǔ)策略存在極大的差異性,數(shù)據(jù)孤島現(xiàn)象嚴(yán)重。推動(dòng)軍隊(duì)人力資源數(shù)據(jù)領(lǐng)域創(chuàng)新發(fā)展,實(shí)現(xiàn)信息互聯(lián)互通和數(shù)據(jù)共享、軍事人力資源相關(guān)單位之間業(yè)務(wù)協(xié)同,解構(gòu)軍事人力資源數(shù)據(jù)嵌合體,消除數(shù)據(jù)孤島是當(dāng)前必須要面對(duì)的一項(xiàng)挑戰(zhàn)。

消除數(shù)據(jù)孤島,在技術(shù)層面需要做到實(shí)時(shí)收集最新產(chǎn)生的軍事人力資源數(shù)據(jù),并兼容、納人歷史軍事人力資源數(shù)據(jù)。KG能夠以三元組(實(shí)體-關(guān)系-實(shí)體)整合、存儲(chǔ)巨量結(jié)構(gòu)化和非結(jié)構(gòu)化的事實(shí)內(nèi)容,并隨著新知識(shí)的持續(xù)輸入而積極演進(jìn),穩(wěn)定、精確地提供特定領(lǐng)域的專業(yè)知識(shí)[14],是處理軍事人力資源數(shù)據(jù)的理想選擇。

為避免軍事人力資源數(shù)據(jù)大規(guī)模的物理遷移,本文梳理軍隊(duì)人力資源數(shù)據(jù)字典,合理劃分密級(jí),采取“邏輯集中、物理分散”的分布式策略,基于KG將分散的海量軍事人力資源數(shù)據(jù)存人圖數(shù)據(jù)庫(kù)Neo4j,匯聚整合為邏輯上集中的軍事人力資源數(shù)據(jù)(體系)圖譜Mhr-Mkg ,其構(gòu)建過(guò)程如圖2所示。

圖2Mhr-Mkg構(gòu)建過(guò)程

Fig.2The construction process of Mhr-Mkg

2.1.1 多源數(shù)據(jù)提取

軍事人力資源數(shù)據(jù)體量龐大、內(nèi)容復(fù)雜且格式多樣,依據(jù)存儲(chǔ)格式可細(xì)分為基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)和問(wèn)答數(shù)據(jù)三大類。其中,基礎(chǔ)數(shù)據(jù)是人員的自然(屬性)信息和待遇等級(jí)、被裝、住房等其他關(guān)聯(lián)信息的數(shù)據(jù)集合,主要以文檔、表格等可編輯的(資源)文件存儲(chǔ);業(yè)務(wù)數(shù)據(jù)是人員的業(yè)務(wù)辦理信息數(shù)據(jù)集合,以PDF、掃描件、照片甚至紙質(zhì)文件等不可(易)編輯的存儲(chǔ)格式為主,主要包括請(qǐng)示、報(bào)告、批復(fù)、人事檔案以及命令通知等材料;問(wèn)答數(shù)據(jù)是面向軍隊(duì)全體人員的人力資源業(yè)務(wù)辦理需求,對(duì)政策法規(guī)執(zhí)行、相關(guān)業(yè)務(wù)辦理過(guò)程中的問(wèn)答數(shù)據(jù)整合而形成的問(wèn)答數(shù)據(jù)集合,多以數(shù)據(jù)庫(kù)字段的形式進(jìn)行存儲(chǔ)。

多源數(shù)據(jù)提取是構(gòu)建多源知識(shí)圖譜的基礎(chǔ)性工作,需要兼顧各歷史階段、不同數(shù)據(jù)格式的原始軍事人力資源信息Mhr-data-raw。為兼容這些資源信息存儲(chǔ)格式的差異性,數(shù)據(jù)提取工作依賴Pythondatabasedriv-ers、Pandas、Openpyxl、Python-docx、LibreOffice以及Ocr等工具組合而成的多源數(shù)據(jù)提取工具鏈(dataextractiontoolchain,DETC)進(jìn)行提取,進(jìn)而得到待處理的軍事人力資源數(shù)據(jù)Mhr-data-pending。

需要說(shuō)明的是,PDF、掃描件、照片以及紙質(zhì)文件僅獲取存放路徑(地點(diǎn))的“鏈接”字符串,作為Mhr-Mkg內(nèi)對(duì)應(yīng)節(jié)點(diǎn)的屬性值。

2.1.2 知識(shí)抽取

Bert是Google AI研究院基于Transformer[15]結(jié)構(gòu)開(kāi)發(fā)的預(yù)訓(xùn)練LLM,它僅需通過(guò)小規(guī)模的標(biāo)注數(shù)據(jù)集完成微調(diào)過(guò)程Fine-tune后即可適應(yīng)不同的下游自然語(yǔ)言處理任務(wù)。

基于Bert無(wú)須大量標(biāo)注樣本進(jìn)行初始化訓(xùn)練的優(yōu)勢(shì)特性,知識(shí)抽取階段將標(biāo)注的軍事人力資源數(shù)據(jù)集Mhr-data注入Bert的Bert-base-chinese版本,完成Fine-tune訓(xùn)練生成Mhr-Bert后,再以Mhr-Bert對(duì)2.1.1中獲取的Mhr-data-pending進(jìn)行實(shí)體識(shí)別、關(guān)系抽取、語(yǔ)義消歧和指代消解,區(qū)分信息源抽取出多源軍事人力資源數(shù)據(jù)中實(shí)體Mhr-E和關(guān)系Mhr-R。

需要注意的是,文本類非結(jié)構(gòu)化的材料在被關(guān)聯(lián)到對(duì)應(yīng)實(shí)體后不再遞歸識(shí)別,保留為結(jié)構(gòu)化的圖譜信息節(jié)點(diǎn)。

2.1.3 知識(shí)融合

軍事人力資源數(shù)據(jù)在解構(gòu)后通常會(huì)存在重復(fù)實(shí)體,為消除冗余、整合信息,確保不同源信息語(yǔ)義的一致性,知識(shí)融合階段對(duì)多源軍事人力資源數(shù)據(jù)中來(lái)自不同源的Mhr-E和Mhr-R進(jìn)行唯一性區(qū)分、同一性合并,然后存人圖數(shù)據(jù)庫(kù)Neo4j生成 Mhr-Mkg 。

唯一性區(qū)分的執(zhí)行過(guò)程中,系統(tǒng)為Mhr-E和 Mhr-R 分別建立唯一標(biāo)識(shí)符Mhr-E-Id和Mhr-R-Id,同一性合并時(shí),保留合并屬性字段的別名,建立歷史屬性別名表Mhr-E-List和Mhr-R-List以支持 Mhr-Mkg 兼容歷史軍

事人力數(shù)據(jù)。

2. 1. 4 新知緩解

KG在處理知識(shí)表示和數(shù)據(jù)集成方面具有優(yōu)勢(shì),但KG往往需要經(jīng)常更新以反映現(xiàn)實(shí)世界的變化,進(jìn)而提供最新的語(yǔ)義信息和知識(shí)背景,否則會(huì)導(dǎo)致查詢結(jié)果不準(zhǔn)確或不完整,對(duì)于大規(guī)模的KG,及時(shí)更新數(shù)據(jù)具有挑戰(zhàn),特別是數(shù)據(jù)源多樣且分布廣泛時(shí)[16]

當(dāng)新知識(shí)產(chǎn)生時(shí),LLM需要及時(shí)更新KG并完成自身狀態(tài)(參數(shù))調(diào)整,本文的情況是,新的軍事人力資源數(shù)據(jù)Mhr-data-new產(chǎn)生時(shí),Mhr-Bert需要及時(shí)維護(hù)Mhr-Mkg 并進(jìn)行自身參數(shù)的適應(yīng)性更新。對(duì)此,本文構(gòu)建了新知緩解策略:一方面,Mhr-Bert將Mhr-datanew存人臨時(shí)知識(shí)圖譜Mhr-Mkg-temp,并在執(zhí)行查詢?nèi)蝿?wù)時(shí)優(yōu)先對(duì)Mhr-Mkg-temp的內(nèi)容進(jìn)行搜索,緩解因Mhr-Bert的參數(shù)調(diào)整時(shí)間窗口而引發(fā)的Mhr-data-new延遲同步現(xiàn)象;另一方面,Mhr-Bert定期將Mhr-Mkg-temp并入Mhr-Mkg并微調(diào)自身參數(shù),以維護(hù)Mhr-Bert的實(shí)用性和 Mhr-Mkg 中數(shù)據(jù)的時(shí)效性。

2.2知識(shí)圖譜賦能大型語(yǔ)言模型,提升智能化水平

LLM可以通過(guò)自我學(xué)習(xí)和遷移學(xué)習(xí)的方式不斷學(xué)習(xí)新知識(shí),然而,其在本質(zhì)上是基于概率的黑箱模型,缺乏對(duì)真實(shí)世界的常識(shí)和深層理解,不具備特定領(lǐng)域的專業(yè)知識(shí),使得它們?cè)诜夯轿粗I(lǐng)域時(shí)可能會(huì)出現(xiàn)不可預(yù)料的結(jié)果,存在無(wú)法回憶事實(shí)、易產(chǎn)生幻覺(jué)知識(shí)等問(wèn)題,嚴(yán)重影響了LLM的可信度[14]。KG作為存儲(chǔ)海量事實(shí)的知識(shí)庫(kù),可為L(zhǎng)LM提供專業(yè)領(lǐng)域的知識(shí)數(shù)據(jù)以輔助解釋產(chǎn)生的結(jié)果,克服LLM泛化能力的缺陷。兩者的聯(lián)合具有較強(qiáng)的優(yōu)勢(shì)互補(bǔ)性,可以造就執(zhí)行知識(shí)表征和推理能力的強(qiáng)大模型,以應(yīng)對(duì)軍事人力資源數(shù)據(jù)智能化水平較低的問(wèn)題。

Bert作為雙向Transformer結(jié)構(gòu)開(kāi)源LLM的代表模型之一,能夠在理解一個(gè)詞的意義時(shí)同時(shí)考慮其前、后的上下文。相比于適合長(zhǎng)文本生成、對(duì)話生成和多輪對(duì)話的單向Transformer結(jié)構(gòu)LLM,Bert可以提供更高精度的查詢、搜索結(jié)果,對(duì)分析軍事人力資源數(shù)據(jù)、為管理者提供輔助決策更具現(xiàn)實(shí)意義。另外,雖然Bert是非國(guó)產(chǎn)化工具,但其作為一個(gè)成熟的LLM,部署運(yùn)行在不涉及數(shù)據(jù)向非安全域流轉(zhuǎn)的本地(內(nèi)網(wǎng)安全域)環(huán)境中,在技術(shù)層面完全可以實(shí)現(xiàn)監(jiān)督透明化,確保軍事人力資源數(shù)據(jù)和信息的安全性。同時(shí),Bert擁有龐大的社區(qū)支持和豐富的資源,提供了高質(zhì)量中文語(yǔ)料版本Bert-base-chinese,避免了模型應(yīng)用過(guò)程中的本土化挑戰(zhàn)。近年來(lái),國(guó)內(nèi)的華為、阿里云也對(duì)其展開(kāi)研究,并取得了豐碩成果,相繼發(fā)布了Bert的國(guó)產(chǎn)化改造版本 MacBert[17]和RoFormer[18]

最重要的是,Bert模型體量相對(duì)較小,適合在資源有限的環(huán)境中部署,使得它在小型企業(yè)和資源受限的通用場(chǎng)景或領(lǐng)域中更具優(yōu)勢(shì),對(duì)本文關(guān)注的軍事人力資源領(lǐng)域尤其有用。因此,本文選取了原生Bert作為為軍事人力資源領(lǐng)域提供智能交互能力的上游LLM,并通過(guò)改造它的Encoder結(jié)構(gòu),使得2.1.2訓(xùn)練生成的Mhr-Bert可以在推理期間接受 Mhr-Mkg 子圖的動(dòng)態(tài)注入,增強(qiáng)其在軍事人力資源領(lǐng)域的推理能力, Mhr -Bert的工作流程如圖3所示。

圖3Mhr-Bert工作流程Fig.3The workflow of Mhr-Bert

2.2.1 Encoder改造

Bert本質(zhì)上是一個(gè)預(yù)訓(xùn)練Transformer結(jié)構(gòu)的編碼器Encoder堆棧,原生Encoder接受非結(jié)構(gòu)化上下文輸入序列Context轉(zhuǎn)換輸出一個(gè)上下文向量token。為了將 Mhr-Mkg (子圖)注入Mhr-Bert并可被正確處理,本文在原生的Encoder中添加多源知識(shí)層Mkg-layer和融合層Fusion-layer,使得顯式的結(jié)構(gòu)化圖譜(子圖)數(shù)據(jù)也可以編碼后作為輸入,聯(lián)合Context展開(kāi)后續(xù)推理。

2.2.2 Mhr-Mkg子圖生成

為了獲取推理期間所需子圖,本文基于Mhr-Bert將Context中的文本實(shí)體Context-E與 Mhr-Mkg 中的Mhr-E進(jìn)行鏈接,得到 Mhr-Mkg 子圖的初始節(jié)點(diǎn)集合G 考慮 Mhr-Mkg 子圖的生成質(zhì)量, G 添加其中各節(jié)點(diǎn)的3跳鄰居節(jié)點(diǎn)進(jìn)行擴(kuò)容得到節(jié)點(diǎn)集合G-A,依據(jù)實(shí)體鏈接置信度對(duì)G-A降噪,同時(shí)將Context作為頭節(jié)點(diǎn)注入,得到最終的子圖節(jié)點(diǎn)集合 G-Sub ,最后依據(jù)Mhr-Mkg檢索G-Sub中任意兩節(jié)點(diǎn)的所有連接邊,構(gòu)建Mhr-Mkg子圖[19-20]

2.2.3 多模態(tài)數(shù)據(jù)聯(lián)合

Context為隱式的非結(jié)構(gòu)文本語(yǔ)料, Mhr-Mkg 子圖為顯式的結(jié)構(gòu)化圖譜數(shù)據(jù),在訓(xùn)練或推理期間,Context在原生的Encoder中被轉(zhuǎn)換為字token,而 Mhr-Mkg 子圖節(jié)點(diǎn)被新添加的Mkg-layer處理為獨(dú)特的node結(jié)構(gòu)。

其中,Encoder的初始輸入為Context的單字劃分(204 token0={h10,h20,h30,…,hk0}. k 為token的長(zhǎng)度, tokeni-1 到 tokeni 的層間輪次信息傳遞表示為:

tokeni-1={h1i-1,h2i-1,h3i-1,…,hki-1}

tokeni={h1i,h2i,h3i,…,hki}

tokeni=Enc(tokeni-1

Mkg-layer實(shí)際上是一個(gè)圖注意力網(wǎng)絡(luò)GAT,其初始節(jié)點(diǎn)嵌人表示為 node0={e10,e20,e30,…,ep0},p 為node的長(zhǎng)度。 node0 傳人GAT(即Mkg-layer),從而完成圖節(jié)點(diǎn)之間的信息傳播, nodei-1 到 nodei 的層間輪次信息傳遞表示為:

nodei-1={e1i-1,e2i-1,e3i-1,…,epi-1}

nodei={e1i,e2i,e3i,…,epi}

nodei=Mkg(nodei-1

由于node與token是不同模態(tài)的數(shù)據(jù),存在數(shù)據(jù)結(jié)構(gòu)引起的語(yǔ)義鴻溝,改造后的Mkg-layer也為node構(gòu)建了定制化的注意力機(jī)制。因此, Mhr-Bert 實(shí)際上是雙重注意力機(jī)制。原生Encoder的注意力機(jī)制是關(guān)于Context的基礎(chǔ)語(yǔ)境注意力,而Mkg-layer的注意力機(jī)制則是關(guān)于 Mhr-Mkg 子圖的外源信息注意力。Mkg-layer的注意力機(jī)制通過(guò)GAT的層間輪次信息傳播過(guò)程實(shí)現(xiàn), emi-1 到 emi 的信息傳遞可表示為

其中,F(xiàn)N是一個(gè)數(shù)據(jù)單向傳播、沒(méi)有反饋的前饋神經(jīng)網(wǎng)絡(luò), 分別為 emi-1 的任意鄰域節(jié)點(diǎn)對(duì) emi 傳播消息的注意力權(quán)重和消息。

2.2.4交互編碼深度綁定

為實(shí)現(xiàn)兩種模態(tài)數(shù)據(jù)的深度信息交互,需要將編碼后生成的token和node形成初始聯(lián)合表征信息 TN0= {token0 , node0} ,注入融合層Fusion-layer中展開(kāi)推理,其中, TN0[0]=token0,TN0[1]=node0 。Fusion-layer是前饋神經(jīng)網(wǎng)絡(luò),在Fusion-layer中, tokeni 與 nodei 直接發(fā)生傳遞、交互,然后輸出的聯(lián)合表征信息再次拆分,TNi-1 到 TNi 信息層間輪次傳遞表示為:

TNi-1={TNi-1[0],TNi-1[1]}

TNi={TNi[0],TNi[1]}

TNi=Fusion(TNi-1

3 評(píng)估驗(yàn)證

為了驗(yàn)證本文所提出的 Mhr-KL 的可行性和準(zhǔn)確性,在試驗(yàn)環(huán)境搭建了簡(jiǎn)單的測(cè)試系統(tǒng)對(duì)該模型進(jìn)行檢測(cè)評(píng)估,檢測(cè)評(píng)估包括數(shù)據(jù)孤島存量測(cè)試、智能問(wèn)答性能驗(yàn)證和對(duì)比分析三個(gè)方面。

3.1數(shù)據(jù)孤島存量測(cè)試

Mhr-KL的可行性和準(zhǔn)確性建立在基礎(chǔ)數(shù)據(jù)支撐完備的情況下,為測(cè)試模型基礎(chǔ)數(shù)據(jù)支撐情況,測(cè)試評(píng)估階段首先對(duì) Mhr-Mkg 進(jìn)行了數(shù)據(jù)孤島存量測(cè)試。測(cè)試結(jié)果如表1所示。

為全面體現(xiàn)數(shù)據(jù)孤島存量測(cè)試的有效性,測(cè)試結(jié)果區(qū)分完整性測(cè)試、時(shí)效性驗(yàn)證、一致性檢驗(yàn)以及冗余度檢查四個(gè)維度進(jìn)行驗(yàn)證。完整性測(cè)試和時(shí)效性驗(yàn)證針對(duì)單項(xiàng)的測(cè)試記錄,以缺失值和時(shí)間戳對(duì)測(cè)試記錄的完整程度和實(shí)時(shí)適用性進(jìn)行檢測(cè);一致性檢驗(yàn)和冗余度檢查著眼整體的測(cè)試記錄關(guān)聯(lián)結(jié)果,以交叉驗(yàn)證值和重復(fù)記錄驗(yàn)證關(guān)聯(lián)結(jié)果的正確性和重復(fù)程度。

"

測(cè)試在2017個(gè)文件共計(jì)8947項(xiàng)記錄上進(jìn)行,數(shù)據(jù)孤島存量測(cè)試結(jié)果如表1所示。其中,8947項(xiàng)測(cè)試記錄涉及973項(xiàng)不同的時(shí)間戳,測(cè)試記錄關(guān)聯(lián)涉及194項(xiàng)關(guān)聯(lián)結(jié)果。從實(shí)驗(yàn)結(jié)果來(lái)看,各項(xiàng)指標(biāo)的未通過(guò)存量均能夠保持在該項(xiàng)總量的 3% 以下,驗(yàn)證了 Mhr-Mkg 對(duì)數(shù)據(jù)孤島的有效抑制。

3.2 智能問(wèn)答性能驗(yàn)證

為評(píng)估Mhr-KL的智能化水平,在數(shù)據(jù)孤島存量測(cè)試的基礎(chǔ)上,測(cè)試評(píng)估階段繼續(xù)使用該8947項(xiàng)記錄(其中包含658項(xiàng)問(wèn)答記錄)組合設(shè)計(jì)了 1 000 項(xiàng)屬性問(wèn)答、200項(xiàng)文本問(wèn)答測(cè)試用例對(duì)Mhr-KL中Mhr-Bert的進(jìn)行測(cè)試,結(jié)果如表2所示。

需要說(shuō)明的是,測(cè)試指標(biāo)區(qū)分完備性、可理解性、(平均)響應(yīng)時(shí)間以及魯棒性四項(xiàng),其中,完備性以問(wèn)答結(jié)果中關(guān)鍵字段是否完全命中體現(xiàn)Mhr-Bert測(cè)試結(jié)果的完整程度,可理解性針對(duì)Mhr-Bert中文語(yǔ)境(本地化)語(yǔ)言組織能力使用開(kāi)源工具Readability[9]進(jìn)行自動(dòng)化易讀性指數(shù)(ARI)評(píng)估并二值化評(píng)估結(jié)果于0/1,響應(yīng)時(shí)間和魯棒性分別以平均時(shí)間和報(bào)錯(cuò)(崩潰)次數(shù)的補(bǔ)集來(lái)側(cè)重檢測(cè)Mhr-Bert的整體性能。

表2智能問(wèn)答性能驗(yàn)證

Tab.2Performance verification of intelligent Qamp;A

從實(shí)驗(yàn)結(jié)果看,屬性問(wèn)答測(cè)試與文本問(wèn)答測(cè)試的各項(xiàng)指標(biāo)的合格率總體保持在 80% 以上,但與 3% 的數(shù)據(jù)孤島存量相比,提升空間仍較大。智能問(wèn)答的性能取決于多方面因素,根據(jù)實(shí)驗(yàn)結(jié)果, Mhr-Bert 對(duì)輸人的魯棒性是限制其他指標(biāo)提升的最主要因素。

3.3 對(duì)比分析

測(cè)試評(píng)估階段的最后進(jìn)行了對(duì)比分析,以量化Mhr-KL與傳統(tǒng)方法的效果差異,整體評(píng)估Mhr-KL帶來(lái)的性能提升。由于傳統(tǒng)方法涉及對(duì)多源數(shù)據(jù)的查詢,為排除人為因素(如業(yè)務(wù)熟練程度)干擾,提升對(duì)比分析的可信度,對(duì)比分析過(guò)程中的傳統(tǒng)方法使用自動(dòng)化程序模擬人力資源領(lǐng)域工作人員實(shí)際的業(yè)務(wù)辦理流程,實(shí)現(xiàn)對(duì)8947項(xiàng)記錄所在原始文件(資源)的查詢與搜索。

對(duì)比分析沿用(改造)了3.2設(shè)計(jì)的1000項(xiàng)屬性查詢、200項(xiàng)文本查詢,共計(jì)1200項(xiàng)測(cè)試用例,并在統(tǒng)一設(shè)計(jì)輸入的條件設(shè)定下排除魯棒性差異對(duì)兩種方法進(jìn)行類似于3.2的完備性、可理解性以及(加權(quán)平均)響應(yīng)時(shí)間三項(xiàng)指標(biāo)測(cè)試,結(jié)果如表3所示。

分析實(shí)驗(yàn)結(jié)果, Mhr-KL 的各項(xiàng)指標(biāo)表現(xiàn)均優(yōu)于傳統(tǒng)方法,得益于KG和LLM的聯(lián)合效果,其查詢結(jié)果不再是字段的簡(jiǎn)單堆疊,在響應(yīng)時(shí)間和可理解性上對(duì)比傳統(tǒng)方法也有較大提升。

表3對(duì)比分析

Tab.3 Comparative Analysis

4 結(jié)束語(yǔ)

本文提出了一種知識(shí)圖譜與大型語(yǔ)言模型聯(lián)合的軍事人力資源大數(shù)據(jù)技術(shù),解構(gòu)軍事人力資源數(shù)據(jù)嵌合體,以應(yīng)對(duì)大數(shù)據(jù)時(shí)代的軍事人力資源數(shù)據(jù)領(lǐng)域數(shù)據(jù)應(yīng)用難度大和智能化程度低的問(wèn)題。通過(guò)在試驗(yàn)環(huán)境中進(jìn)行數(shù)據(jù)孤島存量測(cè)試、智能問(wèn)答性能驗(yàn)證和對(duì)比分析三項(xiàng)評(píng)估,證明了該技術(shù)的可行性和準(zhǔn)確性。

分析實(shí)驗(yàn)可知,3.2中Mhr-Bert的魯棒性制約了Mhr-KL的整體性能,使用提示工程 Prompt[20] “格式化”來(lái)自用戶的“任意”輸入,使Mhr-Bert能夠更好地理解任務(wù)要求,引導(dǎo)其生成期望的高質(zhì)量輸出,避免不必要的迭代次數(shù),提升模型魯棒性和交互質(zhì)量,值得在下一步工作中考慮。另外,本文應(yīng)用大型語(yǔ)言模型時(shí)的輸入涉及兩種模態(tài)數(shù)據(jù)[2],并通過(guò)一一對(duì)應(yīng)的形式進(jìn)行聯(lián)合編碼,探索跨模態(tài)數(shù)據(jù)編碼(對(duì)齊)技術(shù),將多模態(tài)數(shù)據(jù)更合理地編碼綁定、映射到同一個(gè)潛空間,促進(jìn)不同模態(tài)數(shù)據(jù)深度融合、高效交互,提升Mhr-Bert應(yīng)對(duì)跨模態(tài)數(shù)據(jù)輸入的能力,也是一個(gè)重要的研究方向。

參考文獻(xiàn):

[1]王鵬.數(shù)據(jù)資產(chǎn)賦能數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展;解析《關(guān)于 加強(qiáng)數(shù)據(jù)資產(chǎn)管理的指導(dǎo)意見(jiàn)》[N].中國(guó)日?qǐng)?bào),2024- 01-23. WANG P. Empowering high quality development of digital economy with data assets:analysis of the guiding opinions onstrengthening data asset management[N].China Daily,2024-01-23.

[2]王愛(ài)敏,王崇良,黃秋鈞.人力資源大數(shù)據(jù)應(yīng)用實(shí)踐: 模型、技術(shù)、應(yīng)用場(chǎng)景[M].北京:清華大學(xué)出版 社,2017. WANG A M, WANG C L,HUANG Q J. Human resource big dataapplication practice[M]. Beijing:Tsinghua University Press,2017.

[3]穆勝.人力資源管理新邏輯[M].北京:新華出版 社,2015. MU S.New logic of human resource management[M]. Beijing: Xinhua Publishing House,2015.

[4]QAMAR N. Big data analytics: recent trends and applications in human resource management[J]. Journal of Data Acquisition and Processing,2023,38(2):10.

[5]王濤,鄒玉,陳國(guó)升,等.軍事人力資源大數(shù)據(jù)體系與 應(yīng)用展望[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(S1): 51-54. WANG T, ZOU Y,CHEN G S,et al. Military human resources big data system and application prospect[J]. Information Technologyand Network Security,2O23,42 (S1):51-54.

[6]Suchanek FM,Kasneci G,Weikum G.Yago:a core of semantic knowledge[C]//Proceedings of the 16th international conference on World Wide Web.2007:697-706.

[7]Vrandecic D,Krotzsch M. Wikidata:a free collaborative knowledge base[J].Communications of the ACM,2014, 57(10) : 78-85.

[8]KALLAD,SMITHN,SAMAAHF,et al. Study and analysis of chat GPT and its impact on different fields of study[J]. International Journal of Innovative Science and Research Technology,2023,8(3):1-15.

[9]Achiam J,Adler S,Agarwal S,et al. Gpt-4 technical report[EB/OL]. arxiv preprint arxiv:2303.08774,2023.

[10]黃勃,吳申奧,王文廣,等.圖模互補(bǔ):知識(shí)圖譜與大 模型融合綜述[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2024,70 (4):397-412. HUANG B,WU S A,WANG W G,et al.KG-LLMlarge language model[J].Journal of Wuhan University (Natural Science Edition),2024,70(4):397-412.

[11]LIU W,ZHOU P,ZHAO Z,et al.Kbert:Enabling language representation with knowledge graph[J].Proceedings of the AAAI Conference on Artifical Intelligence,2020,34(3):2 901-2 908.

[12]YAO L,MAO CS,LUOY.KG-BERT:BERT forknowledge graph completion[EB/OL]. 2019:1909.03193. https://arxiv.0rg/abs/1909.03193v2.

[13]KENTON JD M W C,TOUTANOVA L K. Bert:Pretraining of deep bidirectional transformers for language understanding[C]//Proceedings of naacL-HIT,2019:2.

[14]PAN SR,LUO L H,WANG Y F,et al. Unifying large language models and knowledge graphs : a roadmap[J]. IEEE Transactions on Knowledge and Data Engineering, 2024,36(7) : 3 580-3 599.

[15]VASWANI A. Attention is all you need[J]. Advances in Neural Information Processing Systems,2017(1) :1-10.

[16]王明皓,殷濤,楊洪杰,等.知識(shí)圖譜和大模型技術(shù)發(fā) 展與應(yīng)用[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(S1): 126-131. WANG M H, YIN T, YANG HJ,et al. Knowledge graphs and large language models technology development and application[J].Information TechnologyandNetwork Security,2023,42(S1):126-131.

[17] CUI Y M, CHE W X,LIU T,et al. Revisiting pre-trained models for Chinese natural language processing[EB/OL]. 2020:2004.13922. htps://arxiv.org/abs/2004.13922v2.

[18]SU JL,AHMED M,LU Y,et al.RoFormer:enhanced transformer with rotaryposition embedding[J].Neurocomputing,2024(568): 127 063.

[19]NLTK Contributors,\"Readability,”in NLTK Contrib, GitHub[EB/OL]. Avai-lable:htps://github.com/nltk/ nltk_contrib/tree/master/nltk_contrib/readability.

[20]SAHOO P,SINGH A K, SAHA S,et al. A systematic survey of prompt engineering in large language models: techniques and applications [EB/OL]. 2024: 2402. 07927.https://arxiv.org/abs/2402.07927v1.

[21]唐獲音,丁奕州,王軒,等.知識(shí)圖譜技術(shù)在預(yù)測(cè)與健康 管理中的應(yīng)用現(xiàn)狀與研究展望[J].電光與控制,2024, 31(2) :1-11. TANGDY,DINGYZ,WANGX,et al.Research progress and prospects of knowledge graph technology applied in prognostics and health Management[J].Electronics Opticsamp; Control,2024,31(2) :1-11.

(責(zé)任編輯:張培培)

主站蜘蛛池模板: 久无码久无码av无码| 亚洲人精品亚洲人成在线| 欧美日韩精品综合在线一区| 精品欧美一区二区三区久久久| 91免费片| 91精品国产91久无码网站| 国产视频一二三区| 国产亚卅精品无码| 91福利在线看| 99视频精品全国免费品| 九九热免费在线视频| 欧洲亚洲一区| 天天综合网色中文字幕| 亚洲视频欧美不卡| 久久黄色小视频| 国产高清在线丝袜精品一区| 国产麻豆va精品视频| 国产精品网址你懂的| 在线观看欧美国产| 国产成人啪视频一区二区三区 | 丝袜高跟美脚国产1区| 手机精品福利在线观看| 亚洲—日韩aV在线| 91丨九色丨首页在线播放| 人妻21p大胆| 免费看美女毛片| 成人午夜亚洲影视在线观看| 亚洲中文字幕在线观看| 国产粉嫩粉嫩的18在线播放91| 福利在线一区| 四虎国产精品永久一区| 欧美午夜一区| 99在线观看国产| 欧美日韩动态图| 伊人久久综在合线亚洲2019| 视频二区中文无码| 国产91熟女高潮一区二区| 亚洲国产一区在线观看| 国模沟沟一区二区三区| 国产三级毛片| 伊人久久福利中文字幕| 亚洲视频黄| 九色综合伊人久久富二代| 国产jizz| 1769国产精品视频免费观看| a级毛片免费播放| 九九热精品视频在线| 22sihu国产精品视频影视资讯| 美女毛片在线| 四虎精品免费久久| 久久人人爽人人爽人人片aV东京热| 鲁鲁鲁爽爽爽在线视频观看| 香蕉蕉亚亚洲aav综合| 亚洲日韩国产精品无码专区| 久久久精品久久久久三级| 97国产一区二区精品久久呦| a网站在线观看| 欧美h在线观看| 国内精品视频在线| 找国产毛片看| 国产日韩欧美在线播放| 四虎永久免费地址| av在线人妻熟妇| 精品福利视频导航| 国产靠逼视频| 亚洲无线观看| 久久亚洲高清国产| 亚洲日韩AV无码精品| 亚洲黄色高清| 国产资源站| 国产福利在线免费| 久久精品人人做人人爽97| 欧美中文字幕在线视频| 国产亚洲精品97在线观看| 日韩欧美国产综合| 免费AV在线播放观看18禁强制| 日韩福利在线观看| 又粗又大又爽又紧免费视频| 国产一区二区在线视频观看| 国产精品美女免费视频大全| 日韩A∨精品日韩精品无码| 在线毛片免费|