999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ALBERT-BiGRU-BCEWithLogitsLoss的多標簽分類方法研究

2025-09-15 00:00:00謝淮東衛沈傲
科技創新與應用 2025年24期

中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2025)24-0054-04

Abstract:Thequalificationreviewoftherecruitmentprocessinvolvesmultipledimensions,whichincreasesthecomplexity anddificultyofclassifcation.Tosolvethisproblem,thispaperproposesamulti-labeltextclasificationmodelbasedon ALBERT-BiGRU-BCEWithLogitsLos.First,theALBERTpre-trainedmodelisusedtoextractglobalsemanticfeaturesofhetext toimprovethemodelsabilitytocapturetextsemanticinformation.ThesefeaturesaretheninputintoBiGRU,andthroughits two-waycontextcapturecapabilities,thecontextdependenciesofthetextarefurtherextracted.Finall,basedonthe BCEWithLogitsLosslossfunction,theprobabilitycalculationandclasificationofthelogsoutputaredirectlycarredout, simplifyingthemodelstructureandimprovingcomputationalstabilityExperimentalresultsprovetheefectivenessofthismethod and can effectively improve the efficiency and accuracy of qualification review.

Keywords: multi-tag clasification; ALBERT; BiGRU;BCEWithLogitsLoss;Natural Language Processing

作為招采流程的準入“過濾器”,資格審查通過對參與主體的條件甄別,確保招采過程公平公正,保障項目質量。傳統的資格審核主要依賴人工處理,這種方式雖然靈活,但卻面臨效率低下、一致性差、易受主觀影響和人為錯誤的問題。特別是在處理大規模和復雜的投標數據時,人工審核的局限性更加明顯

近年來,自然語言處理(NLP)和機器學習技術飛速發展,資格審核流程可轉化為算法驅動的標簽分類任務,通過自動化屬性標注和分類,顯著增強審核結果的準確性和一致性。招采流程中資格審核涉及多個維度,屬于多標簽分類任務,每個樣本可同時屬于多個類別。目前多標簽分類任務廣泛應用于文本分類、圖像標注、生物信息學等領域,主要面臨標簽依賴性不足、數據不平衡、計算復雜度高、數據稀疏及噪聲干擾等問題。Wang等提出了JointEnergy來解決多類分類中的OOD檢測方法。通過聚合來自多個標簽的標簽能量分數來估計OOD指標分數,從聯合似然的角度數學解釋JointEner-gy。 Wu 等提出了包括生成文檔淺層表征的因子化組件和用于深度文本編碼和分類的神經組件的協作表征學習(CRL)模型,并開發基于交替最小二乘法的標簽-文檔點互信息(PMI)矩陣因子化方法和神經組件的多任務學習(MTL)策略來聯合訓練這2個組件。

本文提出一種基于ALBERT-BiGRU-BCEWith-LogitsLoss的多標簽分類模型。該模型結合了ALBERT模型的高效文本表示能力和BiGRU的序列數據處理優勢,通過BCEWithLogitsLoss損失函數有效處理標簽之間的復雜關聯性,優化了資格審核的自動化過程。模型在降低計算復雜度的同時,顯著提升了多標簽分類的準確性和穩定性,特別適用于處理大規模文本數據和樣本不對稱的復雜場景。

1多維度資格要求多標簽分類模型構建

資格審查中,不同企業可能在多個評審標準上同時符合或不符合某要求,資格分類面臨樣本不對稱、多維度數據處理及標簽間關聯等挑戰。本文提出ALBERT-BiGRU-BCEWithLogitsLoss的多維度資格要求多標簽分類模型,能夠顯著提升資格審查的準確性和效率。該模型主要由3個核心組件構成,整體構架如圖1所示。

圖1ALBERT-BiGRU-BCEWithLogitsLoss的整體架構

1.1詞嵌入特征處理

1.1.1ALBERT詞嵌人模型

本文使用動態詞嵌入模型ALBERT,能夠根據不同語境調整生成的詞向量,并通過參數共享和因子化嵌入矩陣技術,實現高效的上下文信息捕捉。ALBERT模型框架如圖2所示。

圖2ALBERT模型框架

模型能夠精準捕捉與各標簽相關的關鍵單詞信息,提升分類的準確性和魯棒性。

如圖3所示,每個注意力頭可以專注于捕捉與某個標簽或一組標簽相關的單詞信息,從而增強模型對不同標簽的敏感度和區分能力。多頭注意力機制通過并行計算多個注意力頭,可以從不同的角度和層面捕獲文本中重要的單詞信息,提升對復雜文本的理解能力,同時有助于防止模型在訓練過程中對特定單詞的過擬合。計算過程如下

MultiHead(Q,K,V)=(head1⊕head2⊕...⊕headn)(

將輸入向量通過線性變換得到查詢矩陣 Qi 鍵矩陣Ki 和值矩陣 V 其中, d 是調節因子,防止 Q 和 K 內積值過大。式(1)對注意力分數進行Softmax歸一化,得到的注意力權重用于加權求和,形成上下文向量。式(2)將所有注意力頭 headi 的輸出進行拼接,得到最終的多頭注意力輸出。

圖3Transformer模塊結構

1.2特征融合

輸入文本序列 ,經過分詞處理后形成一系列標記(Tokens),通過詞嵌入層轉換為嵌入向量E=(e1,e2,…,en) ,嵌入向量捕捉了標記的基本語義信息,并將高維的離散詞匯表示轉換為低維的連續向量。在編碼器中,多頭注意力機制間的 Trm 共享參數,信息雙向傳遞,經過多層Transformer訓練后,每個標記的嵌入向量被轉換為高層次的特征向量 T=(t1,t2,…,tn) 。

1.1.2 多頭注意力機制

在多標簽文本分類任務中,不同單詞對不同標簽的重要程度不同。運用Transformer中的多頭注意力機制,

本文采用雙向門控循環單元(BiGRU)模型實現特征融合。在多標簽分類任務中,BiGRU通過雙向信息傳播機制與門控單元的協同作用,對輸入的特征序列進行處理,將不同時間步的特征信息進行融合,提取出更具代表性的特征表示,實現高級序列建模。

GRU單元包含2個門:更新門 zt 和重置門 rt ,其計算公式如下

更新門為 zt=σ(Wz*[h{t-1}xt+bz])

式中: ht 表示當前時刻的隱藏狀態, b 表示每一個時刻的偏置項, Wz?Wr 和 Wh 表示對應的權重矩陣。根據重置門的輸出,計算候選隱藏狀態

根據更新門的輸出,更新當前時刻的隱藏狀態

分別計算正向和反向的隱藏狀態,然后將它們拼接起來得到最終的輸出。其中,正向GRU的隱藏狀態 受當前輸入 xt 和前一時刻的隱藏狀態 影響,反向GRU的隱藏狀態 受當前的輸入 xt 和后一時刻的隱藏狀態 影響。

在本文中,將ALBERT模型計算得到的文本向量特征作為BiGRU的輸入 xt ,實現特征融合。本方法可以有效地整合全局特征、局部特征和位置信息,使模型能夠更加全面地理解文本的復雜結構和語義,提升多標簽文本分類任務的性能。

1.3標簽分類輸出

將上文經過特征融合的向量輸入到分類層,通過BCEWithLogitsLoss進行歸一化操作,計算出文本屬于每個類別的概率分布矩陣。BCEWithLogitsLoss在內部自動應用了Sigmoid函數,將模型的logits輸出轉換為概率值,并計算二元交叉熵損失,其計算公式為

BCEWithLogitsLoss(x,y)=BCE(σ(x),y)

為確定文本的類別標簽,設定一個閾值。當類別概率大于0.76時,認為文本屬于該類別標簽,這樣同一文檔可以存在多個標簽。

2實驗結果

2.1實驗環境

本文實驗采用CENTOS7.6系統,Intel(R)Xeon(R)CPUE5-2678 3v3@2.50GHz ,MENONYSAMSUNGK4ABG165WB-MCWE/ 132*4 (128G),NVIDIA TITAN XP/12*3 (36GB)搭建環境。使用的實驗環境為PYTHON3.8.0,PYTORCH19.0,CUDA11.0,CUDNN8.0.5版本。本實驗采用到的ALBERT預訓練語言模型維度設置為300,用于對文本單詞進行詞向量表示。BiGRU隱藏層神經元數量設置為128,多頭注意力層使用兩頭注意力,優化器使用Adam,為防止過擬合dropout值設置為0.28,損失函數使用交叉熵損失函數,激活函數使用Sigmoid。

2.2數據集介紹

本文的實驗數據采集于國內某集團公司采購文件中的投標人資格要求,共計1026條資格要求數據集。涉及到的類型有資質條件、財務要求、業績要求、信譽要求、人員要求、其他要求等,其中每一個類型都有5個左右的實際要求。按照3:1:1的比例將投標人資格要求隨機劃分為訓練集、驗證集和測試集。為避免實驗中偶然因素對實驗結果產生的干擾,實驗均運行10次后對結果求均值,得到對比實驗各個模型的精確率、召回率、調和平均值和漢明損失。

3評估指標與實驗結果分析

本文采用Micro-precision、Micro-recall、Micro-F1和漢明損失(HammingLoss)作為評價指標,其中,Micro-F1為主要的評價指標。

為進一步驗證模型結構的有效性,本文采用ALBERT單模型、ALBERT-Seq2Seq 模型與本文提出的ALBERT-BiGRU-BCEWithLogitsLoss模型進行結果對比,實驗結果見表1。

表1不同模型表現結果對比

%

從結果來看,本文提出算法ALBERT-BiGRU-BCE-WithLogitsLoss模型在整體上取得了最佳效果,各項指標均達到最優水平。與基礎的ALBERT相比,精確率提高了 7.7% ,召回率提高了 7.4%,F1 值提高了 7.5% ;與ALBERT-Seq2Seq模型相比,精確率提高了 0.6% ,召回率提高了 0.3%,F1 值提高了 0.59% 。結果表明本模型能夠更好地捕捉文本中的復雜語義關系和上下文信息,有效提升多標簽分類性能

4結論

本文提出了一種基于ALBERT-BiGRU-BCEWith-LogitsLoss的多標簽文本分類模型,該模型利用AL-BERT預訓練模型提取文本的全局語義特征,結合Bi-GRU的雙向上下文捕捉能力,通過BCEWithLogitsLoss進行穩定分類。實驗結果表明,ALBERT-BiGRU-BCE-WithLogitsLoss模型在多標簽文本分類任務中表現出色。因此,模型在需要精確捕捉文本細節和標簽關系的任務中具有重要的應用價值,如文本分類、情感分析和命名實體識別等領域。

未來,可進一步優化模型結構,嘗試結合更多先進的神經網絡架構,通過多層次、多模塊的融合,進一步提升模型對復雜文本語義的理解能力。在特征融合方法上,嘗試引入自適應特征選擇機制,根據不同文本和標簽的特點動態調整特征權重,提升模型的靈活性和適應性。此外,研究如何有效結合文本的語義特征和外部知識圖譜(KnowledgeGraph),利用知識圖譜提供的豐富背景信息,進一步提升模型的分類能力。

參考文獻:

[1]OADPK,KAJEWSKI S,KUMARA,et al.Bid evaluation and assessment of innovation in road construction industry:A systematic literature review[J].Civil Engineering Journal (Iran), 2021,7(1):179-196.

[2]TAREKEGNA N,GIACOBINI M,MICHALAKK.A review ofmethods forimbalanced multi-label classification [J].PatternRecognition,2021(118):107965.

[3]WANG H,LIU W,BOCCHIERI A,et al.Can multi-label classification networks know what they don't know?[J]. Advances in Neural Information Processing Systems,2O21(34): 29074-29087.

[4]WU H,QIN S,NIE R,et al.Effective collaborative representationlearning formultilabel text categorization[J]. IEEE Transactions on Neural Networks and Learning Systems,2021,33 (10):5200-5214.

[5] HOFMANN V,PIERREHUMBERT J B,SCHUTZE H. Dynamic contextualized word embeddings [JJ.arxiv preprint arxiv: 2010.2020:12684.

[6]NIU Z,ZHONG G,YU H.Areview on theattention mechanism of deep learning[J].Neurocomputing,2021(452):48-62.

[7]NOSOUHIAN S,NOSOUHIAN F,KHOSHOUEI A K. A reviewof recurrent neural network architecture for sequence learning:Comparison between LSTM and GRU[J].2021.

主站蜘蛛池模板: 成人噜噜噜视频在线观看| 国产免费福利网站| 国产成人1024精品| 无码丝袜人妻| 成年人国产网站| 国产91丝袜在线观看| 色香蕉影院| 国产91成人| 这里只有精品国产| 在线看AV天堂| 1024国产在线| 成人福利在线免费观看| 99资源在线| 九九九国产| 精品免费在线视频| 久久久久国产一区二区| 国产精品不卡片视频免费观看| 国产福利免费视频| 欧美亚洲综合免费精品高清在线观看| 国产精品视频猛进猛出| 伊人色综合久久天天| 国产呦精品一区二区三区下载 | 制服丝袜亚洲| 2021精品国产自在现线看| 国产一区免费在线观看| 亚洲欧洲日产国产无码AV| 99久久亚洲综合精品TS| 美女一级毛片无遮挡内谢| 精品中文字幕一区在线| 日本黄色不卡视频| 国产精品自在在线午夜区app| 国产美女在线观看| 2021国产精品自拍| 欧美啪啪精品| 久久久久久久久久国产精品| 天天综合亚洲| 欧美日韩午夜| 欧美日韩中文国产va另类| 国产高清在线观看| 亚洲二三区| 欧美激情视频一区二区三区免费| 色综合天天综合中文网| 狠狠v日韩v欧美v| 浮力影院国产第一页| 国产香蕉在线| 国产精品一区在线麻豆| 欧美成人看片一区二区三区| 亚洲激情区| 亚洲国产精品国自产拍A| a天堂视频| 韩国v欧美v亚洲v日本v| 精品天海翼一区二区| 四虎永久在线精品影院| 亚洲午夜久久久精品电影院| 波多野结衣中文字幕久久| 在线看片免费人成视久网下载 | 日韩视频免费| 丝袜无码一区二区三区| 91av成人日本不卡三区| 亚洲成av人无码综合在线观看| 亚洲激情99| 亚洲无码一区在线观看| 日韩一级二级三级| 欧美成人aⅴ| 无码有码中文字幕| 日韩欧美中文字幕一本| 欧美福利在线观看| 亚洲第一天堂无码专区| 亚洲男人的天堂久久香蕉网| 毛片一区二区在线看| 999国内精品视频免费| 伊人天堂网| 日韩无码白| 国产波多野结衣中文在线播放| 成人无码一区二区三区视频在线观看 | 国产日韩丝袜一二三区| 欧美国产日韩另类| 亚洲国产日韩欧美在线| 999福利激情视频| 欧美啪啪网| 日本成人不卡视频| 99在线小视频|