基于融合詞向量模型的特色文獻分類

2025-06-19 00:00:00陳藍周杰楊帆

現代信息科技 2025年8期

中圖分類號：TP391.1 文獻標識碼：A 文章編號：2096-4706（2025）08-0157-05

Abstract： In library service work， when facing local characteristic literature with a smalldata volume，library managers need to spend a great deal of time and efort manually organizing such local characteristic literature.In order to achieve automatedpre-clasificatinofcharacteristicliterature，thispaperproposestheCGBmodel，whichisanutomatedclasiiation modelforliteraturewithasmalldatavolume.TakingthecharacteristicliteraturedatasetofGuizhouProvinceas theexperimental object，the model conducts pre-training through GloVeand BERT，fuses the generated vectors，extracts andrepresents features throughTextC，andlasifsharactersticitratureofferentdatasales.Experimentalsultsidicatethatteaacy of the model with fused word vectors isat least 4 % higherthanthatof thebenchmark model.

Keywords： local characteristic literature; text classification; text vectorization

0 引言

在圖書館服務工作中，為展現地方特色建立地方文獻庫，圖書館管理人員需要將具有地方特色的文獻從海量文獻中挑選出來，與中圖分類法不同，地方特色文獻融合了多種類型文獻，如：政治、科技、歷史、小說等，卻又與地方特色密切相關，將此類文獻進行歸納整理需要耗費大量的時間與精力。通過特征提取對文獻[1-3]進行分類，能夠有效簡化圖書館工作人員的工作內容。相較于大數據量動輒上萬條的各種文獻，地方特色文獻具有小數據量的特點，以中圖分類法為基礎，每一個領域只有幾百到幾千條記錄，這種數據量較小的情況使得傳統的機器學習模型和分析方法在處理時可能不夠有效，因此，在面對小數據量的文獻分類時，仍然采用圖書館管理人員手工選擇和提取特征。

在文獻分類任務中，文獻信息的相關性識別具有重要意義，語義信息的精確表達能夠為文獻的相關性識別提供可靠保障。目前，語義信息的精確表達主要采用大量文本數據進行詞向量訓練[4-5]，但各個地區在建立地方特色文獻庫的過程中，相關文獻的公開發表量并不大，在該領域中僅依靠語義信息實現文獻相關度識別，會由于語義信息模糊造成文獻相關性識別的準確率較低，現階段，面向小數據量的文獻分類任務仍然是通過人工完成，加大了員工工作量。為解決這一問題，本文提出了對小數據量的文獻進行自動化預分類的方法，以實現文獻的相關性識別及精準推薦。

為了滿足小數據量的地方特色文獻分類這一現實需求，本文采用貴州省部分特色文獻作為實驗數據，通過GloVe與BERT模型生成融合詞向量后，結合TextCNN的深度學習方法，提出小數據量的文獻分類模型融合詞向量（ClassificationModelwithSmallDataVolumeBasedonBERT-GloVe），并且通過實驗驗證本文所提模型的有效性。

1 研究背景

為了實現文獻自動分類，減輕人工負擔，國內外大量研究人員對此進行研究，張雨卉[基于《中圖法》分別從XMC和HTC對文獻進行分類；呂琦等綜合參考文獻和文本內容信息，構建了引文詞嵌入模型，對期刊文獻進行學科分類；Sajid等[根據粒度主題分類的層次結構進行索引，通過可用元數據上進行多標簽分類。

與大數據量的文獻分類不同，小數據量文獻具有數據特征少的特點，在有限的特征屬性中挖掘潛在內容，可以有效增加模型的分類準確率，因此，文獻數據中的文本信息需要加以利用，由于計算機無法對中文文本數據直接進行處理[9-10]，衍生了大量的自然語言處理技術。易明等[1利用GloVe對在線研討文本進行分類訓練，結合BiLSTM層提取語義特征后實現最終分類；周燕[12]為了解決近義詞、多義詞的表征困難，采用GloVe模型表示詞特征，充分利用全局信息和共現窗口的優勢對文本進行向量化。針對一詞多義問題，BERT模型由Devlin等[13]于2018年提出，該模型通過MASK（Masked-LM）任務以及NSP（NextSentencePrediction）任務，實現文本向量化。Li等[14]基于BERT提出了一種用句子序列代替詞級序列的長文本相似度計算方法，解決了與長文本語義相關的應用的實際問題；陸佳麗[15]提出以Bert-TextCNN模型為基礎且同時考慮標題、正文和正則判斷的多標簽分類方法，該方法在多標簽分類任務中效果提升明顯；Aziz等[利用BERT的上下文優勢進行細微的語言理解，并采用雙仿射注意力機制來精確描述單詞關系，加強了其文本理解能力，并且能夠遷移到其他語料中。綜上所述，目前有大量學者對文本向量化進行研究，但面向中文文本向量化任務中仍然存在詞向量表義不足的問題。

針對小語料庫的文獻分類問題，由于文獻題目具有：專業性強；文本短，形成的上下文語境較小；文本數據小，訓練數據小等特點。相較于其他文本向量化模型，GloVe模型在投入小量數據的短文本語料庫的情況下，更能夠充分利用語料庫中的信息；BERT通過其深層的Transformer架構，能夠動態地理解上下文，從而提高了對復雜語言結構的建模能力，使得詞向量的表達更加完善。GloVe與BERT互相補充，相互完善，因此，本文提出融合GloVe模型與BERT模型地詞向量表達模型，實現特征提取與表達后，對多類型特色文獻進行有效分類。

2 模型設計

為了實現小數據量的文獻精準分類，本文以知網爬取的貴州省特色文獻作為實驗數據，利用GloVe和BERT預訓練生成的融合字向量矩陣[17]，融合向量矩陣經過TextCNN進行特征提取后，通過全連接層得到最終的分類結果，本文使用準確率、召回率等指標對模型的有效性進行了充分評估。模型的整體結構如圖1所示。

2.1 詞向量轉化模塊

文本卷積神經網絡無法識別字符，所以需要實現文本數據向量化。本文將原始數據經過清洗和分詞任務后，通過基準模型生成字向量矩陣，經過融合層后得到該句子的融合向量矩陣。

在算法1中描述了基于GloVe與BERT的詞向量融合方法：

算法1.融合詞向量輸入：初始數據集輸出：短文本的向量矩陣初始化GloVe矩陣 X ，BERT矩陣 Y

1.FOR每條短文本DO

2．FOR每個字符DO

3. IF 字符不為空

4. 獲取字符的GloVe詞向量 x

5. 獲取字符的BERT詞向量 y

6. 擴展 x 維度到與 y 維度相同

7. 將 x 連接在 X 后

8. 將 y 連接在Y后

9. ELSE

10. X 與Y進行加權融合得到融合詞向量矩陣

11. END IF

12. END FOR

13.返回融合詞向量矩陣

14.ENDFOR

2.2特征提取分類模塊

在文本向量化表示中，為優化數據結構，采用特征提取進行降維處理，本文使用文本卷積神經網絡（TextCNN）對融合后的向量矩陣進行特征提取，以有效降低維度并提升模型性能。

在文本卷積神經網絡中，卷積核通過滑動窗口對字符序列進行分析，以提取和組合文本特征，根據滑動窗口大小的不同，獲取不同層次的語義信息。每個卷積核的寬度與字的維度相同，使得每次卷積操作都基于一個完整的字或詞語。此外，每次卷積操作會加上一個偏置項，以增強模型的表達能力。為獲取文本的特征值，采用最大池化方法，從特征向量中篩選出最大的特征值，從而使得模型提取出有效特征，提升分類任務的準確性。

在全連接層中，本文選取Sigmoid函數作為激活函數以實現二分類。若，則類別為正，若，那么為負。

3 實驗分析

3.1 數據集

本實驗以貴州特色文獻庫中的文獻分類為例，采用貴州省特色文獻為原始數據集共10632條，人工為其進行分類，其中以“貴州民族”為標簽的文獻共有2182條；以“貴州歷史”為標簽的文獻共有2068條；標簽為“貴州黨政”的文獻共有590條；標簽為“貴州技術”的數據共有580條。將四組數據根據數據量組為“民族／歷史”的數據集1與“黨政／技術”的數據集2，分別由4250以及1170條數據組成，總數據共有5420條，數據集構成如表1所示，符合小數據量文獻的標準，通過對該數據集的分類效果，可以證實該模型豐富小數據量文本語義的有效性。

進行文本清洗后，按照字粒度進行分詞。選取每個數據集中的 20 % 為評估集，每個數據集中的剩余數據為訓練集，數據集組成情況如表1所示。

3.2 評價指標

如表2所示，本文實驗的評估指標包括：1）準確率（Accuracy）：正確分類與數據總數之比。2）查全率（Recall）：正確預測正類與實際正類樣本數之比。3）查準率（Precision）：正確預測正類與所有預測正類的樣本數之比。4）F1值（F1），表示查全率和查準率的調和平均值。

可以將各類預測結果定義為：1）TP預測為歷史且實際類別也為歷史的結果。2）FN預測為民族但實際類別為歷史的結果。3）FP預測為歷史但實際類別為民族的結果。4）TN預測為民族且實際類別也為民族的結果。

根據這四個指標，可以進一步計算模型的評估指標：

3.3 參數設置

本文使用300維度的GloVe詞向量以滿足詞向量的準確描述。采用兩層卷積結構減少計算復雜度。為了分析詞語關系及主謂賓關系，卷積核大小設為2，以捕捉該長度的N-grams特征。具體參數如表3所示。

3.4 結果分析

為了驗證算法的有效性，本文使用不同大小的數據集進行實驗。對比基線模型：GloVe-TextCNN及BERT-TextCNN，實驗結果如表4所示。

由實驗得出如下結論：

1）通過表4以及圖2可發現，較小數據量時不同模型效果差異度要大于較大數據量時的模型效果。這是由于在小數據量的語料庫中，依賴數據量的BERT模型的訓練效果較差，而在GloVe與融合詞向量模型的訓練過程中，對數據量的依賴性較小。

2）融合詞向量模型的表現優于單一模型。在1170條和4250條數據組成的語料庫中，融合詞向量模型的準確率均高于單一模型。在數據集1中，融合詞向量模型比BERT提升了 8 . 0 4 % ，比GloVe高了4 . 4 5 % ；在數據集2中，本文提出的分類方法相比基準模型的精確率分別提升了 3 . 2 9 % 及 2 . 0 2 % 。

3）隨著數據量的增加，融合詞向量模型準確率的提升速率低于基準模型。這表明在增加數據量的情況下，BERT模型對性能的提升更為顯著，同時GloVe也表現出了一定的提升。在數據量提升時，BERT詞向量模型的準確率有了明顯的大幅度提升，然而在特色文獻數據庫中，每個類別的數據量大多在1 0 0 ～ 1 0 0 0 這個小數據量范圍，因此在小數據量時有更好分類效果的融合詞向量能夠更好地應用在特色文獻分類這一應用場景。

4結論

本文提出一種針對小數據量的文本分類方法，通過結合GloVe和BERT的優點優化文本信息的表達，采用卷積神經網絡可以有效提取文本中的局部特征，適合于處理短文本或句子，增強分類模型的性能。

本文詳盡闡述了融合詞向量模型，并通過實驗，模型在不同數據集上的表現得到了充分評估，為其有效性提供了支持。這種融合方法顯示了跨模型協同的潛力，尤其是在處理小規模數據集時，為后續研究提供了新的思路。在未來的研究中，可以引入注意力機制來加權融合不同來源的詞向量，可能會進一步提升模型的表達能力和性能。

參考文獻：

[1] ZHU B，PAN W. Chinese Text Classification MethodBased on Sentence Information Enhancement and Feature Fusion[J/OL].Heliyon，2024，10（17）：e36861[2024-09-25].https：//doi.org/10.1016/j.heliyon.2024.e36861.

[2] LI J，TANG C，LEI Z，et al. KRA： K-NearestNeighbor Retrieval Augmented Model for Text Classification [J/OL].Electronics，2024，13（16）：3237[2024-09-25].https：//doi.org/10.3390/electronics13163237.

[3] SARIN G， MUKUND P K M. Text Classification UsingDeep Learning Techniques： A Bibliometric Analysis and FutureResearch Directions [J].Benchmarking： An Intermational Journal，2024，31（8）：2743-2766.

[4]王欽晨，段利國，王君山，等.基于BERT字句向量與差異注意力的短文本語義匹配策略[J].計算機工程與科學，2024，46（7）：1321-1330.

[5]孫清華，鄧程，顧振宇.結合詞向量和自注意力機制的設計素材推薦系統[J].計算機輔助設計與圖形學學報，2024，36（1）：63-72.

[6]張雨卉.基于《中國圖書館分類法》的文獻自動化深層分類的研究和實現[J].圖書館雜志，2024，43（3）：61-74.

[7]呂琦，上官燕紅，李銳.基于參考文獻和文本內容學科分類的跨學科測度研究[J].情報學報，2024，43（8）：976-991.

[8] SAJID N， AHMAD M，RAHMAN UA， et al. A NovelMetadata Based Multi-Label Document Classification Technique[J].Computer Systems Science and Engineering，2023，46（2）：2195-2214.

[9]譚可人，蘭韻詩，張楊，等.基于多層級語言特征融合的中文文本可讀性分級模型[J].中文信息學報，2024，38（5）：41-52.

[10]沈思，陳猛，馮暑陽，等.ChpoBERT：面向中文政策文本的預訓練模型[J].情報學報，2023，42（12）：1487-1497.

[11]易明，李藿然，劉繼月.基于GloVe-BiLSTM的在線研討信息分類模型研究[J].情報理論與實踐，2022，45（9）：173-179.

[12]周燕.基于GloVe模型和注意力機制Bi-LSTM的文本分類方法[J].電子測量技術，2022，45（7）：42-47.

[13] DEVLIN J，CHANG M W，LEE K，et al. BERT：Pre-Training of Deep Bidirectional Transformers for LanguageUnderstanding [C]//Proceedings of the 2019 Conference of theNorth American Chapter of the Association for ComputationalLinguistics： Human Language Technologies， Volume 1（Longand Short Papers）.Minneapolis：ACL，2019：4171-4186.

[14] LI X，HU L L. Chinese Long Text SimilarityCalculation of Semantic Progressive Fusion Based on Bert [J].Journal of Computational Methods in Sciences and Engineering，2024，24（4-5）：2213-2225.

[15]陸佳麗.基于Bert-TextCNN的開源威脅情報文本的多標簽分類方法[J].信息安全研究，2024，10（8）：760-768.

[16] AZIZ K， JI D，CHAKRABARTI P，et al. Unifying Aspect-BasedSentimentAnalysisBERTandMulti-LayeredGraph Convolutional Networks for Comprehensive SentimentDissection [J].Scientific Rep0rts，2024，14（1）：14646[2024-09-06]. https：//www.nature.com/articles/s41598-024-61886-7.

[17]邵一博，秦玉華，崔永軍，等.融合多粒度信息的用戶畫像生成方法[J].計算機應用研究，2024，41（2）：401-407.

作者簡介：陳藍（1997—），女，漢族，重慶人，助理館員，碩士，研究方向：信息管理與信息服務、文本挖掘；周杰（1992一），男，漢族，湖北安徽人，副研究館員，碩士，研究方向：數據挖掘、智能檢索；通信作者：楊帆（1969一），男，漢族，貴州貴陽人，教授，博士，研究方向：知識組織與知識工程、文本挖掘。