









摘 要 為提高圖書審校效率,論文以高校圖書館館藏中文書目為數(shù)據(jù)源,以內(nèi)容提要、主題詞和題名為特征詞來源,根據(jù)特征詞來源位置對特征詞進(jìn)行加權(quán)處理和特征詞詞頻統(tǒng)計(jì),構(gòu)建圖書-特征詞稀疏矩陣,按比例對帶有圖書分類號的稀疏矩陣進(jìn)行樸素貝葉斯計(jì)算,找到圖書分類最大概率,評估訓(xùn)練分類模型。實(shí)驗(yàn)結(jié)果表明,利用樸素貝葉斯算法基于加權(quán)精選特征詞的圖書智能分類模型,具有良好的實(shí)用性,對進(jìn)一步提高采編部工作的智能化和高效化是有效可行的。
關(guān)鍵詞 機(jī)器學(xué)習(xí);樸素貝葉斯;圖書智能分類;中文圖書
分類號 G254.3
DOI 10.16810/j.cnki.1672-514X.2025.02.006
An Empirical Study on Intelligent Classification of Chinese Books Based on Machine Learning
Xia Dan
Abstract To improve the efficiency of book review, this paper takes the Chinese bibliography collected by university library as the data source, takes the content summary, subject words and titles as the source of feature words, carries out weighted processing and word frequency statistics of feature words according to the source location of feature words, constructs a book feature word sparse matrix, carries out naive Bayes calculation on the book feature word sparse matrix with book classification number proportionally, finds the maximum probability of book classification, and evaluates and trains the classification model. The experimental results show that the book intelligent classification model based on weighted selection of feature words using naive Bayes algorithm has good practicality, it is effective and feasible for further improving the intelligence and efficiency of the collection and editing department’s work.
Keywords Machine learning. Naive Bayes. Intelligent book classification. Chinese books.
0 引言
目前,高校圖書館雖然圖書物理加工、書目著錄工作外包給圖書供應(yīng)商,在一定程度上分擔(dān)了采編部的工作,但是對良莠不齊的著錄數(shù)據(jù)的審校工作依然很耗費(fèi)時間和精力,造成大量圖書積壓。根據(jù)近幾年圖書審校人員對書商發(fā)生的著錄數(shù)據(jù)錯誤類型和錯誤數(shù)量的統(tǒng)計(jì)發(fā)現(xiàn),描述圖書客觀信息的著錄字段錯誤較少,如書名、著者、定價等字段,絕大部分著錄錯誤集中在反映圖書內(nèi)容的圖書分類上,因?yàn)槊總€圖書館都有自身的館藏分類原則,而外包書商很難滿足所有合作圖書館的分類要求,所以影響審校工作效率的瓶頸就是圖書分類,如果大部分圖書分類快速、準(zhǔn)確,就可以大大縮短圖書加工周期,節(jié)省更多的人員和時間去完成更高層次、更深層次的讀者服務(wù)工作。
隨著人工智能技術(shù)的發(fā)展,高校圖書館已經(jīng)有多個領(lǐng)域?qū)崿F(xiàn)了智慧化,如清華大學(xué)圖書館的讀者咨詢問答智能機(jī)器人[1]、南京大學(xué)圖書館的具備引導(dǎo)、圖書查詢等功能的“圖寶”智能機(jī)器人[2]等,智慧化大大解放了人力,提高了高校圖書館工作效率,這些成功案例為人工智能技術(shù)應(yīng)用在圖書編目領(lǐng)域提供了信心。本文在總結(jié)前人關(guān)于中文圖書自動分類研究成果的基礎(chǔ)上,嘗試將機(jī)器學(xué)習(xí)算法引入到中文圖書分類中,構(gòu)建基于特征加權(quán)的中文圖書智能分類模型,使之能夠根據(jù)反映中文圖書內(nèi)容的重要字段信息智能輸出圖書分類號,并以哈爾濱理工大學(xué)圖書館(以下稱“本館”)的館藏?cái)?shù)據(jù)做測試,驗(yàn)證該模型的準(zhǔn)確性,以期解決中文圖書分類效率低、準(zhǔn)確率不高的問題,提升采編部的工作效率,這也是智慧化在圖書館傳統(tǒng)業(yè)務(wù)中的最佳體現(xiàn)[3]。
1 中文圖書自動分類相關(guān)研究
學(xué)者對中文文獻(xiàn)自動分類標(biāo)引的研究成果是比較豐厚的,但是對中文圖書的自動分類標(biāo)引研究成果相對不是很多,且大多處于試驗(yàn)階段,根據(jù)對相關(guān)文獻(xiàn)的閱讀、研究和梳理,總結(jié)出中文圖書自動分類研究呈階段性特征,主要有兩種方式:一種方式是集中在20世紀(jì)80年代至2009年,基于專家系統(tǒng)實(shí)現(xiàn)圖書自動分類;一種方式是集中在2010年及以后,基于機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)圖書自動分類。
1.1 基于專家系統(tǒng)
20世紀(jì)80年代,有學(xué)者開始了基于專家系統(tǒng)的圖書分類研究[4],隨后一些年陸續(xù)有學(xué)者開展了相關(guān)研究。該研究方式的思路是由圖書分類領(lǐng)域?qū)<腋鶕?jù)其多年的工作經(jīng)驗(yàn)提供專門的領(lǐng)域知識,構(gòu)建系統(tǒng)知識庫。專家系統(tǒng)利用推理機(jī)制對待分類的圖書選擇適合的知識進(jìn)行推理,得出最適合的分類結(jié)果,知識庫可根據(jù)實(shí)際需求、經(jīng)驗(yàn)的不斷累積而不斷改進(jìn)、完善,使得出的結(jié)果更加精準(zhǔn)。比較典型的研究有鄧要武[5]基于《中圖法》的分類原則和有關(guān)分類專家的思維,構(gòu)建了“圖書自動分類專家系統(tǒng)”,并進(jìn)行了技術(shù)實(shí)現(xiàn);田軍[6]以《中圖法》中計(jì)算機(jī)類圖書分類為例建立了分類系統(tǒng)模型,詳細(xì)探討了分類系統(tǒng)的知識表示技術(shù)、推理機(jī)制和知識獲取;顧燕萍[7]等利用基于《中圖法》的中文信息自動標(biāo)引和自動分類系統(tǒng)對中文圖書自動標(biāo)引和自動分類進(jìn)行了測試實(shí)驗(yàn),驗(yàn)證自動分類系統(tǒng)可用于中文圖書的自動分類。
1.2 基于機(jī)器學(xué)習(xí)算法
專家系統(tǒng)屬于人工智能應(yīng)用的早期階段,存在知識獲取困難、推理方法單一、分類準(zhǔn)確率依賴于知識庫的組織難以保證等問題。專家系統(tǒng)的出現(xiàn),促使自動知識獲取成為機(jī)器學(xué)習(xí)應(yīng)用的重要研究內(nèi)容,隨著大數(shù)據(jù)、互聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,作為人工智能中最具有智能特征的研究領(lǐng)域之一的機(jī)器學(xué)習(xí)也得到了迅猛的發(fā)展,機(jī)器學(xué)習(xí)在各學(xué)科領(lǐng)域得到了大量的應(yīng)用研究,不乏中文圖書自動分類領(lǐng)域。
基于機(jī)器學(xué)習(xí)算法的研究思路主要指構(gòu)建系統(tǒng)模型,通過輸入已完成分類的圖書相關(guān)數(shù)據(jù)訓(xùn)練模型,然后使用訓(xùn)練好的模型實(shí)現(xiàn)待分類圖書的自動分類,通過對模型輸出結(jié)果和人工分類結(jié)果的對比,驗(yàn)證模型分類的準(zhǔn)確度,通過調(diào)整參數(shù),逐步增強(qiáng)分類準(zhǔn)確度。機(jī)器學(xué)習(xí)算法主要有支持向量機(jī)、貝葉斯、決策樹、隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)等。比較典型的研究有:王昊[8]等基于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法建立了書目層次分類系統(tǒng)模型,通過實(shí)驗(yàn)驗(yàn)證了該模型的可行性和合理性;楊敏[9]等基于混合特征矩陣的SVM算法構(gòu)建了圖書自動分類系統(tǒng),實(shí)驗(yàn)證明分類效果良好;潘輝[10]采用基于極限學(xué)習(xí)機(jī)的分類方法實(shí)現(xiàn)圖書的自動分類;Lin,Li[11]等提出了一種基于深度學(xué)習(xí)的主題詞自動識別模型以有效識別中文圖書;Husiyin,Maysigul[12]等對傳統(tǒng)的基于人工智能技術(shù)的特征選擇算法進(jìn)行了改進(jìn),提出了一種基于類別區(qū)分的新型特征選擇算法,對漢語言文學(xué)圖書進(jìn)行自動分類。
基于機(jī)器學(xué)習(xí)算法研究圖書自動分類的研究成果中,采取支持向量機(jī)算法的研究較多,采取樸素貝葉斯算法的研究很少,且研究維度較窄。另外,多數(shù)研究都是事先人為確定好固定的數(shù)據(jù)集測試訓(xùn)練模型、預(yù)測準(zhǔn)確度,不能確保模型準(zhǔn)確度的穩(wěn)定性。樸素貝葉斯算法對缺失數(shù)據(jù)不太敏感,在文本分類中應(yīng)用較多,且分類效率穩(wěn)定,因此本文嘗試基于樸素貝葉斯算法實(shí)現(xiàn)中文圖書的自動分類,并通過實(shí)際的館藏?cái)?shù)據(jù)進(jìn)行實(shí)驗(yàn),從不同途徑探索中文圖書的自動分類,并采取隨機(jī)比例分配訓(xùn)練集和測試集的方式,多次驗(yàn)證該方法的分類準(zhǔn)確度,確保模型的有效性,希望訓(xùn)練模型能夠適用于圖書館的工作實(shí)際,提高圖書編目、審校效率。
2 基于機(jī)器學(xué)習(xí)的中文圖書智能分類方案設(shè)計(jì)
2.1 總體設(shè)計(jì)技術(shù)路線
本文的研究目標(biāo)是實(shí)現(xiàn)已采購中文圖書的自動分類,提高圖書編目數(shù)據(jù)的質(zhì)量,提升圖書審校效率,因此筆者選擇了高校圖書館館藏?cái)?shù)據(jù)作為本研究的數(shù)據(jù)來源。首先,從館藏?cái)?shù)據(jù)中選取若干種類的圖書書目并進(jìn)行數(shù)據(jù)預(yù)處理;其次,從數(shù)據(jù)處理后的圖書著錄項(xiàng)中選取描述圖書內(nèi)容的字段數(shù)據(jù)作為特征詞來源,利用切詞工具和停用詞表進(jìn)行切詞并過濾掉無實(shí)際意義的詞語,根據(jù)特征詞來源位置對特征詞進(jìn)行加權(quán)處理,選取部分高頻特征詞和人工選詞作為精選特征詞,計(jì)算精選特征詞的TF-IDF值,構(gòu)建圖書——特征詞稀疏矩陣;最后,按比例對帶有圖書分類號的圖書——特征詞稀疏矩陣進(jìn)行多次隨機(jī)數(shù)據(jù)分割,分為訓(xùn)練集和測試集,進(jìn)行樸素貝葉斯計(jì)算,找到圖書分類最大概率,評估訓(xùn)練分類模型。基于機(jī)器學(xué)習(xí)的中文圖書智能分類技術(shù)路線如圖1所示。
2.2 相關(guān)算法介紹
2.2.1 TF-IDF算法
TF-IDF(Term Frequency-Inverse DocumentFrequency),稱為詞頻—逆文本頻率,在文本關(guān)鍵詞挖掘領(lǐng)域中,TF-IDF算法是一種常用的加權(quán)計(jì)算算法[13],其主要思想是:如果某個詞在一個文檔中出現(xiàn)的頻率高,并且在其他文檔中較少出現(xiàn),則認(rèn)為此詞具有很好的類別區(qū)分特征。利用該算法可以過濾掉常見的、無實(shí)際意義的詞語,保留表示文本重要特征的詞語。特征詞越能夠表達(dá)圖書的內(nèi)涵,機(jī)器學(xué)習(xí)的效果也將越好,因此本文應(yīng)用TF-IDF算法對館藏書目數(shù)據(jù)提取特征詞。計(jì)算公式如下:
詞頻tfij表示第i個詞語ti在第j個書目bj中出現(xiàn)的頻率,體現(xiàn)詞語ti在書目bj中的重要程度,其中分母表示bj中所有詞語出現(xiàn)的次數(shù)之和,分子nij表示詞語ti在書目bj中出現(xiàn)的次數(shù)。逆文本頻率idfi表示所有書目中出現(xiàn)詞語ti的書目情況,包含ti詞語的書目數(shù)量越少,idfi數(shù)值就越大,詞語ti越具備代表該書目的獨(dú)特性,|B|表示書目總數(shù),分母表示包含詞語ti的書目總數(shù),為防止存在詞語ti未出現(xiàn)在任何待分類圖書書目中導(dǎo)致分母為0的情況,包含詞語ti的書目總數(shù)進(jìn)行加1計(jì)算,這種方式也減少了非常罕見的詞語對整體權(quán)重的過分放大,使得TF-IDF值更加平衡和合理。
2.2.2 樸素貝葉斯算法
樸素貝葉斯算法是以貝葉斯算法為基礎(chǔ)并假設(shè)各特征之間相互獨(dú)立的算法[14],其主要思路是:假設(shè)各特征詞之間相互獨(dú)立,先通過已給定的訓(xùn)練集,學(xué)習(xí)從輸入到輸出的聯(lián)合概率分布,獲得訓(xùn)練分類模型,然后基于此模型,輸入新樣本,輸出具有最大后驗(yàn)概率的分類。該算法應(yīng)用在中文圖書分類中,其原理為:每一個書目b都具有n個特征,即b=(b1,b2,…bn),分類標(biāo)記集合c含有k種類別,即c=(c1,c2,…ck)。對于待分類的新書目b,預(yù)判斷其分類,依據(jù)樸素貝葉斯公式,得到b屬于ck類的P(ck|b)概率,概率最大的類別則為書目b的分類。公式如下:
2.3 構(gòu)建圖書-特征詞稀疏矩陣
特征詞提取是開展人工智能分類分析的基礎(chǔ),提取到的文本形式的特征詞必須轉(zhuǎn)換為機(jī)器學(xué)習(xí)能夠識別的向量矩陣,方可進(jìn)行分類研究,圖書—特征詞稀疏矩陣構(gòu)建流程如下。
2.3.1 圖書信息獲取與預(yù)處理
選取若干種類的館藏圖書書目信息,信息內(nèi)容包括圖書書號、圖書題名、主題詞、內(nèi)容提要、圖書索取號等,因?yàn)轲^藏?cái)?shù)據(jù)庫中存在一些數(shù)據(jù)不完整、無效的著錄數(shù)據(jù)在當(dāng)時著錄時未及時刪除,造成提取到的書目信息有重復(fù),因?yàn)閳D書書號是唯一的,根據(jù)書號對冗余數(shù)據(jù)進(jìn)行去重處理。另外,因?yàn)閷W(xué)科交叉性,有些圖書存在多個圖書分類號,本文選取最終被作為圖書索取依據(jù)的圖書分類號作為該書的分類,以確保經(jīng)過機(jī)器學(xué)習(xí)后得到的智能分類符合圖書館實(shí)際分類要求,保證館藏分布的一致性和連續(xù)性。因?yàn)楸攫^圖書索取號由圖書分類號和著者信息組成,根據(jù)實(shí)驗(yàn)需要,去掉圖書索取號中的著者信息,最終得到符合實(shí)驗(yàn)要求的圖書書目,將圖書書目按照圖書分類號聚類保存。
2.3.2 特征詞提取與選擇
在圖書著錄項(xiàng)中,最能表征描述圖書內(nèi)容的字段為題名、主題詞和內(nèi)容提要,特征詞可從上述字段中進(jìn)行提取,以表達(dá)圖書的內(nèi)容。但不同來源提取到的特征詞對圖書內(nèi)容的表示能力是不同的,通常情況下,主題詞是反映圖書內(nèi)容的核心詞語,其表達(dá)能力最強(qiáng),題名是圖書重要內(nèi)容的高度濃縮,是以最準(zhǔn)確、最簡潔的詞語反映圖書具體內(nèi)容的詞語組合,其表達(dá)能力次之,內(nèi)容提要是對圖書內(nèi)容的簡短介紹,篇幅較題名要長很多,其表達(dá)能力最弱,因此需要根據(jù)特征詞來源的不同對特征詞賦予不同的權(quán)重。
特征詞提取與選擇的具體步驟為:(1)利用jieba分詞工具對題名和內(nèi)容提要進(jìn)行分詞,jieba是Python中優(yōu)秀的中文分詞組件,支持三種分詞模式,支持用戶自行添加新詞以保證更高的分詞準(zhǔn)確率,在分詞時構(gòu)建一個停用詞表,停用詞表中包括一般通用的日常詞語,例如:“全書”“探討”“體現(xiàn)”“陳述”等,利用停用詞表過濾無實(shí)際意義的詞語,保證剩下的詞語能夠表達(dá)圖書的主題。對題名和內(nèi)容提要分詞后得到的詞語與主題詞共同組成特征詞;(2)對不同來源的特征詞賦予權(quán)重,根據(jù)機(jī)器學(xué)習(xí)結(jié)果不斷調(diào)整權(quán)重系數(shù),確保模型分類效果最優(yōu);(3)對全部特征詞進(jìn)行TF值計(jì)算,按照TF值從大到小的順序?qū)μ卣髟~進(jìn)行排序,結(jié)合本館實(shí)際編目經(jīng)驗(yàn),經(jīng)過多次測試,選擇使得模型分類效果最優(yōu)的部分高頻特征詞和人工選詞形成精選詞頻矩陣和向量索引表,對精選特征詞進(jìn)行IDF計(jì)算。
2.3.3 圖書—特征詞稀疏矩陣構(gòu)建
經(jīng)過IDF計(jì)算的精選特征詞結(jié)合特征詞向量索引表構(gòu)建圖書—特征詞稀疏矩陣,根據(jù)稀疏矩陣的特點(diǎn),整個矩陣很大,而有交互的數(shù)據(jù)比較少,所以本文通過CSR Matrix結(jié)構(gòu)來表示稀疏矩陣,表示方式如下:
(書目1, 特征詞1)" TF-IDF值
(書目1, 特征詞2)" TF-IDF值
(書目1, 特征詞4)" TF-IDF值
……
(書目2, 特征詞2)" TF-IDF值
(書目2, 特征詞8)" TF-IDF值
(書目2, 特征詞10)" TF-IDF值
……
(書目N, 特征詞I)" TF-IDF值
(書目N, 特征詞J)" TF-IDF值
(書目N, 特征詞K)" TF-IDF值
每一個書目包含多個特征詞,這些特征詞分布在特征詞向量索引表的不同位置上,鑒于稀疏矩陣的特點(diǎn),如果書目不包含某個特征詞,則在稀疏矩陣中的TF-IDF值為0,在該表示法中不予顯示。
2.4 智能分類模型性能評測
圖書—特征詞稀疏矩陣與數(shù)據(jù)預(yù)處理后的圖書分類信息結(jié)合,形成評估數(shù)據(jù)集和數(shù)據(jù)標(biāo)簽,按比例對數(shù)據(jù)集和數(shù)據(jù)標(biāo)簽進(jìn)行多次隨機(jī)數(shù)據(jù)分割,形成訓(xùn)練集和測試集,利用樸素貝葉斯算法生成訓(xùn)練分類模型,通過不斷調(diào)整參數(shù)優(yōu)化模型,用測試集對通過優(yōu)化后的訓(xùn)練分類模型進(jìn)行性能測試,驗(yàn)證模型有效性。
本文分別按照《中圖法》圖書分類號的不同級別類目對模型分類性能進(jìn)行測試。對于一級分類,只要經(jīng)過機(jī)器學(xué)習(xí)后的分類與圖書原館藏分類的大類一致,即認(rèn)為分類正確,對于多級(N級)分類,如果機(jī)器學(xué)習(xí)后的分類與館藏分類的前N位一致,則判定模型分類準(zhǔn)確,如書目“稀土化學(xué)”的館藏分類號為“O614.33”,對于一級分類,如果機(jī)器學(xué)習(xí)后的分類屬于O類,則判定模型分類準(zhǔn)確;對于二級分類,如果機(jī)器學(xué)習(xí)后的分類屬于O6類,則判定模型分類準(zhǔn)確;同理,對于三級分類,如果機(jī)器學(xué)習(xí)后的分類與館藏分類的前3位一致,屬于O61類,則視為分類正確。分類的性能評估指標(biāo)主要為準(zhǔn)確度(accuracy)、精確度(precision)、召回率(recall)、F1(f1-score),各項(xiàng)評估指標(biāo)的含義如下:
假設(shè)分類目標(biāo)只有兩類:正類(Positive)和負(fù)類(Negtive),那么模型分類會產(chǎn)生四種分類結(jié)果:
TP:實(shí)例為正類,經(jīng)模型分類后判定為正類
FP:實(shí)例為負(fù)類,經(jīng)模型分類后判定為正類
FN:實(shí)例為正類,經(jīng)模型分類后判定為負(fù)類
TN:實(shí)例為負(fù)類,經(jīng)模型分類后判定為負(fù)類
3 實(shí)證研究
3.1 實(shí)驗(yàn)數(shù)據(jù)與工具
本研究挑選哈爾濱理工大學(xué)若干類別的館藏?cái)?shù)據(jù)進(jìn)行實(shí)證研究,圖書分類依據(jù)《中國圖書館分類法》(以下簡稱《中圖法》),挑選的館藏圖書分別為C類、F類、O類、TP類、TU類,由于本校屬于理工類院校,工業(yè)技術(shù)T類圖書館藏?cái)?shù)量比較多,其二級分類比較細(xì)致、精準(zhǔn),有些二級分類圖書已超過其他一些一級分類的館藏圖書數(shù)量,所以本文中將TP類和TU類與其他一級分類并列做實(shí)驗(yàn)分析,挑選書目數(shù)量依次為C類5 078種、F類40 023種、O類5556種、TP類10 431種、TU類7715種,經(jīng)過去重去掉無效數(shù)據(jù)后,書目數(shù)量依次為C類5055種、F類39 966種、O類5539種、TP類10 404種、TU類7694種,共68 658種。
訓(xùn)練樣本越多,機(jī)器獲得數(shù)據(jù)反饋的學(xué)習(xí)機(jī)會就越多,為保證機(jī)器學(xué)習(xí)效果,必須保證有充足的訓(xùn)練集,圖書分類劃分越細(xì)致,分類號所對應(yīng)的書目數(shù)量越少,機(jī)器學(xué)習(xí)效果越差,模型分類能力就會越弱。在所有處理好的書目數(shù)據(jù)中,類目級別從一級至七級。筆者對本館館藏?cái)?shù)量較多的F類大類下的各級類目所包含的平均書目數(shù)量進(jìn)行了統(tǒng)計(jì),2級類目平均包含書目數(shù)量為4437種,3級類目平均包含書目數(shù)量為606種,4級類目平均包含書目數(shù)量為110種。平均數(shù)對于對稱分布和無離群值的數(shù)據(jù)集是一個有效的指標(biāo),而圖書分類可能存在非對稱分布和有離群值的情況,所以本文又對各級類目所包含的書目數(shù)量進(jìn)行了中位數(shù)統(tǒng)計(jì), 2級類目書目數(shù)量中位數(shù)為4106種,3級類目書目數(shù)量中位數(shù)為735種,4級類目書目數(shù)量中位數(shù)為72種,平均書目數(shù)量和中位數(shù)書目數(shù)量統(tǒng)計(jì)結(jié)果相似。無論是按照平均數(shù)計(jì)算還是按照中位數(shù)計(jì)算,3級及以下類目書目數(shù)量比較多,隨著類目級別的深入,書目數(shù)量均呈下降趨勢,對于其他館藏?cái)?shù)量相對較少的大類書目,相應(yīng)分級所包含的類目可能更少。因此,為保證機(jī)器學(xué)習(xí)具備充足的訓(xùn)練樣本,獲得較為理想的學(xué)習(xí)效果,圖書分類到3級比較適合,將中圖法中所有3級以上的小類目進(jìn)行合并,劃入本大類第3級。
研究工具采用Python語言的Sklearn庫,Sklearn(全稱Scikit-Learn)是基于Python語言的
機(jī)器學(xué)習(xí)工具,它建立在 NumPy、SciPy、Pandas和Matplotlib之上,實(shí)驗(yàn)數(shù)據(jù)以csv文件格式存儲,分詞數(shù)據(jù)以txt格式存儲。本文用到的中文分詞技術(shù)采用jieba分詞的Python語言版本,分詞模式為精確分詞。TF-IDF稀疏矩陣計(jì)算工具主要來源于sklearn的TfidfTransformer工具,樸素貝葉斯分類和預(yù)測工具主要來源于sklearn的naive_bayes工具,還包括一些相關(guān)函數(shù)和基礎(chǔ)工具,如csv、json、coo_matrix等。
3.2 基于全量特征詞的中文圖書智能分類實(shí)驗(yàn)
利用切詞工具和停用詞表對預(yù)處理后的68658種館藏書目中的題名和內(nèi)容提要進(jìn)行特征詞提取,提取到的詞與書目中的主題詞共同作為書目的特征詞,特征詞共93733個,將特征詞信息轉(zhuǎn)換為二維矩陣,矩陣表示如下。
行號為“0”表示第1本書的信息,第1本書擁有13個特征詞,行號為“27505” 表示第27506本書的信息,第27506本書擁有11個特征詞,每一行最后列出了該書某個特征詞的TF-IDF值,上述矩陣結(jié)果解釋,如表1所示。
對所有書目根據(jù)全量特征詞進(jìn)行一級分類計(jì)算,以總書目數(shù)量的80 %書目作為訓(xùn)練集,計(jì)算結(jié)果,如表2所示:
上表可以看出, C類的召回率很低,僅為10%。樸素貝葉斯算法對于分類任務(wù)依賴于特征的選擇和質(zhì)量,如果選擇的特征區(qū)分性不高,可能導(dǎo)致召回率較低。本實(shí)驗(yàn)說明C類圖書特征詞的分類不明顯,我館采購的C類圖書主要為統(tǒng)計(jì)學(xué)和管理學(xué)方面的圖書,特征詞與O類數(shù)學(xué)方面的圖書和F類經(jīng)濟(jì)管理方面的圖書特征詞區(qū)分不明顯。
3.3 基于加權(quán)特征詞的中文圖書智能分類實(shí)驗(yàn)分析
特征的權(quán)重在機(jī)器學(xué)習(xí)模型中決定了其在分類中的貢獻(xiàn)程度,通過調(diào)整權(quán)重可以影響分類結(jié)果,但權(quán)重的影響需要綜合考慮其他因素,并在合適的范圍內(nèi)進(jìn)行調(diào)整,以提高分類的準(zhǔn)確性和泛化能力。為提高圖書分類效果,對不同來源的特征詞進(jìn)行加權(quán)處理,為盡量獲得最佳智能分類效果,本文對不同來源的特征詞的權(quán)重進(jìn)行多次取值測試,探究不同權(quán)重下的分類效果。筆者對內(nèi)容提要、主題詞和題名的權(quán)重分配分別為1:1:1、1:2:2、1:3:3、1:3:4、1:4:3和1:4:4進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
可以看出,不同特征詞來源的權(quán)重對分類效果是有影響的,對不同來源的特征詞進(jìn)行加權(quán)處理對獲得良好的智能分類效果是必須的,當(dāng)內(nèi)容提要、主題詞和題名的權(quán)重比例設(shè)置為1:4:3時智能分類的效果最好,說明主題詞對智能分類的貢獻(xiàn)最大,題名次之,內(nèi)容提要的貢獻(xiàn)度最小,在后續(xù)對其他圖書進(jìn)行智能分類時可以按照此比例進(jìn)行權(quán)重設(shè)置。
3.4 基于精選特征詞的中文圖書智能分類實(shí)驗(yàn)分析
特征詞數(shù)量過多或過少都會對機(jī)器學(xué)習(xí)的結(jié)果造成影響,當(dāng)特征詞抽取個數(shù)過少時,機(jī)器學(xué)習(xí)的知識不全面,模型的表達(dá)能力會受到限制,難以充分捕捉數(shù)據(jù)的特征和關(guān)聯(lián)性,導(dǎo)致模型的準(zhǔn)確性下降,分類能力不高。然而,當(dāng)特征詞抽取個數(shù)過多時,低頻特征詞會產(chǎn)生一定的干擾,這些特征詞可能會變得不太具有區(qū)分性,也會影響到最終的圖書分類準(zhǔn)確性,甚至出現(xiàn)噪聲詞匯,導(dǎo)致模型的準(zhǔn)確性急劇下降。另外,使用全量特征詞會產(chǎn)生眾多列的稀疏矩陣,嚴(yán)重影響計(jì)算性能,從而使分類準(zhǔn)確性下降。為探究特征詞數(shù)量在哪個區(qū)間范圍內(nèi),機(jī)器學(xué)習(xí)效果較好,筆者對未加權(quán)的特征詞按照TF值從大到小的順序進(jìn)行排序,挑選出高頻特征詞并根據(jù)經(jīng)驗(yàn)人工挑選一些具有顯著特征的特征詞,兩類特征詞結(jié)合在一起,選擇不同數(shù)量進(jìn)行機(jī)器學(xué)習(xí)。筆者分別對一級、二級和三級分類進(jìn)行實(shí)驗(yàn)分析,一級分類包含C、F、O、TP和TU所有大類68 658種書目,二級分類和三級分類選取TP類下的下級分類進(jìn)行實(shí)驗(yàn)分析,TP類下的二級分類包含10 401種書目,TP類下的三級分類包含9758種書目,因?yàn)楣枮I理工大學(xué)是理工科院校,TP類圖書書目數(shù)量較多,以該類進(jìn)行實(shí)驗(yàn)分析可以保證有充足的訓(xùn)練數(shù)據(jù)且實(shí)驗(yàn)更具實(shí)踐意義。筆者分別取不同數(shù)量的特征詞進(jìn)行實(shí)驗(yàn),均以各級書目總數(shù)量的 80%書目作為訓(xùn)練集,實(shí)驗(yàn)結(jié)果如表4所示。
由表4可以看出,對于一級分類,當(dāng)特征詞抽取個數(shù)為3000~10000時,可以得到較為理想的圖書分類結(jié)果,尤其是抽取個數(shù)為5000左右時,分類效果最好;對于二級分類,特征詞抽取個數(shù)為2000左右時,圖書分類效果最好;對于三級分類,特征詞抽取個數(shù)為1000左右時,圖書分類效果最好。不同級別的類目所包含的圖書數(shù)量不一致,所以特征詞的總量也有很大的區(qū)別,只要圖書樣本數(shù)據(jù)足夠多,按照分級選取相應(yīng)數(shù)量的特征詞,就可以得到較為理想的圖書分類效果。
3.5 基于加權(quán)精選特征詞的中文圖書智能分類實(shí)驗(yàn)分析
基于上面的分析,筆者構(gòu)建基于加權(quán)精選特征詞的圖書智能分類模型。筆者仍以C、F、O、TP和TU所有大類和TP類下的二級和三級分類進(jìn)行實(shí)驗(yàn)分析,特征詞來源內(nèi)容提要、主題詞和題名的權(quán)重比例設(shè)置為1:4:3,特征詞按TF值從大到小取前高頻詞并結(jié)合人工選詞,一級分類特征詞選取5000個,二級分類特征詞選取2000 個,三級分類特征詞選取1000個。為驗(yàn)證基于加權(quán)精選特征詞的圖書智能分類模型的有效性,筆者對各級書目以不同比例隨機(jī)分割訓(xùn)練集和測試集,對模型分類性能進(jìn)行測試。因訓(xùn)練集數(shù)量不能太少,所以筆者分別以0.8:0.2、0.7:0.3 、0.6:0.4的比例進(jìn)行測試,測試結(jié)果如表5所示。
表5 各級類目基于加權(quán)精選特征詞的圖書智能分類結(jié)果
圖書分類 書目數(shù) F1值(訓(xùn)練集:測試集)
0.8:0.2 0.7:0.3 0.6:0.4
一級類目C/F/O/TP/TU 68 658 0.94 0.92 0.91
二級類目TP1/TP2/TP3 10 401 0.93 0.91 0.91
三級類目TP30/TP31/TP33/TP36/TP39 9758 0.86 0.82 0.79
從上面的實(shí)驗(yàn)結(jié)果可以看出:(1)各級書目均是在訓(xùn)練集和測試集 0.8:0.2比例下的分類準(zhǔn)確度最高,說明訓(xùn)練數(shù)據(jù)數(shù)量的增加會提高分類模型智能分類的準(zhǔn)確度。(2)只要訓(xùn)練集數(shù)據(jù)充足,就能保證圖書智能分類的準(zhǔn)確性,即使是三級分類,訓(xùn)練集數(shù)據(jù)數(shù)量達(dá)到7800種以上,也能達(dá)到86%的分類性能;(3)隨著分類級別的加深,分類正確率是逐漸下降的,可能是由于分類的訓(xùn)練樣本數(shù)逐層下降所導(dǎo)致,TP類圖書在哈理工圖書館的館藏量是非常豐富的,多級分類的樣本集也相應(yīng)充足一些,但其他較少館藏量的圖書,如果分類過細(xì),勢必會因?yàn)闃颖炯瘮?shù)量過少導(dǎo)致分類準(zhǔn)確性下降,因此在實(shí)際應(yīng)用中,類目級別不宜設(shè)置過大,三級分類比較合理;(4)基于加權(quán)精選特征詞的圖書分類正確率高于前面只加權(quán)、只精選特征詞的圖書分類準(zhǔn)確率,基于特征加權(quán)的圖書淺層次分類達(dá)到了86%的分類性能, 說明該模型具有一定的實(shí)用價值,也體現(xiàn)出特征選擇和特征加權(quán)在機(jī)器學(xué)習(xí)中的重要性。通過特征選擇,能夠篩選出最具有區(qū)分性和相關(guān)性的特征詞,減少了噪聲和冗余信息,通過特征加權(quán)則進(jìn)一步突出了每個特征詞在分類任務(wù)中的重要性,確保了關(guān)鍵特征詞的影響力。
4 結(jié)語
針對圖書分類準(zhǔn)確率不高、圖書審校效率低的采編部工作現(xiàn)狀,本文利用樸素貝葉斯算法構(gòu)建了基于加權(quán)精選特征詞的中文圖書智能分類模型,通過對若干類別的館藏書目進(jìn)行實(shí)驗(yàn),取得了較高的準(zhǔn)確率,驗(yàn)證了該模型具有良好的實(shí)用性,這一方法通過充分考慮特征詞的貢獻(xiàn)率,提高了分類模型的性能。今后可以進(jìn)行更廣泛圖書分類的測試和比較,確保該模型的魯棒性和可擴(kuò)展性,評估其在所有圖書分類中的適用性,進(jìn)一步提高采編部工作的智能化和高效化。
參考文獻(xiàn):
郭麗杰.人工智能在高校智慧圖書館創(chuàng)新應(yīng)用研究[J].河南圖書館學(xué)刊,2022,42(8):81-83,104.
南京大學(xué)圖書館.南京大學(xué)智慧圖書館二期 ——智能機(jī)器人正式發(fā)布[EB/OL].(2017-05-18)
[2023-07-01].http://lib.nju.edu.cn/info/1065/2430.htm.
王惠君,吳昊,潘詠怡,等.圖書采分編智能作
業(yè)系統(tǒng)的研究與應(yīng)用[J].圖書館論壇, 2021, 41
(1): 58-63.
吳英澤.圖書分類專家系統(tǒng)及其知識獲取方法[J].微處理機(jī), 1987(4): 38-45.
鄧要武.圖書自動分類專家系統(tǒng)技術(shù)實(shí)現(xiàn)初探[J].大學(xué)圖書館學(xué)報(bào),1997, 15(2): 52-53.
田軍.圖書自動分類的數(shù)學(xué)建模及實(shí)現(xiàn)[J].圖書情報(bào)工作, 2001(9): 44-47.
顧燕萍,侯漢清,王曉紅.中文圖書自動標(biāo)引與分類加權(quán)設(shè)計(jì)研究[J].中國圖書館學(xué)報(bào),2006
(6): 69-72.
王昊,嚴(yán)明,蘇新寧.基于機(jī)器學(xué)習(xí)的中文書目
自動分類研究[J].中國圖書館學(xué)報(bào), 2010, 36(6):
28-39.
楊敏,谷俊.基于SVM的中文書目自動分類及
應(yīng)用研究[J].圖書情報(bào)工作,2012,56(9):114-119.
潘輝.基于極限學(xué)習(xí)機(jī)的自動化圖書信息分類技術(shù)[J].現(xiàn)代電子技術(shù), 2019, 42(17):183-186.
Lin L,Guo X X.A Deep Learning-based Recognition Model for Chinese Book Subject Words[C]//Proceedings of 2022 6th International Conference on Electronic Information Technology and Computer Engineering.New York:ACM,2022:1731-1736.
Husiyin M,Akhat A,Habibulla I,et al.Research on the Classification Algorithm of Chinese Language and
Literature System Based on Artificial Intelligence Technology[C]//ICSED 2022-2022 4th International Conference on Software Engineering and Development.
New York:ACM,2022:10-15.
Lin X.Application of an Improved TF-IDF Method in Literary Text Classification[EB/OL].(2022-05-09)[2023-07-01].https://onlinelibrary.wiley.com/doi/epdf/10.1155/2022/9285324.
李思奇,呂王勇,陳雯,等.基于屬性約簡的加
權(quán)樸素貝葉斯分類算法[J].四川師范大學(xué)學(xué)報(bào):自然科學(xué)版,2023,46(4):532-539.
夏 丹 哈爾濱理工大學(xué)圖書館副研究館員。 黑龍江哈爾濱,150081。
(收稿日期:2023-12-19 編校:陸 康,劉 明)