楊秀璋,武 帥,楊 琪,項美玉,李 娜,周既松,趙小明
1.貴州財經大學 信息學院,貴陽550025
2.滎經縣政務服務和大數據中心,四川 雅安625200
3.貴州財經大學 大數據應用與經濟學院(貴陽大數據金融學院),貴陽550025
4.中國船舶工業系統工程研究院,北京100094
隨著科學技術的不斷發展,科技論文數量呈爆炸式增長,科研工作者如何快速精準地定位需要的科技論文,智能化實現論文方向和主題的推薦,已成為重要的研究問題,因此面向學者的論文自動推薦算法變得尤為重要[1]。推薦系統(recommender system)作為電子商務和數據挖掘領域的一個研究熱點和難點,提供個性化推薦服務具有重要的意義,論文個性化推薦也引起學術界的廣泛關注。然而,由于科研論文數量增長速度過快,學術種類繁多,新興學科方向層出不窮,交叉學科發展尤為突出,學者面對海量科研成果的檢索會變得更為困難,在科學研究過程中查詢和引用準確的文獻難度加大,短時間內無法精準獲取有價值的論文[2]。為提高科研工作者的檢索效率和準確率,推薦符合其研究需求的學術論文,本文將深入分析論文自動推薦算法,提出一種基于多視圖融合TextRCNN的模型,有效實現論文學科方向的自動分類,為學者提供更精確的個性化檢索和推薦服務。
面對數字圖書館中大規模的論文語料,傳統人工分類和規則匹配方法存在工作效率低,人為主觀意向明顯,缺乏對論文自身價值的挖掘,在交叉學科迅速發展的情景下,論文推薦準確率和效率較低。同時,隨著人工智能興起,以機器學習和深度學習為代表的論文推薦算法越來越多,但這些方法僅從單視圖角度實現分類,缺乏特征融合多視圖語義知識,缺乏利用上下文語義知識和長距離依賴構建模型,這難以避免會引入干擾信息,較難挖掘到深層次的文本特征,從而限制學術論文分類的精準度[3]。針對上述問題,本文提出一種基于多視圖融合TextRCNN的論文推薦模型,結合論文標題、關鍵詞和摘要三個視圖的互補性,利用卷積神經網絡、循環神經網絡和注意力機制構建模型,實現對不同學科方向的論文自動分類和推薦,從而有效地利用多視圖知識和上下文語義信息,提高論文推薦的準確率,進而節約科研工作者檢索所需論文的時間和精力,進一步提高科研人員的研究效率。
隨著文本挖掘技術的不斷發展,利用計算機實現自動化和個性化推薦服務變得越來越重要。本文旨在利用分類算法對論文學科類別和方向進行推薦,從而為科研工作者推送其感興趣的學術論文。相關工作主要從傳統的論文推薦系統(基于內容過濾的推薦方法和基于協同過濾的推薦方法)、基于機器學習的推薦方法和基于深度學習的推薦方法三個方面開展介紹。
目前,傳統學術論文推薦方法主要分為基于內容過濾(content filtering)的推薦方法和基于協同過濾(collaborative filtering)的推薦方法。
內容過濾是根據學者的歷史信息(包括發表論文、瀏覽記錄、下載信息、學科方向、研究主題)來計算學者感興趣論文內容的相似性,并選擇高相似性的論文推薦給學者。Ohta等[4]提出一種深度提取論文專業術語的方法,并構建專業術語與論文內容的二部圖,再利用HITS算法對相關論文進行排序,最終向用戶推薦排名靠前的論文。劉君良等[5]詳細總結了個性化推薦系統技術,其內容過濾推薦算法的相似度計算方法包括余弦相似度、相關性系數、KL距離等,以及TF-IDF和n-gram的特征描述。Manjula等[6]通過計算論文內容的相似度實現期刊推薦,主要涵蓋社會學科和醫學兩類期刊文章,實驗的相似性度量方法包括BM25、余弦相似性和一元語言模型。Sun等[7]提出了一種基于內容的個性化知識服務推薦算法CROA,通過建立用戶的動態向量模型實現用戶偏好推薦。協同過濾旨在從數據中發現隱含的模式,并建立用戶和項目(user-item)評價矩陣實現相似計算及論文推薦。David等[8]首次提出基于用戶的協同過濾算法并應用于垃圾郵件過濾。Berkani等[9]通過協同濾波算法實現科技論文的推薦,并融合了基于內容過濾和協同過濾的算法,在CiteULike數據集上驗證了基于用戶的協同過濾算法優于基于項目的協同過濾算法。
然而,傳統基于內容過濾和基于協同過濾的推薦方法在大規模論文語料中的推薦效率較低,缺乏有效利用論文摘要、標題的語義知識,僅使用相對獨立的表層特征詞進行計算,存在數據稀疏、推薦精度不高等問題。此外,由于漢語具有豐富的語義知識和前后依賴關系,傳統論文推薦算法無法挖掘出深層次的語義關聯,需要通過大量調試過程才能使推薦模型平衡,耗費大量的人力和時間,這些缺點均導致論文推薦和方向分類的效果不理想。
近年來,隨著機器學習的興起,基于機器學習的論文推薦和分類方法越來越多,常用方法包括SVM、決策樹、樸素貝葉斯、隨機森林、K-Means、層次聚類等。林栢全等[10]提出基于矩陣分解和隨機森林的多準則推薦算法,通過矩陣解析提取用戶在各準則上的評分特征,再進行評分推薦。滕傳志等[11]為解決用戶冷啟動問題,結合隨機森林和馬爾科夫鏈構建推薦系統,并在MovieLens數據集上驗證了該模型的有效性。楊秀璋等[12]運用隨機森林和LDA主題挖掘算法對中國知網九大主題的1 710篇論文進行自動分類和方向推薦,在一定程度提高了準確率。張宇等[13]針對傳統方法未充分利用用戶負反饋信息的問題,提出一種基于正負反饋的SVM協同過濾Top-N推薦算法,并取得了良好的推薦速度和精度。王永貴等[14]提出一種融合KNN-GBDT的協同過濾推薦算法,利用K最近鄰過濾目標用戶的候選集,并采用多分類器實現結果集成來提升推薦精確率。通過貝葉斯概率語言生成模型的協同過濾能將潛在Dirichlet分布和PMF算法結果[15],Chen等[16]就此設計了TRCF模型以解決推薦評分的數據稀疏問題。
上述方法雖然在一定程度上提升了推薦算法的效率和精度,但機器學習只能學習淺層的文本知識,缺乏考慮長距離依賴關系,忽略了語義知識對推薦分類結果的影響,最終導致算法準確率不高。同時,基于機器學習的推薦算法在特征表示過程中主要使用詞頻、TF-IDF、信息熵等技術,這些方法忽略了詞向量的優勢,并且對海量論文推薦效果不佳,學習過程也會損失信息,存在冷啟動問題。因此需要進一步優化,利用深度學習來實現一種高精度、高效率,且普適性和魯棒性更好的算法。
隨著深度學習的興起,以神經網絡為代表的模型早已應用于各行各業,推薦系統也是其中之一。其主要模型包括基于卷積神經網絡的論文推薦和基于循環神經網絡的論文推薦。
卷積神經網絡(convolutional neural network,CNN)主要由卷積層和池化層組成,在論文推薦系統中可以提取文本的潛在特征。2017年,Zheng等[17]利用深度合作神經網絡DeepCoNN從評論文本中學習用戶行為和項目屬性,從而實現推薦。李孟浩等[18]詳細總結現階段基于神經網絡的推薦算法進展,并對比了卷積神經網絡和循環神經網絡的推薦算法。Li等[19]提出一種基于卷積神經網絡的電影推薦算法,并應用于IMDB數據集上進行電影推薦。相較于機器學習推薦算法,CNN模型能夠實現更細粒度的特征識別。此外,由于循環神經網絡(recursive neural network,RNN)能聯系上下文突出文本序列,它也被應用于推薦系統領域。為進一步解決RNN模型的梯度爆炸和梯度消失問題,門控遞歸單元網絡(GRU)和長短時記憶網絡(LSTM)被提出。賀姣姣[20]利用Bi-GRU模型進行教育科學類學術論文文本自動分類。武興等[21]通過RNN的時間感知推薦算法,利用矩陣分類提取用戶偏好和服務功能,再通過LSTM實現時間感知服務推薦。許侃等[22]針對異質信息網絡,提出一種基于異質網絡嵌入的學術論文推薦方法,設計不同的融合函數將節點在多個不同元路徑的低維表示融合,并引入注意力機制構建推薦系統。隨后又出現了基于生成式對抗網絡的推薦算法和基于圖神經網絡的推薦算法。
綜上所述,在論文推薦和學科方向分類預測中,傳統基于內容過濾及協同過濾、機器學習和深度學習的方法均取得一定的研究成果。但這些方法往往僅從單視圖角度實現分類,缺乏特征融合及多視圖語義知識,缺乏利用上下文語義知識和長距離依賴構建模型,這難以避免會引入干擾信息,較難挖掘到深層次的文本特征,從而限制學術論文分類的精準度。針對這些問題,本文提出一種基于多視圖融合TextRCNN的論文推薦模型,結合論文標題、關鍵詞和摘要三個視圖的互補性,利用卷積神經網絡、循環神經網絡和注意力機制構建模型,實現對不同學科方向的論文自動分類和推薦,從而有效地利用多視圖知識和上下文語義信息,提高論文推薦的準確率,進一步提高科研人員科研效率。
針對傳統論文推薦模型僅從單視圖角度實現分類,缺乏特征融合及多視圖語義知識,準確率和時間效率較低等問題,本文提出一種基于多視圖融合TextRCNN的論文推薦模型,結合論文標題、關鍵詞和摘要三個視圖的互補性和協調性,實現對不同論文方向的自動分類和推薦。
該模型框架如圖1所示,主要包括數據采集及預處理、改進的論文推薦方法和實驗評估三個部分,具體實現步驟如下。

圖1 多視圖融合TextRCNN的論文推薦模型框架Fig.1 Paper recommendation model framework based on multi-modal fusion TextRCNN
(1)通過Python和Selenium自定義爬蟲抓取中國知網不同學科方向的論文信息,主要包括標題、關鍵詞、摘要、作者、發表時間、期刊來源等。接著利用Jieba工具實現中文分詞和停用詞過濾操作,并實現多視圖特征融合。
(2)構建多視圖融合的TextRCNN模型,該模型融合了標題視圖、關鍵詞視圖和摘要視圖,對各個視圖下的特征進行融合,并通過TextRCNN的卷積神經網絡和雙向長短時記憶網絡捕獲局部特征及上下文語義關系,再利用Attention機制提取關鍵特征,并賦予相應的權重,最終實現論文分類推薦任務。具體的模型結構將在2.3節詳細介紹。
(3)實驗評估主要是將論文數據集劃分為訓練集、測試集和驗證集,然后通過精確率、召回率、F1值和準確率對不同學科類別的論文進行分類,并進行詳細的對比實驗。
深度學習中的多視圖融合(multi-view fusion)旨在對多源信息進行融合,考慮各個視圖之間互補性和協調性,實現信息的補充[23],完成在分析和預測任務時處理不同形式或從不同視圖學習數據特征的過程,從而提升任務的準確率。其目的是建立能夠處理和關聯視圖信息的模型,是一種典型的多學科、多視圖交叉領域的技術,并已經逐步成為研究熱點。而單視圖僅從某個視圖角度進行分類研究,在論文推薦中僅考慮論文的標題、關鍵詞或摘要,具有一定的局限性。
假設論文經過數據預處理和特征提取后,形成如公式(1)所示的特征向量:

其中,文檔d分別包含n個特征詞和權重,ti表示第i個特征詞,wi(d)表示特征詞ti在文檔中的權重。
由于本文是對論文的學科方向進行推薦,因此對標題、關鍵詞和摘要三個核心視圖進行融合,其多視圖融合的過程如圖2所示。

圖2 多視圖融合過程Fig.2 Process of multi-modal fusion
由圖可知,論文推薦的多視圖融合過程包括關鍵詞視圖(F1)、標題視圖(F2)和摘要視圖(F3),多視圖融合將三個視圖有效關聯成7塊區域,分別是U1、U2、U3、U4、U5、U6和U7。其劃分過程如公式(2)所示[24]:

在本文研究的多視圖融合中,每塊區域對應特征包含不同的權重,從而實現對關鍵特征的權重加成,其權重加成計算公式如公式(3)所示:

其中,S表示多視圖特征融合后的特征向量,Vi對應圖2中不同區域的特征詞向量,wi是該區域特征融合的權重,整個區域劃分為獨有視圖、兩兩交叉視圖和三個區域交叉視圖,通過該方式實現論文標題、關鍵詞和摘要視圖的最終多視圖融合。
TextCNN[25]旨在將復雜問題簡單化,通過降低神經網絡的模型參數,實現局部特征捕獲,其卷積核大小包括2、3、4三種,常用于文本分類任務,但存在全局池化層丟失結構信息,無法發現文本長距離、轉折語義關系和強度分布的問題。TextRNN[26]旨在利用循環神經網絡解決文本分類問題,其能夠有效表達上下文語義信息,捕獲長序列依賴關系,但由于模型參數較多導致運行效率較低,且并行化效果不理想。因此,為了彌補TextCNN和TextRNN的 局 限 性,TextRCNN模 型 被 提出,它使用雙向循環神經網絡來學習上下文語義特征,并利用最大池化層進行特征選擇,最終完成本分類任務,該模型結合了卷積神經網絡和時間序列神經網絡的優點。
本文進一步改進TextRCNN模型,構建如圖3所示的結構。首先,利用多視圖融合算法構建論文標題、關鍵詞和摘要的特征結合,并提取融合特征;其次,構建TextCNN模型并通過三類卷積核和池化層提取長文本的局部特征;再次,結合BiLSTM網絡從兩個方向捕獲長距離依賴關系和上下文語義知識,進一步加成局部特征的關聯信息;最后,結合注意力(attention)機制聚焦對論文推薦分類任務貢獻大的特征詞,降低無意義或常見特征詞的負面影響,再利用全連接層和Softmax函數實現論文學科方向的推薦預測。下面對改進的模型進行詳細敘述。

圖3 改進TextRCNN模型神經網絡結構Fig.3 Improved neural network structure of TextRCNN model
本文模型增加了卷積層,利用卷積核滑動來提取文本特征。假設xi∈Rk是文本中第i個特征詞對應的k維詞向量,則一個n維長度的論文文本可以表示如下:

其中,⊕表示向量拼接,通過卷積核對多視圖融合的n×k特征矩陣進行掃描,其計算如公式(5)所示:

式中,f表示激活函數;wi(a,b)表示特征矩陣中第i個節點對應輸入(a,b)的權重;x(a,b)表示過濾器中節點(a,b)的值;bi表示第i個節點對應的偏置項。通過設置三個卷積核為2、3、4的過濾器來實現局部特征提取,最終得到新特征hi。
接著利用池化層進行數據降維,縮減特征向量和網絡參數的大小,其計算公式如公式(6)所示:

通過卷積神經網絡提取局部特征后,本文利用雙向長短時記憶網絡模型(BiLSTM)從正反兩個方向對特征向量進行編碼,進一步挖掘長距離依賴關系和上下文語義知識。其計算公式如下所示:

式中,hr表示第i個詞向右的LSTM層語義向量,hl表示第i個詞向左的LSTM層語義向量,對應于文本的上下文特征信息;e(xi)表示第i個詞的詞向量;wr、wl、wsr和wsl表示對應的權重參數;ti是雙向LSTM層的最終輸出。
本文通過改進TextRCNN模型來實現論文學科方向的分類預測與推薦。該模型一方面通過多視圖特征值融合來學習論文標題、關鍵詞和摘要的特征信息,另一方面通過TextRCNN模型結合上下文語義知識來提取文本的局部特征,同時解決局部特征丟失問題,有效關聯長距離依賴和上下文語義特征,利用注意力機制挖掘關鍵特征,從而為后續的論文學科方向分類和推薦提供支持。
隨著注意力機制(attention)在神經網絡模型中的應用越來越頻繁,論文推薦和文本分類領域也引入了注意力機制。注意力機制能夠有效增強神經網絡模型對局部特征的關注,對不同位置的文本賦予不同的權重,從而提升關鍵特征的貢獻程度。
在本文的論文推薦分類任務中,如果某個詞語對應的特征向量對句子類別的貢獻較大,則賦予更高的權重,反之賦予更低的權重,通過這種方式能有效避免某些無意義詞語所造成的影響,而專注于分類任務高度相關的信息,提高分類結果。注意力機制的處理過程如公式(10)~(12)所示:


其中,公式(10)是通過tanh激活函數對ti進行非線性變換,得到表示向量ui。ti表示BiLSTM結構輸出的向量,w表示訓練的參數向量,b表示對應的偏置;公式(11)采用softmax函數計算各個分量ui的權重,得到的αt表示權重重要性;公式(12)表示對ti重要性加權和的句子向量,用v表示。
最后,經過注意力機制得到向量表示s,將其輸入到全連接層的softmax分類器中得到最終分類結果,從而實現論文學科方向的分類與推薦。
本文采用Keras深度學習框架設計相關模型,并詳細對比多視圖融合TextRCNN和其他經典模型的實驗結果。實驗環境為Windows10(64位)操作系統,GPU為GTX 1080Ti,處理器為Inter?Core i7-8700K,編程語言為Python3.6。
實驗數據采用國內著名的學術論文信息平臺“中國知網”作為數據來源,通過Python編寫網絡爬蟲采集近十年11個學科方向(醫學、哲學、圖書情報、工商管理、數理統計、民族學、漢語言文學、法學、經濟學、計算機科學與技術和金融學)的論文信息,其核心字段包括標題、關鍵詞、摘要、作者、期刊來源、發表時間等。接著,經過數據清洗及預處理后共獲取25 414篇論文,并按照一定比例隨機劃分訓練集、驗證集和測試集,具體數據分布情況如表1所示。

表1 實驗數據集Table 1 Experimental dataset
在數據預處理方面,本文通過Python編寫自定義腳本實現數據清洗。首先,利用Jieba工具實現中文分詞,并結合詞典進行停用詞過濾;其次,采用Word2vec算法實現詞向量計算;最后,通過設計的多視圖融合深度學習模型進行論文推薦實驗。
本文論文推薦分類實驗采用4個指標進行評估,分別是精確率(Precision)、召回率(Recall)、F1值(F1-score)和準確率(Accuracy)。其計算公式如下:

其中,Accuracy為預測正確的樣本數量占總樣本數量的比值,可以直觀反映論文類別正確預測的效果。TP表示預測正確的正樣本數,FP表示預測錯誤的正樣本數,FN表示預測錯誤的負樣本數,其TP與TP加FP的比值為精確率,TP與TP加FN的比值為召回率,F1值則為二者的綜合狀態,當F1值越接近于1時,整個模型對論文類別的推薦效果越好,反之效果越差。
本文對實驗結果進行多次交叉驗證,最終實驗評估結果為10次論文分類結果的平均值。在模型參數設置方面,其文本序列最大長度設置為600,最大特征數設置為5 000,卷積層和BiLSTM的神經元數量均設置為256,訓練epoch設置為20,學習率設置為0.001,優化器選擇Adam,并增加Dropout防止過擬合,整個模型結構及形狀如表2所示,最終對論文11種類別進行預測。

表2 模型結構及形狀Table 2 Structure and shape of model
首先,本文統計了多視圖融合且數據預處理后的文本長度,統計結果如圖4所示。大部分類別的詞組數量集中于150到350范圍內,而醫學方向的詞組數量主要分布在550以上,計算機科學與技術論文的句子長度較為平均。由于論文標題、關鍵詞和摘要的詞組之間有較強的語義關系,并且從多個視圖能有效刻畫論文的所屬學科方向。因此,本文采用多視圖融合的TextRCNN方法進行論文推薦,并與典型的機器學習和深度學習算法進行對比實驗,得出如表3所示的結果。

圖4 論文文本長度的分布情況Fig.4 Distribution of text length of paper
由表3可知,本文提出多視圖融合TextRCNN的論文自動推薦算法的精確率、召回率和F1值都有一定程度的提升,其精確率為0.940 5,召回率為0.940 9,F1值為0.940 7,均優于傳統的機器學習算法和典型的深度學習算法,并且高于單一視圖(標題視圖、關鍵詞視圖、摘要視圖)的實驗結果。

表3 多視圖融合的論文自動分類算法實驗結果對比Table 3 Comparison of experimental results of automatic paper classification algorithms based on multi-model fusion
在傳統機器學習算法中,邏輯回歸的效果相對更好,其多視圖融合邏輯回歸的精確率、召回率和F1值分別為0.906 5、0.905 2和0.905 8,相較于本文方法,分別降低0.034 0、0.035 7和0.034 9。在典型深度學習算法中,TextCNN算法的效果相對更好,其多視圖融合模型的精確率、召回率和F1值分別為0.932 7、0.930 6、0.931 6,比本文方法分別降低0.007 8、0.010 3、0.009 1。
由于F1值綜合了精確率和召回率的優點,本文使用該指標對多視圖融合算法與單一視圖算法的效果進行詳細對比。其中,多視圖融合TextRCNN的F1值比標題視圖高8.91%,比關鍵詞視圖高18.49%,比摘要視圖高3.03%。此外,本文進一步計算4種傳統機器學習算法(決策樹、SVM、樸素貝葉斯、邏輯回歸)各視圖下的平均F1值,其標題視圖為0.776 2,關鍵詞視圖為0.604 5,摘要視圖為0.848 7,多視圖融合為0.880 5,而本文算法的F1值分別提高16.45%、33.62%、9.20%和6.02%。同樣,計算4種典型深度學習算法(GRU、LSTM、BiLSTM、TextCNN)各視圖下的平均F1值,其標題視圖為0.829 3,關鍵詞視圖為0.743 7,摘要視圖為0.883 6,多視圖融合為0.905 9,而本文算法的F值分別提高11.14%、19.70%、5.71%和3.48%。總體而言,通過進一步分析實驗結果樣本,能有效發現多視圖融合對權重的加成,其中卷積神經網絡能提取關鍵特征,BiLSTM網絡能挖掘長距離依賴和上下文語義特征,注意力機制進一步加成了關鍵特征的權重,最終本文改進的TextRCNN模型能有效學習標題視圖、關鍵詞視圖和摘要視圖的特點,進一步提升算法效果,并且優于各種視圖和模型,能較好地實現論文自動分類和類別推薦。
為進一步驗證所提出多視圖融合TextRCNN模型的有效性,本文詳細對比了各模型的準確率(Accuracy),得出如圖5所示的實驗結果。由圖可知,本文方法在標題視圖、關鍵詞視圖、摘要視圖和多視圖融合四種場景中的準確率均最高,分別為0.851 9、0.745 4、0.910 2和0.940 9,該結果有效證明多視圖融合TextRCNN算法能通過卷積神經網絡捕獲局部特征,BiLSTM網絡能提取上下文語義關系,并從三個視圖來實現論文推薦,從而獲得最優的分類結果,這也是多視圖加成特征權重所帶來的優勢。關鍵詞視圖由于特征較少且缺乏語義,所以各模型的準確率均較低,但能促進多視圖的特征學習。

圖5 各模型準確率的實驗結果對比Fig.5 Comparison of experimental results of accuracy of each model
此外,本文詳細對比了醫學、哲學、圖書情報、工商管理、數理統計、民族學、漢語言文學、法學、經濟學、計算機科學與技術和金融學11種學科方向的論文推薦結果,得出如表4所示的結果。其中,論文推薦效果最佳的學科是醫學,其精確率、召回率和F1值分別為0.979 8、0.992 8和0.986 3,這可能與圖4所示的醫學特征詞數最多呈正比關系;接著,論文推薦效果較好的學科方向是漢語言文學、數理統計和圖書情報,其F1值分別為0.982 4、0.973 9和0.972 9。通過該實驗能有效證明本文提出的方法能對不同學科方向的論文進行預測和推薦,多視圖融合TextRCNN算法具有一定的魯棒性。

表4 不同學科方向論文的推薦算法性能評估Table 4 Performance evaluation of recommendation algorithms for papers in different subjects
同時,本文方法根據各學科方向的分類結果繪制如圖6所示的混淆矩陣圖,其橫軸為真實的論文類別,縱軸為預測的論文類別。其中,預測正確數量最多的是數理統計,共正確1 101篇論文;其次是醫學,共正確969篇論文;再次是金融學,共正確878篇論文。預測錯誤數量最少的是醫學,共錯誤7篇論文;其次是漢語言文學,共錯誤8篇論文。預測錯誤數量最多的是經濟學和哲學,分別錯誤預測167篇和135篇。

圖6 各學科方向混淆矩陣對比圖Fig.6 Confusion matrix comparison chart for various disciplines
為更形象地挖掘多視圖融合TextRCNN模型的良好性能,本文通過驗證集探究其學習過程,得出如圖7所示誤差(Loss)隨訓練批次(Epoch)降低的變化曲線。由圖可知,與其他深度學習模型相比,多視圖融合TextRCNN模型的訓練過程更穩定,其訓練周期收斂速度更快,并且迅速下降至0.049 2的位置,并最終穩定在0.025 0區域,其誤差下降速率和大小均優于GRU、LSTM、BiLSTM和TextCNN模型,進一步突出本文模型具有較好的性能。

圖7 各模型實驗誤差的變化曲線Fig.7 Variation curve of experimental loss of each model
本文為進一步驗證多視圖融合方法的有效性,對英文WOS數據庫的論文也進行了實驗,分別采集數學、計算機科學與技術、物理學、醫學和化學五個學科方向的3 000篇論文信息,并進行詳細的對比實驗,得出如表5所示的F1值對比結果。實驗結果表明,多視圖融合方法在英文論文推薦領域均優于各單視圖方法,其最終F1值為0.952 3,進一步體現本文模型的有效性。

表5 英文WOS數據庫論文推薦實驗對比F1值Table 5 English WOS database papers recommended experimental comparison F1-score
綜上,本實驗結果充分證明了多視圖融合改進TextRCNN方法在論文分類推薦中的有效性,體現了各視圖融合對特征權重加成及卷積神經網絡和BiLSTM網絡所帶來的優勢。
論文自動化推薦系統已成為科研工作者重要的研究問題,能有效提供個性化推薦服務,為科研工作者推薦符合其研究需求的學術論文和學科方向。本文針對傳統論文自動推薦算法僅從單視圖角度實現分類,缺乏特征融合及多視圖語義知識,上下文信息和長距離依賴利用不明顯,較難挖掘到深層次文本特征,學術論文推薦精確度不高的問題,提出一種基于多視圖融合TextRCNN的論文自動推薦模型。該模型融合論文標題、關鍵詞和摘要三個視圖特征,利用卷積神經網絡(CNN)、雙向長短時記憶網絡(BiLSTM)和注意力機制構建模型,實現對不同學科方向論文的自動分類及推薦,有效解決由于科研論文數量增長速度過快,學術種類繁多,新興學科方向和交叉學科層出不窮,學者面對海量科研成果檢索的難題。
為驗證模型性能,本文設計了詳細的對比實驗。實驗數據為中國知網近十年11個學科方向(醫學、哲學、圖書情報、工商管理、數理統計、民族學、漢語言文學、法學、經濟學、計算機科學與技術和金融學)的論文信息,分別對多視圖融合、傳統機器學習推薦算法、已有經典深度學習算法和本文提出多視圖融合TextRCNN論文推薦算法進行實驗。實驗結果表明,本文設計的論文推薦模型在精確率、召回率和F1值上均有所提升,比機器學習方法平均提高3.40%、3.57%和3.49%,也優于單視圖和已有經典的深度學習方法。多視圖融合TextRCNN的F1值比標題視圖高8.91%,比關鍵詞視圖高18.49%,比摘要視圖高3.03%。此外,本文進一步計算4種傳統機器學習算法(決策樹、SVM、樸素貝葉斯、邏輯回歸)各視圖下的平均F1值,其標題視圖為0.776 2,關鍵詞視圖為0.604 5,摘要視圖為0.848 7,多視圖融合為0.880 5,而本文算法的F1值分別提高16.45%、33.62%、9.20%和6.02%。同樣,計算4種典型深度學習算法(GRU、LSTM、BiLSTM、TextCNN)各視圖下的平均F1值,其標題視圖為0.829 3,關鍵詞視圖為0.743 7,摘要視圖為0.883 6,多視圖融合為0.905 9,而本文算法的F1值分別提高11.14%、19.70%、5.71%和3.48%。同時,本文在英文WOS數據庫數學、計算機科學與技術、物理學、醫學和化學五個學科方向的論文推薦中也進一步驗證模型的有效性。
總體而言,通過多視圖融合權重加成,本文改進的TextRCNN模型能有效學習標題視圖、關鍵詞視圖和摘要視圖的特點,進一步提升算法效果,并且優于各種視圖和模型,能較好地實現論文自動分類和類別推薦。本文模型通過學習多視圖知識和上下文語義信息,提高論文推薦的準確率,進而節約科研工作者檢索所需論文所花費時間和精力,進一步提高科研人員科研效率。未來,本文一方面將進一步擴大實驗數據集,研究該算法的普適性;另一方面將結合圖神經網絡,進一步提升模型對論文推薦性能的影響。