吳舒展
(湖北工程學院 數學與統計學院,湖北 孝感 432000)
隨著科學技術的迅速發展,各個行業領域和學科產生的研究成果也在大幅增長,海量學術成果的涌現在為學者提供豐富學術論文的同時,也對論文的檢索工作帶來了困難和挑戰。在科研人員進行相關科學研究的過程中,需要查詢和引用相應的學術論文,并在前人的研究基礎上開展進一步研究和優化,從而有效保證研究成果的價值和可行性。然而在實際的檢索過程中,用戶很難在短時間內精準地獲得最具參考價值的學術論文。為了解決學術論文的檢索和查詢問題,提出了學術論文推薦方法。
學術論文推薦方法的提出與應用,不僅提高了用戶檢索目標論文的速度,同時也解決了網絡環境中信息過載以及信息迷航的問題。現階段,國內外學術論文推薦方法大體可分為協同過濾方法和內容過濾方法。然而上述傳統的論文推薦方法主要針對的是靜態的、存儲在固態數據庫中的學術論文,由于在線學術論文處于動態變化的狀態,因此使用傳統的論文推薦方法會出現推薦效果差、推薦速度慢等問題。
以解決傳統學術論文推薦方法存在的問題為目的,融合知識圖譜和深度學習算法,對在線學術論文推薦方法進行優化設計。將知識圖譜引入到推薦方法中,可以實現論文實體之間的連接,并以此來表示不同語義論文的擴展潛在因子模型。在以往的研究工作中,基于深度學習的論文推薦方法雖提升了推薦性能,但只考慮了用戶對論文的評分數據,削弱了推薦效果。融合知識圖譜和深度學習算法并將其應用到學術論文推薦方法的設計工作中,以期在保證推薦性能的同時,提升推薦效果,滿足用戶的論文查詢需求。首先通過構建論文中實體間的三元組關系表達式,構建學術論文知識圖譜,再通過知識圖譜嵌入式分析知識圖譜中的論文的特征,并轉化為低維的連續向量,結合用戶的興趣,利用深度學習的循環神經網絡進行訓練,根據論文的相似度實現學術論文的精準推薦。
學術論文推薦方法的設計目標是預測用戶需求與學術論文之間的匹配程度,根據匹配結果生成用戶的推薦列表。在實際的設計與運行過程中,以深度學習算法為基礎迭代算法,知識圖譜以嵌入式的方式與深度學習算法融合。知識圖譜模塊構建的三元組表達式為:

其中,、和分別表示實體、關系和屬性三元組集合。
按照公式(1)表示的結構,構建學術論文的知識圖譜,具體的構建過程如圖1 所示。

圖1 學術論文知識圖譜構建流程圖Fig.1 Academic papers knowledge graph construction flow chart
從圖1 中可以看出,采用自底向上的方式進行知識圖譜的搭建,分別抽取學術論文中的實體知識和關系知識,根據實體之間的關系對其進行連接,并通過知識融合和加工,得出最終的圖譜構建結果。論文實體的抽取就是從文本數據集合中識別論文的命名實體,建立知識圖譜中的節點。根據特定需求可以將實體分為時間類、數字類和實體類三種類型,選擇合適的實體抽取目標并按照詞性進行標簽編輯,通過分析各個標簽之間的搭配關系,實現對實體的抽取,進而創建實體模型。實體模型中,令M、C分別為學術論文模型和論文類型,則學術論文模型結構可以表示為:

公式(2)中的任意一個子矩陣代表知識圖譜中的任意2 種論文之間的關系,例如表示學術論文作者與論文之間的從屬關系,為論文引用關系和相似關系。關聯提取是在一句話中識別出實體對的語義關系和實體對應的屬性,兩者之間是相互聯系的語義紐帶。將關系抽取結果代入到公式(2)中,實現對實體的連接。另外,在學術論文知識圖譜中,定義關鍵詞的權重為ω,其計算公式為:

其中,(,) 表示第個關鍵詞在論文中出現的頻度;表示學術論文總數;表示包含關鍵詞的論文數量。
知識合并主要是針對結構化數據的整合,在進行了知識抽取和知識融合后,得到了一系列的事實表達,需要進行知識加工,才能最終形成結構化、網絡化的知識系統。知識點中心度參數計算方法如下:


用戶需求的分析可以通過用戶輸入的檢索或查詢詞條直接讀出,根據用戶的基本信息和輸入的檢索詞在學術論文中進行匹配。而用戶興趣是在用戶使用學術論文平臺一段時間后,通過對用戶的歷史行為數據進行分析,得到用戶興趣。用戶興趣由主題偏好、學科偏好和關鍵詞偏好三個部分組成,其中用戶u對某個主題t的興趣值可以表示為:

其中, A表示的是在知識圖譜環境下,用戶對論文產生操作行為對應邊的權值,而T為論文屬于主題t設定閾值的權值。同理可以得出用戶對關鍵詞和學科興趣的量化分析結果。
為了提升用戶檢索詞條與學術論文匹配任務的處理速度,提取學術論文的特征,并以特征向量的形式輸出。這里,詞頻特征也就是某一個給定的詞語在學術論文中出現的次數,其表達式為:

其中,和T分別為學術論文中的總詞數和單詞在學術論文中出現的次數。由于學術論文數據量較多,因此在詞頻特征提取過程中可能會出現提取偏差,為此引入了逆文檔詞頻的概念,在逆文檔詞頻特征的提取過程中,認為一個單詞在一篇學術論文中出現的頻率越高,則該詞在所有論文中出現的頻率越低,表明該單詞在指定學術論文中的主題突出性。融合詞頻和逆文本頻率指數,可以反映出整個資源庫中單詞特征的大眾化程度,從而過濾出論文中的關鍵詞特征。除了關鍵詞外,學術論文的權威度、引用量、時新度、論文質量等也能夠在一定程度上反映論文特征,其特征向量表達式為:

其中,和分別為學術論文的發刊級別和被引量的量化結果;和max對應的是論文被引量和論文來源數據庫中最大的被引量;為論文發表時間距離最早發表時間和最晚發表時間的月份數的比值;和表示年份和月份。另外,變量表示的是學術論文的熱度。使用相同的方式對特征向量進行提取與融合,最終得出學術論文的綜合特征提取結果。
利用深度學習算法中的循環神經網絡,實現學術論文的分類處理。循環神經網絡的學習迭代原理如圖2 所示。

圖2 循環神經網絡學習原理圖Fig.2 Schematic diagram of recurrent neural network learning
在實際的論文分類處理過程中,將提取的特征向量作為輸入項在時刻輸入到循環神經網絡中,經過隱藏層處理后輸出為s,在輸出層輸出o。那么隱藏層和輸出層的學習處理函數如下:

其中,x為循環神經網絡的輸入項;和為激活函數;和是隱藏層和輸出層的偏置量,取值為常數;、和為神經網絡不同層級之間的權重矩陣。
1.5.1 構建查詢向量
由于用戶的查詢檢索需求不同,因此通過知識圖譜構建并結合深度學習訓練而生成的查詢向量也存在差別,用戶輸入的查詢詞條類型包括:學術論文作者、名稱、主題和關鍵詞。在知識圖譜嵌入層,構建的查詢元素由上述4 個部分信息共同組成,并轉化為向量表達,其表達式為:

查詢矢量是由不具有完整語義信息的不同單詞組成的,在實際的查詢過程中只要求一個向量值不為空即可,將構建的查詢向量作為學術論文推薦的輸入詞條,輸入到推薦運行程序中。
1.5.2 度量論文的相似性
提取的知識圖譜中論文特征向量用來表示,在論文類型劃分環境下,從2 個方面進行論文相似性度量,一個是知識圖譜中查詢向量與學術論文的相似性,另一個則是知識圖譜中用戶興趣與學術論文的相似性。則相似度的度量結果為:

其中,為輸入的知識圖譜中查詢向量或用戶興趣分析向量。
1.5.3 生成學術論文推薦列表
生成的學術論文推薦列表中,約束前20 個推薦論文必須與輸入的知識圖譜中的查詢向量有關,且相似度不得低于70%。按照相似性度量結果由大到小的順序進行論文排列,得出學術論文的最終推薦結果。
實驗采用FloyHub 作為訓練和推薦效果測試平臺,測試環境中包含一臺服務器和多臺計算機設備,實驗環境配置見表1。

表1 實驗環境參數配置表Tab.1 Experimental environment parameters configuration table
研究指出,由于設計的學術論文推薦方法應用了知識圖譜和深度學習算法,因此需要在實驗環境的基礎上嵌入相應的運行程序插件,保證2 種技術的協同運行。
實驗所采用的論文數據樣本可由多所高等院校圖書館提供,而且還可以利用網絡爬蟲,在多個學術與教學網絡中獲取學術論文、學術會議等類型的論文樣本數據。本文實驗所用的學術論文數據樣本是由本地2 所高校圖書館提供,準備的論文數據樣本包含中文、英文等多種語言,通過解析與統一化操作后,得出實驗數據樣本見表2。

表2 學術論文數據樣本Tab.2 Academic papers data samples
另外,根據高校圖書館的學術論文的歷史評論記錄和查詢行為等條目,在實驗環境中導入100458條評論記錄和行為記錄。將準備的所有論文數據樣本上傳到實驗環境中,上傳界面如圖3 所示。

圖3 論文數據樣本上傳界面Fig.3 Thesis data samples upload interface
實驗設置命中率和召回率作為實驗的評價指標,命中率越高的推薦列表,證明推薦方法的推薦效果更好。召回率為被引用的論文在前個推薦論文中占比。計算方式分別為:


為了形成實驗對比,分別設置傳統的推薦方法和文獻[9]推薦方法作為實驗的2 個對比方法,并將所有的推薦方法以程序代碼的形式導入到實驗環境中。按照用戶的需求輸入目標檢索詞,為了保證實驗結果的可信度,輸入的多個檢索詞形成實驗的多個組別,并通過計算評價指標的平均值得出最終推薦效果的仿真測試結果。研究中,論文設計推薦方法的輸出推薦結果如圖4 所示。

圖4 學術論文推薦頁面Fig.4 Academic papers recommendation page
利用相關數據的記錄與統計,運算得出推薦召回率的量化測試結果見表3。
通過對表3 中數據的處理,進一步得出3 種推薦方法的平均召回率分別為91.57%、93.18%和96.10%。由此可見,設計方法的召回率更高,即實際引用結果在推薦結果中的占比較高。同時,還給出了推薦結果命中率指標測試結果,如圖5 所示。

表3 學術論文推薦召回率測試結果Tab.3 Academic papers recommendation recall test results

圖5 推薦結果命中率對比曲線Fig.5 Recommendation results hit rate comparison curve
從圖5 中可以直觀地看出,應用設計方法得出推薦結果的命中率更高,即用戶的滿意度較高。
目前學術界對基于關鍵詞的學術論文推薦的研究,多是從詞義層面上進行優化,并沒有考慮到不同文章中不同詞義類型的差異。通過知識圖譜和深度學習算法的應用,直接提升學術論文的推薦效果,并在一定程度上間接地滿足用戶對學術論文的需求,有助于提高科研人員的科研效率,拓寬科研視野,把握相關研究的新趨勢。