999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于引文圖模型的科研論文智能推薦算法研究

2019-03-25 08:01:52肖詩伯付圣
電腦知識與技術 2019年3期

肖詩伯 付圣

摘要:科研工作者在搜索文獻時,即使通過關鍵詞檢索也常因結果中的大量文獻而造成篩選困難。本文為幫助用戶過濾文獻,更好的發現適合自身的文獻,考慮到文獻的引文具有文獻的研究傳承、解釋,拓展等內涵。所以本研究以文獻的引文為研究對象,運用圖模型算法,分析各文獻間的親疏關系,來為用戶篩選、推薦文獻。經評價算法計算,本研究算法的準確率為38.57%,召回率為27.32%,覆蓋率為26.83%。可滿足對文獻親疏關系的預測,為用戶提供文獻推薦服務,幫助用戶發現適合其自身的文獻。

關鍵詞:推薦系統;圖模型;隨機游走;引文;科研文獻

中圖分類號:G642? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2019)03-0190-03

Abstract: When research workers search the literature, it is often difficult to screen a large number of literature in the result, even if use keyword search. This paper is to help users filter the literature, to find the appropriate literature for themselves, taking into the literature citations has connotation of literature research, inheritance, interpretation, expansion and so on. Therefore, this study is based on the citation of literature, use graph model algorithm, analysis of the relationship between literatures, help users filter and recommend literature. After evaluation algorithm analysis, the accuracy rate is 38.57%, recall rate is 27.32% and the coverage rate is 26.83.%. Can predict the relationship between the literatures, providing recommendation services with literature for users, help users find suitable for theirs literature.

Key words: Recommendation System; Graph Model; PersonalRank; Citation; Research Literature

1研究思路

學術數據庫中海量文獻不斷激增,科研工作者在搜索論文時,一方面通過關鍵詞搜索因大量的搜索結果而不能快速地找到自己需要的論文的情況,另一方面有不能較好使用關鍵詞準確描述需求的情況,最終造成科研工作者將浪費大量時間排除不相關論文[1,2]。這也使得論文提供者對用戶的文獻服務不夠完善。

科研論文的引文代表了論文內容中相關知識的傳遞,可揭示論文中相關知識結構的特征,也呈現了某一系列研究的層次和邏輯。本文以科研論文的引文為研究對象,通過識別論文到引文之間、一級引文到下一級引文之間、論文互引等的知識聯系,為找出各論文之間的相關性,以幫助科研工作者快速篩選論文、發現自己的需求。

隨著機器學習算法、大數據相關技術的不斷更新和成熟,為解決這類問題提供了技術支撐。對于論文引文這種數據類型,本文使用機器學習中的圖模型算法來的分析“論文-引文”“引文-引文”的親疏性[3]。論文和引文在集合中均用頂點Un來表示,論文的引用行為用邊En來表示。通過度量各定點之間的路徑數量和長度來判斷某一論文與其他論文的相關性高低。如圖1示例:

對于相關性偏高的論文之間一般具有的特征為:兩個頂點之間的連接路徑較短、兩個頂點之間有多條路徑相連、兩個頂點之間有互引路徑、兩個頂點之間的路徑沒有通過出度較高的頂點。

2推薦算法模型

通過在某一“頂點”開始在有向圖的相應“邊”和“頂點”之間隨機游走。游走到任一頂點Un時,通過設計概率α來判斷是繼續游走,還是終止游走并返回原頂點重新進行游走。若α判斷為繼續游走,就對當前頂點的全部“邊”采取隨機方式任選一“邊”進行游走到下一“頂點”,然后又返回到概率α來判斷是繼續游走,還是返回重新游走。通過多次隨機游走后,各定點被游走到的概率將收斂為一個數,從而發現某一論文對各論文的相關親疏,形成推薦列表,進而實現對科研工作者的論文推薦。基于科研工作者發表論文的數量和日期的頻繁度相對不會太高,先為數據集中的作者離線計算一個初始的推薦列表,待作者及推薦列表中論文作者有新論文發表后,再采取離線計算的方式重新計算推薦列表,為其提供推薦。

2.1數據準備

把“論文-引文”數據集按論文發布時間順序分為10份。前9份為訓練集:度量各論文之間的相關性,然后以論文作者為標識,排列出對論文作者相關性高的論文。將最后1份作為測試集:以論文作者為標識導出其引用的論文,與訓練集排列出的論文列表相比較,來評價算法模型的準確指數。具體使用Python語言、Numpy計算包、科學計算包來實現。

2.2算法實施

首先,設置論文頂點的初始概率值:論文Un的頂點初始游走概率α為1,其對應引文的初始訪問概率β為0,定義“邊”的權重為1,然后運用迭代公式處理。

然后,使用隨機的方式選擇引文。以論文Un的開始,在有向圖中根據引用論文的行為,生成概率α,通過“邊”En走到其引用的論文Un+s。又以論文Un+s為頂點,計算α=1-f決定是否繼續游走。若為繼續游走,則以相同的方式計算隨機選擇論文Un+s的引文繼續重復;若為停止游走,則返回論文Un頂點進行下一輪游走循環,具體如式(1)。

其中Su代表某起始論文頂點,每篇論文均獨立進行迭代分析,獲取各自對集合S中其他論文頂點的經過概率。

相關核心代碼是:

對于某論文Un進行大量隨機游走循環后,取被游走到的文獻,把每篇論文頂點被經過的概率迭代合并,取得相對穩定的收斂值。

最后,對論文經過概率進行排序。選擇值排名前50的論文,剔除作者已引用過的論文,作為對作者的某篇初始論文的初始推薦列表。再以該作者為索引,依次計算其發表的全部論文的初始推薦列表。然后將這些初始推薦表中的論文,剔除重復后再按權重排序,形成最終推薦列表。

2.3算法優化

雖然本算法的理論在圖模型中有比較充足的支撐,但計算任一篇論文,算法要對整個論文集U中的每篇論文進行遍歷,造成時間成本高。若新加入一篇論文產生了新的引用關系,又需要再對全部有向圖中的論文進行迭代。因此在對結果影響不高的前提下,為減少時間成本和硬件計算量,使用矩陣論方法優化算法。

3結果與分析

3.1分析標準

本算法模型采取推薦系統領域常用的準確率、召回率和覆蓋率三種指標來評價算法的綜合性能[4]。具體方式為:

準確率(Precision):把訓練集中綜合排名前47的論文與測試集中科研工作者引用的論文進行比較,評估對訓練集預測出論文的比例,具體如式(4)。

其中ep表示訓練集與測試集對比后相同論文的數量,bp為訓練集與測試集對比后差異論文的數量。

召回率(Recall):把測試集中作者實際引用的論文與訓練中預測出的論文進行比較,評估算法預測的查全率,具體如式(5)。

其中bn表示算法模型中未預測出的論文數量。

覆蓋率(Coverage):把訓練集中綜合排名前47的論文的流行度和論文集U的整體流行度進行比較,來評估算法對非熱門論文的發現能力。采用Information-entropy的公式來評估,具體如式(6)。

其中d(u)表示用論文d的流行度除論文集U的流行度的和。

3.2 實驗結果

實驗使用ANN提供的1965到2012年間發表的論文數據集,經篩選不完整數據和過于稀疏的數據,最后使用的數據信息為論文23354篇,作者2603個,引文數量15729篇,引用關系93572個。將算法模型中的α通過預先調試和比較,選擇0.79為合適參數。將數據集導入算法模型中計算,再把結果導入評價公式計算,最后實驗結果如表1:

將本模型結果與理想狀態的樸素貝葉斯模型和K近鄰模型相比,本模型的準確率與召回率雖然與理想狀態下的模型有一定差距,但考慮到數據集的特殊性和不完整性,38.57%的準確率和27.32%的召回率是較成功的,可較為準確地為科研工作者在論文搜索過程中提供論文推薦。26.83%的覆蓋率表示本模型在發現非熱門論文方面有一定能力,可為科研工作者推薦一些與其科研內容相關且其可能不容易發現的論文。

4總結

本文采用有向圖模型算法在論文和引文中進行隨機游走和迭代,找出與作者論文有較多關聯的其他作者的論文,幫助其篩選海量文獻。本算法模型的適合運用場景為:作者在數據庫中還未產生文獻使用行為或作者在數據庫中還未輸入關鍵詞等情況。本算法模型通過準確率、召回率和覆蓋率3個指標的評價,其結果表示本算法具有一定的預測能力,能幫助用戶發現適合其自身需求的文獻。在后續的研究中,可運用學科邏輯分類來縮小算法的迭代遍歷范圍,提高計算速度并降低計算資源的消耗;還可結合作者在數據庫中檢索行為特征來提高預測的準確性;還可運用閃存系統提高算法對數據的讀取速度[5,6]。

參考文獻:

[1] 劉凱,王偉軍,黃英輝,等.個性化推薦系統理論探索:從系統向用戶為中心的演進[J].情報理論與實踐,2016,39(03):52-56.

[2] 安維,劉啟華,張李義.個性化推薦系統的多樣性研究進展[J].圖書情報工作,2013,57(20):127-135.

[3] 黃波,嚴宣輝,林建輝.基于有向圖分割的推薦算法[J].計算機系統應用,2015,24(12):196-203.

[4] 吳海霞,何苑,路璐.個性化推薦系統評測指標與實驗方法研究[J].晉中學院學報,2015,32(3):77-81.

[5] 肖詩伯,郭秀英.基于用戶特征的文獻個性化推薦系統研究[J].網絡新媒體技術,2018,7(4):24-33.

[6] 肖詩伯,郭秀英.閃存部署方案在高校圖書館存儲場景中的研究[J].微型電腦應用,2018,34(9):47-48+50-51.

【通聯編輯:王力】

主站蜘蛛池模板: 国产成人精品一区二区三区| a天堂视频在线| 欧美成人aⅴ| 亚洲欧洲AV一区二区三区| 国产精品hd在线播放| 日韩色图区| 国产96在线 | 亚洲综合中文字幕国产精品欧美| 91精品网站| 精品国产一区二区三区在线观看 | 91精品国产91久久久久久三级| 看国产毛片| 99re在线观看视频| 国内毛片视频| 激情综合图区| 中文国产成人精品久久| 国产成人精品一区二区免费看京| 亚洲人成网18禁| 国产福利免费视频| 亚洲成aⅴ人在线观看| 99精品免费欧美成人小视频 | 91人妻日韩人妻无码专区精品| 久久精品人人做人人| 97se亚洲综合在线| 国产尤物在线播放| 欧美天堂久久| 91无码人妻精品一区| 精品欧美一区二区三区久久久| 国产69精品久久久久妇女| 精品久久久久成人码免费动漫| 无码网站免费观看| 又爽又黄又无遮挡网站| 黄色网站在线观看无码| 国国产a国产片免费麻豆| 国产成人一区免费观看| 日韩中文精品亚洲第三区| 日韩a级毛片| 99re在线免费视频| 日韩在线2020专区| 被公侵犯人妻少妇一区二区三区| 女人18毛片一级毛片在线 | 真人免费一级毛片一区二区| 一级一级特黄女人精品毛片| 国产理论一区| 国产男人天堂| 国产亚洲精品精品精品| 国产亚洲欧美在线人成aaaa| 精品国产免费观看| 91网红精品在线观看| 99精品福利视频| 亚洲欧美h| 欧美日韩综合网| 国产探花在线视频| 九色视频一区| 久久久久国产一区二区| 国产成人夜色91| 国产一区二区三区精品欧美日韩| 亚洲欧美成人在线视频| 伊在人亚洲香蕉精品播放| 久久精品午夜视频| 亚洲VA中文字幕| 亚洲天堂日韩在线| 久久国产高潮流白浆免费观看| 欧美性久久久久| 日本高清成本人视频一区| 日韩欧美中文字幕在线韩免费| 成人亚洲天堂| 国产精品爽爽va在线无码观看| 国内丰满少妇猛烈精品播| 亚洲综合九九| 91麻豆精品国产91久久久久| 免费人成在线观看成人片| 在线a网站| 欧美精品色视频| 久久不卡国产精品无码| 毛片网站在线看| 人妻出轨无码中文一区二区| 国产经典在线观看一区| 日韩小视频在线播放| 91精品视频网站| 国产精品成人免费综合| av天堂最新版在线|