999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多維度融合的文獻作者親密度計算

2021-09-09 03:18:16侯湘黃晉桑軍夏曉峰
情報學報 2021年8期
關鍵詞:學科

侯湘,黃晉,桑軍,夏曉峰

(1.重慶大學期刊社,重慶 400044;2.重慶大學自動化學院,重慶 400044;3.重慶大學大數據與軟件學院,重慶 400044)

隨著社交網絡的迅速發展,面向學術科研的社交網絡逐漸興起。國外面向科研人員的學術社交網絡平臺如Google Scholar、ResearchGate、Mendeley、Academia.edu等逐漸建立起來,經過發展,Re‐searchGate已成為主流的學術社交網絡平臺,用戶可在平臺上共享自己的出版物,平臺顯示瀏覽量、下載量和引用量,同時,可推薦用戶感興趣話題的出版物,以及好友上傳的出版物,以便于與其他學者進行聯系和建立學術合作關系[1]。與此同時,國內的學術平臺如科研之友、CNKI(China National Knowledge Infrastructure)學者圈、科學網、百度學術等逐漸興起,為研究者提供了研究成果交流和信息獲取的渠道[2]。然而,隨著中國科研的高速發展,論文數量爆發式增長,信息過量使學者在學術平臺精準聚焦、匹配有價值的信息變得困難。傳統的中文數據平臺需要用戶登錄,利用關鍵詞、作者姓名等文字檢索方式獲取信息已不再適應智能互聯網的發展,雖然提供了下載、被引數據,基于關鍵詞的學科分類和文獻引用,但對文獻引用數據在作者關系中的挖掘不夠,未精準劃分“學術朋友圈”,讓研究成果主動在圈層中推送,提供學術合作的潛在機會。目前,基于移動互聯網的生活社交平臺用戶習慣已經養成,通過算法可以獲取精準推送信息。例如,微信“視頻號”,除了有視頻轉發功能,還能分享到朋友所關注的信息和瀏覽信息,根據用戶間關系加入個性化社交服務,形成“社交關系圈”,讀者可在同一時間維度分享社交網絡中的節點信息,使有價值的信息高效、準確地在關系網絡的需求者之間流動、傳播。本文提出了一種基于多維度融合的文獻作者親密度計算模型,為學術社交圈“找到同行”和精準推送打下基礎,給學術交流,資料獲取帶來便利[3]。

1 相關研究

1.1 學術網絡

學術網絡是作者和學術成果(論文)共同構建的關系網絡,通過作者的論文、學科分類、文獻引用等數據,挖掘作者-作者、作者-論文、論文-論文之間的關系,幫助作者關注相關的研究方向、相似的研究水平團隊的研究成果,同時,也為作者的評價提供數據支撐[4]。文獻[5]提出一種基于PageRank的論文合著者貢獻分配算法(ACA_PR算法),采用PageRank值和總引用量的加權值度量文章的價值,構建合著作者科研記錄和科研成果被引情況的共引網絡,對論文合著者的貢獻進行分配。文獻[6]提出一種利用合著次數、合著人數、作者排名、被引頻次等要素構建綜合性的合著網絡加權模型,借助社會網絡分析方法,進行科研團隊發現和評價的實證研究。文獻[7]提出利用社區快速發現算法,識別合著網絡中的學術社區,建立學者論文影響力與合作影響力綜合指標。文獻[8]提出將發文-引文曲線和作者署名順序引入pw-d指數,以CNKI為數據源,將圖書情報和黨的建設兩個學科領域各32位學者在2004—2018年的文獻數據作為研究對象,從學科指數對比、作者排名情況、區分度、相關性等方面,驗證pw-d指數的評價效果。

上述方法以傳統的概率分析來構建學術關系網絡或只計算一維或二維的親密度,從而導致網絡中隱藏節點之間的關系未被充分挖掘。

1.2 網絡關系強度算法

在計算網絡關系強度時,文獻[9]提出基于關系圈與個體交互習慣的用戶關系強度計算方法,利用基于完全子圖、標準化谷歌距離計算關系圈與主題領域間的相關度。文獻[10]提出基于霍克斯過程的社交網絡用戶關系強度模型,解決網絡模型未考慮用戶歷史交互影響及其動態衰減的問題。文獻[11]提出一種共同關注和共同粉絲的微博用戶相似度計算方法,挖掘微博用戶關系網絡中的社區關系。文獻[12]基于ABC(artificial bee colony)算法的K均值聚類方法,對所有的交互式活動文檔進行聚類,計算聚類與活動主題名的相關性。文獻[13]提出不對稱的社交網絡用戶關系強度計算方法(DSTSATI),融合用戶特征屬性相似度、網絡結構連接強度和社交行為交互強度3個維度來綜合計算用戶關系。

這些算法在社區檢索中具有良好的效果,但運用到“學術關系圈”的聚類還需要多維度計量。本文的研究主要基于論文作者、關鍵詞、學科以及文獻引用等數據,提出基于網絡模型的多維度學術作者關系(即親密度值)計算方法。選取4個親密度指標:①合著作者的結構親密度Istruct;②作者所屬的學科親密度Isubject;③基于學科敏感度的引用親密度Ireference;④圖譜親密度Igraph。通過對這4部分進行加權后,最終得到綜合親密度值I。

2 基于學術網絡的作者親密度計算

本文通過設計學術網絡作者親密度結構圖(圖1),構建文獻引用和作者關系網絡模型,對文獻引用數據深度挖掘,提出基于網絡模型的多維度作者親密度計算方法。

2.1 網絡模型參數定義

本文通過對作者發表的學術論文(academic pa‐pers)和文獻引用(citations)的統計,利用網絡結構圖(network diagram),建立學術作者集合(au‐thor)、學術論文集合(paper)和文獻引用網絡(citations network),具體參數如表1所示。

表1 網絡模型參數定義

定義1:有向圖Gr=(V,E)表示論文引用網絡。其中,V表示Gr中由作者結點和論文集合構成的二元組。Vi={ai,Pi},ai表示作者,A表示作者集合,且A={a1,a2,???,aN},N為作者總數;Pi表示作者ai的論文集合,且Pi={pi1,pi2,???,piL},L為作者ai發表的論文總數。P為集合A中所有作者的論文,且P={p1,p2,???,pM},M為學術論文總數。E表示Gr中作者發表論文的引用集合。任意作者ai和aj之間論文的引用集合定義為Eij={eij,x},x=1,2,???,r。其中,eij,x=表示ai的論文pim引用了aj的論文pjn。

定義2:有向圖Gc=(A,F)表示合著作者網絡(co-author network)。其中,F表示集合A中的合著作者,集合A中任意作者ai和aj之間,若存在聯合署名發表論文,即Pi∩Pj≠?,則定義ai和aj之間為互相關注關系,即,∈F。

2.2 網絡模型中作者親密度

本文在學術社交網絡中,定義合著作者的結構親密度Istruct、所屬的學科親密度Isubject、基于學科敏感度Level的引用親密度Ireference和網絡圖譜親密度Igraph這4個維度計算作者間的親密度,通過對這4部分進行加權后,最終得到綜合親密度I,計算結構圖如圖1所示。

2.2.1 合著作者的結構親密度Istruct

利用作者合著網絡Gc=(A,F)構建鄰接矩陣Adj=(Adjij)N×N,計算作者間的結構親密度,

由于直接邊關系和結點對相似度的影響,本文提出了結構相似度改進算法[11]。該算法將鄰接矩陣Adj的對角線元素初始化為1,即

利用鄰接矩陣結點的出、入度計算結構相似度,即合著作者的結構親密度矩陣Istruct=其中,Istructij表示作者ai和aj的結構親密度,公式為

其中,Ik為節點k的入度;Ok為節點k的出度,對其求平方根的倒數[14],即為被關注節點k或關注節點k的權重。

2.2.2 學科親密度Isubject

作者ai的論文所屬學科定義為Si={six}(x=1,2,…,m),則所有作者論文所屬學科S=S1∪S2∪…∪SN。

Step1.對每位作者發表的論文按關鍵詞所屬學科進行分類,統計每類學科的論文數量。對任意作者ai,有Si={si1,si2,???,siR},其中R為作者ai的學科跨度,每類學科論文數量統計為Count(ai,sh),表示作者ai在學科sh上的論文數,sh表示學科,sh∈S。

Step2.若同類學科上論文數量相差較大,則學科方向不同,利用歐幾里得距離計算作者學科維度的空間距離,即

Step3.空間距離越大,作者間的學科親密度就越低,學科親密度矩陣Isubject=()N×N,其中表示作者ai和aj的學科親密度,

2.2.3 基于學科敏感度的引用親密度Ireference

本文加入學科敏感度(level)指標,表示單個作者在某學科上發表論文數量在該學科所有發表論文的排序位置,論文對不同學科敏感度不同,計算作者的學科敏感程度,并進行等級劃分,調整作者學科的親密度關系[15]。

Step1.將每位作者在Si中學科按Count(ai,sh)升序排列。

Step2.計算該作者發表論文所屬學科的敏感度等級,將每類學科文章的敏感度等級記為Level(ai,sh),表示作者ai對于學科sh的敏感度,使得

其中,

Step3.將作者ai在學科sh下引用aj的論文數量記為Rh(ai,aj)。用文章敏感度和文獻引用計算引用親密度。定義文獻引用親密度矩陣為Ireference=()N×N。其中表示作者ai和aj的引用親密度,

2.2.4 基于圖譜node的親密度Igraph

在計算以上3種親密度時,可能得到結果比較稀疏。在實際網絡中,從一個節點出發總有一條路徑可以連接另一個節點,為了深度挖掘作者間的關系,本文從知識圖譜的角度來計算作者間親密度Igraph[16-17]。根據已有的社交網絡,構建圖譜Gg,如圖2所示。

圖2 學術圖譜網絡結構

根據知識圖譜得到作者節點的圖向量表示,傳統圖表示分兩類[18-19]:①圖游走思想,常用方法有DeepWalk、node2vec;②根據頭實體和尾實體來預測邊的存在表示,常用方法有TransE、TransD、TransH等,本文采用TransH計算作者節點的向量表示[20-21]。TransH是對知識圖譜構建成頭實體h、尾實體t以及關系r的三元向量組形式,將三元組關系映射到超平面產生不同的關系映射向量,在傳遞轉移操作時,對不同關系實體進行區分。如圖3所示,將關系r投射到超平面得到關系投影dr和超平面范數向量wr;根據關系投影dr將頭尾實體h,t映射到超平面得向量表示fr(h,t),以及h的超平面范數表示wrThwr、t的超平面范數表示wrTtwr。如果滿足||h+dr-t||22數值較小,那么三元組是正確的,從而得到

圖3 TransH方法示意圖

其中,h、t表示網絡圖譜中作者向量;wrThwr、wrTtwr表示作者向量在超平面空間的范數表示;dr表示超平面關系投影。

對網絡中所有節點進行初始化向量表示,作者節點、學科節點以及論文節點都會得到一個隨機默認的向量表示。其中,作者ai的節點向量為vec(ai)。以公式

中損失函數最小化為目標,不斷迭代更新所有節點向量表示,L值越小,則節點向量越準確。其中,h′,t′為負例向量;S表示圖譜中正例三元組;S′表示由正例三元組(h,r,t)替換頭尾實體構造的負例三元組;χ表示間隔值。

不斷迭代更新后,得到122位作者在網絡圖中的向量表示vec(ai)。通過公式

計算作者之間的圖譜親密度Igraph=()N×N。其中,為作者ai和aj之間的圖譜親密度。

以此類推,算出122位作者之間的圖譜親密度。通過公式

的sigmoid函數,將得到的結果進行歸一化處理,使統計得到向量的值在[0,1]。

2.2.5 學術作者綜合親密度I

采用加權求和,將結構親密度、學科親密度、引用親密度和圖譜親密度結合,賦予權重α、β、γ和η,最終得到學術作者間的綜合親密度矩陣I,定義為

其中,α,β,γ,η∈[0,1],并且滿足α+β+γ+η=1。

由于合著作者通常為相同學術團隊學者,計算網絡親密度的目的是找出全局網絡中相似研究方向和水平的其他學術團隊,進行跨域學術交流,故提高引用親密度權重;學科親密度因包含甚廣,雖屬同一學科,但多數學者并沒有關聯性,故設置學科親密度權重最低;圖譜親密度比較全面地反映了網絡模型中作者間的關系,故權重設置最高。因此,最終加權參 數 設 置 為:α=0.2,β=0.1,γ=0.3,η=0.4。

3 實驗與應用

3.1 數據獲取

本文以CNKI為數據源,收集了某985高校教授A近5年論文的合著作者、引用作者、被引作者、引用論文和被引論文全部信息,數據包含122位作者的千余篇文章,建立論文列表、引用列表和學科列表信息。

Step1.根據作者列表中的作者信息,建立合著作者的連接關系,計算作者結構親密度Istruct。

Step2.通過論文列表中關鍵詞,統計論文的學科分布情況,發現選取作者集中在計算機軟件及應用、自動化技術、電信技術、電力工業等領域。同時,也涉及公路與水路運輸、心血管系統疾病、園藝、中醫學等出現頻次較少領域。

Step3.通過引用列表,統計作者發表論文數量和被引用頻次、被引用數量,按論文數量降序排序,前幾位作者發表論文數量位居前列,具有較大引用率,屬于權威作者,具有較大的影響力。根據參考文獻中引用關系,建立原文作者和參考文獻作者間的連接關系。

Step4.根據Step1~Step3的數據進行預處理,計算出作者的圖譜親密度,并加權得到所有作者間的綜合親密度值列表。

Step5.根據所有作者間綜合親密度值列表,算出author_degree值(即作者節點親密度總和)。再根據學術作者網絡的特點,引入作者發表文章數量與author_degree相乘,最終得到網絡中作者的author_weight值,即網絡水平值。

3.2 實驗設置與結果

將獲取數據代入公式(3)、公式(5)、公式(8)、公式(10)、公式(11)、公式(13)中,得到122位作者各維度及綜合親密度值。由于作者數量較多,無法在圖形上完整展示,本文隨機選取展示列表中5號作者與其余9位作者的親密度值曲線圖(圖4),以及10組作者親密度關系的可視化(圖5)。

圖4 5號作者與其余9位作者的親密度

圖5 作者親密度可視化

根據第3.1節中的Step4,得到作者間綜合親密度值列表,算出網絡中每位作者的di值,定義author_degree=[d1,d2,???,dN]。其中,di為與作者ai有合著或引用關系的作者親密度值總和,

其中,Iij為作者ai和aj間的綜合親密度值。

根據學術網絡特點,di值顯示出與目標作者有引用和合著關聯的學術作者網絡,這里引入作者發文數量指標,計算出作者的網絡水平值wi,并定義為author_weight=[w1,w2,…,wN],i=1,2,…,N,則wi為作者ai的di值與發表論文篇數乘積,即

其中,di為與作者ai有合著或引用關系的作者間親密度值總和;|Pi|為作者ai論文數量。

根據作者的author_weight得出學術網絡中作者關系圖譜,如圖6所示,包括122位作者結點信息和合著加引用的連接關系。

圖6 學術網絡中作者間親密度關系圖譜

在圖6中,節點大小代表作者網絡水平值wi,等大的節點代表與目標作者相同水平的作者。圖6a表示在整個學術關聯網絡中有合著關系的團隊聚類;圖6b表示這些學術團隊之間的引用關系。連接曲線的粗細代表作者間的親密程度,曲線越粗,作者間的親密度值越大。

基于隱私考慮,本文用數字符號表示作者姓名。例如,Author1是重慶某985高校大數據軟件學院的教授;Author90是某211大學計算機學院院長,省級學科帶頭人;Author73是廣東工業大學自動化學院教授,多項權威雜志評審專家;Author98是某省211大學數學學院院長。通過實驗,把這些相似學科關注方向、相同研究水平的科研團隊找出來,從而具備形成“學術網絡朋友圈”的數據基礎,學術數據庫平臺可以建立即時交流工具,或者主動給學術朋友圈的節點做推送,讓學者們的科研成果傳播和交流更加精準且有效。

4 結論

本文基于網絡模型,提出了合著作者親密度、學科親密度、基于學科敏感度的引用親密度以及社交圖譜親密度等4個維度計算作者綜合親密度的方法。研究結果表明,本文所提的方法可以明確表現作者之間的親密度,根據親密度關系圖譜,可直觀地看出本文綜合模型構造的“學術朋友圈”社交網絡各維度及綜合效果。本文為將作者劃分到相同研究水平等級的關系圈,對每個關系圈內的作者學術成果交流和文獻精準推送做好基礎。

猜你喜歡
學科
學科新書架
【學科新書導覽】
學科新書導覽
學科新書導覽
【學科新書導覽】
土木工程學科簡介
【學科新書導覽】
學科新書導覽
關注一流學科
“超學科”來啦
主站蜘蛛池模板: 亚洲中文字幕国产av| 1769国产精品视频免费观看| 亚洲第一页在线观看| 国产香蕉97碰碰视频VA碰碰看| h网站在线播放| 超清无码一区二区三区| 免费在线观看av| 四虎成人精品| 国产高清在线丝袜精品一区| 国产精品久久久久鬼色| 亚洲精品另类| 欧美a级完整在线观看| 色婷婷丁香| 女人18毛片一级毛片在线 | 精品少妇三级亚洲| 国产在线拍偷自揄拍精品| 97国产在线观看| 激情成人综合网| 爱色欧美亚洲综合图区| 久久婷婷综合色一区二区| 亚洲视频影院| 国产黄视频网站| 全部免费特黄特色大片视频| 一级毛片中文字幕 | 午夜国产在线观看| 青青青国产免费线在| 99九九成人免费视频精品| 丁香婷婷久久| 青草精品视频| 亚洲精品色AV无码看| 国产亚洲视频在线观看| 国产麻豆福利av在线播放| 日韩视频免费| 欧美成人aⅴ| P尤物久久99国产综合精品| 精品视频一区二区三区在线播| 22sihu国产精品视频影视资讯| 亚洲精品卡2卡3卡4卡5卡区| 免费在线a视频| 美女内射视频WWW网站午夜 | 99精品福利视频| 亚洲最大在线观看| 免费无码AV片在线观看国产 | 国产精品九九视频| 麻豆国产原创视频在线播放| 日韩高清无码免费| 高清不卡毛片| 国产精品性| 国产精品人人做人人爽人人添| 国产特一级毛片| 女人18毛片久久| 精品久久久久久中文字幕女| 国产另类视频| 久青草国产高清在线视频| 国产精女同一区二区三区久| 精品综合久久久久久97超人| 日韩精品毛片人妻AV不卡| 在线看片免费人成视久网下载| 国产在线视频自拍| 全部免费特黄特色大片视频| 国产精品浪潮Av| 亚洲国产中文综合专区在| 亚洲日韩精品综合在线一区二区| 亚洲人在线| 黄色网站在线观看无码| 国产综合精品一区二区| 在线观看的黄网| 亚洲欧美国产视频| 18黑白丝水手服自慰喷水网站| 91丝袜乱伦| 亚洲黄色成人| 手机在线免费毛片| 亚洲色成人www在线观看| 国产香蕉一区二区在线网站| 日韩欧美中文亚洲高清在线| 国产亚洲精品资源在线26u| 国产极品美女在线| 亚洲无码高清免费视频亚洲| 久久91精品牛牛| 毛片最新网址| 国产免费观看av大片的网站| 久久91精品牛牛|