融合學術水平相似性的合作者推薦模型

2022-12-31 00:00:00秦紅武趙猛馬秀琴閆文英

計算機應用研究 2022年7期

摘要：合作者推薦工作對科學研究的發展和科技成果的轉化很有幫助，然而學者間水平的差距嚴重影響了合作的建立。模型從學者間學術水平差距，合作網絡的拓撲距離以及研究興趣三個角度進行合作者推薦。首先，定義了學者—學者、學者—主題、學者—水平標簽三種網絡，并融合成主題—學者—水平標簽圖；之后對該圖中的邊賦權重，從而將合作者推薦任務轉換為鏈路預測問題；最后使用偏向重啟隨機游走算法計算學者間的訪問概率，并篩選訪問概率大的學者作為推薦建議。在三個數據集上的實驗表明，模型在推薦的準確率、召回率、F1指數上平均提高了5.4%、2.7%、3.8%，同時目標學者與推薦學者的學術水平匹配度更高。

關鍵詞：合作者推薦；學術水平匹配；學術大數據；偏向重啟隨機游走

中圖分類號：TP391 文獻標志碼：A

文章編號：1001-3695（2022）07-019-2043-07

doi：10.19734/j.issn.1001-3695.2021.12.0670

基金項目：國家自然科學基金資助項目（61662067，61662068，61762081）

作者簡介：秦紅武（1978-），男（通信作者），甘肅武威人，教授，碩導，博士，主要研究方向為大數據、數據挖掘和社會計算（qinhongwu@nwnu.edu.cn）；趙猛（1994-），男，河南平輿人，碩士研究生，主要研究方向為大數據、社會計算；馬秀琴（1977-），女，甘肅臨夏人，教授，碩導，博士，主要研究方向為大數據、軟集；閆文英（1996-），女，山西呂梁人，碩士研究生，主要研究方向為數據挖掘和大數據.

Collaborator recommendation model fused academic level similarity

Qin Hongwu?，Zhao Meng，Ma Xiuqin，Yan Wenying

（College of Computer Science amp; Engineering，Northwest Normal University，Lanzhou 730070，China）

Abstract：

Collaboration recommendation is helpful to the development of scientific research and the transformation of technological achievements.However，the gap between scholars’ academic levels seriously affects the establishment of cooperative relations.This paper made recommendations from three perspectives：the academic level gap between scholars，the topological distance in the collaborative network，and research interests.Firstly，this paper defined three networks，namely scholar-scholar network，scholar-topic network and scholar-level label network，and merged them into a graph of topic-scholar-level label，and set weight to the edges in the graph.Then it turned collaboration recommendation task into a link prediction task.Finally，it employed the biased restart random walk algorithm to calculate the probability of visits among scholars，and recommended the candidate scholars with high visit probability to target scholars.Experiments on three datasets show that the proposed model can improve the precision rate，recall rate and F1 index by 5.4%，2.7% and 3.8%.In addition，the academic levels of target scholars and recommended scholars are more closely matched.

Key words：collaborators recommendation；academic level matching；academic big data；biased restart random walk

0 引言

合作一直是科學發展與經濟增長的重要助力因素，不難發現，一個多產的學者往往合作也更加頻繁^［1^，2^］。因此，如果學者有機會去發現和了解那些陌生的、對自己研究有幫助的學者，將對該學者的研究工作起到相當大的促進作用^［³^］。

近些年，已有一些為學者進行合作者推薦的工作。文獻［4］使用基于內容的推薦方法提取學者的興趣特征和社交網絡的特征，建立成對的相似矩陣來推薦合作者；文獻［5］根據每個學者的文本信息得到每個學者的加權文本表示，然后通過學者加權文本表示的相似性和內在協作關系構建內容增強型學術合作者網絡，最后利用網絡表示學習將每個研究者表示為一個潛在向量，并基于學者向量的相似性進行推薦；文獻［6］利用主題模型提取學者的研究興趣，然后基于網絡嵌入學習以及學者向量進行推薦；文獻［7］利用大量學術數據挖掘了學者在學術年齡意識方面的協作模式，并給出了推薦的建議；文獻［8］提出了一個基于專業知識的推薦框架，該框架可以根據機構的專業知識和建議來確定機構的強主題領域和弱主題領域，以互補的形式進行推薦工作。除此之外，還有從各個角度對學者進行衡量的推薦工作^［9^，10^］。

上述這些科研合作者推薦的工作從多種不同的推薦角度進行考量，其中有些算法的核心是提取內容語義特征并與協同過濾算法融合。然而，這些算法中的特征提取僅是對合作者之間相似度進行計算，缺少對學者間現實距離的考量，從而導致推薦結果不準確^［11^］。此外，還有些甚至盲目地推薦高水平的學者，這些研究的推薦方式僅以需求者的角度出發，卻不曾想過高水平的研究人員往往會被推薦給大量有合作需求的目標學者，他可能并沒有那么多時間和意愿去接受這些合作，或者高水平學者不愿意與和自己水平差距過大的學者合作^［¹²^］。因此，學術水平相似是合作學者間共同研究的重要前提，水平的差距或將直接影響合作關系的形成和研究工作的開展。綜上所述，設計一種新的學術水平的評價方式，研究合作時學術水平的差距對合作關系建立產生的影響，使得在推薦時能夠彌補合作學者之間的水平差距的模型十分必要；另外，也要考慮如何使推薦的合作能夠在現實世界被建立的問題。兩個學者進行合作除了與雙方是否有相似的研究主題有關，也與他們在社交關系中是否存在足夠的路徑有關，因此，傳統的基于行為相似度的協同過濾模式不適用于合作者推薦。

為解決上述問題，本文提出了一種融合學術水平相似性的合作者推薦模型（academic level similarity recommendation，ALSRec）。該模型在包含學者、主題、學術水平標簽的圖上利用偏向重啟隨機游走算法尋找與目標學者在學術水平、研究興趣上具有一定相似性的學者，最后依據不同學者節點間的訪問概率大小進行推薦。

1 科研合作者推薦問題的研究

科研合作者推薦的問題受到了廣泛的研究，比較常見的是在學術合作網絡中尋找研究方向相似的合作者，因此對潛在合作者的挖掘可以轉換為鏈路預測問題，即挖掘網絡中可能出現的邊。隨機游走算法是其中比較常用的一種鏈路預測模型。文獻［13］提取學者論文的主題后利用聚類算法識別所屬的研究領域并劃分合作網絡，之后利用重啟隨機游走算法計算研究人員特征向量的相似度，按照相似度大小進行合作者推薦。文獻［14］提出了一種基于本體的語義相似度，并將其應用于協作上下文本體中，為用戶生成上下文感知的合作者推薦。文獻［15］通過主題模型對候選專家發表的論文進行分析，獲取專家的知識結構，然后根據候選專家的知識結構特征和研究需求進行聚類，最后在每個集群中選出最有影響力的學者。文獻［16］利用影響力大的學者圈作為社區的核心結構，并對學術社交網絡中學者間的關系紐帶所產生的復雜網絡拓撲關系進行學術社區檢測，計算社區內學者的影響力，從而實現社區內部的權威學者推薦服務。文獻［17］通過構建具有多種類型的節點和具有簡化網絡結構的異構網絡，使用兩個重要度量來加權網絡中的邊，利用重啟隨機游走算法來有側重地檢索相關作者，并根據排名得分輸出排序后的推薦列表。文獻［18］從科研數據庫中構建一個有向圖，根據學者研究工作的合作數據、研究內容的余弦相似度及其組合定義了三類邊，最后在有向圖上使用隨機游走算法推薦合作者。文獻［19］提出了ACRec模型，該模型使用三個學術指標作為推薦新合作關系的依據，每個指標都來自學者之間共同撰寫論文的信息并用于度量連接的重要性，以便隨機游走算法更有可能訪問到有價值的節點。文獻［20］提出了一種基于最近鄰的隨機游走算法，結合社交網絡的特點，節點被隨機游走到的概率取決于目標用戶的歷史合作概率。文獻［21］將社會組織之間的關系強度、重要性評級以及研究人員活動得分作為推薦指標，給出了一種評估合作者推薦質量的新方法。文獻［22］基于學者知識結構和學術行為網絡兩個維度，構建基于相似興趣的學術模型，探索學者的知識結構和合作關系，該模型可以有效解決學術研究中的信息過載和不對稱問題。文獻［23］從摘要中提取作者的動態研究興趣，并計算余弦相似度作為學者—學者圖的邊權重，采用重啟隨機游走算法在同行中搜索具有相似研究興趣的潛在合作者。雖然鏈路預測算法在傳統的大型網絡中效率比較低下，但隨著云計算技術的出現，系統可以在大規模網絡上并行分發執行復雜的鏈路預測算法，使得算法在并行模式下的迭代效率比普通系統的執行效率高幾個數量級^［24^］。

還有一些在不同領域間進行跨領域合作者推薦的工作，這可以幫助知識從一個領域傳播到另外一個領域。多個領域間進行推薦時主要有以下三個特征：a）稀疏連接，多領域間的推薦合作相比于同領域間的合作，合作關系十分稀疏；b）專長互補，不同研究領域間學者的研究主題和特征各不相同，但能夠相互支持和補充；c）主題偏倚，不同領域間合作者的合作點往往屬于某個單一領域內的某個具體問題。上述特征與一般的合作關系的模式不同，因此一般的推薦方法并不適用于該類問題。然而，還是有一些利用機器學習和數據遷移的方法來進行推薦的工作，Guo等人^［25^］提出了一種混合圖模型，該模型將顯式合著關系和隱式合著關系結合起來構造合作圖，然后使用帶有重啟概念的隨機游走算法來度量和排序節點之間的關聯性并進行推薦；王欣^［²⁶^］利用用戶和物品的潛在特征進行聚類，利用它們的共享知識和特殊知識在不同領域間進行連接和數據遷移；王俊等人^［27^］建立“三元橋”網絡來進行知識的遷移學習，通過計算用戶與物品之間的評分進行不同領域之間的推薦。遷移學習可以在不同領域、不同用戶、不同數據集之間提取到共有知識，以增加數據的豐富度以及特征維度，從而緩解不同領域間特征稀疏的問題。

2 融合學術水平相似性的合作者推薦模型

2.1 推薦方式

本文提出的模型為目標學者從以下三個角度進行推薦：

a）合作網絡的可達性。一般情況，兩個學者能夠產生合作，一個重要的因素是他們在社交網絡中具有一定的路徑可達性。

b）研究方向的一致性。相同的研究方向是大多數學者進行合作的基礎，本文模型將提取學者的研究主題，并對學者對主題的感興趣程度量化。

c）學術水平的相似性。學術水平差距往往導致合作關系難以建立甚至阻礙研究工作的開展，因此本文模型對學術水平進行定義并衡量學者間的差距，提高同水平學者的匹配度。

為實現上述推薦目標，本文模型將合作者網絡、學者與研究主題構成的圖以及學者與其學術水平的標簽構成的圖結合在一起構建{主題—學者—水平標簽}圖，并用一種鏈路預測算法計算網絡中學者節點間的訪問概率，其隱含著學者間合作關系的可達性、研究主題的相似性以及學術水平的相近性，并最終用于推薦時的排序。

2.2 科研合作者網絡

定義1 科研合作者網絡。若U={u1，u2，…，uq}為學者節點集合，Euu={e1，e2，…，em}為學者在同一篇論文的合作關系，那么科研合作者網絡可以定義為Guu=（U，Euu）。

定義2 科研合作網絡中邊的權重weightuu。假定學術水平相似的學者具有更強的合作關系，則合作網絡Guu中Euu的權重值weightuu可賦值為如下所述的學者間學術水平的相似性。

1）學術水平定義

現有的學術水平評價指標及度量方式依據關注點的不同分為很多類型，但都有其局限性，還沒有一個統一的標準。平時常用的評價指標主要包括學者論文發表量、總引文數以及發表期刊的影響因子，本文結合上述指標，將學術水平指標設計為學者全部論文所發表期刊的平均影響因子與論文平均被引數的乘積之和，該指標結合論文的影響力以及期刊的影響力，能夠衡量學者平均時期內的發文數，是較為適用的水平評價指標，該指標計算公式如下：

其中：Du為學者u論文發表的期刊以及被引數據集合；IF（p）表示學者u的論文p所在期刊的影響因子，ct為論文被引次數。

2）學術水平相似性定義兩個學者的學術水平相似性定義為學者u和v的學術水平差值的絕對值倒數：

可以知道，S（u，v）的取值在［0，1］，該值將用于對科研合作網絡Guu=（U，Euu）中邊的權重weight（u，u）賦值。

2.3 {主題—學者}圖

定義3 {主題—學者}圖。若T={t1，t2，…，tp}為從學者論文中提取的研究主題集合，Etu={e1，e2，…，eh}為學者與其研究主題的邊集，{主題—學者}圖定義為Gtu=（T，U，Etu）。

定義4 主題—學者連邊權重weighttu。一個學者往往有不止一個研究主題，因此對于不同的研究主題也有不同的研究強度，本文對這種研究強度進行衡量。假設通過主題提取模型可以提取到學者在對應研究主題上的概率分布，則該概率將賦值給Etu作為weight（t，u）的權重值。本文使用LDA主題提取模型提取學者的研究主題。

LDA（latent Dirichlet allocation）是一種借助詞袋模型對文檔主題分布進行提取的概率模型。該模型利用先驗概率分布（Dirichlet分布）以及文檔中詞匯所屬的主題進行計算，每個詞匯都可由某個主題生成，一篇文檔可以包含多個主題。LDA模型流程如圖1所示。其中：θ是文檔—主題概率分布；ρ是計算θ的超參數，是一個K維向量；φ是主題—詞概率分布，λ是φ的超參數；η為詞，δ是詞的主題分布；τ是一篇文檔中詞的數目，σ是總的文檔數；K為主題個數。Dirichlet概率密度函數的計算公式如下：

學者的主題有時是動態變化的，并且研究主題往往不唯一，為了在一定范圍內提取到主要的研究主題，本文將學者四年內發表的論文作為提取文檔集合，提取K個分布概率最大的主題構建主題向量；將其分布概率作為該學者研究主題的感興趣程度，對{學者—研究主題}圖中邊的權重weight（t，u）進行賦值。LDA模型對于短文本的主題提取效果不好，本文在提取時選取學者論文的摘要、引言、結論等對論文主題具有描述性的文本片段作為語料數據，避免提取數據的稀疏性。

2.4 {學者—水平標簽}圖

定義5 {學者—水平標簽}圖。若對于某學者可以用某個標簽集合中的某一個描述其學術水平所處的階段，則可以構造{學者—水平標簽}圖Gul=（U，L，Eul），其中Eul={e1，e2，…，eg}表示學者與水平標簽的關系，L={l1，l2，…，lk}為學術水平標簽集合。

定義6 水平標簽生成。假定學術水平相近的學者間擁有相同的水平標簽，在本文中利用DBSCAN聚類算法將學者按照學術水平定義指標進行聚類后，按照其所在的簇劃分后賦予學者，DBSCAN的具體描述如下。

DBSCAN算法是無監督學習中基于密度的空間聚類算法，它將達到一定密度區域內的樣本劃分為簇，即認為聚類空間中一定區域內所包含的樣本數目不小于某一給定的閾值，那么該區域中的樣本為同簇樣本。與傳統的算法相比，它具有以下優點：a）與K-means相比不需要指定聚類的個數，同時對初始聚類點的選取不敏感，使得聚類的簇也不會產生偏倚；b）在聚類的同時可以發現異常點。本文依據學術水平指標（式（1））以及參與學術研究的時間年限作為學者聚類的屬性。

DBSCAN算法的一些概念如下：MinPts表示一個簇中最少所需數據點的個數，即密度閾值；ε鄰域表示以給定樣本點為圓心、ε半徑內的區域；核心點表示以該樣本點為圓心、ε半徑內區域中的樣本點多于MinPts的樣本點；邊緣點表示ε半徑內區域中的樣本點少于MinPts但仍處于核心點ε半徑內的點；噪聲點表示既非核心點也非邊緣點的樣本點；直接密度可達表示如果存在數據集D以及樣本點p，q∈D，當p在核心點q的ε鄰域內，則稱樣本點p從樣本點q出發時是直接密度可達的；密度可達表示若存在樣本鏈p1，p2，…，pn∈D，和兩個樣本點p，q∈D，當p=pi和q=pn是從pi-1出發是直接密度可達的，則稱q由p密度可達；密度相連表示如果存在樣本點o∈D，使得樣本點p，q∈D通過樣本點o后密度可達，則稱p、q是密度相連的。

算法1 DBSCAN算法

輸入：MinPts，ε鄰域，學者數據集U={u1，u2，…，un}。

輸出：聚類簇l1，l2，…，lc。

1 初始化核心點集合H=，初始化簇數c=1；

2 for i=1，2，…，q do

3 if ui未被標記then

4 標記ui是第k簇；

5 P=ui的ε鄰域內節點集合；

6 if |P|gt;=MinPts then

7 H=H∪ui；

8 for j=1，2，…，|P| do

9 ui=pj；

10 遞歸跳轉到步驟3；

11 k++；

12 else

13 標記ui是噪聲點；

14 end if

15 end if

16 end for

17 依據每個用戶的標記進行分簇返回l1，l2，…，lc。

聚類后得到c個簇，可以生成c個水平標簽的節點集合L={l1，l2，…，lc}，學者與對應的水平標簽進行連邊，生成{學者—水平標簽}圖Gul=（U，L，Eul）。由于是按照學術水平進行聚類，所以同一個水平標簽所連接的學者間學術水平是相似的，水平標簽又僅僅是對學者所在簇群體的一個標志。為了賦予其一個合理的權重，在本模型中，Gul圖中邊Eul的權重weight（u，l）定義為與水平標簽l所連接學者節點u的全部邊權重的均值，如式（5）所示。

weight（u，l）=∑y∈Γ（u）weight（u，y）d（u）（5）

其中：Γ（u）為學者節點u相鄰節點的集合；d（u）為節點u的度。

2.5 基于{主題—學者—水平標簽}圖的偏向重啟隨機游走

定義7 {主題—學者—水平標簽}圖。通過上述定義的學者合作者網絡、{主題—學者}圖Gtu以及{學者—水平標簽}圖Gul，可以構建成{主題—學者—水平標簽}圖Gtul=（T，U，L，Etul），其中Etul={Etu，Euu，Eul}。

本文提出的科研合作者模型ALSRec基于上述{主題—學者—水平標簽}圖（圖2），使用一種依據邊的權重大小進行有偏向隨機游走的模型——偏向重啟隨機游走算法^［28^］（biased random walk with restart，BRWR），模型將設置游走粒子在不同類型節點間以不同的跳轉概率進行游走，從而計算學者節點間的訪問概率，經過多次迭代，學者節點間的訪問概率將趨于穩定，最終依據學者節點間的相互訪問概率大小進行推薦。

如相關工作中所述，隨機游走算法中節點間等概率游走的策略往往并不符合實際情況，因此，本文利用有偏向重啟隨機游走算法對圖2網絡中的節點有偏好地進行選擇。該算法通過調整節點間的轉移概率，使得相鄰節點中度值相對較大的節點具有更大的轉移概率（游走時的偏向概率），其主要過程如下：a）當游走粒子從圖中的起始節點出發，每次游走有兩個選擇，即以轉移概率a游走到相鄰節點，或以概率1-a返回初始節點；b）當以轉移概率a移動到相鄰節點時，此時會以偏向概率w選擇其中一個鄰居節點作為下一步移動到的節點；c）重復以上過程，直至訪問概率達到平穩狀態。

本文提出的ALSRec模型中，節點間的游走偏向概率由邊的權重大小決定，節點間邊的權重越大，則轉移概率越大，將相鄰節點的權重進行歸一化得到各個節點的偏向轉移概率w。

其中：Γ（x）為x節點的相鄰節點集合；∑y∈Γ（x）weight（x，y）β用于偏向轉移概率的歸一化；β是水平偏向調節參數，βgt;0時游走粒子轉移時偏向權重大的相鄰節點，βlt;0時則偏向權重小的相鄰節點，β=0時為無偏向游走，即節點間的轉移概率相等。

假設初始時刻t，學者的游走粒子在節點x處，在t+1時刻粒子到達網絡中各個節點的訪問概率向量πx為

其中：qx為N維初始狀態的列向量，且僅有x節點位置值為1，其余元素為0；1-α為重啟概率；W為偏向轉移概率矩陣。

當t→∞時，游走粒子到合作網絡中各節點的轉移概率逐漸趨于穩定，穩定后的訪問概率向量如下：

最后得到各節點間的訪問概率APxy：

訪問概率APxy表示目標學者x到推薦學者y的訪問概率πxy以及推薦學者y到目標學者x的訪問概率πyx之和。最終推薦時，將APxy排序后選取值最大的N個學者節點作為top-N推薦的學者。ALSRec推薦模型的偽代碼如下：

算法2 ALSRec模型

輸入：學者集合U、學者論文及相關信息數據EP。

輸出：按照訪問概率排序的推薦學者列表。

1 根據合作數據生成學者的合作者網絡Guu=（U，Euu），并對權重weight（u，u）賦值；

2 利用LDA模型提取學者論文中的研究主題概率分布，生成研究主題節點集合T和{主題—學者}圖Gtu=（T，U，Etu），并對weight（t，u）賦值；

3 利用DBSCAN聚類算法生成學術水平標簽節點集合L和{學者—水平標簽}圖，并對weight（u，l）權重賦值；

4 由上述得到數據，建立{主題—學者—水平標簽}圖Gtul=（T，U，L，Etul）；

5 初始化Gtul的偏向跳轉矩陣W和節點訪問概率矩陣S中的元素為0；

6 利用式（6）計算網絡中各節點間的偏向轉移概率并更新歸一化的偏向轉移矩陣W；

7 while S不收斂do//節點間訪問概率收斂

8 πx=（1-p）（I-pWT）^-1qx；

9 APxy=πxy+πyx；

10 end while；

11 top-N=sort（AP）；

//對目標學者與其他學者的訪問概率進行排序推薦

12 return top-N

3 實驗與分析

3.1 數據集

a）MAG（Microsoft academic graph，微軟學術圖譜）是微軟公司開發的異構圖學術知識庫（https：//docs.microsoft.com/en-us/academic-services/），包含科學出版物記錄、論文引用關系以及作者、機構、期刊、會議和研究領域等，主要由必應網絡搜索引擎和必應學術搜索引擎在內的知識庫構建。

b）DBLP是德國特里爾大學以計算機領域作者為核心的英文文獻數據庫（https：//dblp.org），存儲了大量國際期刊和會議發表論文的信息，主要包括論文標題、作者、發表日期等。與MAG數據庫獲取數據的方法相同，也是使用官方提供的API請求數據。

c）C-DBLP是中國人民大學開發維護，最初以國內權威計算機期刊為數據來源的中文文獻數據庫（http：//cdblp.ruc.edu.cn/），與DBLP類似，該數據庫同樣以作者為核心，提供中文文獻信息的檢索和查詢。目前，已擴展收錄2 430 048篇論文（25個領域），4 003 276篇學位論文（53個研究領域），1 437 755位研究人員。

本文通過構建接口請求，從上述三個數據庫中的計算機領域中提取到5 416名學者數據，包括2010—2021年的合作數據以及他們的論文信息。其中2010—2018年的數據作為訓練集，2018—2021年的數據作為測試集。

3.2 評價指標及參數設置

本文使用準確率、召回率、F1指數來評價本文模型及對比模型的推薦表現，假設R（u）是推薦模型在測試集中獲得的學者u的真實合作列表，T（u）是學者u在使用訓練集產生的模擬預測的合作列表，則三種評價指標的定義如下：

為了評價推薦合作的學者間水平差距的匹配程度，實驗將采用MAE指標來計算推薦合作學者間學術水平差距的均值，若MAE值越小，則說明推薦的學者合作關系越匹配，MAE為

其中：ru和rv分別是目標學者u的學術水平系數和推薦學者的學術水平系數。此外，鏈路預測算法中常用的AUC指標也同樣適用于評價本文模型。該指標定義為模型預測的結果中，已存在的邊比不存在的邊的訪問概率APxy分值大，那么就加1分，如果相等則加0.5分，這樣獨立地比較n次，假設有n′次測試集中的邊分值大于未出現的邊，有n″次相等，如果所有分數都是隨機產生的，那么AUC=0.5。AUC指標定義為

模型的主要參數設置如下：轉移概率α=0.85（隨機游走模型常用數值^［29^］），偏向參數β=0.2，學者主題數K=100，聚類的個數c=4。

3.3 時間復雜度分析

ALSRec模型依據步驟先后，主要包括數據預處理的離線推薦階段和計算特定用戶間訪問概率的在線推薦階段（圖3），其中前一階段包括候選學者主題的提取、學術水平的計算以及學者的聚類，其產生的數據可以作為預處理后的中間結果保存在數據庫中，當有用戶需要推薦時，只需獲取目標用戶的信息并與數據庫中候選學者保存的數據進行訪問概率的計算即可。因此，該節只考慮模型在線推薦階段的時間復雜度。

假設本文模型中節點的數量為v，當t→∞時，BRWR算法訪問概率向量（式（8））將有穩態解πx=（1-α）（I-αWT）^-1，其中包括矩陣減法運算、矩陣的求逆或者求偽逆的運算。矩陣的減法運算時間復雜度為O（v），矩陣求逆運算的時間復雜度為O（v³），因此計算BRWR相似度指標APxy的時間復雜度為O（v³）。

3.4 偏向參數β選擇

偏向參數β決定粒子轉移時對權重的依賴程度（式（6））。實驗中設置β的步長為0.1，訓練集與測試集的比例為8：2，平均進行20次獨立實驗，每次隨機地劃分訓練集和測試集，最后取AUC值的均值，實驗結果如圖4所示。可以發現，本文ALSRec模型的AUC在最大值時β不為0，這表明相比于隨機游走（β=0時），帶有偏向性的隨機游走能夠有效提高預測的精度，而AUC最大值時βgt;0說明偏向權重大的邊，即推薦時偏向學術水平更相似、研究主題更相近的學者節點能夠擁有更好的預測表現，這也證實了本文在學術水平相似的學者間有著更大合作可能性的假設。本組實驗得到β的最優值為0.2，后續實驗將在該值下進行。

3.5 主題數對模型性能的影響

一個學者往往有多個研究主題，這組實驗將選取合適的主題數，模型將設置四個不同的研究主題維度K={10，50，100，150}，觀察在準確率、召回率和F1指數的表現。主題數對模型的影響如圖5所示。可以發現，主題數與推薦表現在一定范圍內為正比關系，當K=100時，本文模型在三種評價指標上能夠獲得較好的表現，此時推薦的平均準確率為22%，而召回率為17%，F1指數為19%；相比K=0，即不考慮研究主題標簽節點時，推薦準確率僅為10%，表現最差。因此，本模型設置主題數K=100。

3.6 學者水平聚類個數的選擇

對學者按照學術水平指標（式（1））進行聚類，之后對相同簇的學者賦予水平標簽，選取合適的學術標簽數c決定了模型對學者學術水平劃分的細粒度。劃分的簇數并非越多越好，過于細致的劃分可能會丟失潛在的合作關系，因此本組實驗設置聚類個數c在［1，6］，選取最合適的劃分數量。

利用DBSCAN對部分學者進行劃分后的可視化如圖6所示，實驗結果如表1所示。可以知道，隨著聚類個數增加，模型推薦的表現先上升然后再下降，聚類的個數c=4時模型的表現最好，相較于c=1時推薦表現最差，這是由于此時等價于不對學者進行水平劃分，游走過程中難以通過水平標簽跳轉到水平相似的學者；c=6時，學者由于被劃分成較多簇，所以也會丟失大量潛在的合作者。后續實驗將控制聚類的個數設定為c=4。

3.7 模型對比

為對比本文提出的ALSRec推薦模型與現有模型的推薦效果，本組實驗與其他四種合作者推薦模型在MAG、DBLP、C-DBLP三個數據集上進行對比。

a）BCR^［30^］，該模型綜合了合作網絡中學者的研究主題分布和研究者的影響力，以及將能否給用戶帶來合作收益作為評價的依據，提供了最有益的合作者推薦。

b）CNRec^［31^］，基于共同鄰居的推薦模型，在基于社交網絡的推薦中十分流行。該模型基于這樣的假設：兩個學者若擁有越多共同的合作者，那么他們未來將有越大合作的可能。

c）MVCWalker^［32^］，采用了重啟隨機游走算法，并將合作關系的順序、時間及歷史合作次數三個因素加入到模型中來進行個性化推薦。

d）CCRec^［13^］，該模型利用內容和社會網絡兩種方法來推薦合作者，模型使用word2vec來識別學術領域，并采用隨機游走模型來計算研究者的特征向量。

實驗結果如圖7所示。可以發現，在三個不同的數據集上，本文提出的ALSRec模型要好于現有的四種模型，首次推薦時在MAG數據集上的準確率達到了22.7%，之后隨著推薦人數的增加，準確率不斷下降，但是仍然要好于其他模型。此外，基于相鄰共同學者節點CNRec推薦模型表現較差，推薦的準確率最高不超過7.5%。在召回率和F1指數評價指標上，本文模型則達到了16.9%和12.5%。與其他四種模型相比，本模型在三種評價指標方面平均增加了5.4%、2.7%、3.8%。

總的來說，利用隨機游走模型在學術網絡中尋找研究興趣相似的學者進行推薦能夠使得模型擁有較好的推薦效果，對于學術水平相似的學者給予一定的關注度能夠進一步提高學者間產生合作的概率，這驗證了本文學術水平相似的學者具有更大合作概率的假設，同時說明了模型的有效性。

此外，本文還計算了推薦后兩個學者之間的學術水平差距的均值，并用MAE指標來度量學者間的匹配程度，結果如表2所示。可以發現，ALSRec在上述五種推薦模型中的MAE值最小，在DBLP數據集上僅為19.37，而BCR模型的MAE在C-DBLP數據集上最大為47.14，這是由于其推薦策略是推薦能夠給目標學者帶來最大學術收益的合作者，這導致了學者間學術水平必然存在一定的差距。其他基于隨機游走的推薦模型，如MVCWalker及CCRec，并不考慮推薦時學者間學術水平應該具有一定相似性的因素，因此推薦結果受到限制。至于CNRec模型，學者間的學術水平MAE值并不大，這是因為兩個學者擁有更多的共同鄰居，本身就意味著兩者在某些特征上具有一定的相似性，其中一個就是學術水平相似，但是由于僅考慮共同鄰居即合作網絡中二階路徑內的學者，推薦的范圍受到制約。

本文以DBLP數據集中馬秀琴教授的合作數據為例，利用其2018年之前的合作數據對2019—2021年的合作學者進行top10的預測，本文模型及對比模型的推薦結果如表3所示。可以發現在推薦的10個學者中，本文的ALSRec模型預測正確的合作學者為4個，其中兩個為之前未合作過的新學者，整體的推薦新鮮度為60%，平均水平差距為17.2。相較于其他推薦模型，BCR模型的推薦新鮮度高但是很少有預測準確的，而其他三種模型的預測準確度尚可，但都是曾經有過合作的歷史合作者，所以新鮮度不高。總體而言，本文模型在推薦正確的個數、水平差距和推薦新鮮度上都表現較好。

4 結束語

本文考慮學者間學術水平對合作產生的影響，通過定義一種{主題，學者，水平標簽}圖，利用鏈路預測中的偏向重啟隨機游走模型提出了一種考慮學者間可達性、研究方向相似性以及學術水平相似的合作推薦模型。實驗證明本文模型推薦的合作建議無論在推薦指標或是目標學者與推薦學者之間的差距方面都好于現有模型。但是有些方面還需要繼續研究以提升模型的推薦表現，比如在學者主題提取過程中，可供提取的論文數據較少或者論文文本短小時，LDA模型可能不太適用；此外，模型對那些學術研究剛起步階段還沒有太多發表論文和學術成果的學者，由于其合作關系的稀疏性，難以構建其精確的主題畫像，所以推薦時表現不佳，還需要進一步研究。總的來說，本文將學術水平差距作為推薦時的考慮因素加入到模型中，不但提升了推薦表現，還證明了合作者之間學術水平差距對合作關系的建立是極其重要的。

參考文獻：

［1］Katz J S，Martin B R.What is research collaboration？［J］.Research Policy，1997，26（1）：1-18.

［2］Lee S，Bozeman B.The impact of research collaboration on scientific productivity［J］.Social Studies of Science，2005，35（5）：673-702.

［3］Chen H H，Gou Liang，Zhang Xiaolong，et al.CollabSeer：a search engine for collaboration discovery［C］//Proc of the 11th Annual International ACM/IEEE Joint Conference on Digital Libraries.New York：ACM Press，2011：231-240.

［4］Araki M，Katsurai M，Ohmukai I，et al.Interdisciplinary collaborator recommendation based on research content similarity［J］.IEICE Trans on Information and Systems，2016，E100.D（4）：785-792.

［5］Chen Jie，Wang Xin，Zhao Shu，et al.Content-enhanced network embedding for academic collaborator recommendation［J］.Complexity，2021，2021（2）：article ID 7035467.

［6］Kong Xiangjie，Mao Mengyi，Liu Jiaying，et al.TNERec：topic-aware network embedding for scientific collaborator recommendation［C］//Proc of IEEE SmartWorld，Ubiquitous Intelligence amp; Computing，Advanced amp; Trusted Computing，Scalable Computing amp; Communications，Cloud amp; Big Data Computing.Piscataway，NJ：IEEE Press，2018：1007-1014.

［7］Wang Wei，Yu Shuo，Bekele T M，et al.Scientific collaboration patterns vary with scholars’ academic ages［J］.Scientometrics，2017，112（1）：329-343.

［8］Lathabai H H，Nandy A，Singh V K.Expertise-based institutional collaboration recommendation in different thematic areas［C］//Proc of the 11th International Workshop on Bibliometric-Enhanced Information Retrieval.2021：45-52.

［9］劉欣，杜秀春，康文杰.基于同構合著網絡的合作者推薦模型研究［J］.長沙大學學報，2017，31（2）：62-66.（Liu Xin，Du Xiuchun，Kang Wenjie.Research on co-author recommender model based on homogeneous coauthor networks［J］.Journal of Changsha University，2017，31（2）：62-66.）

［10］熊回香，楊雪萍，蔣武軒，等.基于學術能力及合作關系網絡的學者推薦研究［J］.情報科學，2019，37（5）：71-78.（Xiong Hui-xiang，Yang Xueping，Jiang Wuxuan，et al.Scholars recommend research based on academic competence and collaborative networks［J］.Information Science，2019，37（5）：71-78.）

［11］李琳，唐守廉.融合內容表示的度量排序學習推薦模型［J］.電子學報，2020，48（8）：1615-1622.（Li Lin，Tang Shoulian.Metric ranking learning recommendation model based on content representation［J］.Acta Electronica Sinica，2020，48（8）：1615-1622.）

［12］秦紅武，趙猛，馬秀琴，等.基于學術水平聚類的科研合作者推薦模型［J/OL］.計算機工程與應用.（2021-05-28）[（2022-02-10].http：//kns.cnki.net/kcms/detail/11.2127.TP.20210527.1636.017.html.（Qin Hongwu，Zhao Meng，Ma Xiuqin，et al.Collaborator recommendation model based on academic level clustering［J/OL］.Computer Engineering and Applications.（2021-05-28）[2022-02-10].http：//kns.cnki.net/kcms/detail/11.2127.TP.20210527.1636.017.html.）

［13］Kong Xiangjie，Jiang Huizhen，Yang Zhuo，et al.Exploiting publication contents and collaboration networks for collaborator recommendation［J］.PLoS One，2016，11（2）：e0148492.

［14］Li Siying，Abel M H，Negre E.Ontology-based semantic similarity in generating context-aware collaborator recommendations［C］//Proc of the 24th International Conference on Computer Supported Cooperative Work in Design.Piscataway，NJ：IEEE Press，2021：751-756.

［15］Pu Shanshan.Expert recommendation model in scientific and technical collaboration based on complementary knowledge［J］.Information Studies：Theory amp; Application，2018，41（8）：96-101.

［16］Li Chunying，Tang Yong，Xiao Zhenghong，et al.Influential scholar recommendation model in academic social network［J］.Journal of Computer Application，2020，40（9）：2594-2599.

［17］Zhou Xing，Ding Lixin，Li Zhaokui，et al.Collaborator recommendation in heterogeneous bibliographic networks using random walks［J］.Information Retrieval，2017，20（4）：317-337.

［18］Nakamura K，Okamoto K.Directed graph-based researcher recommendation by random walk with restart and cosine similarity［C］//Proc of the 11th International Conference on Soft Computing and Intelligent Systems and the 21st International Symposium on Advanced Intelligent Systems.Piscataway，NJ：IEEE Press，2020.

［19］Li Jing，Xia Feng，Wang Wei，et al.ACRec：a co-authorship based random walk model for academic collaboration recommendation［C］//Proc of the 23rd International Conference on World Wide Web.New York：ACM Press，2014：1209-1214.

［20］Yang Chen，Liu Tingting，Liu Lei.A nearest neighbor based personal rank algorithm for collaborator recommendation［C］//Proc of the 15th International Conference on Service Systems and Service Management.Piscataway，NJ：IEEE Press，2018.

［21］Huynh T，Takasu A，Masada T，et al.Collaborator recommendation for isolated researchers［C］//Proc of the 28th International Conference on Advanced Information Networking and Applications.Piscataway，NJ：IEEE Press，2014：639-644.

［22］Xiong Huixiang，Yang Xueping，Jiang Wuxuan，et al.Research on scholar recommendation based on similar interest in scientific social-networking sites［J］.Information Science，2017，35（9）：3-11.

［23］Pradhan T，Pal S.A multi-level fusion based decision support system for academic collaborator recommendation［J］.Knowledge-Based Systems，2020，197（6）：105784.

［24］田保軍，杜曉娟，楊滸昀，等.云計算環境下混合協同過濾優化技術研究[J].計算機應用研究，2018，35（7）：2079-2083.（Tian Baojun，Du Xiaojuan，Yang Huyun，et al.Research of hybrid collaborative filtering optimized technology in cloud computing［J］.Application Research of Computers，2018，35（7）：2079-2083.）

［25］Guo Ying，Chen Xi.Cross-domain scientific collaborations prediction using citation［C］//Proc of International Conference on Advances in Social Networks Analysis and Mining.Washington DC：IEEE Computer Society，2013：765-770.

［26］王欣.基于遷移學習的跨領域推薦的方法研究［D］.杭州：杭州電子科技大學，2015.（Wang Xin.Research on methods of cross-domain recommendation with transfer learning［D］.Hangzhou：Hangzhou Dianzi University，2015.）

［27］王俊，李石君，楊莎，等.一種新的用于跨領域推薦的遷移學習模型［J］.計算機學報，2017，40（10）：2367-2380.（Wang Jun，Li Shijun，Yang Sha，et al.A new transfer learning model for cross-domain recommendation［J］.Chinese Journal of Computers，2017，40（10）：2367-2380.

［28］呂亞楠，韓華，賈承豐，等.基于有偏向的重啟隨機游走鏈路預測算法［J］.復雜系統與復雜性科學，2018，15（4）：17-24.（Lyu Yanan，Han Hua，Jia Chengfeng，et al.Link prediction algorithm based on biased random walk with restart［J］.Complex Systems and Complexity Science，2018，15（4）：17-24.）

［29］Bagci H，Karagoz P.Context-aware location recommendation by using a random walk-based approach［J］.Knowledge amp; Information Systems，2016，47（2）：241-260.

［30］Kong Xiangjie，Jiang Huizhen，Wang Wei，et al.Exploring dynamic research interest and academic influence for scientific collaborator re-commendation［J］.Scientometrics，2017，113（1）：369-385.

［31］Li Shibao，Zhang Yiwei，Liu Jianhang，et al.Recommendation model based on public neighbor sorting and sampling of knowledge graph［J］.Journal of Electronics amp; Information Technology，2021，43（12）：3522-3529.

［32］Xia Feng，Chen Zhen，Wang Wei，et al.MVCWalker：random walk-based most valuable collaborators recommendation exploiting academic factors［J］.IEEE Trans on Emerging Topics in Computing，2014，2（3）：364-375.

計算機應用研究2022年7期

計算機應用研究的其它文章: 下期要目; 基于損失自注意力機制的立體匹配算法研究; 基于視覺信息補償的多流音視顯著性檢測; 基于無監督深度圖像生成的盲降噪模型; 稀疏差分網絡和多監督哈希用于高效圖像檢索; 基于偏振成像和顯著區域自補償的水下顯著目標檢測