999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科研項目同行評議專家學術(shù)專長匹配方法

2021-09-09 08:09:10王梓森劉政君謝小杰史紅周
計算機應用 2021年8期
關(guān)鍵詞:語義學科

王梓森,梁 英,劉政君,謝小杰,張 偉,史紅周

(1.中國科學院計算技術(shù)研究所,北京 100190;2.中國科學院大學計算機科學與技術(shù)學院,北京 100049)

0 引言

近年來,我國資助立項的科研項目數(shù)量和規(guī)模逐年增大,日益增加的項目審核工作給科研管理過程帶來極大的挑戰(zhàn)。據(jù)國家統(tǒng)計局數(shù)據(jù)(http://data.stats.gov.cn)顯示,2019年我國研究與實驗發(fā)展(Research and Development,R&D)人員全時當量461萬人年,研發(fā)人力規(guī)模居全球首位,科研學者數(shù)量的增多,為推薦科研項目評審專家增加了難度。

現(xiàn)有項目評審專家推薦的過程,依賴人工參與和篩選,即待評審材料(項目申請書等)由工作人員根據(jù)項目指南所屬學科方向,通過關(guān)鍵字匹配搜索的方式分配給專家?guī)熘械闹付▽<遥⒔Y(jié)合專家回避和專家反饋意見進行調(diào)整,以此遴選評審專家。由于項目所屬學科與專家研究興趣屬于不同的學科分類體系,分別具有不同的學科劃分標準,關(guān)鍵字詞匹配不能捕捉項目學科和研究興趣之間的語義聯(lián)系,導致推薦的專家學術(shù)專長不能精準匹配項目申報內(nèi)容。隨著學術(shù)大數(shù)據(jù)的迅速發(fā)展,細分學科不斷增多,人工篩選過程在效率和精準性上不夠,影響選拔合適的小同行專家和跨學科專家參與項目評審,甚至會導致項目評審結(jié)果缺乏公平公正性。

針對上述缺陷,本文提出一種科研項目同行評議專家學術(shù)專長匹配方法。根據(jù)學術(shù)實體(包括學科、專家、研究興趣等)與實體間關(guān)系構(gòu)建異質(zhì)學術(shù)網(wǎng)絡,設計元路徑捕捉學術(shù)實體間語義聯(lián)系;使用學術(shù)實體共現(xiàn)序列訓練網(wǎng)絡表示學習模型,獲得項目學科與研究興趣語義向量;按照項目學科樹結(jié)構(gòu)計算向量化結(jié)果語義相似度,實現(xiàn)多粒度的同行評議專家學術(shù)專長匹配。在爬取的知網(wǎng)和萬方論文數(shù)據(jù)集,某專家評審數(shù)據(jù)集,以及百度百科詞向量數(shù)據(jù)集上進行了實驗驗證和實例分析,結(jié)果表明本文方法提升了項目學科與專家研究興趣間語義關(guān)聯(lián),并能有效應用于項目評審專家學術(shù)專長匹配。

本文主要工作包括:

1)給出科研項目同行評議學術(shù)網(wǎng)絡定義。構(gòu)建異質(zhì)學術(shù)網(wǎng)絡建立學術(shù)實體聯(lián)系,根據(jù)網(wǎng)絡關(guān)系結(jié)構(gòu)設計元路徑溝通不同類型節(jié)點,捕捉學科與專家之間的語義關(guān)聯(lián)。

2)提出一種項目所屬學科和專家研究興趣語義關(guān)聯(lián)的向量表示方法。設計元路徑指導隨機游走過程獲取學術(shù)實體共現(xiàn)序列,使用共現(xiàn)序列訓練網(wǎng)絡表示學習模型,得到包含語義信息的學術(shù)實體低維稠密向量,并通過衡量向量間相似度,表示項目學科與專家研究興趣之間的語義關(guān)聯(lián)。

3)提出一種多粒度項目評審專家學術(shù)專長匹配方法。使用專家研究興趣低維向量刻畫專家學術(shù)專長,按照項目學科樹層次結(jié)構(gòu)逐層計算專家學術(shù)專長與項目學科間語義相似度,實現(xiàn)多粒度的同行評議專家學術(shù)專長匹配。

1 相關(guān)工作

傳統(tǒng)衡量實體間關(guān)聯(lián)程度的方法通過關(guān)鍵字匹配[1]實現(xiàn),然而一般情況下,完全不同的關(guān)鍵字卻常常蘊含相同的語義,僅依靠關(guān)鍵字無法對實體間的內(nèi)在語義關(guān)聯(lián)進行捕捉。

三元組知識圖譜與人工語義詞典常用于語義關(guān)聯(lián)計算,以捕捉實體間的語義關(guān)聯(lián)。張曄等[2]提出Acemap知識圖譜(Acemap Knowledge Graph,AceKG),對學術(shù)實體間語義關(guān)聯(lián)進行建模;基于語義詞典WordNet[3]、HowNet[4]的算法通過計算語義詞典中節(jié)點語義距離獲得節(jié)點間的關(guān)聯(lián)度。然而,知識圖譜與語義詞典在構(gòu)建時所需工作量較大,并且此類方法隨著節(jié)點數(shù)量增多,數(shù)據(jù)維度增大,計算復雜度逐漸提高。

基于語料庫的算法通過分析大規(guī)模文本,構(gòu)建詞匯與文檔之間的語義共現(xiàn)關(guān)系矩陣,從而獲得實體間語義關(guān)聯(lián)度。Deerwester等[5]通過對共現(xiàn)矩陣進行奇異值分解,提出了著名的隱語義分析(Latent Semantic Analysis,LSA)。隨著學者對LSA技術(shù)的不斷改進[6-7],彭云等[8]在此基礎上提出語義關(guān)系約束的潛在狄利克雷分配(Semantic Relation Constrained Latent Dirichlet Allocation,SRC-LDA)擁有更牢固的統(tǒng)計基礎,并且在下游情感分析任務中擁有更高的準確性。何云等[9]引入詞性過濾對語料庫進行預處理,降低語料中噪聲對計算結(jié)果的影響,提升語義計算性能。王偉等[10]提出了一種基于滑動語義串匹配的漢語詞義消歧方法,通過建立N元語義模板庫并從待消歧句子中提取N元語義碼來確定歧義詞的最終詞義。Wang等[11]提出了一種融入文本信息的深度協(xié)同排序方法,使用語料庫中降噪后的文本數(shù)據(jù)對用戶非線性偏好建模,實現(xiàn)用戶偏好與推薦物品間的潛在語義關(guān)聯(lián)。然而,此類算法的核心在于分析語料庫中的共現(xiàn)詞匯,算法效果高度依賴于訓練語料的規(guī)模與品質(zhì),導致文本預處理工作十分龐大。

網(wǎng)絡表示學習方法將實體以網(wǎng)絡形式建模,并通過網(wǎng)絡結(jié)構(gòu)將實體語義信息映射至低維度向量空間,從而實現(xiàn)實體間的關(guān)聯(lián)匹配。Schlichtkrull等[12]利用傅里葉變換將實體網(wǎng)絡映射到譜域,通過深度學習獲得實體語義的低維向量表示。Ji等[13]提出了基于注意力機制的異質(zhì)網(wǎng)絡深度表示學習方法,基于元路徑聚合約減異質(zhì)網(wǎng)絡,實現(xiàn)了異質(zhì)網(wǎng)絡節(jié)點的低維向量表示。深度網(wǎng)絡表示學習具有很強的高維特征組合能力,但其參數(shù)眾多,在應用于不同下游任務時存在一定的局限性。Mikolov等[14]通過滑動窗口捕捉詞語共現(xiàn)序列,以詞向量的方法刻畫詞語間的語義關(guān)聯(lián)。DeepWalk[15]模型的作者將詞向量的思想遷移至網(wǎng)絡表示學習,使用隨機游走策略在網(wǎng)絡中獲得實體語義的低維向量表示。Grover等[16]對DeepWalk算法進行了擴展,通過結(jié)合深度和廣度優(yōu)先的隨機游走,更加細致地捕捉實體網(wǎng)絡語義信息。Dong等[17]將隨機游走的思想通過元路徑的限制擴展到了異質(zhì)網(wǎng)絡,并基于學術(shù)網(wǎng)絡驗證了元路徑限制的游走序列能夠充分捕捉到異質(zhì)網(wǎng)絡中更豐富的信息。王文濤等[18]對隨機游走過程進行改進,使得節(jié)點序列能夠更好地反映網(wǎng)絡結(jié)構(gòu),進而提升了鏈路預測任務中節(jié)點間的語義關(guān)聯(lián)效果。基于隨機游走的網(wǎng)絡表示學習方法泛化能力強,更易于應用到各種下游任務中,并且考慮到學術(shù)網(wǎng)絡數(shù)據(jù)規(guī)模龐大,本文擬采用擴展性強的基于隨機游走的網(wǎng)絡表示學習方法,獲得具備語義關(guān)聯(lián)的項目學科和專家研究興趣的低維向量表示。

2 方法概述

2.1 問題描述

項目申請時需要根據(jù)項目指南撰寫項目申請書,本文所討論的項目指南隸屬于以專題節(jié)點為根節(jié)點的項目學科分類樹中的某一學科節(jié)點。在遴選評審專家時,首先要選出學術(shù)專長和項目隸屬學科相符的專家,即根據(jù)專家的所有研究興趣節(jié)點來匹配項目學科樹下項目節(jié)點的上級學科節(jié)點,參見圖1。

圖1 專家研究興趣與項目學科匹配示例Fig.1 Matching example of research interest of expert and subject of project

現(xiàn)有方法通過判斷字詞重疊度的方式,并結(jié)合人工判別詞匯相似度,實現(xiàn)項目學科與研究興趣的關(guān)聯(lián)程度判斷。隨著學術(shù)數(shù)據(jù)量的增大,細分項目學科增多,這種方法難以捕捉研究興趣與學科之間的語義關(guān)聯(lián),例如“大氣污染”和“環(huán)境保護”沒有字詞重疊,但都與環(huán)保主題相關(guān)。

本文利用學術(shù)大數(shù)據(jù)構(gòu)建異質(zhì)學術(shù)網(wǎng)絡,設計元路徑捕捉學術(shù)實體間語義關(guān)聯(lián),并基于網(wǎng)絡表示學習方法獲得學術(shù)實體語義向量,按照項目學科樹層次結(jié)構(gòu)逐層計算向量間語義相似度,實現(xiàn)多粒度的同行評議專家學術(shù)專長匹配。

2.2 基本概念

1)專家:記作E,存在于專家?guī)靸?nèi)的高水平學者被稱為專家。一般根據(jù)專家遴選管理規(guī)定,從學術(shù)影響力較大的學者中遴選產(chǎn)生專家?guī)鞂<摇?/p>

2)研究興趣:記作RI,研究興趣是專家從事科研活動的態(tài)度和傾向。本文特指專家?guī)靸?nèi)專家填報的研究興趣與專家科研成果提取的研究方向。

3)項目:記作P,項目是在特定的時間、預算、資源限定內(nèi),依據(jù)規(guī)范完成的科學研究活動。科研項目包括國家各級政府成立基金支撐的縱向科研項目、來自企事業(yè)單位的橫向科研合作開發(fā)項目和自籌科研項目。

4)專題:記作SS,專題用于概括一類學科研究的主方向,一個專題下設多層級多學科。

5)學科:記作S,學科是專題下的多層級學術(shù)分類,按照不同所屬層級可分為一級學科、二級學科、三級學科等,下級學科從屬上級學科。其中,將連接了專題與項目的不同層級學科統(tǒng)稱為項目學科。

本文中每個項目都隸屬于某個專題下的某個學科,被不同專家評審。

定義1 學術(shù)網(wǎng)絡(Academic Network/Graph)。學術(shù)網(wǎng)絡是一個異質(zhì)網(wǎng)絡,可以表示為Gacademic={V,Edge,T,R,?,δ},其中:

1)V={vi|i=1,2,…,N}表示節(jié)點的集合,其中N表示節(jié)點的數(shù)量。

2)Edge={ei,j| 1≤i,j≤N}表示邊的集合,其中ei,j表示學術(shù)網(wǎng)絡中兩個節(jié)點vi和vj之間的連邊,使用|Edge|表示邊的數(shù)量。

3)T={tk|k=1,2,…,|T|}表示節(jié)點類型的集合,其中tk表示節(jié)點vi的節(jié)點類型,tk∈{TE,TRI,TP,TSS,TS},TE表示專家類型,TRI表示研究興趣類型,TP表示項目類型,TSS表示專題類型,TS表示學科類型,|T|表示節(jié)點類型數(shù)量。

4)R={rl|l=1,2,…,|R|}表示關(guān)系類型集合,其中rl可以表示學術(shù)網(wǎng)絡中一個關(guān)系類型,rl∈{RSS?S,RS?P,RE?P,RE?RI,RS?S},RE?RI表示“具有”和“屬于”關(guān)系類型,即專家具有研究興趣,研究興趣屬于專家;RE?P表示“評審”和“被評審”關(guān)系類型,即專家評審項目,項目被專家評審;RSS?S表示“下設”和“從屬”關(guān)系類型,即專題下設一級學科,一級學科從屬專題,RS?S表示學科間“下設”和“從屬”關(guān)系類型,即n-1級學科下設n級學科,n級學科從屬n-1級學科;RS?P表示“包含”和“隸屬”關(guān)系類型,即n級學科包含項目,項目隸屬n級學科。

5)?表示節(jié)點類型映射函數(shù)。?(vi)∈T表示節(jié)點vi∈V屬于一個節(jié)點類型。

6)δ表 示 關(guān) 系 類 型 映 射 函 數(shù)。δ(ei,j)∈R表 示 邊ei,j∈Edge屬于一個關(guān)系類型。

定義1的學術(shù)網(wǎng)絡圖的網(wǎng)絡模式如圖2所示,包含了五種類型對象:專題、學科、項目、專家和研究興趣,可以看出學科之間的下設關(guān)系對應的是內(nèi)部關(guān)系,專題與學科之間的下設關(guān)系、學科與項目之間的包含關(guān)系、專家與項目之間的評審關(guān)系、研究興趣與專家之間的屬于關(guān)系對應的是相關(guān)關(guān)系。同時,專題、學科、項目構(gòu)成項目學科樹,專題是項目學科樹的根節(jié)點,學科是中間節(jié)點,項目是葉子節(jié)點。

圖2 項目評審場景學術(shù)網(wǎng)絡的網(wǎng)絡模式Fig.2 Network modeof academic network in project review scenario

定義2 類型節(jié)點集合(Type Node Set)。TYPEv表示類型為tk的節(jié)點集合,可表示為:

其中:vi∈V表示學術(shù)網(wǎng)絡中的節(jié)點,1≤i≤N,?表示節(jié)點類型映射函數(shù),tk表示節(jié)點類型,1≤k≤|Tv|。通過類型節(jié)點集合能夠描述學術(shù)網(wǎng)絡中一個節(jié)點類型的節(jié)點集合。當tk=TS,即節(jié)點類型為學科時,類型節(jié)點集合表示為Sv;當tk=TRI,即節(jié)點類型為研究興趣時,類型節(jié)點集合表示為RIv。

為了便于描述類型節(jié)點集合TYPEv中任意一個節(jié)點,將該類型節(jié)點記為vTYPE。當tk=TS,即節(jié)點類型為學科時,節(jié)點被記為vS;當tk=TRI,即節(jié)點類型為研究興趣時,節(jié)點被記為vRI。

圖3為一個學術(shù)網(wǎng)絡示例,圖中共有10個節(jié)點,不同節(jié)點之間存在連邊。有5種節(jié)點類型,通過節(jié)點類型映射函數(shù)能夠獲得節(jié)點對應的節(jié)點類型,v1和v2是專家類型,v3是專題類型,v4、v5和v6是學科類型,v7是項目類型,v8、v9和v10是研究興趣類型;有5種關(guān)系類型,通過關(guān)系類型映射函數(shù)能夠獲得邊對應的關(guān)系類型,e7,1是“評審”和“被評審”關(guān)系,e3,4是專題學科間“下設”和“從屬”關(guān)系,e4,7是“包含”和“隸屬”關(guān)系,e5,6是學科間“下設”和“從屬”關(guān)系,e1,8是“具有”和“屬于”關(guān)系。所有學科類型節(jié)點v4、v5和v6可以表示為Sv,所有專家類型節(jié)點v1和v2可以表示為Ev,所有研究興趣類型節(jié)點v8、v9和v10可以表示為RIv。

定義3 元路徑(Meta-path)。元路徑ρ定義為學術(shù)網(wǎng)絡Gacademic中,連接兩類節(jié)點的路徑,可以用式(2)表示:

其中:tk表示Gacademic中的節(jié)點類型,rk表示Gacademic中的關(guān)系類型,參數(shù)1

圖3 項目評審場景學術(shù)網(wǎng)絡示例Fig.3 Exampleof academic network in project review scenario

2.3 整體流程

本文方法首先設計隨機游走所使用的元路徑,通過元路徑指導隨機游走得到項目學科和專家研究興趣共現(xiàn)節(jié)點序列,使用節(jié)點序列訓練網(wǎng)絡表示模型獲得項目學科與專家研究興趣語義向量,根據(jù)研究興趣與項目學科語義向量計算專家學術(shù)專長與項目學科間的語義相似度,最終根據(jù)相似度獲得推薦專家列表實現(xiàn)評審專家學術(shù)專長匹配。

圖4描述了從設計元路徑到輸出專家推薦列表的全部過程,具體步驟如下:

圖4 評審專家與項目學科匹配以及專家推薦流程Fig.4 Process of expert and project subject matchingand expert recommendation

步驟1 定義正向項目路徑FPP與反向項目路徑RPP,根據(jù)FPP與RPP設計元路徑;

步驟2 根據(jù)設計的元路徑在學術(shù)網(wǎng)絡中隨機游走,獲取包含項目學科和研究興趣的節(jié)點序列;

步驟3 將獲取的序列輸入Skip-Gram模型,進行模型訓練;

步驟4 Skip-Gram模型輸出訓練結(jié)果,獲得包含語義信息的項目學科和研究興趣表示向量;

步驟5 使用專家所有的研究興趣向量刻畫專家學術(shù)專長,并計算專家學術(shù)專長與項目學科間相似度;

步驟6 根據(jù)相似度計算結(jié)果推薦專家,獲得推薦專家列表。

3 專家研究興趣與項目所屬學科匹配方法

3.1 元路徑設計

本節(jié)總結(jié)出正向項目路徑與反向項目路徑,并設計了隨機游走使用的元路徑建立學科與專家之間的關(guān)聯(lián),為基于隨機游走的網(wǎng)絡表示學習提供支撐。下面給出正/反向項目路徑的概念。

正向項目路徑(Forward Project Path)是從專題類型出發(fā),到項目類型結(jié)束的元路徑,如式(3)所示:

其中:TSS表示專題類型,TS表示學科類型,TP表示項目類型;RSS?S表示“下設”和“從屬”的關(guān)系類型,RS?S表示學科間“下設”和“從屬”的關(guān)系類型,RS?P表示“包含”和“隸屬”的關(guān)系類型。正向項目路徑建立了專題與項目的聯(lián)系。

反向項目路徑(Reversed Project Path)是從項目類型出發(fā),到專題類型結(jié)束的元路徑,如式(4)所示:

其中:TP表示項目類型,TS表示學科類型,TSS表示專題類型;RSS?S表示“下設”和“從屬”的關(guān)系類型,RS?S表示學科間“下設”和“從屬”的關(guān)系類型,RS?P表示“包含”和“隸屬”的關(guān)系類型。反向項目路徑與正向項目路徑所經(jīng)過的節(jié)點類型相同,順序不同,互為逆路徑。

圖5 項目學科示例Fig.5 Exampleof subjects that projects belonging to

根據(jù)正向項目路徑與反向項目路徑設計元路徑,建立學科與專家之間的關(guān)聯(lián)。隨機游走的元路徑設計如式(5)所示:

其中:FPP表示正向項目路徑(式(3)),TE表示專家類型,RPP表示反向項目路徑(式(4)),RE?P表示專家評審項目的關(guān)系類型。專家類型節(jié)點將正向項目路徑和反向項目路徑連接起來,構(gòu)成了一條對稱的元路徑。

元路徑將不同類型節(jié)點進行組合,用于指導隨機游走算法過程。

3.2 基于元路徑的隨機游走

本節(jié)介紹如何利用式(5)的元路徑進行隨機游走,捕捉項目學科與專家研究興趣間語義聯(lián)系,并在學術(shù)網(wǎng)絡中獲取一系列節(jié)點序列,作為3.3節(jié)Skip-Gram模型的輸入。

由于元路徑的設計是對稱的,隨機游走可以從專題節(jié)點出發(fā)游走到另一個專題。隨機游走相當于一種在學術(shù)網(wǎng)絡上的深度優(yōu)先遍歷,設當前節(jié)點為vt,下一步游走到的節(jié)點為vt+1的轉(zhuǎn)移概率如式(6)所示:

圖6 學術(shù)網(wǎng)絡元路徑示例Fig.6 Exampleof academic network meta-path

為了取得項目學科和研究興趣的語義關(guān)系,在隨機游走完成后,使用專家研究興趣替換專家節(jié)點[19],每次替換專家節(jié)點時,將專家研究興趣對應的詞匯和短語隨機排序,使不同研究興趣在節(jié)點序列中能夠與學科節(jié)點具備相同的共現(xiàn)關(guān)系,以提升后續(xù)表示學習階段算法的穩(wěn)定性。替換過程如圖7所示,替換前,通過隨機游走獲得的節(jié)點序列保留了完整的元路徑信息;替換后,通過將專家節(jié)點替換為研究興趣節(jié)點,并刪除項目節(jié)點,使序列中只包含研究興趣、學科、專題類型的節(jié)點。節(jié)點替換后的序列中,研究興趣與項目學科直接相鄰,其間存在的語義聯(lián)系得以體現(xiàn)。

圖7 研究興趣替換示例Fig.7 Example of research interest substitution

3.3 基于Skip-Gram的表示學習方法

本節(jié)介紹基于Skip-Gram[14]的表示學習方法。使用3.2節(jié)獲得的項目學科與研究興趣序列建立節(jié)點共現(xiàn)關(guān)系,通過Skip-Gram模型得到項目學科和研究興趣的語義關(guān)聯(lián)低維向量化表示。

表示學習需要捕捉節(jié)點之間的共現(xiàn)關(guān)系,共現(xiàn)關(guān)系可簡化為一系列二元組,如式(7)所示:

其中:vi和vj表示項目學科類型節(jié)點Sv和研究興趣類型節(jié)點RIv組成集合中的任意兩個節(jié)點,|Sv|表示學科類型節(jié)點的數(shù)量,|RIv|表示研究興趣類型節(jié)點的數(shù)量,1≤i,j≤|Sv|+|RIv|。二元組表示節(jié)點vi和節(jié)點vj存在語義關(guān)聯(lián),通過二元組能夠描述項目學科與研究興趣之間的語義關(guān)聯(lián)。

使用滑動窗口在節(jié)點序列上獲得二元組,并將二元組中節(jié)點分為中心節(jié)點和上下文節(jié)點。圖8展示了一個節(jié)點序列上滑動窗口為5采樣的示例,中心節(jié)點為v4,上下文節(jié)點為v2,v3,v5,v6,中心節(jié)點與上下文節(jié)點構(gòu)成的二元組集合可以表示為{v4,v2,v4,v3,v4,v5,v4,v6}。

Skip-Gram模型使用二元組集合作為模型的輸入和輸出,結(jié)合表示學習網(wǎng)絡捕捉節(jié)點共現(xiàn)關(guān)系。Skip-Gram模型(見圖9)最大化使用中心節(jié)點預測上下文節(jié)點的概率,繼續(xù)以圖8為例,即p(v2|v4)+p(v3|v4)+p(v5|v4)+p(v6|v4),表示通過中心節(jié)點v4分別預測v2,v3,v5,v6節(jié)點。

圖8 節(jié)點序列上滑動窗口采樣示例Fig.8 Slidingwindow samplingexampleon node sequence

圖9 Skip-Gram模型結(jié)構(gòu)Fig.9 Skip-Gram model structure

將Skip-Gram模型應用到項目學科和研究興趣的節(jié)點序列上,其最大化概率的形式如式(8)所示:

模型經(jīng)過訓練后,選取網(wǎng)絡輸入層到隱藏層的全連接權(quán)重系數(shù),即可獲得項目學科和研究興趣的向量化結(jié)果。項目學科和研究興趣均以低維稠密向量的形式表示,具有相同維度,能夠互相計算相似度。

3.4 評審專家與項目學科間的相似度計算

本節(jié)使用3.3節(jié)專家研究興趣與項目學科的表示學習向量化結(jié)果,計算專家與項目學科間相似度,并根據(jù)相似度完成專家學術(shù)專長匹配。

首先對專家所有的研究興趣向量化結(jié)果取平均,獲得表示專家語義信息的低維稠密向量,用以刻畫專家學術(shù)專長。隨后,對專家與項目學科低維稠密向量相似度進行計算,相似度計算方式如式(9)所示:

其中:vE表示評審專家節(jié)點,?(vE)=TE,vec(vE)表示專家低維稠密向量,vS表示學科節(jié)點,?(vS)=TS,vec(vS)表示學科低維稠密向量。相似度越大,表示專家越適合該學科下項目的評審。

專家學術(shù)專長匹配流程按照項目學科樹層次結(jié)構(gòu)由上向下逐層進行相似度計算,如圖10所示。首先,計算一級學科與專家學術(shù)專長間相似度,并將專家按相似度排序,取Top-K名專家輸入到下一層,然后,將二級學科與輸入到本層的專家列表進行相似度計算,并按同樣流程將排序后的結(jié)果繼續(xù)向下輸入,最終,不斷重復此過程直至完成葉子學科與專家列表間的相似度計算。

圖10 專家與學科匹配示例Fig.10 Exampleof expert and subject matching

在每一層的相似度計算中,不同級別的項目學科匹配的專家排序不同,數(shù)量不同。因此,對于科研“大同行”和“小同行”,所提方法可以得到不同方案的推薦專家列表,從而實現(xiàn)多粒度的專家推薦策略,為不同層級學科提供不同的備選評審專家團隊。

4 實驗與效果評估

實驗數(shù)據(jù)為本文爬取的某專家?guī)鞌?shù)據(jù)集,知網(wǎng)和萬方論文數(shù)據(jù)集,以及百度百科公開詞向量數(shù)據(jù)集,通過算法對比與實例分析對所提方法有效性進行了驗證。使用某專家?guī)鞌?shù)據(jù)集與百度百科公開詞向量數(shù)據(jù)集開展了語義關(guān)聯(lián)方法對比實驗及分析。使用某專家?guī)鞌?shù)據(jù)集開展了專家學術(shù)專長匹配實驗,通過人工標注的方法,驗證了專家學術(shù)專長匹配方法的有效性。

4.1 實驗數(shù)據(jù)

1)某專家評審數(shù)據(jù)集。

根據(jù)網(wǎng)上的公開信息,創(chuàng)建了5萬左右的專家數(shù)據(jù)。包括專家的基本信息、科研信息、研究興趣、個人業(yè)績、工作經(jīng)歷信息等,選取部分數(shù)據(jù)域描述如圖11所示。基于該數(shù)據(jù)集內(nèi)部實體間關(guān)聯(lián)關(guān)系,構(gòu)成專家評審學術(shù)網(wǎng)絡,以展開專家研究興趣和項目學科語義關(guān)聯(lián)實驗。

圖11 某專家評審數(shù)據(jù)集描述Fig.11 Review expert dataset description

2)知網(wǎng)和萬方論文數(shù)據(jù)集。

由于專家?guī)靸?nèi)專家研究興趣存在一定滯后性,本文使用從知網(wǎng)和萬方網(wǎng)站抓取的論文數(shù)據(jù)對專家研究興趣數(shù)據(jù)進行補充。根據(jù)專家?guī)熘袑<业男彰退鶎贆C構(gòu),從網(wǎng)站抓取2018年7月之前專家所發(fā)表過的論文。論文數(shù)據(jù)經(jīng)過清洗和去重之后,專家所參與發(fā)表的論文共計3 948 047篇,論文信息包括論文標題、作者、關(guān)鍵字,不包含論文全文信息。

3)百度百科詞向量數(shù)據(jù)集。

為了與本文所提的實體語義關(guān)聯(lián)方法相比較,選取由百度百科訓練得到的公開詞向量數(shù)據(jù)[21],該數(shù)據(jù)包含百度百科2018年4月之前公開的文本數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗后語料大小4.1 GB,包含總詞匯數(shù)7.45億,獨立詞匯數(shù)量542萬,使用基于Skip-Gram的表示學習方法對其進行訓練,滑動窗口大小設置為5,負采樣數(shù)量為5。此數(shù)據(jù)源的訓練結(jié)果將用于語義關(guān)聯(lián)方法對比實驗中。

4.2 項目學科和研究興趣語義關(guān)聯(lián)

4.2.1 實驗參數(shù)設置

表1列出項目學科和研究興趣語義關(guān)聯(lián)實驗中涉及的多個超參數(shù)。

表1 項目學科和研究興趣語義關(guān)聯(lián)實驗參數(shù)設置Tab.1 Parameter settingof semantic association experiment on project subject and research interest

Walk_num為500和Walk_len為5 000表示需要從專題開始基于元路徑游走500次,每次游走5 000步,Embedding_size為128表示獲得專家研究興趣和項目學科的向量維度為128。在基于Skip-Gram的表示學習過程中,滑動窗口大小設置為9表示觀察9個上下文節(jié)點,Neg_num為5表示負采樣5個節(jié)點。按照上述參數(shù)設置進行訓練,獲得的向量化結(jié)果有項目學科低維稠密向量和研究興趣低維稠密向量,這2類向量存在語義關(guān)聯(lián)。

4.2.2 評價指標

向量化后的項目學科和研究興趣之間的語義關(guān)聯(lián)可以通過計算其間相似度加以衡量,定義項目學科與研究興趣之間的向量余弦相似度為語義評分,如式(10)所示:

其中:節(jié)點vi和vj表示項目學科和研究興趣,?∈Gacademic,?(vi)≠?(vj)表示不同類型節(jié)點的相似度比較,約束條件?(vi),?(vj)∈{TS,TRI}表示比較的節(jié)點限于項目學科和研究興趣類型節(jié)點。

4.2.3 實驗分析

實驗對比了LSA、LDA、詞向量3種常見語義關(guān)聯(lián)方法,通過計算語義關(guān)聯(lián)結(jié)果的語義評分,比較不同方法在項目學科和研究興趣語義關(guān)聯(lián)中的效果。

首先選擇“創(chuàng)新診療裝備產(chǎn)品評價”學科作為語義評分計算時用到的項目學科,從某專家?guī)鞌?shù)據(jù)集中選出參與過此學科評審工作的全部評審專家,并將這些專家的所有研究興趣作為語義評分計算時用到的研究興趣。通過使用不同方法對上述項目學科與研究興趣語義評分進行計算,來衡量不同算法的語義關(guān)聯(lián)效果,其中,評分越高表明算法捕捉了更多的語義關(guān)聯(lián)。

實驗結(jié)果如圖12所示,本文方法在項目學科和研究興趣語義關(guān)聯(lián)上相比其他方法均具備優(yōu)勢。圖12(a)是所有研究興趣的平均語義評分,圖12(b)是選取5個高頻研究興趣的語義評分。由于LSA方法依賴于共現(xiàn)矩陣,不能識別未出現(xiàn)在語料庫中的共現(xiàn)關(guān)系,因此在不同研究興趣上語義評分波動較大;LDA在LSA的基礎上引入主題概率,相當于加入平滑操作,結(jié)果相對穩(wěn)定,但這兩種方法都基于共現(xiàn)矩陣,整體效果較差;詞向量方法通過引入外部訓練語料,提升了語義關(guān)聯(lián)度,但是由于外部語料對評審專家推薦過程缺乏知識覆蓋度,導致效果依然有限;本文方法利用元路徑溝通了項目學科和研究興趣之間的語義聯(lián)系,使語義關(guān)聯(lián)效果得到提高。

圖12 不同方法語義關(guān)聯(lián)比較Fig.12 Semantic association comparison of different methods

下面以具體實例對本文語義關(guān)聯(lián)方法效果進行分析。隨機選取5個項目學科(突發(fā)污染事故應基于經(jīng)評估技術(shù)、混合動力發(fā)動機開發(fā)、手術(shù)機器人、小分子調(diào)控細胞命運轉(zhuǎn)變、新型果蔬汁加工關(guān)鍵技術(shù)及裝備研發(fā)),對其計算語義評分最高的5個專家研究興趣。從表2可以看出,得到的研究興趣與項目學科相關(guān),說明向量化后的項目學科和興趣互相關(guān)聯(lián)。

表2 項目學科與研究興趣語義關(guān)聯(lián)分析Tab.2 Analysisof semantic association between project subject and research interest

4.3 專家學術(shù)專長匹配

4.3.1 實驗參數(shù)設置

在計算專家與項目學科間相似度時,隨著專家學術(shù)專長匹配的進行,適合評審的專家數(shù)量應當不斷減少,從而逐層完成細分學科方向?qū)<彝扑]。本文項目評審數(shù)據(jù)中學科分類最高涉及四級學科節(jié)點,一級、二級、三級、四級學科推薦專家列表大小設置分別為1 000、500、200、100。學科匹配推薦專家數(shù)量與葉子節(jié)點所在層級有關(guān),學科細分程度越高推薦匹配的專家越少。

4.3.2 評價指標

設計專長匹配評分用于評價學術(shù)專長匹配方法效果。首先采取人工驗證的方式,對推薦專家列表中的所有專家逐一進行匹配程度判定,匹配程度包括非常匹配(2分)、一般匹配(1分)、不匹配(0分),依次表示專家的研究興趣和項目學科相關(guān)、部分相關(guān)、不相關(guān)。

判定后,使用獲得的匹配程度計算專長匹配評分,專長匹配評分計算方法如式(11)所示:

4.3.3 實驗分析

實驗對大氣自由基及納米顆粒物化學組分在線測量技術(shù)、細胞運動中的蛋白質(zhì)機器、高比功率長壽命動力電池技術(shù)、高耐磨高強韌重載鋼軌用鋼、高精度原子磁強計(基礎前沿類)五個項目進行了專家學術(shù)專長匹配,并選擇項目所對應二級學科的專長匹配結(jié)果,結(jié)合人工標注的方式驗證了學術(shù)專長匹配方法的有效性。

為了保證驗證過程的普適性,從匹配結(jié)果共500名的推薦專家列表中隨機抽取20名專家(即Nk=20),并重復隨機抽取5次進行驗證。使用專長匹配評分進行評價,統(tǒng)計專長匹配度評分平均值、最小值、最大值,如圖13所示。從圖13中可以看出專長匹配評分平均值在0.8左右,說明專家推薦結(jié)果的學術(shù)專長匹配程度較高,驗證了專家學術(shù)專長匹配方法的有效性。

圖13 不同學科下的專家學術(shù)專長匹配度Fig.13 Matching degreeof expert academic expertise in different subjects

5 結(jié)語

針對現(xiàn)有評審專家推薦流程中項目學科與研究興趣缺乏語義關(guān)聯(lián)的問題,提出了一種科研項目同行評議專家學術(shù)專長匹配方法,設計元路徑捕捉項目學科與研究興趣間語義關(guān)聯(lián),使用基于隨機游走的網(wǎng)絡表示學習模型訓練,獲得項目學科與專家研究興趣向量化結(jié)果,根據(jù)項目學科樹結(jié)構(gòu)計算表示向量相似度,實現(xiàn)多粒度的專家學術(shù)專長匹配。在爬取的知網(wǎng)和萬方論文數(shù)據(jù)集,某專家評審數(shù)據(jù)集,以及百度百科詞向量數(shù)據(jù)集上進行了實驗驗證和實例分析,結(jié)果表明本文方法能提升項目學科與專家研究興趣間語義關(guān)聯(lián),并有效應用于項目評審專家學術(shù)專長匹配。在未來的工作中,將進一步研究實時推薦、冷啟動等問題,并應用于專家的精準推薦上。

猜你喜歡
語義學科
學科新書架
【學科新書導覽】
學科新書導覽
土木工程學科簡介
語言與語義
“超學科”來啦
“上”與“下”語義的不對稱性及其認知闡釋
論新形勢下統(tǒng)一戰(zhàn)線學學科在統(tǒng)戰(zhàn)工作實踐中的創(chuàng)新
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 国内精品视频| 国内熟女少妇一线天| 久久黄色影院| 青草精品视频| 亚洲浓毛av| 亚洲日韩久久综合中文字幕| 色婷婷在线影院| 一级做a爰片久久免费| 91福利一区二区三区| 巨熟乳波霸若妻中文观看免费| 国产玖玖视频| 欧美一区二区三区香蕉视| 中文字幕永久视频| a毛片免费在线观看| 不卡视频国产| 一本无码在线观看| 国产区在线看| 制服丝袜一区二区三区在线| 国产精品深爱在线| 超碰aⅴ人人做人人爽欧美| 国产资源免费观看| AV不卡无码免费一区二区三区| 自慰网址在线观看| 自慰高潮喷白浆在线观看| 国产91麻豆免费观看| 无码精油按摩潮喷在线播放| 婷婷伊人久久| 国产亚洲精品97在线观看| 欧美性精品| 国产精品三级av及在线观看| 福利片91| 日本日韩欧美| 国产成人免费观看在线视频| 国产日本视频91| 日韩一级毛一欧美一国产| 国产区91| 国产成人亚洲日韩欧美电影| 日本黄色不卡视频| 97在线免费视频| 国产精品中文免费福利| 欧美日韩中文国产va另类| 男女男免费视频网站国产| 制服丝袜 91视频| 国产一级小视频| 欧美福利在线观看| 亚洲天堂在线免费| 国产地址二永久伊甸园| 国产成人精品2021欧美日韩 | 99ri国产在线| 国产欧美网站| 亚洲黄色视频在线观看一区| 一级毛片高清| 国产成人凹凸视频在线| 成人福利在线免费观看| 国产乱子精品一区二区在线观看| 污网站在线观看视频| 午夜a视频| 在线观看免费AV网| 中文字幕在线观| 福利在线一区| 亚洲啪啪网| 国产成人高清精品免费| 最新国产麻豆aⅴ精品无| 欧美精品在线免费| av无码一区二区三区在线| 狠狠亚洲五月天| 国产丝袜啪啪| 国产无码高清视频不卡| 欧美日韩国产系列在线观看| 国产91视频免费| 无码区日韩专区免费系列| 91高清在线视频| 男女男免费视频网站国产| 97狠狠操| 99精品视频九九精品| 精品撒尿视频一区二区三区| 精品视频一区二区三区在线播| 亚洲精品国产综合99久久夜夜嗨| 巨熟乳波霸若妻中文观看免费| 国产精品亚洲一区二区在线观看| 无码AV日韩一二三区| 亚洲成年人网|