999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識關聯度的科學論文擴散效果預測研究

2023-11-15 05:56:21李悅馬亞雪張宇孫建軍
現代情報 2023年11期

李悅 馬亞雪 張宇 孫建軍

摘 要: [目的/ 意義] 基于早期施引文獻與科學論文的知識關聯對科學論文擴散效果進行預測, 有助于從價值反饋角度前瞻性識別高影響力學術論文, 為科研人員建立科學研究成果早期學術影響力評估體系提供參考。[方法/ 過程] 測度早期施引文獻與目標科學論文在主題、期刊和作者3 個層面的關聯程度, 采用線性回歸與負二項回歸模型, 挖掘3 種類型的知識關聯度與目標科學論文擴散效果(即擴散速度、廣度和強度) 的內在關聯機制; 在此基礎上引入機器學習算法對科學論文的擴散效果進行預測, 剖析3 類知識關聯特征在預測任務中的重要性排序。[結果/ 結論] 神經科學領域的實證分析顯示, 主題關聯與目標科學論文的擴散速度呈正相關關系, 與擴散廣度和擴散強度呈倒U 型關系; 期刊關聯會抑制目標科學論文的擴散速度, 但能夠正向影響其擴散強度與擴散廣度; 作者關聯僅對擴散強度有穩定的正向影響; 基于主題關聯與期刊關聯可以實現對科學論文擴散速度的有效預測, 但難以預測擴散廣度和擴散強度。隨機森林模型在擴散速度預測中性能最佳, 主題關聯特征的重要性高于期刊關聯。

關鍵詞: 擴散效果預測; 引文擴散; 知識關聯度; 早期施引文獻

DOI:10.3969 / j.issn.1008-0821.2023.11.006

〔中圖分類號〕G250 252 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 11-0073-12

基于引證關系的科學文獻擴散是洞察科學發展脈絡、揭示知識擴散機制的重要途徑[1] 。文獻間的引用作為知識擴散的外在表現, 展現了原有知識的積累與傳遞特征。對科學論文擴散效果進行早期預測有助于快速識別領域內的高質量文獻, 為科學研究成果早期學術影響評估體系的構建提供依據, 是知識管理領域長期關注的重要問題。

當前研究大多利用文獻計量特征與替代計量特征對擴散效果進行預測。例如, Wang F 等[2] 證實基于作者因素與論文內容因素可以部分預測學界廣泛擴散的論文, 期刊影響、引用參考文獻數量等文獻計量特征也被認為是有效的預測指標[3] 。替代計量特征(如Altmetric 得分)則通過文獻在社交媒體上的表現對高影響力的學術論文進行識別[4] 。隨著研究的深入, 同行評審文本[5] 、論文元數據[6] 等文本信息也被用于提升模型預測效果。早期施引文獻作為新知識的采納者, 能夠給出對目標科學論文知識價值的快速反饋并吸引更多的采納行為[7] , 被用于科學論文擴散效果的早期預測。研究發現, 早期引用數量、首次引用時間對科學論文擴散效果存在積極影響[8] , 即早期存在的積累優勢會使科學論文在擴散后期更容易受到引用。然而, 僅基于引用數量進行測度難以揭示施被引文獻間的深層次語義關聯和知識復雜性, 也無法避免自引和虛假引用現象可能帶來的負面影響[9] , 這導致計數類指標難以準確反映學界對目標科學論文的價值反饋。因此, 構建多維評估方法剖析早期施引文獻特征與科學論文擴散效果的內在聯系, 并據此預測論文擴散效果顯得至關重要。

知識關聯展現了關聯對象在語義信息上多角度多層次的聯系, 是測度科學文獻間內在關聯的重要指標[10] 。從知識關聯層面解析早期施被引文獻的內在聯系, 能夠多維度揭示早期施引文獻對目標科學論文知識價值判定情況。當前研究主要從內容特征(如研究主題等)與外部特征(如期刊、作者等)兩個方面對文獻間的知識關聯進行測度[11] , 前者反映了文獻間的底層知識聯系, 后者展現了文獻的顯性知識關聯。整合科學文獻間的內容特征與外部特征以測度早期施引文獻與科學論文間的知識關聯,有助于全面揭示施被引文獻的內在聯系, 從學界價值反饋的角度實現對廣泛擴散科學論文的早期預測。

鑒于此, 本研究聚焦早期施引文獻與科學論文的知識關聯度, 探究知識關聯度對科學論文擴散效果的預測能力。首先, 構建施被引文獻間主題關聯、期刊關聯與作者關聯的測度指標, 剖析早期施引文獻與目標科學論文的知識關聯特征; 然后, 采用最小二乘法(OLS)與負二項回歸模型, 探究早期施引文獻與目標科學論文擴散效果(即擴散速度、強度和廣度)的關聯機制; 最后, 把科學論文擴散效果預測問題轉化為二分類任務, 將前序實驗中與科學論文擴散效果具有顯著關聯的因素作為輸入特征,訓練機器學習模型對科學論文擴散效果進行預測。

本研究基于神經科學領域(Neuroscience)的科學論文開展實證分析, 主要考慮到該領域涉及生物醫學、基礎生物學、化學等多個子領域[12] , 相關文獻可能在不同類型的學科中進行擴散, 因而提高早期施引文獻與目標科學論文知識關聯特征的區分度, 有助于發掘不同特征對目標科學論文擴散效果的影響。

1 相關研究

1.1 科學論文擴散效果預測研究

科學論文是知識的重要載體, 基于引證關系預測科學論文的擴散效果是知識管理領域的熱點問題[13] 。已有研究主要將預測任務定義為回歸問題和分類問題, 其中, 回歸問題主要通過論文相關特征預測特定時間點的被引情況, 涵蓋傳統回歸、機器學習、深度學習等方法; 分類問題則依據引文分布規律提升模型泛化性[14] , 多利用機器學習方法探究。早期研究者在回歸預測方面廣泛采用線性回歸, 例如, Yu T 等[15] 通過多元回歸構建了論文、作者、期刊等特征與論文被引情況間的關系, 并預測論文發表5 年后的被引頻次。程子軒等[16] 使用逐步回歸預測圖書情報領域期刊被引頻次, 識別了10 個顯著影響因素。隨著技術的發展, 機器學習方法逐漸被應用于論文擴散預測研究。Yan R 等[17] 引入了機器學習方法并比較梯度提升決策樹、隨機森林等模型的預測性能, 發現CART 分類回歸樹具有最佳預測表現, 其中作者的專業性和期刊影響力是顯著影響因素。此外, 深度學習作為機器學習的一個特殊分支, 也被引入到預測模型中。Ruan X 等[18]采用了四層反向傳播(BP)神經網絡模型預測論文未來某個時間段的總被引頻次, 發現BP 神經網絡的性能明顯優于其他6 個基線模型; 在預測效果方面, 低被引論文的準確率高于高被引論文。Ma A等[6] 進一步引入Bi-LSTM 深度學習模型, 設置兩層共32 個神經元提升科學論文擴散效果的預測能力。然而, 一些研究指出被引頻次預測具有長尾效應, 不適合采用回歸方式進行預測[19] 。由于絕大多數文獻積累的被引頻次較少, 導致傳統的回歸分析難以準確度量論文的被引頻次。因此, 部分學者將預測任務轉化為分類問題, 常用方法包含支持向量機(SVM)、貝葉斯網絡(NB)、K 近鄰(KNN)、邏輯回歸(LR)、決策樹(DT)、袋裝法(BAG)、隨機森林(RF)、自適應增強(AdaBoost)算法等。例如, Wang M 等[20] 對天文學和天體物理學領域的219 篇論文進行了分類, 并使用由5 個決策樹分類器組成的多分類器系統來進行預測。其研究表明,論文作者和期刊的聲譽有助于提高論文的被引頻次預測效果。

特征選擇是科學論文擴散效果預測的關鍵步驟。目前相關研究集中于探索論文、期刊和作者相關特征對科學論文擴散效果的預測能力。在論文特征方面, 論文的主題直接體現其研究內容, 具有預測未來擴散效果的潛力[21] , 已有研究從主題的關注度[22] 、新穎性[17] 和多樣性[23] 3 個維度進行評估。此外, 參考文獻的數量[24] 、權威度[25] 與多樣性[26] 以及論文類型[27] 都是影響論文擴散的重要因素。在期刊特征方面, 一些研究表明高影響力的期刊上發表的論文具有更高的可見性[28] , 然而, 也有研究發現期刊并非是影響預測論文擴散效果的因素[29] 。此外, 出版物被引量、刊載論文數、期刊語言類型也對論文擴散具有一定影響[30] 。在作者特征方面, 著名作者因其在研究領域的高聲譽往往享有較好的擴散效果[31] , 馬太效應進一步加強了這一現象, 使高被引作者的論文更容易獲得其他論文的引用[25] 。有趣的是, 雖然有研究表明國際合著能增加論文的被引率[24] , 卻也有研究并不支持這一觀點[28] 。此外, 自引率、h 指數、作者所屬機構等特征也被證實對擴散效果造成影響[17] 。隨著科技和互聯網的發展, 基于學術網絡的拓撲結構特征[32] 與基于社交網絡的替代計量特征[4] 也逐漸被用于預測研究。

1.2 早期施引文獻與文獻擴散效果

早期施引文獻體現了采納者對新知識的快速反饋情況, 對該群體的特征進行研究, 能夠體現學界對目標科學論文的早期認可度, 有助于預測論文擴散效果。相關工作大致分為兩類, 其一側重于分析早期被引量對科學論文擴散效果的影響。其中, 學者普遍認為論文早期被引量、下載量等動態指標是預測文獻擴散的重要因素[33] , 被引量的早期分布狀態還可以用來識別科學睡美人文獻[34] ; 也有學者從社交媒體的角度考察擴散效果, 發現早期引文數與Twitter 提及數顯著相關[35] 。例如, Bai X 等[36]利用梯度增強決策樹模型確定了早期的被引頻次是論文擴散的最重要因素, Wang M 等[37] 通過決策樹算法對天文與天文物理學領域的20 年論文擴散情況進行預測, 發現前5 年被引是關鍵的預測特征。

另一類研究集中于分析早期施引速度對擴散效果的影響。相關工作發現, 早期被引速度可以預測未來被引情況[23] , 首次被引時間越短的文章知識擴散速度越快[38] , 在相關科學領域影響越大[39] 。例如, Hilmer C E 等[40] 研究了應用經濟學與農業期刊論文被引頻次的影響因素, 發現如果論文在發表后的第一年被引用, 其后續被引次數會顯著增加,平均多出2 6 次, 并從3 個方面對此進行了解釋:首先, 存在著“富者愈富” 的馬太效應; 其次,快速被引可能表示該論文質量較高, 從而吸引更多讀者引用; 最后, 快速引用也可能觸發廣告和信號傳遞效應, 讓論文迅速受到學界注意。

然而, 上述研究大多關注早期施引者的“量”對擴散效果的提升作用, 較少研究該群體的“質”在其中的作用機制, 為此, 本文從知識關聯視角出發, 構建三維指標量化早期施引者的知識特征, 探究其與科學論文擴散效果間的關聯機制, 最終實現對科學論文擴散效果的預測。

1.3 科學論文的知識關聯研究

知識關聯反映了關聯對象在語義信息上多角度多層次的相似性特征[10] 。當前研究主要從概念界定、結構分析以及指標應用3 個方面對科學文獻間的知識關聯展開研究。早期學者著重探討知識關聯的概念與特征, 并從小世界現象等視角出發探討知識關聯的理論基礎[41] , 揭示其相互性、傳遞性、隱含性等特征[10] 。隨著其內涵進一步明確, 學者逐漸針對知識關聯的分類展開討論。趙蓉英[42] 從網絡的角度將知識關聯分為隸屬性關聯、同一性關聯、相關性關聯3 類; 高繼平等[43] 從知識元的內在聯系, 將其分為引用關聯、共被引關聯、耦合關聯等。隨后, 知識關聯被廣泛應用于信息管理、金融科技、疫情應急等領域, 其中信息管理領域的學者大多從知識關聯的角度發掘文獻或學科背后的知識結構關系。Park H W 等[44] 結合引文分析法與社會網絡分析法, 借助有向圖揭示通信領域高被引期刊間的關聯程度, 進而探究學科背后的知識結構關系; 阮光冊等[45] 則結合主題模型、共詞分析與關聯規則, 揭示文本挖掘領域論文的知識關聯結構。

然而, 上述研究著重關注應用知識關聯揭示特定期刊或學科領域的整體知識結構, 如何通過科學文獻間知識關聯實現對擴散效果的預測仍待探索。為此, 本研究從主題關聯、期刊關聯與作者關聯3個維度剖析施被引文獻間的知識關聯特征, 探究該特征與目標科學論文擴散效果的關聯機制, 并基于此實現對科學論文擴散效果的早期預測。

2 研究設計

2.1 問題定義與任務設計

為預測目標科學論文擴散效果, 本文將擴散效果位于前10%的論文視為廣泛擴散的論文, 并將該問題轉化為有監督的二分類任務: 首先構建傳統的多元線性回歸模型, 并采用逐步回歸法篩選出對科學論文擴散效果具有潛在預測價值的知識關聯特征; 然后, 根據回歸模型的分析結果, 選取對擴散效果產生顯著影響的知識關聯特征作為輸入變量,借助決策樹、支持向量機等預測模型對目標論文的擴散效果進行預測; 最后, 將不同的機器學習預測算法進行綜合比較與評估, 以尋找預測性能最優的模型, 并在此基礎上探討預測特征的重要性及其影響機理。

2.2 數據收集與處理

本研究以PubMed Central(PMC)作為數據源獲取生物醫學領域相關文獻, 并關聯微軟學術圖譜(Microsoft Academic Graph, MAG) 數據[46] 分析文獻擴散效果。數據的收集與處理流程如圖1 所示。

首先, 從PMC 數據庫中提取文獻的PMCID、DOI等基本信息(共計3 524 897條), 借助MAG 數據庫利用文獻DOI 建立文獻的引證關系; 其次, 篩選早期施引文獻均在PMC 數據庫中的候選目標科學論文(共計110 998篇); 第三, 根據目標科學論文的ISSN 關聯Web of Science(WoS)中期刊引用報告的(Journal Citation Reports)學科類別, 剔除學科分類缺失的文獻后, 獲取神經科學領域目標科學論文(共計2 635篇)及其施引文獻; 最后, 提取目標科學論文及其早期施引文獻(共計6 907篇, 去重)的元數據計算知識關聯度和跨機構合作數量等控制變量, 并提取目標科學論文的完整施引文獻(共計23 293篇)的發表年份、引用數量、ISSN 字段計算目標科學論文的擴散速度、強度與廣度。

早期施引文獻的定義參考前人的研究, 以目標科學論文發表兩年內的引證作為早期施引文獻[47] 。此外, 在計算指標時有兩個問題需要說明: ①在WoS 學科分類時采取“全計數” 的統計方法, 即若文獻a 發表于期刊B, 其在WoS 中同時被歸屬于學科m 與學科n, 認為文獻a 同時對兩個學科產生影響[12] ; ②本文采用Sinatra R 等[48] 提出的方法對作者姓名進行消歧后, 為每個作者賦予唯一ID并進行作者關聯性計算。

主站蜘蛛池模板: 美女裸体18禁网站| 日韩东京热无码人妻| 亚洲欧美一区在线| 亚洲中文字幕在线精品一区| 欧美成人精品在线| 亚洲三级视频在线观看| 日本福利视频网站| 狠狠亚洲五月天| 国内熟女少妇一线天| 毛片在线看网站| 亚洲一级毛片在线播放| 日韩a级毛片| 亚洲综合中文字幕国产精品欧美| 久久一本日韩精品中文字幕屁孩| 九九这里只有精品视频| 综合色天天| 久久国产V一级毛多内射| 91精品久久久无码中文字幕vr| 中美日韩在线网免费毛片视频| 欧美激情视频二区三区| 性视频久久| www.精品国产| 奇米影视狠狠精品7777| 国产国语一级毛片在线视频| 成人字幕网视频在线观看| 久操中文在线| 久久亚洲AⅤ无码精品午夜麻豆| 91成人在线免费视频| 伊大人香蕉久久网欧美| 国产精品网拍在线| 国产精品漂亮美女在线观看| 亚洲精品在线影院| 欧美一级99在线观看国产| 日韩高清中文字幕| 色播五月婷婷| 夜夜操国产| 亚洲视频四区| 亚洲侵犯无码网址在线观看| 综合色在线| 午夜国产大片免费观看| 成人精品亚洲| 日韩毛片免费视频| 91久久偷偷做嫩草影院免费看 | 97狠狠操| 国产毛片久久国产| 91区国产福利在线观看午夜| 日韩高清成人| 国产成人喷潮在线观看| 亚洲国产综合精品一区| 国产成人1024精品下载| 99热国产这里只有精品9九| 黄色网页在线播放| 亚洲首页在线观看| 成人亚洲天堂| 国产白浆视频| 国产第一色| 久久综合干| 国产高清色视频免费看的网址| 精品人妻一区无码视频| 亚洲无码免费黄色网址| 色婷婷亚洲综合五月| 国产婬乱a一级毛片多女| 亚洲国产日韩视频观看| 夜夜爽免费视频| 日韩精品成人在线| 一级毛片网| 4虎影视国产在线观看精品| 蜜臀AV在线播放| av在线人妻熟妇| 婷婷伊人五月| 国产91无毒不卡在线观看| 第一区免费在线观看| 色综合国产| 中国特黄美女一级视频| 亚洲色中色| 日韩成人在线一区二区| 国产Av无码精品色午夜| 免费高清a毛片| 精品国产网| 国产一级无码不卡视频| 久久国产亚洲偷自| 亚洲Aⅴ无码专区在线观看q|