次雨桐 黃進 何益華 方吉 張虎
(1. 華中科技大學圖書館,武漢 430074;2. 華中科技大學光學與電子信息學院,武漢 430074)
學科研究前沿是科研產生重大突破、引領科技發展的關鍵。世界各國從國家戰略高度支持前沿研究,以促進科技創新與發展。準確、及時識別并搶占研究前沿,既是國家戰略的宏觀需求,也是科研管理人員制定學科發展策略的根據,又是科學研究人員跟蹤創新趨勢、把握學科發展方向的微觀需要。然而,如何快速、精準地識別研究前沿,以盡早布局學科未來發展計劃是目前的科學難點和重點。
目前,已有學者在研究前沿識別方面做出了貢獻,但仍然存在一些未解決、未明確的問題,如研究前沿如何產生[1]和如何發展演化[2]。這些問題的解決需要相關理論的完善和方法的創新。基于此,本文提出一種引文分析-文本分析-專家研判相結合的方法,從研究熱點中識別研究前沿,并對此方法的可靠性進行評估、驗證,以期為研究前沿的識別方法提供一個新的路徑。
1965年,Price[3]首次提出“研究前沿”的概念:“卓越科學家進行的領先研究,是正在開發的研究領域”。此后,諸多學者都提出了對研究前沿的理解。Small等[4]認為研究前沿是一組高被引論文。Persson[5]將研究前沿定義為與一組高被引論文相關聯的施引文獻。Kessler[6]、Morris等[7]認為研究前沿是一組具有耦合關系的文獻。Garfield[8-9]將研究前沿定義為一組高被引論文及其施引文獻,指出科學文獻的引用分析能夠跟蹤并發現科學研究的新興領域。Chen[10]認為研究前沿是新興的研究主題,是一組增長率明顯變化的突變詞。目前,學術界對研究前沿的定義還沒有形成共識,這一點可以從研究前沿、研究熱點和新興趨勢等概念的交替使用上看出。但毋庸置疑的是,研究前沿應該具有新穎性,與新興領域、新興趨勢和新興主題在內涵上相差不大。
然而,以往的文獻中較少對研究熱點與研究前沿的概念進行辨析,常出現定義模糊、概念交替使用、將研究熱點和研究焦點等誤認為是研究前沿的情況。一般來說,研究熱點是某領域目前發展較熱、關注度較高的研究主題,與研究焦點內涵相同。而研究前沿是正在興起、暫未引起廣泛關注但極具突破性和引領性的研究。兩者存在明顯的區別并可以動態轉化,研究熱點中可能發展出多個有潛力的前沿方向。另外,隨著研究前沿得到越來越多的同行關注和認可,新的研究者加入后,研究前沿也會轉變成研究熱點。對于學科研究前沿,本文認為其是學科領域中近3年興起的最具引領性、突破性和發展潛力的新進展、新成果和新問題。
對研究前沿的內涵理解不同,便產生了不同的識別方法。目前有4類常用的研究前沿識別方法,分別是引文分析、文本分析、專家研判和復合分析法[11]。
引文分析是最傳統、最經典的方法,已逐步應用到實際工作中,主要包括共被引分析法、耦合分析法和直接引用法。Small首次提出文獻共被引的概念,以測度文獻間關系程度。當兩篇論文同時被一篇文獻引用,認為這兩篇論文共被引。Small認為通過統計文獻共被引頻次可以確定領域核心文獻集,共被引強度高的核心文獻之間內容相似度高,由此聚類形成的主題代表領域研究前沿。Garfield、Price和Small等最早通過共被引分析,呈現科學結構和脈絡,跟蹤科研進展;李小濤等[12]對醫學信息學高被引論文進行共被引聚類,識別出5個前沿方向;中國科學院發布的《研究前沿》報告也采用共被引分析法識別學科研究前沿,獲得廣泛關注。但共被引分析法存在引文時滯性問題,導致識別出的研究前沿可能已經不能代表最新的研究方向。文獻耦合的概念由Kessler提出,認為兩篇引用同一篇論文的論文稱為耦合論文,文獻耦合強度越高,主題相關性越高。此方法被Gl?nzel等[13]、Morris等[7]用來識別學科研究前沿,并取得較好效果。文獻耦合分析法采用施引文獻,在一定程度上克服了共被引分析法的時滯性問題,但可能存在引用目的不同導致識別結果不精確的問題[14]。直接引用法是將具有引用關系的相似文獻聚類,揭示領域的發展脈絡,這些新出現的并形成一定規模的相似文獻的集合可以表征研究前沿。Shibata等[15-16]利用直接引用法識別研究前沿的文獻,并在氮化鎵和復雜網絡等領域進行了實證研究;2017年,愛思唯爾公司采用此方法,對Scopus中的論文聚類,識別出近9.6萬個研究主題,北京理工大學在此基礎上遴選出材料科學領域研究前沿[17]。目前應用直接引用法相對較少,且統計過程較為復雜。
文本分析主要包括共詞分析法、主題概率模型法和突變詞檢測算法3種。共詞分析法在20世紀70年代被提出[18],認為一組相關聯的詞匯可以代表研究前沿的主題內容。該方法通過統計詞匯在同一篇文獻中同時出現的次數來計算關系強度,進行聚類,進而分析共詞文獻簇代表的主題,從而識別學科前沿。曾碩勛等[19]、張斌等[20]分別采用此方法探析富勒烯和檔案學領域研究前沿;張洋等[21]提出了共現網絡構建模型。共詞分析法由于缺少對低頻詞的關注,可能無法識別新興研究前沿[22]。主題概率模型法(LDA)是Blei等[23-24]提出的一種建立在概率層次下的主題識別方法,通過對文本進行全文語義分析,探測有價值的潛在主題。該方法利用文獻中的詞匯來生成主題,同時揭示了詞-主題-文獻關系,可以有效表達詞匯之間語義關系,有助于揭示研究前沿的內容。唐恒等[25]、劉忠寶等[26]運用LDA模型識別智能網聯汽車和無人機領域新興技術。突變詞檢測算法最早由Kleinberg[27]提出,根據研究前沿出現往往伴隨詞頻改變這一規律現象,該方法找出各時間段中增長率激增的突變詞,通過分析突變詞狀態的變化來發現前沿。CiteSpace軟件中的Burst Detection功能采用該算法檢測突變詞,識別領域研究前沿;胡靜等[28]利用此方法,挖掘閱讀推廣的前沿領域;王曰芬團隊[29-32]基于國家、機構和作者等不同視角利用突變詞檢測算法探析人工智能研究前沿。突變詞檢測算法和主題概率模型法對表現形式有差異的相同概念認定為不同概念,導致結果準確率降低。
專家研判是另一種識別研究前沿的有效方法,憑借專家智慧、知識和經驗,綜合多位專家的觀點對問題作出判斷和評估。如國際頂級期刊《科學》通過咨詢專家建議,提出125個前沿問題;中國工程院發布的《全球工程前沿》報告,主要以專家研判為核心,融合數據分析,遴選全球工程研究前沿。單純依靠專家研判時,費時費力且效率低下,并容易受專家個人主觀認識影響[33]。
為了從多角度識別研究前沿,有些學者提出了復合分析法,通過將引文分析、文本分析、專家研判等互相組合分析,以更準確定位研究前沿,如Braam等[34]、孫震等[35]在共被引分析的基礎上結合共詞分析,分析研究前沿的演變規律;王興旺等[36]結合詞頻分析和專家研判確定兒童早期發展研究前沿。
本文提出一種基于引文分析-文本分析-專家研判相結合的新思路,將共被引分析、突變詞檢測算法和專家研判3種方法有機結合,通過共被引分析法關聯相似文獻,揭示研究主題和熱點,利用突變詞檢測算法識別研究熱點發展演變過程中新出現的突發主題,改善共被引分析法的滯后性,再引入專家研判法,使得識別結果更加可靠。這種復合性分析方法發揮了單一方法的優勢,同時彌補了單一方法存在的滯后性、精確性差等缺點,有助于科學、精確地識別研究前沿。
在以往的研究中,通常基于某一特定學科領域的論文探測學科研究前沿。然而,在跨學科研究熱潮之下,學科研究前沿往往產生于學科交叉融合處。因此,從各學科高被引論文的關聯中更容易產生研究熱點和前沿突破。基于對學科研究前沿的概念界定,本文嘗試將研究熱點作為知識基礎,通過追蹤研究熱點的后續進展,從研究熱點中探測研究前沿。
本文數據來自Web of Science核心合集的SCIE和SSCI數據庫,數據檢索時間為2020年12月。首先,獲取2012—2017年出版的所有學科的高被引論文(被引頻次在同學科領域、同出版年排名前1%的論文),通過聚類遴選出研究主題,每個研究主題包含一組高被引論文;其次,根據高被引論文所屬學科,遴選出包含光學(optics)學科高被引論文的研究主題,根據高被引論文的總被引頻次和平均出版年2個指標識別出最具影響力且最“年輕”的研究主題作為光學研究熱點;再次,獲取光學研究熱點中高被引論文的施引文獻(施引文獻出版年為2012—2020年),從施引文獻中檢測出在近3年(2018—2020年)產生突變的突變詞;最后,結合專家研判識別出學科研究前沿。
考慮到后期需要對研究前沿識別結果可靠性進行驗證,故將高被引論文出版年截止日期設為2017年,將2012—2017年出版的高被引論文作為知識基礎,將其在2018—2020年的最新進展作為研究前沿。
本文通過對高被引論文進行共被引分析,聚類出研究熱點后,追蹤研究熱點的后續發展狀態,對高被引論文的施引文獻進行突變詞檢測,得到一組突變詞。突變詞可能變成研究前沿,也有可能趨弱或沉寂[37]。基于此考慮,本文在定量方法基礎上,輔助專家研判,通過定量、定性相結合,集成共被引分析方法-突變詞檢測算法-專家研判法,從學科研究熱點中識別研究前沿,將在更大程度上保證識別結果的可靠性(見圖1)。

圖1 學科研究前沿識別方法與過程
2.2.1 基于共被引關系的主題聚類算法
研究主題形成首先通過共被引關系形成共被引論文對,然后將共被引論文對聚類成不同文獻簇(研究主題)。當兩篇論文被一篇文獻同時引用,則這兩篇論文共被引,形成一個共被引論文對。創建共被引論文對后,將共被引頻次進行歸一化,采用余弦相似性計算共被引相似度,再通過單鏈接算法將各個共被引論文對進行聚類。
本文設置共被引相似度的閾值為0.2,從某一個滿足閾值(共被引相似度大于或等于0.2)的共被引論文對(如C1)開始,將其作為初始集合,找到與初始集合有共被引關系的其他共被引論文對(如C2),計算兩個集合的最相似成員之間的相似度,相似度大于或等于0.2,則合并兩個集合,一直持續到沒有論文可以添加到集合中,由此產生的集合形成一個聚類,即研究主題。聚類時設置每個聚類或研究主題至少包含2篇高被引論文,最多包含50篇高被引論文。共被引論文對C1和C2的相似度S(C1,C2)由兩個集合中的最相近論文的相似度決定。
2.2.2 基于施引文獻的突變詞檢測算法
Kleinberg提出突變詞檢測算法,檢測使用頻次在某些出版年份驟增或在較短時間內突然出現的術語。CiteSpace軟件中的Burst Detection模塊集成了該算法的功能,本文使用CiteSpace軟件,從高被引論文的施引文獻中初步識別出一組突變詞,基于突變詞的突變時間段初步篩選出候選的學科研究前沿列表。
2.2.3 專家研判法
專家研判法作為一種定性分析法,是對共被引分析和突變詞檢測算法等定量分析法的重要補充,是識別研究前沿的重要手段。領域專家能夠較為準確地把握學科領域發展方向,因此,本文邀請每個研究熱點相關領域的多位專家對突變詞檢測算法識別出的候選研究前沿進行判斷、甄別、補充,得到最終的學科研究前沿。
首先,基于Web of Science中SCIE和SSCI數據庫收錄的2012—2017年出版的高被引論文,計算高被引論文之間的相似度,利用單鏈接算法進行聚類,形成研究主題,每個研究主題包含一組高被引論文;其次,從研究主題中篩選出包含“optics”學科類別高被引論文的研究主題200個,作為光學研究主題;再次,將200個光學研究主題,按照高被引論文總被引頻次進行降序排列,提取排在前20%的研究主題,再根據高被引論文的平均出版年降序排列,遴選出高被引論文的平均出版年份在2014年及其之后的研究主題,得到9個光學研究熱點;最后,對9個光學研究熱點包含的高被引論文的題目進行分析,進而命名研究熱點。9個光學研究熱點分別為有機聚合物太陽能電池、宇稱-時間對稱、等離激元光子學、二維材料、光學相干斷層成像、有機發光二極管、量子點太陽能電池、量子相干、量子自旋。其中,最小的一個聚類是有機聚合物太陽能電池研究熱點,包含3篇高被引論文;最大的一個聚類是光學相干斷層成像研究熱點,包含39篇高被引論文。
每個研究熱點包含一組高被引論文,每篇高被引論文在Web of Science核心合集數據庫中都有一個唯一的入藏號,即UT號。將每個研究熱點中包含的高被引論文的UT號之間用“OR”連接,構建檢索式,在Web of Science核心合集的高級檢索功能中進行檢索。得到檢索結果后,對這組高被引論文進行引文分析,通過Web of Science核心合集中的“引文報告”功能,獲得每個研究熱點中包含的高被引論文的施引文獻,并下載施引文獻的全部著錄項,包含標題、摘要、關鍵詞、出版年、來源出版物和UT號等多個字段。依據此方法,分別獲取光學9個研究熱點的施引文獻數據集。
因有機聚合物太陽能電池研究熱點體量較小,更容易闡述,故本文以有機聚合物太陽能電池這一個研究熱點為例,展示研究前沿的初步識別、命名方法和專家研判過程。
首先,獲取有機聚合物太陽能電池研究熱點涉及的3篇高被引論文的施引文獻,共2 071篇。通過Kleinberg提出的突變詞檢測算法,從施引文獻的標題、摘要和關鍵詞中初步識別得到突變詞36個。其次,剔除無意義和較寬泛的突變詞。再次,篩選突變時間在2018—2020年的詞。最后,將突變詞進行整理、合并,得到9個突變詞,即non-fullerene(非富勒烯)、power conversion efficiency(能量轉換效率)、all-polymer solar cell(全聚合物太陽能電池)、stability(穩定性)、f lexible solar cell(柔性太陽能電池)、ternary polymer solar cell(三元有機太陽能電池)、bulk heterojunction solar cell(異質結太陽能電池)、interfacial material(界面材料)、active layer(活性層)。其中,有些突變詞需要經過整理或合并之后再請專家研判,例如13 percent efficiency和11 percent efficiency這兩個突變詞都表示有機聚合物太陽能電池的能量轉換效率,因此可以合并為power conversion efficiency。
將9個突變詞(候選研究前沿)通過郵件發送給有機聚合物太陽能電池領域的3位專家,當一個突變詞獲得2位及以上專家認可,本文即認為是研究前沿;同時,也接受專家提名研究前沿,如果一個突變詞獲得2位及以上專家提名,本文即認為是研究前沿。最終,從有機聚合物太陽能電池研究熱點中識別出8個研究前沿(見表1)。隨后,在Web of Science數據庫中檢索有機聚合物太陽能電池8個研究前沿的相關文獻,統計從2012—2020年的逐年發文量,結果見圖2。

表1 專家研判的有機聚合物太陽能電池的研究前沿

圖2 有機聚合物太陽能電池領域研究前沿
從表1可知,3位專家均認為非富勒烯聚合物太陽能電池(A1)、有機聚合物太陽能電池的穩定性(A4)、柔性有機太陽能電池(A5)是有機聚合物太陽能電池的研究前沿。從圖2文獻統計趨勢發現,非富勒烯聚合物太陽能電池(A1)是近年來有機聚合物太陽能電池領域中最熱的前沿方向。不同的非富勒烯材料以及給體材料的合成是近年來有機聚合物太陽能電池能量轉換效率(A2)提升最主要的原因。在2016年以前,聚合物太陽能電池的受體主要以富勒烯為主,電池能量轉換效率在10%徘徊。2016年,基于非富勒烯材料ITIC與聚合物給體PBDB-T的電池效率突破11%之后,不同的非富勒烯受體以及與之相匹配的給體相繼問世,在短短的3年時間里,有機聚合物太陽能電池的效率達到17.4%。有機聚合物太陽能電池的穩定性(A4)也是目前研究重點。為了實現應用,電池的穩定性直接決定了太陽能電池的使用壽命。另外,相較于其他種類電池,有機太陽能電池機械性能高、質量輕,使得它在柔性器件方面有著天然優勢,高效率柔性器件應用廣泛,商業化前景強,因而柔性有機太陽能電池(A5)被廣泛研究。
另外,獲得了兩個由專家提名的研究前沿,分別是有機聚合物太陽能電池內部的能量損失(B1)和疊層太陽能電池(B2),從文獻量來看,兩個研究前沿的文獻量逐年上升。
研究前沿的命名不僅考慮突變詞本身的含義,也要考慮其與研究熱點的關聯。例如,對于突變詞nonfullerene,本義是非富勒烯,定位其關聯的論文并閱讀論文標題,結合網絡搜索和專家意見,確定該突變詞代表的研究前沿應命名為“非富勒烯聚合物太陽能電池”。
與同區塊近年來施工情況對比,東9-8、埕南91-平13、孤南24-斜91、濱5-斜45、樁59-斜40施工平均鉆機月速達到了同井深、同類型施工井的最好水平,創下區塊指標。
獲取光學研究熱點的施引文獻,從中檢測突變詞,并結合專家研判,最終識別出51個光學研究前沿,具體內容見表2。

表2 施引文獻突變詞檢測結合專家研判識別出的光學研究前沿
在以往的一些研究中,較少對研究前沿識別結果的可靠性進行評估。資料驗證法指利用已公布的重要獎項或已發表的文獻對研究結果的可靠性進行驗證[38]。例如,Small等[39]利用諾貝爾獎、IEEE獎勵計劃和權威潛力研究方向列表(如《科學》雜志公布的年度十大科學突破)等作為參考,評估識別的新興話題,驗證結果顯示,1/3的識別結果可以得到相關獎項的支持。本文借鑒Small的資料驗證法來評估研究前沿識別結果可靠性。
本文搜集了美國光學學會發布的optics in 2019、optics in 2020等年度光學進展,《科學》雜志每年度發布的Science: Breakthrough of the year,諾貝爾物理學獎,英國物理學會主辦的《物理世界》每年公布的國際物理學年度十大突破,丹尼斯·加博爾獎和歐洲物理學會菲涅爾獎等;此外,也搜集了《中國激光》雜志社“中國光學十大進展”和國家科學技術三大獎的獲獎名單。獲取上述所有獎項近3年的獲獎名單作為參考。
將表2中51個光學研究前沿與近3年獲獎名單進行比對后發現,在51個光學研究前沿中,17個研究前沿得到相關的獎項支持,即1/3的研究前沿可以得到相關的獎項支持。雖然這些獎項存在不完整性,但可以在一定程度表明與研究前沿相關的研究進展已經獲得較權威機構的認可。例如,“光的非互易傳輸”在2018年和2020年均入圍美國光學學會年度光學進展。“量子計算機”和“量子精密測量”相關研究成果分別入選2019年和2020年度國際物理學十大突破。
本文提出了一種將共被引分析法、突變詞檢測算法和專家研判法相結合的復合分析法,來從研究熱點中識別研究前沿,并以光學學科為研究目標,展示了識別學科研究前沿的路徑和過程。本文的方法從理論上補充和豐富了研究前沿識別方法,具有一定的科學價值,并且在實踐上具有較強的可操作性。從識別效果的評估和驗證表明,該方法也具有一定的可靠性和認可度,能夠對學科發展方向的研判提供參考。
同時,本文提出的方法也存在一定的局限性,如本文從高被引論文出發識別研究前沿,由于引文的時滯性,導致最終識別出的研究前沿是近年來正在興起的研究主題,并不能預測未來的研究前沿;此外,沒有與其他研究前沿識別方法的效果進行比較。這些問題都需要在后續進行更深入的研究。