張茜晴
(廈門醫學院圖書館,福建 廈門 361001)
研究熱點(Hot Topic)這一概念由普賴斯(Price)在1965年提出,是指在某段時間段內有突出發展潛力的研究主題。科技文獻呈現出指數級增長的趨勢,有針對性地挖掘科技信息中的有效情報,快速了解研究領域的熱點話題,有助于把握研究動向,節約科研成本。文獻計量學是在對大量文獻進行定量化研究需求的基礎上應運而生的,利用文獻計量手段識別研究領域熱點,分析主題演進已成為研究主題分析的基本方法。目前,經過較長時間的探索與發展已形成多種基于文獻計量的熱點識別方法。
早期關于熱點識別的研究多集中在西方國家,20世紀90年代起逐漸受到我國學者的關注、研究與應用,并產生了豐碩的研究成果。筆者在調研國內相關文獻中的各個分析環節指標的基礎上進行研究,旨在梳理基于文獻計量的熱點識別方法及分析路徑,比較不同方法的特征,以期為研究人員提供借鑒和參考。
研究熱點通常源于某時間段研究領域內受到廣泛關注的研究話題或進展,且常伴隨著文獻發表數量增加、某些主題詞數量及漲幅突增、引文網絡突變等計量學特征。針對這些計量指標,衍生出多種識別研究熱點的方法和技術。關鍵詞作為最能表征文獻主題內容的要素之一,將其用于分析識別領域熱點由來已久,例如詞頻分析、共詞分析等方法。另外,文獻之間的引證關系可以理解為是科學對話的一種形式,基于引文的研究可定量分析科學研究的傳播途徑和發展脈絡,對主題發展和熱點趨勢都有重要的揭示作用。同時,以文獻數據之間的內在關聯為紐帶,借助計算機圖像處理技術將數據轉換成圖像并進行交互處理的新興可視化技術為研究熱點的識別和呈現提供了更加多樣且靈活的途徑。通過對國內外相關文獻進行梳理和分析,熱點識別方法研究可分為以下幾類。
2.1.1 基于詞頻的熱點識別
詞頻分析以詞匯為分析對象,詞匯作為表達文獻主題內容的最小單位,因其概括性、統計性、鏈接性等特性,常用于研究熱點的識別[1]。詞頻分析法由Luhn于1958年首次提出并應用于自動文摘的研究,該方法基于研究內容的集中與分散性可由關鍵詞的頻次與個數的關系加以判斷這一原理,研究內容的集中性越強,則表征該內容的關鍵詞所代表的內容在該領域越可能起關鍵作用[2]。除了以詞頻累積數量為分析依據外,2002年Kleinberg提出了一種突破監測算法,在分析詞頻時考慮其變化密度,從而識別文獻中具有高密度特性的詞,即有突然增長特性的詞[3]。
2.1.2 基于詞共現的熱點識別
通常,一個研究主題包含不止一兩個詞匯,相互關聯的一系列詞匯凝聚在一起能更全面地表征主題。共詞分析法即為典型代表。該方法由法國文獻計量學家在20世紀70年代中后期提出,以文獻計量和統計聚類為研究手段,按照詞間的緊密程度對共同出現的詞進行聚類,為定量分析大數據量的文獻信息,探究知識演化、熱點話題和學科演進提供了一種新的思路[4]。此外,在共詞分析的基礎上,利用各種統計學分析方法,結合可視化軟件,可將研究熱點更加直觀地展現出來。如,徐曉華等人利用共詞聚類和多維尺度分析方法對艾滋病預防醫學領域的文獻進行分析,獲得了2013—2015年的4大熱點研究領域[5];周麗英等人以SCI收錄的3種國際植物營養學期刊為數據源,將共詞分析與社會網絡分析方法相結合進行了主題領域劃分,并研究各領域的發展變化趨勢[6]。
Small將引文關系劃分為文獻耦合(Bibliographic Coupling)、文獻同被引(Co-catation)以及直接引用(Direct Citation)這3種類型。文獻耦合分析由麻省理工學院的Kessler教授于1963年提出,其原理是兩篇及兩篇以上的文獻因引用同一篇文獻可發生互相關聯[7],共同引用的文獻越多,說明這幾篇施引文獻之間的聯系越為緊密。以此理念為基礎,肖明等人以引文耦合為分析方法,在國內首次探討了學科結構和知識基礎,并輔以可視化工具描繪了數字圖書館領域具有相同主題的文獻間關系[8]。同被引分析由美國情報學家Small于1973年提出,反映的是被引證文獻之間的關系,他采用同被引的分析方法,對有機薄膜晶體管領域進行了分析,并揭示了該領域主題演化過程中的發展、消亡過程[9]。引文關系的最后一種類型直接引用則是文獻引用的一種基本形態,在對文獻進行直接引用分析時無需厘清他們之間的耦合或同被引關系[10]。
已有研究采用不同的研究方法對各研究領域的熱點話題進行識別和展現,為當前研究提供了重要的參考。識別方法的多樣性和靈活性在為主題研究提供多種途徑的同時,也帶來不同方法在過程分析和結果展現方面的差異以及方法選擇上的困惑。目前國內尚缺乏較為全面的研究,因此,筆者采用內容分析法,通過文獻調研梳理出現有研究中較為常用的熱點識別方法,并從各流程角度比較不同方法之間的差異。
筆者主要采用內容分析法,以中國知網(CNKI)數據庫中收錄的CSSCI、中文核心以及CSCD索引的期刊為數據來源,以“研究熱點”為檢索詞在題名中進行檢索,又以“SU='研究熱點'ANDSU='文獻計量'”為檢索式在CNKI全文數據庫中進行檢索,剔除重復文獻后共獲取2059篇相關文獻,經過快速閱讀文獻題錄信息,刪除與本研究無關的文獻共556條,最后納入內容分析的樣本文獻1211條。
筆者以熱點識別過程的每一個環節為分析要素,共構建文獻調研指標4個,分別為數據來源、計量要素、計量方法以及熱點呈現方法與采用工具。其中,數據來源是指該篇文獻所研究的目標文獻來源;計量要素是指該篇文獻依據何種文獻要素進行研究熱點的識別;計量方法是指該文獻采用何種計量方法進行研究熱點的識別;熱點呈現方法與采用工具即該文獻將分析出的研究熱點以何種形式呈現,以及采用了何種工具對研究熱點進行可視化表達。
3.2.1 數據來源統計結果
按照熱點識別所依據的論文要素,將調研指標分為基于詞匯的熱點識別文獻和基于引文的熱點識別文獻兩部分分別進行指標統計結果的解讀,數據來源見圖1,從上圖可見,CNKI是以詞匯進行熱點識別文獻分析對象的主要來源,占比高達49%,其次是科睿唯安的Web of Science(WoS)數據庫和中文CSSCI索引,占比分別為28%和12%。下圖所示基于引文進行熱點識別的文獻分析對象來源中,Web of Science數據庫占比最大,高達75%,其次是CNKI以及CSSCI來源文獻。

圖1 調研結果——數據來源統計
3.2.2 識別方法統計結果
筆者將全部調研樣本分為基于詞匯的識別方法與基于引文關系的識別方法兩類,其中,基于詞匯的識別方法又可分為基于詞頻和基于詞共現兩種,基于引文關系的識別方法又可分為基于高被引文獻和基于文獻共被引的分析方法兩種,具體到每一種方法的使用情況詳見表1。

表1 調研結果——方法統計
基于本研究調研的全部文獻,建立起“文獻來源—分析要素—計量方法—分析工具”的一一對應關系,從多維度剖析當前常用研究熱點的分析路徑,如圖2所示。圖2中圈的大小表示使用頻次的高低,如,就“文獻來源”這一指標來看,WoS及CNKI是目前國內進行熱點識別研究中使用頻次最高的數據庫;就“分析要素”指標來看,基于詞匯的分析方法使用頻次要高于基于引文的分析方法;就“計量方法”指標來看,基于詞共現的計量方法使用頻次最高,而基于文獻共被引的計量方法則是引文分析中最常用的。圖2中連線的粗細表示共現頻次的高低,例如,在以CNKI為文獻來源的熱點識別文獻中,基于詞匯的分析方法使用頻次要遠高于基于引文的分析方法,以WOS為文獻來源的文獻中,基于詞匯與基于引文的分析方法使用頻次相差不大;在基于詞匯的分析方法中,詞頻分析與詞共現分析的使用頻次都較高,而基于引文的分析方法中,文獻共被引分析的使用頻次則遠高于基于高被引文獻及基于關鍵節點文獻的使用頻次;在基于詞共現的分析方法中,聚類分析、多維尺度分析及共詞分析的使用頻次較高,在基于文獻共被引分析方法中,聚類分析、內容分析、時序分析等使用頻次較高;聚類分析以SPSS及CiteSpace為主要分析工具,共詞分析則主要依靠CiteSpace、SPSS及Ucinet等分析工具。

圖2 研究熱點識別路徑
在全部調研樣本中,基于詞頻的分析方法共使用708次,其中,簡單詞頻分析法,即單純累計關鍵詞或主題詞出現頻次來判斷研究熱點的文獻有467篇;另外,突現詞分析方法共使用122次,該方法利用Kleinberg的突現詞算法,借助CiteSpace可視化分析軟件可運行計算得出某段時間內具有高突現率的關鍵詞,通過分析這些關鍵詞所表達的研究主題,從而獲取該時間段內的研究熱點;除了簡單詞頻及突現詞分析法,還有119篇文獻使用了時序分析方法,利用分析軟件對文獻進行處理繪制主題熱點演變時區視圖,以時間線為橫軸,以熱點關鍵詞節點之間的連線表達研究熱點的演變。
筆者通過內容分析對全部調研樣本進行了細化分析,基于詞共現分析方法共使用1427次(由于一篇文獻可使用多種分析方法,因此分析方法的使用總次數可能大于調研樣本數)。具體到每一種方法,聚類分析使用頻次最高,達590次,聚類分析是一種研究“物以類聚”的多元統計方法[11],根據關鍵詞(主題詞)之間關聯強度的大小聚集成簇,把聯系緊密、代表相似主題的關鍵詞聚集在一起,從而達到分析熱點話題、研究趨勢的目的。聚類分析通常需要借助分析工具來完成,調研樣本中聚類分析常使用的工具有SPSS(251次)、CiteSpace(202次)、Bibcomb(36次)、Ucinet(33次)、VOSviewer(31次)等。SPSS(Statistical Package of the Social Science)是目前社會科學領域使用最廣泛的一套模塊化的統計分析軟件,功能包括因子分析、回歸分析、相關分析、聚類分析等;CiteSpace是在科學計量學、數據可視化背景下逐漸發展起來的引文可視化圖譜軟件,以可視化手段呈現科學知識結構、規律和分布情況[12]。共現分析方法共使用438次,這種研究方法以關鍵詞共現網絡圖譜鎖定核心研究領域[13],結合關鍵詞詞頻統計及關鍵詞之間的共現關系厘清研究熱點,以CiteSpace的共現圖譜為例,每個節點代表一個研究熱點,節點的大小表示該關鍵詞出現的頻次高低,節點越大則話題越熱,節點之間的連線表示熱點之間的共現情況,連線越粗則熱點間關聯越緊密。在共詞分析中,分析軟件的使用頻次依次為:CiteSpace(211次)、Ucinet(92次)、SPSS(26次)等。多維尺度分析方法使用頻次為154次,主要借助軟件SPSS(107次)以及Ucinet(6次)。該方法將觀測對象定位到二維或三維空間中一個特定位置,通過測定觀測量之間的距離發現各觀測量之間的結構[14]。社會網絡分析方法(SNA)的使用頻次為102次,它是一種社會學的研究方法,與統計學和心理學等學科聯系緊密[15],常用的分析工具分別為Ucinet(78次)、SPSS(10次)、CiNetExplorer(3次)、CiteSpace(1次)以及Thomson Data Analyzer(1次)。戰略坐標分析方法使用頻次為49次,該方法是一個二維坐標圖,橫軸代表向心度(Centrality),縱軸代表密度(Density),使用這兩個指標衡量主題類團內部的發展狀況和類團之間的互相影響狀況[16],調研樣本中使用的工具主要包括SPSS(22次)、CiteSpace(4次)、Ucinet(1)次。因子分析方法共使用48次,這是將多個實測變量轉換為幾個不相關的綜合指標的一種多元分析方法[17],通過分析多個原始變量,找出對原始變量有潛在支配作用、數量相對較少的因子[14]。調研樣本中在進行因子分析時主要使用SPSS(32次)、Ucinet(2次)等。中心性分析方法的使用次數為46次,中心性是指一個點在網絡中居于核心地位的程度,是判定網絡中節點重要性的指標,調研樣本中中心性分析的工具主要包括CiteSpace(23次)、Ucinet(7次)、SPSS(6次)和Gephi(1次)。
基于引文的熱點分析方法以引文類型的不同分為兩類,首先是基于文獻共被引的分析方法,文獻共被引分析是Citespace最具特色的功能,利用Citespace對文獻進行共引分析可以提煉該領域的知識基礎、研究熱點以及新興趨勢[18]。在調研樣本文獻中,基于文獻共被引的分析方法共使用77次,其中,聚類分析使用60次,通過對共現網絡進行聚類,可將文獻根據研究內容的相似程度劃分到不同的聚類中進行分門別類分析,分析工具為Citespace(39次)、VOSviewer(1次);關鍵節點文獻分析是對網絡中的關鍵節點的文獻進行內容分析,借此了解領域研究熱點,在調研樣本中共使用16次;時序分析的視圖顯示方式能突出共引網絡節點隨時間變化的結構關系[19],在調研樣本中共使用8次;中心性分析通過分析一篇文獻在共引網絡中與其他文獻連接的緊密程度,從而判斷其核心程度,中心性越高的文獻,其在網絡中的影響力越大,調研樣本中中心性分析共使用5次,分析工具均為Citespace;多維尺度分析方法使用3次;戰略坐標分析方法使用兩次。除了基于文獻共被引的分析方法外,高被引論文作為被引用頻次最高的那部分文獻,往往具有較高的影響力,且數量較少的論文較大程度覆蓋了某一研究領域的熱點主題,調研樣本中基于高被引論文進行的分析共使用57次,其中,對高被引論文的內容進行閱讀分析研究熱點的方法使用42次;另外,與突破詞分析類似,Citespace同樣可對在某一時間段內引用頻次突增的文獻進行探測,具有高突破性的文獻所反映的內容在某段時間內受到了較多關注,因此,突破文獻分析可快速了解某領域學者們所共同關注的話題,找到研究熱點,這種分析方法使用了10次;最后,引文編年分析是利用HistCite軟件進行的一種基于高被引論文的分析方法,可直觀得到引文之間引用與被引的關系,從而反映文獻間的關聯[20],樣本文獻中該方法的使用頻次為5次。
筆者對國內有關熱點識別共1211篇研究文獻進行內容分析,建立各個分析環節的調研字段,通過對調研結果的統計分析,梳理出使用頻次高且具有代表性的熱點識別分析路徑,得出以下結論。
(1)文獻計量方法是識別研究熱點最主要的分析方法,且基于文獻計量的熱點分析方法呈現多樣化趨勢,可分為基于詞匯的分析方法和基于引文的分析方法兩大類。其中,基于詞匯的分析方法以能表征研究主題的詞匯為對象、以詞頻或詞間共現關系為基礎,具有分析數據易獲取、分析方法簡單多樣、分析工具種類多等特點,其使用率遠高于基于引文的方法,在調研樣本中的文獻占比約為88.8%;基于引文的分析方法由于對數據庫提供的可計量數據有較高要求、分析過程中算法較為復雜、分析工具單一(絕大多數使用CiteSpace),且對分析工具的依賴性較大,因此使用頻次較小,在調研樣本中的文獻占比僅為11.2%。
(2)借助可視化分析軟件進行熱點識別是目前國內應用研究的主要趨勢。調研樣本中65.7%的文獻借助可視化軟件進行研究熱點的識別與呈現,軟件種類多達27種,且不同分析方法常用工具差異明顯。例如,SPSS作為一款功能強大的統計分析軟件,在基于詞共現的聚類分析、多維尺度分析、因子分析、中心性分析等分析中應用廣泛;CiteSpace是陳超美教授用Java語言開發的基于引文分析理論的可視化軟件,調研樣本中的文獻共被引分析、突破詞分析、共現網絡分析等,有61%都是借助CiteSpace進行的,可視化分析軟件的多樣性為研究熱點的識別和呈現提供了更多的途徑和更豐富的結果呈現方式。
(3)不同識別方法的分析側重點差異明顯,應根據數據特征及具體需求選擇合適的分析方法。在分析對象選擇方面,詞匯具有較強的解讀性,而引文分析通常需要耗費較多的精力對高被引文獻、關鍵節點文獻進行解讀,因此詞匯的分析結果會更加直觀、易讀;但文獻間的引用關系代表著知識的流動和傳承,以引文為對象可探測研究領域的知識基礎和研究前沿,相較于詞匯能更好地表達研究主題的演進。在計量方法和分析工具的選擇上,聚類分析在主題表達方面更為直觀,且分析工具多樣,但由于算法不同,導致聚類類團也不同,因此在分析主題時仍需人工判斷、調試;多維尺度分析圖譜中,點與點之間的位置關系以及與中心位置的距離遠近反映研究對象間的相似性及其核心程度,但通常仍需要綜合其他分析方法進行區域劃分,且研究者本身需對研究領域有一定了解,SPSS是多維尺度分析中最常用的工具。社會網絡分析方法依據中心性指標判斷對象在圖譜中的地位,Ucinet中的NetDraw繪制的網絡圖可清晰看到對象間的親疏關系,是社會網絡分析中應用最為廣泛的軟件。突破詞分析基于CiteSpace的突破算法識別出短時間內具有高增長率的關鍵詞,在生成的圖譜中使用紅色標注并形成突破詞檢測報告,運算速度快且易于解讀,是識別新型熱點話題的一種高效途徑,但同時也存在著缺乏詞間關聯、分布較為分散等弊端,需研究人員結合其他網絡進行更為宏觀的分析。此外,利用CiteSpace進行基于引文共被引的聚類分析,以參考文獻為節點,節點文獻一般是本領域內被引用頻次較高且在引文網絡中中心性較高的文獻,通過對節點文獻的閱讀和分析,找出領域內的熱點研究話題,這種方法通常用于探測知識基礎,但在圖譜的解讀中較為費時費力,要同時結合節點附近的其他文獻對領域內的研究主題進行解讀。