冉從敬 李旺 謝真強



關鍵詞: 中國知網; 共被引分析; 智慧醫療; CiteSpace
DOI:10.3969 / j.issn.1008-0821.2023.09.013
〔中圖分類號〕G250.2 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 09-0154-11
1973 年, 美國情報學家Small H[1] 首次提出了文獻共被引(Co-citation) 的概念, 作為測度文獻間關系程度的一種研究方法。而后隨著研究的逐漸深入, White H D 等[2] 在1981 年將文獻共被引拓展至作者與期刊層面, 形成了作者共被引分析(AuthorCo-citation Analysis, ACA)與期刊共被引分析(Jour?nal Co-citation Analysis)的研究方法。隨著科學知識圖譜的興起, 其一直是科學計量學、知識計量學領域的一種重要的研究方法與研究手段, 基于學者的不斷摸索, 共被引分析與科學知識圖譜相結合,分析結果逐漸被可視化的展示出來。科學知識圖譜是以知識域(Knowledge Domain)為對象, 顯示科學知識發展進程與結構關系的一種圖像[3] 。科學知識圖譜這一概念在2003 年美國國家科學院舉行的研討會中被第一次提出, 而后隨著科學技術的發展,學者將科學知識圖譜這一概念與技術相融合, 從而衍生了各類知識圖譜繪制工具。在眾多可視化軟件中, 由美國Drexel 大學陳超美研發的CiteSpace 由于其繪制圖譜信息量大, 圖譜美觀, 可以從多個層面為學者提供研究視角而廣受歡迎。隨著CiteSpace工具的普及, 國內外產生了許多關于應用CiteSpace及其知識圖譜的學術論文。國外學者如Jayantha WM 等[4] 通過Scopus 數據庫檢索了1970—2019 年關于享樂價格模型的相關文獻, 而后使用CiteSpace軟件對數據進行分析和可視化; Rawat K S 等[5] 運用CiteSpace 分析了2011—2020 年在教育領域使用ICT 發表的文獻的科學計量特征; Widziewicz-RzońcaK 等[6] 通過WOS 數據庫檢索了1996—2018 年關于PM 結合水研究領域的相關文獻, 并使用CiteSpace軟件可以確定測量氣溶膠結合水的過去趨勢和未來可能的方向。國內學者如陳曉玲等[7] 以WOS 數據庫中SCI-E、SSCI、CPSI 三大核心數據庫收錄為數據來源, 運用CiteSpace 分析了2012—2016 年東北三省的研究熱點和學科趨勢; 花龍雪等[8] 以中國知網收錄的“過程挖掘” 領域相關文獻為樣本, 運用VOSviewer 和CiteSpace 兩款軟件對文獻特征、熱點主題和前沿趨勢進行分析; 李靈芝等[9] 運用CiteSpace 針對WOS 數據庫中基礎設施韌性評估核心文獻展開文獻分布、共現分析、共被引分析等計量分析并得出結論。
分析已有研究發現, 國內外多數學者均運用CiteSpace 對WOS 數據庫與CSSCI 等數據庫的論文進行共被引分析, 而針對中國知網CNKI 數據庫時僅僅是進行了關鍵詞分析, 較少運用CiteSpace 針對CNKI 數據庫文獻進行文獻共被引分析、作者共被引分析與期刊共被引分析。即便現有的極少數學者進行了相關研究, 也是通過手動下載參考文獻并導入對應文章的方式來實現[10-11] 。通過下載最新版CiteSpace6.2.3 并分析發現, 當前版本可以對WOS 數據庫與CSSCI 等數據庫下載的文獻數據進行共被引分析、關鍵詞共現分析、作者耦合與機構耦合分析等, 幫助相關研究者探究某一研究領域的研究熱點、研究前沿、知識基礎、主要作者和機構等, 預測某一研究領域的未來發展走向。但是將CNKI 數據庫導出的文獻數據導入CiteSpace 中進行分析時, 只能進行關鍵詞共現分析、作者共現分析與機構共現分析等, 無法進行文獻共被引分析, 從而導致相關學者無法在CNKI 的海量文獻資源中找到高被引論文、高被引期刊與高被引作者, 一定程度上阻礙了相關學者鑒別領域學科共同體, 不利于學者歸納相關領域的學科范式。針對上述情況, 本文通過分析發現, CNKI 數據庫導出的題錄數據不包含參考文獻, 進而無法對其進行共被引分析, 這導致研究者在進行中文文獻共被引分析時只能基于CSSCI 數據庫來完成。對于一些自然科學學科來說, CSSCI 數據庫所包含的數據量有限, 檢索邏輯較為單一, 數據導出流程較為繁瑣, 這不僅降低了研究效率, 還無法得出更加精準的研究結果。基于此, 為了提升相關研究者的研究效率, 探索共被引分析的新渠道, 更加廣泛地剖析學科知識領域的研究熱點、前沿與趨勢, 本文嘗試提出一種基于CiteSpace 的CNKI 文獻共被引分析方法, 旨在實現對CNKI 數據庫的文獻共被引分析、作者共被引分析與期刊共被引分析, 為相關研究者提供新的共被引分析思路。本研究不僅將擴寬學者的研究渠道,還有助于提升相關學者的研究效率, 因而具有一定現實意義。
1研究設計
通過前期CiteSpace 的使用經驗并閱讀相關文獻資料, 可獲知當運用CiteSpace 對CNKI 文獻數據進行關鍵詞分析時, 通用步驟是在CNKI 中檢索文獻,導出Refworks 格式, 而后將數據導入到CiteSpace中將其轉換為與從WOS 文獻數據庫中下載到的“全紀錄與參考文獻” 一致的純文本形式。由此可見, CiteSpace 在進行分析時并不對數據庫進行限制, 而是對數據文本格式有特定限制。因此, 只要文獻數據格式符合軟件要求, 那么就可以對CNKI數據庫文本進行共被引分析。為了實現這一設想,本文需要解決如下問題: CNKI 參考文獻獲取、參考文獻的數據文本格式構建與參考文獻寫入方式構建。本文所使用編程語言為Python, 具體研究步驟如圖1 所示。
1.1參考文獻獲取
當使用CNKI 檢索文獻時, 在確定檢索條件后開始檢索, 隨后便會顯示檢索條件下的所有文獻;當點開文獻后, 可以看到該論文的標題、摘要等信息。而在引文網絡中, 便可以看到參考文獻的詳細信息。當點擊該篇文章時, 可以獲取參考文獻所屬文章的URL, 通過對URL 進行解析, 可獲取參考文獻的基本信息。由于CNKI 數據庫中少量文獻存在參考文獻缺失和無法顯示的現象, 所以需要通過引文網絡中的“期刊” 字段來確定該文獻是否有參考文獻, 返回結果為True 則爬取參考文獻信息,返回結果為False 則循環結束。由于CNKI 的參考文獻只顯示10 條, 所以本文使用Len()函數來判斷是否存在下一頁參考文獻, 如不存在則終止循環, 如存在則讀取下一頁的參考文獻信息。最后,結合URL 解析出的參考文獻標題、文獻類型標志、作者、所屬期刊, 以及期刊的年、卷、期、頁等信息, 爬取特定主題下論文的參考文獻, 將其儲存在Text 文檔中。
1.2參考文獻數據文本構建
通過閱讀文獻可知, 國內外相關領域學者多使用WOS 數據庫來進行文獻共被引分析, 其重要因素為WOS 數據庫可以導出“全紀錄與參考文獻”的純文本形式, 該文本格式主要包含的因素如圖2 所示。
由圖2 可知, WOS 數據庫“全紀錄與參考文獻” 純文本格式主要包含PT(出版物類型)、AU(文獻作者)、AF(作者全名)、TI(文獻標題)、SO(出版物名稱)、DT(文獻類型)、AB(摘要)、C1(作者地址)與CR(參考文獻)等關鍵信息。正因為有了這些信息, CiteSpace 才可以對相關文獻數據進行關鍵詞分析、共被引分析等操作。當使用CiteSpace 對CNKI 數據庫文獻進行分析時, 最基本的操作是在CNKI 數據庫中選中文獻并導出Ref?works 格式。由于CiteSpace 對文獻數據名稱有特殊要求, 所以需要將導出的文獻數據命名為download_XX 的形式才可以被CiteSpace 所識別, 而后通過Data>Import/ Export→CNKI→Format Conversion 等操作對CNKI 數據進行轉換。轉換后的文本格式如圖3 所示。
由圖3可知, CNKI 數據庫下載的數據經過CiteSpace 轉換后的格式與WOS 的“全紀錄與參考文獻” 純文本數據格式基本相同, 唯一的差別是CNKI 轉換后文本的CR 為空值。產生這一現象的原因是CNKI 數據庫尚未開放參考文獻導出權限,這也就解釋了CiteSpace 無法對CNKI 數據庫導出的數據進行文獻共被引分析的原因。由此筆者斷定, 只要將CNKI 轉換后數據文本中的CR 字段按照WOS 中CR 字段的文本格式進行補全, 那么CiteSpace 便可以識別CNKI 數據文本的CR 字段,從而完成對CNKI 文本數據的共被引分析。
通過觀察WOS “全紀錄與參考文獻” 純文本格式中的CR 字段本文可以得知, 其參考文獻的基本格式為“作者、發文年份、期刊、v、p、DOI”等字段, 并且每個字段后均有1 個空格與半角符號的逗號, 而CR 字段后的參考文獻第一作者處空1個空格, 其他參考文獻作者處均空3 個空格。同時,通過使用CiteSpace 發現, 數據可視化主要展示的是對應參考文獻的作者、發文年份與期刊信息, 而后面的v、p、DOI 可以忽略不計。但為了保證CiteSpace 可以順利讀取本文添加后的數據文本格式, 本文把v、p、DOI 3 個數據設定1 個固定的內容, 即: “V6, DOI 10.1186/ s40168-018-0470-z”,CR 的最終格式確定為“作者, 發文年份, 期刊,V6, DOI 10.1186/ s40168 -018 -0470 -z”。因此,在寫入參考文獻時, 按照上述格式寫入即可。
1.3參考文獻寫入
通過前文的分析, 本文確定了參考文獻寫入的基本格式。由于每篇論文都有多條參考文獻, 并且在進行共被引分析時所需數據量巨大, 如果采取手動寫入方式, 則需要耗費大量的時間, 因而本文借助Python 自編代碼完成參考文獻的重寫與寫入。
1.3.1參考文獻重寫
在將參考文獻寫入CNKI 并轉換為文檔之前,需要對前期獲取的特定主題下相關論文的參考文獻進行拆分重寫。本文將從CNKI 上獲取的參考文獻格式設置為“[序號] 文獻主要責任者.文獻題名[文獻類型標志].連續出版物題名(其他題名信息),年,卷(期):頁碼.”, 而在進行參考文獻重寫時需要作者、期刊、年份這3 個字段。同時, 本文觀察發現上述3 個字段均以符號“.” 進行分割,因此將“作者” 定義為“Name”, 則Name 的提取方式為“Name =ref.split(‘.)[1].split(‘,)[0].strip()”; 將“年份” 定義為Year, 則Year 的提取方式為“Year = ref.split(‘.) [-1].split(‘( )[0].strip( )”; 將“期刊” 定義為“Article”, 則Article 的提取方式為“Article = ref.split(‘.)[2].strip()”。在完成上述數據的提取后, 分別獲得了文獻的“Name” “Year” 與“Article” 字段數據。最后結合前文確定的CR 格式“作者, 發文年份,期刊, V6, DOI 10.1186/ s40168-018-0470-z”, 運用“ef1=‘name+,‘+year+,‘+Article+,V6,DOI10.1186/ s40168-018-0470-z” 完成字符串拼接,從而實現Python 參考文獻自動重寫[12] 。
1.3.2參考文獻寫入
通過前文準備工作, 本文通過爬蟲程序獲取了特定主題下相關論文的參考文獻, 確定了參考文獻重寫格式并通過Python 代碼進行實現。參考文獻重寫后, 本文以文獻標題為文件名, 文件內容為參考文獻的所有參考文獻重寫后的內容, 而后通過下列代碼來讀取所有參考文獻重寫后的文獻信息并返回字典結果:
完成文本寫入后, 會生成WOS 格式的數據文本“download.CNKI”。此處需要強調的是, 該文本已經是系統可以識別的文檔, 無需再通過data-im?port-WOS-Remove Duplicates 進行文本轉換。如果進行該操作就會造成數據缺失, 從而導致實驗失敗, 所以只需將“download.CNKI” 存放到CiteSpace的data 中直接進行文獻共被引分析即可。
2中國知網文獻共被引方法實證
2.1數據來源與預處理
隨著智慧城市、智慧社區相關概念與技術的普及, 智慧醫療一詞也逐漸走入了大眾的視野。而早在2009 年, 國際商業機器公司(IBM) 就提出了“智慧地球” (Smart Planet)戰略概念, 智慧醫療成為其戰略下的六大領域之一。隨著IBM 大中華區軟件集團與IBM 中國開發中心CDL 共同宣布成立“IBM 醫療行業解決方案實驗室”, “智慧醫療” 在中國落地有了切實可行的方案和實踐。自2009 年以來, 中國智慧醫療建設投資規模也逐年遞增, 且隨著醫養護一體進程不斷加快, 構建旨在打造健康檔案區域醫療信息共享平臺的智慧醫療, 對傳統醫療生態圈在國家宏觀政策、行業信息化戰略、微觀技術變革、資源創新融合等方面都有著重要意義[13] 。智慧醫療作為一個與“互聯網+醫療健康”正加速相關的創新服務模式, 不僅僅關注于解決醫改難題, 更在一定程度上決定著“智慧城市” “健康中國” 的戰略實施。
智慧醫療的主要實現方式為通過打造全社區健康檔案的醫療信息平臺, 利用先進的物聯網技術,實現患者與醫療設備、醫療機構、醫務人員之間的互動交流, 從而逐步實現信息化資源共享, 達成更加智能的服務體系。當前, 隨著人工智能、傳感技術等高科技技術在醫療領域的廣泛應用, 國內外智慧醫療的建設水平已經逐步加深, 并在一定程度上實現了醫療服務智能化[14] , 并有望在不久的將來達到醫療服務智慧化水平, 從而從根本上解決“看病難、看病貴” 等關鍵問題, 做到真正的“人人健康, 健康人人”。新冠肺炎疫情是中華人民共和國成立以來傳播速度最快、感染范圍最廣、防控難度最大的重大突發公共衛生事件。在疫情發生的過程中, 隨著感染人數的劇增, 部分地區醫療系統幾近崩潰, 醫療資源不足、尋醫問藥困難、檢測診斷治療滯后等問題頻繁發生, 給醫療機構帶來前所未有的壓力。在傳統醫療服務模式難以滿足患者和大眾在疫情期間醫療需求的同時, 以5G 網絡、區域聯合平臺、大數據AI 技術、互聯網醫院等為代表的新興科技先后落地到疫情防控之中, 發揮了新科技優勢, 貢獻了前所未有的力量[15-17] , 這也導致了學者對“智慧醫療” 領域興趣倍增, 相關研究呈現井噴式發展。圖4 為2010—2020 年智慧醫療領域研究文獻增長圖。分析圖4 可知, 2010—2020年相關學者在“智慧醫療” 領域發文數量總體呈現上升趨勢, 說明在近5 年相關學者對該領域的關注度有增無減。尤其是新冠疫情期間, 發文量呈現直線上升趨勢, 并且研究愈發深入, 這表明當前及今后智慧醫療的相關研究結論對該領域的深入探討具有一定借鑒意義。
作為一項被管理部門和社會公眾普遍重視的議題, “智慧醫療” 在學界也擁有著一定的相關研究文獻。然而, 筆者通過文獻調研發現, 國內相關學者較少對智慧醫療領域的相關文獻進行文獻計量研究, 而對智慧醫療領域的相關文獻進行共被引分析則是少之又少。為了驗證本研究方法的實用性, 厘清智慧醫療領域的近五年的共被引情況, 本研究結合前文的研究思路, 選取CNKI 數據庫中“智慧醫療” 領域相關文獻作為實證數據, 對其進行文獻共被引分析, 厘清該領域下文獻共被引、作者共被引與期刊共被引情況, 幫助相關學者鑒別領域學科共同體與歸納相關領域的學科范式, 從而為后疫情時代的常態化疫情防控提供實現路徑的參考。
本研究選擇CNKI 期刊數據庫作為數據來源,跨庫來源選擇“期刊、碩士、博士”, 將檢索主題設置為“智慧醫療”, 檢索時間設置為2010 年1 月1 日—2020 年12 月31 日。通過上述檢索條件, 合計檢索到2 528條文獻數據, 其中學術期刊文獻數據2 242條, 碩士論文文獻數據272 條, 博士論文文獻數據14 條。將上述文獻導出為Refworks 文本格式,并使用本文提出的參考文獻重寫與寫入方法對上述數據進行預處理, 最終得到本文的研究數據。
2.2國內智慧醫療領域文獻共被引分析
圖5 顯示了CNKI 數據庫下“智慧醫療” 的文獻共被引網絡, 表1 列出了被引頻次大于20 的文獻信息。從圖5 與表1 可以得知, 在“智慧醫療”領域的研究文獻中, 相關作者更傾向于引用綜述“智慧醫療” 領域理論沿革、厘清“智慧醫療” 領域發展路徑與剖析“智慧醫療” 領域發展現狀的相關論文來進行理論綜述。如學者項高悅等[18] 撰寫的《我國智慧醫療建設的現狀及發展趨勢探究》一文被相關學者廣泛引用, 該文總結了近幾年的“智慧醫療” 領域文獻及相關研究成果, 闡述智慧醫療的概念、發展現狀, 分析智慧醫療的發展前景及存在問題, 并提出相關建議, 為智慧醫療的進一步研究提供參考。再如學者宮芳芳等[19] 撰寫的《我國智慧醫療建設初探》一文就智慧醫療的概念、主要內容、發展動態進行系統的研究探討, 指出智慧醫療建設中應注意的問題, 并對我國全面推進智慧醫療建設提出建議, 該研究也在一定程度上促進了相關領域理論研究的進一步深化。此外, 圖5 與表1 也顯示被引頻次較高的文獻多集中于2013—2016 年, 產生這一現象的原因是此時“智慧醫療”領域相關研究處于理論研究向實踐研究轉型的階段, 論文發表數量快速增長。同時, 由于前期相關理論研究已經相當充實, 其中不乏有研究視野相當前沿的論文產生, 研究視角不局限于理論研究, 慢慢向“智慧醫療大數據” “人工智能與智慧醫療”等方向邁進, 從而促使高被引現象的產生。由此可見, 2013—2016 年的相關研究為“智慧醫療” 領域的蓬勃發展提供了強大的理論基礎。
2.3國內智慧醫療領域作者共被引分析
2.4國內智慧醫療領域期刊共被引分析
學術期刊是學術傳播的重要紐帶與載體, 也是學術研究的基礎, 是發文質量的象征[23] 。圖7 顯示了CNKI 數據庫下“智慧醫療” 的期刊共被引網絡, 表3 列出了被引頻次大于50 的期刊信息。由圖7 可知, 收錄“智慧醫療” 相關研究的期刊主要集中在醫學信息、醫院管理等相關領域, 可見在此期間, “智慧醫療” 相關研究的學科交叉現象還不是很明顯, 但是該領域的相關研究已經和計算機、信息管理與數字化領域有了交叉趨勢。節點大小代表該期刊共被引次數[24] , 圖7 顯示節點最大的是《醫學信息學雜志》, 其出現頻次為191 次。這表明相比于其他醫學期刊, 《醫學信息學雜志》刊出的論文閱讀受眾面更廣, 更受廣大學者所青睞, 從側面也反映出該期刊比較傾向于收錄“智慧醫療” 領域相關文獻, 使得該期刊逐步形成了“智慧醫療” 領域研究集聚效應。如果有學者想對“智慧醫療” 領域進行縱深探索或者有興趣了解“智慧醫療” 領域前沿動態, 可優先閱讀該期刊文獻。與此同時, 《中國數字醫學》《中國醫院管理》《中國衛生信息管理雜志》《中國全科醫學》與《中國醫院》這5 本期刊的被引頻次均超過100,且其中介中心性相對較高, 也可作為讀者或學者了解“智慧醫療” 領域的優質期刊。
2.5實證研究結論
綜上所述, 2010—2020 年, 相關學者在“智慧醫療” 領域發文數量總體呈現上升趨勢, 可見國內對“智慧醫療” 的學術探索由理論研究逐步向實踐探索深化。通過運用本文提出的方法對中國知網“智慧醫療” 領域進行文獻共被引分析可獲得如下結論:
1) 通過文獻共被引分析可以發現, “智慧醫療” 領域文獻對理論探索論文引用頻次相對較高,且引用的論文發文年度多集中于2013—2016 年。可見, 國內針對“智慧醫療” 的研究仍舊處于起步階段, 且研究較多聚焦于理論探索, 針對實踐應用方面的研究有待加強。
2) 通過作者共被引分析可以發現, 聚焦于“智慧醫療” 相關研究多為醫學領域學者, 計算機領域學者也略有涉獵, 但是占比較低。如果可以促進醫學領域學者與計算機、大數據、人工智能等領域研究者深度合作, 那么該領域研究層次將會實現質的飛躍。
3) 通過期刊共被引分析可以發現, “智慧醫療” 領域研究者在文獻閱讀時更傾向于閱讀和“智慧醫療” 研究相關的醫學類期刊, 而對與“智慧醫療” 相關的技術類期刊、管理類期刊等關注度較低。這也側面反映發表在醫學類期刊上的“智慧醫療” 相關文獻研究層次更深、研究視角更廣、研究成果更加前沿, 從而吸引了大量學者閱讀與引用, 進一步促進了領域的深度發展。
通過上述的實證分析表明, 本文所提出的中國知網文獻共被引分析的方法, 不僅可以實現對中國知網文獻數據進行共被引分析, 厘清中國知網數據庫中某領域的高被引論文、高被引作者與高被引期刊, 而且也可剖析出文獻之間的聯系是否密切, 從而為相關研究者開展學術研究提供參考與借鑒。與此同時, 該方法的提出也拓寬了國內學者進行共被引分析的渠道, 創新了文獻共被引分析的研究方法, 為相關研究者提供了新的共被引分析思路。本文所研究設計的方法在提升相關研究者的研究效率、探索共被引分析的新渠道, 對更加廣泛地剖析學科知識領域發展及其研究熱點、前沿與趨勢等方面具有一定現實意義。
3總結與展望
當前, 由于CNKI 數據庫題錄數據并未包含參考文獻, 導致無法借助CiteSpace 對CNKI 文獻進行文獻共被引分析、作者共被引分析與期刊共被引分析, 一定程度上影響了基于CNKI 數據庫文獻開展文獻計量分析的效率和深度。本文從文獻共被引分析的角度出發, 對中國知網文獻共被引分析進行了探索, 創新性地通過修改數據文本格式來實現中國知網文獻的共被引分析。針對數據獲取與文獻清洗的復雜性工作, 本文采用Python 代碼實現參考文獻數據格式重寫和寫入的快速處理, 極大提高了研究效率, 為學者基于共被引分析剖析其他學術領域研究現狀提供了新思路。該方法核心步驟包括:
①運用Python 自編爬蟲程序自動獲取了中國知網“智慧醫療” 領域文獻的參考文獻, 并將其寫入text 文檔中; ②通過將WOS 數據庫與中國知網數據庫下載的數據文本格式進行對比, 提取文本特征, 構建CiteSpace 可識別的參考文獻格式; ③通過自編Python 代碼對中國知網下載的數據進行批量重寫, 并將重寫后的數據批量寫入到通過CiteSpace 轉換后的Refwork 格式文檔中, 實現了基于CiteSpace 的中國知網文獻共被引分析。以國內“智慧醫療” 領域文獻數據的實證分析驗證了本文所提出方法的適用性, 提供了基于CNKI 文獻數據開展文獻共被引分析的渠道。
需要說明的是, 由于CNKI 數據庫存在反爬機制, 導致采用本方法獲取參考文獻時需要使用手動更新URL, 與從CSSCI 數據庫與WOS 數據庫快速實現數據導出相比具有一定的工作量要求, 數據搜集的效率仍然有待提高。同時, 由于CNKI 中某些文獻的引文網絡中沒有參考文獻字段, 導致無法基于自編程序獲取該文獻的參考文獻, 從而使得該文獻無法進行分析, 存在數據缺失現象。后續研究將優化數據獲取算法, 提高數據搜集效率, 思考更加自動化的獲取參考文獻方式, 從而提高研究效率;同時探索更加合理的參考文獻獲取方式, 避免數據缺失的現象發生。