陳瓊 朱慶華 閔華 劉周穎















作者簡介:陳瓊(1998-),女,碩士,研究方向:網絡信息資源管理。朱慶華(1963-),男,教授,博士生導師,研究方向:網絡信息資源管理,用戶信息行為。閔華(1969-),女,副教授,研究方向:語義網、健康信息學。 劉周穎(1994-),女,博士研究生,研究方向:網絡信息資源管理、社會化媒體。
摘 要:[目的/意義]為了更加精準地探究學科交叉規律,本研究構建一個基于領域主題的學科交叉特征識別框架以識別學科交叉主題、交叉態勢以及交叉結構。[方法/過程]對WOS數據庫中醫學信息學領域2000—2020年發表的45 546篇文獻進行實證研究,首先基于LDA主題模型劃分領域主題,然后引入Div指標分析比較學科交叉態勢,最后構建學科共現網絡并結合中介中心性分析學科邊緣—核心子群結構。[結果/結論]本研究共劃分9個子主題,分別為心臟信號傳感系統、電子健康技術、電子病歷系統、健康app和使用行為、醫療護理電子系統、隨機治療實驗、圖像分割和聚類、基于機器學習的特征識別以及癌癥治療風險評估,其中前5個主題的學科交叉程度在近5年呈現波動上升的趨勢;學科結構方面,交叉程度較深的主題大多以工程學和計算機科學為核心學科。本研究有助于科研管理部門以及科研人員制定相關政策、優化資源配置、識別學科前沿等。[局限]由于早期期刊文獻引文信息不全面,一定程度上會影響學科交叉程度計算的精確度。
關鍵詞:學科交叉;領域主題;LDA模型;特征;識別;醫學信息學
DOI:10.3969/j.issn.1008-0821.2022.04.002
〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821(2022)04-0011-14
Abstract:[Purpose/Signficance]In order to explore the interdisciplinary rule more accurately,the study constructs a framework to recognize the interdisciplinary features based on domain topics,which helps to identify interdisciplinary topics,interdisciplinary situation and interdisciplinary structure.[Method/Process]45546 articles in the field of medical informatics in WOS database from 2000—2020 were used for empirical research.Firstly,domain topics were divided based on LDA topic model.Then,Div index was introduced to compare and analyze the interdisciplinary situation.Finally,the disciplinary edge-core subgroup structure was analysed based on co-occurrence network and betweeness centrality.[Result/Conclusion]There are nine sub topics divided,including heart signal sensing system,electronic health technology,electronic medical record system,health app and use behavior,medical care electronic system,randomized treatment experiment,image segmentation and clustering,feature recognition based on machine learning,and cancer treatment risk assessment.Among them,the interdisciplinary degree of the first five subjects shows a fluctuating upward trend in recent five years;In terms of discipline structure,engineering and computer science are the core subjects with deep interdisciplinary degree.This study is helpful for scientific research administrations and researchers to formulate relevant policies,optimize resource allocation,and identify the frontier of disciplines.[Limitations]Due to the incomplete citation information of early journals,the accuracy of interdisciplinary degree calculation would be affected to a certain extent.
Key words:interdisciplinary;domain topic;features;recognize;LDA models;medical informatics
隨著大科學時代的到來,“交叉”已經成為現今科學發展的關鍵詞。自20世紀中后期,學科間的交叉融合活動越來越頻繁,不斷碰撞衍生出新的學科,形成錯綜復雜的學科網絡。目前,在5 500多個較為成熟的學科領域中,有近一半的學科具有交叉融合的特征[1],例如生物化學、人工智能、生態經濟學等。
學科間的交叉融合既是知識發展、技術創新的重要源泉,也是人類社會實踐的迫切需求。一方面,學科交叉點往往可能就是新的科學生長點、新的科學前沿,最有可能產生重大的科學突破,使科學發生革命性的變化[2],如DNA雙螺旋結構、人類基因組測序、載人空間飛行等重大科研成就都是學科間合作的成果;另一方面,人類社會中許多復雜重大的問題已經無法在單一學科的研究范式和思維模式下解決,多學科交叉合作大勢所趨。學界與產業界積極呼吁不同學科領域間的知識共享和協作,交叉科學研究(Interdisciplinary Research,IDR)應運而生。
在此背景下,教育部、財政部和國家發改委提出“雙一流”高校要積極創新學科組織模式,促進基礎學科之間的交叉融合,組建學科聯盟,搭建學科交流平臺[3]。北京大學、南方科技大學、北京理工大學等多所高校先后成立前沿交叉科學研究院,致力打造一流的多學科交叉融合學術發展平臺。2019年,國家自然科學基金申請中增設了“共性導向、交叉融通”類科學問題屬性[4],鼓勵發展具有學科交叉背景的研究項目。2020年11月,國家自然科學基金委員會正式成立交叉科學部,負責統籌國家自然科學基金交叉科學領域整體資助等工作[5],進一步推動學科間交流、打破學科壁壘、促進學科創新。學科設置方面,2021年教育部宣布“交叉學科”成為第14個學科門類[6],強調經濟社會發展對高層次復合型人才的迫切需求,學科交叉深度融合勢不可擋。
目前,學科交叉活動已經廣泛深入到各個研究領域,大數據背景下學科交叉方式朝著多樣化、大跨度和深層次的方向發展。識別學科交叉特征,即探索學科間的交叉規律,宏觀上是學科交叉的形成和發展態勢,從國家、機構等維度對未來學科發展趨勢進行把控;微觀上則是從主題粒度甚至是篇章粒度識別學科交叉點,探索學科重點發展方向。探索學科間的交叉規律、認識學科交叉知識形成和發展過程、識別學科交叉點對于交叉科學研究有著重要的意義。科學計量視角下的交叉科學研究多屬于信息科學和圖書館學領域,近年來成為圖書情報領域十分重要的研究方向[7],主要包括交叉科學測度指標、交叉科學研究評價、交叉科學可視化研究等方面。目前,圖書情報領域的交叉科學研究主要存在以下幾個問題:研究維度上,主要側重于關注學科交叉的演化態勢,從整體學科的層面探究學科交叉結構變化以及國家機構特征,而基于微觀層面的交叉特征研究還較少[7];數據來源上,現有學科交叉主題研究中涉及的數據量較小,不利于識別真正的學科增長點;研究方法上,已有研究以關鍵詞分析和單一的測度指標為主,在交叉特征識別上不夠準確;研究內容上,交叉主題的研究還不夠深入,缺乏進一步對主題進行交叉態勢分析。因此,本研究提出基于領域主題的學科交叉特征識別的研究方法,結合LDA主題模型、社會網絡分析、引文分析等研究方法,在引文內容的基礎上構建基于領域主題的學科交叉特征識別研究框架,并以醫學信息學領域為例,識別學科交叉主題、交叉態勢以及交叉結構。
1 國內外研究現狀
1.1 學科交叉測度指標
學科交叉測度指標可以分為兩大類——多樣性指標和凝聚性指標[7],前者主要是從學科的豐富性、平衡性和差異性衡量學科交叉程度,后者則是基于社會網絡分析的方法衡量學科交叉融合的緊密程度。已有研究中所使用的學科交叉測度指標如表1所示。
雖然研究人員意識到學科交叉測度難以利用單一的標準進行客觀的評價,需要嘗試融合多指標進行研究,但現有研究中多指標融合傾向在同一維度內進行,少有研究考慮結合多樣性和凝聚性不同維度的指標進行研究。少數的綜合性指標,如全局Φ指標的使用較少[19],科學性也有待進一步考證。另外,現有的學科交叉測度指標更多是用于宏觀層面學科交叉演化過程,但在微觀主題的研究中,尤其是不同主題交叉程度的比較上,可行性和有效性尚未得到充分的驗證。因此,本研究試圖引入新的學科交叉測度指標,并基于多維指標構建基于領域主題的學科交叉特征識別的研究框架,為學科交叉特征研究提供新的思路。
1.2 學科交叉主題識別
學科交叉主題主要是指學科交叉程度較強的研究主題,學科交叉主題往往可能是研究前沿或知識生長點,因此,識別學科交叉主題是交叉科學研究中的一個關鍵問題。現有學科交叉研究中主要是從宏觀層面分析學科交叉態勢,針對微觀層面下學科交叉主題的識別和態勢分析還較少。已有研究中主要是基于關鍵詞、引文分析以及文本挖掘3個視角進行學科交叉主題的識別。
1)基于關鍵詞的學科交叉主題識別
關鍵詞是知識組成的基本單元,是反映文獻主題并進行學科知識分析的最直接、便捷的方式。通過分析學科間關鍵詞的交叉情況,不僅能夠快速了解學科交叉的發展,而且可以提取具體的交叉內容[20]。閔超等基于關鍵詞共現進行聚類分析提取研究主題,并引入戰略坐標圖探討了學科交叉研究主題的內在聯系和發展脈絡[21]。李長玲等基于關鍵詞圍繞學科交叉主題進行一系列相關的研究,先后通過重疊社群網絡的可視化分析、關鍵詞共現矩陣以及時序關鍵詞聚類分析等方法識別交叉主題[22-24]。杜德慧等對跨學科參考文獻的關鍵詞進行分析,構建學科相關新穎性指數,計算跨學科引文關鍵詞與目標學科的新穎且相關程度,識別與目標學科具有較大合作潛力的跨學科知識[25]。Xu H等提出TI指標來挖掘學科交叉主題,并以圖書情報學為例驗證TI值和Bet值能夠很好地識別外部學科和內部主題的交集[26]。Dong K等綜合共現網絡分析、高TI術語分析和突發監測等研究方法,從多維角度識別圖書情報學領域的學科交叉主題,以期獲得更為全面和準確的結果[27]。整體來看,關鍵詞共現網絡是現有學科交叉主題研究中較為常用的研究方法,在此基礎上結合社會網絡分析、時序分析、聚類分析、多維尺度分析等方法展開研究。
2)基于引文分析的學科交叉主題識別
引文分析通常是指基于文獻間的引用關系,包括縱向繼承的引用/被引關系、橫向聯系的共引/共被引關系來構建相應的引文網絡。基于學科的引文網絡可以識別學科結構、主題子群、核心節點、橋梁節點等關鍵知識節點,并結合測度指標來識別學科交叉主題。除了文獻間的引用關系,不同學科間互引網絡的共同研究內容也可以代表跨學科交叉研究主題[28]。因此,引文分析方法也可用于學科交叉主題識別的研究。Chi R等基于共被引網絡分析,進行探索性網絡分析和內容分析,識別研究主題的發展以及相互之間的關系[29]。Rafols I等以生物納米科學領域為例,構建文獻耦合網絡,結合多樣性和連貫性分析學科交叉主題的出現和擴散[16]。章成志等從引文內容的視角分析學科交叉類別、檢測多學科交叉現象,對改進傳統的學科多樣性測度具有重要參考價值[43-44]。相較于文獻計量學的其他研究領域,引文分析在學科交叉主題識別中應用較少,主要原因可能是引文分析具有一定滯后性,無法及時準確地識別新興的學科生長點。
3)基于文本挖掘的學科交叉主題識別
隨著文本挖掘技術的興起,研究人員開始關注文本挖掘算法在學科交叉知識發現上的應用,綜合考慮語法、語義信息的運用。商憲麗基于多模主題網絡,構建學科—對象—方法三模網絡,識別交叉學科知識組合模式[30]。韓正琪等使用Rao-Stirling指標篩選學科交叉文獻,再基于LDA主題模型識別學科交叉主題[31]。張斌結合LDA模型和桑基圖,對管理信息系統學科及相關的基礎學科進行主題劃分,并對主題詞進行共現分析學科之間的關系[32]。Raimbault J將語義分析與引文網絡相結合,構建地理學領域的大規模數據集揭示學科交叉主題[33]。基于文本挖掘的學科交叉知識發現將成為未來交叉科學研究的趨勢,在數據來源、數據規模、識別準確性等方面存在更為廣闊的應用空間。
2 研究設計
LDA主題模型是一種文檔主題生成模型,該模型算法基于概率主題分布的方法進行文本語義分析并從中抽取出有價值的潛在主題信息[34]。LDA主題模型假設存在一組潛在的主題,每個主題由不同出現概率的主題詞組成,每篇文章也是由不同主題根據不同概率所組合而成[35]。LDA主題模型在大規模語料識別和潛在隱藏主題發現上存在一定的優勢,例如一個主題詞可以出現在多個主題中,基于摘要或全文而不僅僅是關鍵詞等,一定程度上彌補了關鍵詞分析和引文分析方法的不足,能夠實現內容主題層面的文獻數據分析和影響力評價。因此,本研究采用LDA主題模型對醫學信息學領域主題進行劃分。
針對前人研究的不足,本研究提出基于領域主題的學科交叉特征識別研究框架,主要分為3個階段,如圖1所示。首先,從WOS數據庫篩選文獻,進行數據清洗并構建語料庫,利用LDA對醫學信息學領域進行主題劃分。然后,使用引文分析方法構建文獻—參考文獻學科類別文獻矩陣,利用Div等學科交叉多樣性指標對各主題的學科交叉程度進行探測,利用時序性分析方法對各個領域主題的學科交叉態勢和未來發展進行展望。最后,使用Gephi軟件繪制各領域主題的學科共現網絡,使用Louvain聚類算法進行學科子群的分類,基于中介中心性等凝聚性指標識別核心學科子群和邊緣學科子群,探索各領域主題的學科交叉結構。
2.1 數據來源與處理
醫學信息學是聚焦于對醫學信息的處理、實踐與教育的一門交叉學科,它所涉及的學科范圍較廣,學科交叉程度較高,且交叉對象較為復雜,學科前沿與學科交叉主題的關系更為密切,因此了解不同領域主題下的學科交叉特征更有利于相關從業人員、研究者更好地把握研究動態、選擇研究方向并進行有效的資源配置。本研究以醫學信息學領域英文文獻為研究對象,選擇Web of Science(WOS)核心數據集作為來源數據庫,設定學科類別為醫學信息學,即“WC=medical informatics”為檢索式進行檢索,設定文獻類型為論文(Article),檢索年限為2000—2020年,實施檢索得到45 546條數據。從WOS下載所有相關文獻的全記錄信息,包括論文檢索號、標題、摘要、關鍵詞、參考文獻、作者、來源期刊等信息。為了對醫學信息學領域中具有一定代表性的研究性文獻進行學科交叉性研究,筆者對文獻進行自動篩選。首先剔除沒有摘要、參考文獻不完整或參考文獻數量較少的文獻,共3 350篇;然后筆者又刪去被引次數為0和1的文獻,共7 653篇。通過篩選,最終確定34 543篇文獻題錄數據作為研究數據集。
目前,構建文本語料庫的形式包括關鍵詞、摘要、標題+摘要、關鍵詞+摘要等。傳統的共詞分詞方法多使用關鍵詞作為語料,而在主題模型的實踐中,許多研究選擇的是摘要、標題+摘要的形式,相較于關鍵詞,摘要和標題融合下所提取的主題準確度較高、語義信息混亂程度較低且主題粒度較細[40]。因此,本研究通過抽取文獻題錄數據中的標題和摘要,并將這兩個字段合并作為文獻內容字段,經過一系列數據預處理操作生成文本語料。數據預處理主要分為3個步驟:第一步,對文本內容進行分詞;第二步,去除停用詞,本研究使用的停用詞表除一般的英文停用詞表外,還融入了馮佳針對醫學信息學文本選取的停用詞表[40],在剔除停用詞的基礎上過濾掉文本中的標點符號、語氣助詞、副詞、介詞等沒有實際含義的詞匯;第三步,通過Python語言中的Porter Stemmer包進行詞形歸并和詞根提取,最終生成包含65 477個詞匯的語料庫。
2.2 Div交叉測度指標
Stirling A認為,學科交叉多樣性測度主要包括3個特征:豐富性(Variety)、平衡性(Balance)和差異性(Disparity)[36]。為了能夠更加清晰地描繪學科交叉特征,學者們通常將這3種特征融合在一起,如廣泛使用的學科交叉測度指標Rao-Stirling[12]。Rao-Stirling指標使用辛普森指數(Simpson Index)將豐富性和平衡性結合在一起,然后再融入代表差異性的學科相似度。研究人員開始意識到Rao-Stirling指標并不夠準確,利用辛普森指數來替代豐富性和平衡性可能會影響這兩個指標在最終結果中的權重,平衡性通常在計算過程中被弱化了甚至根本不存在[37]。因此,Leydesdorff L等提出將多樣性、平衡性以及差異性獨立開來再互相融合的測度指標Div交叉測度指標[38],該指標被初步運用在期刊層面的學科交叉測度。并且實證研究發現,相較于Rao-Stirling指標,它能夠更加準確全面地反映學科交叉特征。本研究借鑒這一思想,將其運用于領域主題的學科交叉測度并試圖驗證該指標的可行性。Div計算公式如下所示:
n表示該主題所屬的學科數量,N表示學科總數量,Re_Variety表示相對多樣性;Gini_Co即基尼系數,用于衡量平衡性,xi表示學科i出現的次數,基尼系數越大說明該主題文獻的學科分布越不平衡,因此,1-Gini_Co可以體現該主題的平衡性;dij表示學科間的距離,本文采用余弦相似度來表示學科間的距離。
2.3 學科邊緣—核心子群分析
本研究將基于學科共現網絡進行學科交叉結構
的分析,識別學科邊緣—核心子群。通過Louvain聚類算法對學科共現網絡進行聚類分析,劃分學科子群。Louvain聚類算法是一個包含兩階段的反復迭代過程[39],它在計算時間和準確性上都有良好的表現。目前,它已經廣泛用于知識科學分析,著名知識圖譜軟件Gephi與Pajek都是基于此算法對網絡進行社團劃分;另外,它基于模塊度的自我優化過程不需要提前確立聚類的數量,可以避免由于主觀設立聚類數量而帶來的誤差。根據Blondel V D等的研究,該算法的有效性在于模塊度的增加ΔQ是可以通過將孤立節點不斷合并入其他的社區得到的[39],其計算公式如下:
在劃分學科子群的基礎上,再結合中介中心性指標識別核心學科、邊緣學科、核心學科子群以及邊緣學科子群。中介中心性的計算方式如表1所示,在學科共現網絡中,中介中心性較強的學科可以劃分為核心學科,包含較多核心學科的學科子群可以劃分為核心學科子群。
3 基于LDA主題模型的領域主題劃分
本研究采用LDA主題模型抽取醫學信息學領域潛在的主題分布,其中劃分的主題數量K是決定LDA主題模型質量的關鍵參數。困惑度是對概率模型預測樣本的量化評估,能夠作為評估LDA主題模型的量化指標,以幫助確定最有的K值[45]。初步設定選取20以內的主題數量,設定K值從1開始取值,步長為1,進行反復運算,并繪制困惑度的變化曲線,如圖2所示。如圖中曲線所示,當K值為9時,模型的困惑度處于極小值,且K值隨后波動開始明顯變小,因此,本文確定最終的主題數量K為9個。隨后對語料庫進行LDA主題建模,主題抽取結果如表2所示。本研究列舉每個主題下概率最高的10個詞匯,以描繪各主題內容。
最后,需要根據提取的主題進行文獻的分類,Mann G S等認為,如果一篇文獻中超過10%的概率是由某一主題生成的,則認為這篇文獻屬于該主題,基于次構建文獻和主題之間的映射,將一個主題和一組文獻構建關系[41]。因此,本文設定0.1的閾值,即如果一篇文獻由某一主題生成的概率不小于0.1,則認為這篇文獻屬于該主題。
4 數據分析
4.1 基于多樣性維度的學科交叉態勢分析
本研究基于引文分析進行學科交叉主題的識別。對初始數據源中的參考文獻進行學科分類,需要將參考文獻依據其期刊簡稱映射到相應的學科上。首先,從JCR下載1997—2019年的期刊簡稱和期刊全稱對照表,基于該表將參考文獻所屬的期刊簡稱轉化為全稱;然后在WOS Group網站下載2020年更新的期刊—學科類別映射表,基于此表可以將轉換為全稱的期刊名稱投射到其所屬的WOS學科類目中。但是,僅僅依靠上述方法無法將一部分已經被JCR剔除、停止出版以及書寫不規范的期刊和會議簡稱進行轉換,因此,本研究還利用爬蟲技術,將這部分期刊和會議簡稱通過WOS的期刊名稱檢索功能,爬取其所屬的相應的WOS學科類目。得到初始數據源中發表在被WOS收錄的期刊上的、有期刊—學科映射關系的有效數據為864 970條。統計每個學科類目下的文獻數量用于進行醫學信息學學科交叉性分析,考慮到JCR中部分期刊被歸屬到多個學科類目,發表在這些期刊上的文獻在其所對應的所有學科分類上均有計數,表3為參考文獻—學科類別映射表。
基于Python構建醫學信息學領域文獻引文學科分布矩陣,本研究利用R語言編寫程序語言,利用Chavarro D等所構建的WOS學科類別相似矩陣[42],計算醫學信息學領域各主題的相對多樣性、基尼指數、信息熵、差異性、Rao-Stirling指數和Div指數,表4為計算結果。經計算,Div指數和Rao-Stirling指數的相關性系數為0.96(p<0.001),因此,Div指數可以有效刻畫領域主題的學科交叉程度。如表4所示,主題3(心臟信號傳感系統)、主題8(基于機器學習的特征識別)、主題6(圖像分割和聚類)以及主題5(電子健康技術)的學科交叉程度較高,可被視為醫學信息學領域的學科交叉主題。
針對各個主題近10年(2010—2019)的文獻,計算每一年的學科交叉測度指標Div以研究學科交叉發展態勢,結果如圖3所示。總體來看,醫學信息學的學科交叉程度呈隨時間上升的趨勢,但具體來看,不同主題的上升窗口期不盡相同。主題3(心臟信號傳感系統)、主題5(電子健康技術)、主題7(電子病歷系統)、主題4(健康App和使用行為)、主題2(醫療護理電子系統)的學科交叉程度在近5年呈現波動上升的趨勢,而同時段主題1(隨機治療實驗)、主題9(癌癥治療風險評估)、主題8(基于機器學習的特征識別)、主題6(圖像分割和聚類)的學科交叉程度都已經趨向平緩。學科交叉程度的不斷增長表明該主題受到研究學者的廣泛關注,更多研究領域被引入,推動該主題進一步發展,是潛在的學科熱點和前沿主題;而當學科交叉程度趨向平緩,說明該主題的研究逐漸成熟,選擇的跨學科合作對象種類和研究路徑趨于穩定,形成了較為完善的研究體系。
4.2 基于凝聚性維度的學科交叉結構分析
基于各個主題的文獻—參考文獻學科類別矩陣,將其轉換為學科共現矩陣,計算兩兩學科在同一文獻中同時出現的次數,然后將矩陣導入Gephi軟件進行繪圖,利用Louvain聚類算法進行聚類分析,劃分為不同的學科群體。為了更加清晰地展示聚類結果以及該主題下的核心學科,本研究根據邊的權重以及節點的加權度,過濾掉權重較低的節點和邊,同時依據中介中心性大小設定節點大小繪制學科共現網絡,主題進行學科群體劃分的結果如圖4~圖12所示,然后再通過計算各個節點的中介中心性評價各個學科在該主題的影響程度,表5~表13展示了每個主題的中介中心性TOP5的學科信息。
1)主題1:隨機治療實驗
學科群體①——以公共衛生、環境衛生與職業衛生、醫學信息學、衛生保健及服務等醫學學科為主;學科群體②——以計算機信息系統、計算機交叉科學等計算機學科為主;學科群體③——以精神病學、心理學、兒科等學科為主。雖然學科群體①包含的學科數量是最少的(21.7%),但是從圖4可以看出學科群體①所包含的核心學科是最多的,是該主題的核心學科子群,相較而言,學科群體②(49.06%)和學科群體③(29.25%)所包含的學科數量較多,其中的核心學科數量卻較少,是該主題的邊緣學科子群。該主題的學科交叉程度較弱,個別核心學科控制了整個學科群體中學科之間的交流。
2)主題2:醫療護理電子系統
主題2可以劃分為3個學科群體,分別為學科群體①——以計算機交叉科學、計算機信息系統、電子電氣學等與計算機科學和工程學相關的學科組成;學科群體②——以醫學信息學、健康護理學等醫學相關學科組成;學科群體③——以醫學研究與實驗、外科學等相關學科組成。學科群體①和學科群體②都屬于本主題的核心學科子群,存在重大影響力的學科很多,節點間的聯系也更為緊密,交叉學科程度和豐富度都很明顯,尤其是學科群體①和②之間的聯系非常緊密,這體現出醫療護理電子系統主題下學者們主要利用計算機和工程學技術來解決醫學信息學的相關問題。
3)主題3:心臟信號傳感系統
主題3可以劃分為:學科群體①——以計算機交叉科學、數學與計算生物學、電子與電氣等計算機科學與工程學相關學科組成;學科群體②——以普內科、神經學、心臟和心臟系統學等學科組成;學科群體③——多學科交叉科學和醫學實驗與研究等學科組成。整體上看,每個學科群體中都存在中介中心性很強的學科,相較而言,學科群體①包含的核心學科數量最多,體現了該主題中計算機科學和工程學的重要地位。同時,該主題中多學科交叉科學也處在很重要的位置,體現了該主題多學科融合性。與其他主題不同的是,該主題下各學科中介中心性值沒有特別高的,排名前5的學科的中介中心度都比較均衡,這體現了“心臟信號傳感系統”主題中學科互相融合、互相衍生的特征。
4)主題4:健康App和使用行為
可以分為3個學科群體,學科群體①——以健康服務、健康政策以及公共健康等為主;學科群體②——主要包括外科、神經科學;學科群體③——以計算機信息系統和交叉學科為主。學科群體①為核心學科子群,節點的內外部連線都非常豐富,而學科群體②和學科群體③的內部連接較少,大多是依附于學科群體①。另外,該主題中介中心性排名前5的學科都屬于醫學大類,這體現了該主題下對其他非醫學類學科的融合較弱。
5)主題5:電子健康技術
學科子群①和學科子群②為核心學科,學科子群①中除了醫學信息學、衛生護理和服務等醫學學科,還融入了管理學、運籌管理科學、商業等社會學相關學科;學科子群②以工程學學科和計算機學科為主。學科子群①和學科子群②之間交流十分緊密,體現了該主題學科合作緊密,學科應用廣泛的特征。
6)主題6:圖像分割和聚類
學科子群①——以計算機信息系統、計算機交叉學科、電子電氣工程、生物工程等工程計算機學科為主;學科子群②——以醫學信息學、普內科等醫學相關學科為主;學科子群③——以生物化學、生物工程等生物學相關學科為主。每個學科子群都有影響程度較大的學科子群,整體而言,核心學科數量較多,分布較為均勻,學科交叉結構比較豐富。
7)主題7:電子病歷系統
學科子群①——以醫學信息學、衛生護理和服務等學科為主,另外,圖書情報學科也處在核心學科的位置;學科子群②——邊緣學科子群,主要以管理學為主;學科子群③——核心學科數量最多,主要是計算機科學和工程學相關學科。該主題下計算機學科和工程類學科的影響顯著,尤其是與計算機科學相關的理論和方法在該主題的相關研究中被廣泛使用。
8)主題8:基于機器學習的特征識別
學科子群①——以計算機科學和工程學相關學科為主,還包括一些計算機和醫學生物學的交叉學科,是數量最多、影響最大的學科子群;學科子群②——主要包括普內科等醫學學科;學科子群③——主要是生物學相關的交叉學科;學科子群④——則是以神經科學為主。該主題主要是以計算機學科和工程學學科知識為主導,研究其在各種醫學、生物學領域的作用。
9)主題9:癌癥治療風險評估
學科子群①——以醫學信息學、統計學與概率論、生物學為主;學科子群②——以計算機交叉科學、交叉科學、生物工程等學科為主;學科子群③——以普內科、衛生護理和服務以及健康政策和服務相關學科有關。該主題相關研究還是以醫學學科為主,各學科子群中都存在醫學、生物學相關的學科。
5 結 語
隨著科學研究逐漸轉向基于數據密集型的第四范式,學術研究的知識發現模式也在不斷革新,越尖端、前沿的研究越需要突破單一學科的限制,多學科交叉的研究范式受到學者們的廣泛關注。學科合作與交流有助于拓寬現有的學科研究邊界,提出創新性的研究問題,提供更多元的理論基礎和視角。
本研究在梳理前人研究的基礎上,提出基于領域主題的學科交叉特征識別方法。研究維度上,目前圖書情報領域的交叉科學研究主要側重于關注學科交叉的演化態勢,而基于微觀層面的交叉特征研究還較少[7],本研究著眼于學科交叉研究的微觀層面,補充相關研究的空白;數據來源上,現有學科交叉主題研究中涉及的數據量較小,不利于識別真正的學科增長點,本研究獲取的數據量相較而言較為全面、翔實,能夠提供有利的數據支撐;研究方法上,綜合考慮學科交叉測度的多樣性和凝聚性維度,分為學科交叉態勢分析和學科交叉結構兩階段,能夠更加全面地識別學科交叉特征,彌補過去研究中單一維度的不足;研究內容上,深入學科交叉主題的態勢分析,試圖解決以往研究中對學科交叉點不夠深入的問題。
在學科交叉態勢分析上,本研究引入Div學科交叉測度指標以解決Rao-Stirling指標的不足,并通過實證研究證明其在領域主題層面的學科交叉測度的可行性。基于Div指標的時序性分析,發現主題3(心臟信號傳感系統)、主題5(電子健康技術)、主題7(電子病歷系統)、主題4(健康App和使用行為)、主題2(醫療護理電子系統)的學科交叉程度在近5年呈現波動上升的趨勢,可能為醫學信息學領域未來的研究熱點和潛在的研究前沿。在學科交叉結構分析上,繪制學科共現網絡,使用Louvain聚類算法劃分學科子群并結合中介中心性測度指標分析不同主題的學科交叉結構,幫助研究人員進一步把握不同主題的學科交叉動態。
本研究存在一定局限性,基于引文信息構建參考文獻—學科類別映射表存在一定誤差,年份較早的期刊文獻可能不在WOS期刊映射表,可能會導致早期期刊文獻的學科交叉程度計算偏小,未來研究可以考慮在引文信息基礎上再融合期刊信息進行學科類別映射;在學科交叉結構分析上缺乏對動態結構的分析,未來研究可以進一步從不同角度完善該研究框架;另外,微觀層面的學科交叉研究不局限于領域主題,未來研究可以在本研究基礎上繼續聚焦更加細粒度的交叉特征識別。
參考文獻
[1]光明網.設置交叉學科:打破科學割據,作徹底聯合的努力[EB/OL].https://news.gmw.cn/2021-02/27/content_34647253.htm,2021-05-01.
[2]路甬祥.學科交叉與交叉科學的意義[J].中國科學院院刊,2005,(1):58-60.
[3]中華人民共和國中央人民政府.三部門印發《關于高等學校加快“雙一流”建設的指導意見》的通知[EB/OL].http://www.gov.cn/xinwen/2018-08/27/content_5316809.htm,2021-05-01.
[4]國家自然科學基金委員會.關于2019年度國家自然科學基金項目申請與結題等有關事項的通告[EB/OL].http://nsfc.gov.cn/publish/portal0/tab434/info74695.htm,2021-05-01.
[5]國家自然科學基金委員會.學部簡介[EB/OL].http://dids.nsfc.gov.cn/index.html,2021-05-01.
[6]中華人民共和國中央人民政府.國務院學位委員會 教育部關于設置“交叉學科”門類、“集成電路科學與工程”和“國家安全學”一級學科的通知[EB/OL].http://www.moe.gov.cn/srcsite/A22/yjss_xwgl/xwgl_xwsy/202101/t20210113_509633.html,2021-05-01.
[7]顧秀麗,黃穎,孫蓓蓓,等.圖書情報領域中的交叉科學研究:進展與展望[J].情報學報,2020,39(5):478-491.
[8]Shannon C E.A Mathematical Theory of Communication[J].Bell System Technical Journal,1948,27(3):379-423.
[9]侯海燕,王亞杰,梁國強,等.基于期刊學科分類的學科交叉特征識別方法——以生物醫學工程領域為例[J].中國科技期刊研究,2017,28(4):350-357.
[10]Brillouin L,Hellwarth R W.Science and Information Theory[J].Physics Today,1956,9(12):39-40.
[11]Porter A L,Chubin D E.An Indicator of Cross-disciplinary Research[J].Scientometrics,1985,8(3):161-176.
[12]Stirling A.A General Framework for Analysing Diversity in Science,Technology and Society[J].Journal of the Royal Society Interface,2007,4(15):707-719.
[13]Zhang L,Rousseau R,Glnzel W.Diversity of References as an Indicator of the Interdisciplinarity of Journals:Taking Similarity Between Subject Fields Into Account[J].Journal of the Association for Information Science and Technology,2016,67(5):1257-1265.
[14]Leydesdorff L.On the Normalization and Visualization of Author Co-citation Data:Saltons Cosine Versus the Jaccard Index[J].Journal of the American Society for Information Science and Technology,2008,59(1):77-85.
[15]曾德明,于英杰,文金艷,等.基于Web of Science分類的學科交叉融合演化特征分析[J].情報學報,2020,39(8):872-884.
[16]Rafols I,Meyer M.Diversity and Network Coherence as Indicators of Interdisciplinarity:Case Studies in Bionanoscience[J].Scientometrics,2010,82(2):263-287.
[17]李長玲,紀雪梅,支嶺.基于E-I指數的學科交叉程度分析——以情報學等5個學科為例[J].圖書情報工作,2011,55(16):33-36.
[18]Freeman L C.Centrality in Social Networks Conceptual Clarification[J].Social Networks,1978,1(3):215-239.
[19]陳賽君,陳智高.領域交叉性分析指標與方法新探及其實證研究[J].情報學報,2013,32(11):1184-1195.
[20]李亞婷.圖書情報學的學科交叉研究進展[J].情報科學,2017,35(11):156-160,171.
[21]閔超,孫建軍.學科交叉研究熱點聚類分析——以國內圖書情報學和新聞傳播學為例[J].圖書情報工作,2014,58(1):109-116.
[22]李長玲,劉非凡,郭鳳嬌.運用重疊社群可視化軟件CFinder分析學科交叉研究主題——以情報學和計算機科學為例[J].圖書情報工作,2013,57(7):75-80.
[23]李長玲,郭鳳嬌,支嶺.基于SNA的學科交叉研究主題分析——以情報學與計算機科學為例[J].情報科學,2014,32(12):61-66.
[24]李長玲,郭鳳嬌,魏緒秋.基于時序關鍵詞的學科交叉研究主題分析——以情報學與計算機科學為例[J].情報資料工作,2014,(6):44-48.
[25]杜德慧,李長玲,相富鐘,等.基于引文關鍵詞的跨學科相關知識發現方法探討[J].情報雜志,2020,39(9):189-194.
[26]Xu H,Guo T,Yue Z,et al.Interdisciplinary Topics of Information Science:A Study Based on the Terms Interdisciplinarity Index Series[J].Scientometrics,2016,106(2):583-601.
[27]Dong K,Xu H,Luo R,et al.An Integrated Method for Interdisciplinary Topic Identification and Prediction:A Case Study on Information Science and Library Science[J].Scientometrics,2018,115(2):849-868.
[28]李長玲,高峰,牌艷欣.試論跨學科潛在知識生長點及其識別方法[J/OL].科學學研究:1-14[2021-03-01].https://doi.org/10.16192/j.cnki.1003-2053.20200828.003.
[29]Chi R,Young J.The Interdisciplinary Structure of Research on Intercultural Relations:A Co-citation Network Analysis Study[J].Scientometrics,2013,96(1):147-171.
[30]商憲麗.基于多模主題網絡的交叉學科知識組合模式研究——以數字圖書館為例[J].情報科學,2018,36(3):130-137,150.
[31]韓正琪,劉小平,寇晶晶.基于Rao-Stirling指數和LDA模型的領域學科交叉主題識別——以納米科技為例[J].情報科學,2020,38(2):116-124.
[32]張斌.交叉學科主題探究:從主題聚類視角[J].情報科學,2020,38(10):49-55.
[33]Raimbault J.Exploration of an Interdisciplinary Scientific Landscape[J].Scientometrics,2019,119(2):617-641.
[34]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[35]Piepenbrink A,Nurmammadov E.Topics in the Literature of Transition Economies and Emerging Markets[J].Scientometrics,2015,102(3):2107-2130.
[36]Stirling A.On the Economics and Analysis of Diversity[J].Science Policy Research Unit(SPRU),Electronic Working Papers Series,Paper,1998,28:1-156.
[37]Rousseau R.The Repeat Rate:From Hirschman to Stirling[J].Scientometrics,2018,116(1):645-653.
[38]Leydesdorff L,Wagner C S,Bornmann L.Interdisciplinarity as Diversity in Citation Patterns Among Journals:Rao-Stirling Diversity,Relative Variety,and the Gini Coefficient[J].Journal of Informetrics,2019,13(1):255-269.
[39]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):10008.
[40]馮佳.研究前沿識別與分析方法研究[D].長春:吉林大學,2017.
[41]Mann G S,Mimno D,McCallum A.Bibliometric Impact Measures Leveraging Topic Analysis[C]//Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries,2006:65-74.
[42]Chavarro D,Tang P,Rafols I.Interdisciplinarity and Research on Local Issues:Evidence from a Developing Country[J].Research Evaluation,2014,23(3):195-209.
[43]徐庶睿,章成志,盧超.利用引文內容進行主題級學科交叉類型分析[J].圖書情報工作,2017,61(23):15-24.
[44]章成志,徐庶睿,盧超.利用引文內容監測多學科交叉現象的方法與實證[J].圖書情報工作,2016,60(19):108-115.
[45]Brown P F,Pietra S A D,Pietra V J D,et al.An Estimate of an Upper Bound for the Entropy of English[J].Computational Linguistics,1992,18(1):31-40.
(責任編輯:陳 媛)