彭 琰 嚴 莉
(云南省醫學信息研究所 昆明 650031)
?
基于Gephi的云南民族醫藥研究可視化分析
彭 琰 嚴 莉
(云南省醫學信息研究所 昆明 650031)
采用文獻計量法、社會網絡可視化分析工具Gephi對云南民族醫藥研究情況從發文年代、期刊分布、作者分布、合著網絡、研究機構分布、關鍵詞共現網絡等方面進行分析,指出傣醫、傣藥為該領域研究的熱點。
云南;民族醫藥;Gephi;可視化
我國民族眾多,在數千年的文明發展中,各民族醫藥也隨之發展,民族醫藥學是我國傳統醫藥學的重要組成部分。作為我國少數民族大省,云南省人口在5 000以上并有固定分布范圍的少數民族有26個,其中獨有的少數民族多達15個。豐富多樣的民族文化和獨一無二的自然環境,造就了云南獨特的民族醫藥資源,云南在民族醫藥的研究、開發和應用方面積累豐厚、碩果累累[1]。
信息可視化技術以計算機科學、地圖學、認知科學、信息傳播科學與信息系統為基礎,直觀、形象地表現、解釋、傳遞信息并揭示其規律[2]。在大數據時代,信息可視化技術能夠幫助更為有效地挖掘和理解大型數據集,被廣泛應用于生物醫學、工程技術、信息通訊、工商管理和社會科學等各個領域。Gephi是一款免費、交互式的復雜網絡分析軟件, 支持Windows、Mac OSX以及Linux等環境,主要用于探索性數據分析、鏈接分析、社交網絡分析和生物網絡分析等[3]。Gephi操作簡單,支持中文操作,只需要定義節點(Node,即關系網中各個孤立的個體)和邊(Edge,關系網中個體兩兩之間的關系),然后通過軟件提供的算法即可生成復雜網絡可視化圖譜。本文采用文獻計量法、社會網絡分析和可視化方法,借助可視化分析工具 Gephi對云南民族醫藥研究的現狀進行分析,以期描繪云南民族醫藥研究的知識圖譜,直觀地展現云南民族醫藥研究的核心團隊、主要機構和熱點問題。
2.1 數據采集與預處理
數據來源于中國生物醫學文獻數據庫(CBM),檢索時間為2014年5月14日 ,檢索策略為:民族醫藥學/全部副主題詞AND “云南”[國省市名],共檢索到題錄530條。時間跨度為1979-2013年。下載包括標題、作者、關鍵詞、作者單位、出處等字段的題錄,通過Word 轉換為表格,剔除綜述、述評以及重復記錄,共得到有效記錄463條,將表格導入Excel。
2.2 數據分析
首先,采用Excel進行文獻發表年代、期刊、作者、第一作者單位和關鍵詞詞頻分析,構建作者合作交叉列聯表、共詞交叉列聯表[4]。其次,構建合著網絡和關鍵詞共現網絡。將交叉列聯表保存成CSV格式,導入Gephi0.8.2版。令每一個節點(Node)表示一個作者或關鍵詞,如果A與B存在合著或共現,則A點和B點之間生成一條邊(Edge),由于合著和關鍵詞共現均不存在指向性,因此所構建的網絡類型為無向網絡(Undirected Network),邊的權重(Weight)等于合著的次數或關鍵詞共現的次數,合著或共現次數越多兩個節點間的邊權重越大。最后,通過Gephi軟件布局(Layout)、統計(Statistics)、排序(Ranking)、再次布局、顯示標簽、社團發現(Community-detection)、分割(Partition)、過濾(Filter)等步驟對作者合著、關鍵詞共現進行可視化,輸出可視化圖譜并對圖譜進行解讀。
3.1 發表年度和期刊分布情況
云南省關于民族醫藥研究的發文量在1989-2008年間總體呈上升趨勢,尤其是2006年后發文量急劇上升,在2008年達到高峰,該年發文量達到67篇,而2009年至今發文量有所下滑,見圖1,其中2013年發文量為24篇,可能與數據庫尚未更新完2013年所有數據有關。

圖1 云南省民族醫藥研究年度發文量
463篇文章共分布在45種不同的期刊上,其中刊載文章量排在前4位的期刊分別為《中國民族醫藥雜志》(49.24%)、《中國民族民間醫藥雜志》(19.44%)、《云南中醫學院學報》(10.15%)和《云南中醫中藥雜志》(8.21%)。這4種期刊除《中國民族醫藥雜志》的編輯部在內蒙古外,其他3種期刊編輯部均在云南本地。
3.2 作者分布情況和合著網絡
由于納入統計的文獻中合著文獻有350篇,合著作者數量最多的1篇達16人,有5位及以上作者的文章僅有57篇,所以選取4位及以下作者合著的文獻進行統計分析。結果顯示,發表文章數量最多的10位作者主要來自西雙版納傣醫醫院和云南中醫學院,按照發表文章數量依次為西雙版納傣醫醫院的傣醫專家林艷芳(8.42%)、云南中醫學院的楊梅(7.99%)、云南中醫學院的陳普(7.56%)、云南中醫學院的鄭進(7.34%)、云南中醫學院的胥筱云(6.91%)、西雙版納傣醫醫院的玉臘波(4.75%)、云南中醫學院的張超(4.32%)、西雙版納傣醫醫院的刀會仙(3.89%)、中國醫學科學院藥用植物研究所云南所的彭朝忠(3.89%)、云南中醫學院的周紅黎(3.24%)、西雙版納傣醫醫院的玉波罕(2.59%)、西雙版納傣醫醫院的趙應紅(2.59%)。
采用Gephi Force Atlas[5]算法構建作者合著網絡,導入節點(Nodes)412個,邊(Edges)780條。經Gephi 統計分析顯示,每個節點的平均度(邊的個數)為3.786,平均路徑長度(指一個網絡中任意兩個節點之間最短距離的平均值)為3.999。經社團發現(Modularity)分割后網絡被分為63個社團,通過過濾(Filter),選取包括98.08%的節點和邊的14個社團,生成作者合著網絡圖,見圖2。可見云南民族醫藥研究最活躍的團隊有以下5個:林艷芳團隊(林艷芳、玉臘波、刀會仙、趙應紅),鄭進團隊(鄭進、陳普、張超、周紅黎),楊梅團隊(楊梅、胥筱云,王寅),包·照日格圖團隊、彭朝忠團隊。這5個團隊中,楊梅團隊和鄭進團隊合著關系緊密,且與林艷芳團隊也有合著,包·照日格圖團隊和彭朝忠團隊與其他3個團隊合著較少,且兩個團隊之間沒有合著,包·照日格圖團隊僅和鄭進團隊有合著,彭朝忠團隊僅和林艷芳團隊有合著。這種團隊間合著關系的緊密程度與作者研究方向有關,包·照日格圖團隊發表文獻主要涉及蒙醫學的研究,其他4個團隊主要研究傣醫學。

圖2 作者合著網絡
3.3 研究機構分布情況
發表文章數量最多的10個第1作者所在單位依次為云南中醫學院(35.85%)、西雙版納傣族自治州傣醫醫院(24.41%)、云南省中醫中藥研究院(6.70%)、中國醫學科學院藥用植物研究所云南分所(4.75%)、迪慶藏族自治州藏醫醫院(2.16%)、普洱市民族傳統醫藥研究所(1.94%)、楚雄彝族自治州中醫醫院(1.73%)、西雙版納職業技術學院(1.51%)、云南省食品藥品檢驗所(1.30%)、中國科學院昆明植物研究所(1.08%)。進一步將第1作者單位按照云南省行政區劃進行統計,利用Excel 制作氣泡地圖,結果顯示除昆明外,研究機構主要分布在少數民族聚集地區如西雙版納、楚雄、普洱、迪慶、大理、麗江、紅河、德宏等地,見圖3。

圖3 第1作者機構所在地分布氣泡地圖
3.4 關鍵詞共現網絡
納入統計的463篇文獻共有關鍵詞3 006個,通過Excel建立共詞交叉列聯表,經同義詞清洗后導入Gephi中,共導入節點 592個、邊1 248條。 采用Force Atlas算法構建關鍵詞共現網絡,通過Gephi 統計分析顯示,每個節點的平均度為4.037,平均路徑長度為3.217。因為節點有重疊且圖像較分散,影響視覺效果,故采用Force Atlas 2算法和Fruchterman Reingold算法再次布局,以防止節點重疊發生并將圖像收縮。經社團發現(Modularity)分割后網絡被分為35個社團,其中5個社團的節點數超過50個,生成關鍵詞共現網絡,見圖4。由圖可見,云南省民族民間醫藥研究涉及傣族、彝族、藏族、佤族、哈尼族、壯族、納西族、白族、蒙古族等少數民族醫學、藥學、醫藥學教育以及醫藥文化傳承方面,其中傣醫-中醫-比較研究、傣醫-四塔五蘊、傣醫-護理、傣醫-文化、傣醫-治療-膽汁病(哦案)、傣醫-治療-攏梅蘭申(骨關節病)、傣藥-發展、傣醫-康朗香、傣醫-西醫、傣醫-康朗臘、彝醫-慢性咽炎-咽舒寶滴丸、藏醫-中醫-比較研究、藏醫-尿癥、藏藥-開發、藏藥-達里、云南-民族醫藥-發掘整理等方面為云南省民族民間醫藥研究的熱點問題。

圖4 云南民族醫藥研究關鍵詞共現網絡
4.1 云南民族醫藥研究可視化分析的難點
可視化分析的難點在于數據整理,尤其是關鍵詞的整理較為復雜[6]。首先,民族醫藥研究文獻中存在少數民族語言的音譯詞匯,如“攏匹勒”和“攏匹冷”均為月子病,但音譯成了不同的詞匯,需要對照原文進行統一;其次,由于缺少細致到每一民族醫藥的主題詞,文獻提供的關鍵詞存在大量同義詞,例如“傣醫”、“傣醫藥”、“傣醫學”、“傣醫藥學”等,面對這種情況,同樣需要根據原文內容進行調整。
4.2 Gephi分析中文文獻的優勢
當前,可視化分析技術已經被廣泛應用于生物醫學文獻的分析中,國內學者利用各種可視化分析工具構建了各種主題的知識圖譜,其中最為常見的分析工具包括CiteSpace[7],HistCite[8],BICOMB[9],Bibexcel[10],Pajek[11],UCINET[12]等。這些分析工具除BICOMB外,均為國外軟件,支持的數據源以Web of Science 為主。因此采用國外軟件分析中文文獻時必須進行數據格式轉換。而Gephi能夠直接導入Excel生成的CSV文件并且支持中文輸入和輸出,可以省去將中國生物醫學文獻數據庫(CBM)導出數據轉化成CiteSpace和Bibexcel等軟件匹配格式的步驟,能夠較為便捷地分析中文來源的文獻。
4.3 Gephi靜態展示的缺點
本次納入分析的節點數均在400個以上,在Gephi輸出靜態分析圖像時,如果選擇固定的標簽字體大小,則標簽密度太大,可讀性較差,而選擇標簽字體與節點大小匹配時,節點越小則標簽越小,雖然能夠較為直觀地展示研究核心團隊和研究熱點,展現作者合著和關鍵詞共現全貌的效果又不理想,還需要進一步優化。
借助可視化分析工具 Gephi對1989-2013年間云南省內關于民族醫藥研究的文獻進行了可視化分析,通過作者合著網絡發現林艷芳團隊、鄭進團隊、楊梅團隊、包·照日格圖團隊、彭朝忠團隊是云南省民族醫藥研究的核心團隊,云南省中醫學院、西雙版納傣族自治州傣醫醫院和云南省中醫中藥研究院是該方面研究的主要機構,而傣醫、傣藥方面的研究為云南省民族醫藥研究的最熱點。
1 劉本璽,董廣平,楊本雷,等.泛亞國際民族醫藥交流與合作——橋頭堡戰略下面向東南亞南亞的云南民族醫藥[J].云南中醫學院學報 ,2013,(4):34-37.
2 王敏,張燕舞,張玢,等.信息可視化在醫學文獻分析中的初步應用理論研究[J].醫學信息學雜志,2010,31(2):40-44,49.
3 https://gephi.org/[EB/OL].[2014-05-30].
4 儲節旺,郭春俠.EXCEL實現共詞分析的方法——以國內圖書情報領域知識管理研究為例[J].情報雜志,2011,30(3):45-49.
5 關迎暉,向勇,陳康. 基于Gephi的可視分析方法研究與應用[J]. 電信科學,2013, (S1): 112-119.
6 肖志彬,程鴻,趙蓉英,等.蒙醫文獻信息可視化分析[J].醫學信息學雜志,2012,33(10):48-50,62.
7 吳瓊. 健康素養研究的知識圖譜——基于CiteSpace的計量分析[J]. 醫學信息學雜志,2012,33(6):7-13.
8 閆雷,關晶,崔雷. 基于HistCite的抗瘧藥研究相關文獻引文編年圖和主要路徑[J]. 醫學信息學雜志,2012,33(9):51-54.
9 張浩,成施充,崔雷. 我國情報學碩士學位論文研究熱點分析[J]. 醫學信息學雜志,2012,33(2):44-47.
10 周曉分,黃國彬,白雅楠. 科學計量可視化軟件的對比與數據預處理研究[J]. 圖書情報工作,2013,(23):64-72.
11 陳碩,宮雪,毛智,等.鎖定鋼板相關研究文獻計量指標及可視化分析[J].醫學信息學雜志,2013,34(19):55-59.
12 魏瑞斌. 國內知識圖譜研究的可視化分析[J]. 圖書情報工作,2011,(8):126-130.
Visualization Analysis of Yunnan Nationality Medicine Research Based on Gephi
PENGYan,YANLi,
MedicalInformationInstituteofYunnanProvince,Kunming650031,China
Using bibliometric analysis method and Gephi, which is a social network visualization analysis tool, the paper carries out analysis on Yunnan nationality medicine research status from the aspects of publishing year, journal distribution, author distribution, co-author network, research institution distribution, keywords co-occurrence network, etc. Dai medicine and Dai drugs are the hottest aspects in this area.
Yunnan province; Nationality medicine; Gephi; Visualization
2014-09-08
彭琰,助理研究員,發表論文10余篇。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.02.015