葉少林 甘 靖,2 羅 蓉 萬朝敏,2
(1. 四川大學華西第二醫(yī)院兒科,四川 成都 610041;2. 出生缺陷與相關婦兒疾病教育部重點實驗室,四川 成都 610041)
共詞分析在醫(yī)學生科研中的應用
葉少林1甘 靖1,2羅 蓉1萬朝敏1,2
(1. 四川大學華西第二醫(yī)院兒科,四川 成都 610041;2. 出生缺陷與相關婦兒疾病教育部重點實驗室,四川 成都 610041)
共詞分析是一種重要的科研方法,在國內(nèi)外已被廣泛應用于許多研究領域。通過SPSS、UNCIET、EXCEL這些軟件共同組成了包含關鍵詞的方陣,對經(jīng)常出現(xiàn)的詞語相互間的關聯(lián)進行研究,進而展現(xiàn)出熱點存在的關系,把他們展現(xiàn)在大眾的視線下,接著掌握上述學科的框架和它的走向。從醫(yī)學的層次來看,共詞分析研究應用相對較少,本文將初步介紹共詞分析在醫(yī)學科研中的運用,以期為廣大醫(yī)學生提供一種新的科研利器。
共詞分析;醫(yī)學教育;科研
共詞分析問世于上世紀70年代[1],歷時四十多年,它得到了長足的發(fā)展,在信息的檢索及其系統(tǒng)、信息科學、圖書館管理、物理等許多領域,取得了重要研究成果,但在醫(yī)學領域科研方面,共詞分析研究應用相對較少,這為我們廣大的醫(yī)學生提供了一個很好的科研平臺,讓他們除了做基礎實驗研究及臨床調(diào)查研究以外,還能學習到醫(yī)學情報學的研究。
共詞分析方法是基于統(tǒng)計學基礎的一種能夠?qū)Ξ斍八械难芯款I域中熱點現(xiàn)象以及該領域的結(jié)構(gòu)特征做出分析的一種方法。它的中心思想是利用該研究領域中熱點詞匯之間的聯(lián)系來對該領域的發(fā)展方向以及發(fā)展進程做出預測與估計。如果該領域有一個可以將該領域所有研究專家的研究方向進行聯(lián)系的一個詞匯,那么在所有的涉及到該領域的相關文獻中該詞匯都會出現(xiàn),這樣就可以利用相關軟件將抽象的關系可視化,展現(xiàn)該學科的研究熱點及熱點之間相互聯(lián)系,據(jù)此可以掌握到該研究的研究構(gòu)造和它的事物進展趨勢的相關知識[2-4]。大多數(shù)人認為當兩篇文章的中心思想之間的聯(lián)系越緊密時候,那么這個短語就會在這篇文章中更加頻繁地出現(xiàn)。于是,一些有關聯(lián)性的詞語組成的共同詞語的網(wǎng)絡(簡稱共詞網(wǎng)絡)便是由能夠表達一篇文章中心思想的詞語每兩個之間出現(xiàn)的頻率所統(tǒng)計得到的,中心思想內(nèi)容之間的親近和疏遠關系可以通過網(wǎng)絡之內(nèi)節(jié)點的距離長短來反映。共詞分析的原理就是上面所描述的內(nèi)容。它的過程的就是利用包容系數(shù),聚類分析和其他的統(tǒng)計分析方法,簡化以文章中心思想詞語作為分析對象間重復復雜的共詞關系,并且以數(shù)值、圖形的方式直觀的表現(xiàn)出來。使用共詞分析不僅可以研究作者的情況,也具有以上所敘述的功能。可以使用共詞分析法對文獻情報進行研究分析,大致的可以分為六個階段:①確定分析研究的問題;②選取出現(xiàn)頻率比較高的詞匯;③組建一個共詞矩陣;④針對共詞矩陣進行戰(zhàn)略坐標分析、聚類分析、外部鏈接強度分析及繪制關鍵詞社會網(wǎng)絡共現(xiàn)分析圖[5,6]。其中最后一步尤為重要,是體現(xiàn)研究結(jié)論和價值的點睛之筆。
1.確定研究主題、數(shù)據(jù)庫及年限
首先得明確一個自己感興趣的主題,這樣才能確定需要檢索文獻的核心主題詞,比如:“我國嬰兒痙攣研究現(xiàn)狀——基于國內(nèi)期刊的共詞分析”,則核心主題詞為“嬰兒痙攣”或“WestSyndrome”[3];“我國兒童癲癇最新研究現(xiàn)狀調(diào)查分析——基于國內(nèi)研究的共詞分析”,則核心主題詞為“兒童癲癇”[4];“近10年國內(nèi)與國外兒童結(jié)核性腦膜炎研究論文的可視化研究”,則核心主題詞為“兒童結(jié)核性腦膜炎”。其次,需明確檢索的數(shù)據(jù)庫。如是中文文獻,建議選擇“中國知網(wǎng)”、“維普”、“萬方數(shù)據(jù)庫”等,可以同時查詢多個數(shù)據(jù)庫,通過endnote等工具去除重復文獻;如果是查閱外文文獻,建議選擇“pubmed數(shù)據(jù)庫”,同時我們可以將國內(nèi)外的資料進行對比研究,以發(fā)現(xiàn)國內(nèi)外研究存在的差距和不足。年限的選擇無特別要求,可以是從該學科剛起步時開始,以此總結(jié)學科的發(fā)展歷史;也可以是最近10年,甚至近5年內(nèi)該學科研究的發(fā)展情況。
2.詞頻統(tǒng)計及高頻關鍵詞的確定
收集好文獻資料后,將所有文章內(nèi)的關鍵詞分列現(xiàn)在Excel中,然后將同義的關鍵詞進行規(guī)范,像用“結(jié)核性腦膜炎”來代替“結(jié)腦”,將“核磁共振”置換為“MRI”,“促皮質(zhì)激素”置換為“ACTH”,“伴有中央顳區(qū)棘波的小兒良性癲癇”置換為“BECT”等。把上述的關鍵詞放置在新進新建的表格里,接著,把剩余的行數(shù)全都刪掉,下一步把一張數(shù)據(jù)透視表插進去,進而算出它的詞頻,根據(jù)得出的結(jié)果把它們按從高到低的順序排列。找出高低頻詞語的分界線,主要使用Donohue1973年提出的能夠通過詞匯出現(xiàn)的頻數(shù)對詞匯的重要性進行判斷的公式 對得到的所有詞匯的頻數(shù)進行熱點判別[7],(其中T為高頻詞閾值,I1為詞頻為1的關鍵詞數(shù)目)將詞頻≥T的關鍵詞歸入高頻關鍵詞。但有時實際情況和該公式的計算結(jié)果有出入,以文獻【3】為例:根據(jù)上述結(jié)果可得,存在324個關鍵詞頻率為1,則I1=324;結(jié)果為T=24.4,統(tǒng)計詞頻≥25,算出有10個,依次是“嬰兒痙攣”、“癲癇”、“腦電圖”、“兒童”、“ACTH”、“高度失律”、“癲癇藥物”、“痙攣發(fā)作”,不過上述的不可以以偏概全地展現(xiàn)中國的整體形勢,所以把詞頻≥6的當成高頻詞,總計43個[3]。不過,具體問題具體分析,還應向多位該研究領域資深的老師請教確定。
3.構(gòu)建共詞矩陣
根據(jù)上述的表格進行分析,排除不屬于高頻詞匯,把多余的行數(shù)和不全面的詞條刪減掉,接著把各文剩下的高頻詞匯進行配對,舉個例子,假使有一個文章還剩下了“A、B、C、D”這四個高頻詞,那么,就可以把它們配對成如下的六對:AB、AC、AD、BC、BD、CD,并對余下所有文章均按此法操作,然后按列排列在新的EXCEL表中保存。最后,對上述高頻詞對交叉復制,插入數(shù)據(jù)透視表(交叉列聯(lián)表),即可生成共詞矩陣。此方法十分耗時、枯燥和機械。中醫(yī)大教授崔雷編纂并出版了一套書,分析系統(tǒng):“BICOMB”[8],該系統(tǒng)能十分便利地將CNKI、PUBMED、萬方的文獻數(shù)據(jù)中的高頻關鍵詞共詞矩陣列舉出來,但使用該系統(tǒng)時應注意其檢索文獻的靈敏性與特異性,建議針對文獻的篩選最好在該研究領域資深的老師指導下進行。同時需注意該系統(tǒng)不能檢索維普等其他數(shù)據(jù)庫的文獻。
4.聚類分析
高頻的關鍵詞聚集在一起的而產(chǎn)生的結(jié)果可以利用以上關鍵詞間的親密度,進而反應出重要的主題詞的探究特色。通過這種將物理或抽象對象集合分成的統(tǒng)計學辦法,將聯(lián)系緊密的關鍵詞匯集在一個集體。關鍵詞聚類剖析時,應該首先從發(fā)揮主要作用的關鍵詞形成聚類;然后,再從聚類里的關鍵詞及其相類似的關鍵詞組合在一起,形成一個全新的聚類。關鍵詞之間類似度越高,其之間的間隔就越小;反而言之,間隔就會比較遠。把關鍵詞的相異度矩陣傳送到21.0軟件中,采用系統(tǒng)聚類、離差平方和法、離散數(shù)據(jù)種類之中的斐方方式實行聚類剖析。離差平方和以方差剖析理念為基礎,得類之內(nèi)的關鍵詞之間的離差平方和使其盡可能達到最小值,種類間的離差平方和盡可能達到最大值,進一步實現(xiàn)分離類別的功效。離散數(shù)據(jù)的分類能夠設計不同類別數(shù)據(jù)之間的間隔大小,Phi方度量抵消了Chi方度量中中維數(shù)的的作用[9]。與因子剖析的效果及現(xiàn)實狀況相聯(lián)系,就可得出探究熱點的聚類樹狀型圖像如圖1所示。從圖1中能夠得知其一共被分成兩大類別,第一類能再分成三個小的類別,1、5,12、8、7、3,10、2、11、13及6、4、9之間聯(lián)系緊密。通過針對出現(xiàn)頻率高的主題詞共現(xiàn)聚類剖析,人們能夠客觀的發(fā)現(xiàn)其方面的探究熱點,可是仍然沒有辦法得知其各個熱點之間的聯(lián)系。因此,我們還需要通過外部鏈接強度及戰(zhàn)略坐標來進一步分析。

圖1 高頻關鍵詞聚類
5.外部鏈接強度及戰(zhàn)略坐標分析
依照聚類剖析的有關成果,得以算出各個類別的外部鏈接及外部鏈接強度。外部鏈接指數(shù)指在一個學科領域內(nèi),某主題類團與其他主題類團間的知識連接數(shù)量,反映該主題與其他主題進行知識交叉融合、滲透創(chuàng)新的總體水平。該值越大,說明主題整體與外部關聯(lián)越密切,知識的范圍拓展的越寬,將條件反過來設置,也會得出這樣的結(jié)論。使用Ucient6.0軟件中的Netdraw性能時依照聚類之間外部鏈接之和將會產(chǎn)生各個類團描繪而成的類間聯(lián)系圖像。連接線的寬窄表現(xiàn)出其類別間的聯(lián)系強度,連接線越寬,則類別間的關系就越緊密,如圖2[6]。從圖2能夠發(fā)現(xiàn)D、C、E三者的關系最為密切,可是其他的類聚之間關聯(lián)度并不是很大,C外部鏈接情況與D基本相似。可是E和其他類聚間的關聯(lián)較為均衡,位于各個聚類之間的節(jié)點處,即使A和B產(chǎn)生利獨立的聚類,可是其他聚類間的聯(lián)系不是很密切,相對而言探究較為獨立。
依照聚類剖析的關聯(lián)結(jié)果單獨對其余類別的向心度及密度進行了算數(shù),描繪出各類探究聚類的策略坐標圖紙。以向心度為X,以密度為Y。向心度即為表現(xiàn)一個詞匯集團以及其余得到詞匯集團間的的關聯(lián)強度,選取各個詞匯集團團和其余詞匯集團共同出現(xiàn)的次數(shù)只和作為此次詞匯集團的向心度。密度是用以測取詞匯集團間共同出現(xiàn)的強弱,選取給詞語集團內(nèi)部關鍵詞顯現(xiàn)的次數(shù)的平均值視為此詞匯集團的密度。戰(zhàn)略坐標圖像的坐標零點是各個聚類向心度及密度的均值,其中各類象限的表達內(nèi)容如圖3所示。第一象限中的主題擁有高密度和高向心度,說明其發(fā)展成熟且為領域核心;第二象限中的主題擁有高密度和低向心度,說明其發(fā)展成熟但并非領域核心;第三象限中的主題密度和向心度都較低,說明其發(fā)展不成熟且處于領域邊緣;第四象限中的主題擁有低密度和高向心度,表明即使其成長的并不是很完整,可是卻能夠成為其研究的核心[9]。

圖2 外部鏈接強度

圖3 戰(zhàn)略坐標圖所示意義示意圖
6.繪制高頻關鍵詞社會網(wǎng)絡共現(xiàn)分析圖
最后使用Ucinet6.0的Netdraw功能,針對出現(xiàn)頻率較高的主題詞共現(xiàn)矩陣實現(xiàn)社會網(wǎng)絡的描繪,產(chǎn)生由主要主題詞構(gòu)成的共同詞匯網(wǎng)絡圖像,網(wǎng)絡中節(jié)點的距離就能夠反應關鍵內(nèi)容的親密度,在下列圖像的構(gòu)成之中,陳列距離離中央節(jié)點越近則表現(xiàn)出整體的關聯(lián)網(wǎng)絡之中越位于重要位置[10]。除此之外,彈簧嵌入聚類計算方法實行陳列,針對各個節(jié)點的大小及連接線的寬窄,實行賦值,高頻率的節(jié)點對應的就偏大,關聯(lián)緊密的中央詞語連接線就較為偏寬,如圖4所示。能夠從圖4中得出G就是這項探究的核心主題詞,同時周圍散布了AI、W、K、D、I、R、H、X等研究熱點,G與AI、W、K、T、R等聯(lián)系緊密,相對而言,在F、AC、V、U等諸多層面上的探究還很單薄,通常處于邊界或新型的探究畛域,這也正是研究者們努力突破的畛域。

圖4 高頻關鍵詞社會網(wǎng)絡共現(xiàn)分析圖
通過本文的介紹,希望能讓大家能夠初步了解共詞分析的制作流程。共詞分析為醫(yī)學生科研打開了一扇大門,對于某個學科的發(fā)展情況,學科研究構(gòu)架及現(xiàn)狀,某種疾病的診斷、治療、研究熱點、發(fā)展趨勢和方向以及某個學科在國內(nèi)、國外各個醫(yī)療科研機構(gòu)開展情況都可以通過共詞分析法得以實現(xiàn)。對醫(yī)學生將來從事某專業(yè)更深入的學習與研究提供了很好的前期信息和參考依據(jù)。
[1] HuangJ,TangJ,QuY,etal.MappingtheKnowledgeStructureofNe onatalHypoxic-IschemicEncephalopathyOverthePastDec ade:ACo-wordAnalysisBasedonKeywords[J].JChildNeur ol,2016,31(6):797-803.
[2] 鮑珊,等.新生兒黃疸研究現(xiàn)狀的共詞分析[J].中國當代兒科雜志,2014,16(8):820-823.
[3] 葉少林,等.我國嬰兒痙攣研究現(xiàn)狀——基于國內(nèi)研究的共詞分析[J].現(xiàn)代預防醫(yī)學,2016(4):627-630.
[4] 甘靖,等.共詞分析方法分析我國兒童癲癇最新研究現(xiàn)狀[J].中華實用兒科臨床雜志,2016,31(1):73-75.
[5] 岳增慧,等.基于共詞分析的醫(yī)學倫理學領域主題熱點及演進態(tài)勢[J].中華醫(yī)學圖書情報雜志,2016(1):43-51.
[6] 李一飛,等.基于多元統(tǒng)計和社會網(wǎng)絡分析PubMed數(shù)據(jù)庫兒童心血管學科知識發(fā)展可視化研究[J].中國循證兒科雜志,2014,9(2):89-100.
[7] 包惠民,等.CNKI數(shù)據(jù)實現(xiàn)ucinet共現(xiàn)分析的方法及實證分析[J].軟件導刊(教育技術),2012(1):91-93.
[8] 曹霞,等.合著網(wǎng)絡評價指標與文獻計量學評價指標相關性研究[J].中華醫(yī)學圖書情報雜志,2016(2):20-26.
[9] 袁曉園,等.基于共詞分析的我國醫(yī)學信息學國際發(fā)文熱點研究[J].醫(yī)學信息學雜志,2014,35(4):8-14.
[10] HongY,YaoQ,YangY,etal.Knowledgestructureandthemetren dsanalysisongeneralpractitionerresearch:ACo-wordperspective[J].BMCFamPract,2016,17:10.
Applycation of Co-word Analysis in the Medical Scientific Research
Ye Shaolin1, Gan Jing1,2, Luo Rong1, Wan Chaomin1,2
(1. Department of Pediatrics, West China Second University Hospital, Sichuan University, Chengdu 610041, China;2. Key Laboratory of Birth Defects and Related Diseases of Women and Children, Chengdu 610041, China)
Co-word analysis is an important research method which has been widely applied in many research fields at home and abroad. Excel, SPSS and Ucinet 6.0 were used to make analysis of the relationship between different key words and generate diagrammatic representation which is applied to present the framework of discipline and the direction of development. As far as medicine research is concerned, co-word analysis is randomly used. This article is aimed to introduce the application of co-word analysis in medical research in order to provide a new research method for medical students.
Co-word analysis; Medical education; Scientific research
2016-05-26)
葉少林(1987-),女,護師。
甘靖。
國家臨床重點專科(兒科新生兒專業(yè))建議項目(1311200003303)資助;教育部科研基金(20110181130002,IRT0935);國家自然科學基金(81501301)。