冒純麗,曹春萍
(上海理工大學 光電信息與計算機工程學院,上?!?00093)
?

基于PubMed的共詞聚類分析方法
冒純麗,曹春萍
(上海理工大學 光電信息與計算機工程學院,上海200093)
摘要針對傳統共詞聚類分析法中共詞矩陣構建不能全面反映主題詞之間的關聯問題,提出了基于高頻主題詞共現于同一篇文獻多種格式內容構建共詞矩陣的方法,針對傳統聚類算法對于類團非球狀且類團大小相異較大導致聚類效果不理想等問題,利用改進的CRUE聚類算法對共詞矩陣聚類。并對PubMed中肺癌領域相關文獻進行共詞聚類分析,實驗論證了改進后共詞聚類分析方法的可行性。
關鍵詞共詞聚類分析;共詞矩陣;CRUE聚類;PubMed
PubMed是美國國立衛生研究院(NIH)下屬美國國立醫學圖書館(NLM)開發的因特網檢索系統,建立在國家生物醫學信息中心(NCBI)平臺上[1]。PubMed數據庫主要來源為Medline。Medline是美國國立醫學圖書館生產的國際性綜合生物醫學信息書目數據庫。Medline文獻數據庫作為當前全球最權威的生物醫學文獻檢索系統,是全世界醫學研究者、圖書情報人員最常用的檢索工具。醫療研究者通常以PubMed中相關文獻為數據來源,通過共詞聚類分析方法對文獻處理挖掘該領域研究現狀與熱點。
共詞聚類分析法是基于內容分析的一種方法,共詞聚類分析法通過挖掘文獻的主題詞,選取出現頻次高于一定閾值的主題詞作為高頻主題詞,統計高頻主題詞對在同一篇文獻(txt格式)主題詞列表中共現情況來構建共詞矩陣,對共詞矩陣中主題詞之間的共現情況進行聚類,分析聚類結果得到主題詞之間相關關系,進而分析得到主題詞所代表的學科和主題結構變化[2-5]。……