999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

共詞分析及網絡分析法探測乳腺癌轉移相關基因

2016-03-21 08:58:52
中華醫學圖書情報雜志 2016年3期
關鍵詞:語義乳腺癌概念

乳腺癌是女性最常見的惡性腫瘤之一,大約有10%-15%的乳腺癌患者在首次確診為原發腫瘤3年后都會伴發其他嚴重疾病或發生遠處轉移。轉移是導致乳腺癌患者死亡的主要原因,因此阻止乳腺癌的浸潤和轉移是現代乳腺癌治療中的關鍵環節。

乳腺癌轉移是一個由多基因參與及多步驟完成的復雜過程。乳腺癌轉移相關基因是一類功能上能促進或阻斷腫瘤轉移潛能而不影響腫瘤細胞生長增殖的基因,可分為轉移促進基因和轉移抑制基因兩大類。轉移促進基因有HER-2、BCSG1、MMPs等,轉移抑制基因有nm23、BRMS1等。相關研究較多,但目前未見從文本角度挖掘乳腺癌轉移相關基因的研究。

共詞分析法是20世紀70年代由法國的文獻計量學家提出的,其原理是對一組詞兩兩統計它們在同一篇文獻中出現的次數。以此為基礎對這些詞進行聚類分析或網絡分析等,可以反映這些詞之間的親疏關系及其代表的學科和主題的結構變化[1]。國內最早將共詞分析法應用于醫學文獻分析[2],目前已廣泛應用于知識管理、生物信息學、納米科技、土地研究、人力資源、城市信息化、閱讀療法研究、奶牛繁殖研究等各個領域的文獻分析[3-6]。社會網絡分析是綜合運用圖論、數學模型來研究行動者與行動者、行動者與其所處社會網絡及一個社會網絡與另一個社會網絡之間關系的一種結構分析方法,近年來在圖書情報、計算機軟件與計算機應用、新聞傳媒、企業管理、醫學等領域得到了廣泛應用[7-10]。

本文嘗試基于共詞分析法,從PubMed數據庫檢索獲取乳腺癌轉移與基因關系的研究文獻,利用MetaMap進行概念匹配后抽取乳腺癌轉移相關基因,建立乳腺癌轉移-基因矩陣和基因-基因矩陣,再利用Ucinet軟件建立乳腺癌轉移相關基因的相互作用網絡,分析網絡拓撲結構及其作用,以探測基因與轉移癌的關系,為乳腺癌轉移的早期診斷和治療提供參考。

1 研究工具

1.1 概念匹配程序MetaMap

由Lister Hill National Center for Biomedical Communications(美國生物醫學通訊中心)開發的MetaMap,是一個將生物醫學文本與一體化醫學語言系統(Unified Medical Language System,UMLS)超級詞表中的概念匹配的程序。MetaMap使用知識密集方法,采用符號、自然語言處理和計算機語言學等技術,能基于語義關系提取疾病、基因、蛋白等知識,完成概念組配。MetaMap首先把題目和文摘中的各個句子解析成多個詞或短語,然后列出每個詞或短語候選詞,根據所選擇的候選詞在UMLS所出現的相關語義類型和研究領域進行匹配,得到文本中的主要概念。MetaMap主要應用于信息檢索和數據挖掘,是美國國立醫學圖書館(NLM)初步標引系統(indexing initiative system)的基礎之一,這個標引系統應用于圖書館半自動和全自動的生物醫學文獻標引[11]。

1.2 dataMiner數據分析軟件

dataMiner軟件是由中國醫科大學閆雷開發的。它可根據UMLS超級詞表,選擇需要的語義類型,將所得結果按所需的百分比或前幾位列出,用于統計概念匹配后文本中兩個詞或詞組在同一標題、摘要、句子及正文中出現的次數,形成矩陣。

1.3 社會網絡分析軟件 Ucinet

Ucinet(University of California at Irvine NETwork)最初由加州大學爾灣分校學者Linton Freeman編寫的,集成了可以對一維和二維數據進行統計和可視化分析的NetDraw軟件,將網絡結構可視化,是綜合性社會網絡分析工具[12]。Ucinet可以對網絡拓撲結構進行統計分析,包括網絡密度、中心度、最短路徑、子群等。

2 研究步驟和結果分析

2.1 利用MetaMap進行概念匹配

以“breast neoplasms[majr] AND genes[majr] AND Neoplasm Metastasis[Mesh] AND humans[mesh]”為檢索策略(1966年1月1日-2015年7月31日),在PubMed共檢索到375篇乳腺癌轉移相關基因文獻,以MEDLINE格式進行保存,作為挖掘樣本。將MEDLINE格式文本上傳到在線MetaMap,選擇UMLS涵蓋的所有詞表及所有語義類型,進行概念匹配,得到所保存文獻題名和摘要的UMLS概念匹配結果。

2.2 利用數據分析軟件得到矩陣

首先,將概念匹配結果導入數據挖掘軟件,基因選擇的語義類型為[Gene or Genome],轉移癌的語義類型為[neoplastic process],選取同句共現的矩陣,得到與乳腺癌轉移相關基因。然后,再將X軸和Y軸共同選擇語義類型[Gene or Genome],得到基因之間相互作用的矩陣。刪除范圍過于廣泛的基因名稱(如genes,alleles,locus,tumor suppressor genes,proto-oncogenes等)和重復的基因名稱(如tp53 gene與tp53 wt allele等),合并表示同一基因的不同基因名稱(如erbb、egfr和c-erbb-1合并為egfr,使用Genebank中的官方名稱),刪除錯配的基因名(如gene A錯配為genes,vif),最終得到44×44的基因-基因矩陣,并將對角線的基因出現次數設置為0(表1)。

表1 基因-基因共現矩陣(44行×44列)(部分)

2.3 基因相互作用網絡的建立和拓撲結構分析

利用Ucinet 6的數據轉換功能將處理后的基因-基因共現矩陣進行二值化處理,利用自帶的Netdraw生成基因相互作用網絡(圖1),利用network功能分析基因網絡的拓撲結構,包括核心和外緣(圖2)、度數中心度(圖3)、中間中心度(圖4)、結構洞。

圖1 乳腺癌轉移相關基因相互作用網絡圖

圖2 乳腺癌轉移相關基因相互作用核心和外緣(部分)

圖3 乳腺癌轉移相關基因相互作用度數中心度(部分)

圖4 乳腺癌轉移相關基因相互作用中間中心度(部分)

由圖1可知,網絡圖共有44個節點、146條線。

從圖2可以看出,核心基因為bcl2、brca1、brca2、cd69、cdh1、cdkn2a、Egfr、erbb2、esr1、myc、nr4a1、thra、tp53,其余31個基因為邊緣基因。

絕對度數中心度是某點與其他點直接相連的個數。如果某點具有最高的度數,則稱該點居于中心,有可能擁有最大的權力[12]。從圖3可知,tp53度數最大為13,度數中心度排在前10的基因是tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69、cdkn2a、bcl2,最小度數是1。因此,tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69、cdkn2a和bcl2的度數最多,權力最大,處于中心位置。

另一個表征行動者個體中心度的指標是中間中心度,它測量的是行動者對資源控制的程度。如果一個點處于許多其他點對的捷徑(最短路徑)上,則該點具有較高的中間中心度[12]。從圖4可知,blid、bcpr、akr1a1、chafla、bcl2l1、kidins220、cxcr4和mir200b等19個基因的中間中心度為0,不能控制任何其他行動者,處于網絡邊緣[12];erbb2、esr1、cdh1、cd69、egfr、nr4a1、tp53、s100a4和thra處于網絡的中間連接位置,連接能力依次遞減。

結構洞是“社會網絡中的某個或某些個體和有些個體發生直接聯系,但與其他個體不發生直接聯系,無直接聯系或關系間斷(disconnection)的現象,從網絡整體看好像網絡結構中出現了洞穴”。結構洞的等級度越高,該點越居于網絡的核心,其控制力也越大[12],tp53、thra、erbb2、esr1、cdh1和egfr等級度依次遞減,說明其控制力也依次遞減。

3 結論與討論

與乳腺癌轉移相關的基因中,13個核心基因按照核心程度由高到低排列依次為tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69、bcl2、cdkn2a、brca2、myc、brca1,其余31個為邊緣基因。

tp53官方全稱為腫瘤蛋白p53(tumor protein p53),別稱有P53、BCC7、LFS1和TRP53。tp53蛋白能通過調節細胞周期和避免細胞癌變發生,保持基因組的穩定性,避免突變發生。在遺傳性乳腺癌和散發性乳腺癌患者中,tp53突變均會引起雜合性丟失增強和等位基因失衡,但遺傳性乳腺癌患者的突發率高于散發性。端粒紊亂激活p53,反過來結合pgc1-α和pgc1-β將其抑制,從而促進端粒和線粒體直接連接[13]。

目前關于tp53基因突變能否預測乳腺癌轉移有很大爭議。劉祖宏等[14]對92例乳腺潤性導管癌患者的標本進行檢測發現,乳腺淋巴結轉移與p53蛋白表達呈正相關,提示p53基因突變與腫瘤細胞的侵襲轉移有相關性,可能增強腫瘤細胞的增殖能力,促進腫瘤浸潤轉移。汪海新等[15]通過免疫組化方法檢測359例乳腺浸潤性導管癌組織中p53的表達情況卻得出了相反的結論,即p53蛋白的表達在區域淋巴結無轉移之間的差異均無統計學意義。

Erbb2(c-erbb2原癌基因)、Brca1(breastCancer SusceptibilityGene 1,腫瘤易感基因)、egfr(epidermal growth factor receptor,表皮生長因子受體)均參與乳腺癌轉移。

鄭偉等[16]選擇42例乳腺癌患者石蠟固定的組織標本,用SABC免疫組織化學方法檢測EGFR、C-erbB-2蛋白發現,EGFR的陽性率為42.9%,C-erbB-2的陽性率為31%,EGFR、C-erbB-2表達與乳腺癌骨髓微小轉移有密切關系,可以作為判斷乳腺癌預后的重要指標。韓芳芳等[17]應用免疫組織化學PV-9000法檢測83例乳腺基底細胞樣癌腫BRCA1、EGFR的表達發現BRCA1的陽性表達率為57.83%,EGFR的陽性表達率為87.95%,且各組間的不同臨床分期、不同淋巴結轉移情況各組間均有統計學意義,但與二者的表達無相關性。

文獻調研發現,tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69等13個核心基因中,大部分都與乳腺癌轉移有直接或間接的關系,但cd69對于乳腺癌轉移的具體病理生理學過程尚不明確,需要進一步驗證。這可能是因為cd69基因屬于NK細胞信號傳導基因復合體家族參與細胞增殖,表達蛋白在自然殺傷細胞和血小板中傳導信號,與血液系統疾病及免疫相關性疾病的發生與發展密切相關,也可能與乳腺癌轉移相關。

4 結語

本文利用MetaMap概念匹配PubMed中375篇乳腺癌轉移相關基因文獻的標題和摘要,用數據挖掘軟件得到乳腺癌轉移相關基因和基因-基因相互作用矩陣,用Ucinet 6分析網絡相關指標,得到13個核心基因,希望利用基因與轉移癌的關系對乳腺癌轉移的早期診斷和個性治療提供參考。

此外,不足之處是cd69基因對于乳腺癌轉移的具體過程尚不明確,還需進一步實驗驗證。MetaMap存在錯誤匹配和遺漏匹配的現象,在準確性和全面性方面有所欠缺。

猜你喜歡
語義乳腺癌概念
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
乳腺癌是吃出來的嗎
胸大更容易得乳腺癌嗎
學習集合概念『四步走』
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 制服丝袜在线视频香蕉| 亚洲日本www| 欧美97欧美综合色伦图| 国产高清不卡视频| 原味小视频在线www国产| 亚洲成年人网| 又猛又黄又爽无遮挡的视频网站| 国产麻豆永久视频| 波多野结衣无码AV在线| 99激情网| 激情乱人伦| 92午夜福利影院一区二区三区| 国产成人AV综合久久| 青青青国产在线播放| 成人午夜视频网站| 亚洲中文字幕无码爆乳| 91麻豆国产视频| www.91中文字幕| 国产三级毛片| 欧类av怡春院| 欧美激情综合| 中文字幕第4页| 国产成人禁片在线观看| 国产一级毛片网站| 91区国产福利在线观看午夜| 亚洲无码37.| 91在线高清视频| 国产精品永久久久久| 国产麻豆va精品视频| 天天干天天色综合网| 色婷婷在线播放| 国产免费网址| 欧美日韩精品一区二区在线线| 91www在线观看| 国产丝袜无码一区二区视频| 97人人模人人爽人人喊小说| 91丨九色丨首页在线播放| 国产女人18水真多毛片18精品| 国产91精品最新在线播放| 国产精品九九视频| 国产一区二区免费播放| 久久久亚洲国产美女国产盗摄| 国产精品女人呻吟在线观看| 在线欧美国产| 伊人福利视频| 日韩黄色在线| 狠狠操夜夜爽| 青草视频免费在线观看| 欧美黑人欧美精品刺激| 国产swag在线观看| 国产日本视频91| 激情亚洲天堂| 成人无码区免费视频网站蜜臀| 亚洲一区无码在线| 香蕉网久久| 亚洲福利视频一区二区| 精品少妇人妻av无码久久| 欧美日韩中文国产va另类| 91九色最新地址| 97国产精品视频自在拍| 婷婷久久综合九色综合88| 激情视频综合网| 久久黄色毛片| 色综合天天综合中文网| a级毛片网| 亚洲午夜综合网| 亚洲中文字幕无码mv| 999国内精品久久免费视频| 国产aaaaa一级毛片| 亚洲永久色| 99国产精品免费观看视频| 国产永久无码观看在线| 97久久超碰极品视觉盛宴| 丰满人妻久久中文字幕| 青青青草国产| 国产欧美视频综合二区| 亚洲av无码片一区二区三区| 在线日本国产成人免费的| 狠狠色香婷婷久久亚洲精品| 91久久偷偷做嫩草影院电| 亚洲欧洲日产国产无码AV| 日韩精品一区二区三区视频免费看|