2018年2月,國家癌癥中心發(fā)布的最新癌癥統(tǒng)計報告指出,我國惡性腫瘤新發(fā)病例與死亡病例約占全球惡性腫瘤病例的21.8%和27%,高于184個國家和地區(qū)的平均水平。癌轉(zhuǎn)移是導(dǎo)致癌癥患者死亡的主要原因。癌癥轉(zhuǎn)移是一個復(fù)雜的過程,有多個步驟和多種因素,腫瘤向不同部位的轉(zhuǎn)移概率也不同,腫瘤的嚴重程度不僅決定醫(yī)生的治療方案,也影響患者的經(jīng)濟支出[1]。
基于萬方生物醫(yī)學(xué)全文數(shù)據(jù)庫以“癌轉(zhuǎn)移”為關(guān)鍵詞生成的關(guān)鍵詞云(圖1)顯示,乳腺癌為主要的研究對象,并已取得研究成果。ICREA生物醫(yī)學(xué)研究所的Gawrzak S等人發(fā)現(xiàn)激酶MSK1是乳腺癌轉(zhuǎn)移性休眠的重要調(diào)節(jié)因子,可預(yù)防ER +乳腺癌的轉(zhuǎn)移[2];Sarvi S等研究人員發(fā)現(xiàn)乳腺癌的遠端轉(zhuǎn)移多數(shù)發(fā)生在肺和骨,細胞骨架銜接蛋白Kindlin-1的表達增加與肺轉(zhuǎn)移風(fēng)險增加有關(guān),是乳腺癌早期肺轉(zhuǎn)移的關(guān)鍵介質(zhì)[3];中科院上海生命科學(xué)研究院的研究團隊發(fā)現(xiàn),腫瘤分泌的DKK1是乳腺癌器官特異性轉(zhuǎn)移的血清標(biāo)志物并且抑制肺轉(zhuǎn)移,DKK1通過拮抗癌細胞WNT/PCP-RAC1-JNK信號傳導(dǎo),有效防止了肺和骨的轉(zhuǎn)移[4]。

圖1 癌轉(zhuǎn)移文獻關(guān)鍵詞云
在對乳腺癌轉(zhuǎn)移的研究中,以其轉(zhuǎn)移路徑、轉(zhuǎn)移影響因素、藥物/手術(shù)方法的效果分析和基因表達分析為主。本文以真實病歷分析乳腺癌的轉(zhuǎn)移路徑,總結(jié)其轉(zhuǎn)移規(guī)律,希望能對乳腺癌的防治提供理論依據(jù)。
本文分析的262條乳腺癌醫(yī)學(xué)影像學(xué)檢查病歷來自2018中國健康信息處理會議(CHIP 2018),由哈爾濱工業(yè)大學(xué)(深圳)智能計算研究中心和醫(yī)渡云(北京)技術(shù)有限公司聯(lián)合提供。對數(shù)據(jù)進行處理,包括發(fā)現(xiàn)文本描述規(guī)律、提取腫瘤原發(fā)部位、轉(zhuǎn)移部位和部位名稱,消除多詞一義和確定癌癥發(fā)生部位層級等規(guī)范化處理,再分析癌癥的轉(zhuǎn)移路徑,總結(jié)轉(zhuǎn)移規(guī)律,并查找相關(guān)文獻驗證結(jié)論。運用SPSS 22.0統(tǒng)計軟件分析數(shù)據(jù),用2檢驗資料數(shù)據(jù),以P<0.05表示有統(tǒng)計學(xué)差異。
乳腺癌的原發(fā)部位和轉(zhuǎn)移部位的描述句部分示例如表1。

表1 乳腺癌原發(fā)部位和轉(zhuǎn)移部位描述句
分析文本描述規(guī)則發(fā)現(xiàn),含有乳腺癌原發(fā)部位的句子中會出現(xiàn)如“癌、瘤”的腫瘤描述詞,即描述規(guī)則為腫瘤原發(fā)部位+“癌/瘤”;包含轉(zhuǎn)移部位的句子中會出現(xiàn)“轉(zhuǎn)移”兩字,即描述規(guī)則為:轉(zhuǎn)移部位+“轉(zhuǎn)移”;文本中分句的標(biāo)點符號有逗號、分號、中文句號和空格。
用python作為信息提取工具,通過調(diào)用內(nèi)嵌的re模塊,根據(jù)文本描述規(guī)則編寫代碼,實現(xiàn)乳腺癌原發(fā)部位和轉(zhuǎn)移部位所在短句提取,再從短句中人工提取具體的部位名稱。
2.3.1 消除多詞一義
由于每段文本是不同醫(yī)生對于患者病情的描述,因此存在“多詞一義”,如腫瘤原發(fā)部位左乳被部分文本描述成左側(cè)乳腺,右腋窩淋巴結(jié)被描述為右側(cè)腋窩淋巴結(jié)。分析時需將此類詞合并處理。
2.3.2 定義部位層級
此批數(shù)據(jù)文本中乳腺癌的發(fā)生部位有左乳、右乳,在做部位層級規(guī)范處理時參照人類表型術(shù)語集(Human Phenotype Ontology,HPO)。HPO是描述人類疾病表型特征的標(biāo)準(zhǔn)詞匯表,每個術(shù)語描述一種異常表型。迄今為止,HPO已被20多家國際頂級科研機構(gòu)廣泛應(yīng)用于生物信息學(xué)研究、人類遺傳學(xué)的臨床診斷、人類表型異常與細胞和生物化學(xué)網(wǎng)絡(luò)之間的關(guān)系研究,并為臨床數(shù)據(jù)庫提供標(biāo)準(zhǔn)化的詞匯表[5-8]。中文人類表型標(biāo)準(zhǔn)用語聯(lián)盟(The Chinese Human Phenotype Ontology ConSortrium,CHPO)與相關(guān)領(lǐng)域的專業(yè)人士合作,建立和優(yōu)化中國臨床表型術(shù)語標(biāo)準(zhǔn),并創(chuàng)建了一個公共開放網(wǎng)站。
在CHPO搜索引擎中輸入“乳腺腫瘤”,搜索結(jié)果顯示,“乳房”這一詞匯在HPO中有特定代碼且對“乳腺癌”的定義中明確指出其是一種發(fā)生在雙側(cè)乳房的癌癥,最終規(guī)范化后的腫瘤原發(fā)部位為左乳、右乳。
此批數(shù)據(jù)中的轉(zhuǎn)移關(guān)系共262組,原發(fā)部位為右乳173例,占66%;左乳89例,占34%。用2檢驗分析腫瘤原發(fā)部位分別為左、右乳與轉(zhuǎn)移路徑的關(guān)系,P<0.05,有統(tǒng)計學(xué)差異(表2)。

表2 乳腺癌原發(fā)部位與轉(zhuǎn)移路徑的相關(guān)性分析
此分析結(jié)果說明分別發(fā)生于左、右乳的乳腺癌在轉(zhuǎn)移路徑上有差異,分析這種差異源于乳腺癌的同側(cè)區(qū)域淋巴結(jié)轉(zhuǎn)移[9],如同側(cè)腋窩淋巴結(jié)轉(zhuǎn)移。
將轉(zhuǎn)移關(guān)系繪制為癌轉(zhuǎn)移路徑圖,如圖2所示。

圖2 乳腺癌轉(zhuǎn)移路徑圖
從圖2發(fā)現(xiàn),乳腺癌的主要轉(zhuǎn)移路徑為骨、肝、肺、縱膈淋巴結(jié)和與原發(fā)部位同側(cè)的腋窩淋巴結(jié)。宋佳等在研究中提到,乳腺癌的局部轉(zhuǎn)移主要為淋巴結(jié),并以腋窩淋巴結(jié)的轉(zhuǎn)移為主[10]。對于發(fā)生了同側(cè)胸壁和腋窩淋巴結(jié)轉(zhuǎn)移的乳腺癌患者來說,局部復(fù)發(fā)的短期內(nèi)會出現(xiàn)遠處轉(zhuǎn)移[11]。因此淋巴結(jié)轉(zhuǎn)移與否是進行精確臨床分期和指導(dǎo)乳腺癌治療的先決條件,盡早制定診斷方案,可提高患者生命率[12-13]。有無區(qū)域淋巴結(jié)轉(zhuǎn)移及其程度已被納入第八版AJCC乳腺癌分期系統(tǒng)[14]和NCCN指南[15]。乳腺癌在診斷后5年內(nèi)易于復(fù)發(fā),20%至30%的患者會發(fā)生遠處轉(zhuǎn)移,骨、肝和肺是乳腺癌最重要的轉(zhuǎn)移部位[16-17]。苗培田等分析了422例不同亞型轉(zhuǎn)移性乳腺癌患者,得出骨、肝和肺是乳腺癌是最常見的遠處轉(zhuǎn)移部位的結(jié)論[18];何建軍在對2 942例乳腺癌的薈萃分析中也得出相同結(jié)論[19];Chang等研究發(fā)現(xiàn),乳腺癌骨轉(zhuǎn)移是最常見的轉(zhuǎn)移路徑,多發(fā)骨轉(zhuǎn)移常伴隨肺、肝、腦等轉(zhuǎn)移,死亡率高,成為乳腺癌患者生存率下降的主要因素[20]。因此,根據(jù)乳腺癌轉(zhuǎn)移部位的不同可以判斷其發(fā)展的程度,有助于醫(yī)生制定精確的治療方案,不僅可以提高診斷效果,還減少了患者不必要的經(jīng)濟支出。
本文用python語言從乳腺癌醫(yī)學(xué)影像學(xué)檢查病歷文本中提取出只含有腫瘤原發(fā)部位和轉(zhuǎn)移部位的短句,再手動抽取出癌癥的原發(fā)和轉(zhuǎn)移部位名稱,運用SPSS 22.0統(tǒng)計軟件分析數(shù)據(jù),用2檢驗資料數(shù)據(jù),說明分別發(fā)生于左、右乳的乳腺癌在轉(zhuǎn)移路徑上有差異,再分析其轉(zhuǎn)移路徑規(guī)律。分析發(fā)現(xiàn),乳腺癌早期轉(zhuǎn)移會侵襲鄰近組織,如淋巴結(jié)轉(zhuǎn)移,判斷是否發(fā)生淋巴結(jié)轉(zhuǎn)移是預(yù)測患者遠期生存率的重要因素。而隨著乳腺癌的發(fā)展,會發(fā)生遠處轉(zhuǎn)移,因此根據(jù)乳腺癌轉(zhuǎn)移部位的不同可以判斷其發(fā)展的程度。分析乳腺癌轉(zhuǎn)移規(guī)律對醫(yī)生治療方案的制定和患者的經(jīng)濟支出都具有重要價值。
本研究以262份乳腺癌影像學(xué)診斷報告為例,分析其轉(zhuǎn)移路徑規(guī)律。但乳腺癌的轉(zhuǎn)移是一個多因素復(fù)雜的過程,如將數(shù)據(jù)量擴展至大數(shù)據(jù)級別,并盡可能詳細地了解患者的身體數(shù)據(jù)、用藥信息、生活習(xí)慣、乳腺癌發(fā)展時間及其大小等,可以總結(jié)出更全面具體的乳腺癌轉(zhuǎn)移規(guī)律,從而為其治療提供理論依據(jù)。未來將嘗試獲取更加全面的病歷檔案,用更專業(yè)的數(shù)據(jù)處理工具做深入的數(shù)據(jù)加工處理,得到多維度的分析結(jié)果。