張軍煒 管欣超 劉 韜 楊巧媛
廣州醫科大學公共衛生學院(廣州 511436)
現代研究普遍認為,腫瘤的發生與遺傳物質的改變密切相關。與腫瘤生長相關的基因主要有原癌基因與抑癌基因,分別參與細胞生長發育與抑制生長的調控過程。融合基因由兩個或以上基因的序列發生斷裂并結合產生,大多數融合基因的產生都與染色體的結構發生畸變有關,而染色體異位在腫瘤發生之初發揮著重要的作用[1],因染色體發生重排、缺失、異位和顛倒而產生的融合基因驅動了許多腫瘤的發展,這也被認為是腫瘤發生的重要因素。融合基因最早于白血病樣本中被首次發現[2],這是由9號染色體上的ABL基因與22號染色體上的BCR基因相互融合形成,并形成費城染色體[3]。
已有的研究中有越來越多的疾病被發現與融合基因有關,如肺癌[4]、乳腺癌[5]、甲狀腺癌[6]、前列腺癌[7]、白血病[8]等,因此對于融合基因的檢測及預測對臨床上疾病診斷及治療具有重要意義。由于融合基因是由兩個或以上基因的編碼區首尾結合形成的嵌合基因,其往往能夠轉錄出相應的嵌合RNA,但嵌合RNA并不僅僅通過融合基因轉錄生成,反式剪接也是嵌合RNA產生的主要機制之一。因此通過對轉錄組進行測序的方法識別出嵌合RNA后還需要再進一步對基因組進行分析,以此確定該RNA為融合基因的產物。臨床上對于融合基因的識別及檢測主要包括:熒光原位雜交(fluorescence in situ hybridization,FISH)[9]、逆轉錄聚合酶鏈式反應(reverse tran scription polymerase chain reaction,RT-PCR)[10]以及測序技術如sanger測序[11]和高通量測序技術(next-generation sequencing,NGS)[12]等方法,而關于融合基因的預測則更多需要借助其他生信工具進行,大多數對于融合基因的預測方法都需要預先準備好讀長不一的序列。
目前的研究發現,幾乎所有的融合基因均能夠產生相應的線性轉錄本(即嵌合RNA)。嵌合RNA由兩個或兩個以上基因的外顯子通過某種機制發生剪切組合而成,研究認為目前嵌合RNA的形成機制主要包括順式剪接,反式剪接以及融合基因的轉錄。傳統意義上,順式剪接是來自同一個基因的不同外顯子彼此連接的過程,當兩個或多個同一來源的前體mRNA剪接在一起即可形成嵌合RNA。反式剪接是兩個或多個不同來源的前體mRNA被剪接在一起的過程,該過程同樣能夠產生嵌合RNA。順式剪接和反式剪接均發生于轉錄后RNA剪接的過程中,而由于染色體發生重排等原因導致基因發生融合進而產生嵌合RNA的過程則發生于轉錄以前,這類機制所產生的嵌合RNA往往具有較高的表達豐度[13]。與普通基因轉錄得到的mRNA類似,部分的嵌合RNA也可翻譯出相應的蛋白質(即融合蛋白),而融合蛋白在臨床上具有較高的治療及診斷意義。正如人類發現的第一個融合基因BCR-ABL,它能夠導致人類發生慢性粒細胞白血病[14]。隨后科學家們又陸續發現了許多由融合基因產生的融合蛋白如RET-CCDC6[15]、EML4-ALK[16]等,這些蛋白在腫瘤的發生和發展過程中發揮了重要作用,同時也為腫瘤檢測與靶向治療提供了方向。
與正常基因類似,融合基因在轉錄的過程中也能通過目前尚未完全闡明的機制產生融合環狀RNA。環狀RNA是一類產生于轉錄之后,不具有5'末端帽子和3' 末端poly(A)尾巴、并以共價鍵形成環形結構的非編碼RNA分子,一般不易被RNA外切酶或核糖核酸酶R降解,因此穩定型比線性RNA高。環狀RNA廣泛存在于人體細胞當中,由特殊的可變剪切產生,常常富集于外泌體中并且能夠從體液中提取出來,結合其具有腫瘤特異性的特點,現常被用作潛在的腫瘤生物標志物[17]。在人體細胞中,環狀RNA可以通過與相應的RNA結合蛋白相互結合,從而影響相關基因的表達,部分環狀RNA也能夠通過與蛋白的相互作用來抑制翻譯的進程。融合環狀RNA的產生與普通環狀RNA的產生機制類似,其同樣為一種由轉錄后的剪接事件產生的內源性非編碼RNA,也與環狀RNA一般具有一樣的特性和功能,這提示融合環狀RNA的存在可能與癌癥的發生具有密切的關系,許多研究也正在陸續揭示二者的關聯,越來越多以融合基因為主要驅動因素的癌癥研究中均發現了相關的融合環狀RNA,如WU K等人[18]發現在非小細胞肺癌中,SLC34A2-ROS1融合基因可以產生名為F-circSR1和F-circSR2的融合環狀RNA,以及在GUARNERIO J等人[19]的研究中,發現在急性髓系白血病中,PML-RARA融合基因可以產生一個名為f-circPR的融合環狀RNA。作為一種較新穎的RNA分子,關于融合環狀RNA的研究目前尚有待加強。
測序技術發展的同時也促進了基因組學的發展,下一代測序技術已經能有效識別DNA的結構變化以及對不同的轉錄組進行分析,而其中RNA測序技術可用于在真核生物中識別不同的嵌合轉錄本。以相應的人類基因組序列作為參考序列,與待分析的RNA read進行比對之后篩選出未能匹配的read,這些read即可認為是嵌合RNA。但并非所有的嵌合RNA均可編碼蛋白,研究表明大部分的嵌合RNA均作為非編碼RNA而存在[20]。在利用RNA測序技術對融合基因進行檢測分析時,這些非編碼RNA極有可能影響檢測的結果。
對此,Christopher A等[21]利用了高通量測序法,綜合了長read和短read的分析,將長read與參考基因組進行比對之后,篩選出僅有部分讀長與參考基因組匹配的read作為候選嵌合體;再利用Illumina等平臺從相應的序列數據中生成短read,與參考基因組比對后篩選出包含有兩個基因片段的read,將這些read與候選嵌合體綜合分析,得出部分序列相同的read,其能夠包含同樣的融合基因斷裂點且屬于候選嵌合體之一,降低了無效嵌合體的影響及融合基因分析過程中的假陽性事件的發生。現階段許多針對融合基因的研究工具,基本都圍繞RNA序列展開,近年來也誕生了許多圍繞機器學習以及神經網絡等方法而開發的工具。
融合基因的斷點多發生于內含子區域,故對于融合基因的分析多從RNA的層面出發,目前常用的相關算法工具主要有SOAPFuse,InFusion,STAR-Fusion和JAFFA等工具,大多數的工具遵從如圖1的基本流程,這些工具都具有速度快、準確性良好等優點,同時又具有各自的特點。SOAPfuse和InFusion均能從RNA序列中高效識別出嵌合轉錄本,前者作為較早期開發的工具,現多與其他工具一同運用或用于與其他分析工具進行比較[22-25],后者能夠從RNA序列中檢測出基因間非編碼區域的融合事件。若在輸入的read中存在包含融合剪切位點的序列(SPLIT read),或是由雙端測序產生的,含有未測序的序列且跨越了剪切位點的序列(BRIDGE reads),InFusion能夠利用其新的算法對這些read進行聚類并重建融合轉錄本,并在結果中報告相應的基因區域和斷點的位置,以及相應融合位點的序列[26]。

圖1 嵌合RNA分析工具的基本流程
STAR-Fusion是建立在STAR基礎之上的工具,它能夠應用于融合轉錄本的預測,是目前主流的RNA序列比對軟件之一。STAR具有運行速度快、準確的優點,而STAR-Fusion則繼承了這些優點,同時在模擬數據和從細胞系中獲取的序列數據中仍具有較好的靈敏度和精確度[27]。在一項多種工具比較的研究中,STAR-Fusion具有較高的排名,在大多數情況下能夠保證較高的預測精度[28],但STAR-Fusion的運行需要消耗較高的內存,對硬件有一定的要求。JAFFA同為RNA比對軟件,但不同的是其將待分析的轉錄組RNA序列與轉錄組作為參考進行比較,且能夠應用于不同長度的read,同時能夠輸出候選的融合事件及其相關信息。在分析的過程中,長度小于100 bp的read能夠被JAFFA重新組裝為100 bp甚至更長的read,對于超長的read 具有良好的特異性,是利用RNA序列數據對融合基因進行分析工作的高效工具,在許多融合基因的研究中被廣泛運用[29-30]。

表1 不同嵌合RNA分析工具的比較
除此以外,根據不同用途目前也開發了一些不同的算法工具,如為了高通量藥物篩選而設計的一套檢測算法Arriba[31],它能夠在短時間內根據輸入的RNA序列進行演算識別,隨后輸出的結果具有較高的準確性,同時具有計算效率高、高敏感性的優點,能夠降低因樣品純度較低帶來的影響。在與deFuse、TopHat的比較中,Arriba的可靠程度最高,在15個融合事件的測試中靈敏度達到了80%[32]。此外,Paul Kerbs[33]等人也利用Arriba和FusionCatcher的輔助驗證對RNA測序技術和其余標準的診斷技術進行了比較和評估,取得了較好的預期效果。Fcirc則是另一款能夠識別出因融合產生的線性或環狀RNA的工具,其基于Python開發,能夠快速分析輸入的RNA序列。與STAR-SEQR和Arriba相比,Fcirc具有更高的精度,同時還有召回率(Recall)良好、分析時間短的特點[34]。在蛋白組學領域,有學者開發了FusionPro,這是一類蛋白質組學工具,它能將蛋白質組和轉錄組的數據結合分析,并對由融合基因翻譯而來的融合蛋白肽段序列進行鑒定,能夠用于對融合基因與融合蛋白的研究。Kim[35]等人利用FusionPro在白血病的3個細胞系中分別成功鑒定了82、281以及95個基因融合現象,同時初步揭示了可能存在的基因融合的剪切規律,為融合蛋白與腫瘤發生的關系研究提供了新的方法。
科技的進步促進了人工智能的發展,近年來也逐漸出現基于人工智能所開發的算法工具,如EasyFuse,FusionAI和ChimerDriver等。EasyFuse是基于機器學習開發的一個針對來自于臨床樣本獲取的轉錄組RNA序列進行預測的方法。在對read進行比對過濾后,EasyFuse僅保留不一致的一對read和比對失敗的read,這將能夠過濾掉至少90%的read,大大提高了運行速度。該算法具有計算性能高、靈敏度及精度高的優點,能夠對多種類型的樣本進行預測,David Weber等[36]利用EasyFuse成功表明了融合基因能夠提供豐富的腫瘤相關抗原,促進了免疫治療的發展。ChimerDriver和FusionAI[37-38]都是基于深度學習開發的對融合基因進行預測的算法。前者基于多層感知器的人工神經網絡模型,將轉錄因子和miRNA納入對融合基因的評估,并以此改進了對基因融合的致癌潛力的預測,同時能夠根據相應的轉錄因子和miRNA的特點將融合基因分為致癌與非致癌[39]。由于基因轉錄后其調控過程能夠影響其致癌的潛力[40],且部分檢測到的融合基因,由于其本身并不參與轉錄與翻譯表達的過程,在臨床研究(尤其是靶向治療的研究)中不具備實際意義,因此ChimerDriver能夠很好地幫助篩選研究所需的目的融合基因。后者能夠利用DNA序列預測出融合基因斷點,同時預測該斷點是否會成為潛在的融合基因斷點[37-38]。由于嵌合轉錄本的形成原因較多,且融合基因的斷點大多位于內含子上,導致融合轉錄本的斷點往往處在兩個外顯子的邊界,因此以RNA序列作為輸入數據較難識別融合基因斷點的存在。以往的預測算法大多采用RNA序列,因此可能無法獲取與DNA雙鏈斷裂相關的序列特征,而FusionAI從DNA序列出發,分別以FusionGDB數據庫中基于TCGA(The Cancer Genome Atlas)且融合斷點位于外顯子交界處的序列和同等數量的偽融合斷點序列為陽性數據和陰性數據來對模型進行訓練,并建立最終FusionAI模型[37]。
得益于測序技術的高速發展,人們發現了大量的嵌合RNA數據,而基于轉錄組RNA序列展開的一系列對于融合基因的預測技術,得出的結果大多為嵌合RNA。由于嵌合RNA的產生機制有多種,包括基因的順式剪切、反式剪切以及來自于融合基因的轉錄等,對于部分方法預測得出的嵌合RNA,暫無法認為其來源于融合基因。因此在實際應用中,還需要進行進一步的實驗分析方法來驗證嵌合RNA的來源是否與融合基因相關。
qRT-PCR在普通PCR的基礎之上增加了逆轉錄的過程和熒光探針。熒光探針與產物結合后能夠產生熒光信號,其強度與擴增的產物成比例增加。目前常用的探針為Taqman熒光探針,其5' 端和3' 端分別帶有熒光基團和熒光淬滅基團,當擴增時兩個基團互相分離,從而發出熒光信號并被檢測系統捕獲。在融合基因的檢測中,Taqman探針具有特異性高、耗時短的優點,Xiaodong Lyu等[41]利用qRT-PCR對多例急性骨髓性白血病進行分析后顯示,qRT-PCR具有良好的診斷效果,與細胞遺傳學診斷結果具有高度的一致性,是融合基因檢測中的高效方法。但在實際應用的過程中,往往需要研究者預先知曉發生的融合事件,以此來設計相應的引物。
FISH技術利用帶有熒光基團的單鏈DNA與目的基因進行雜交,從而對目的基因進行檢測。在基因突變、染色體變異等基因組結構研究中擁有廣泛的應用,而在融合基因的應用中有實驗周期短、特異性強、具有較高的靈敏度和精確度的特點。梁小芹等[42]利用FISH與免疫組化(immunohistochemistry,IHC)一同對ROS1融合型肺癌進行檢測并比較了二者的一致性,并未發現二者的檢測結果有顯著差異,因此FISH在臨床上是良好的診斷方法以及檢測工具。但由于需要人工在觀察,存在著操作復雜且結果主觀等缺點。
IHC的基本原理是抗原抗體的特異性結合。利用抗原與抗體結合后,發生化學顯色并被顯微鏡或其他儀器捕獲,從而能夠在細胞層面對融合蛋白進行識別及分析。根據標記物的不同IHC也有不同的分類,臨床上目前常用的方法包括免疫熒光法、酶標法等。前者利用帶有熒光標記的抗體作為探針,當與所需抗原結合后可發出熒光波長并被檢測儀器捕獲;后者利用帶有酶標記的抗體,與相應的抗原結合后再與后加的酶底物相互作用,釋放具有顏色的物質,該物質可于顯微鏡下觀察到。該方法具有操作簡單、成本低廉、適用范圍廣等優點,但也存在敏感度低、特異度差、無法區分不同類型的融合基因等缺點。從腫瘤診斷的角度,IHC檢測往往作為基因融合的替代標志物,如在NTRK融合基因的應用中,pan-TRK IHC檢測較為廣泛,但大多數情況下均用于對NTRK融合的篩查工具[43],即使其在NTRK的檢測中具有較高的敏感度,目前僅允許作為臨床診斷的輔助工具[44],對于某些呈現弱陽性的樣本,可能仍需要通過NGS等其他方法去進一步證實NTRK融合事件的發生。
從費城染色體的發現開始,融合基因逐漸成為腫瘤學領域研究的熱門話題,期間也產生了許多關于融合基因的產生和作用機制的研究,越來越多的作用通路也逐漸被揭示,同時也使得人們對融合基因的認識越來越深入。但即便如此,在測序技術尚未發展成熟的早期,人們對融合基因的識別非常困難。近幾年隨著測序技術的不斷發展,人們獲得了大量的基因序列數據,利用此技術也發現了許多轉錄組的數據,其中包括嵌合RNA。由于人類基因組中含有內含子序列,因此從轉錄組出發,對融合基因進行分析是目前研究的主要趨勢。在嵌合RNA分析領域,有許多不同的生信工具,他們各自因不同的優化和原理具備了不同的優缺點。縱使在實際應用當中并不會全部使用這些工具,但研究者仍能夠根據自身的需求以及不同配套的硬件設備去選擇不同的分析工具,且總體上看基于嵌合RNA的分析工具正在不斷往更高的效率、更良好的準確性發展。由于融合基因并不是產生嵌合RNA的唯一機制,從嵌合RNA出發對融合基因進行研究尚存在困難,后續仍需要對其是否來源于融合基因進行實驗驗證。主流的驗證實驗如qRT-PCR,熒光原位雜交和免疫組織化學等雖然都具有較高的準確性,但同時也具有成本較高、試劑昂貴等缺點,這也是融合基因分析的部分局限性所在。
作為癌癥的驅動基因,融合基因逐漸成為近年來癌癥研究的一大熱點。利用基因組學對癌癥進行分析,能夠根據不同類型的患者進行不同的診斷及治療,大大提高了診療的精確性。新的基因組學分析方法的出現,尤其是針對相關融合基因的預測,對腫瘤研究具有重要意義。無論是過去單靠測序技術發現的融合基因,還是如今依靠RNA測序衍生的一系列生物信息學工具,雖然都存在一些不可避免的缺陷,但都能夠用于篩選靶基因以用于分子靶向藥物的治療,在臨床上擁有廣泛的用途。在前沿領域,還存在許多基于不同理論研究而開發的算法[45-48],如何將理論層面的算法與融合基因分析相結合相信是未來融合基因分析發展的方向之一。在科技逐漸發達的時代,對于融合基因分析的方法將越來越成熟。