蔣丹捷 葉丁 章曉聰 李其龍 金明娟 陳坤,2
作者單位:310058 杭州 1浙江大學公共衛生學院流行病與衛生統計學系;310009 杭州 2浙江大學醫學院附屬第二醫院;314100 嘉興 3嘉善縣腫瘤防治所辦公室
據國際癌癥研究機構統計報告,2018年結直腸癌(colorectal cancer,CRC)在世界范圍內以超過180萬例新發病例居常見惡性腫瘤發病第三位,占惡性腫瘤總發病數比例為10.2%;死亡病例約86.2萬例,占惡性腫瘤總死亡病例數的9.2%[1]。CRC的發生是多步驟、多因素參與的復雜過程,且具有較長的癌前病變過程和明顯的分子特征。
隨著分子生物學的發展,結直腸癌分子標志物的研究越來越深入。自從1974年MORSON[2]提出結直腸腺瘤——癌癥演變序貫學說(the adenoma-carcinoma sequence)以來,許多測序研究追蹤了大多數結直腸息肉演變至結直腸癌的過程,其中主要包括2條途徑:染色體不穩定性途徑和微衛星不穩定性途徑[3]。在這2條途徑中,大約有25個常見基因受到突變影響而成為大多數結直腸癌的主要驅動因素。這些基因包括常見的抑癌基因,如APC和TP53等[4-5],以及常見的突變癌基因,如KRAS、PI3KCA、BRAF和NRAS等[6-8]。常見的分子改變包括DNA序列的改變,如單核苷酸多態性(single nucleotide polymorphism,SNP)[9]、體細胞突變[10]等;表觀遺傳修飾,如 DNA 甲基化[11]、組蛋白修飾[12]等,以及 RNA 水平對基因的調控[13-14]等。其中,SNP指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性,它是人類可遺傳變異中最常見的一種。SNP數量分布密度高,具有較高的遺傳穩定性,易于基因分型,是一種非常適于篩查的分子標志物。
遺傳風險評分(genetic risk score,GRS)作為研究SNPs與復雜疾病之間關系的新興方法,綜合了若干SNPs的微弱效應,使基因多態對疾病的預測性大幅度提升。本文旨在總結國內外學者對GRS在CRC風險評估中的最新研究進展,為后續研究提供依據。
隨著“人類基因組計劃”和“人類基因組單體型圖計劃”相繼完成,以及全基因組關聯研究方法和高通量測序技術的日益成熟,人們已經發現了許多與不同復雜疾病相關的易感基因和遺傳位點。為了更全面有效地探索遺傳因素在復雜疾病中的作用,人們構建了一系列分析方法來探索遺傳序列變異與復雜疾病之間的關系。其中,GRS能整合多個SNPs的綜合信息來評價基因序列變異和疾病之間的聯系,且預測性和重復性較好,被應用于許多復雜疾病的研究中,基于GRS建立相關疾病風險評估模型也表現出良好的效能[15-18]。
GRS用于評價遺傳易感位點在疾病風險預測模型中的效果,常用的評分方法主要有簡單相加遺傳風險評分(simple count genetic risk score,SC-GRS)、以OR值作為權重的遺傳風險評分(odds ratio weighted genetic risk score,OR-GRS)和可釋方差遺傳風險評分(explained variance weighted genetic risk score,EVGRS)等。具體計算公式[19]如下:

i代表本研究中遺傳易感性位點的個數;Gi代表危險等位基因的個數(0,1,2);ORi代表遺傳易感性位點在本研究中的OR值;MAFi代表遺傳易感性位點在本研究中的MAF。
SC-GRS計算簡便,通俗易懂,在現有研究中應用較多,但是此方法假設各個SNP對疾病的遺傳效應相同;而OR-GRS考慮不同易感位點對疾病的不同效應,往往依賴既往研究或本身研究,以對數轉換后的OR值作為權重,具有較大OR值的SNP對疾病的風險貢獻更大,其中OR-GRS的效應量估計主要依賴實驗數據,因此應盡量選用樣本量大、可靠性好的研究;EV-GRS在OR-GRS的基礎上,還納入了MAF這一變量,綜合考慮了基因突變頻率對疾病風險的影響。隨著更多易感位點的加入,模型的復雜性也隨之增大,新的構建方法也有待后續開發和評估。
目前關于CRC的GRS研究大多集中在SC-GRS和OR-GRS,因此本文就這兩方面的研究進展進行綜述。
由SC-GRS構成的CRC風險預測模型分別在中國[20-21]、日本[22]、韓國[23-24]、美國[25]、德國[26-27]等國家中得到了驗證,研究者首先納入GWAS研究中與CRC易感性相關的位點,再對顯著候選位點進行SC-GRS構建,其受試者工作特征曲線下面積(AUC)或C統計量均達0.60以上(表1)。在聯合年齡、性別、吸煙、飲酒、體育鍛煉、家族腸癌史等CRC相關危險因素后,合并模型的風險預測水平得到了進一步提升。
HSU等[25]在美國人群中建立的SC-GRS風險預測模型還發現了性別間的差異,此模型在男性樣本中的預測效能優于女性。在韓國KCPS-Ⅱ病例隊列研究中建立的SC-GRS風險預測模型合并其他相關因素后的AUC可達到0.74[23],診斷效能較優的可能原因是其構建模型的樣本來源于CRC病例隊列,此模型對鑒別CRC病例和正常人的作用較強,但對癌癥早期病變的篩查能力相對較弱。另外,來自德國的BLITZ研究還證實了與CRC相關的SC-GRS可能與結直腸腺瘤的發生風險相關,此項研究的發現將有助于定義結直腸進展期腺瘤的篩查年齡[27]。
由OR-GRS構成的CRC風險預測模型也在不同研究中得到了驗證[20-21,24,28-29]。其中,李嬌元等[20]在中國南方漢族人群的研究中對7個顯著候選位點分別建立SC-GRS和OR-GRS,研究結果顯示,OR-GRS聯合年齡、性別、吸煙、飲酒4項傳統風險因素的模型為最優模型,其AUC為0.593,AUC相較于SC-GRS的合并模型有所提升。日本一項JPHC研究[28]對6個陽性位點進行OR-GRS構建,分別評估了遺傳模型、合并模型和其他模型的效應,研究結果顯示三者的C統計量分別為0.63、0.66和0.60。美國一項CPRU研究[29]同樣提示了由5個SNP構建的OR-GRS模型優于SCGRS模型,該研究還揭示了CRC相關遺傳易感位點在結直腸腺瘤中可能發揮作用,有助于探討CRC和結直腸腺瘤共有的遺傳易感位點,以及尋找結直腸腺瘤癌變的關鍵基因或分子。在同一項研究中發現ORGRS較SC-GRS的診斷效能更優,提示考慮不同易感位點對疾病的效應具有一定價值和意義。

表1 GRS在CRC及其相關疾病風險預測模型中的研究結果
構建CRC相關的GRS不僅有利于更全面地解讀疾病遺傳病因和致病機制,也為構建更有效的疾病風險預測模型提供新的線索和依據。同時已有學者提出CRC篩查工作的重心應由CRC向癌前病變前移[30],探索CRC的易感位點在結直腸腺瘤中的作用能為CRC的早期預防和診療提供幫助。
在構建CRC風險預測模型中,研究者們往往聯合其他CRC相關危險因素作為非遺傳標志物,如吸煙、飲酒、BMI、體育鍛煉、家族史等[31-36]。綜合現有的研究成果,聯合傳統危險因素和GRS的風險預測模型與單純GRS風險模型或單純危險因素模型相比,確實可以提高其預測能力,但提高的幅度仍有限。目前CRC相關的GRS研究還存在以下局限性:⑴由于CRC的遺傳易感因素尚未徹底闡明,單個GRS研究納入的易感位點不夠系統全面;⑵目前GRS納入位點通常基于既往GWAS研究或Meta分析,這些研究存在人群異質性等流行病學偏倚;⑶目前的GRS風險評估模型尚未充分考慮基因-基因交互作用與基因-環境交互作用。因此,構建CRC的GRS機遇與挑戰并存,構建具有轉化意義的疾病風險預測模型仍需努力和創新。