翟祥云,陳耀峰,李 輝,杜志強*
(1.東北農業大學 動物科學技術學院,黑龍江 哈爾濱 150030;2.農業部雞遺傳育種重點實驗室,黑龍江 哈爾濱 150030;3.黑龍江省教育廳動物遺傳育種與繁殖重點實驗室,黑龍江 哈爾濱 150030)
目前,肉雞育種的目標不僅要提高肉雞的生長速度,同時要降低肉雞腹部脂肪以提高雞肉品質,以滿足人們不斷提高的物質生活水平。基因的作用不是孤立的,而是作為復雜網絡的一部分來執行各種細胞過程。包括脂肪沉積在內的許多脂肪相關問題都是由基因失調引起的,導致網絡的攝動(拓撲變化)[1-3]。雞腹部(內臟)脂肪的動態消化代謝、內分泌協調和脂肪細胞生成等是受多轉錄基因調節的一個復雜過程,構建目標性狀驅動的相關基因網絡是功能基因組學相關研究的主要問題[4-5]。對基于同一組織里的所有基因存在同一個復雜網絡進行分析研究,本試驗擬采用differential sparsE regulatory network(DISCERN)算法對高低脂2組7周齡肉雞腹部脂肪的RNA測序轉錄組數據中的17 934個基因進行一一打分,根據得分高低及相關文獻搜索推斷其與脂肪沉積性狀相關的重要程度,并篩選出影響肉雞腹部脂肪沉積的關鍵基因。
1.1 數據及來源數據來源于NCBI GEO Series Accession #GSE42980。文獻資料顯示,該肉雞來自法國努齊立國立農學研究所家禽研究所(本文簡稱法國肉雞),根據腹脂量進行雙向選擇而得,根據基因型該肉雞分為高脂雞(fat line,FL)和低脂雞(lean line,LL)。隨機選取7周齡的FL和LL各4只,剝離腹部脂肪組織提取RNA,通過Illumina HiSeq 2000平臺進行測序分析。該測序原始數據包含24個樣本,17 935個基因。
1.2 DISCERN算法采用DISCERN算法[1]對數據進行分析,該方法是假設一個基因以2種方式在網絡中受到影響:一個基因影響其他基因的方式(圖1),例如,轉錄因子的驅動突變可以影響細胞增殖途徑。一個基因受其他基因影響的方式,例如,當一個突變基因(遺傳或表觀遺傳)獲得一套新的調控因子時,就會在肉雞生長和病變過程中發生 (圖2)。篩選導致基因網絡拓撲變化的基因對了解腹部脂肪分子機理和確定關鍵腹部脂肪靶點至關重要。本試驗利用肉雞的高、低脂系存在基因調控網絡為出發點,認為存在一類這樣的基因:在2種不同的生理狀態下(如高脂和低脂),基因與其他基因的聯系方式發生了較大變化,這種與其他基因變化聯系較大的基因被稱為差異聯系基因(differentially linked genes,以下簡稱DLGs)。

圖1 基因影響其他基因方式示意圖

圖2 基因受其他基因影響示意圖

其中,x1,…xp表示候選的調控因子,一組已知基因去調控其他基因,包括轉錄因子、染色質修飾體或調控因子以及信號轉導基因。
線性模型能夠從包含數萬個基因的全基因組表達數據中得到有效條件依賴性關系。一個零權重Wir表示調控基因r不會對目標基因i的表達程度產生影響。稀疏誘導正則化可以幫助基因選擇一個候選調控因子的子集,這種線性模型比其他方法更具生物合理性并解決了高維數據中基因數遠遠大于樣本數的問題。
為了確定任一給定基因的調控因子集,利用DISCERN懲罰回歸模型,將每個基因的回歸優化問題定義如下:
(2)

利用DISCERN方法來分析脂肪組織基因表達水平間的條件相關關系,評價肉雞的轉錄因子如何調控每個基因在高、低脂系脂肪組織中的基因調控網絡的位置和網絡結構變化,計算相關得分(分值越高,網絡結構變化越大),這種算法被定義為:
(4)
其中,ns是數據中狀態為s下的樣本數,分子是預測基因i在高脂系(低脂系)的權重系數下低脂系(高脂系)表達水平的測量誤差,如果基因i在高脂系和低脂系之間有較大的權重系數差異,那么基因i有可能有一個高的DISCERN分數。分母作為歸一化因子發揮著重要作用,最后得到的DISCERN值是一個相對表達量。
運用DISCERN算法得到法國肉雞腹脂中所有基因的得分排序結果,共篩選到677個DLGs(以分值>15為篩選閾值)。根據相關文獻查閱及基因分子功能分析,挑選其中的14個重要基因,整理基因主要信息如表1。其中,HCN4是心臟的起搏基因,屬于HCN基因家族成員,可以編碼產生起搏電流,參與心臟活動[6]。NPPC屬于利鈉肽家族成員,可以調節糖脂代謝[6];NPPC和受體結合,通過cGMP/PKG通路進一步分解脂肪[7]。UCN3是CRF肽家族新成員,對CRFR2具有高親和性,被認為是CRFR2的內源配體。UCN3廣泛分布于動物的各種組織,如在外周組織中,UCN3在消化道、肝臟等組織均有豐富表達,尤其是胃組織,因此UCN3可能參與食欲控制和代謝調節[8]。FGF13屬于FGF家族成員,該家族是一個生長因子大家族[9];FGF13又稱FHF2,參與脂肪前體細胞分化,已被多次報道可能與肌肉的生長發育相關[9]。CERKL基因依靠與SIRT1的相互作用對自噬進行調節,自噬即自我降解途徑,在饑餓狀態下,通過自噬可從機體獲得能量,維持生存。自噬是一種分解機制,與脂肪沉積有密切聯系。SIRT1的磷酸化也受CERKL基因調節,SIRT1是自噬乙酰化與去乙酰化的主要調節蛋白[10]。GHRHR基因屬于生長激素釋放激素受體,和藏雞或瀘寧雞等其他品種肉雞相比,該基因在白羽肉雞中的基因表達量較高[11]。SLC38A5與谷氨酰胺轉運及降解有關,參與谷氨酰胺代謝[12]。GATA4是鋅指結構域轉錄因子,可調控細胞分化和增殖;鋅指結構域轉錄因子家族有6個成員,其中GATA2和GATA3具有抗成脂分化作用,能夠與C/EBPα和β結合,破壞其轉錄活性,這說明GATA因子可以通過多種信號通路阻礙脂肪的生成[13]。PLAC8是胎盤特異蛋白8,又稱C15或onzin,該基因表達的蛋白富含半胱氨酸;PLAC8是一個誘導劑,通過C/EBPβ通路,促進棕色脂肪分化,從而調節體溫和控制體質量;PLAC8通過AKT及RAF-1-ERK2-C-MYC通路信號調控細胞增殖[14]。綜上,成功篩選出一批與脂肪沉積相關的候選基因。

表1 重要基因、得分及基因主要信息列表
本試驗采用的DISCERN算法可以有效識別影響肉雞腹部脂肪沉積的關鍵基因,DISCERN算法用模型系數的絕對值函數作為先驗值來壓縮模型系數,兼有子集選擇和嶺回歸估計的優點。采用DISCERN方法進行變量選擇與未知參數估計,可用于高維數據分析和解決多重共線性問題[15-16]。
本試驗對7周法國肉雞齡腹部脂肪轉錄組測序數據中的17 934個基因進行打分篩選,對基因調控網絡進行量化研究,旨在篩選出能夠較大程度影響網絡結構差異,且具有重要生物學意義的基因,可以為篩選與目的性狀相關的重要候選基因以及預測新的基因功能提供依據。