鄧 甦, 姜 楊, 付長賀
(1. 沈陽師范大學 數學與系統科學學院, 沈陽 110034;2. 內蒙古財經大學 統計與數學學院, 呼和浩特 010070)
細胞中2個基因同時突變有時會產生一種表現型異常于單個基因突變的效應,這種現象被稱為基因相互作用[1-2]。基因相互作用不同于蛋白質之間的物理聯系(通過共價鍵形成蛋白質復合體),其表現為基因之間的功能聯系,如:互補基因、異位顯性基因、修飾基因、抑制基因、調節基因等[3]。此外,基因相互作用還可以有效地解釋有性生殖和重組的選擇優勢[4]以及輔助識別細胞信號通路[5-7]。近些年,基因相互作用的研究已經變得越來越系統,尤其在模式生物酵母菌中實驗規模也越來越大[8-12]。這些實驗數據為定量定義基因相互作用提供了機會,也為基因表達的潛因子分析提供了新的思路[13-14]。
定量方式定義基因相互作用需要2個部分:數據,即生物體由于基因突變而觀測到的可量化的表型測量,通常包括單個基因突變的表型測量數據(單突變值)、一對基因同時突變的表型測量數據(對突變值)和重復實驗的偏移度等;預期中立函數或預期函數,用于預測2個單突變同時發生卻互不影響情況下的表型值,一般有乘法型、加法型、對數型和最小型[15]。定量形式定義的基因相互作用就是對突變值偏離于這2個單突變的預期中立函數值。因此,這種定義方式可以定義2種基因相互作用,如果對突變值小于預期值,則這對基因的相互作用就被定義為惡化型(synergistic),若相反則定義為弱化型(alleviating)。這種偏移如果很小就認為這對基因之間沒有相互作用。
目前,大多數基因相互作用研究都以酵母菌為模式生物,采用的表型測量基本都是適合度(fitness),即微生物種群的生長效率,而根據不同的適合度測量方法出現了乘法型、加法型、對數型的預期中立函數[3,15-17]。此外,還有一種最小型期望函數,即取2個單突變值的最小值作為返回值。最小型期望函數的理論假設是2個單突變都破壞了一個限制細胞生長的細胞通路,因此其中一個突變實質上比另一個更具限制性,而對突變可能會表現出最大限制單突變體的表型[18-19]。關于上述4種方法,文獻[15]指出,即使是同一形式變種的乘法型、加法型、對數型預期函數,在同一數據集上也會得到不同的相互作用。盡管如此,還是有一些有趣的結果被發現,對于獨立且比較小的適應性突變,乘法型定義和加法型定義結果基本一致,而與其他定義不同[16];當其中一個單突變具有野生型適應度時(突變未引起適合度顯著變化),所有預期函數得到的基因相互作用都相同[17]。總的來說,目前研究表明,對于大多數情況,沒有實際經驗可供參考該如何選擇預期函數,也不清楚是否存在其他類型的期望函數,更不清楚對于其他表型測量方法上述預期函數是否適用。
鑒于上述問題,本文設計了一種數據驅動的基因相互作用定義方法,該方法基于機器學習思想,從實驗數據出發構建符合數據特征的中立函數。該方法克服了經典固定中立函數極易受到實驗批次效應等環境因素影響的缺點,基于實驗數據自身特征通過回歸擬合方法構建期望中立函數,進而定義更為精準的基因相互作用。為了去除惡化型和弱化型對突變回歸中立方程的影響,該方法采用迭代回歸的框架,每次迭代首先回歸出中立函數,然后計算每組估計對突變表型值和實際觀察值之間的殘差,最后剔除殘差相對比較大的樣本,使用新的數據進行下一次循環。在包含8000組對突變的數據集中使用本方法,發現了2 000對惡化型和1 000對弱化型基因相互作用,比經典定義方法更為精準。
青櫻不覺苦笑,柔聲道:“你生下三阿哥才三個多月,這樣跟著我疾走,豈不傷了身子?”青櫻見她身體姿孱孱,愈加不忍,“是我不好,沒察覺你跟著我來了。”
為了獲得精確的回歸中立函數,采用迭代的過程逐批剔除殘差絕對值比較大的點,這里設置了一個剔除參數cutoff,表示每次迭代剔除多少個樣本,此參數設置大小可影響迭代次數以及結果的精確度,可以作為超參數調節。ε為收斂精度參數,可根據數據質量適當調節。原始數據如果不是乘法型適應度表型值可以事先轉換,并全部取對數以滿足模型(3),算法大致流程如圖1所示。
y=x1·x2
(1)
情況 3 v9不染1, 不失一般性,假設它染3,則可用上述的方法將窮點v1,v5的顏色2改染為顏色1, 并用2 來染v。

(2)
使用python語言的pandas包、sklearn包和matplolib包對數據進行分析。通過超參數調整,最后設定cutoff=100,ε=0.000 1,程序運行了20次迭代后趨于收斂,獲得的回歸系數為b1=1.003,b2=1.091,C=0.991。把這些系數帶入公式(2)可得回歸中立函數為
式(4)看上去和經典式(1)沒有太大的差別(只有接近于1的系數差別),但是使用這個函數定義的基因相互作用為惡化型有81 555對,弱化型有80 856對,而傳統函數定義的數字是惡化型有100 108對,弱化型有521 163對。可見回歸中立函數(4)定義的基因相互作用更為均勻,通過回歸系數調節使得回歸超平面更適合當前數據的分布,得到的結果更符合生物客觀規律。
lny=lnC+b1lnx1+b2lnx2
(3)
將在上一小節中獲得的b1,b2,exp(C)直接帶入公式(2)中即可得到回歸中立方程,相對傳統中立方程公式(1),加入的3個參數是通過數據回歸獲得的,這使得其更貼合當前數據特征。在定義基因相互作用時,由于實驗誤差等隨機因素存在,所以一般不會直接把突變值減去中立預期值小于零定義為惡化型,大于零定義為弱化型,而是預設一個閾值,一般為0.08或0.12,只有差值絕對值大于這些閾值才被定義為基因相互作用。
線性回歸模型在許多領域都有廣泛應用,主要是針對乘法型預期中立函數的微生物適合度表型數據建立回歸模型,其經典的乘法型預期函數如下:

圖1 算法流程圖Fig.1 Algorithm flow chart
這里并沒有對誤差項進行討論,假設公式(3)誤差項服從正態分布。對于公式(3),可以對原始數據取對數,再采用經典線性回歸方法估計出其中參數。
為了驗證本文方法的有效性,將這一方法應用于文獻[11]數據中定義基因相互作用并同傳統定義方法進行比較。該數據集是一個酵母菌雙突變表型數據集,包含了660多萬條記錄,每條記錄有13列,主要包括查詢基因名、陣列基因名、查詢單突變值、陣列突變值、對突變值以及實驗p值等,提取其中p值小于0.05的記錄,以避免較大的實驗誤差。而對于對稱記錄(一對基因分別作為查詢基因和陣列基因成為2條記錄)的矛盾問題,剔除這對記錄對突變值之差的絕對值大于0.04的記錄。最后的實驗數據集一共包含了將近68萬條記錄。
其中:參數b1和b2的作用是調節x1和x2對于y的影響;C控制總體偏移。顯然,對公式(2)兩邊取對數可以得到經典的線性回歸模型:

(4)
“我不信你一點兒也不重要,可是梁兒對此深信不疑。他堅信你懷了他的孩子,找我大吵大鬧,最后不惜和我決裂。”黃書記又說。
其中:y表示預期中立值;x1和x2分別表示突變的單個表型值。建立模型如下:
通過實現銅冶煉工廠的自動化、數字化、模型化、集成化、智能化,構建企業的智能決策、智能生產管理、智能執行與感知體系,打造從管理決策到執行反饋的閉環管控結構,實現制造效率、成本、質量等資源優化配置的智能化工廠。
進一步對2種方法定義的基因相互作用得分進行分析,ε定義如下:
隨著人工智能技術的發展,萬物皆媒,全息傳播的智媒體時代已經到來,我們必須強化戰略意識和危機意識,加強法制建設和科技攻關,深化文化體制改革,牢牢掌握馬克思主義的領導權話語權,努力增強新聞傳播特別是網絡傳播信息安全的責任感,加強中國哲學社會科學話語體系建設和構建意識形態安全防御體系,創新講好中國故事,為構建人類命運共同體提供正確的精神指引。
ε=yo-ye
(5)
式中:yo為實際觀測到的對突變值;ye是通過式(1)或式(4)計算的期望中立值。由2種方法定義的基因相互作用得分ε的分布,不難得出經典式(1)定義的基因相互作用得分均值正向偏移,而本文方法定義的幾乎以零值對稱,進一步證明了本文方法的有效性。
基于迭代回歸的基因相互作用定義方法,充分利用當前表型數據集蘊含的信息定義,更符合生物規律的基因相互作用,克服了經典方法中固定中立函數帶來的不足。本文設計的方法只針對乘法型適定性表型測量數據,對于最小型等其他類型還在進一步研究當中。