鄭卓 趙佳玲 李春



摘? 要:該文提出了DNA序列的一種3-D圖形表示,并且針對此圖形表示的非退化性給出了數學證明。然后計算所提3維圖形表示的L/L矩陣的ALE指標,并給出了所提3維圖形的圖半徑,從而對DNA序列進行數值刻畫。結合物理學中重力場勢函數的思想,構造了向量形式的數據對象間的勢函數,進而以K-近鄰算法為分類器,對208個RIG-I基因進行了分類識別。實驗結果證明了該文所提的分類辦法是有效的。
關鍵詞:圖形表示? 數值刻畫? 數據場? RIG-I基因? 序列分析
中圖分類號:Q78 ? ? ? ? ? 文獻標識碼:A 文章編號:1672-3791(2020)07(c)-0027-03
DNA Sequence Analysis Based on Data Field and 3-D Graphical Representation
ZHENG Zhuo1? ZHAO Jialing1? LI Chun2*
(1.School of Mathematics and Physics, Bohai University, Jinzhou, Liaoning Province, 121000 China; 2.College of Mathematics and Statistics, Hainan Normal University, Haikou, Hainan Province, 570000 China)
Abstract: This paper presents a 3-D graphical representation of the DNA sequence, and gives a mathematical proof for the non-degenerate nature of the graphical representation. Then calculate the ALE index of the L/L matrix represented by the proposed 3-dimensional graph, and give the graph radius of the proposed 3-dimensional graph, thereby numerically characterizing the DNA sequence. Combining the idea of the potential function of gravity field in physics, the potential function between data objects in the form of vectors is constructed, and then 208 RIG-I genes are classified and identified using the K-nearest neighbor algorithm as the classifier. The experimental results prove that the classification method proposed in this paper is effective.
Key Words: Graphical representation; Numerical characterization; Data field; RIG-i gene; Sequence analysis
隨著現代測序技術的發展和生物序列數據的急劇積累,序列分析已成為生物信息學中的一項重要任務。圖形表示為序列數據的定性和定量研究提供了強有力的工具。Gates[1]通過將x軸的正負方向賦予C和G,y軸正負方向賦予T和A,提出了DNA序列的一種2-D圖形表示(見圖1(a))。類似地,Nandy[2]提出了一種DNA序列的AG/CT圖;Leong and Morgenthaler[2]則給出了AC/GT圖(見圖1)。上述圖形表示在生命科學的很多研究領域都得到了應用,然而遺憾的是這些方法都存在嚴重退化現象。結合Nandy的2-D圖,Guo等[3]通過將4個方向翹起一個小的角度進行改進,即進行如下的賦向:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?這里d取正整數(見圖1(d))。文中證明了當d是偶數時,圈的最小長度為4d;當d是奇數時,圈的最小長度為2d。這表明Guo等的改進圖形表示并未能完全避免退化現象。
受Guo等改進思想的啟發,該文提出了DNA序列的一種3-D圖形表示,證明了此種圖形表示是非退化的,并給出了其在DNA序列分析中的應用。
1? 方法
1.1 DNA序列3-D圖形表示及其性質
在3維空間中,將DNA序列4種堿基A、G、C、T分別賦予4個方向向量(見圖1(e)):
對任一給定的長度為n的DNA序列? ? ? ? ? ? ? ? ? ?1從左到右每次觀察一個堿基,遇到哪個堿基就按上述規則在當前位置沿著相應方向行走。這樣,遍歷n個堿基后就得到3維空間中n個點? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?1將各點依次連接,于是序列S便轉化為一條3-D曲線。其中,點1? ? ? ? ? ? ? ? ? ? ? 可以按照如下公式得到:
這里? ? ? ? ? ? ? ? ? ? ? 為堿基SK對應的向量的第i個分量。
性質1:該3-D圖形表示是無圈的,即非退化。
證明:假設圖中存在圈,設圈長為m,且用m、cm、m、tm別表示4種堿基A、C、G、T在該圈中出現的數目,則有:
即:
從而圈長? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 即無圈。性質1得證。
1.2 DNA序列的數值刻畫
對于每一個3-D圖形表示來說,與Nandy 2-D圖形表示類似,可提取其圖半徑我們規定相應定義如下:
一旦序列的圖形表示被給出,文獻中另一個進行數值刻畫的途徑是將圖轉化為矩陣,然后提取有關不變量[4,5]。該文考慮L/L矩陣,其矩陣元素定義如下:
其中,為圖中第i, j兩點間的歐式距離,表示它們的圖論距離。L/L矩陣有一個很好的特點,就是其元素都被規范到[0,1]區間。在此基礎上,該文選擇我們提出的ALE指標作為不變量[6]:
其中:
上面我們是把4個方向向量依次賦予A、C、G、T而得到的3-D圖形。不難發現,若將這4個方向向量依次賦予G、T、A、C,在對稱的意義上,所得的圖形是同一個。事實上,基于這樣的4個方向向量,本質上有12種不同的3-D曲線與同一條DNA序列相對應。從每一個3-D曲線提取1個ALE指標和1個圖半徑。于是,一條DNA序列S便與一個24維向量相對應,其中有12個ALE指標,12個。為了方便,將這個24維向量記為特別的,在實際問題中為了剔除序列長度的背景影響,可進一步令
此外,被認為是DNA序列分析中一個重要的量[7]。其中a、c、g、t分別表示序列中堿基A、C、G、T出現的頻率。從而,我們便將一條DNA序列S轉化為一個帶有ρ值的24維向量:
2? 應用
2.1 數據場與數據對象間的勢函數
場的概念最早是由英國物理學家法拉第于1837年提出,用來描述物質粒子間的非接觸性相互作用[8]。參照物理場,如果我們把24維空間中的每一個點都視為一個粒子,便有數據場的概念,進而可定義數據對象X對Y(理解成在Y處)的勢函數。參考重力場勢函數,并借鑒簡艷等[9]的思想,該文定義兩個數據對象X、Y之間的勢函數關系如下:
其中
顯然,二者間的關系越密切,它們的勢值越大。
2.2 RIG-I基因的分類識別
當機體感染病毒時,會誘導產生相應免疫反應。RIG-I (維甲酸誘導基因I)是細胞質中的模式識別受體,能夠識別病毒復制產生的雙鏈RNA和5三磷酸基團的單鏈RNA,并通過激活Ⅰ型干擾素來引發抗病毒免疫反應[10]。該文所使用的數據集包括208個RIG-I序列數據,其中147個是脊索動物,其余61個為無脊椎動物。所有數據均來自NCBI數據庫。為了敘述方便,我們稱數據集中147個脊索動物基因為正樣本集,記作S+;稱其余61個基因為負樣本集,記作S-。
由于兩個基因間的勢函數值越大,二者間的關系越密切,所以可以根據勢函數值大小確定“鄰近”關系。該文在前述所構造的勢函數的基礎上,采用K近鄰(K-NN)算法進行分類識別。我們從S+、S-中分別隨機選取55%的樣本作為訓練集,其余45%作為測試集(共93條序列)。實驗中有兩個待定參數:最近鄰居數K和勢函數中的。依次給定K=1,3,5,7,然后測試的不同取值。結果發現,當時,分類識別可達到較理想效果。我們進行了10次交互驗證,實驗結果見表1。從表1可以看出,每次的識別率(AC)在97%以上。10次實驗的平均精度達到了98.51%。
參考文獻
[1] 產院東.基于多核和眾核平臺的并行DNA序列比對算法[D].山東大學,2019.
[2] Dwaipayan Sen,Proyasha Roy,Ashesh Nandy,etal. Graphical representation methods: How well do they discriminate between homologous gene sequences?[J]. Chemical Phgsizs,2018(513):156-164.
[3] GUO XF, RANDIC M, BASAK SC. A novle 2-D graphical representation of DNA sequences of low degeneracy[J].Chemical Physics Letters,2001, 350:106-112.
[4] 向其林.基于新型表達模式的序列特征獲取方法及應用研究[D].湖南大學,2017.
[5] 崔穎,徐澤龍,李建中.基于綜合DNA序列特征的支持向量機方法識別核小體定位[J].生物醫學工程學雜志,2020,37(31):1-6.
[6] LiChun,Lz Xueqm,Lin Yan-xia. Numerical Characterization of Protein Sequences Based on the Generalized Chou's Pseudo Amino Acid Composition[J]. APPLied Scouces,2016,6(12):406.
[7] Chun Li,Nadia Helal,Jun Wang. Recognition of protein coding genes in the yeast genome based on the relative-entropy of DNA[J].COmbunatorial Chemistry 8c Higt Throughput Screening,2006,9(1): 49-54.
[8] 仲茜,李涓子,唐杰,等.基于數據場的大規模本體映射[J].計算機學報,2010,33(6):955-965.
[9] 簡艷,賈洪勇.一種基于數據場的K-均值算法[J].計算機應用研究,2010,27(12):4498-4501.
[10] 程玉強.雞MDA5-STING-IFN-β抗病毒天然免疫通路的發現及其信號轉導機制[D].上海交通大學,2016.
[11] 費文超.DNA序列的圖形表示及其應用[D].渤海大學大學,2016.
[12] 王科.基于圖形表示的DNA序列相似性分析[D].河北科技大學,2016.