999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據場與3-D圖形表示的DNA序列分析

2020-12-24 07:59:09鄭卓趙佳玲李春
科技資訊 2020年21期

鄭卓 趙佳玲 李春

摘? 要:該文提出了DNA序列的一種3-D圖形表示,并且針對此圖形表示的非退化性給出了數學證明。然后計算所提3維圖形表示的L/L矩陣的ALE指標,并給出了所提3維圖形的圖半徑,從而對DNA序列進行數值刻畫。結合物理學中重力場勢函數的思想,構造了向量形式的數據對象間的勢函數,進而以K-近鄰算法為分類器,對208個RIG-I基因進行了分類識別。實驗結果證明了該文所提的分類辦法是有效的。

關鍵詞:圖形表示? 數值刻畫? 數據場? RIG-I基因? 序列分析

中圖分類號:Q78 ? ? ? ? ? 文獻標識碼:A 文章編號:1672-3791(2020)07(c)-0027-03

DNA Sequence Analysis Based on Data Field and 3-D Graphical Representation

ZHENG Zhuo1? ZHAO Jialing1? LI Chun2*

(1.School of Mathematics and Physics, Bohai University, Jinzhou, Liaoning Province, 121000 China; 2.College of Mathematics and Statistics, Hainan Normal University, Haikou, Hainan Province, 570000 China)

Abstract: This paper presents a 3-D graphical representation of the DNA sequence, and gives a mathematical proof for the non-degenerate nature of the graphical representation. Then calculate the ALE index of the L/L matrix represented by the proposed 3-dimensional graph, and give the graph radius of the proposed 3-dimensional graph, thereby numerically characterizing the DNA sequence. Combining the idea of the potential function of gravity field in physics, the potential function between data objects in the form of vectors is constructed, and then 208 RIG-I genes are classified and identified using the K-nearest neighbor algorithm as the classifier. The experimental results prove that the classification method proposed in this paper is effective.

Key Words: Graphical representation; Numerical characterization; Data field; RIG-i gene; Sequence analysis

隨著現代測序技術的發展和生物序列數據的急劇積累,序列分析已成為生物信息學中的一項重要任務。圖形表示為序列數據的定性和定量研究提供了強有力的工具。Gates[1]通過將x軸的正負方向賦予C和G,y軸正負方向賦予T和A,提出了DNA序列的一種2-D圖形表示(見圖1(a))。類似地,Nandy[2]提出了一種DNA序列的AG/CT圖;Leong and Morgenthaler[2]則給出了AC/GT圖(見圖1)。上述圖形表示在生命科學的很多研究領域都得到了應用,然而遺憾的是這些方法都存在嚴重退化現象。結合Nandy的2-D圖,Guo等[3]通過將4個方向翹起一個小的角度進行改進,即進行如下的賦向:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?這里d取正整數(見圖1(d))。文中證明了當d是偶數時,圈的最小長度為4d;當d是奇數時,圈的最小長度為2d。這表明Guo等的改進圖形表示并未能完全避免退化現象。

受Guo等改進思想的啟發,該文提出了DNA序列的一種3-D圖形表示,證明了此種圖形表示是非退化的,并給出了其在DNA序列分析中的應用。

1? 方法

1.1 DNA序列3-D圖形表示及其性質

在3維空間中,將DNA序列4種堿基A、G、C、T分別賦予4個方向向量(見圖1(e)):

對任一給定的長度為n的DNA序列? ? ? ? ? ? ? ? ? ?1從左到右每次觀察一個堿基,遇到哪個堿基就按上述規則在當前位置沿著相應方向行走。這樣,遍歷n個堿基后就得到3維空間中n個點? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?1將各點依次連接,于是序列S便轉化為一條3-D曲線。其中,點1? ? ? ? ? ? ? ? ? ? ? 可以按照如下公式得到:

這里? ? ? ? ? ? ? ? ? ? ? 為堿基SK對應的向量的第i個分量。

性質1:該3-D圖形表示是無圈的,即非退化。

證明:假設圖中存在圈,設圈長為m,且用m、cm、m、tm別表示4種堿基A、C、G、T在該圈中出現的數目,則有:

即:

從而圈長? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 即無圈。性質1得證。

1.2 DNA序列的數值刻畫

對于每一個3-D圖形表示來說,與Nandy 2-D圖形表示類似,可提取其圖半徑我們規定相應定義如下:

一旦序列的圖形表示被給出,文獻中另一個進行數值刻畫的途徑是將圖轉化為矩陣,然后提取有關不變量[4,5]。該文考慮L/L矩陣,其矩陣元素定義如下:

其中,為圖中第i, j兩點間的歐式距離,表示它們的圖論距離。L/L矩陣有一個很好的特點,就是其元素都被規范到[0,1]區間。在此基礎上,該文選擇我們提出的ALE指標作為不變量[6]:

其中:

上面我們是把4個方向向量依次賦予A、C、G、T而得到的3-D圖形。不難發現,若將這4個方向向量依次賦予G、T、A、C,在對稱的意義上,所得的圖形是同一個。事實上,基于這樣的4個方向向量,本質上有12種不同的3-D曲線與同一條DNA序列相對應。從每一個3-D曲線提取1個ALE指標和1個圖半徑。于是,一條DNA序列S便與一個24維向量相對應,其中有12個ALE指標,12個。為了方便,將這個24維向量記為特別的,在實際問題中為了剔除序列長度的背景影響,可進一步令

此外,被認為是DNA序列分析中一個重要的量[7]。其中a、c、g、t分別表示序列中堿基A、C、G、T出現的頻率。從而,我們便將一條DNA序列S轉化為一個帶有ρ值的24維向量:

2? 應用

2.1 數據場與數據對象間的勢函數

場的概念最早是由英國物理學家法拉第于1837年提出,用來描述物質粒子間的非接觸性相互作用[8]。參照物理場,如果我們把24維空間中的每一個點都視為一個粒子,便有數據場的概念,進而可定義數據對象X對Y(理解成在Y處)的勢函數。參考重力場勢函數,并借鑒簡艷等[9]的思想,該文定義兩個數據對象X、Y之間的勢函數關系如下:

其中

顯然,二者間的關系越密切,它們的勢值越大。

2.2 RIG-I基因的分類識別

當機體感染病毒時,會誘導產生相應免疫反應。RIG-I (維甲酸誘導基因I)是細胞質中的模式識別受體,能夠識別病毒復制產生的雙鏈RNA和5三磷酸基團的單鏈RNA,并通過激活Ⅰ型干擾素來引發抗病毒免疫反應[10]。該文所使用的數據集包括208個RIG-I序列數據,其中147個是脊索動物,其余61個為無脊椎動物。所有數據均來自NCBI數據庫。為了敘述方便,我們稱數據集中147個脊索動物基因為正樣本集,記作S+;稱其余61個基因為負樣本集,記作S-。

由于兩個基因間的勢函數值越大,二者間的關系越密切,所以可以根據勢函數值大小確定“鄰近”關系。該文在前述所構造的勢函數的基礎上,采用K近鄰(K-NN)算法進行分類識別。我們從S+、S-中分別隨機選取55%的樣本作為訓練集,其余45%作為測試集(共93條序列)。實驗中有兩個待定參數:最近鄰居數K和勢函數中的。依次給定K=1,3,5,7,然后測試的不同取值。結果發現,當時,分類識別可達到較理想效果。我們進行了10次交互驗證,實驗結果見表1。從表1可以看出,每次的識別率(AC)在97%以上。10次實驗的平均精度達到了98.51%。

參考文獻

[1] 產院東.基于多核和眾核平臺的并行DNA序列比對算法[D].山東大學,2019.

[2] Dwaipayan Sen,Proyasha Roy,Ashesh Nandy,etal. Graphical representation methods: How well do they discriminate between homologous gene sequences?[J]. Chemical Phgsizs,2018(513):156-164.

[3] GUO XF, RANDIC M, BASAK SC. A novle 2-D graphical representation of DNA sequences of low degeneracy[J].Chemical Physics Letters,2001, 350:106-112.

[4] 向其林.基于新型表達模式的序列特征獲取方法及應用研究[D].湖南大學,2017.

[5] 崔穎,徐澤龍,李建中.基于綜合DNA序列特征的支持向量機方法識別核小體定位[J].生物醫學工程學雜志,2020,37(31):1-6.

[6] LiChun,Lz Xueqm,Lin Yan-xia. Numerical Characterization of Protein Sequences Based on the Generalized Chou's Pseudo Amino Acid Composition[J]. APPLied Scouces,2016,6(12):406.

[7] Chun Li,Nadia Helal,Jun Wang. Recognition of protein coding genes in the yeast genome based on the relative-entropy of DNA[J].COmbunatorial Chemistry 8c Higt Throughput Screening,2006,9(1): 49-54.

[8] 仲茜,李涓子,唐杰,等.基于數據場的大規模本體映射[J].計算機學報,2010,33(6):955-965.

[9] 簡艷,賈洪勇.一種基于數據場的K-均值算法[J].計算機應用研究,2010,27(12):4498-4501.

[10] 程玉強.雞MDA5-STING-IFN-β抗病毒天然免疫通路的發現及其信號轉導機制[D].上海交通大學,2016.

[11] 費文超.DNA序列的圖形表示及其應用[D].渤海大學大學,2016.

[12] 王科.基于圖形表示的DNA序列相似性分析[D].河北科技大學,2016.

主站蜘蛛池模板: 亚欧乱色视频网站大全| 亚洲男人在线天堂| 日本尹人综合香蕉在线观看 | 欧美在线一二区| 秋霞午夜国产精品成人片| 日韩精品一区二区三区大桥未久 | 99草精品视频| 女人18一级毛片免费观看| 精品视频一区二区三区在线播| www中文字幕在线观看| 午夜福利视频一区| 亚洲丝袜第一页| 国产精品亚洲αv天堂无码| 国产91特黄特色A级毛片| 免费国产好深啊好涨好硬视频| 久久久久夜色精品波多野结衣| 日本亚洲欧美在线| 色婷婷电影网| 欧美午夜久久| 青草视频久久| 免费99精品国产自在现线| 毛片免费视频| 亚洲国产精品日韩av专区| 孕妇高潮太爽了在线观看免费| 日本欧美一二三区色视频| 国产专区综合另类日韩一区| 国产在线拍偷自揄拍精品| 97影院午夜在线观看视频| 免费人成在线观看视频色| 国产男女免费完整版视频| 丰满少妇αⅴ无码区| 美女裸体18禁网站| 思思99思思久久最新精品| 国产jizzjizz视频| 精品国产99久久| AV老司机AV天堂| 嫩草国产在线| 99视频精品全国免费品| 色网站在线视频| 亚洲日韩精品综合在线一区二区| 九九久久精品国产av片囯产区| 人人妻人人澡人人爽欧美一区| 71pao成人国产永久免费视频| 国产一二视频| 国内精自视频品线一二区| 亚洲精品片911| 国产美女精品在线| 国产制服丝袜无码视频| 欧美成人精品欧美一级乱黄| 婷婷六月在线| 视频在线观看一区二区| 5388国产亚洲欧美在线观看| 国产乱肥老妇精品视频| 二级毛片免费观看全程| 欧美国产综合色视频| 欧美精品另类| 国产女人在线观看| 久久久久久尹人网香蕉| 成人国产精品2021| 中文字幕丝袜一区二区| 久久久久久国产精品mv| 1769国产精品免费视频| 亚洲综合片| 无码精油按摩潮喷在线播放| 九九九国产| 久久夜色撩人精品国产| 天堂久久久久久中文字幕| 日韩天堂视频| 欧美日韩中文字幕在线| 亚洲精品午夜无码电影网| 久久精品国产国语对白| 99在线视频网站| 久久综合亚洲鲁鲁九月天| 精品国产www| 国产美女免费网站| 国产精品视频观看裸模| 尤物亚洲最大AV无码网站| 国产精品原创不卡在线| 亚洲精品欧美日本中文字幕| 久久黄色视频影| 污网站免费在线观看| 欧美影院久久|