云計算下的基因測序數據并行化生成方法

2022-03-15 10:31:00劉志明

計算機仿真 2022年2期

劉志明，冉昊

(1.吉林建筑大學電氣與計算機學院，吉林長春 130118；2.吉林建筑大學，吉林長春 130118)

1 引言

基因測序生成的數據能夠體現出個體行為特性，對疾病的早期篩查起到關鍵作用。基因作為最基礎的遺傳單位，體現出各類遺傳信息特征，是一段功能性較強的DNA序列。測序技術的發展促使生命科學進一步發生巨大改變。基因測序就是利用有效的測序手段采集DNA序列，并將化學信號變換為可令計算機識別的數字信號的程序，在生物學多個領域被廣泛應用。此外，基因測序還與人們生活密切相關，利用此技術不但可以劃分人種，還能輔助醫學診斷，為細胞移植提供準確配型數據。但隨基因組數的飛速增長，每半年左右就會提高一倍，增加測序數據生成的負擔，其中會生成大量冗余數據，降低數據生成速度與精度。

為解決上述問題，相關領域學者提出一些解決方案。例如，郭茂祖等人[1]提出基于RNA-Seq的轉錄組分析方案。通過對初始基因數據的質控與定量計算，完成數據預處理；分析其差異表達，實現基因篩選；使用統計學與機器學習兩種方式對高層差異基因做進一步處理，采用富集分析形式明確基因功能與調控網絡，輸出最終生成的測序數據。肖穎等人[2]提出基于貝葉斯分析的基因測序數據生成方法。結合基因表達信息，建立基因均值差序列，構建貝葉斯分層混合模型，同時為模型參數賦予先驗信息；通過馬爾科夫鏈算法完成模型參數估計，生成測序數據。但基因數據的驚人增長速度對測序生成化方法的運算速度與成本要求逐漸提高。

為此本文將云計算引入到生物信息領域，利用虛擬技術將云端服務器與網絡相連，不需要大量的人工對其管理，降低成本，擴大儲存空間，在云計算架構下完成初始基因數據預處理，并結合聚類算法生成測序數據，優化生成速度和質量。

2 基于主成分分析的初始數據預處理

基因芯片的發展使基因數據可以被迅速測序，生成基因陣列[3]。這些初始基因數據維數較高，具有一定噪聲，導致生成的測序數據無法將生物學的有效信息直觀地傳達給研究人員。要想實現測序數據的快速、精確生成，必須使用特定方式對這些數據進行預處理，降低維數，使生成的測序數據更能體現基因特征。

本文利用主成分分析法完成初始數據預處理，該方法的核心為將多個變量變換為少數綜合性評價指標[4]，通過獲取的指標數據實現數據處理。這些指標是基于初始數據，經特殊數據處理后，獲得體現整體特征的指標。因此，此種方法的本質也屬于一種分類降維手段。

主成分分析是將數據原有的相關性指標利用線性組合[5]方式，轉換為一組不具備關聯性的綜合指標，來體現初始數據集合的整體特性。

設定共存在n個樣本，任意一個樣本具備p個特征向量，樣本相對的特征值表示為X1，X2，…Xp，初始特征子集的表達式如下

(1)

利用上述特征集合的列向量X1，X2，…，Xp進行線性組合，獲得不同組合形式，得出多個綜合數據指標

(2)

式中，ai代表單位向量，且滿足如下條件

(3)

全部線性組合形成的指標向量之間存在的協方差等于0，彼此互不關聯。此外，基于上述約束條件，將所有指標向量中具有最大方差的線性組合當作首要主成分，并以此類推即可獲得預先設置的前K個主成分F1，F2，…，FK。這些主成分根據表示的初始特征數量逐次遞減，而特征數量需利用主成分方差評估，也就是取決于初始相關系數矩陣中表示特征的值λi，該值越大，表明主成分體現信息的性能越強。

綜上，獲取的主成分數據必須存在特征值λi，通過λi確定最終被選出的綜合向量。計算過程如下：

步驟一：獲取與特征集合相對的相關系數矩陣

(4)

式中，rij可通過下述公式獲取

(5)

步驟二：對于上述矩陣，利用雅可比法計算出特征值[6]與向量，同時將特征值根據大小排序λ1≥λ2…≥λp>0，則與其相對的特征向量表示為

(6)

如果事先從初始特征集合內挑選m個主成分完成分為操作，當計算出矩陣的特征值與向量后，通過下述公式獲取每種線性組合方法的方差貢獻值

(7)

再通過下述公式獲取前m個主成分方差貢獻率的累計值

(8)

通常情況下，式(8)的值高于85%，即可較好表示整體初始基因數據的基礎信息。

步驟三：采用式(9)對獲得的主成分數據做標準化處理

(9)

3 基于云計算的基因測序數據并行化生成

3.1 云平臺架構設計

云計算下的集群框架[7]通常包括集中式與對等式[8]。本文設計的云架構將虛擬化服務當作核心，因此選取集群式架構。要求網絡中所有節點必須具備完整服務，當有消息產生時，響應節點需立即將數據傳輸到其它節點中，保證網絡數據具有高度一致性。本文設計的云架構如圖1所示，包括應用層、服務層與資源層。其中服務層可構建通用服務接口，實現本地通信；資源層為平臺提供處理器等資源；應用層則利用開發工具接口調試相應服務。

圖1 云平臺架構示意圖

在上述云架構中，云平臺共包括七個組件，各組件功能如下：

1)訪問接口：為用戶提供訪問的方式，可實現平臺運行狀態監測、數據生成進度跟蹤、文件訪問等功能。

2)信息服務：監測云平臺是否穩定運行，采集每個節點的運行狀況；

3)注冊服務：云平臺構建過程、申請虛擬機；

4)任務提交：獲取用戶提交的請求，分析任務目標，并將任務轉移到虛擬機節點；

5)文件服務：在執行任務過程中將用戶相關文件發送到執行節點；

6)虛擬機部署[9]：研究用戶提交的虛擬機要求，評估資源信息，確定最佳主機，完成虛擬機部署；

7)任務操作：操作用戶提交的任務，監控執行狀態，再將結果返回到用戶端。

以上七個功能不是獨立存在的，必須緊密配合才能完成云平臺各種服務。

3.2 基因測序數據質量控制策略

要使生成數據更加精準地描述基因特征信息，在數據生成之前需對其進行質量控制。本文結合基因數據發展特征，按照相關規則與標準提出了基因測序數據生成質量控制策略。

利用多模型方法給出序列質量測評報告供審批人員參考。從可能污染物[10]測算、假基因測算、相似度計算等方面共同實現測序數據質量控制。

1)驗證是否存在終止密碼子與污染物

在經過預處理后的DNA數據中，終止密碼子包括TAG、TAA與TGA三種片段。若其中包括這些片段則表明含有終止密碼子，該基因可能屬于假基因。

污染物通常指某序列對分為前后兩段，如果某序列的首端與末端不一致，則判斷其中含有一定污染物。

2)結合序列的Trace Files評估序列質量

利用Phred程序即可讀出Trace Files，并將待生成數據應有的質量分數保存到文檔中。

3.3 并行化生成

在云計算架構中，將總的生成任務劃分成多個子塊，在并行能力較強的節點上，將任務分配給處理器，最終達到提高生成速度的目的。

結合聚類方法的反單調性，將最小子矩陣(2*2子陣)作為出發點，使用閾值δ依次判別能否形成聚類，若可以實現聚類，則輸出生成數據；反之結合反單調性，無法繼續形成聚類，將其去除或不做任何處理。

針對某聚類R，若對其加入一行或一列，可以形成更大聚類，將此過程稱作對R的擴展行為。對于無法擴展的聚類，其本身就屬于最大聚類，將其保存；對于可進一步擴展的聚類，在擴展完成后，對其刪除，同時對擴展形成的聚類做進一步處理。

對于某構成聚類的子矩陣〈I，J〉，其層號level(I，J)表示為

(10)

在對〈I，J〉擴展過程中，為防止可能生成的聚類丟失，對其行與列的擴展操作不能同時進行。例如在矩陣A中

(11)

假設δ=1，I={1，2，3}，J={1，2，3}，div(I，J)=0<δ，〈I，J〉形成聚類，在對其擴展過程中，同時將I擴展到I′={1，2，3，4}，J′={1，2，3，4}，因為div(I′，J′)=3>δ無法生成聚類，但若單獨對〈I，J〉進行擴展，獲得〈I′，J〉，此時div(I′，J)=0<δ，〈I′，J〉即為一個聚類。同理對〈I，J〉的列進行單獨擴展，獲得〈I，J′〉，由于div(I，J′)=0<δ，〈I，J′〉也會生成聚類。但對〈I，J〉進行同步擴展，這兩個聚類便會丟失。

為解決上述問題，同時引入兩個表R′與C′來記錄滿足擴展要求的聚類。在此方法中，當第i′層聚類〈I，J〉擴展為i′+1層聚類〈I′，J′〉時，不需考慮〈I′，J′〉是否由〈I，J〉同時擴展得出的，〈I′，J′〉均需被保存到擴展表R′與C′表中。

當處理第i′層擴展聚類時，對R′與C′表中全部第i′層的待擴展聚類執行所有擴展操作，獲得新的第i′+1層聚類，將其保存到R′與C′中。當第i′層完成操作時，若第i′層內某聚類〈I，J〉被擴展生成新聚類，表明〈I，J〉并不是最大聚類，可被去除。

(12)

結合每層擴展操作獲取的新聚類〈I，J〉，對ME(I，j)，j∈J與ME(I，i′)，i′∈J進行計算，生成并行化測序數據

(13)

(14)

4 仿真分析

為證明基于云計算的基因測序數據并行生成方法性能，利用Hadoop集群進行性能測試仿真。Hadoop集群的硬件信息如表1所示，仿真總部署如圖2所示。

表1 實驗環境配置信息表

首先對三種方法預處理后的CPU占用率進行對比，結果如圖2～圖4所示。

圖2 文獻[1]方法的CPU利用情況監測

圖3 文獻[2]方法的CPU利用情況監測

圖4 本文方法數據預處理CPU利用情況監測

由三種方法進行數據預處理時CPU的利用情況能夠得出：所提方法的CPU利用率更高，尤其在篩選重復數據時，其它算法都出現較長的等待時間。因此能夠體現出主成分分析法對重復數據的過濾效果更好，大大降低初始數據維度。

本文在云計算基礎上利用了均值聚類算法，設置信度均為85%。測試三種方法生成的基因測序數據與某種疾病的關聯程度。

由圖5得出，隨著生成數據量的增多，與某疾病相關的基因測序關聯規則也逐漸增多，更能顯現出該疾病的基因。在三種算法中，所提方法在生成相同數據情況下，關聯規則最多，因此生成的數據與此種疾病存在較強的關聯性。可通過測序數據準確判斷出人體是否存在病變基因。

圖5 不同算法生成數據性能對比圖

5 結論

現階段，云計算技術在科學、醫學等領域得到廣泛應用，其具有的優勢可以更好地服務于用戶。隨著基因數據的增長，如何快速、準確生成測序數據是生物信息領域提出的新要求。本文設計一種分層云架構。在此環境下，引入聚類算法生成測序數據。仿真結果表明，該方法生成的數據與基因特征的關聯性較強，更加精準體現出基因特性，為海量大規模并行計算提供便捷方式。此外，通過該方法能夠揭示出生命本質與規律。因此，云計算已經成為生物信息領域發展趨勢。