999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的基因組微衛星狀態探測方法綜述

2021-07-23 07:53:38張舒瑩韓鑫胤何小雨袁丹陽欒海晶李瑞琳何佳茵牛北方
數據與計算發展前沿 2021年3期
關鍵詞:特征檢測方法

張舒瑩,韓鑫胤,何小雨,袁丹陽,欒海晶,李瑞琳,何佳茵,牛北方*

1.中國科學院計算機網絡信息中心,北京 100190

2.中國科學院大學,北京 100049

引 言

《2020全球癌癥報告》顯示,全球癌癥病例數呈增長趨勢,癌癥已對人類健康產生了重大威脅。探究癌癥的產生原因,可以對癌癥進行預防并且有助于癌癥患者的診斷和治療。研究證實,癌癥源于基因突變的不斷積累,基因突變表現為基因序列上發生改變,包括堿基的點突變、堿基序列的插入和刪除變異等[1]。

人類基因組中有一些特殊的短串聯重復序列,被稱為微衛星(microsatellites,MS)。當MS序列發生插入或刪除突變且無法被修復時,則會產生微衛星不穩定性(microsatellite instability,MSI)現象。1993年,MSI現象在遺傳性結直腸癌中被發現[2]。后續的研究表明,除了結直腸癌外,子宮內膜癌、胃癌、肺癌和食管癌等多種癌癥中均有不同比例的MSI現象發生[3-6]。MSI檢測可以對癌癥患者進行遺傳篩查、預后判斷以及免疫治療等。

目前,已經有多種MSI檢測的方法,包括傳統的生物學實驗方法以及基于高通量測序的方法[7]。隨著人工智能的發展,機器學習逐漸滲入生物信息學領域并發揮巨大作用[8-10]。基于機器學習的MSI檢測方法,借助機器學習的強大學習能力,可以對數據進行多維度的分析,找出影響MSI的主要因素。

1 研究背景

1.1 MSI及其檢測意義

MS是一種以1-6個堿基為單位,重復次數為10-60次的短核苷酸序列[11]。MSI是指在DNA復制過程中由于滑移引起的MS序列長度改變的現象[12]。在正常情況下,細胞中的錯配修復(mismatch repair,MMR)系統可以修復由于滑移導致的堿基錯配,當MMR通路基因發生突變或甲基化則會導致MMR系統出現錯配修復缺陷(deficient mismatch repair,dMMR),此時堿基錯配無法被修復,從而產生MSI[13]。根據不穩定程度,MSI可以劃分為:微衛星穩定性(microsatellite stability,MSS),低頻微衛星不穩定性(MSI-low,MSI-L)和高頻微衛星不穩定性(MSI-high,MSI-H)。在研究中通常將MSI-L作為MSS處理[14-15]。MSI現象在多種癌癥中均有出現,其狀態檢測在臨床上有重要意義。

MSI的檢測在林奇綜合征遺傳篩查中發揮重要作用。林奇綜合征又稱為遺傳性非息肉病性結直腸癌,源于MMR基因發生胚系突變[16]。林奇綜合征具有家族遺傳傾向,該群體患有結直腸癌的概率可達80%[17-18]。除此之外,該群體也易患其它癌癥[19-20]。因此,建議對所有癌癥患者進行MSI檢測,以便篩查林奇綜合征[21],如果確診林奇綜合征可及早采取治療,并對其直系親屬進行篩查和早期干預。

MSI狀態的檢測還有助于Ⅱ期結直腸癌患者的預后判斷。相對于MSS結直腸癌群體,MSI-H群體的總生存期及無進展生存期有較為顯著的延長[14,22-23]。另有研究表明,對Ⅱ/Ⅲ期結直腸癌患者使用5-氟尿嘧啶藥物會影響其預后,縮短其總生存期[24]。因此,鑒于MSI-H的Ⅱ期結直腸癌患者具有較好預后,不建議對其使用氟尿嘧啶類的藥物進行輔助化療[25]。

MSI是重要的免疫治療生物標志物。MSI-H/dMMR癌癥患者體內攜帶大量的可被免疫系統識別的新生抗原,這使得患者對免疫檢查點阻斷療法敏感[26-27]。大量研究證實,對于MSI-H癌癥患者,使用免疫檢查點抑制劑(PD-1/PD-L1抗體)治療可取得較好的療效[28-30]。MSI已成為重要的免疫治療生物標志物,對患者進行MSI檢測有助于指導患者后續治療。

1.2 常用的MSI檢測方法

常見的MSI檢測方法主要分為兩大類,第一類是傳統的生物學實驗的方法,第二類是基于高通量測序的方法。傳統的生物學實驗方法包括多重熒光PCR法(MSI-PCR)和蛋白免疫組織化學法(MMRIHC)[31-32]。MSI-PCR使用多重熒光PCR結合毛細管電泳的方法,對腫瘤組織和正常組織中分離出的DNA序列進行擴增,比較擴增后的MS位點突變情況,進而判定樣本的MSI狀態。通常檢測的位點是Bethesda panel中的5個MS位點,以及Promega分析系統提出的7個MS位點。MMR-IHC通常檢測腫瘤組織中的4個MMR蛋白表達情況來查看MMR系統是否發生故障,從而判斷樣本MSI狀態。相比于MSI-PCR,MMR-IHC操作較簡單,成本較低,可廣泛應用于臨床檢測中,但其需要人眼閱片計數,受個人主觀因素影響較大。

隨著高通量測序技術的快速發展,以全基因組測序(WGS)、全外顯子組測序(WES)以及靶向測序(TS)為主的高通量數據已納入常規的生物信息學研究中。基于高通量測序的檢測方法比生物學實驗方法具有明顯的優勢:(1)不需要額外的臨床測試和樣本處理,對于不具備生物學實驗條件的團隊也可進行MSI檢測;(2)可同時捕獲多段基因序列,有助于從多個維度評估樣本MSI狀態,極大提高診斷效率和檢測的靈敏性;(3)不同于MSI-PCR只檢測個位數的MS位點,基于高通量測序的檢測方法覆蓋的MS位點數以千計,可以進行更加深入和全面的評估,并且可提供單個MS位點的定量信息。

目前,已發布了多種使用測序數據進行MSI檢測的方法,比如MSIsensor[33]、mSINGS[34]和MANTIS[35]等。其中,MSIsensor已經被成功應用于FDA批準的基于高通量測序的腫瘤檢測方法MSK-IMPACT中[36]。這些方法分別采用卡方檢驗、Z-score和平均距離等傳統的統計學方法評估MS位點穩定性,它們雖然可以判定MSI狀態,但是缺乏多維度的考量。測序數據本身蘊含豐富的生物學信息[37],傳統的統計學方法無法高效處理復雜的海量數據,可能會忽略某些影響MSI判定的關鍵要素。機器學習作為傳統統計學的延伸,可以從大量的數據中抽取關鍵特征進行迭代學習,并且在此過程中屏蔽復雜的細節。機器學習在MSI的探索中發揮了巨大的作用,同時也為MSI檢測提供了新角度和新思路。

2 基于機器學習的MSI檢測方法

MSI檢測在機器學習領域是一個二分類任務,使用決策樹、支持向量機、邏輯回歸等常用的機器學習算法可以高效的解決此類問題。本文對目前基于機器學習的MSI檢測方法進行了充分的調研,涵蓋了主流的檢測方法,比較了各個方法使用數據集的測序方法和最終采用的機器學習算法,以及該數據集在對應機器學習模型中的檢測效果(表1)。下面將分別介紹這些方法結合機器學習算法進行MSI狀態檢測的流程。

表1 基于機器學習的MSI檢測方法Table 1 MSI detection methods based on machine learning

(1)MSIseq

遠程監測設備,即水庫監測終端(太陽能供電型)。負責采集現場檢測設備檢測到的數據和圖片信息,并通過GPRS網絡將現場信息傳送給監測中心。

MSIseq算法考慮到dMMR會影響單核苷酸替代(single nucleotide substitution,SNS)比率和小片段插入刪除(indel)比率,因此從SNS和indel這兩個突變信息入手,構建了9個待選特征,具體含義如表2中(1-9行)所示,其中括號內表示的是該特征在MSIpred中的標記。

表2 MSIseq和MSIpred的特征Table 2 Features of MSIseq and MSIpred

序號特征含義10Frame_Shift_Del導致ORF偏移的刪除比率11Frame_Shift_Ins導致ORF偏移的插入比率12In_Frame_DelORF沒有偏移的刪除比率13In_Frame_InsORF沒有偏移的插入比率14Missense_Mutation錯義突變比率15Nonsense_Mutation無義突變比率16Silent沉默突變比率17Splice_Site剪接位點的突變比率183’UTR3’UTR區域突變比率193’Flank3’Flank區域突變比率205’UTR5’UTR區域突變比率215’Flank5’Flank區域突變比率22Intron內含子區域突變比率

該研究共收集了526例多癌種的WES突變數據,這些樣本也使用MSI-PCR進行了狀態測定。在實驗中,分別使用決策樹、邏輯回歸、隨機森林和貝葉斯算法,采用k折交叉驗證法(k=5)進行訓練,將驗證結果與MSI-PCR測定的結果進行對照,其一致性分別為98.6%、96.5%、98.1%和96.7%。從結果上看,決策樹模型的準確率最高。

進一步研究發現,在決策樹模型中,特征S.ind對結果的判定取決定性作用,即只需這一個特征就可以將MSI-H和MSS樣本區分開,當S.ind>0.395時,樣本被標記為MSI-H,否則為MSS。出于準確率考慮,該研究最終選取只具有一個特征(S.ind)的決策樹算法進行MSI狀態的檢測,該模型在測試集中的準確性高達98.8%。

該方法選取解釋性較強的決策樹算法構建檢測流程,其輸入的是MAF格式的突變數據,相較于mSINGS等需要BAM格式數據的方法節省了大量的計算資源。從測試結果上看,該方法判定樣本MSI狀態的準確率很高,但是其只使用一個特征參與模型訓練和預測,會產生過擬合現象。

(2)MSIpred

與MSIseq類似,MSIpred也是基于突變信息構建特征。不同的是,為了防止過擬合,MSIpred在MSIseq的9個待選特征基礎上,又新增了13個特征,如表2中所示。其中第1-9行特征與MSIseq的待選特征一致,描述的是SNS和indel信息,10-22行是新增的特征,描述了突變有害程度的關鍵信息。

該方法的輸入同樣是MAF格式的突變數據,可以節省計算資源,提高檢測效率。除此之外,在MSIseq研究的基礎上,選取具有22個特征的支持向量機算法構建檢測流程,彌補了MSIseq的不足之處,減少了過擬合風險。

(3)MOSAIC

MOSAIC從MS位點穩定性出發,根據MS位點的不穩定情況判定樣本的MSI狀態。該方法需要使用腫瘤樣本(Tumor,T)配對的正常樣本(Normal,N)作為參照。首先獲得單個MS位點在T和N中的等位基因分布數據,由于MS位點不穩定會伴隨著MS序列長度發生波動,因此對比T和N中的等位基因支持的reads數即可評估此MS位點的穩定性。

該研究共收集了617例多癌種T-N配對的WES測序數據,根據MSI-PCR的結果將其劃分為兩組,一組為MSI-H的T-N樣本,一組為MSS的T-N樣本,分別對這兩組樣本中的MS位點進行穩定性分析。該研究設定以N中的等位基因分布為基準,如果T中出現在N中沒有的等位基因,則該MS位點為不穩定的位點。該研究使用Fisher精確檢驗評估了每個MS位點在MSI-H和MSS樣本中的區分能力,對在MSI-H樣本中最顯著不穩定的MS位點進行了排名,其中位于DEFB105A/B基因上的chr.8:7679723-7679741位點排在第一位,在該研究中被記作defbsite。

基于以上分析,該研究結合前100個在MSI-H樣本中顯著不穩定的MS位點(包括defbsite)和另外4個待選特征進行分析(表3)。采用決策樹算法進行訓練,并使用留一法進行驗證,篩選可以預測MSI狀態的最佳特征,結果顯示peak_avg和defbsite是最顯著的兩個特征,當只使用這兩個特征進行訓練時,結果準確率達96.6%。

表3 MOSAIC的待選特征Table 3 Features of MOSAIC

該研究對單個MS位點進行穩定性分析,可以提供位點的定量信息,獲得影響樣本MSI狀態的顯著MS位點集合,有助于MSI檢測的后續探索。該方法只適用于具有配對正常樣本(T-N)的情況,如果沒有可參照的正常樣本,則無法使用該方法進行MSI檢測。

(4)MIRMMR

不同于以上三種方法,MIRMMR不再局限于根據MS序列的插入刪除情況來評估樣本MSI狀態,而是從MSI發生的根本原因出發,分析35個MMR通路基因的甲基化水平和突變數據,構建邏輯回歸模型預測樣本狀態。該方法提供5個模塊,其中三個模塊(univariate、stepwise和penalized)代表三種構建模型的策略,另有一個預測模塊(predict)和一個比較模塊(compare)。

Univariate模塊將對每個單變量建立邏輯回歸模型,最終匯集每個單變量的模型供后續使用。Stepwise模塊對特征進行篩選,選擇最佳的特征組合參與訓練。Penalized模塊采用了彈性網絡回歸模型,使用k折交叉驗證的方法尋找最優的參數(k=10),該模塊是MIRMMR默認使用的策略。Predict模塊使用前期訓練好的模型進行預測,給出MSI-H的概率值,由用戶權衡靈敏性和特異性劃分判定MSI狀態的基準線。Compare模塊用來比較不同策略下的結果,繪制出對應的ROC曲線以及計算AUC值。

MIRMMR提供了三種構建模型的策略,用戶可使用多種策略構建檢測模型,驗證檢測結果。MIRMMR的研究對象是35個MMR通路基因,提供了一個不依賴于MS位點檢測MSI的新方法。

(5)MIAmS

MIAmS的檢測流程主要分兩步,第一步是MIAmS_learn,在這一步驟中會對MS位點進行篩選和標注標簽,當MS位點的測序深度不能滿足最小測序深度限制時,該位點會被過濾掉,默認的最小測序深度是300X。第二步是MIAmS_tag,對樣本MSI狀態進行檢測,在這一步中,MIAmS工具提供了兩種檢測模式,第一種借助mSINGS進行評估,第二種使用機器學習的方式進行評估。

mSINGS模式是采用的傳統統計方法,首先借助MSS樣本計算MS位點的等位基因個數的平均數mean和方差SD,以[mean+3×SD]作為當前MS位點的基線,在測試過程中,如果MS位點的等位基因個數超過對應的基線,那么這個位點被判別為不穩定,最終根據樣本中不穩定的MS位點個數在所有MS位點中的占比情況判斷樣本MSI狀態。

機器學習模式默認使用支持向量機模型,可使用classifier參數更改為決策樹、邏輯回歸和隨機森林等模型。該方法是結合MS位點的等位基因穩定和不穩定分布模型對該位點進行評估,每個MS位點會得到一個分數,以樣本中所有MS位點得分的平均值判斷樣本MSI狀態。

MIAmS包含基于傳統統計學以及基于機器學習的兩種檢測方式,并提供友好的圖形化界面對結果進行展示,有助于從多個角度評估樣本MSI狀態。

以上方法使用機器學習算法對MSI狀態檢測進行了多方面的探索。MSIseq和MSIpred使用突變數據構建訓練特征,MSIseq最終只使用MS序列小片段插入刪除情況判定樣本狀態。為了更全面的探究突變對MSI狀態的影響,MSIpred對突變數據進行了更詳細的分類,最終構建了22個特征進行檢測。MOSAIC和MIAmS從單個MS位點出發,檢測MS序列的波動情況評估該位點的穩定性,進而判定樣本狀態。MIRMMR從MSI產生的原因入手,根據MMR通路基因的甲基化水平和突變情況構建機器學習模型預測樣本狀態。總體而言,基于機器學習的MSI檢測方法一般從MSI發生的原因或者MSI伴隨的現象入手,根據MMR通路基因的突變信息或者MS序列區域的插入刪除情況來預測樣本的MSI狀態。

3 結論與展望

本文首先介紹了MSI產生的原因以及其狀態檢測在臨床上的重要性,并對目前常用的檢測方法進行了介紹,歸納了基于高通量測序的MSI檢測方法的優勢。相對于高通量測序方法,傳統的統計學方法無法聚焦MSI發生的分子機制,而人工智能領域的發展為此提供了新的思路。作為人工智能領域重要的分支之一,機器學習可以高效的從海量數據中學習知識,挖掘出影響MSI的要素并對數據進行多維度的分析。本文對目前主流的基于機器學習的檢測方法進行了介紹,各項結果顯示該類方法可以對樣本的MSI狀態進行較為準確的判別。

目前機器學習算法已經廣泛的應用到MSI檢測中,并且取得了很好的檢測效果,但是在臨床應用中仍有探索空間及挑戰:

(1)如何提高檢測方法的適用性。目前多數檢測方法基于WES數據展開,覆蓋的MS位點數量龐大,但當檢測數據是基于小panel的靶向測序數據時,使用該方法進行MSI狀態檢測,檢測結果會產生較大偏差。

(2)如何從外周血中檢測MSI狀態。當前的檢測方法多數采用腫瘤組織測序數據,但是組織活檢具有侵入性,部分患者無法完成檢測。科研人員繼而開展從外周血中檢測MSI狀態,該項研究的主要難點在于外周血中的腫瘤DNA在癌癥早期含量較低[43],無法精確捕獲MSI信號。

應對以上挑戰是MSI檢測未來發展的方向,也是如何靈活應用機器學習算法助力的新方向。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
可能是方法不對
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲国产成人精品无码区性色 | 亚洲天堂首页| 欧美日韩导航| 久草中文网| 四虎影视8848永久精品| 在线不卡免费视频| 国内精自视频品线一二区| 国产凹凸视频在线观看| 毛片网站在线看| 午夜福利在线观看入口| 午夜少妇精品视频小电影| 国产农村妇女精品一二区| 国产精品福利尤物youwu| 91小视频在线观看| 精品国产中文一级毛片在线看| 国产91高清视频| 国产男女XX00免费观看| 中文字幕丝袜一区二区| 久久精品女人天堂aaa| 国产在线日本| 成人在线观看不卡| 一级片一区| 日韩激情成人| 久久亚洲欧美综合| 午夜精品久久久久久久无码软件| 人妻无码中文字幕第一区| 在线亚洲小视频| 亚洲视频在线青青| 国产精品久久久久久搜索| 亚洲无码熟妇人妻AV在线| 亚洲精品在线91| 色哟哟国产精品| 日本道综合一本久久久88| 国产成人麻豆精品| 婷婷亚洲最大| 亚洲国产精品无码久久一线| 67194在线午夜亚洲| 亚洲无码电影| 欧美成人精品高清在线下载| 欧美97欧美综合色伦图| 亚洲日本中文字幕乱码中文| 美女毛片在线| 中文字幕乱码二三区免费| 国产制服丝袜无码视频| 中文字幕在线观看日本| 国产一级小视频| 国产精品真实对白精彩久久| 久久大香伊蕉在人线观看热2| 91九色视频网| 日本在线视频免费| 精品视频在线一区| 国产激情影院| 激情综合网激情综合| 亚洲欧美h| 囯产av无码片毛片一级| 熟女日韩精品2区| 成人精品午夜福利在线播放| 日本国产在线| 亚洲黄色片免费看| 91久久偷偷做嫩草影院| 国产欧美日韩精品综合在线| 在线观看欧美精品二区| 午夜精品一区二区蜜桃| 国产精选自拍| 毛片大全免费观看| www.狠狠| 国产特级毛片aaaaaa| 中文字幕免费在线视频| 国产尤物在线播放| 欧美在线视频不卡| 99久久亚洲综合精品TS| 亚洲三级视频在线观看| 国产精品大尺度尺度视频| 玖玖精品在线| 黄色网站在线观看无码| 欧美午夜理伦三级在线观看| 成人午夜免费观看| 毛片免费在线视频| 天堂亚洲网| 无码啪啪精品天堂浪潮av| 精品偷拍一区二区| 99久久精品免费看国产电影|