999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的深靜脈血栓代謝標志物的分析策略

2024-09-11 00:00:00劉明鋒吳妍娟周世棟黨麗虹李健杜艷孫俊紅曹潔
分析化學 2024年7期
關鍵詞:氣相色譜機器學習

關鍵詞深靜脈血栓形成;機器學習;代謝組學;氣相色譜-質譜聯用;特征選擇

深靜脈血栓形成(Deep venous thrombosis, DVT)是一種血液在深靜脈內異常凝結引起的靜脈回流障礙性疾病,與血管內皮功能障礙、血流停滯以及血液高凝狀態等因素有關[1-2]。DVT 作為一種臨床常見的周圍血管病,近年來發病率有所增加[3]。DVT 可導致靜脈炎后綜合征,容易復發,嚴重影響患者的生活質量;若血栓脫落還可導致肺動脈栓塞,引起呼吸困難和循環衰竭,甚至死亡[4-5]。由于DVT 發病機制復雜,部分患者在早期無典型癥狀,容易出現誤診和漏診,引發醫療糾紛。據統計, DVT 和肺動脈栓塞的臨床診斷敏感性約為10%~30%;而從尸體解剖結果來看,僅有15%~45%的致命性肺動脈栓塞的病例在生前被確診[6]。現階段的DVT 臨床診斷策略主要有評分量表評估、血漿D-二聚體水平檢測和超聲檢查。然而,評分量表評估無法用于獨立測試;D-二聚體靈敏度高,但特異性差;超聲檢查雖然可靠,但對小腿和髂靜脈血栓檢出率較低[7-9]。因此,尋找穩定可靠的DVT 診斷生物標志物是近年來的研究熱點。已有研究發現了與DVT 發生相關的P-選擇素、E-選擇素和IL-10 等[10-11]新型標志物,但均處于實驗研究階段,目前尚無法應用于DVT 的臨床診斷。

代謝組學作為一種新興的組學技術,可對生物體內的小分子代謝物進行高通量全局分析,較其它組學更接近表型,有助于深入了解疾病發展的全貌,篩選和評價疾病相關生物標志物[12-14]。現有的研究結果表明, DVT 可導致機體內代謝紊亂[15-17],采用代謝組學研究有助于深入了解DVT 導致的生理過程,尋找診斷標志物。氣相色譜-質譜聯用(Gas chromatography-mass spectrometry, GC-MS)方法具有分離能力強、靈敏度高、可提供化合物結構信息和同時分析多個組分等優點,是一種廣泛應用于代謝組學分析的強大工具[18]。利用GC-MS 技術可同時分析生物體液或組織樣品中數百至數千種代謝物,從中精準捕捉可能與特定疾病相關的代謝物和通路變化[19-20]。

將生物信息學分析和機器學習數學模型相結合,在代謝組學檢測產生的高通量數據中挖掘潛在的關鍵信息,同時聯合多指標的變化規律進行疾病的診斷和預測,已成為目前的研究趨勢[21]。特征選擇是機器學習中一種重要的預處理方法,從數據中選擇最具代表性和相關性的特征,減少特征維度,提高模型的性能和泛化能力,是優化機器學習模型的關鍵步驟。Lee 等[22]利用套索回歸算法對兒童慢性腎病血漿代謝數據進行特征選擇,結果表明,經篩選后的特征構建的機器學習模型性能優于未經特征選擇的模型。Lisitsyna 等[23]將卷積神經網絡與傳統統計方法和遺傳算法相結合,從非靶向代謝組學數據中選擇與疾病最相關的特征,構建了一種新的預測模型,其精確率和召回率均超過90%。本研究采用代謝組學技術獲取DVT 大鼠尿液代謝譜,進行多元統計分析后,采用3 種特征選擇算法篩選DVT 相關潛在標志物,用于構建DVT 機器學習診斷模型,為DVT 的早期自動化診斷提供了新的思路。

1 實驗部分

1.1 儀器和試劑

7890B-7000C 氣相色譜-三重四極桿串聯質譜儀(美國Agilent 公司);SC-3610 低速離心機(安徽中科中佳科學儀器有限公司);2-16PK 臺式低溫離心機(美國Sigma 公司);SCIENTZ-1LS 型凍干機(寧波新芝生物科技股份有限公司);Milli-QIntegral 超純水系統(美國Millipore 公司)。

二氯甲烷、甲醇和正庚烷(分析級,天津光復化學試劑有限公司);N-甲基-N-三甲基硅基三氟乙酰胺(MSTFA,美國Sigma 公司),含1%三甲基氯硅烷(Trimethylsily chloride, TMCS);二十四烷(美國Sigma公司);甲基羥胺鹽酸鹽(上海阿拉丁生化科技股份有限公司);吡啶(上海阿拉丁生化科技股份有限公司)。實驗用水為超純水(電阻率≥18.2 MΩ·cm)。

1.2 動物實驗

使用健康成年Sprague-Dawley 大鼠20 只(180~200 g),由山西醫科大學實驗動物中心提供,于室溫(24℃±2℃)下飼養1 周后進行實驗。將大鼠隨機分為DVT 組和假手術(Sham)組,每組10 只。DVT 組大鼠使用10%戊巴比妥鈉進行麻醉,開腹找到下腔靜脈后,結扎所有側支。將微血管鉗夾在髂靜脈匯合處15 min,隨后縫合皮膚,涂抹青霉素粉。Sham 組大鼠接受所有外科手術操作,但不進行下腔靜脈結扎。大鼠結扎后放入代謝籠,再置于冰上取48~72 h 內的尿液;尿液離心后轉移到冷凍管中,于–80 ℃保存。

1.3 代謝組學檢測

1.3.1 樣本預處理

尿液樣本置于冰水混合物中解凍后,取200 μL 至1.5 mL 離心管,加入600 μL 甲醇-乙醇(1∶1, V/V)混合物,渦旋混勻,于4 ℃下以12000 r/min 離心10 min,吸取600 μL 上清液于新EP 管中,凍干,加入50 μL 甲氧胺鹽試劑(溶于15 mg/mL 吡啶),混勻,于70 ℃孵育1 h。迅速向每個樣品中加入100 μLMSTFA(含有1% TCMS),于40 ℃孵育1.5 h, 加入200 μL 含二十四烷的正庚烷內標溶液,待測。

1.3.2 GC-MS檢測條件

GC 條件 DB-5MS 毛細管色譜柱(30 m × 0.25 mm × 0.25 μm, 美國Agilent 公司),載氣He(99.99%),流速1.0 mL/min。柱溫:初始溫度為60 ℃,保持3 min;以7 ℃/min 升溫至140 ℃,保持4 min;以5 ℃/min 升溫至180 ℃,保持6 min;以5 ℃/min 升溫至280 ℃,保持2 min。分流進樣,分流比為1∶10,進樣量為1 μL。

MS 條件 EI 離子源,電離能量為70 eV,離子源溫度230 ℃,溶劑延遲時間為3.5 min;全掃描模式,掃描范圍m/z 50~650。

1.4 數據分析

1.4.1 數據預處理

利用ABF 轉換器(https://www.reifycs.com/AbfConverter/index.html)將原始圖譜轉換為.abf 格式,導入MS-Dial 軟件中進行峰提取、基線過濾、校正、峰對齊和解卷積等處理。利用FiehnLib 氣相色譜-質譜數據庫對圖譜中的代謝物質進行鑒定,導出內源性化合物信息用于后續分析。

1.4.2 多元統計學分析

將得到的代謝物數據歸一化后,導入SIMCA14.0 軟件(瑞典Umetrics 公司)進行主成分分析(Principalcomponents analysis, PCA)和正交偏最小二乘-判別分析(Orthogonal partial least squares-discriminant analysis,OPLS-DA),并采用200 次置換檢驗驗證,得到所有代謝物的變量重要性投影(Variable importance in theprojection, VIP)值。通過IBM SPSS Statistics 26.0 軟件進行Mann-Whitney U 檢驗得到p 值(p value),為減小誤差,對p 值進行錯誤發現率(False discovery rate, FDR)校正,獲得q 值(q value)。根據分析結果,篩選出VIP gt;1 且q lt; 0.05 的差異代謝物。

此外,為了尋找差異代謝物所在代謝通路的改變,將篩選后的差異代謝物導入到MetaboAnalyst 5.0(https://www.metaboanalyst.ca/)在線軟件中進行京都基因和基因組百科全書(KEGG)通路富集分析。

1.4.3 特征選擇算法篩選關鍵代謝物

在Python 3.9(Intel Corporation, Santa Clara, CA, USA)環境下,分別使用3 種特征選擇算法,包括遞歸特征消除交叉驗證(Recursive feature elimination cross validation, RFECV)、Boruta 和Shapley 加性解釋(Shapley additive explanation, SHAP),對多元統計分析篩選的差異代謝物進行二次篩選。隨后對3 種算法篩選的特征代謝物取交集,作為關鍵的特征代謝物,用于構建DVT 診斷模型。

1.5 DVT 診斷模型的構建和評估

分別使用所有內源性代謝物、經多元統計分析篩選得到的差異代謝物和機器學習算法篩選得到的特征代謝物數據,構建高斯樸素貝葉斯(Gaussian naive bayes, GNB)、支持向量機(Support vector classifier,SVM)、邏輯回歸(Logistic regression, LR)和線性判別分析(Linear discriminant analysis, LDA)4 種機器學習模型。選用精確率、準確率、召回率、F1 分數和受試者工作曲線下面積(Area under receiver operatingcharacteristic curve, AUROC)作為評估指標,比較基于不同數據集構建的模型表現。

2 結果和討論

2.1 大鼠DVT 模型評估

采用下腔靜脈結扎模型模擬血運完全停滯的環境,可在短時間內形成血栓,是一種十分穩定的嚙齒動物血栓模型[24]。再次打開腹腔后,肉眼可見結扎處下腔靜脈明顯擴張,管壁變薄,顏色加深(圖1A)。DVT 組大鼠的下腔靜脈縱向切開后均發現血栓。病理形態學檢查結果顯示,血栓主要由纖維蛋白、血小板、紅細胞以及少量白細胞組成(圖1B),符合急性血栓形成的特點,證明建模成功。

2.2 DVT 相關特征代謝物的篩選

2.2.1 GC-MS 圖譜分析

本研究組在前期工作中使用核磁共振氫譜技術對DVT 大鼠和患者的血液以及尿液進行了代謝組學研究[25-26],發現大鼠與人之間存在較多相同的內源性代謝物和相似的代謝途徑改變;DVT 相關差異代謝物有望成為DVT 診斷的候選生物標志物。為了挖掘更多與DVT 相關的代謝物信息,探索代謝物在DVT 早期診斷中的價值,本研究使用GC-MS 檢測DVT 大鼠尿液中的小分子代謝物。將預處理過的原始數據與FiehnLib 氣相色譜-質譜數據庫中的信息比對,根據保留時間和內標二十四烷的保留指數,最終鑒定出176 種內源性小分子化合物。

2.2.2 多元統計學分析

為了進一步探索DVT 組和Sham 組大鼠之間的代謝差異,將兩組數據歸一化后,導入SIMCA 14.0 軟件進行主成分分析。如圖2A 所示,圖中每個點代表1 個樣本,數據點之間的距離反映了其代謝差異的程度,兩組樣本重疊較少,具有明顯分離趨勢。質量控制(Quality control, QC)樣本分布較集中,說明系統誤差小,結果可靠。對數據進行OPLS-DA 分析以及200 次置換檢驗,獲得OPLS-DA 模型的評價參數。如圖2B 所示,模型概括解釋率(R2)為0.725、模型預測性(Q2)為–0.38,左側所有的R2 和Q2 均低于右側的點,并且Q2 的回歸線具有負截距,說明OPLS-DA 模型構建成功,不存在過擬合。以上結果表明, DVT 和Sham 組大鼠尿液之間存在代謝差異。

為篩選與DVT 相關的顯著差異代謝物,通過建立OPLS-DA 模型計算代謝物的VIP 值。同時,對數據進行Mann-Whitney U 檢驗,計算所有代謝物的p 值,進行FDR 校正,得到q 值。以VIP gt;1、q lt; 0.05 作為篩選條件,從176 種內源性代謝物中篩選出26 種差異代謝物(表1)。與Sham 組比較, 25 種代謝物表達量上調, 1 種代謝物表達量下調,這些代謝物表達差異主要與能量、氨基酸和嘌呤代謝有關。

2.2.3 差異代謝物的生物功能富集分析

小分子代謝物作為生化反應網絡的下游產物,可直接反映疾病對機體生理功能的影響。為進一步研究26 種特征代謝物涉及的代謝通路及其生物學功能,對其進行KEGG 通路富集分析。如圖3A 所示,富集3 種以上代謝物的通路有4 條:乙醛酸和二羧酸代謝(甘氨酸、L-谷氨酸和異檸檬酸,電子版文后支持信息圖S1);丙氨酸、天冬氨酸和谷氨酸代謝(L-天冬氨酸、L-谷氨酸和脲基琥珀酸,電子版文后支持信息圖S2);氨酰基-tRNA 生物合成(甘氨酸、L-天冬氨酸、L-脯氨酸和L-谷氨酸,電子版文后支持信息圖S3);精氨酸生物合成(L-谷氨酸和L-天冬氨酸、尿素,圖3B)。

氨酰基-tRNA 生物合成參與遺傳信息從mRNA 到蛋白質的翻譯過程,可保證翻譯的準確性和正常的細胞功能[27-28]。其中,關鍵的氨酰tRNA 合成酶(Aminoacyl-tRNA synthetases, ARSs)與多種疾病的發生高度相關,此前已有研究者發現抗合成酶綜合征會引起DVT[29],本研究組前期的研究也發現氨酰-tRNA生物合成途徑在DVT 患者中受到影響[24]。因此,本研究推斷此通路及相關代謝物與DVT 發生密切相關,為關鍵通路。此外,乙醛酸和二羧酸作為代謝產物,可以進入三羧酸循環中的不同環節,影響三羧酸循環的速率,進而影響生物體內的能量產生和新陳代謝[30]。丙氨酸、天冬氨酸和谷氨酸代謝以及精氨酸生物合成均為氨基酸代謝的重要環節,同時在檸檬酸鹽循環過程中也發揮著重要作用[31-33]。

圖4 為差異代謝物在各個通路中的富集表現。其中, L-谷氨酸、L-天冬氨酸和甘氨酸在多條代謝通路中發揮著重要作用。值得注意的是, 3 種代謝物均為氨基酸,在26 種差異代謝物中氨基酸也是占比最高的種類。氨基酸作為許多生物活性分子的前體,可直接參與生物體內蛋白質的合成和能量供應,調節細胞代謝、增殖和分化[34-35]。此外,有研究表明,支鏈氨基酸及其代謝產物參與調節血小板的活化,會增加動脈血栓形成的風險[36]。谷氨酸作為一種信號分子,可與谷氨酸受體結合,在中樞神經系統和外周組織中發揮了重要的信號傳導作用,從而影響血小板活化和血栓形成[37-38]。同時,由甘氨酸和天冬氨酸組成的多肽序列是纖維蛋白原中的最小序列,可與血小板表面受體結合,對血小板的聚集起著至關重要的作用[39]。

以上代謝改變說明在血栓形成過程中引起了機體的能量代謝紊亂,可能的原因是血栓形成在靜脈內阻礙了血液回流,導致局部組織缺氧和代謝產物積聚,進而引起細胞功能異常或損害,這與Sung 等[33]的研究結論一致。

2.2.4 基于特征選擇算法的DVT 關鍵代謝物篩選

為去除冗余特征,降低數據維度,提高差異代謝物的應用價值,使用特征選擇算法對26 種差異代謝物再次進行重要性排序和篩選。考慮到僅使用單一的特征選擇算法可能陷入局部最優,導致所選特征的泛化性能差,本研究采用3 種不同原理的特征選擇算法(RFECV、Boruta 和SHAP)篩選關鍵DVT 特征代謝物, 3 種算法的主要信息見表2。

RFECV 算法對數據集中每個特征進行重要性評級,根據評級排序依次選擇不同數量的特征構建模型并確定診斷效率最高的特征組合。如圖5 所示,根據RFECV 算法選出診斷效率最高的特征子集,包含21 種代謝物。

Boruta 算法是在數據集中創建陰影特征,計算并比較真實特征和陰影特征的重要性,大于陰影特征重要性的真實特征會被保留,整個過程可多次迭代。在本研究中,模型經過10 次迭代,其中被選中4 次及以上的差異代謝物被認定為有價值的特征,共15 種(電子版文后支持信息圖S4)。

SHAP 算法的核心思想是基于Shapley 值計算每個特征對于模型輸出的貢獻,并結合樣本的特征取值情況計算出每個特征值對預測結果的影響。根據Shapley 值大小對特征排序,結果顯示, SHAP 值gt; 0的差異代謝物有19 種(電子版文后支持信息圖S5)。

將3 種特征選擇算法篩選的特征代謝物取交集,共有13 種關鍵差異代謝物(圖6),其中12 種在DVT組中的相對表達量升高。這可能是因為在DVT 發生后,機體為應對血栓形成產生了一系列代謝變化,主要涉及炎癥反應、凝血活性增加以及細胞損傷等生物學過程,導致部分代謝物的相對表達量升高。值得注意的是,阿洛糖在DVT 組中的相對表達量降低。相關研究[40]表明,阿洛糖可通過抑制氧自由基生成,減輕氧化應激損傷,保護細胞免受再灌注損傷。因此,推測DVT 發生后,為對抗細胞損傷,阿洛糖被消耗,其代謝和表達也受到影響。

2.3 DVT 診斷模型的構建與性能評估

為構建性能優異的DVT 診斷模型和進一步評價特征代謝物的重要性,將上述各級數據分析中獲得的代謝物數據集基于GNB、SVM、LR 和LDA 算法構建DVT 診斷模型,從準確率、精確率、召回率、F1分數和AUROC 這5 個方面對模型性能進行評估,結果見表3。未經篩選的176 種原始代謝物數據集(data 1)所構建的模型診斷性能最低,準確率僅為0.5~0.6,表明未經任何統計分析的數據存在較多的干擾因素,難以直接用于疾病預測。經多元統計學篩選后的26 種差異代謝物(data 2)構建的模型表現有所提升,經特征選擇后的數據模型性能(data 3, 4, 5)進一步提升,而3 種特征選擇算法集成后獲得的關鍵代謝物構建的模型(data 6)性能達到最佳,表明組成此數據集的13 種代謝物在DVT 的診斷過程中具有十分重要的作用。特征選擇算法可以最大程度地挖掘特征之間的相關性,從而更全面地選擇有效特征,在縮小特征數量的同時保持較高的診斷準確率。

比較單一特征選擇(data 3, 4, 5)和集成特征選擇(data 6)的模型可發現,單一特征選擇可不同程度地提升模型的表現,但不同模型之間的表現卻存在較大差異,例如, RFECV 的SVM 模型準確率可以達到1.0,但GNB 模型的準確率只有0.6;基于集成特征選擇的模型更加穩定, 4 種模型的準確率均大于0.9。以上結果表明,集成方法能獲得比單一方法更好的特征子集,在有效提升模型性能的同時確保得到更可靠的診斷結果。從理論上講,單一特征選擇方法可能會受到某些特定數據分布或噪聲以及基礎分類模型的影響,導致選擇的特征局限于某一種算法的偏好;通過集成多種特征選擇方法可以結合不同方法的優勢,去除潛在的噪聲特征,減少單一算法的偏差,提高特征選擇算法的魯棒性,進而提高模型性能。

本研究在獲得有生物學意義的差異代謝物基礎上,進一步使用多種特征選擇算法篩選更適合用于構建機器學習模型的代謝物集合。已有研究者通過集成多個模型的預測結果提高診斷模型的準確性和可靠性[41-42]。本研究通過集成多種特征選擇方法,不僅提高了模型的準確性,還在一定程度上解決了模型結果可信度的問題,增加了使用者對DVT 診斷模型的信心。此外,本方法減少了特征代謝物數量,降低了模型的復雜度,有助于將本研究結果向臨床應用方面轉化。

3 結論

采用GC-MS 技術測定了DVT 大鼠尿液中代謝物的表達變化情況,使用多元統計學分析篩選DVT 相關的差異代謝物,基于多種特征選擇方法去除冗余特征,優化了DVT 特征代謝物集合,最終獲得了13 種與DVT 相關的關鍵特征代謝物,提高了DVT 診斷模型的性能和應用價值。但是,動物實驗篩選的特征代謝物能否用于臨床研究,還需要大規模的人體樣本驗證,今后將進一步優化分析策略和模型參數,為臨床DVT 診斷和相關研究提供參考。

猜你喜歡
氣相色譜機器學習
基于詞典與機器學習的中文微博情感分析
毛細管氣相色譜法分析白酒中的甲醇和酯類
固相萃取—氣相色譜法測定農田溝渠水中6種有機磷農藥
氣相色譜法快速分析人唾液中7種短鏈脂肪酸
分析化學(2016年7期)2016-12-08 00:09:44
吹掃捕集—氣相色譜法同時測定海水中的氟氯烴和六氟化硫
分析化學(2016年7期)2016-12-08 00:07:08
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于GC/MS聯用的六種鄰苯二甲酸酯類塑化劑檢測探討
價值工程(2016年29期)2016-11-14 01:34:54
基于支持向量機的金融數據分析研究
關于氣相色譜分析氫氣異常的解決方案
科技視界(2016年24期)2016-10-11 18:58:00
主站蜘蛛池模板: 国产精品人人做人人爽人人添| 国产永久在线观看| 久久人体视频| 欧美日韩动态图| 福利一区三区| 久久99国产综合精品1| 91午夜福利在线观看精品| 成年人免费国产视频| 国产网站黄| 成年人免费国产视频| 狠狠色综合网| 97国产精品视频自在拍| 中文字幕日韩欧美| 91久久夜色精品| 情侣午夜国产在线一区无码| 精品国产一区二区三区在线观看 | 亚洲一道AV无码午夜福利| 一本大道香蕉中文日本不卡高清二区| 2021国产精品自产拍在线观看| 亚洲国产清纯| 99视频在线免费看| 麻豆精品久久久久久久99蜜桃| 亚洲—日韩aV在线| 国产99在线| 麻豆国产精品视频| 久久五月天国产自| 好吊色妇女免费视频免费| 成人国内精品久久久久影院| 日韩亚洲综合在线| 成人免费午夜视频| 亚洲天堂区| 亚洲精选高清无码| 狠狠综合久久| 成AV人片一区二区三区久久| 高清精品美女在线播放| 国产视频久久久久| 国产精品一区二区在线播放| 国产免费久久精品99re不卡| 精品人妻一区二区三区蜜桃AⅤ| 91无码国产视频| 中文字幕日韩欧美| 怡红院美国分院一区二区| 日本www在线视频| 毛片网站在线播放| 亚洲91在线精品| 毛片网站在线播放| 无码一区二区波多野结衣播放搜索 | 九九精品在线观看| 亚洲视频二| 丝袜高跟美脚国产1区| 成年午夜精品久久精品| 91国内视频在线观看| 日韩国产精品无码一区二区三区| 亚洲AV无码久久精品色欲| 亚洲区第一页| 亚洲无卡视频| 亚洲国产精品日韩av专区| 婷婷午夜影院| 成AV人片一区二区三区久久| 精品久久久久久中文字幕女 | 亚洲精品久综合蜜| 亚洲无码视频喷水| 国产一级在线播放| 在线五月婷婷| 91av成人日本不卡三区| 2021国产精品自拍| 亚洲成A人V欧美综合| 亚洲第一区精品日韩在线播放| 999精品在线视频| 国产青青操| 毛片免费在线视频| 99精品免费在线| 色九九视频| 亚洲第一中文字幕| 5388国产亚洲欧美在线观看| 天天综合天天综合| 日本妇乱子伦视频| 2022精品国偷自产免费观看| 国内a级毛片| 欧美久久网| 欧美一级高清片欧美国产欧美| 久久香蕉国产线看观看亚洲片|