




摘 要: 為解決傳統(tǒng)的差示掃描量熱法(differential scanning calorimetry, DSC) 信號分析需要手動選點來構造基線,存在人為因素引入誤差且操作繁瑣等問題,將機器學習方法應用于DSC 信號分析中,提出一種融合無監(jiān)督學習的DSC 自動基線構造及特征峰信號分析方法。首先使用改進的聚類算法將特征峰兩側的基線與特征峰信號初步分離;其次對特征峰兩側的基線信號結合迭代多項式擬合進行基線重構;最后將原始信號減去重構的基線信號得到凈特征峰信號,進行熱力學分析。對多組實驗數(shù)據(jù)分析表明,基于機器學習的DSC 信號分析方法可自動實現(xiàn)良好的基線構造與峰信號分析,提高DSC 信號分析的速度和精度,有效減少人為因素引起的分析誤差。
關鍵詞: 差示掃描量熱法; 基線重構; 峰識別; 聚類; 迭代擬合; 信號分析
中圖分類號: TB9; TH81; TP181 文獻標志碼: A 文章編號: 1674–5124(2025)03–0053–06
0 引 言
差示掃描量熱法是一種檢測樣品材料的物理或化學性質隨溫度改變而變化的熱分析技術[1]。分析DSC 信號可以得到樣品的一系列熱力學參數(shù)。DSC 憑借快速、簡便、能夠提供樣品的熱力學(熱容量、焓、熵等)和動力學數(shù)據(jù)(反應速率和活化能)等特點,在食品、制藥等行業(yè)有著廣泛應用[2],然而,目前主流的DSC 信號分析方法需要在目視檢查實驗曲線之后通過手動方式形成基線[3],將特征峰扣減基線后再進行分析。特征峰指DSC 曲線中偏離試樣基線達到最大或最小,而后又返回到試樣基線的部分。這種處理方法可能會受到主觀偏差的影響,導致計算結果出現(xiàn)差異。此外,對于數(shù)據(jù)量較大的DSC 實驗來說,手動處理基線工作非常耗時。國際上成熟的DSC 儀器生產商大多開發(fā)了相應的數(shù)據(jù)分析軟件, 如TA Universal Analysis、NETZSCHProteus、SETARAM Calisto 等,軟件中可以選擇多種不同的基線形式,如線性基線、S 型基線等來對DSC 實驗數(shù)據(jù)進行分析,得到多種熱力學和動力學參數(shù)。但這些軟件也存在一些不足:首先,在分析樣品的特征峰時,不能自動識別峰位置,需手動選擇左右端點來確定特征峰位置,選擇不同的端點會導致相關的計算結果發(fā)生變化,從而引入人為因素造成的分散性,降低了DSC 計算結果的準確性;其次,傳統(tǒng)的基線選取方法僅在峰區(qū)域內選點構造基線,未充分考慮峰外基線趨勢。因此,對于DSC 基線構造以及特征峰信號分析需要一種自動且可重復的方法來克服當前的瓶頸。
對基線以及信號峰的自動處理方法在拉曼光譜中應用較多[4],但與DSC 信號不同,拉曼光譜中信號峰數(shù)目較多且非負。迄今為止,對DSC 信號進行自動分析的研究仍然很少,Cisse 等[5] 使用三次樣條插值法來構造DSC 信號的基線,但是,他們未進一步對特征峰進行分析。Mazurenko 等[6] 建立了一個交互式應用來處理DSC 數(shù)據(jù),對DSC 數(shù)據(jù)全局擬合,但是,該方法無法識別DSC 特征峰信號以及構造基線。隨著人工智能的發(fā)展,已有諸多研究工作將機器學習理論巧妙地應用于熱分析領域,并且取得了較好的效果。Farah 等[7] 運用隨機森林、梯度增強機和多層感知器等多種機器學習方法分析DSC 數(shù)據(jù),實現(xiàn)了對牛奶中摻假物的快速檢測。Wesoowski 等[8] 結合熱重曲線及化學參數(shù)訓練了一種反向傳播神經(jīng)網(wǎng)絡模型實現(xiàn)了植物油正確分類。
聚類是典型的無監(jiān)督機器學習算法,基于密度的有噪聲的應用空間聚類( density-based spatialclustering of application with noise, DBSCAN)算法將具有足夠高密度的區(qū)域劃分為簇,并可以在具有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類[9]。本文將密度聚類算法應用到DSC 信號分析領域,提出一種融合無監(jiān)督學習的DSC 特征峰信號自動分析方法:首先使用自適應DBSCAN 算法將樣品特征峰前后兩部分的實驗數(shù)據(jù)聚類成兩個簇以初步將樣品特征峰信號與基線分離,其次對聚類得到的特征峰前后兩個簇內的實驗數(shù)據(jù)進行迭代多項式擬合,最后根據(jù)原始DSC 信號與多項式擬合曲線的交點進行基線重構,以從DSC 信號中提取凈特征峰信號。多組實驗數(shù)據(jù)的計算結果表明,與傳統(tǒng)的手動構造基線方式分析DSC 特征峰信號相比,本研究提出的方法,操作簡單、速度更快、重復性更高。