基于深度學(xué)習(xí)的甜味劑分類模型

2021-09-04 12:01:48肖凌俊陳愛斌周國雄易積政

農(nóng)業(yè)工程學(xué)報 2021年11期

肖凌俊，陳愛斌，周國雄，易積政

（1.中南林業(yè)科技大學(xué)計算機(jī)與信息工程學(xué)院，長沙 410004；2.中南林業(yè)科技大學(xué)人工智能應(yīng)用研究所，長沙 410004）

0 引言

甜味天生就有吸引力，強(qiáng)烈影響著人們的飲食習(xí)慣[1]。由于攝入糖類可以產(chǎn)生愉悅心情，全球食用高熱量食物的人越來越多。但食用過量的高糖類甜食會帶來很多健康問題，如體型過胖，更容易患上心血管疾病和 2型糖尿病[2]。因此，篩選或合成低熱量甚至零熱量而又不失甜味的甜味劑可以預(yù)防這些風(fēng)險，尋找新穎的非營養(yǎng)性甜味劑是一個全世界范圍內(nèi)都值得研究的課題[3]。計算機(jī)技術(shù)和虛擬篩選方法在很大程度上推動了藥物研究的進(jìn)展[4-5]，甜味劑的開發(fā)過程和藥物相似，因此甜味劑的研究也可以借鑒藥物發(fā)展的經(jīng)驗。目前尋找新型甜味劑主要是基于結(jié)構(gòu)和配體的方法[6]：基于結(jié)構(gòu)是以分子結(jié)構(gòu)為研究對象，探究候選分子與甜味受體結(jié)合位點的結(jié)合能力[7-8]；基于配體的方法主要是利用已知活性和試驗數(shù)據(jù)的甜味劑、甜性物質(zhì)，依靠形狀相似性或藥效團(tuán)等性質(zhì)，從分子庫中搜索潛在甜味分子[9]。盡管人們在解碼甜味感覺與受體的原理方面取得了進(jìn)展[10-11]，但基于結(jié)構(gòu)去篩選數(shù)量眾多的天然和合成的甜味化合物仍然是一項繁瑣而艱巨的任務(wù)。

為了顯著減少試驗所需的時間和研究費用，快速識別潛在的甜味分子并降低成本非常有必要。Zhong等[12]采用多元線性回歸（Multi-Linear Regression, MLR）和支持向量機(jī)（Support Vector Machine, SVM）基于320個化合物的數(shù)據(jù)集構(gòu)建回歸模型；Rojas等[13]使用偏最小二乘判別分析（Partial Least Squares Discriminant Analysis，PLSDA）和k近鄰（k-Nearest Neighbor，KNN）方法建構(gòu)定量構(gòu)效關(guān)系（Quantitative Structure-Activity Relationship，QSAR）模型來預(yù)測分子結(jié)構(gòu)與其甜味的關(guān)系，并表示該方法可以設(shè)計新型甜味劑。定量構(gòu)效關(guān)系理論使用數(shù)學(xué)模型來描述分子結(jié)構(gòu)和分子的某種生物活性之間的關(guān)系[14]。用于甜味劑和甜味化合物的機(jī)器學(xué)習(xí)預(yù)測方法主要有隨機(jī)森林（Random Forest, RF）[15-16]，遺傳函數(shù)近似算法（Genetic Function Approximation，GFA）[17]，PLSDA[18]以及結(jié)合多種機(jī)器學(xué)習(xí)算法[19-20]。其中PLSDA模型的決定系數(shù)R2只有0.748，GFA模型的R2達(dá)到了0.83，使用多種機(jī)器學(xué)習(xí)算法的模型R2更是達(dá)到了0.91。

雖然上述研究已經(jīng)取得了一些成果，但他們的模型也存在一些共同的問題，如數(shù)據(jù)集普遍偏小，局限于特定的化學(xué)家族，模型的適用范圍有限，并不能從分子庫中有效地篩選。因此，本研究的主要目的是構(gòu)建一種基于配體和深度學(xué)習(xí)方法的模型，可以從大量分子中準(zhǔn)確篩選目標(biāo)分子，為后續(xù)檢驗提供參考。

1 材料與方法

1.1 問題分析

目前甜味劑的作用機(jī)理主要以 Shallenberger等[21]AH-B理論和 Kier等[22]甜味三角理論為基礎(chǔ)，但它同時也存在一些缺陷，甜味劑可能還與疏水基團(tuán)的性質(zhì)、分子內(nèi)氫鍵、空間要求等有關(guān)。不同的甜味劑可能有相同的藥效團(tuán)或一類特性基團(tuán)，但不是決定性的，例如愛德萬甜和新橙皮苷二氫查耳酮（圖1），而具有相同結(jié)構(gòu)的黃腐酚作為啤酒花中特有的物質(zhì)卻呈現(xiàn)苦味，其他常用的甜味劑如阿力甜則沒有該結(jié)構(gòu)。

甜味苦味的感覺是由分子與 G蛋白偶聯(lián)受體的關(guān)鍵結(jié)合位點相互作用而產(chǎn)生的，但甜味分子的結(jié)合部位通常超過3個，如國內(nèi)常用的甜味劑阿斯巴甜有9個與受體的結(jié)合位點（圖2），因此分子3D結(jié)構(gòu)的繁多以及編譯分子3D結(jié)構(gòu)的巨大工作量也是甜味劑的開發(fā)難點之一。

設(shè)計并合成新型人工甜味劑依賴完整有效的甜味理論體系，但近百年來甜味劑的重要發(fā)現(xiàn)出自偶然機(jī)遇的較多。而想要編譯數(shù)據(jù)庫中所有分子的三維結(jié)構(gòu)是很難做到的事情，因此無法在大數(shù)據(jù)集中快速篩選目標(biāo)分子，不能直接探索未知的甜味分子。但相關(guān)研究人員需要一種不明確所篩選分子三維結(jié)構(gòu)下的受體信息也能預(yù)測未知分子甜味的方法，因此可以采用深度學(xué)習(xí)的方法來預(yù)測，用已知的試驗數(shù)據(jù)集建立預(yù)測模型繼而從大量的未知分子中篩選出可能性最大的潛在甜味劑并分類。

1.2 基于深度學(xué)習(xí)的甜味劑分類模型

對于大數(shù)據(jù)集的快速篩選，二維數(shù)據(jù)是最合適的選擇，但使用二維數(shù)據(jù)的同時也會“失真”，即很多關(guān)鍵因素圖片難以表現(xiàn)，例如分子的可旋轉(zhuǎn)鍵數(shù)、極性比表面積、折射率、極化率、氫鍵受體、氫鍵個數(shù)、水溶性、疏水基團(tuán)、膜通透性、手性中心數(shù)、重原子數(shù)、總電荷和芳香環(huán)個數(shù)等等，因此還需采用分子描述符將結(jié)構(gòu)與各種生物活性聯(lián)系起來，以彌補(bǔ)預(yù)測方法的不足。試驗中使用一些描述符的模型比使用所有描述符的模型產(chǎn)生了更好結(jié)果，僅僅增加描述符的數(shù)量并不能提高預(yù)測模型的性能，不是所有描述符都與期望的屬性具有潛在關(guān)系，本文最終選擇效果最好的擴(kuò)展連接性指紋[23]（Extended-Connectivity Fingerprints，ECFP）。

基于深度學(xué)習(xí)的甜味劑分類流程如圖3所示，除了區(qū)分有相同受體原理的甜味和苦味化合物，主要包括數(shù)據(jù)集的獲取與匯編、模型的建立與訓(xùn)練、模型性能評價和甜味劑的分類。模型還增加了無味和甜味強(qiáng)度的分類，不僅僅是篩選出潛在甜味分子根據(jù)甜度強(qiáng)弱進(jìn)行分類，還對篩選出的非甜味類物質(zhì)通過相同的理論依據(jù)分類為苦味和無味。

1.3 數(shù)據(jù)匯編和整理

為解決以往文獻(xiàn)中甜味化合物的相對甜味數(shù)值有較大出入的問題，購買了20種市面上的甜味劑用甜度計進(jìn)行相對甜度的測定，并參照GB/T 2760-2014《食品添加劑使用標(biāo)準(zhǔn)》的要求以5%蔗糖溶液為標(biāo)準(zhǔn)甜度值。相對甜度較大的測定結(jié)果波動較大，以等甜度質(zhì)量濃度（Mass Concentration of Same Sweetness, MCSS）為參考測定不同甜味化合物的相對甜度值（Relative Sweetness, RS）進(jìn)行分類（表1）。

表1 不同甜類化合物的相對甜值Table 1 Relative sweetness value of different sweet compounds

除了試驗測量的甜味劑，獨立測試集中共包含 114種強(qiáng)甜度分子和 118種弱甜度分子，從其他文獻(xiàn)中收集169種無味分子和115種苦味分子作為獨立測試集中的無味和苦味分類[24-25]，共 516種化合物。訓(xùn)練和驗證模型的數(shù)據(jù)集是基于以下公共數(shù)據(jù)庫的：FooDB（https://www.foodb.ca）和 SuperSweet[26]作為數(shù)據(jù)集中甜味分類來源，BitterDB[27]和Super Natural II數(shù)據(jù)庫[28]作為苦味和無味分類來源。

1.4 數(shù)據(jù)預(yù)處理

考慮到分子結(jié)構(gòu)的復(fù)雜性和可變性以及生成二維數(shù)據(jù)的不一致性，本文擴(kuò)增了數(shù)據(jù)集，以提升化合物的多樣性。之前的研究只選取目前使用的甜味劑或試驗室測定數(shù)據(jù)作為數(shù)據(jù)集，導(dǎo)致數(shù)據(jù)集偏小，因此本文整合了公共數(shù)據(jù)庫和相關(guān)文獻(xiàn)的甜味、苦味以及部分無味化合物，最終數(shù)據(jù)集包含了20 029種化合物，同時將所有數(shù)據(jù)集圖片調(diào)整成 224×224（像素）大小（圖4）。數(shù)據(jù)預(yù)處理可以實現(xiàn)準(zhǔn)確和穩(wěn)定的分類[29]，因此對25%的隨機(jī)數(shù)據(jù)進(jìn)行隨機(jī)亮度變換，對25%的隨機(jī)數(shù)據(jù)進(jìn)行旋轉(zhuǎn)處理（角度為隨機(jī)的90°、180°和270°），對25%的隨機(jī)數(shù)據(jù)進(jìn)行水平翻轉(zhuǎn)或垂直翻轉(zhuǎn)處理。亮度變化范圍一般從減少 50%到增強(qiáng)50%[30]，因此本文使用了隨機(jī)比例系數(shù)k（0.75～1.50）。處理好的數(shù)據(jù)讀取后通過深度學(xué)習(xí)框架 Pytorch的Normalize函數(shù)進(jìn)行歸一化操作，隨機(jī)抽取70%作為訓(xùn)練集來訓(xùn)練模型，30%作為驗證集對模型的分類效果進(jìn)行驗證。

2 基于深度學(xué)習(xí)的甜味劑分類模型

2.1 網(wǎng)絡(luò)框架

本文在基于大數(shù)據(jù)集的情況下采用機(jī)器學(xué)習(xí)方法去分類化合物時效果不好，認(rèn)為輸入特征大大影響使用機(jī)器學(xué)習(xí)方法模型的準(zhǔn)確性，深度學(xué)習(xí)具有自動提取特征和選擇最佳特征的獨特特點，根據(jù)反向傳播算法更新參數(shù)，有效避免了正確選擇這些特征需要大量領(lǐng)域知識與經(jīng)驗的問題。密集連接卷積網(wǎng)絡(luò)（Densely Connected Convolutional Networks，DenseNet）作為基于深度學(xué)習(xí)的一種網(wǎng)絡(luò)，除了具有上述優(yōu)點，它還以省參數(shù)、省計算、抗過擬合以及強(qiáng)大的泛化性能著稱[31]。

DenseNet是在殘差網(wǎng)絡(luò)（Residual Network，ResNet）的基礎(chǔ)上改進(jìn)得來的，通過建立前層與后層之間的密集連接訓(xùn)練出更深的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）。密集塊（Dense Block）作為DenseNet的基本模塊，是密集連接機(jī)制的核心。DenseNet由密集塊和過渡模塊（Transition）組成，密集塊中后一層是由前面所有的層在通道維度上連接得來的，并作為下一層的輸入，第l層可表示為

式中x0,x1,… ,xl表示每一層的特征圖，Hl(·)表示非線性轉(zhuǎn)化函數(shù)，代表一個組合操作，包括批歸一化（Batch Normalization，BN）、ReLU 函數(shù)激活、卷積（Convolution，Conv）和池化（Pooling）操作，DenseNet采用的是BN+ReLU+ 1×1 Conv和BN+ReLU+3x3 Conv組合操作。

2.2 注意力機(jī)制

在本文的試驗中，DenseNet的正確率并沒有達(dá)到預(yù)期，因此需要選擇性地提取信息特征，忽視不太有用的特征。卷積塊注意模塊（Convolutional Block Attention Module，CBAM）是一種結(jié)合了通道和空間的注意力機(jī)制模塊，使不符合注意力模型的內(nèi)容弱化或者遺忘，可以使得神經(jīng)網(wǎng)絡(luò)具備專注于選擇特定的輸入[32]。

CBAM分為2部分，第一部分是通道注意力機(jī)制模塊。一個特征圖經(jīng)過一系列卷積池化得到的特征圖，通常認(rèn)為這個得到的特征圖每個通道都是同樣重要的，但實際每個通道的重要程度還不一樣的，每個通道應(yīng)該有一個重要性權(quán)值來控制該通道的重要程度。具體操作為將輸入的特征圖先分別全局最大池化和平均池化，輸入到 2個神經(jīng)元數(shù)量不一樣的全連接層中，以增加擬合通道間復(fù)雜的相關(guān)性，具有更多的非線性，減少了參數(shù)量和計算量，然后2個輸出相加進(jìn)入下一個Sigmoid層，得到每個通道的重要性權(quán)值，再將原特征圖的每個通道原來的值乘上該權(quán)值。第二部分是空間注意力機(jī)制模塊，考慮了同一通道不同位置像素的重要性。該模塊先將前一部分的輸出特征圖進(jìn)行基于通道方向的全局最大池化和平均池化，形成的特征圖用 7×7的卷積核進(jìn)行卷積，得到一個新的特征圖，經(jīng)過激活函數(shù)sigmoid再與原特征圖相乘：

式中F為原特征圖，Mc(F)為原特征圖經(jīng)過通道注意力機(jī)制得到的新特征圖，MS(Mc(F))為經(jīng)過空間注意力機(jī)制最終得到的特征圖，f7×7為卷積操作，多次試驗后確定卷積核大小為 7×7，MLP是多層感知器，除了輸入輸出層，它中間可以有多個隱層，為了減少參數(shù)一般選2層，σ代表Sigmoid激活函數(shù)。

2.3 分類模型

分類模型的結(jié)構(gòu)如圖5所示。本文將卷積塊注意模塊插入每個密集塊后面，與原先的過渡層形成一個新層。首先，輸入的224×224×3圖片通過7×7的卷積層后，由密集塊進(jìn)行組合操作和 concat操作，特征圖的通道數(shù)量增加。得到的特征圖通過應(yīng)用的通道和空間注意力模塊逐元素求和合并輸出特征向量，隨后進(jìn)入過渡層。過渡層由1×1的卷積層和2×2的平均池化層組成的，即下采樣，它的作用是壓縮模型。最后一個密集塊的輸出進(jìn)行7×7的全局平均池化后再進(jìn)行全連接操作得到的矩陣和擴(kuò)展連接性指紋矩陣通過卷積進(jìn)行特征融合，隨后建立2個神經(jīng)元數(shù)量不同的全接連層，第一個全連接層將特征維度降低到輸入的一半，第二個全連接層增維回到了原來的特征維度，降維可以更簡單地計算權(quán)重部分，也具有更多的非線性，最終通過 Softmax分類器輸出分類結(jié)果。試驗?zāi)Ｐ偷腷atch size設(shè)置為64，初始學(xué)習(xí)率設(shè)置為0.005，每7個周期衰減0.1倍。

通過注意力機(jī)制和特征融合的作用，使模型盡可能保留重要參數(shù)，達(dá)到更好的學(xué)習(xí)效果。采用精度Presision、靈敏度Sensitivity和F1分?jǐn)?shù)來評價模型性能：

式中 TP，F(xiàn)P，F(xiàn)N分別代表被正確分類的正例、錯誤分類的反例和錯誤分類的正例。

3 結(jié)果與分析

大多數(shù)基于深度學(xué)習(xí)方法的模型都需要進(jìn)行改進(jìn)才能得到良好的結(jié)果，本文在試驗中對前人提出的機(jī)器學(xué)習(xí)方法模型進(jìn)行了評估，發(fā)現(xiàn)大多數(shù)機(jī)器學(xué)習(xí)方法不再適用，例如經(jīng)常用來分類的SVM對化合物的分類僅達(dá)到了0.47的平均精度，只適用于小批量樣本的任務(wù)，不能適應(yīng)大數(shù)據(jù)的任務(wù)，KNN則達(dá)到了0.55的平均精度，只有RF較高達(dá)到了0.75的平均精度，但遠(yuǎn)不如它們在小數(shù)據(jù)集情況下的性能。表2中選取了試驗效果較好的深度學(xué)習(xí)網(wǎng)絡(luò)模型 VGG16、ResNet50和DenseNet與改進(jìn)后的模型作對比，可以看出改進(jìn)后的模型每一類的分類精度均能達(dá)到 0.91。由于沒有加注意力機(jī)制的網(wǎng)絡(luò)損失（由損失函數(shù)得出）波動較大，取最后 20個訓(xùn)練周期的平均算出每一類的精度、靈敏度和F1分?jǐn)?shù)。圖6可以看出，本文的模型各項指標(biāo)均遠(yuǎn)優(yōu)于目前常用的卷積神經(jīng)網(wǎng)絡(luò)模型，準(zhǔn)確率穩(wěn)定在0.934左右，損失穩(wěn)定在0.017左右，準(zhǔn)確率的波動幅度小于0.005，損失值的波動幅度小于0.001，沒有過擬合的現(xiàn)象存在，而驗證集準(zhǔn)確率曲線和訓(xùn)練集準(zhǔn)確率曲線的結(jié)果相差較大是由于擴(kuò)充的數(shù)據(jù)集中含有疑難分類的化合物，如最常見的甜味劑糖精就有苦味和金屬味的后調(diào)。通過模型新發(fā)現(xiàn)的甜味化合物可以進(jìn)一步試驗測定。

表2 不同方法的模型性能比較Table 2 Comparison of model performance of different methods

本文模型的混淆矩陣如圖7a所示。可以看出苦味分類效果較好，這是由于單獨區(qū)分苦味相對于區(qū)分甜度強(qiáng)弱的化合物來說簡單的多。模型可以保存，也可以只保存參數(shù)，之后的使用只需要載入訓(xùn)練好的模型，隨后傳入需要篩選的分子圖片以及該分子的擴(kuò)展連接性指紋，模型即可預(yù)測并分類，方便研究人員從大量分子庫中篩選感興趣的分子。本文模擬了一個實際的獨立測試集，并在訓(xùn)練好的模型上進(jìn)行分類并測評，混淆矩陣（圖7b）顯示，苦味分子被正確分類的程度最高，甜度強(qiáng)弱方面的分類還不夠完美。相比較前人的二分類，模型增加到了四分類，且各項指標(biāo)較優(yōu)，總體還是獲得了很高的精度。

通過模型新發(fā)現(xiàn)的甜味分子可以使用虛擬篩選技術(shù)或生物試驗進(jìn)一步檢驗，以方便相關(guān)人員尋找理想的低熱量甚至是無熱量的甜味劑，該方法省去了大量建模的任務(wù)，可以顯著減少開發(fā)甜味劑所需的時間和資金。

4 結(jié) 論

甜味劑的開發(fā)是一個漫長的過程，本文提出了一種可以篩選潛在甜味劑或苦味劑的深度學(xué)習(xí)模型，得出以下結(jié)論：

1）傳統(tǒng)機(jī)器學(xué)習(xí)方法在前人對甜味劑的二分類中是有效的，但對大量未知分子的分類效果不盡人意，與機(jī)器學(xué)習(xí)不同，深度學(xué)習(xí)能夠?qū)W習(xí)豐富的特征，根據(jù)反向傳播算法更新參數(shù)，找到影響化合物甜味的關(guān)鍵結(jié)構(gòu)，因此本文選取了深度學(xué)習(xí)模型并對其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。

2）忽略某些特定的三維結(jié)構(gòu)在理論上難以與真實甜味的感覺強(qiáng)度契合，因此有必要使用特征融合的方法彌補(bǔ)預(yù)測方法的不足。

3）注意力機(jī)制和余弦退火的改進(jìn)大大提高了模型的性能。結(jié)果表明該模型每一類的分類精度均達(dá)到 0.91，可以解決篩選分子時構(gòu)建三維模型的困難、沒辦法處理海量數(shù)據(jù)、預(yù)測模型有特異性和局限性等問題，在大數(shù)據(jù)集上能準(zhǔn)確地分類以節(jié)省昂貴的試驗。因此，對于分子研究和行業(yè)中的甜味劑開發(fā)來說，本文模型是一種新型的有效方法，為相關(guān)人員合理設(shè)計和篩選甜味分子提供了一個有用的工具。