周威
(遼寧大學信息學院 遼寧省沈陽市 110000)
分子的毒性和致突變性是新藥物研發失敗的主要原因之一,人們在日常的生活中,因為不可避免的要接觸到化學制品,所以分子毒性的評估是必不可少的。目前對于此類問題,研究人員采用了多種方法來評估該風險,包括體內、體外和計算機模擬等方法。然而傳統的體內、體外方法耗費周期長,成本較高。隨著機器學習的飛速發展,越來越多的算法在此類問題上得以應用,例如支持向量機、樸素貝葉斯以及人工神經網絡,但是這些算法存在著自身的缺陷和局限性,因此本文提出了一種新的毒性預測模型,根據數據維度較大以及稀疏性的特點,在傳統的堆疊式自編碼器上進行了改進,結合了性能更好的分類器,以此來實現對分子毒性的預測。
SMILES 字符串是將分子表示為字符序列的一種方式,這種基于文本的格式有利于將自然語言處理工具用于化學反應預測和化學反應分類等應用。為了使SMILES 字符串能夠與SAE 兼容,SMILES 字符串又被轉換成one-hot 向量,序列中特定字符的存在則為1,不存在則為0。由于one-hot 向量中大部分的值都為0,所以具有稀疏性,而且SMILES 字符串轉換后維度也比較大。
堆疊式自動編碼器(SAE)由多個層組成,每個層由單個AE 學習。在無監督特征提取中,采用貪婪式分層預訓練進行逐層初始化,通過微調來訓練最終的SAE 模型。具體來說,貪婪式分層方法是原始輸入數據通過在第一層AE 上的訓練,得到第一級的特征,然后將第一級的特征作為輸入在第二層AE 訓練得到下一級的特征,一直到最后一層的AE,最終可以得到信息充分、維數較低的特征提取。因此,自編碼器的疊加可以實現對原始數據的特征提取,同時可以達到降維的效果得到維數較低的特征。上述過程是SAE 的與訓練過程,這個過程中可以實現特征的提取,但是并不具備分類功能,因此通常在SAE 后添加一個分類器來達到預測分類的效果。在預訓練完成后應用反向傳播算法,利用隨機梯度下降算法對整個SAE 進行微調,堆疊式自編碼器(SAE)的結構圖如圖1所示。

表1:不同模型實驗結果

圖1:堆疊是自編碼器的結構

圖2:膠囊網絡的機構

圖3:SAE+CAPS 結構
如圖2所示,膠囊網絡的基本結構包括五個部分:輸入層,卷積層,主膠囊層,數字膠囊層,輸出層。其中核心的部分為主膠囊層和數字膠囊層,與卷積神經網絡不同的是,輸入層的數據經過卷積層的處理后會進入主膠囊層和數字膠囊層,通過卷積層得到的特征在主膠囊層中會被拉平展成一維,然后按對應位置進行組合進而得到膠囊,最后通過動態路由算法得到數字膠囊層,數字膠囊層輸出向量的模長可以衡量各個類別的概率,如果模值越大,則屬于這個類的概率越大,從而實現分類的效果,因此可以利用膠囊網絡來解決分類問題。
本實驗的數據包括1454 個分子,其中690 個為有毒物質,764個為無毒物質,分子均為SMILES 字符串表示,為了將SMILES 字符串轉化成適合SAE 的形式,采用了一種新型的分子指紋生成算法連通子圖指紋(CSFP)模型,該模型可以將SMILES 字符串轉換成整數數列輸出,進而轉換成one-hot 向量。
本文提出了一種新型的分子毒性預測模型,采用堆疊式自編碼器和膠囊網絡結合的方法對分子的毒性進行預測,利用堆疊式自編碼器達到降維的效果,但是由于其不具備分類功能所以需要結合分類器進行分類,所以將膠囊網絡中的主膠囊層和數字膠囊層與其結合,以此來實現預測分類的的目的,SAE+CAPS 的體系結構如圖3所示。
首先,將CSFP 模型轉換后的數據輸入到SAE 中,該實驗中的SAE 設置了3 個AE 層,通過調整權重W(1)來學習原始輸入的主要特征h(1)(x)。接下來,這些主要特征h(1)(x)又作為輸入數據傳送到下一個AE 層,從而學習到這些主要特征上的次要特征h(2)(x)。在此之后將h(2)(x)輸入到第三層AE,最后得到最后的特征h(3)(x)。在膠囊網絡中通過卷積層得到的特征需要進入主膠囊層和數字膠囊層來進行分類,因此在SAE 的輸出后加上了這兩層。在這里,我們對主膠囊層和數字膠囊層的設置進行簡要概述。SAE 得到的特征進入到主膠囊層,其中主膠囊層由8x8 個神經單元組成,數字膠囊層由2x2 個神經元組成,主膠囊層和數字膠囊層之間的權重矩陣形狀為8×8×2×2,采用兩次動態路由迭代。
為了驗證本文所出模型的有效性,因此將SAE+Caps 模型與傳統的softmax 分類器和SAE+softmax 進行實驗比較,這樣設置實驗的目的有兩個,一個是通過SAE+Caps 模型與傳統softmax 的對比,來體現出堆疊式自編碼器的作用,從而表明對化合物的高維向量,堆疊式自編碼器可以起到很好的降維效果,同時能更好的提取有效特征,并且提高了運算速度。另外一個目的,通過SAE+Caps 和SAE+softmax 的對比可以發現,分類器對于毒性預測分類的重要性,相較于softmax 分類器來說,膠囊網絡擁有更高的預測能力,同時計算效率也更高。
對于不同分類方法的分類結果,我們采用精準性、召回率、準確率以及AUC 作為評價標準來進行評價,不同模型的實驗結果如表1所示。
本文提出的新型的分子毒性預測模型,采用堆疊式自編碼器(SAE)對高維的稀疏數據進行特征提取,而后使用膠囊網絡作為分類器對分子分子進行預測分類。目前現有的對分子毒性進行預測分類的方法大多是簡單的機器學習分類器,例如softmax 分類器,支持向量機,隨機森林等,而基于堆疊式自編碼的分類模型多是與softmax 分類器進行結合。本文通過與傳統的softmax 分類器和SAE+softmax 分類器進行的對照實驗證明,該模型相較于其他兩者在預測分類效果上有著更好的表現。