999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于堆疊式自編碼器的新型分子毒性預測模型

2020-02-02 06:46:46周威
電子技術與軟件工程 2020年15期
關鍵詞:分類特征模型

周威

(遼寧大學信息學院 遼寧省沈陽市 110000)

1 引言

分子的毒性和致突變性是新藥物研發失敗的主要原因之一,人們在日常的生活中,因為不可避免的要接觸到化學制品,所以分子毒性的評估是必不可少的。目前對于此類問題,研究人員采用了多種方法來評估該風險,包括體內、體外和計算機模擬等方法。然而傳統的體內、體外方法耗費周期長,成本較高。隨著機器學習的飛速發展,越來越多的算法在此類問題上得以應用,例如支持向量機、樸素貝葉斯以及人工神經網絡,但是這些算法存在著自身的缺陷和局限性,因此本文提出了一種新的毒性預測模型,根據數據維度較大以及稀疏性的特點,在傳統的堆疊式自編碼器上進行了改進,結合了性能更好的分類器,以此來實現對分子毒性的預測。

2 相關工作

2.1 SMILES字符串和one-hot向量

SMILES 字符串是將分子表示為字符序列的一種方式,這種基于文本的格式有利于將自然語言處理工具用于化學反應預測和化學反應分類等應用。為了使SMILES 字符串能夠與SAE 兼容,SMILES 字符串又被轉換成one-hot 向量,序列中特定字符的存在則為1,不存在則為0。由于one-hot 向量中大部分的值都為0,所以具有稀疏性,而且SMILES 字符串轉換后維度也比較大。

2.2 堆疊式自編碼器(SAE)

堆疊式自動編碼器(SAE)由多個層組成,每個層由單個AE 學習。在無監督特征提取中,采用貪婪式分層預訓練進行逐層初始化,通過微調來訓練最終的SAE 模型。具體來說,貪婪式分層方法是原始輸入數據通過在第一層AE 上的訓練,得到第一級的特征,然后將第一級的特征作為輸入在第二層AE 訓練得到下一級的特征,一直到最后一層的AE,最終可以得到信息充分、維數較低的特征提取。因此,自編碼器的疊加可以實現對原始數據的特征提取,同時可以達到降維的效果得到維數較低的特征。上述過程是SAE 的與訓練過程,這個過程中可以實現特征的提取,但是并不具備分類功能,因此通常在SAE 后添加一個分類器來達到預測分類的效果。在預訓練完成后應用反向傳播算法,利用隨機梯度下降算法對整個SAE 進行微調,堆疊式自編碼器(SAE)的結構圖如圖1所示。

表1:不同模型實驗結果

圖1:堆疊是自編碼器的結構

圖2:膠囊網絡的機構

圖3:SAE+CAPS 結構

2.3 膠囊網絡

如圖2所示,膠囊網絡的基本結構包括五個部分:輸入層,卷積層,主膠囊層,數字膠囊層,輸出層。其中核心的部分為主膠囊層和數字膠囊層,與卷積神經網絡不同的是,輸入層的數據經過卷積層的處理后會進入主膠囊層和數字膠囊層,通過卷積層得到的特征在主膠囊層中會被拉平展成一維,然后按對應位置進行組合進而得到膠囊,最后通過動態路由算法得到數字膠囊層,數字膠囊層輸出向量的模長可以衡量各個類別的概率,如果模值越大,則屬于這個類的概率越大,從而實現分類的效果,因此可以利用膠囊網絡來解決分類問題。

3 實驗設計與結果

3.1 數據準備

本實驗的數據包括1454 個分子,其中690 個為有毒物質,764個為無毒物質,分子均為SMILES 字符串表示,為了將SMILES 字符串轉化成適合SAE 的形式,采用了一種新型的分子指紋生成算法連通子圖指紋(CSFP)模型,該模型可以將SMILES 字符串轉換成整數數列輸出,進而轉換成one-hot 向量。

3.2 毒性預測模型

本文提出了一種新型的分子毒性預測模型,采用堆疊式自編碼器和膠囊網絡結合的方法對分子的毒性進行預測,利用堆疊式自編碼器達到降維的效果,但是由于其不具備分類功能所以需要結合分類器進行分類,所以將膠囊網絡中的主膠囊層和數字膠囊層與其結合,以此來實現預測分類的的目的,SAE+CAPS 的體系結構如圖3所示。

首先,將CSFP 模型轉換后的數據輸入到SAE 中,該實驗中的SAE 設置了3 個AE 層,通過調整權重W(1)來學習原始輸入的主要特征h(1)(x)。接下來,這些主要特征h(1)(x)又作為輸入數據傳送到下一個AE 層,從而學習到這些主要特征上的次要特征h(2)(x)。在此之后將h(2)(x)輸入到第三層AE,最后得到最后的特征h(3)(x)。在膠囊網絡中通過卷積層得到的特征需要進入主膠囊層和數字膠囊層來進行分類,因此在SAE 的輸出后加上了這兩層。在這里,我們對主膠囊層和數字膠囊層的設置進行簡要概述。SAE 得到的特征進入到主膠囊層,其中主膠囊層由8x8 個神經單元組成,數字膠囊層由2x2 個神經元組成,主膠囊層和數字膠囊層之間的權重矩陣形狀為8×8×2×2,采用兩次動態路由迭代。

3.3 實驗過程及結果

為了驗證本文所出模型的有效性,因此將SAE+Caps 模型與傳統的softmax 分類器和SAE+softmax 進行實驗比較,這樣設置實驗的目的有兩個,一個是通過SAE+Caps 模型與傳統softmax 的對比,來體現出堆疊式自編碼器的作用,從而表明對化合物的高維向量,堆疊式自編碼器可以起到很好的降維效果,同時能更好的提取有效特征,并且提高了運算速度。另外一個目的,通過SAE+Caps 和SAE+softmax 的對比可以發現,分類器對于毒性預測分類的重要性,相較于softmax 分類器來說,膠囊網絡擁有更高的預測能力,同時計算效率也更高。

對于不同分類方法的分類結果,我們采用精準性、召回率、準確率以及AUC 作為評價標準來進行評價,不同模型的實驗結果如表1所示。

4 結束語

本文提出的新型的分子毒性預測模型,采用堆疊式自編碼器(SAE)對高維的稀疏數據進行特征提取,而后使用膠囊網絡作為分類器對分子分子進行預測分類。目前現有的對分子毒性進行預測分類的方法大多是簡單的機器學習分類器,例如softmax 分類器,支持向量機,隨機森林等,而基于堆疊式自編碼的分類模型多是與softmax 分類器進行結合。本文通過與傳統的softmax 分類器和SAE+softmax 分類器進行的對照實驗證明,該模型相較于其他兩者在預測分類效果上有著更好的表現。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 激情国产精品一区| 国产网友愉拍精品视频| 久久影院一区二区h| 三上悠亚一区二区| 欧美亚洲第一页| 一级爆乳无码av| 久久国产成人精品国产成人亚洲| 全免费a级毛片免费看不卡| 人妻丰满熟妇αv无码| 69综合网| 久久久亚洲色| 91成人精品视频| 亚洲国产成人无码AV在线影院L| 中文国产成人久久精品小说| 无码国产偷倩在线播放老年人| 国产成人免费观看在线视频| 国产精品毛片在线直播完整版| 国产视频只有无码精品| 日本一本正道综合久久dvd| 精品第一国产综合精品Aⅴ| 91av成人日本不卡三区| 乱系列中文字幕在线视频 | 欧美高清日韩| 综合天天色| 国产成人h在线观看网站站| 91福利国产成人精品导航| 毛片卡一卡二| 精品色综合| 全午夜免费一级毛片| 午夜毛片免费看| 91色在线视频| 国产91丝袜在线观看| 国产成人精品一区二区三在线观看| 91视频日本| 国产永久无码观看在线| 超薄丝袜足j国产在线视频| 人妻丰满熟妇αv无码| 99这里只有精品在线| 国产欧美日韩免费| 全部免费毛片免费播放| 日韩精品成人网页视频在线 | 性网站在线观看| 亚洲精品图区| 欧美日韩理论| 国产内射一区亚洲| 国产精品男人的天堂| 国产成年无码AⅤ片在线| 亚洲侵犯无码网址在线观看| 97se亚洲综合不卡| 久久国产精品娇妻素人| 国产va在线观看免费| 玖玖精品视频在线观看| 天堂亚洲网| 97se亚洲综合在线韩国专区福利| 91区国产福利在线观看午夜 | 丰满人妻中出白浆| 久久久久国产精品嫩草影院| 国产产在线精品亚洲aavv| 国产在线视频福利资源站| 97青青青国产在线播放| 国产免费福利网站| 亚洲av无码牛牛影视在线二区| 91娇喘视频| 国产又粗又猛又爽| 欧美丝袜高跟鞋一区二区| 亚洲欧美日本国产专区一区| 免费观看男人免费桶女人视频| 国产毛片基地| 午夜色综合| 亚洲日韩AV无码一区二区三区人| 亚洲国产清纯| 在线免费无码视频| 一本大道无码日韩精品影视| 日韩毛片基地| 91久久大香线蕉| 青草视频免费在线观看| 中文字幕 日韩 欧美| 伊人久久精品亚洲午夜| 一级片免费网站| 五月天久久综合| a免费毛片在线播放| 久草视频一区|