999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的化學結構識別研究

2022-03-30 02:05:02蟻佳才張小琛劉丹國防科技大學計算機學院長沙410073
中南藥學 2022年2期
關鍵詞:化學模型

蟻佳才,張小琛,劉丹(國防科技大學計算機學院,長沙 410073)

科研工作者通常將經過大量實驗收集的化學知識轉化為文獻中的圖文描述,這些海量的知識是化合物重新發現及藥物發現研究的巨大財富。文獻中的化合物結構是藥物發現的核心,而這些結構信息在大多數情況下是以圖像的形式呈現,這些有價值的信息對于機器來說是非結構化且不可讀的。因此,自動化地將化學結構由圖像轉換成人類或機器可讀的格式,對于從大量文獻中挖掘知識是非常重要的,該過程被稱為化學結構識別(chemical structure recognition,CSR)。

對于機器可讀的分子結構,目前采用廣泛的包括國際通用技術和統一標準的線性碼簡化分子線性輸入系統(simplified molecular input line entry system,SMILES)以及分子的三維表示,如圖、矩陣或連接表等。SMILES可以減少存儲空間,提升檢索效率,并且可以很方便地編碼分子結構、性質信息以及轉換成其他三維表示,因此被廣泛應用于各種與化合物分子相關的研究中。在CSR中,其目標是將化學結構圖像轉換為相應的SMILES字符串,即圖像到文本的轉換。圖1展示了阿司匹林(aspirin)的化學結構以及相應的SMILES,從圖中可以直觀地看出,除了識別出圖像中相應的元素以外,還需要根據相應重構算法將這些元素的符號組合成有效的SMILES。

圖1 化學結構識別示意圖Fig 1 Diagram of chemical structure recognition

本文采用深度學習的方法,基于編碼器-解碼器架構,融合注意力機制和分子指紋先驗知識,構建了一個深度學習模型——基于指紋預訓練的化學結構識別(chemical structure recognition based on fingerprint pre-train,CSRFP),現報道如下。

1 相關研究工作

1.1 基于規則的方法

20世紀90年代初,第一個完整的化學結構識別系統Kekulé發布了。Kekulé是一個基于規則的工具,通過將單一化學結構圖進行分割、向量化、圖像分塊、圖像腐蝕、圖像膨脹以及光學字符識別等一系列步驟,最終將化學結構圖轉換為新的分子圖表示。隨后,越來越多的研究人員開始關注這一領域,研發出了各種開源軟件。Rajan等總結了該領域的研究進展,并比較了3個基于規則的開源軟件OSRA、MolVec和Imago,為未來的深入研究提供了參考。傳統的分子圖像識別方法在很大程度上依賴于專家知識,并且需融合新的待檢測圖像特征,費時費力。另外,這些工具通常步驟繁瑣,導致計算時間較長。具體來說,大多數基于規則的方法往往包括以下步驟:① 掃描,即掃描包含化學結構圖的頁面區域,并將其從頁面中分割出來;② 矢量化,即將位圖轉換為矢量圖;③ 搜索虛線和楔形線,即使用專門的算法來識別立體化學信息,如虛線鍵和楔形鍵;④ 光學字符識別,即使用光學字符識別(optical character recognition,OCR)算法識別原子和常規鍵。并結合一些工具使用規則來糾正OCR引擎不能正確識別的原子或原子組;⑤ 圖編譯,即將原子視為節點,將化學鍵視為邊,并通過圖重構算法將其編譯成分子圖;⑥ 后處理,例如將一些超原子轉化為原來的原子序列。

1.2 基于深度學習的方法

近年來,深度學習在計算機視覺領域取得了較大突破,如圖像分類、目標檢測、語義分割以及圖像字幕等。CSR可以視為特殊的圖像字幕任務,與自然語言文本生成不同,CSR的條件更為嚴苛,例如其生成的元素字符往往出現多個重復元素,并且上下文信息聯系更加緊密,且元素字符具有唯一性,而自然語言往往可以使用多種同義詞進行替換。基于深度學習的方法的優點在于它們不需要制訂復雜的規則,模型可以自動擬合學習高維特征空間,并且具有更好的泛化能力等。

目前基于深度學習的方法主要包括MSEDUDL、Chemgrapher以及DECIMER。其中,MSE-DUDL主要研究如何將文獻中的化學結構進行分割并識別成機器可讀的形式。其使用一個類似U-Net的分割網絡從文獻中分割出化學結構圖,并使用卷積神經網絡(convolutional neural network,CNN)結合循環神經網絡(recurrent neural network,RNN)進行預測。作為兩階段模型的代表,Chemgrapher則使用一個分割網絡來識別每個像素的類型,包括原子、鍵和電荷,并使用一個預測網絡預測每個被識別的像素的類型,包括原子、鍵和電荷類型。兩階段模型可以有效地減少分子圖像識別的噪聲,但它們可能會受到與優化有關的問題的影響,如誤差傳播。DECIMER使用一個預訓練好的Inception V3模型作為特征提取器,提取圖像特征后進行RNN解碼。而這種方式下,特征提取器和RNN沒有進行聯動學習,模型不能學習到有價值的化學圖像表征,導致模型的識別率較低。目前,基于深度學習的方法有的對計算資源要求極高,有的標記數據集難以獲得,而有的識別精度則較低。

融合先驗知識的方法在許多任務中都展現出了非常好的效果。在本研究中,我們首先構建了一個預訓練模型來學習化學圖像的指紋表示,并將該訓練好的模型作為下游任務的編碼器進行微調。分子指紋是一種人工編碼,其包含分子的子結構信息、性質信息等。因此,通過預訓練,模型可以學習到某些片段的潛在表征,有助于下游任務,如結構識別任務的特征提取。這種方法在訓練數據不足的情況下能增強模型的泛化性,例如在本文的模型訓練中,CSR-FP用60萬張化學結構圖像進行訓練,其在用Indigo生成的數據集的效果[SMILES序列準確率(SSA)值約為84.29%]與使用6900萬張訓練圖像的MSE-DUDL效果(SSA值為82%)相當。并且,本文在CSRFP的解碼器中引入了注意力機制,這使得模型具有更好的可解釋性。最終,本文選取了OSRA、MolVec以及DECIMER作為基線方法,在兩個基準數據集上進行評估,CSR-FP均取得了非常大的改進。

2 基于指紋預訓練的化學結構識別

本文提出的CSR-FP的工作流示意圖如圖2所示。所有的數據都經過統一的預處理,處理后的數據首先進行預訓練。通過一個基于指紋預訓練的編碼器(pre-trained encoder based on fingerprint pre-train,PE-FP)模型學習先驗知識表征,然后在PE-FP模型后連接一個全連接層作為CSR-FP的編碼器,學習圖像的高維特征,再經過LSTM解碼得到標準SMILES。

圖2 CSR-FP工作流示意圖Fig 2 Diagram of CSR-FP workflow

2.1 數據處理

為了獲得有價值且具代表性的數據,本文選 擇ZINC 20數 據 庫(https://zinc20.docking.org/)作為本研究的數據源。該數據庫包含超過7.5億個可購買的化合物和超過2.3億個可購買的可對接的化合物。如圖2所示,使用RDKit化學工具包將所有原始SMILES,標準化得到標準SMILES,然后對轉換后的SMILES進行去重,得到唯一SMILES,最后對數據集進行分割,按照8∶1∶1的比例獲取訓練數據集,并驗證和測試數據集。另外,本研究中使用的化學結構圖像采用Indigo化學工具包生成,并對圖像進行歸一化和縮放,所有的圖像分辨率重置為256×256。對于PE-FP模型的標簽處理,使用RDKit生成預訓練化學結構圖像的擴展連通性指紋(extended connectivity fingerprint,ECFP4)指紋,該指紋維度為256。而對于CSR-FP模型的標簽處理,則簡單地計算所有SMILES字符并添加到標簽字典中。為了識別字符串的開始,結束以及填充位,在字典中添加<sos>、<eos>和<pad>標記。最終,本文選取從ZINC 20數據庫中隨機分層采樣的600 000張化學結構圖像作為CSR-FP模型訓練的數據集。

為了與其他工具進行比較,本研究采用不同方法,分別為標準化學結構圖像數據集(Standard-CSI)和噪聲圖像數據集(NI)上進行測試。兩個數據集均包含10 000張化學結構圖像。其中Standard-CSI數據集的圖像使用Indigo工具包生成。NI數據集模擬了真實世界情況下的化學結構圖像,即圖像中會隨機出現不同比例的圖像噪聲。模型的訓練數據集與兩個基準數據集沒有重復樣本,所有的基線方法在基準數據集上進行測試,該過程重復10次。

2.2 模型架構

編碼-解碼的思維最早在機器翻譯中被廣泛應用,后來由于其強大的特征空間探索能力,許多基于人工智能的方法均采用此架構。CSR-FP模型在編碼器-解碼器架構的基礎上,融合了預訓練模型PE-FP和注意力機制,增強了模型的特征提取能力和可解釋性。CSR-FP和PE-RP的模型架構如圖3所示,其中紅色方框中的部分連接256個二分類分類器進行分子指紋學習,本研究利用長度為256的ECFP4指紋作為預訓練的標簽。隨后,通過去除分類器并且連接一個簡單的線性轉換器,將得到的隱式向量轉換為隱式矩陣,輸入到解碼器中。這里,CSR-FP模型的編碼器輸出的特征圖大小是8×8,其通道為512。圖中紫色方框中的內容為CSR-FP的解碼器,解碼器在每次迭代中都會生成一個SMILES字符。在訓練過程中,生成字符時,模型對于前一個時間步生成的內容是可見的,而驗證時則不可見。從圖中還可以看出,CSR-FP的編碼器中使用了多個殘差連接,其是一個類ResNet的模型,通過殘差連接,可以更好地解決網絡退化問題。

圖3 模型架構示意圖Fig 3 Diagram of the model architecture

假設模型預測的結果為其中

N

是SMILES的長度,

V

是字典的大小。模型的損失函數可以表示為:

其中表示第

s

個預測字符中,下標為

y

的預測值。

另外,CSR-FP在解碼器中加入了注意力機制,在生成SMILES字符時,計算特征矩陣與前一時間步的隱含向量之間的注意力分數。這種機制可以有效克服RNN長期依賴造成的梯度消失和爆炸問題,在提升模型特征提取能力的同時,還可以增加模型的可解釋性。

2.3 指紋預訓練

本研究使用ECFP4指紋作為預訓練的訓練標簽。其中,ECFP4指紋是一串由“0”和“1” 位比特組成的256長度的向量。因此,在訓練過程中,設置256個分類器分別進行二分類學習。在本研究中,我們使用了100萬個化合物分子進行指紋預訓練。

ECFP指紋又稱為Morgan指紋,是一種擴展連通性指紋。具體來說,ECFP4是以半徑為2,計算每個原子的圓形區域的化學環境標識符。因此,該指紋包含了分子中多個片段的結構信息,在QSAR/QSPR任務中有著廣泛的應用。

2.4 評價指標

為了更全面、更嚴格地評估模型的性能,本文采用了以下三個指標進行評估:

SMILES序列的準確率(SSA):在該指標下,只有當生成的SMILES序列與原始序列完全相同時才被認為是正確的結果。該指標從分子水平上宏觀分析模型的識別精度。

ATS:本文使用Tanimoto系數來衡量生成的分子的Morgan指紋和原始分子的Morgan指紋之間的相似性。

Tanimoto相 似 度1.0系 數(TS@1.0):該指標是指生成的分子指紋與原始分子指紋之間Tanimoto相似度為1.0的比例。TS@1.0和ATS為從分子相似度層面上進行分析,這些指標可以為下游任務,例如分子性質的預測等奠定基礎。

2.5 注意力機制

一般來說,圖像中包含了多個不同的內容,化學結構圖像也不例外,其中不同的原子或化學鍵對應的圖像塊可以看成是不同的區域。因此,如果在生成SMILES字符時能準確估計圖像中某一區域的重要性,那么模型在性能上將會得到質的提升。并且,在生成文本內容時,每個字符之間都有一定的聯系,因此,在生成當前字符時,應該整合已經生成的文本信息,即當前時間步

S

之前的迭代(

S

S

,…,

S

)生成的SMILES字符信息。在解碼器的每個時間步中,模型輸出一個隱藏向量

h

和一個單元向量

c

,其中初始向量

h

c

是將編碼器的特征向量輸入全連接層得到的。每個時間步中注意力分數的計算方式可以簡單地形式化為:

其中,

L

是一個線性轉換,

F

是特征矩陣,

h

是解碼器第

t

個時間步的隱式向量。

3 結果

3.1 數據集分析

為了提升模型的泛化能力,在進行指紋預訓練時,多樣性更高、應用域更廣的數據對于提升預訓練模型的學習能力是非常重要的。針對該問題,我們在采集預訓練樣本時,利用分子骨架多樣性對分子多樣性進行度量,采集骨架多樣性高的樣本進行訓練。預訓練數據集的分子骨架分析以及原子數目分布結果,見圖4。

由圖4A可知,分子骨架數量平均值為1.154,且數據主要分布在最小值1處。小部分樣本分布在2和3中。從圖4C中可以看出,小于3的分子骨架數量占比為97.76%。這些數據說明了該預訓練數據集的分子結構多樣性非常豐富。從圖4B可以看出,原子數目大部分集中在20~40,比較符合高成藥性化合物的特點。總而言之,通過該數據集學習到的化學空間表征是更有效的。

圖4 預訓練數據集統計圖Fig 4 Statistical diagram of pre-trained dataset

3.2 基線對比實驗

為了驗證本文提出的模型的有效性,本文將CSR-FP模型與一些現有的模型和工具進行了比較。其中,基于規則的工具有OSRA和MolVec,基于深度學習的工具有DECIMER和CSR-FP。評估指標的統計數據見表1。

表1 模型性能對比結果
Tab 1 Model performance

數據集 方法 SSA/% ATS/% TS@1.0/%Standard-CSIOSRA 22.05±0.22 54.15±0.36 36.92±0.62 Standard-CSI MolVec 17.18±0.41 50.59±0.24 31.18±0.23 Standard-CSIDECIMER 38.19±0.34 87.52±0.21 47.54±0.22 Standard-CSICSR-FP 84.29±0.12 92.14±0.13 87.49±0.16 NI OSRA 19.52±0.46 51.41±0.37 32.02±0.19 NI MolVec 8.714±0.37 34.79±0.19 18.01±0.35 NI DECIMER 17.42±0.27 68.46±0.29 22.16±0.38 NI CSR-FP 82.19±0.17 88.19±0.18 84.86±0.21

對于以上三個評估數據,我們主要關注SSA值。從表1中可以看出,CSR-FP在兩個數據集上均取得了具有競爭力的結果。具體來說,兩個基于規則的工具在兩個數據集上的效果均不理想,例如OSRA和MolVec在Standard-CSI數據集上的SSA值只有22.05%和17.18%,而DECIMER和CSR-FP則為38.19%和84.29%。這說明相對于基于深度學習的方法,基于規則的方法泛化能力較差。而對于帶有噪聲的圖像,前三者的識別精度均低于20%,可能是因為基于規則的方法沒有加入降噪的規則。DECIMER則是直接使用一個特征提取器而沒有和解碼器進行聯動學習,這會大大降低模型的特征學習能力。總體來說,CSR-FP通過融合分子指紋預訓練以及注意力機制,大大提升了模型的特征提取能力。

3.3 可視化結果

在CSR-FP模型中,編碼器的輸出為一個512通道的8×8特征圖,在解碼器生成字符時,模型計算特征圖與隱式向量的注意力分數。因此,本文隨機選取了一個正確識別的分子并將其每個字符生成時模型對64個圖像塊的注意力分數進行了可視化。如圖5所示,第一個和最后一個子圖分別表示原始的分子圖片與所有字符疊加的注意力權重圖。從最后一個子圖可以看出,模型能夠大致識別整個圖片中的分子區域。從中間的字符權重子圖也可以看出,模型關注的區域與相關原子的位置有所重合。雖然某些字符的關注權重可能有所偏差,但是模型可以利用注意力信息,整合上下文信息以提升解碼能力。未來,我們將通過擴大特征圖以細化模型對分子圖像塊的信息抽取能力。

圖5 注意力機制示例圖Fig 5 Example diagram of attentional mechanisms

4 結論

針對CSR,本文構建了一個基于編碼器-解碼器架構的模型CSR-FP。該模型能較好地學習分子圖像的表征,并且具備良好的可解釋性。兩個基準數據集測試結果表明該模型在目前已有的工具和方法中取得了具有競爭力的效果。具體來說,本文的貢獻主要包括三個方面:

第一,構建了一個基于編碼器-解碼器架構的模型CSR-FP,該模型能較好地學習分子圖像空間表征,與其他工具及方法相比取得了具有競爭力的效果。該工作可在如下鏈接獲取:https://github.com/Jiacai-Yi/CSR-FP。

第二,采用了深度學習的方法,融合了分子指紋知識,即模型在學習分子圖像空間時能結合

預訓練學習到的分子結構信息和性質信息,對于生成更有效的空間表征具有指導意義。

第三,解碼器融合了注意力機制,使模型在解碼每個SMILES字符時都與編碼形成的特征圖做注意力計算,不僅提升了模型的特征提取能力,同時讓模型具有更好的可解釋性。

后續工作中,我們將深入探討化學結構圖像內在特征對模型性能的影響,并且構建與該任務更匹配的模型。并且,由于我們最終的目標是在大量文獻中分割并識別準確的分子結構,因此,未來還需要在排除文本干擾、準確識別R-基團以及識別復雜的立體異構分子等問題上進行深入研究。

猜你喜歡
化學模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
奇妙的化學
奇妙的化學
奇妙的化學
奇妙的化學
3D打印中的模型分割與打包
奇妙的化學
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩美一区二区| 成人夜夜嗨| 亚洲AV电影不卡在线观看| 久久人人97超碰人人澡爱香蕉 | 日韩a级毛片| 国产视频一区二区在线观看| 国产91小视频在线观看| 欧美日韩精品在线播放| 九色视频在线免费观看| 制服丝袜 91视频| 久久久精品国产SM调教网站| 欧美午夜在线播放| 日本五区在线不卡精品| 综合人妻久久一区二区精品| 成人福利免费在线观看| 成人免费一级片| 三上悠亚一区二区| 亚洲成aⅴ人片在线影院八| 亚洲男人的天堂在线| 欧美区一区| 制服丝袜亚洲| 玩两个丰满老熟女久久网| 亚洲熟妇AV日韩熟妇在线| 人妻中文字幕无码久久一区| 亚洲AV无码乱码在线观看代蜜桃| 无码视频国产精品一区二区| 人人91人人澡人人妻人人爽| 国产精品污污在线观看网站| 国产成人亚洲欧美激情| 91欧美亚洲国产五月天| 欧美一区二区三区不卡免费| 欧美国产视频| 99久久这里只精品麻豆| 亚洲av无码牛牛影视在线二区| 国产一区二区精品福利 | 波多野结衣一区二区三区四区| 99一级毛片| 夜夜拍夜夜爽| 91国内外精品自在线播放| 久青草网站| 久久国产成人精品国产成人亚洲| 在线观看免费AV网| 国产91麻豆免费观看| 欧美亚洲国产视频| 四虎成人精品在永久免费| 午夜视频日本| av在线5g无码天天| 亚洲国产精品成人久久综合影院| 亚洲AV电影不卡在线观看| 3344在线观看无码| 亚洲A∨无码精品午夜在线观看| 欧美综合成人| 国产91丝袜在线播放动漫| 九色综合伊人久久富二代| 少妇精品在线| 狠狠干综合| 91精品久久久无码中文字幕vr| 色AV色 综合网站| 亚洲一区二区成人| 欧美日韩午夜| 亚洲精品无码不卡在线播放| 青青青视频免费一区二区| 国产a网站| 色偷偷综合网| 99热这里只有精品2| 亚洲一区二区三区国产精华液| 色成人亚洲| 欧美乱妇高清无乱码免费| 天堂网国产| 亚洲最大情网站在线观看 | 国产亚洲欧美另类一区二区| 国产欧美日韩资源在线观看| 99草精品视频| 亚洲精品麻豆| 五月天福利视频| 亚洲第一成年网| 99久久精品国产自免费| 久久亚洲国产一区二区| 久久久久青草线综合超碰| 97久久免费视频| 国产精品无码制服丝袜| 五月丁香在线视频|