基于深度學(xué)習(xí)的化學(xué)結(jié)構(gòu)識(shí)別研究

2022-03-30 02:05:02蟻佳才張小琛劉丹國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院長(zhǎng)沙410073

中南藥學(xué) 2022年2期

蟻佳才，張小琛，劉丹（國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院，長(zhǎng)沙 410073）

科研工作者通常將經(jīng)過大量實(shí)驗(yàn)收集的化學(xué)知識(shí)轉(zhuǎn)化為文獻(xiàn)中的圖文描述，這些海量的知識(shí)是化合物重新發(fā)現(xiàn)及藥物發(fā)現(xiàn)研究的巨大財(cái)富。文獻(xiàn)中的化合物結(jié)構(gòu)是藥物發(fā)現(xiàn)的核心，而這些結(jié)構(gòu)信息在大多數(shù)情況下是以圖像的形式呈現(xiàn)，這些有價(jià)值的信息對(duì)于機(jī)器來(lái)說是非結(jié)構(gòu)化且不可讀的。因此，自動(dòng)化地將化學(xué)結(jié)構(gòu)由圖像轉(zhuǎn)換成人類或機(jī)器可讀的格式，對(duì)于從大量文獻(xiàn)中挖掘知識(shí)是非常重要的，該過程被稱為化學(xué)結(jié)構(gòu)識(shí)別（chemical structure recognition，CSR）。

對(duì)于機(jī)器可讀的分子結(jié)構(gòu)，目前采用廣泛的包括國(guó)際通用技術(shù)和統(tǒng)一標(biāo)準(zhǔn)的線性碼簡(jiǎn)化分子線性輸入系統(tǒng)（simplified molecular input line entry system，SMILES）以及分子的三維表示，如圖、矩陣或連接表等。SMILES可以減少存儲(chǔ)空間，提升檢索效率，并且可以很方便地編碼分子結(jié)構(gòu)、性質(zhì)信息以及轉(zhuǎn)換成其他三維表示，因此被廣泛應(yīng)用于各種與化合物分子相關(guān)的研究中。在CSR中，其目標(biāo)是將化學(xué)結(jié)構(gòu)圖像轉(zhuǎn)換為相應(yīng)的SMILES字符串，即圖像到文本的轉(zhuǎn)換。圖1展示了阿司匹林（aspirin）的化學(xué)結(jié)構(gòu)以及相應(yīng)的SMILES，從圖中可以直觀地看出，除了識(shí)別出圖像中相應(yīng)的元素以外，還需要根據(jù)相應(yīng)重構(gòu)算法將這些元素的符號(hào)組合成有效的SMILES。

圖1 化學(xué)結(jié)構(gòu)識(shí)別示意圖Fig 1 Diagram of chemical structure recognition

本文采用深度學(xué)習(xí)的方法，基于編碼器-解碼器架構(gòu)，融合注意力機(jī)制和分子指紋先驗(yàn)知識(shí)，構(gòu)建了一個(gè)深度學(xué)習(xí)模型——基于指紋預(yù)訓(xùn)練的化學(xué)結(jié)構(gòu)識(shí)別（chemical structure recognition based on fingerprint pre-train，CSRFP），現(xiàn)報(bào)道如下。……

登錄APP查看全文