蟻佳才,張小琛,劉丹(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,長(zhǎng)沙 410073)
科研工作者通常將經(jīng)過大量實(shí)驗(yàn)收集的化學(xué)知識(shí)轉(zhuǎn)化為文獻(xiàn)中的圖文描述,這些海量的知識(shí)是化合物重新發(fā)現(xiàn)及藥物發(fā)現(xiàn)研究的巨大財(cái)富。文獻(xiàn)中的化合物結(jié)構(gòu)是藥物發(fā)現(xiàn)的核心,而這些結(jié)構(gòu)信息在大多數(shù)情況下是以圖像的形式呈現(xiàn),這些有價(jià)值的信息對(duì)于機(jī)器來(lái)說是非結(jié)構(gòu)化且不可讀的。因此,自動(dòng)化地將化學(xué)結(jié)構(gòu)由圖像轉(zhuǎn)換成人類或機(jī)器可讀的格式,對(duì)于從大量文獻(xiàn)中挖掘知識(shí)是非常重要的,該過程被稱為化學(xué)結(jié)構(gòu)識(shí)別(chemical structure recognition,CSR)。
對(duì)于機(jī)器可讀的分子結(jié)構(gòu),目前采用廣泛的包括國(guó)際通用技術(shù)和統(tǒng)一標(biāo)準(zhǔn)的線性碼簡(jiǎn)化分子線性輸入系統(tǒng)(simplified molecular input line entry system,SMILES)以及分子的三維表示,如圖、矩陣或連接表等。SMILES可以減少存儲(chǔ)空間,提升檢索效率,并且可以很方便地編碼分子結(jié)構(gòu)、性質(zhì)信息以及轉(zhuǎn)換成其他三維表示,因此被廣泛應(yīng)用于各種與化合物分子相關(guān)的研究中。在CSR中,其目標(biāo)是將化學(xué)結(jié)構(gòu)圖像轉(zhuǎn)換為相應(yīng)的SMILES字符串,即圖像到文本的轉(zhuǎn)換。圖1展示了阿司匹林(aspirin)的化學(xué)結(jié)構(gòu)以及相應(yīng)的SMILES,從圖中可以直觀地看出,除了識(shí)別出圖像中相應(yīng)的元素以外,還需要根據(jù)相應(yīng)重構(gòu)算法將這些元素的符號(hào)組合成有效的SMILES。

圖1 化學(xué)結(jié)構(gòu)識(shí)別示意圖Fig 1 Diagram of chemical structure recognition
本文采用深度學(xué)習(xí)的方法,基于編碼器-解碼器架構(gòu),融合注意力機(jī)制和分子指紋先驗(yàn)知識(shí),構(gòu)建了一個(gè)深度學(xué)習(xí)模型——基于指紋預(yù)訓(xùn)練的化學(xué)結(jié)構(gòu)識(shí)別(chemical structure recognition based on fingerprint pre-train,CSRFP),現(xiàn)報(bào)道如下。……