王雨晴,胡孔法,胡晨駿
(1.南京中醫藥大學人工智能與信息技術學院,江蘇 南京 210023;2.中國科學院上海藥物研究所,上海 201210;3.江蘇省中醫藥防治腫瘤協同創新中心,江蘇 南京 210023)
計算機輔助藥物設計(computer aided drug design,CADD)的理論誕生于20世紀80年代,Richards[1]首先提出計算機輔助分子設計的想法,隨后Hopfinger[2]提出計算機輔助藥物設計的概念。90年代,Suna等[3]將CADD定義為一種基于結構替代傳統藥物開發模式的新藥物開發方法。21世紀后,Song等[4]對CADD的定義范圍進行了補充,即CADD是一種基于化合物的存儲、管理、分析和建模的計算工具和資源[5]。
CADD通過計算機模擬設計并分析化合物,在降低藥物開發成本的同時,提高了藥物的研發效率,對藥物設計全階段都有卓越的貢獻[6]。在使用CADD進行全新的藥物設計時,首先需要對化合物的合成路線進行整合,形成一個合成數據庫,然后通過分子對接、虛擬篩選等方法找出可能有效的化合物,并對化合物進行藥理活性預測和藥效基團研究,篩選出其中可能有活性的化合物,進而完成整個全新藥物設計流程[7]。然而,由于CADD理論誕生的時間相對較短,涉及學科方法眾多,還存在計算方法迭代速度快等實際問題,在使用過程中給相關研究人員帶來了一定的困擾[8]。因此,充分了解近年來CADD領域的研究熱點,研判其未來的發展方向,對藥物發現工具的持續改進具有十分重要的意義[9]。本文利用CiteSpace軟件,對2010至2022年這一時間段內國內外核心期刊中CADD領域的相關論文進行整理和分析,以期為CADD的理論研究和實踐操作提供基于論文數據的支撐,同時,預測該領域未來的研究趨勢和發展方向。
1.1 研究方法CiteSpace是一個基于知識圖譜對文獻進行可視化計量分析的建模軟件,由陳超美教授開發,旨在一個知識域或學科在一定時期的研究趨勢與發展動向,形成若干研究前沿領域的演進歷程[10-11]。本文使用CiteSpace繪制了包括關鍵詞網絡、分布時序圖、突現圖和聚類圖在內的圖譜,以分析CADD領域的相關文獻。
1.2 數據來源本文分別研究了國內和國外在CADD領域的相關文獻,其中國內文獻來源為中國知網(CNKI)數據庫,國外文獻來源為Web of Science(WOS)核心合集數據庫,語言選擇為英文。盡管1995年CADD的概念就已經被引入國內,但是在之后的15年間,由于理論和科研條件的限制,僅有極少的論文被發表,且發表時間具有隨機性,不具有統計學意義。在這個背景下,本文將文獻的檢索時間范圍設定為2010.1.1—2022.12.31。根據表1的數據篩選方式對本文需要的數據進行初步篩選,關聯詞篩選全部使用模糊檢索。同時,為了確保用于分析的文獻質量,在篩選WOS數據庫時舍去了所有Open Access文獻,會議、書籍、報刊、已撤回等意義不大的文獻。篩選之后,共計得到CNKI數據庫文獻1 096篇,WOS數據庫文獻2 859篇。最后,以人工的方式篩除所有相關性低的論文,并且導入CiteSpace進行去重,最終得到的可分析文獻數量為CNKI數據庫文獻474篇,WOS數據庫文獻802篇。

表1 數據來源
根據上述數據可以發現,在CADD領域文獻數量上,國內相較于國外有明顯差距,僅有約60%的數量,說明國內在CADD領域相較于國外起步晚、研究少。參考國外已有的CADD方向的研究成果和進展,可以發現國內CADD領域仍有相當大的發展前景。因此,無論是借鑒國外已經研究的方向繼續展開深入研究還是根據最新的方法提出全新的研究方向,都能夠充分發揮后發優勢,實現在CADD領域對國外的趕超。
各研究領域的內容可以由文獻中的關鍵詞體現,關鍵詞能夠高度概括文獻的主題和研究方法,而高頻率的關鍵詞往往被認為是該領域的研究熱點[12]。CiteSpace提供針對“Keywords”的研究方法,將關鍵詞作為節點,而節點大小則反應關鍵詞的出現頻率,連線代表共現關系,連線的粗細代表關系的強弱[13]。本文對國內外CADD領域相關文獻分別進行關鍵詞分析,繪制關鍵詞網絡,對比分析結果。
2.1 CADD領域的研究熱點分析
2.1.1 國內研究熱點圖1所示的為國內CADD領域的關鍵詞網絡,圖中共包括327個節點,521條連線。按照關鍵詞出現的頻率,對國內CADD領域的關鍵詞進行排序,如表2所示。表2中同時包含了關鍵詞出現頻率和中心度,中心度量化了周圍節點和中心節點之間的相關程度,反應節點在圖中的重要程度。

圖1 中文文獻中CADD領域研究熱點

表2 中文文獻中CADD領域研究熱點(前10)
根據表2可以發現,出現頻率最高的5個關鍵詞涉及的學科方法相似度較高,存在很強的關聯性,如機器學習和深度學習都是計算機自主解決問題的方法,且都是人工智能下的重要分支[14],深度學習可以通過構建和訓練多層神經網絡來實現對數據的建模和學習,在分析大型數據集和識別變量之間的復雜關系和中發揮著重要作用。在分析大型數據集方面,深度學習的一個主要優勢是可以自動從數據中學習特征表示[15]。與傳統特征工程方法相比,深度學習能夠從原始數據中學習到更高層次的抽象特征,而無需依賴領域專家的先驗知識。這使得深度學習在處理復雜數據集時具有更好的靈活性和表達能力,能夠發現數據中隱藏的模式和關聯性。在識別變量之間的復雜關系方面,深度學習的多層神經網絡結構使其能夠捕捉到非線性的關系。相比于傳統的線性模型,深度學習可以通過多層非線性變換來建模輸入變量與輸出變量之間的復雜映射關系。這使得深度學習在處理包含大量變量和復雜交互關系的問題時更為強大,可以應用于藥物再利用,即發現已有的藥物在其他疾病治療中的潛在用途[16]。從表2中還可以看出,從第6個關鍵詞開始,關鍵詞的出現頻率開始明顯降低,由此說明國內CADD目前應用的領域尚未得到充分開發,現有的研究仍然只是集中在有限的幾個領域,尚有許多潛力等待挖掘。
分析圖1和表2可以發現CADD在國內的研究熱點主要包括以下方面:
①“深度學習”和“人工智能”這兩個關鍵詞較高的出現頻率表明其已經在藥物設計中被廣泛使用[16]。然而,其中心度還相對較低,說明它們目前仍不是目前CADD研究的必要方法。通過文獻分析已經證明這兩種方法的使用可以彌補已有方法的短板,因此提高其在CADD中的使用率,擴大其適用范圍,將是未來藥物設計的重要發展方向。
②關鍵詞“機器學習”的出現頻次排在第1位,中心度排在第2位,說明機器學習是目前CADD領域中使用最多,應用范圍最廣的方法。盡管“分子對接”的出現頻次低于“機器學習”,但是中心度更高[17]。這是因為在基于結構設計藥物的各類方法中,分子對接毋庸置疑是最重要的一種,也是目前業內使用最多,普及最廣泛的一種方法,因為在使用其他設計方法時,同樣需要利用分子對接來進行分子結構設計[18]。
2.1.2 國外研究熱點圖2為國外CADD領域的關鍵詞網絡,圖中共包括455個節點,2 911條連線。按照關鍵詞出現的頻率,對國外CADD領域的關鍵詞進行排序,如表3所示。

圖2 英文文獻中CADD領域研究熱點

表3 英文文獻中CADD領域研究熱點(前10)
分析發現,現頻率最高的5個關鍵詞分別是“Machine learning”“Drug discovery”“Design”“Prediction”以及“Drug design”。其中“Drug discovery”“Design”和“Drug design”3個詞雖然出現頻次都很高,但是本質上都可視為藥物設計這一關鍵詞的不同表述。這一現象說明藥物設計依舊是CADD的核心,而計算機只是藥物設計的輔助工具。和國內的熱點相同,“Machine learning”也是國外熱點中出現頻次最高的關鍵詞,說明在CADD現有的方法中,機器學習是使用次數最多,使用范圍最廣,深受學者歡迎的一種方法[19]。相較國內,國外CADD領域每個關鍵詞的頻率都很高,而中心度數值不高且相對平均,由此說明,在國外CADD領域是一個研究熱門,研究人員眾多,熱點百花齊放,整個領域呈現出一片欣欣向榮。
分析圖2和表3的可以發現CADD在國外的研究熱點主要包括以下方面:
①藥物設計的概念。在藥物設計的過程中,面對海量的化合物,合成并驗證其有效性需要花費大量的成本。國外的研究發現使用計算機輔助可以最大限度地減少生物測定中需要篩選的配體數量,從而降低開發新藥的研發成本[20]。
②CADD的方法。國外CADD所使用的方法是包括機器學習、深度學習在內的人工智能方法。在上述的方法中,遺傳算法中心度最高,使用頻率僅次于機器學習,這意味著專家學者和從業人員在使用人工智能方法進行藥物設計,大都會使用到遺傳算法[21]。遺傳算法是一種啟發式搜索方法,應用進化論原理模擬遺傳中發生的復制、交叉和變異現象,通過隨機選擇、交叉和變異操作對給定的搜索問題提出近似最優解[22]。同時,遺傳算法具有很好的收斂性,計算時間少,算法魯棒性高,適用于處理各種問題,其理論依據與CADD的理論不謀而合[23]。
③CADD解決問題的方式。國外的研究發現,CADD能夠對化合物和靶點進行識別,根據它們的相互作用關系,預測先導化合物,根據預測出的化合物進行分子對接,然后篩選出能合成且活性高的部分進行試驗,達到設計藥物的最終目的。
2.2 關鍵詞聚類分析在關鍵詞網絡的基礎上,根據K-means算法,繪制關鍵詞聚類圖用以了解近10年來的CADD的主要研究方向。聚類算法將相似度大的節點放在同一聚類中,盡可能保證不同聚類的差異性達到最大[24]。聚類編號越小,聚類的規模越大,聚類包含的數量也就越多。本文選擇前7個較大的聚類進行分析。
2.2.1 國內關鍵詞聚類分析圖3所示的為國內CADD領域的聚類圖。

圖3 中文文獻中CADD領域聚類圖
表4所示的聚類結果反映了國內CADD的工作路線,該工作路線也是目前國內CADD主要的研究方向。“機器學習”“深度學習”和“人工智能”是CADD領域中所使用的方法。根據圖3可以發現目前計算機對藥物設計的影響主要體現在人工智能的算法領域,即使用合適的機器學習和深度學習算法對藥物進行分析和設計。“分子對接”“虛擬篩選”和“合成”是計算機參與設計藥物的具體手段,虛擬篩選中包括研究藥物的藥效基團,發現藥物分子的關鍵藥效特征,預測藥物的藥理活性篩除沒有活性的化合物等具體方法,通過計算機合成分子式,對分子的作用靶點進行預測和篩選。設計者通過計算機合成分子式,對分子的作用靶點進行預測和篩選?!八幬锆煼ā笔荂ADD的目標,即利用計算機參與藥物設計,從而進行新藥開發的相關工作。

表4 中文文獻中CADD領域聚類分析(前7)
2.2.2 國外關鍵詞聚類分析圖4所示的為國外CADD領域的聚類圖,表5列出了英文文獻中排在前7的聚類詞。

圖4 英文文獻中CADD領域聚類圖

表5 英文文獻中CADD領域聚類分析(前7)
根據圖4和表5顯示,國外聚類規模最大是“scoring function”,而這個方向在國內聚類中沒有體現。評分函數主要被用來對化合物進行評估,確定化合物的結構和結合靶點的能力。該函數的應用在實際進行藥物設計時是絕對不可或缺的一步,尤其是在商用情況下。國外的CADD領域發展較早,已經完成從實驗室到生產線的轉化,而國內CADD由于發展較晚,目前和商業結合度較低,大多在高?;蜓芯吭褐惺褂谩>垲愒~“feature extraction”在國外的CADD中被廣泛使用,包括定量構效關系、機器學習和深度學習算法。而國內,由于CADD起步較晚,發展較慢,目前理論分析仍大于實際應用,且更多是在中藥靶點分析設計使用中,數據量相對較小,因此在特征提取方面沒有得到深入研究[25]。聚類詞“tool”則解釋了CADD的屬性,是一種用于藥物設計的工具。而聚類詞“machine learning”和“virtual screening”則與國內聚類結果相同,再一次證明了這兩個方法對于CADD領域的重要性。聚類詞“design”說明了國外的CADD的路線同樣是利用相關算法進行包括分子對接在內的相關工作,最終實現目標藥物的設計,這一點與國內是一致的。由此說明,國內CADD的相關工作大多仍是基于對國外的學習。
在進行可視化分析時,演進趨勢能夠清晰地表示目標領域的發展方向,本文利用CiteSpace提供的“Timezone”方式,根據關鍵詞出現的時間節點和出現頻率繪制了分布時序圖。其中,關鍵詞為節點,關鍵詞之間的關系為連線,節點所在位置為該關鍵詞在數據集中首次出現的年份,節點大小和顏色的深淺度反映了關鍵詞出現的頻率。通過對分布時序圖的分析,能夠清楚的了解CADD的演進趨勢。
3.1 國內CADD領域的演進趨勢分析圖5為國內CADD的分布時序圖,時間范圍為2010—2022年。

圖5 中文文獻中CADD領域分布時序圖
在20世紀80年代,雖然國外CADD理論的誕生和傳播對國內的藥物設計產生了影響,但直到21世紀該理論才逐漸被國內的學者應用在實踐中[26]。從圖5中可以發現在人工智能算法被引入CADD之前,國內就已經使用虛擬篩選和分子對接方法進行藥物設計[27-28]。隨著個人電腦的普及和國產超級計算機的出現,利用計算機進行藥物設計逐漸走進研究人員的視野。盡管機器學習很早就以數據挖掘的方式被應用于碩博畢業論文中,但真正用于藥物設計并被期刊發表則起始于2008年,且每年只有零星的相關論文發表[29]。直到2015年,機器學習在中文期刊中的數量才逐漸增多,但是數量依舊有限。同樣的情況也體現在深度學習上,第一篇藥物設計與深度學習相關的文獻發表于2015年[30]。圖5中大部分關鍵詞都非常寬泛,這是由于雖然近5年國內相關文獻的數量逐漸增多,但是對CADD的研究更多還是集中在理論研究上,主要包括對CADD的原理和適用范圍等內容的研究[31]。同時,國內原本就有限的文章還大多為綜述類文章,研究性文章數量很少,因此國內的CADD領域在具體實驗方面還有很大的發展空間。
3.2 國外CADD領域的演進趨勢分析圖6為國外CADD的分布時序圖,時間范圍為2010—2022年。

圖6 英文文獻中CADD領域分布時序圖
1985年,隨著第一篇CADD文章在國外發表,標志著計算機正式被引入藥物設計領域[32]。國外關于分子對接和虛擬篩選在藥物設計的應用分別起始于1992年[33]和1995年[34],明顯領先國內,但是近10年來,與二者相關的文章比例相對較小。造成這一現象的原因是,國外分子對接和虛擬篩選的方法在CADD中提出早,實現早,應用早,目前已經應用于商業藥物研發,對它們的研究已經非常充分,在實驗中很難有進一步的提升空間[35]。相較于國內,國外機器學習算法的應用甚至早于分子對接,1991年就提出用機器學習的方法來進行預測分子[36]。從21世紀開始,國外相關文獻的數量穩步增加,每年發表的文獻數量超過國內發表文獻數量的10倍。根據圖6可以發現,機器學習中的一系列算法逐步被應用在藥物設計中,以解決遇到的實際問題。由機器學習延伸的深度學習算法盡管被使用的時間不長,但使用的頻率卻很高,尤其是復雜神經網絡和深度神經網絡等內容更是熱門。去除代表藥物發現、設計等缺乏具體意義的節點,遺傳算法在該領域分布時序圖中具有十分重要的地位,其可以被認為是人工智能算法中使用頻率最高的算法之一[37]。目前,國外的研究人員還在不斷地根據生物學的需要對算法進行優化改進,以期望達到更好的預測效果。
突變詞是指關鍵詞在某一年出現并隨后出現爆發式增長,其可以利用CiteSpace中提供的“Burstness”方法找到。突變詞可以用于了解一個領域在這個時間段內的研究熱點并預測該領域未來的發展趨勢。本文選擇前十位關鍵詞繪制CADD領域的突變詞圖譜,“Strength”代表突變強度,“Begin”代表突現開始時間,“End”表示突現結束時間,紅色代表突現持續時間。
4.1 國內CADD領域的未來趨勢分析圖7為國內CADD的突變詞圖譜,時間范圍為2010—2022年。

圖7 中文文獻中CADD領域突變詞圖譜
如圖7所示,國內近幾年CADD領域的研究熱點在深度學習和機器學習,通過這兩個方法進行藥物研發。同時,深度學習的突現強度非常高,可預見國內CADD未來的研究方向將有如下變化:
①傳統CADD中使用的分子對接和虛擬篩選方法經過一段時間大量使用后,技術層面已經發展非常成熟,因此使用頻率已經趨于穩定。目前分子對接和虛擬篩選更多被應用于實踐中,在未來也將更多作為成熟的藥物發現手段,應用在藥物合成實驗之前,而不再是作為一個創新方法。同源建模是一種根據已知結構的蛋白和同源蛋白之間的結構差異來預測蛋白質功能和特異性變化的方法。該方法曾經風靡一時,但在實際使用過程中仍有較多問題難以解決,主要包括對較長的結構發散區域進行建模。因此,該方法目前實際上已經陷入瓶頸,不再成為未來研究的主要方向[38]。
②自人工智能方法被引入藥物設計中后,很快在藥物設計領域異軍突起,直到當下仍然是研究重點。深度學習作為人工智能方法的一種,突現強度非常高,說明其受到了研究人員的廣泛關注。在藥物發現階段,深度學習可以對大量化合物的結構和活性數據進行訓練,從而預測新的化合物的活性和潛在藥效[39]。通過對已有藥物的藥理數據和疾病信息進行學習,深度學習可以幫助識別出已有藥物與其他疾病之間的關聯性,從而推斷其在新的治療領域的潛在應用。此外,深度學習還可以用于預測藥物代謝、藥物相互作用和藥物副作用等方面。通過對大量藥物相關數據的學習,深度學習可以輔助預測藥物的代謝途徑、相互作用和潛在副作用,從而幫助藥物研發人員在早期階段對候選化合物進行篩選和評估[40]。隨著研究的不斷深入,深度學習會更加貼合藥物設計的需求,其未來必將成為CADD領域研究的重要方法。
4.2 國外CADD領域的未來趨勢分析圖8為國外CADD的突變詞圖譜,時間范圍為2010—2022年。

圖8 英文文獻中CADD領域突變詞圖譜
如圖8所示,前十的關鍵詞在2020年以前都已經結束突現,其中“genetic algorithm”的突現強度非常高。因此,可預見國外CADD未來的研究方向將有如下變化:
①前十的關鍵詞的突變都出現在2020年以前,且突變強度都非常高。其中genetic algorithm的突變強度高達19.37,一度被認為是當時CADD領域研究的最前沿。但隨著時間的推移,遺傳算法逐漸成熟,已經成為CADD領域中常用的方法,雖然具有很強的實用價值,但是在研究領域很難有進一步的提升空間,無法代表國外CADD領域未來的研究方向。
②雖然關鍵詞數量很多,且方向各不相同,在研究方向上呈現百花齊放的態勢。但是,近兩年有突現表現的關鍵詞的突現強度都不高,說明國外CADD領域近兩年沒有普適性強的新方法提出,大多研究是在已經提出的大方向上進行細化,或者根據具體需要實現的目的進行分類研究。
使用CiteSpace作為研究工具,對從CNKI數據庫和WOS數據庫中2010—2022年的國內外CADD領域相關文獻進行基于知識圖譜的可視化分析,獲得其在研究熱點、演進趨勢、未來發展方向的研究結論如下:
①從研究熱點來看,國內CADD領域的研究更多在已經成熟的方法,包括虛擬篩選和分子對接,新方法仍然更多停留在理論階段,且具體應用較少。國外CADD領域的研究更多偏向新方法的實際應用,目前已經做到將成熟的工具應用在工業生產中的同時,基于不同的需求開發針對性的算法。國內在新方法、新工具的使用上不能拘泥于已經證明有用的方法,應當積極嘗試一些尚未應用于藥物設計領域的新方法,提出具有自主知識產權的新方法,打破國外的知識壁壘,為未來行業發展夯實基礎。
②從演進趨勢來看,國內CADD領域的研究相較于國外具有起步晚、增長慢、應用少的不足,大多方法都是由國外研究人員首先提出后國內才開始使用。國外CADD領域隨著計算機迭代更新不斷發展,一直走在領域最前沿。相較于國外,國內在CADD領域一定程度上擁有后發優勢,如何充分利用后發優勢值得我們深思。充分汲取國外的成功經驗,在研究中少走彎路,同時思維不受已有成果的影響,用自己的方法開創出真正適合國內CADD的研究成果是當下國內學者的共同目標。
③從未來發展來看,對于CADD本身而言,其最新發展是使用深度學習算法來預測潛在候選藥物的特性,能夠輔助CADD分析大型數據集和識別變量之間的復雜關系并最終幫助藥物設計。國內CADD領域的研究需要提高實驗比例,同時針對算法進行更加深度的研究,將算法真正用到藥物設計的實際應用中。而國外CADD領域則將繼續根據實際需求對算法做進一步細化修改,使其盡可能貼合藥物設計的需求,從而提高設計任務完成的精確度。理論研究是實踐的基礎,但是空談理論不加以應用,理論就失去了存在價值。只有將現階段國內CADD領域的理論知識盡快應用于實踐,才能進一步促進理論知識的更新和發展,跟上國外CADD研究的前沿方向。
結合上述結論和目前國內CADD領域的研究現狀和,本文提出如下建議:①積極將理論應用于為實踐,根據成功的實踐推動理論的持續發展,實現CADD領域的良性循環;②加強CADD,特別是關于人工智能算法方向的實際應用,積極學習國外在應用方面的經驗,打破國外在CADD領域的知識壁壘,提出具有自主知識產權的CADD設計方法;③密切關注計算機算法研究的最新動向,取其精華來補充CADD存在的不足,以期在推動國內CADD研究向前發展的同時,豐富CADD領域應用的新方向,使得國內的研究能夠始終走在技術革新的最前沿,最終讓國內在CADD領域真正獲得全面發展,在未來實現對國外研究的超越。