郭曉真 張學福
(中國農業科學院農業信息研究所,北京 100081)
合成生物學其基本含義是采用工程化的設計原理,對生物體進行有目標的設計、改造、重新合成,它是生物學與數學、化學、計算科學、工程科學等多學科的深度交叉融合而形成的新興學科,具有顯著的通用性特征,已在生物能源、生物材料、醫療技術、生態學等領域取得突破性進展[1-2]。基于合成生物學在國際科技、經濟競爭中的重要戰略性作用,世界各國政府對合成生物學進行了持續性和大規模的布局和資助。美國于2006年便開始布局合成生物學相關研究,建立了合成生物學工程研究中心(SynBERC),2016年提出將重點關注農業等方面的研究和轉化[3];歐盟2012年啟動建立了歐洲合成生物學研究區域網絡(ERASynBio),在其2014年戰略愿景報告中指出合成生物學將在生態和農業等領域有巨大應用潛力;英國生物技術和生物科學研究理事會(BBSRC)以及英國工程和自然科學研究理事會(EPSRC)于2014年出資成立植物合成生物學開放研究中心(OPSBRC)致力于加快植物合成生物學技術的開放和發展,實現農業領域的可持續發展和創新[4]。我國政府及相關部門也高度重視合成生物學研究的重要性及重大發展潛力。國家“十二五”規劃、科技部“973”計劃和“863”計劃等重大科學項目都將合成生物學列為重點研究方向(表1)[5]。了解當前合成生物學在其它領域的擴散效應,對于科技管理部門進行資源的優化配置,對于科研人員了解學科動態、把握領域科技前沿以及開展科研合作等均具有重要意義。

表1 “973”計劃支持的合成生物學相關項目Table 1 Synthetic biology related projects supported by“973” program
文獻計量學作為一種偏定量的統計分析方法,能實現對于論文數據等的多維度計量分析[6]。相較于專家咨詢的定性方法能顯著提高分析效率。科技論文是科技成果的重要組成部分,在一定程度上能反映科研主體的學術研究水平。本研究采用文獻計量學的基本原理和方法,統計2000-2019年全球合成生物學領域相關科技文獻數據,包括發文量、主題分布,基于高被引論文及其引文關系揭示主要研究方向,探測全球農業合成生物學領域發展態勢,判定其演化趨勢。
本文以Web of Science數據庫中的Web of Science核心合集(包括SCI-EXPANDED和CPIP-S)作為數據來源進行論文檢索,在合成生物學領域檢索式確定時,經專家咨詢并修改確定最終的檢索式,出版年限定為2005-2019年,檢索結果共301 743篇,檢索時間2021年1月。檢索式為TS=(“synthetic biology” or “chromosome engineering” or genome editing or “quantitative engineering biology” or chassis or “biological parts” or gene circuits or synthetic metabolism or “enabling technology” or genetic network or artificial design or molecular module* or synthetic module* or biosynthesis)。
本文借助Web of Science數據庫文獻分析平臺、InCites數據庫、Excel等數據處理工具對文獻的時序出版數量進行計量分析,利用可視化工具Vosviewer對領域進行主題挖掘和可視化展示。此外,選取其中的植物合成生物學領域2015-2019年高被引文獻的核心內容進行解讀和計量。本研究所分析的“高被引文獻”基于ESI數據平臺已標識的“高被引文獻”。聚焦植物合成生物學主題,構建論文引文知識網絡,利用主路徑分析方法[7]識別領域內容。
對特定時間段內領域論文發表量進行統計,在一定程度上能反映科學研究活動的活躍程度。本研究通過對在Web of Science核心合集中檢索到的出版年為2005-2019年的15年間301 743篇論文數據,構建基礎領域基礎數據集。根據合成生物學領域文獻累積發文量繪制時間分布圖(圖1),同時添加累積發文量的趨勢線,對近15年的文獻累積數據進行指數增長定律的回歸分析。結果顯示發文量隨出版年代呈指數增長趨勢,符合普賴斯提出的科學文獻指數增長規律,增長曲線尚未向邏輯曲線轉變,因此判定該領域處于穩定發展中階段。

圖1 合成生物學領域累計發文量的時間分布圖Fig. 1 Time distribution of cumulative published articles in synthetic biology field
進一步繪制文獻發表量、文獻增長量隨時間的變化曲線如圖2所示。從發文量曲線中可以看出,2005-2010年發文量曲線及增長曲線相對平緩,文獻增長速度慢,當時以線路設計工作為主的合成生物學已經開始對簡單基因調控網絡進行探索,合成生物學的規模和范圍得到了一定程度的提高,研究人員開始嘗試使用新元件構建更加復雜的網絡,也開展了關于細胞治療和對代謝途徑(網絡)改造和優化的積極探索,合成生物學處于起步階段后的擴張和發展時期。隨著基因組學研究逐漸深入,歐美發達國家自2008年前后開始在合成生物學領域相繼投入資金開展學科布局,政策和資助推動學科領域發展,合成生物學也隨即進入快速增長期,2011-2015年發文量持續穩定增長,平均年發文量達到20 000多篇。2016-2019年曲線斜率有明顯提高,文獻增長幅度明顯增大,是合成生物學領域快速發展階段,除了各國政府的持續關注和資金支持,推測該時間段領域有重大突破,如基因編輯技術推動領域的快速發展。

圖2 合成生物學領域文獻發表量和增長量的時間分布圖Fig. 2 Time distribution diagram of published amount and growth amount of literature in synthetic biology field
文獻主題是相關文獻構成的知識集合,對一組內容未知的文獻通過相關性計算使主題相關的文獻進行聚類,可實現對文獻主題的表征。關鍵詞共現是相同關鍵詞在不同文獻中出現的頻次,如果一組文獻中相同關鍵詞數量越多,那么表征文獻內容的相關性越強,這組文獻應該屬于同一主題方向。根據關鍵詞共現的原理可以實現對目標文獻的主題聚類、形成知識圖譜,在一定程度上實現對于文獻內容結構的分析。
將本研究中2005-2019近15年的文獻時間劃分3個時間節段(2005-2009年;2010-2014年;2015-2019年),對3個時間段內的高被引文獻的高頻關鍵詞進行相似性計算,獲得主題聚類,如圖3-圖5所示。2005-2009年產生了3個顯著聚類(圖3),分別是植物、化工、醫藥;2010-2014年(圖4)產生了4個顯著聚類,分別是植物、化工、醫藥、納米技術,專家和學者開始利用合成生物學對納米技術領域進行探索;2015-2019年產生了4個顯著聚類(圖5),分別是植物、化工、醫藥、納米技術,與上一個五年的時間片中聚類核心相同,其中植物合成生物學主題持續出現,反映了該主題的重要性和創新潛力。

圖3 2005-2009年合成生物學領域關鍵詞共現圖譜Fig. 3 Co-occurrence map of keywords in synthetic biology from year 2005 to 2009

圖4 2005-2009年合成生物學領域關鍵詞共現圖譜Fig. 4 Co-occurrence map of keywords in synthetic biology from year 2005 to 2009

圖5 2015-2019年合成生物學領域關鍵詞共現圖譜Fig. 5 Co-occurrence map of keywords in synthetic biology from year 2015 to 2019
我國植物學領域發展的歷史悠久,研究水平處于國際領先水平,該主題是與農業作物領域密切相關的重要學科,是影響全球糧食安全的重要學科領域[8-10]。下文聚焦植物合成生物學主題內的高被引文獻構建知識網絡,從中識別在領域創新發展過程中發揮不同作用的知識,對揭示領域知識擴散特征、判定并預測領域發展態勢具有重要意義。
2.3.1 文獻引文網絡構建 本研究中與植物相關的合成生物學(本研究稱為“植物合成生物學”)文獻共15 560篇,劃分4個時間段引文數據分別構建直接引文網絡,并提取各時間窗節點數量大于10的連通子網絡可視化結果如圖6所示。由引文網絡圖譜可以看出,時序內引文網絡的節點規模顯著增大,反映了該領域知識數量及知識擴散規模隨時間呈現顯著增長趨勢。

圖6 植物合成生物學領域2000-2019年引文網絡Fig.6 Citation network in the field of plant synthetic biology from year 2000 to 2019
2.3.2 基于主路徑方法的關鍵內容解析 主路徑中弧線權值越高表明通過該弧線的知識流量越大,對知識擴散的支撐作用越強。基于SPC/SPLC算法得到的高線值的弧線集,獲得弧線上的關鍵節點對,從中提煉重要知識點。
2000-2019年這一時間窗內整個主路徑共涉及25篇文獻(表2),解讀每篇文獻的節點內容構建知識圖譜(圖7)。

圖7 2000-2009 年主路徑分析方法獲得的關鍵節點Fig.7 Key nodes obtained by main path analysis method from year 2000 to 2009

表2 2010-2019年主路徑節點內容解析Table 2 Content analysis of main path nodes in year 2010-2019
2000-2005年這一時間節段內,主題內容是與油芥子油苷合成途徑中P450南芥細胞色素基因的克隆及其在芥子油苷生物合成中重要催化作用。芥子油苷是一類重要的次生代謝產物,其合成途徑首先色氨酸經細胞色素P45079B2 和CYP79B3 合成酶催化而形成吲哚-3-乙醛肟(IAOx),它是多個代謝途徑前體物質,參與IGS 合成吲哚族芥子油苷。這組研究數據首次證明了進化上保守的細胞色素P450催化芥子油苷和氰基葡萄糖苷的生物合成途徑,使得芥子油苷的生物合成得到發展;擬南芥細胞色素P450 CYP79B2的鑒定為修飾吲哚芥子油苷的含量提供了重要工具。這一階段的另一重要特征是重要次生代謝產物合成途徑中,關鍵步驟及關鍵酶的生物合成。例如,擬南芥中CYP79基因和芥子油苷分布的調控,結合防御信號傳導途徑分析特定芥子油苷積累的因素[11]。
2005-2009年這一時間段內文獻聚焦調控芥子油苷合成的轉錄因子的識別及其調控作用分析。轉錄因子的作用在芥子油苷合成酶基因起到直接調控作用。2009-2010年4篇文獻是利用組學方法,包括代謝組學、轉錄組學方法識別芥子油苷的合成的關鍵基因及其生物合成途徑、轉錄因子的調控作用,利用代謝工程技術揭示擬南芥吲哚芥子油苷修飾中的關鍵酶功能。反映了這一時間階段內先進技術手段在植物合成生物學領域中發揮的重要作用。
2012-2016年這一時間窗內,主題文獻主題為利用工程酵母進行生物合成。酵母是生物合成過程中重要的底盤生物,在所探測到的文獻報道[12],向酵母引入擬南芥吲哚基芥子油苷的七步途徑使得在微生物宿主中首次成功生產芥子油苷,用植物來源的酶替代內源性酵母活性進一步優化了吲哚基芥子油苷的生產,實現了在微生物細胞工廠中生產這些化合物。此外,芐基異喹啉生物堿(BIA)代表一類植物次生代謝產物,在酵母中組裝的最長的重組生物堿途徑,并證明了在微生物系統中生產高價值生物堿的可行性。同時避免了植物體內產生的一些局限性[13]。從植物源到微生物進行生物合成也是植物生物合成發展的重要跨越。
2019年3篇文獻聚焦更加復雜的次生代謝產物的合成,利用化學修飾方法進行生物合成。例如,芐基異喹啉生物堿(BIAs)是來自高等植物的重要次生代謝產物,通過級聯反應生產BIA,從而揭示其功能,為合成途徑等奠定基礎。
綜上分析,基于主路徑方法獲得的關鍵節點,時序下這些代表性的節點內容整體反映了所分析領域的主要內容體系。從合成生物學角度,整體反映了植物合成生物學最基本的理論層面的內容,以芥子油苷為代表性次生代謝產物[14],內容分別涵蓋了介子油苷生物合成途徑,重要催化酶功能解析,轉錄因子的調控作用、組學方法的應用、利用微生物酵母進行生物物質合成、這些內容分別表征了合成生物的核心理論技術,包括元器件的識別與分析、底盤生物分析、合成途徑等。這些內容相對完整地呈現了植物合成生物學最基本的理論層面的主要內容。同時反映了植物合成學領域的基本發展脈絡,從簡單到復雜,從簡單元器件的識別與功能分析到復雜的次生代謝在微生物中合成;以及從簡單模式植株中次生代謝產物合成到高等植物中復雜生物合成的整體趨勢。
本文通過文獻計量學方法對合成生物學的整體態勢和主題分布進行了初步分析。基于領域的主題分布可知,其中植物合成生物學這一主題方向是穩定存在的,且處于穩定增長趨勢,在主題規模上相對于其它主題規模較小,其主題的持續性出現,反映了該主題的重要性。聚焦植物合成生物學這一主題,利用主路徑分析方法從知識流動角度探測植物合成生物學領域在發展過程中重要知識節點,關鍵性內容包括以介子油苷為代表的生物合成途徑分析,重要催化酶功能解析,轉錄因子的調控作用,組學方法的應用[15],以及利用微生物酵母進行生物物質合成,這些內容在一定程度上表征了植物合成生物學的部分重要內容。
隨著全球氣候變化、人口持續增加、以及工業化導致的土地沙化、鹽化等世界范圍內的土壤退化問題使人均可用耕地面積進一步減少,人類生存所面臨的糧食危機越來越嚴重,將來必須利用更少的土地生產更多的糧食以維持人類的可持續發展,而合成生物學的發展給農業領域應當前人口、環境因素的挑戰帶來新的發展機遇。
傳統的作物育種技術已難以培育出應對繁雜多變環境的作物。因此與農作物品種改良和優化、應對復雜環境脅迫等相關的一系列重要科學問題亟待突破,而合成生物學技術由于其具有定向設計和工程化改造等優勢,為作物產量和品質改良、提升作物的耐逆性等重要農藝性狀的解析和重要經濟性狀的遺傳改良帶來了新的機遇,也為生物育種技術創新奠定了重要科學基礎[16]。2018年科技部公布了“合成生物學”重點專項,其年度項目申報指南中與農業合成生物學有關的課題包括,“植物底盤的設計與構建”“抗逆基因回路設計合成與抗逆育種”“植物天然產物合成的工程細胞構建”,反映了農業領域開展合成生物學基礎研究的需求。
基于主路徑分析方法,內容上反映的是領域中基礎性成果,直接反映了植物合成生物學緊密相關的基礎性理論知識與基本發展脈絡。本研究聚焦植物合成生物學主題,利用主路徑分析方法對主題內容進行了挖掘,在功能上這些內容對植物合成生物學領域的演化發展起到支撐作用,例如轉錄因子作為一種重要元器其調控作用解析,在合成生物學領域是重要的主題方向,是對其它相關內容如關鍵酶的識別與合成的基礎性內容。但是對于相對較新興的技術,如基因編輯技術[17],通過主路徑方法并未得到較好的識別。因此,要想更加全面的分析目標領域具有不同特征的重要內容,后續還將結合其它計量分析方法,對領域內容進行深入挖掘。
對于學科領域來說,利用本方法可以從知識網絡中快速梳理到具有重要作用的知識節點,對于把握學科的發展態勢、進行知識演化分析、開展領域技術預見等具有參考作用。