吳蕾 梁曉賀 宋紅燕
關鍵詞:協同演化分析;跨學科研究;技術關鍵詞分析;聚類分析;學科領域分析;農業動物生殖細胞和干細胞調控
隨著數據、信息、知識融合的進一步加深,學科之間的跨領域合作、知識交叉現象出現的越來越頻繁。學科領域發展不再局限于自身知識網絡變化,還會受到其他學科領域發展變化的影響。多種學科領域通過相互影響、共同發展,最終實現知識的成長。
學科領域的協同演化分析關注跨學科知識在時間維度上發展變化的相互關系。1964年協同演化分析首次在《演化》雜志上被提出,用來描述蝴蝶與其食物在演化過程中的相互關系。即當一個物種發生演化時,由于選擇壓力發生改變,其他物種也將隨之發生相適應的演化變化。最終系統將達到高度適應的動態穩定狀態。現在協同演化分析已經逐漸由生態學延伸到經濟學、管理學等社會科學領域。學科領域協同演化分析認為協同演化的動力是相互依賴的學科之間相互變化和相互影響的關系,每個學科的演化影響著其他學科的演化發展。當兩個學科對彼此的演化存在相互影響的因果關系時,那么這兩個學科就是協同演化發展的。本文利用協同演化分析方法研究學科領域技術關鍵詞結構的發展軌跡.通過學科之間的交互性和繼承性,以及優先發展學科領域的技術方法,發現落后發展學科領域技術空白點。
2016年,農業領域專家通過預測研究,研判提出“農業動物生殖細胞和干細胞調控技術”將成為未來(2030年)農業領域重大前沿技術之一。但是當前農業領域動物生殖細胞和干細胞調控研究的論文量較少,發文量增長緩慢.甚至有的年度發文量較前一年略有下降(見圖1)。這些現象都在說明當前農業領域生殖細胞和干細胞調控研究還正處于萌芽期(嬰兒期)。為研究帶來一定困難。黃魯成等采用基于創新性、獨創性和功能分析的方法識別萌芽期的顛覆性技術。該方法采用統計指標和SAO結構,從學科領域自身出發衡量技術發展初期技術關鍵詞的顛覆性并預測其未來影響。但是該類方法忽略學科之間相互影響對技術發展的引導作用。
與農業領域動物生殖細胞和干細胞調控研究相比,醫學領域生殖細胞和干細胞調控研究起步較早并且科技文獻研究已經具有一定規模(見圖1)。從1995年以來全領域和醫學領域生殖細胞和干細胞調控技術相關論文均呈現穩定且逐年增長態勢,表明該領域的基礎研究與技術仍在快速發展之中。另外醫學領域論文量占據全領域論文總量的較大比例,說明醫學領域是該研究的主流研究學科領域。
因此,本文在探索領域技術關鍵詞結構及演化趨勢的同時,考慮了醫學領域(輔助領域)對農業領域(目標領域)的影響和促進作用。挖掘醫學動物生殖細胞和干細胞調控領域當前熱門的研究技術,有利于為農業動物生殖細胞和干細胞調控領域未來技術方法發展走向提供預測。
1相關工作
在技術演化分析數據源選擇方面,由于專利數據是技術方法、法律狀態和商業信息的載體,因此有許多研究針對專利數據進行技術演化分析。然而.科技文獻作為長久以來最主要的科學技術信息傳播交流方式,其客觀地記錄著對于科學問題研究所取得的最新進展或重要知識創新。這些記錄對研究技術演化趨勢和預測未來發展同樣具有重要意義。因此,本文使用科技論文作為數據源進行技術關鍵詞和摘要文本分析,從而挖掘當前技術研究空白點。
在技術演化定量分析研究方面,學者借助技術關鍵詞或者技術主題的時間信息對技術研究發展趨勢進行研究。謝志明等、伊惠芳等、喻登科等、李欣等學者使用技術生命周期和技術進化路線對各學科研究方向技術演化脈絡進行分析。技術生命周期表示一種以周期變化為特征的技術主題演化模式,一般劃分為萌芽期、成長期、成熟期和衰退期4個階段。李柏洲等學者使用偏聯系數方法對技術依賴演化趨勢進行了分析。祝清松等、羅雙鈴等、Martinelli A利用引文分析進行技術主題演化分析和技術預見研究。引用關系反映了技術基礎和科學基礎的發展脈絡。引文關系主要包括直接引用關系、同被引關系和引文耦合關系等,不同類型的引文關系的側重點有所不同。方曙等、Chang P L等、陳亮、Huang Y等學者使用文本挖掘方法對文本信息進行整理、分析與挖掘,從而進行主題演化分析。其中SAO和主題模型等方法成為當前文本挖掘分析主題演化的流行方法。本文在基于時間對技術關鍵詞進行分析的同時,對技術關鍵詞進行了兩個方面的擴展。即加入從摘要擴展來的技術關鍵詞.同時加入從跨領域擴展來的技術關鍵詞。通過對技術關鍵詞進行擴展有助于發現目前出現頻次較低甚至沒有出現過,但是未來有發展潛力的技術方法。
2研究方法
本文從科技文獻中的關鍵詞出發,對技術關鍵詞進行跨領域協同演化分析。首先通過人工篩選出量高質優型技術關鍵詞。這些關鍵詞中包含了研究者關注的主流技術關鍵詞,同時排除了大量非技術類關鍵詞。但是漏掉了一些潛在的重要技術關鍵詞。這些關鍵詞出現頻次較低,通過計量方法很難識別出來。因此,第二步需要擴展技術關鍵詞。本文從兩方面對技術關鍵詞進行擴展:一方面.使用Word2vec詞向量方法量化摘要文本中的詞.并使用相似性計算從摘要詞向量中獲取與量高質優型技術關鍵詞相似性較大的新技術詞;另一方面,加入醫學領域中的質優型技術關鍵詞。第三步,對擴展的技術關鍵詞進行語義聚類分析。最后,基于時間對擴展技術關鍵詞及其聚類進行演化分析。
3技術關鍵詞協同演化分析
3.1數據來源
基于Web of Science的SCI數據集對全球2013—2017年“動物生殖細胞和干細胞調控技術”論文進行檢索,得到農業領域571篇文獻,醫學領域34604篇文獻。農業領域共包含4712個摘要語句,醫學領域共包含268183個摘要語句。
3.2技術關鍵詞擴展及聚類分析
通過在農業領域和醫學領域同時提取量高質優型關鍵詞和量低質優型關鍵詞.并對兩者同時進行關鍵詞及其數量對比,可以在優先發展且知識更為豐富的醫學領域發現當前還沒有應用到農業領域的技術方法。同時,可以在避免使用論文給出的全部關鍵詞的同時,從非高頻關鍵詞中提取語義相近關鍵詞擴充聚類簇的關鍵詞。本文擴展的關鍵詞只關注與農業領域相關的,而沒有將針對某些人體病癥(例如癌癥、心肌炎等)進行治療(例如核磁共振、心理療法、中醫療法等)的相關技術關鍵詞擴展進來。
通過擴展農業動物生殖細胞和干細胞調控領域的技術關鍵詞并對其進行相似性聚類,可以將該領域關鍵詞劃分為8個聚類(如圖3所示),包括:組織工程、發育遺傳學技術、形態學技術、表觀遺傳學技術、體外培養與保存、免疫細胞學技術、基因組學研究和統計分析。被矩形框框出的節點表示的關鍵詞是擴展而來的。可見,農業領域論文的高頻關鍵詞主要集中在免疫細胞學技術、基因組學研究等關鍵詞簇。
3.3基于時間的擴展技術關鍵詞分析
圖4顯示了農業領域和醫學領域各年8個關鍵詞簇的篇均詞頻。可以發現與醫學領域趨勢相似,農業領域的組織工程、形態學技術、體外培養與保存、免疫細胞學技術和統計分析5個關鍵詞簇詞頻數相對較小。尤其是農業領域的統計分析詞簇,2017年以前的出現次數屈指可數。可見在農業領域這些研究目前還比較薄弱。相比之下,發育遺傳學技術、表觀遺傳學技術和基因組學研究3個關鍵詞簇的詞頻數相對較大,且呈現增長趨勢。可見這3個研究方向是當今農業領域生殖細胞和干細胞調控領域的主流方向。
另外,由于只選取了和農業領域有可能相關的醫學領域關鍵詞,因此其篇均詞頻小于對應的農業領域篇均詞頻。但是從結果來看,組織工程和統計分析兩個關鍵詞簇在農業領域的數值要小于在醫學領域的數值。結合關鍵詞簇的詞頻說明這兩個關鍵詞簇表示的研究方向不但薄弱,而且其在農業領域的研究比醫學領域的研究更少。
通過分析發現:組織工程關鍵詞簇中包括的關鍵詞有組織工程Tissue Engineering、生物材料Bio.materials、生物醫學Biomedical、生物工程Bioengi.neering等,其中生物工程在農業領域近5年文獻中幾乎沒有出現,屬于醫學領域擴展而來。醫學領域對組織工程的研究比農業領域的研究更多。但是考慮到其研究方向包括種子細胞、生物材料、構建組織和器官的方法和技術等,所以不排除今后在農業領域有其發展空間的可能。
統計分析關鍵詞簇中包括的關鍵詞有多變量分析Multivariate Analysis/Multivariable Analysis、統計分析Statistical Analysis、統計學STATISTICS、前瞻性研究Prospective Study、回顧性研究RetrospectiveStudv、回顧性分析Retrospective Analysis、單變量分析Univariate Analysis、元分析METAANALYSIS、生存分析Survival Analysis、危害比Hazard Ratio、回歸Regression、邏輯斯蒂Logistic和卡普蘭邁爾估計Kaplanmeier,這些關鍵詞在農業領域近5年文獻中幾乎沒有出現,全部屬于醫學領域擴展而來。隨著大數據時代的到來.原始處理數據的方法逐漸顯現出劣勢,因此可以預見在今后研究中各種統計方法,甚至人工智能方法將大量涌現。而目前農業領域在這方面的研究非常薄弱,因此首先可以借鑒醫學領域生殖細胞和干細胞的數據分析方法,然后融合統計計量方法、人工智能方法等進行數據表示、優化、挖掘和分析等工作。
除了這兩個關鍵詞簇.其他關鍵詞簇的篇均詞頻在農業領域上的值均大于在醫學領域上的值,符合數據集設定。其中發育遺傳學技術關鍵詞簇中去分化和趨化性在農業領域近5年文獻中幾乎沒有出現;表觀遺傳學技術關鍵詞簇中母體效應、低甲基化、超甲基化、三甲甲基化、核小體和表觀基因組在農業領域近5年文獻中幾乎沒有出現:體外培養與保存關鍵詞簇中生物反應器在農業領域近5年文獻中幾乎沒有出現:免疫細胞學技術關鍵詞簇中MTT法、免疫抑制療法和光譜法在農業領域近5年文獻中幾乎沒有出現:基因組學研究關鍵詞簇中高通量、全基因組關聯、基因表達譜、生物信息學和增強子在農業領域近5年文獻中幾乎沒有出現。這些關鍵詞屬于醫學領域擴展而來.同時可能成為未來農業領域研究關注點。
4結論
本文使用基于技術關鍵詞的協同演化方法分析農業動物生殖細胞和干細胞調控領域的文獻生態系統,發現目前農業領域動物生殖細胞和干細胞調控研究中對組織工程和統計分析的研究相對較少,屬于研究空白。另外,對發育遺傳學技術、形態學技術、表觀遺傳學技術、體外培養與保存、免疫細胞學技術和基因組學研究方向也上存在技術空白點。這些空白點可能成為未來農業研究的潛力點。