何濤,王桂芳,馬廷燦
1.海軍工程大學信息安全系,湖北 武漢 430033
2.中國科學院武漢文獻情報中心,湖北 武漢 430071
近些年隨著科學技術的快速發展,學科間的邊界逐漸被打破,在不少研究方向上都出現了學科間的滲透與融合現象,學科交叉逐漸成為現代科研原始創新的主要活動組織方式[1]。這些跨學科的研究促進了不同領域科研人員的合作,推動了科學重大發現的產生,并且為學科的持續發展提供了新的增長點。在這樣的情況下,科研人員對其研究領域中所出現的跨學科研究內容進行主動發現就顯得尤為重要。與此同時,科技文獻規模變得越來越龐大,采用人工閱讀的方式從數量眾多、主題多樣的科技文獻中尋找跨學科的研究內容變得越來越困難。因此設計出自動或者半自動的方法對跨學科研究內容進行揭示具有重要的意義。
本文希望為科研人員提供一種能夠有效發現其研究領域中所出現的跨學科研究內容的自動化的方法。科研人員在尋找其研究領域中所出現的跨學科研究內容時,一種人工的方法是首先把某一研究方向的相關文獻檢索出來,然后領域專家對這些文獻的作者關鍵詞進行篩查,檢查其中是否出現了和該研究方向常見詞匯的語義差異比較大的關鍵詞,這類關鍵詞的上下文和該研究方向常見詞匯的上下文差異較大,出現這樣關鍵詞的文獻很可能是含有跨學科研究內容的文獻,最后再閱讀這些文獻以做出判斷。由于單個研究方向的論文規模通常比較大,因此使用這種人工的方法常常需要花費大量的時間和精力,也難以做到對跨學科研究內容的長期監測。
本文采用人工智能中自然語言處理的方法讓計算機來模擬這一人工的過程。利用詞嵌入(Word Embedding)的語義分布特性,讓計算機從論文的作者關鍵詞中自動識別出語義異常的詞匯來發現跨學科的研究內容。具體而言,預先通過大規模文獻語料構建好自然科學常見詞匯的詞嵌入表示;然后把某一研究方向上論文的作者關鍵詞通過詞嵌入投影到語義空間,在語義空間使用異常點識別算法(Outlier Detection Algorithm)識別出語義異常的作者關鍵詞,這些詞往往是和該研究方向常見詞匯的語義差異比較大的關鍵詞,如果兩個詞匯的語義差異較大,那么它們在語料中的上下文也會差異較大[2],也就是說在文獻語料中這類語義異常關鍵詞的上下文與該研究方向常見詞匯的上下文存在較大的差異,因此其很可能是來自于其他研究方向的詞匯,但是又出現在該研究方向的論文中;最后將含有這些作者關鍵詞的論文交給領域專家進行解讀,從而實現跨學科研究內容的發現。本文將該方法在深度學習(Deep Learning)研究方向上進行了應用,識別出了此方向上自然科學中若干跨學科的研究內容。與之前的相關研究相比較,該方法以語義計算為基礎,一方面不需要預先知道發生交叉的具體的學科方向,另一方面也不依賴于使用論文所在期刊的學科來定義論文所歸屬的學科,為跨學科研究內容的發現提供了一種新的解決思路。
國內外許多學者對跨學科研究內容的發現開展了相關的研究,并取得了豐碩的成果。部分學者聚焦于進行回顧性的研究,這類研究通常是在已知跨學科文獻的基礎上,對這些文獻的主題去進行識別和分析[3-5],因此難以解決本文所提出的問題。
也有部分學者側重于在不確定跨學科文獻的情況下,從一定規模的文獻中挖掘出屬于跨學科的研究內容,這類研究適用于本文所提出的問題。這類研究按照其識別跨學科研究內容的依據大體上可以被劃分為基于引用的方法、基于作者的方法和基于內容的方法。(1)在基于引用的方法中,Porter 等提出了基于論文參考文獻在不同學科中的分布情況的跨學科度量指標[6];Mugabushaka 等探討了基于引文所歸屬的學科類別,依據生物學的多樣性概念來定義的文獻跨學科指標[7],使用這些指標能夠識別跨學科的研究內容。(2)在基于作者的方法中,Schummer 等依據同一篇論文中不同作者所歸屬的機構情況對納米科學技術中的跨學科發展狀態進行了分析[8];Abramo 等嘗試依據意大利論文作者所特有的學科歸屬類別來識別跨學科的研究內容[9]。(3)目前大量的研究聚焦于基于文獻內容對跨學科研究進行發現,杜德慧等通過節點文獻關鍵詞與跨學科引文關鍵詞的引用路徑來識別跨學科的研究內容[10];劉小慧等人先鎖定可能發生跨學科研究的兩個方向,然后在關鍵詞同現的基礎上采用封閉或者開放的方式對潛在跨學科主題進行發現[11-12];魏建香等人在預先設置好兩個學科方向的基礎上,使用關鍵詞計算文章的學科隸屬度來發現學科交叉文獻[13];王衛軍等人將自然科學基金項目的關鍵詞映射到低維空間后實施聚類,利用聚類結果中同時屬于兩個預置學科的關鍵詞來識別學科交叉的研究內容[14];Xu 等基于TI 值和BET 值來計算主題詞的跨學科屬性,從而實現對跨學科研究內容的主題挖掘,TI 值的設定反映了主題詞關聯的學科數量,BET 值則反映了主題詞在學科間的中心程度[15];Mao 等通過知識模因(Knowledge Meme)來量化研究跨學科領域中知識的擴散模式,一定程度上克服了基于引用的方法中只考慮引用次數而不考慮真實引用內容的問題[16];Kamada 等提出擴散模因指數(Diffusion Meme Score)用于評估文獻引用網絡中的知識擴散距離,使用該指數能夠發現跨學科的研究內容[17]。
在這些相關研究中,不少研究需要預先設置好發生交叉的學科方向,然后才能夠進行跨學科研究內容的識別,但是當科研人員不知道哪些學科與自己的研究方向發生交叉的情況下,較難發揮作用;也有不少研究使用論文所在期刊的學科來定義論文研究內容的學科,這樣對論文研究內容的刻畫可能存在一定的偏差,從而影響跨學科研究內容發現的效果。
本文的方法依賴于詞嵌入的語義分布特性。詞嵌入是隨著人工智能中自然語言處理技術的發展而產生的一種文本的數據化表示形式,使用詞嵌入能夠將詞表示為一個稠密、連續的實數向量,該向量蘊含著豐富的語義信息[18]。比如“School”這個詞表示為詞嵌入后可以是[0.073, 0.004, 0.081,……]這樣一個200 維的實數向量。
語義接近的詞的詞嵌入在向量空間中的位置會靠得比較近。在語言學中認為如果兩個詞的上下文比較相似,那么這兩個詞的語義也會比較接近[2]。詞嵌入生成的依據是詞的上下文,如果兩個詞在詞嵌入的生成語料中上下文比較相似,那么這兩個詞的詞嵌入在向量空間中的位置也會比較鄰近。比如使用新聞語料生成5 個親屬名稱和5 個美國州名的400 維詞嵌入,然后將這些詞嵌入使用主成分分析(Principal Components Analysis, PCA)[19]降至2 維,并在2 維坐標上進行展示,結果如圖1 所示。由于在新聞語料中親屬名稱的上下文比較相似,州名的上下文也比較相似,所以親屬名稱的詞嵌入在圖中聚集在一起,美國州名的詞嵌入也會聚集在一起,但是由于親屬名稱的上下文和美國州名的上下文差異較大,所以親屬名稱和美國州名的詞嵌入在圖中距離相對比較遠。本文所設計的跨學科研究內容發現方法的依據正是詞嵌入這樣的語義分布特點。

圖1 親屬名稱與美國州名的詞嵌入分布情況Fig.1 The embedding distribution of American states names and relatives names
本文方法是使用人工智能技術對科研人員手工識別跨學科研究內容過程的模擬。具體而言,當科研人員希望發現自己研究方向中所產生的跨學科研究內容時,一種手工的方法是他們首先檢索出該方向的論文,然后逐篇對這些論文的作者關鍵詞進行篩查,看看其中是否有和他們所熟知的該研究方向常見詞匯的語義差異較大的關鍵詞,這類關鍵詞的上下文與他們所熟知的該研究方向常見詞匯的上下文存在較大的差異,然后再對存在這類關鍵詞的文獻進行閱讀,以判斷其是否為跨學科的研究內容。在這一過程中,科研人員要依據自己的領域知識逐篇對大量論文中的關鍵詞進行篩選,需要投入大量的時間和精力。利用人工智能中詞嵌入的語義分布特性能夠模擬科研人員的領域知識,自動識別出語義異常的作者關鍵詞,從而實現跨學科研究內容的發現。
具體做法如圖2 所示。在執行該方法前,需要預先使用大規模的論文摘要生成自然科學常見詞匯的詞嵌入表示,詞嵌入的生成方法在4.1 節中有詳細的介紹。在進行跨學科研究內容的發現時,首先科研人員向科技文獻數據庫提交檢索式,檢索出其研究方向的論文;然后計算機從這些論文中提取出作者關鍵詞,將作者關鍵詞通過之前生成的詞嵌入投影到向量空間中,在向量空間中使用異常點識別算法識別出遠離其他詞嵌入的語義異常詞嵌入;最后計算機將含有這些詞嵌入所表示的關鍵詞的論文提交給科研人員進行解讀,以判斷該文獻是否為跨學科的研究內容。在此過程中,科研人員只需要完成提交檢索式和對返回的少量論文進行解讀這兩項工作,其他工作均由計算機自動完成。

圖2 使用詞嵌入進行跨學科研究內容發現Fig.2 Discovering interdisciplinary research using word embedding
下面對該方法的原理進行解釋。此方法所識別出來的異常關鍵詞常常是和領域專家所熟知的研究方向中常見詞匯語義差異較大的關鍵詞,也就是說在生成詞嵌入的大規模論文摘要中,這類關鍵詞的上下文和此研究方向常見詞匯的上下文存在較大的差異,很可能該關鍵詞來自于其他研究方向,這是由詞嵌入的語義分布特性所導致的。在圖2 中將生成詞嵌入的大規模論文摘要集合記為C,某研究方向上所有論文的作者關鍵詞集合記為K。由于集合C 的規模非常龐大,涵蓋了自然科學的主要研究方向,以此為基礎能夠生成自然科學常見詞匯的詞嵌入表示,并且屬于同一研究方向的關鍵詞的詞嵌入在空間中的分布比較接近,這就在一定程度上實現了對科研人員用于篩選關鍵詞的領域知識的模擬,在此基礎上可以識別語義異常的關鍵詞。比如K 中的關鍵詞a 是非跨學科研究論文中的詞,主要出現在該研究方向的論文之中;b 是跨學科研究論文中的詞,主要出現在其他研究方向上的論文之中。由于a主要出現在該研究方向的論文之中,因此與該方向上一些其他的關鍵詞在C 中的上下文比較相似,這些關鍵詞的詞嵌入與a 的詞嵌入在向量空間中分布比較靠近,導致a 無法形成向量空間中的異常點。但是對于關鍵詞b 來說,由于其主要出現在其他的研究方向上,因此b 在C 中的上下文和K 中其他關鍵詞在C 中的上下文差異比較大,導致b 的詞嵌入在向量空間中遠離于K 中其他關鍵詞的詞嵌入,形成向量空間中的異常點。依據這一情況,在向量空間中使用異常點識別算法對這類關鍵詞進行識別,就能夠發現語義異常的作者關鍵詞,從而利用其進行跨學科研究內容的發現。
自2006年Geoffrey Hinton 教授在深度學習領域取得突破性研究進展后,深度學習技術引領了人工智能發展的第三波浪潮[20]。近些年深度學習這一研究領域發展迅猛,并且呈現出向其他多個研究領域滲透的大趨勢。依據深度學習研究的發展特點并結合領域專家的建議,我們以2018年深度學習方向的自然科學領域相關論文作為研究對象,采用本文所提出的方法對其中所包含的跨學科研究內容進行發現。要實現這一過程,首先需要生成自然科學常見詞匯的詞嵌入表示方式,然后以此為基礎從深度學習相關文獻的作者關鍵詞中識別出語義異常的詞匯,最后對含有這些作者關鍵詞的文獻進行解讀以發現跨學科的研究內容,下面逐一詳細介紹。
詞嵌入的生成需要大規模的文本作為基礎。本文的方法需要對自然科學中各個研究方向的跨學科研究內容進行發現,因此所使用的詞嵌入一方面需要體現出自然科學的語義信息,另一方面需要覆蓋自然科學的常見詞匯。為了滿足這兩個方面的需求,通過Web of Science 所提供的下載途徑,在較長的時間周期收集整理了2009 到2017年的中國和美國的SCI 論文摘要約450 萬份,這些摘要大致涵蓋了自然科學的主要研究領域,它們被作為詞嵌入生成的文本基礎。除此之外,在自然科學的專業詞匯中,有些詞匯是由一個單詞所構成的,還有不少詞匯是由多個單詞所組成的短語。為了能夠生成這些短語的詞嵌入,我們利用SCI 論文的元數據構建了一個含有約58 萬作者關鍵詞的詞典,依據這一詞典對摘要文本中的單詞進行了拼接,從而能夠生成這些短語類型專業詞匯的詞嵌入表示形式。
word2vec 是較為經典的詞嵌入生成工具,本文使用這一工具在大規模SCI 論文摘要的基礎上生成了自然科學中常見詞匯的詞嵌入表現形式。word2vec在使用過程中有許多參數需要設置,不同的參數設置決定了所生成的詞嵌入的質量好壞。在這些參數中最為重要的是模型種類、上下文窗口長度、詞嵌入維度這三個參數。為了確定這些參數的合理設置,使用word2vec 所提供的語法關系測試數據、語義關系測試數據對在不同參數設置下所生成的詞嵌入質量進行了比對,從而確定了所使用的模型參數。參數設置為使用連續詞包模型,上下文窗口長度設置為10,詞嵌入維度設置為400。在這樣的設置下,以大規模SCI 論文摘要文本為基礎生成了含有作者關鍵詞的約170 萬自然科學常見詞匯的詞嵌入表現形式。
在領域專家的幫助下,我們進一步完善了之前所構建的深度學習研究方向的文獻檢索式[21],從Web of Science 中檢索出了2018年與深度學習研究相關并且文獻類型為Article 的SCI 論文共6,788 篇,從這些論文中提取出所有的作者關鍵詞構成關鍵詞集合以進行后續分析。
要識別出語義異常的作者關鍵詞,需要盡可能保障所使用的關鍵詞及其詞嵌入的質量。盡管作者關鍵詞體現著論文的主題信息,但是其中仍然存在著一定的與論文主題相關程度不高的噪聲詞匯,這些詞匯常常是一些不常見的作者關鍵詞,不具備代表性。為了提升所使用關鍵詞的代表性以降低噪聲,從關鍵詞集合中移除了只出現一次的關鍵詞,這樣可以減少這類不常見的作者關鍵詞。一方面如果關鍵詞在關鍵詞集合中的出現次數越多,那么關鍵詞越具有代表性,其質量越高;另一方面某些新出現的跨學科關鍵詞可能在關鍵詞集合中由于出現次數較少會被移除,影響對新出現的跨學科研究內容的識別效果。考慮到新出現的跨學科研究內容對科研人員較為重要,因此只移除了在關鍵詞集合中出現一次的關鍵詞。除此之外,如果一個詞在使用中存在一詞多義的現象,那么word2vec 所生成的該詞的詞嵌入可能會不夠準確,為了減少這種情況的發生,從關鍵詞集合中移除了僅由一個英文單詞所構成的作者關鍵詞,因為這類詞一詞多義的可能性較大。
將余下的作者關鍵詞通過之前所生成的詞嵌入投影到向量空間后,需要采用異常點識別算法對其中的異常點進行識別。常見的異常點識別算法包括單分類支撐向量機(One Class SVM)[22],孤立森林(Isolation Forest)[23],局部異常因子(Local Outlier Factor)[24]等。單分類支撐向量機算法不適合于處理訓練數據中存在離群點的情況,并且超參數的設置對實驗結果的影響較大;孤立森林算法擅長于處理全局異常點,不擅長處理局部的異常點;局部異常因子算法則擅長于處理局部異常點。在本文的場景中,無法保證訓練數據中不出現離群點,并且期望算法對異常點的識別較為敏感,能夠有效識別出局部的異常點,因此選擇局部異常因子算法進行異常點識別。此算法使用一個點的鄰近點的局部密度與該點的局部密度的比值來度量其在空間中的異常程度,比值越大代表該點的異常程度越高,反之則異常度越低。
在深度學習相關文獻的作者關鍵詞中,異常程度最高和最低的10 個詞如表1 所示。通過閱讀這些作者關鍵詞所出現的文獻,對其進行了相關的分析。從表1 中可以看到,異常程度最低的10 個作者關鍵詞都是深度學習領域的常見主題詞匯。異常程度最高的10 個作者關鍵詞可以被劃歸為A、B、C 三類:A 類是由于跨學科研究內容而引入的語義異常詞匯,這類作者關鍵詞不常見于深度學習的相關文獻,但是由于跨學科的研究內容而被深度學習論文所使用,比如使用“rice seed”的論文是將深度學習運用于食品科學領域的種子品種鑒定的相關研究;B類作者關鍵詞也不常見于深度學習的相關論文,但是不是由跨學科研究內容所引入的,比如使用“grand challenge”的論文研究的是深度學習中的CT 圖像處理,該詞來源于論文中的一個醫學圖像處理的“挑戰評估”;C 類的關鍵詞在深度學習的論文中較為常見,但是在其他領域中的使用更為廣泛,導致該詞的詞嵌入在向量空間中形成異常點,比如“network compression”可以被用于對深度學習網絡進行壓縮的相關論文中,但是在無線網絡通信等其他領域的論文中更為常用,這使得該詞的常見上下文與深度學習論文的上下文差異較大,在向量空間中形成異常點。表1 中的三類作者關鍵詞中,只有A 類適合用于發現跨學科的研究內容。

表1 語義異常程度最高和最低的10 個作者關鍵詞Table 1 Top 10 author keywords with the highest and lowest degree of semantic anomalies
在領域專家的幫助下,我們對異常程度最高的50 個作者關鍵詞按照前面的類別進行了分類,在異常程度最高的Top N 個作者關鍵詞中不同類別的占比情況如圖3 所示。從圖3 中可以看出,A 類關鍵詞隨著N 的增加呈現出逐步下降的趨勢,這說明異常程度越高,A 類作者關鍵詞越多,依據異常程度識別A 類作者關鍵詞在一定程度上是有效的,這類關鍵詞能用于發現跨學科的研究內容;B 類關鍵詞的占比一直較低,可以通過后續領域專家對論文的解讀予以排除;C 類關鍵詞是導致A 類關鍵詞占比下降的主要原因,這類關鍵詞出現的主要原因是由于詞匯在使用中存在一詞多義的現象,但是word2vec使用相同的詞向量表示一個詞的所有語義,這也是傳統詞嵌入方法的一個缺陷[25]。

圖3 各類別關鍵詞的占比Fig.3 The proportion of keywords in each category
深度學習是人工智能領域下機器學習方向中的一個研究分支,主要研究使用深層神經網絡對圖像、語音、文本等內容進行智能化的分析處理,包括特征抽取、人臉識別、行人圖像跟蹤、語音識別、醫學圖像處理、序列標注等研究內容。在領域專家的幫助下,對含有異常程度最高的50 個作者關鍵詞的論文進行了解讀,依據當時深度學習技術的發展情況,從中發現了25 個深度學習論文中自然科學的跨學科研究內容,包括中微子研究、代碼注入攻擊研究等,受篇幅限制僅列出其中的部分內容,如表2 所示。

表2 發現的深度學習中的部分跨學科研究內容Table 2 Some interdisciplinary research discovered in deep learning
為了便于科研人員發現其研究領域中所出現的跨學科研究內容,構建了約170 萬自然科學常見詞匯的詞嵌入表示形式,提出在詞嵌入語義分布特性的基礎上,依據論文中作者關鍵詞的詞嵌入在向量空間中的分布情況,識別出語義異常的作者關鍵詞,使用這些詞來發現自然科學中跨學科的研究內容。與傳統方法相比較,該方法充分利用了論文中作者關鍵詞的語義信息,不需要預先知道發生跨學科研究的具體學科方向,并且不需要使用論文所在期刊的研究領域來定義論文的研究領域,為跨學科研究內容的發現提供了一種新穎的解決思路。
在深度學習研究領域驗證此方法時,也發現了其所存在的問題。首先對跨學科研究內容識別效果影響最大的是4.2 節中的C 類作者關鍵詞,這類關鍵詞無法用于跨學科研究內容的發現,并且在異常關鍵詞中占有一定的比例,這是由于傳統詞嵌入使用相同的詞向量表示一個詞的所有上下文語義所導致的,在未來的工作中將結合詞嵌入研究的進展,依據不同的上下文語義對詞嵌入進行調整[25],以減少這類關鍵詞在異常關鍵詞中的占比;其次在實驗中使用了中國和美國九年的SCI 摘要數據生成了自然科學常用詞匯的詞嵌入表示,雖然數據規模比較龐大但是仍然存在一定的科學研究內容是這些數據所沒有覆蓋的,詞嵌入沒法體現出這些未覆蓋內容的語義信息,難以對這些內容中的跨學科研究進行揭示,要解決這一問題需要進一步擴大詞嵌入生成語料的覆蓋范圍;最后,詞嵌入能夠反映出詞匯的多種語義信息,但是較難體現出詞匯的全部語義信息,這一情況可能會導致本文方法所識別出的跨學科研究內容不夠全面。
利益沖突聲明
所有作者聲明不存在利益沖突關系。