機器學習領域的研究熱點及主題演化分析
----以科學計量為基礎

2021-03-10 08:30:42陳紅羽王麗葉

沈陽大學學報(社會科學版) 2021年1期

李會,陳紅羽,李俠,王麗葉

(安徽財經大學管理科學與工程學院,安徽蚌埠 233030)

20世紀90年代中期,支持向量機(SVM)算法誕生,隨后各種淺層機器學習模型被提出,如Boosting、最大熵方法(如Logistic Regression)等[1],帶來了機器學習研究熱潮并一直持續到今天。伴隨著移動互聯網、云計算、大數據、人工智能、物聯網等新一代信息技術的高速發展,產生了大量的類型多樣的數據資源。淺層機器模型主要解決數據存儲、轉換、處理等功能,但無法適應大數據背景下自主發現數據信息即時變化的需求,這對淺層機器學習模型提出了更多的挑戰。因此,需要將深度學習能力運用于數據分析中,借助機器自主學習能力實現用戶與計算機之間的溝通與協調,并作出明智決策,這是機器學習努力的方向。因此,了解和探索機器學習領域的熱點及演化過程,對下一步機器學習領域的研究具有借鑒意義。

一、研究設計

1. 數據采集

本文選取Web of Science核心集為數據源,以“machine learning”作為標題詞,時間范圍設定為2008年1月—2019年7月,對初步檢索得到的文獻根據文獻類型進行篩選,共得到7 279條文獻記錄,將其作為研究數據集合。對7 279條文獻進行初步統計,文獻共被引243 433次,涉及27 292位作者。

2. 工具與方法

信息計量分析是借助信息計量分析工具,采用定量分析的方法挖掘文獻內容特征,并通過可視化的方式呈現文獻內在關聯及趨勢預測。本文采用HistCite、CiteSpace、VOSViewer和SciMAT等工具對文獻進行可視化分析和社會網絡分析,以此獲得文獻內容特征、研究熱點及發展趨勢。 HistCite是由Thomson Reuters公司開發的專門針對WOS數據庫進行文獻引文關系分析的工具。它可以發現文獻之間的引文關系,迅速找出研究領域內引用頻次最高、質量最好的文獻,并可以通過引文編年圖了解文獻引證關系。 CiteSpace是由美國德雷塞爾大學信息科學與技術學院陳超美博士代領的團隊與大連理工大學WISE實驗室聯合開發的科學文獻分析工具。該軟件可以通過可視化手段呈現科學知識的結構、規律和分布情況,是一款在科學計量學、數據可視化背景下發展起來的引文可視化分析軟件。 VOSViewer由荷蘭萊頓大學科技研究中心發布,是一款可以對文獻進行大數據分析的工具,可對文獻引用、關鍵詞共現進行可視化聚類分析。 SciMAT是由西班牙格拉納達大學研發的知識圖譜分析工具。本文在利用HistCite分析樣本文獻,并進行基本描述統計的基礎上,借助CiteSpace、VOSViewer計量分析軟件對樣本文獻的國家(地區)發文情況及關鍵詞進行聚類分析,再通過SciMAT科學圖譜分析工具,獲取不同時間區間的研究主題,分析主題間的關系演化,并以此獲得機器學習領域的熱點主題問題。

二、數據統計與分析

1. 基本統計分析

文獻計量學認為,某研究領域年度發文數量是評價該領域發展狀況的重要指標之一。本文設定的采集周期是2008年1月—2019年7月,對該時間區間內的年度發文量進行統計分析,得到機器學習領域年度發文情況,如圖1所示。

圖1 機器學習研究領域年度發文情況

由圖1可以看出,機器學習領域研究的文獻數量呈現穩步增長的趨勢。2008—2011年,機器學習領域發文數量增長較為緩慢,年發文數量在200篇以下,該領域的研究未引起學術界廣泛關注;2012—2016年,發文數量年均增長接近100篇;2017年以來,機器學習領域發文數量增長較為迅速,年發文數量均突破千篇,2018年增長幅度超過100%。這也驗證了隨著大數據、人工智能、商務智能分析等新技術的發展與成熟,機器學習領域的研究越來越被學者關注。

在對樣本文獻年度發文量進行統計分析的基礎上,利用HistCite信息計量分析工具進一步統計機器學習領域各國家(地區)發文情況,具體如表1所示。

通過發文作者所在國家(地區)的統計數據可以看出,該領域研究力量主要分布在美國、中國、英國、德國、加拿大等國家。由表1可知,前10位國家的發文量累計占比高達97.8%,而這些國家和地區在《世界主要國家2018年互聯網發展指數TOP20排名》中,大部分表現也比較突出,尤其是美國、中國、英國,在全球互聯網發展指數中位列前3名[2]。它們在機器學習領域發文量也領跑其他國家,這也間接印證了互聯網發展水平對機器學習領域的研究及應用起到了很好的推廣及促進作用。雖然德國、加拿大、西班牙、韓國、印度、澳大利亞、意大利等國家發文數量占比在4.0%～7.2%之間,但是在全球范圍內,這些國家在機器學習領域的研究仍然走在前列。從總被引頻次來看,頻次較高的3個國家分別是美國、德國、英國;從篇均引用頻次來看,德國、英國、美國排在前3位。德國雖然在發文量方面僅占7.2%,但篇均被引頻次達28.60次,比發文數量最多的美國高出14.10次,比發文數量排名第二的中國高出21.85次。從信息計量統計分析的角度來看,德國在機器學習領域的研究取得很多創新性的成果,而且研究成果得到學術界廣泛的認可和引用。中國的發文量雖然排在第二位,但是篇均被引頻次表現不是很突出。這說明我國需要進一步提高論文質量,以提高論文的引用率,要在注重發文數量的基礎上加強交流合作,注重顛覆性技術突破研究。

表1中僅能體現發文量排在前10位國家的情況,如果需要進一步了解國家(地區)之間的科研合作情況,需要借助VOSViewer進行國家(地區)合作關系可視化分析。本文將樣本文獻預處理后,導入VOSViewer中,選取發文量在50篇及以上的國家(地區)進行可視化分析,有33個國家(地區)滿足條件,最終形成國家(地區)間的合作關系網絡圖譜,如圖2所示。

圖2中:節點代表發文數量,節點越大說明發文數量越多,反之則越少;節點與節點之間的連線代表合作關系,連線越粗說明合作越密切。從圖2可以看出,美國、中國、英國在合作關系中處于核心位置,美國與日本、中國、韓國、西班牙、德國聯系最為密切,與中國合作較為密切的有美國、日本、韓國、英國、加拿大、德國等。從發文時間來看,以色列、瑞士、法國、葡萄牙、伊朗、威爾士等國家(地區)在機器學習領域研究較早,而隨著時間的推移,目前在機器學習領域研究表現較為突出的是美國、日本、加拿大、英國、西班牙、巴西、韓國等國家。

2. 基于關鍵詞的共現網絡分析

文獻的關鍵詞是對文獻內容的高度凝練和概括,是文獻的核心和精華所在。通過關鍵詞共現分析,發現主題詞之間的關聯性,揭示時間推移過程中主題詞的演化過程,可以為該領域的相關研究提供輔助支持。本文在對樣本文獻資料中的關鍵詞進行規范化處理的基礎上,選擇詞頻數量大于100的關鍵詞進行分析,最終有37個關鍵詞符合要求。對這37個詞進行共現分析,形成圖3所示的聚類圖譜。節點代表關鍵詞的詞頻數量,節點越大說明以該節點作為關鍵詞的文獻越多,也說明該節點在該領域研究中被學者關注得越多。節點與節點之間的連線代表這兩個節點出現在同一篇文獻中。連線越粗說明兩個節點同時出現在一篇文章中的頻率越高。

圖2 機器學習研究領域的國家合作關系圖譜

圖3 機器學習研究領域關鍵詞共現網絡圖譜

參照圖3中形成的聚類效果,結合每個關鍵詞之間的連接程度,本文將機器學習領域中的研究主題概括為以下4個方面:

(1) 支持向量機領域的研究。主要針對隨機森林、證實、回歸分析、變量選擇、特征選擇等。

(2) 分類領域的研究。主要涵蓋了特征識別、醫學診斷、決策樹、預測等。

(3) 神經網絡領域的研究。主要針對算法、人工神經網絡、支持向量回歸、模型研究等。

(4) 深度學習領域的研究。主要從大數據、人工智能、數據挖掘、系統、管理、網絡等角度開展研究。

3. 基于時間序列的主題演化分析

使用SciMAT工具進行主題演化分析,可以很直觀形象地觀察機器學習領域在不同時間的熱點主題及主題之間的關系,從而了解該領域主題詞演化過程,為該領域后續的研究提供支撐。本文將數據劃分為2008—2009年、2010—2011年、2012—2013年、2014—2015年、2016—2017年、2018—2019年,6個區間。以文獻關鍵詞作為分析單位,以共現矩陣作為網絡構建方式,以等價性指數作為網絡標準化方式,以簡單中心算法作為聚類算法,通過內部鏈接和外部鏈接構建機器學習不同時間區間的主題演化視圖,如圖4所示。

機器學習早期關注支持向量機、蛋白質、基因等領域。隨著時間的推移,預測、神經網絡、人工神經網絡、數據庫、序列模式等領域成為學者關注的焦點。2014年之后,預測、系統、決策樹、圖像識別等成為機器學習領域的主要研究對象。2016—2017年,隨機森林、基因表達、影響因素、性能分析等內容開始受到學術界的關注。2018年以來,人工神經網絡、算法、風險、模式、相變逐漸成為研究的側重點。從圖4中6個時期的主題詞演化過程來看,機器學習研究主題分布范圍較為廣泛,各主題詞之間的交互較為頻繁,人工神經網絡自2010年被關注后,經過幾年的發展,在近兩年來仍然是研究者關注的主要問題。除了常規的支持向量機、預測、分類等之外,算法優化、相變、風險等逐漸成為研究的熱點問題。

圖4 機器學習研究領域不同時期的主題演化

三、機器學習領域研究主題述評

從關鍵詞共現網絡圖譜及主題詞演化過程可以看出,機器學習研究涉及醫學、分類、預測、模型、神經網絡、深度學習等領域,研究領域也在不斷擴展,尤其在醫學診斷、圖像識別、算法優化等方面表現較為突出。基于上述給出的聚類及不同時期主題詞演化過程,機器學習領域的研究主題可以歸納為5大類:支持向量機、分類問題、神經網絡、人工智能、深度學習。其中,“深度學習”是機器學習領域近年研究的熱點問題。

1. 支持向量機研究

“支持向量機”在1964年被提出,20世紀90年代以后得到快速發展,是一類有監督的學習過程,主要依據數據分布情況求解最大邊距超平面,從而解決二元分類問題。由于突出的學習性能,該項技術已成為國內外機器學習領域新的研究熱點。目前,該技術主要應用于圖像識別、文本分類、手寫字符識別、生物信息學等領域。在圖像識別領域,遙感圖像的土地覆蓋識別、農作物生長情況監測等取得了較為突出的成果[3];在文本分類領域,對故障排查、特征排名等內容展開研究[4-5];在手寫字符識別方面,實現了打字、手寫和印刷文本圖像的自動轉換及英文數字識別[6-7];在生物信息學領域,利用SVM技術可以自動準確地檢測某些事件,提高檢測疾病的效率[8]。

2. 分類與預測研究

分類和預測是利用現有數據進行預測的方法,分類是對離散類別的數據對象進行預測,預測是針對連續的、有序的數據對象進行預測。目前,分類和預測已在很多領域得到廣泛應用。如近年來,為了更好地完成對土地不同類型特征的判斷,學術界開始針對遙感圖像進行分類領域的研究。研究證實,運用SVM、神經網絡、隨機森林等技術實現遙感圖像分類的總體準確率有較大幅度的提升。Lotte團隊[9]針對自適應分類器、矩陣和張量分類器、轉移學習和深度學習及其他一些雜類分類器的原理及如何使用進行分析,為進一步推進BCI中腦電分類提供了參考。

3. 神經網絡研究

1943年,“似腦機器(mindlike machine)”思想的提出開啟了人工神經網絡的研究。經過幾十年的發展,神經網絡已在模式識別、圖像處理、自動控制、機器人、信號處理、商業管理、醫療診斷和軍事等領域均有廣泛的應用。Tien等[10]以Son La水電站為研究對象,利用神經網絡技術實現淺層滑坡敏感性模型的訓練和驗證。Carleo等[11]將神經網絡應用在量子物理學中的多體問題研究領域,提出的強化學習方案能夠找到基態并描述復雜相互作用的量子系統的單位時間演化。Zhu等[12]將神經網絡技術應用于河流系統中河流水溫領域的研究,提出的關鍵控制學習模型被有效地用于河水溫度模擬。李曉峰團隊在基于卷積神經網絡的多樣性關鍵數據方面改進了現有的并行推薦算法,解決了傳統數據推薦算法易受干擾因素影響的問題[13]。

4. 人工智能研究

“人工智能”在1956年的達特茅斯會議上被首次提出,這次會議也開啟了對這一新興領域的研究。研究人工智能的初心是希望它能在實現自然智能的基礎上,不斷擴展甚至加快人類智能的發展水平,并逐漸實現超智能。雖然人工智能研究已經走過60多年,但它依然在模擬、延伸和擴展人的智能方面不斷探索,應用領域在不斷擴大,取得了許多驕人的成績。如Salehi等學者[14]將人工智能技術應用于專家系統,提出一種基于概率方法的數據挖掘方法,可有效地用于重建延遲和丟失的信號,從而解決能源可用性的問題,解決各類智能基礎設施監控系統和智能城市中使用的專家系統收集的嘈雜信號和不完整信號可解釋的問題。Ramkumar[15]等學者將人工智能技術應用于醫學領域,探索下肢關節置換術的機器學習模型,這些模型能夠有效預測患者術前的價值指標。Liu等學者[16]將人工智能技術引入暴雨風險的早期識別中。

5. 深度學習研究

大腦的工作過程是對接收的信號不斷迭代、不斷抽象并概念化的過程,是一個深度的認知過程。而深度學習就是通過組合低層特征,形成更加抽象的高層特征的過程,是學習樣本數據的內在規律和表示層次的過程,突破了淺層結構學習模型的局限性。因此,深度學習已然成為機器學習領域中的一個全新的研究方向,主要目的是讓機器同人一樣具有深度的分析學習能力。Gulshan等學者[17]應用深度學習創建一種自動檢測視網膜底照片中糖尿病性視網膜病變和糖尿病性黃斑水腫的算法,該算法具有很高的靈敏度和特異性。Ghorbanzadeh團隊[18]將深度學習技術應用于地質災害的預測,通過大量的衛星光學數據和地形地貌數據,借助先進的深度學習方法,不斷滿足全球對詳細而準確的滑坡圖和清單的需求。Peng團隊[19]則將深度學習應用在通信系統中,依托大量數據,自動完成數據特征的選擇,大大降低了調制分類中任務的復雜程度。

四、總結

機器學習是人工智能及模式識別領域共同的研究熱點,其理論和方法已被廣泛應用于解決工程應用和科學領域的各類復雜問題,取得了豐碩的研究成果。本文以機器學習研究領域的文獻為研究對象,借助文獻計量分析軟件,利用描述性分析、聚類分析、主題演化分析等方法,從該領域的年度發文情況、國家(地區)合作情況、研究熱點趨勢、主題演化等角度,對機器學習研究進行綜合分析和總結。從年度發文情況來看,機器學習論文呈現每年遞增的趨勢,尤其在2017年以后,發文數量急劇增長,說明該領域的研究引起全球學者越來越多的關注,成為重點研究領域之一。從地區發文統計來看,美國、中國、英國在機器學習領域發文量領跑其他國家,3國發文量累計占比高達約63%,德國發文總量雖然不夠突出,但在篇均被引頻次上位居第一,充分說明德國在機器學習領域的研究成果被學術界認可。從合作關系來看,美國、日本、中國、韓國、英國、加拿大等國家聯系較為密切。從研究聚類情況來看,機器學習的研究基本集中在支持向量機、分類與預測、神經網絡、人工智能、深度學習等領域。而通過主題演化分析來看,機器學習將會在量子計算、算法改進、相變、風險等領域展開新一輪的研究。

機器學習領域的研究熱點及主題演化分析----以科學計量為基礎

一、 研究設計