999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞表示模型的領域文獻數據可視分析方法

2022-08-16 09:45:26張清慧武彩霞
圖學學報 2022年4期
關鍵詞:研究

張清慧,陳 誼,武彩霞

基于詞表示模型的領域文獻數據可視分析方法

張清慧,陳 誼,武彩霞

(北京工商大學計算機學院食品安全大數據技術北京市重點實驗室,北京 100048)

隨著科學技術的發展,科研文獻數量越來越大,如何從海量文獻信息中找出特定領域的研究主題、有影響力的學者和高水平論文是一個巨大的挑戰。為此提出一種基于詞表示模型的領域文獻數據可視分析方法,首先利用詞嵌入模型word2vec向量化推薦領域相關的關鍵詞,根據這些詞向量之間的近似度篩選出領域相關的論文;然后應用BERTopic模型從領域論文摘要中提取主題;基于PageRank算法計算論文影響力,應用綜合考慮作者署名順序、發表論文數量和論文影響力的作者影響力評價方法Author-Rank計算作者的影響力;最后使用多視圖協同和交互的可視化方法幫助研究人員從領域的主題詞頻、主題演變、文獻影響力和引用關系、作者影響力等多個角度對特定領域進行快速理解和分析。將該方法應用于食品安全領域的文獻數據分析,應用結果和用戶測試說明了其有效性。

可視化;文獻分析;word2vec; BERTopic; Author-Rank;食品安全

文獻閱讀和分析是科研人員理解學科內涵、探尋學科發展規律、挖掘新興課題和尋找學術合作機會的重要手段[1]。然而從大量文獻中篩選出特定領域論文、從中提取主題、找出高影響力論文和學者,往往需要豐富的知識和大量的分析工作。

近年來出現的詞表示模型將文本表示為向量,通過相似度計算大大提高了文獻檢索的準確率和效率,被廣泛應用于學術文獻推薦和主題分類等任務[2]。可視分析方法增強了機器學習和自然語言處理模型(如主題建模或詞表示)的可解釋性[3],可幫助研究人員深入分析大規模文獻語料數據,從中快速獲得某特定領域的知識,為解決文獻分析問題提供了新思路。然而,現有的文獻可視分析方法大多適合于領域經驗豐富的科研人員,對于剛接觸某領域的研究人員而言,如何基于主題的相似性精準找到該領域的研究熱點、發展脈絡、高影響力文獻和學者仍然是一項極具挑戰性的工作。

因此,本文提出了一種基于詞表示模型的領域文獻數據可視分析方法,以幫助初涉某領域的研究人員從主題演變、主題關鍵詞、文獻影響力、作者影響力、文獻引用關系等多個角度進行快速理解和分析。

1 相關工作

1.1 詞表示模型

詞表示模型將自然語言中的詞轉化為可計算的稠密向量,即詞嵌入向量的形式,方便使用計算機挖掘詞語之間潛在關聯[4]。2013年,MIKOLOV等[5]提出的word2vec模型不僅能夠捕捉到語法的正確性,還能捕捉到語義特征。BERT (bidirectional encoder representation from transformers)[6]利用Transformer結構創建語境化的詞嵌入,生成與周圍的單詞密切相關的詞表示。文獻是以大量的詞匯、語句和段落組成的,通過對文獻數據中的詞和句子進行嵌入表示可以挖掘更多研究領域的有效信息[7]。目前,主題挖掘模型能夠將文本表示在語義信息更為豐富的主題特征空間上,從而有助于文本分類、聚類和主題演化分析等任務[8]。但是現有的主題提取模型大部分依賴人工確定的參數[9]。BERTopic[10]無需主題數量等參數的設定就可以輕松提取主題信息。因此,本文使用BERTopic模型提取主題。

1.2 作者影響力評估方法

探尋高影響力的作者對于研究人員尋找合作機會尤為重要。h指數[11]是評價科學家在其學科領域的影響力的指標,該理念被研究人員廣泛接納,但其僅依賴作者的發文數量,未考慮論文之間的引用關系。利用文獻引用信息不僅可以分析出大量相關領域的背景信息,還可以挖掘文獻間的關系。吳淑燕和許濤[12]利用PageRank算法的“網絡傳播”原理計算文獻引用網絡中論文的影響力指標值,并對論文進行排序。謝瑞霞等[13]提出了一種依賴作者和論文被引頻次的作者影響力指標,然而被引用論文影響力因素的缺失依舊導致該方法未能從論文質量角度評估作者在整個領域中的影響力。因此本文提出一種新的作者影響力指標,旨在參考更多客觀評價作者影響力的因素。

1.3 文獻數據可視分析方法

隨著大數據平臺和技術的發展,大量學科文獻數據均可從網上獲取[14]。可視分析研究已經有效地將許多機器學習和自然語言處理模型融入可視分析系統中[15-17],成為挖掘新興課題,尋找學術合作機會的主要方式。邵航等[18]使用CiteSpace軟件對3 375條文獻有關出版物、作者、引文和詞頻數據等進行分析。但僅使用了“中國知網”一個語料庫,沒有英文文獻,且可視化展示和交互較少,研究人員很難探索潛在的學術合作機會。GUO和LAIDLAW[19]實現了基于主題探索的可視化工具ThoughtFlow,但測試結果僅通過分析少量的文獻數據獲取。LI等[20]設計并實現了Galaxy Evolution Explorer (Galex)可視分析系統,使用多個控制面板和可視化控件交互工作,幫助研究人員快速理解一個學科的交叉和演變。LIU等[21]提出了一種挖掘分析任務、可視化技術和文本挖掘技術之間關聯的方法,并對可視化文本分析進行了綜述,但需具有領域知識的專家進行指導。鑒于此,本文從Semantic Scholars語料庫中下載文獻索引數據,并結合自然語言處理模型和可視分析方法挖掘主題信息、高水平論文和有影響力的作者等領域文獻信息。

2 需求分析與總體思路

2.1 需求分析

針對初涉特定領域的研究人員在探尋該領域研究內容時的需求,通過與12位研究人員進行溝通,其中,10位為計算機專業的碩士研究生,2位為在食品安全與計算機技術跨學科領域具有資深經驗的教授,了解其在接觸新領域、理解學科領域內涵時遇到的困難和問題。經過45 min的討論,最終歸納出文獻數據可視分析工具需要提供的功能:

(1) R1,支持用戶檢索特定領域的文獻數據。在不了解一個領域的情況下,研究人員需要一種方法可以準確檢索到相關領域的文獻數據。

(2) R2,為科研人員提供領域內不同主題的研究內容。研究人員需要領域主題信息挖掘有價值的課題,探索不同主題在學科領域的發展規律。

(3) R3,支持尋找高影響力作者。研究人員需要找到在學術領域內的貢獻程度和活躍程度高的作者與具有突出貢獻的作者進行交流,探尋學術合作機會并挖掘新興課題。

(4) R4,支持根據主題詞自動搜索相關論文。科研人員需要一種能夠通過選擇感興趣的關鍵詞自動檢索到相關研究內容的論文檢索工具,提高查閱文獻的效率。

2.2 本研究總體思路

本研究由論文篩選、信息處理和可視分析3個模塊組成,如圖1所示。本文的文獻索引數據來自Semantics Scholar開源文獻數據庫,其中包含了1 920萬條文獻索引數據,即論文題目、論文ID、論文摘要、作者、作者、發表年份和引用論文ID等屬性。3個模塊的具體工作原理是:

(1) 論文篩選模塊。首先提取摘要實詞,并輸入word2vec模型得到摘要實詞的向量表示;然后計算各摘要實詞向量與粗粒度關鍵詞的相似度,生成數量更多的細粒度關鍵詞;進而篩選領域文獻索引數據。

(2) 信息處理模塊。首先將領域文獻摘要輸入到BERTopic模型中,提取領域主題;然后使用論文ID和引用論文ID字段構造文獻引用網絡,將該網絡輸入PageRank算法得到論文影響力PR值;進而再應用本文的Author-Rank算法,根據作者發表論文數量、論文PR值、論文發表年份和作者署名順序計算出作者影響力AR值。

圖1 基于詞表示模型的領域文獻數據可視分析方法研究框架

(3) 可視分析模塊。對上述文獻信息處理結果進行可視化,生成主題詞頻、文獻引用網絡、主題演變和作者影響力排名等多個視圖,通過多視圖協同和交互幫助用戶對特定領域文獻信息進行交互式分析,理解領域內涵。

3 基于詞嵌入的領域論文篩選

關鍵詞對于檢索和篩選文獻數據尤為重要,然而,初涉一個領域的研究人員往往只知道該領域很淺顯的少量粗粒度關鍵詞,僅通過粗粒度關鍵詞檢索領域相關論文是困難的。為了獲取與粗粒度關鍵詞食品安全相關聯的細粒度關鍵詞,本文利用word2vec對摘要中的實詞進行向量化表示。利用詞向量之間的相似度尋找相似細粒度關鍵詞,并根據其找到豐富的領域論文(R1)。步驟如下:

步驟1.提取摘要實詞。文獻索引數據的摘要中存在大量與研究內容無關的虛詞和符號,如“a”’“the”“we”“our”和“; ”等。使用正則化方法去除摘要中無用的符號和停用詞(即虛詞),獲取摘要實詞,每篇文獻索引數據具有一條摘要實詞記錄。

步驟2.向量化表示摘要實詞。將每篇文獻索引數據的摘要實詞記錄看作一個句子,構成可以輸入詞表示模型的數據格式,作為詞嵌入模型的輸入數據。然后將所有文獻索引數據的摘要實詞輸入word2vec的skip-gram模型中。該模型分為3層,輸入層為當前輸入的摘要實詞的one-hot編碼;輸入層到隱藏層之間存在一個權重矩陣,當前摘要實詞的one-hot編碼與該權重矩陣做乘積運算獲取一個輸出向量,該向量為隱藏層的輸入向量;隱藏層與輸出層之間也有一個權重矩陣,隱藏層的輸入向量與權重矩陣相乘得到輸出層向量;使用softmax對輸出層向量進行歸一化處理;模型利用對數損失函數計算誤差通過反向傳播優化權重矩陣;同時,采用層次softmax方法加速訓練過程;當訓練次數達到預期設定的迭代次數時,詞嵌入模型訓練完成,此時輸出的向量為每個摘要實詞的詞向量。該過程的目的是將每個摘要實詞映射到低維嵌入空間中,并獲得詞向量。

步驟3. 推薦領域細粒度關鍵詞。相似的詞具有相似的詞向量。輸入領域相關的粗粒度關鍵詞,如“食品”“安全”等。計算粗粒度關鍵詞與其余摘要實詞的詞向量之間的余弦相似度。余弦相似度值越高,表示該摘要實詞與粗粒度關鍵詞的使用場景越相似。根據詞向量之間的余弦相似度值對摘要實詞進行排序,排名靠前的摘要實詞與粗粒度關鍵詞之間的相似度越高,與領域相關的可能性越高,這些相似度值高的摘要實詞為領域相關的細粒度關鍵詞。科研人員可以通過這些關鍵詞深度了解領域研究熱點,并檢索相關的論文。以食品安全領域為例,利用詞向量之間的相似度計算出的細粒度關鍵詞見表1。

步驟4.獲取領域文獻索引數據。利用領域的細粒度關鍵詞,通過篩選得到文獻索引數據。為提供更系統全面的領域研究情況,本研究篩選出近31年食品安全領域的14 988條文獻索引數據。

表1 根據詞向量之間的相似性獲取食品安全領域關鍵詞

4 基于BERTopic的主題提取

研究特定領域的主題信息可以幫助科研人員更加系統地探索研究熱點和研究趨勢。本研究使用主題建模技術BERTopic提取領域主題(R2)。BERTopic是一種主題建模技術,其利用BERT嵌入和基于聚類的TF-IDF來創建密集的聚類,其還使用統一面域逼近和投影(uniform manifold approximation and projection,UMAP)技術,在對文檔進行聚類之前降低嵌入的維度,能夠輕松解釋主題,并在主題描述中保留重要的單詞。與LDA和NML方法不同的是,BERTopic無需超參數的設置免去了復雜的參數嘗試步驟。BERTopic算法分3個階段:

(1) 嵌入摘要數據。使用BERT提取文檔嵌入。BERT[4]是一種自然語言預處理模型,使用來自語言模型的表述進行遷移學習,且與上下文無關,只需要無標記的數據。將文獻索引數據中的摘要輸入一個基于英語BERT的模型,使用雙向Transformer結構[22]計算摘要的詞向量。

(2) 聚類。t-SNE[23]未保留全局數據結構,所以只有在集群距離內才有意義,且計算需要占用大量的內容,而UMAP[24]在高維中使用指數概率分布,任何距離均可以代入直接計算,其使用隨機梯度下降(stochastic gradient descent,SGD)代替常規梯度下降(gradient descent,GD),這既加快了計算速度,又減少了內存消耗。因此BERTopic使用UMAP降低嵌入的維數。然后將其詞向量輸入HDBSCAN,該算法可以自動地推薦最優的簇類結果。HDBSCAN[25]不僅可以減少嵌入向量,還可對相似的文獻數據進行聚類。HDBSCAN輸出的聚類數量為最終提取的主題數量。

(3) 創建主題表示。利用TF-IDF[26]評價每個詞對每個HDBSCAN聚類的重要性。TF是詞頻,表示一個詞在一類文本中出現的頻率。IDF是逆向文件頻率,一個詞的IDF可由一個聚類中總文獻數據數目除以包含該詞的文獻數據的數目,再將商取對數得到。如果包含單詞的文檔越少,IDF越大,說明詞條具有很好的類別區分能力。當有TF和IDF時,可將這2個詞相乘,得到一個詞的TF-IDF的值。某個詞在文章中的TF-IDF越大,那么這個詞在的重要性就越高,所以通過計算文章中各個詞的TF-IDF,并由大到小排序,排在最前面的幾個詞,就是關鍵詞。因此使用TF-IDF對主題進行提取和精簡,可提高最大邊緣關聯詞的一致性。最終獲取每個主題中重要的單詞。

(4) 根據主題劃分文獻數據。根據不同主題的主題詞在每篇文獻數據摘要中出現的頻率,計算文獻數據摘要與主題的匹配程度。如果在一篇文獻數據摘要中出現主題A比其他主題的主題詞頻率高,則將其劃分到主題A。

將食品安全領域文獻數據的摘要輸入BERTopic,經過訓練得到食品安全領域的6個主題,即:食品供應鏈、食品養殖風險、膳食營養、食品檢測方法、食源性疾病和農產品安全,每個主題的詳細信息見表2。表2包括主題名稱,每個主題除去粗粒度關鍵詞后的10個代表性關鍵詞和每個主題的論文數量。

表2 食品安全領域的主題信息

5 基于Author-Rank評價作者影響力

研究人員可以通過作者排名探索學術合作機會。作者的排名與其影響力有關,因此需要客觀度量作者影響力指標的算法,本文提出了一種綜合考慮作者署名順序、論文數量、論文質量和發表年份的作者影響力算法Author-Rank。

目前關于論文合著者順序分配貢獻程度的算法已經有很多[27],其中調和算法[28]可以實現“署名順序靠前的作者,對論文的貢獻程度更高;反之貢獻程度更低”的規律,一篇論文中所有作者的貢獻度權重之和始終為1,即

其中,為論文中的作者數量;署名次序為第名的作者貢獻度權重值為()。

另外,作者發表每篇論文的影響力受到引用關系和發表年份的影響,發表時間距離數據采集時間越長,其影響力越低。因此作者影響力權重還需要結合論文質量和發表時間,即

本文利用被引關系,使用PageRank算法計算論文的影響力PR值[29]。結合論文PR值、發表時間和作者貢獻度權重值計算出作者發表的論文影響力權重為

其中,=2021(年)–論文出版年份。

累加作者發表每篇論文獲得的影響力權重值,得到作者的總影響力為

其中,為作者發表的論文數量。AR值越大表示作者的影響力水平越高。

為評估Author-Rank算法的效果,本文以“食品供應鏈”主題為例,繪制了該主題作者影響力排名視圖,如圖2(d)所示,并統計了該主題AR值排名前5的作者信息,包括作者ID、作者發表的論文數量、題目、發表時間、PR值、作者署名順序、作者AR值,以AR值為指標的排名和以PR值為指標的排名,見表3。通過觀察圖2(d)和表3可以發現,以AR值為基準的作者影響力排名順序與以論文數量和論文PR值指標為基準的作者影響力排名順序基本一致,說明根據Author-Rank算法獲得的作者影響力排名是有效的。

圖2 文獻數據可視分析系統界面——以食品安全領域為例((a)文獻主題演變視圖顯示從1990年至2020年間食品安全領域6個主題每年被發表的論文數量和每個主題的論文總數;(b)主題詞頻視圖顯示被選定主題有代表性的10個關鍵詞(去除“food” “analysis”和“safety”等食品安全領域的粗粒度關鍵詞)及其在31年間出現的詞頻數量;(c)文獻引用及影響力視圖顯示6個主題31年間的論文引用情況,節點大小表示論文的影響力指標PR值;(d)作者影響力排名視圖顯示在31年間研究特定主題的作者影響力排名情況;(e)文獻搜索視圖可以自動檢索與主題關鍵詞相關的論文)

表3中,作者“4989571”的發表論文數量和論文總質量比作者“3092817”的高,但AR值排名低。這是因為作者“3092817”發表的論文年份更新,研究內容更新穎也更具有參考價值。且作者“4989571”雖然有2篇論文,但在一篇論文中的署名順序為第2名,作者“3092817”署名順序為第1名,因此其AR值比作者“4989571”高,且排名也更靠前。由此可知,與只考慮作者發表論文數量和只考慮作者發表論文質量的方法相比,根據Author-Rank算法對作者影響力排名的結果更加實用和可靠。

6 文獻數據可視分析系統

信息可視化在已有的研究[30]中得到了廣泛應用,以幫助人們探索和理解數據。因此本文設計了一種文獻數據可視分析方法,支持發現和識別主要的主題趨勢、作者之間的關系和論文之間的引用關系。并根據該方法實現了一個文獻數據可視分析系統,如圖2所示。

6.1 文獻主題演變

為觀察不同主題的論文數量隨年份的變化趨勢,系統使用主題河流視圖,展示特定學科領域內不同主題的演變趨勢,如圖2(a)所示。該圖的橫坐標表示發表年份,每個顏色映射一種主題,每個顏色的面積對應在該時間段內文獻發表數量。鼠標懸停在某一個時間點特定主題的區間內,提示框便顯示這一年該主題的論文數量及在31年間論文的總數量。如鼠標懸停在該視圖藍色區間(“食品供應鏈”主題),系統彈出提示框并顯示‘2020年“食品供應鏈”:318/3614’,表示在2020年間“食品供應鏈”主題的論文數量為318篇,在31年間共計3 614篇。在視圖的橫軸上還設計了縮放控件,研究人員可以通過鼠標拖動橫軸或滾動鼠標滾軸的方式,觀察感興趣時間段內每個主題的數量(R2)。

6.2 主題詞頻

主題詞頻視圖主要展示對每個主題除去粗粒度關鍵詞之外,最具有代表性的10個關鍵詞(表2)及其在31年間出現的詞頻,如圖2(b)所示。其中不同主題詞頻出現的多少用不同大小的圓來編碼,圓越大表示該詞出現的次數越多。該視圖中每個圓的顏色為用戶在文獻主題演變視圖中選定主題的顏色。為方便用戶觀察,鼠標懸停在某個主題詞上,該詞將高亮顯示。主題詞頻為研究人員探索特定學科領域的研究熱點提供了有力的幫助(R2)。

6.3 文獻引用及影響力

系統使用節點-鏈接圖結合力導向布局的方式展現論文之間的引用關系,如圖3(c)所示。其中,每個節點代表一篇論文,節點越大表示該論文的影響力PR值越高,被參考和學習的價值越高。如果論文之間存在引用關系,則2個節點之間存在一條邊。不同的顏色映射不同主題的論文(節點),該視圖顏色與主題的映射關系與文獻主題演變視圖中的顏色映射相同。鼠標懸停在節點上,節點將以高亮形式顯示論文題目及其PR值,如圖4所示。

6.4 作者影響力排名

作者影響力排名視圖展示了特定領域的作者影響力排名結果,如圖2(d)所示。視圖采用了3色并列柱狀圖,3種顏色對應3種不同的作者影響力度量指標:藍色為基于Author-Rank算法作者的影響力評價指標;綠色為基于作者發表論文數量計算的評價指標;橙色為基于作者發表論文總PR值的評價指標。該視圖的橫坐標為作者影響力度量值,縱坐標為作者ID號,作者順序按AR值從大到小排列。在視圖的右側,還設置了滑動軸,用戶可以通過調整滑動軸的方式,調整視圖的顯示區間,如圖2(d)和圖3(d)所示(R3)。

圖3 分析“農產品安全”主題的文獻信息((a)主題演變趨勢;(b)主題關鍵詞詞頻;(c)高水平論文;(d)高影響力作者)

圖4 探索“農產品安全”主題高影響力論文及其引用關系((a)高影響力論文;(b)與高影響力論文有引用關系的論文)

6.5 文獻搜索

系統根據論文PR值和文獻URL信息構造了一個文獻搜索引擎,該視圖顯示關鍵詞檢索結果。由于視圖空間有限,視圖僅顯示論文的題目和部分摘要信息,其中題目為藍色字體,摘要為黑色字體。搜索結果按照論文PR值的大小從上到下依次排序,如圖2(e)所示。鼠標點擊感興趣的論文題目,頁面將跳轉到Semantic Scholar文獻數據庫對應的頁面,顯示該篇論文更詳細的信息,幫助研究人員高效檢索論文(R4)。

6.6 交互方式

系統使用過濾、高亮、縮放等交互手段幫助研究人員觀察在特定領域中不同主題的研究趨勢、研究熱點、作者影響力和文獻影響力信息。為在有限的界面提供給用戶良好的可視化效果,系統設計了對用戶友好的交互方式。

6.6.1 過 濾

在文獻主題演變視圖和文獻引用及影響力視圖中,用戶可以通過選擇主題對應色塊的方式,篩選感興趣的主題,觀察不同主題從1990年至2020年間每年的論文數量(圖2(a)和圖3(a))、論文引用關系和論文的PR值。

6.6.2 高 亮

為了追蹤用戶感興趣的主題信息,系統為文獻主題演變、主題詞頻、文獻引用及影響力和作者影響力排名視圖添加了高亮功能,當用戶的鼠標懸停在某個有效區間,該區間將會高亮顯示如圖2(a),圖3(a)和圖4所示。

6.6.3 協同交互

為幫助用戶能夠快速地獲取領域中每個主題對應的學科內涵,系統設計了文獻主題演變、主題詞頻和作者影響力排名視圖之間的協同交互。點擊文獻主題演變視圖中的主題區間并高亮顯示,主題詞頻和作者影響力排名視圖的信息將變換為1990年至2020年間該主題對應的代表性關鍵詞和作者影響力排名信息,如圖2(a),(b)和(d)所示。

6.6.4 自動檢索論文

為幫助用戶了解感興趣關鍵詞的詳細研究工作,系統提供了自動檢索論文功能。用戶點擊主題詞頻中的詞匯,文獻搜索視圖中將自動填充用戶選擇的主題關鍵詞,以檢索相關論文,并進行自動搜索排名,如圖2(b)和(e)所示。

6.6.5 自動跳轉頁面

由于視圖空間有限,未能在界面中顯示每篇論文的詳細信息,系統設計了自動搜索論文功能。用戶點擊文獻引用及影響力視圖中的節點或文獻搜索視圖中的論文題目(藍色字體),頁面將跳轉到Semantic Scholar數據庫對應的論文網頁,用戶可查看該論文的詳細信息。

7 案例分析和用戶測試

本研究邀請12位研究人員參與調研,使用食品安全領域1990年至2020年間14 988篇論文的文獻索引數據進行案例分析和用戶測試,以驗證文獻數據可視分析系統的實用性和有效性。

7.1 探索不同主題的演變情況

通過觀察文獻主題演變視圖可以發現食品安全領域的論文數量呈現增長態勢,尤其在2010年后發展迅速,2020年受疫情影響論文數量并未減少,由此可見隨著經濟的發展,人們越來越關心食品安全問題。通過觀察和比較文獻主題演變每個主題對應的顏色區間,可以發現近10年“食品供應鏈”和“食品檢測方法”主題的研究較多,這是由于物聯網技術和深度學習技術的出現促進了學科融合,這為食品安全領域的研究帶來了發展前途。綜上所述,本系統可以幫助用戶挖掘食品安全領域的文獻主題演變規律(R2)。

7.2 比較不同主題的研究內容

比較不同主題的研究內容可以幫助初涉該領域的研究人員尋找到感興趣的研究課題。首先在文獻主題演變視圖中點擊“食品供應鏈”主題,主題詞頻發生變化,呈現該主題常見的專業詞及詞頻,同時作者影響力排名視圖中的作者信息也隨之更新,如圖2和圖3所示。研究人員可以獲知在食品安全領域“食品供應鏈”主題中的研究內容,該主題的研究熱點詞為“agricultural” “supply” “chain” “control”等;其最具影響力的作者ID為“3145569”。

除了“食品供應鏈”主題,研究人員還選擇了“農產品安全”主題進行可視化探索,如圖3所示。在文獻主題演變視圖中,點擊“農產品安全”主題,可發現研究熱點詞為“water” “climate” “yield”等;該主題影響力排名第5位的作者ID為“1997779”。在“農產品安全”主題中,論文“World agricultural towards 2030/2050: the 2012 revision”的PR值為0.270 7 (圖4(a)),是一篇高水平論文,值得對“農產品安全”領域感興趣的研究人員閱讀和參考。另外,由于論文之間的引用關系不是全連接圖,而是由多個子圖構成,每個子圖的研究內容相似,因此通過觀察子圖可以找到相關研究課題及參考文獻。在“農產品安全”主題的一個子圖中,論文“World agriculture towards 2030/2050: the 2012 revision”被論文“Sustainable food consumption in China and India”引用,2篇論文在同一個子圖中,因此這2篇論文研究課題相似,如圖4所示。

7.3 自動搜索文獻信息

為了解細粒度的論文信息,研究人員點擊主題詞頻視圖中的關鍵詞,文獻搜索框將自動填充該關鍵詞,搜索與該關鍵詞相關的論文信息。如,用戶在主題詞頻視圖中點擊關鍵詞“detection”,文獻搜索框將自動搜索包含該關鍵詞的論文信息,如圖5(a)和(c)所示。在這些論文中,排名第一的論文影響力是最高的,論文題目為“Recognition of Multiple-Food Images by Detecting Candidate Regions”。

圖5 自動檢索“食品檢測方法”主題論文示例圖((a)主題詞頻及高頻詞匯;(b)高影響力論文及其引用關系;(c)檢索到的論文)

研究人員將鼠標懸停在文獻引用及影響力視圖中最大的節點上,提示框顯示該論文為“Recognition of Multiple-Food Images by Detecting Candidate Regions”。該文是該主題中PR值最大、影響力最高的論文,與文獻搜索視圖中排名第一的論文相同。研究人員點擊搜索引擎欄中的論文題目,頁面將跳轉到Semantic Scholar學術平臺中該篇論文的索引頁面,以顯示該論文的詳細信息,節省了用戶查詢文獻的時間。

通過實驗證明,本系統通過過濾、高亮、縮放等交互方式多視圖協同呈現不同主題的文獻引用結構、作者影響力和研究熱點等信息,幫助用戶快速了解食品安全領域的學科內涵信息。

7.4 用戶測試

為了解系統的實用性,被邀請的12位研究人員對系統中每個視圖的滿意程度進行評定,統計結果如圖6所示,通過觀察圖6可以發現,研究人員對文獻主題演變、主題詞頻和文獻搜索視圖的滿意度普遍較高,沒有“完全不滿意”的視圖。研究人員認為可以從系統中提取到食品安全領域的主題信息,對初涉該領域的研究人員的工作具有一定的幫助,基本能夠滿足其分析文獻主題信息、高水平論文和高影響力作者信息的需求。但與其他目標相比,研究人員對作者影響力排名信息的“不滿意”數量最多,經過溝通后發現,在使用中,因為作者信息與其著作信息不透明,所以不能直接在系統中獲取到作者的更多有效信息。但12位研究人員對系統整體設計滿意,系統可以幫助研究人員快速了解特定領域的研究工作。

圖6 用戶對各個視圖功能的滿意程度調查結果

8 結束語

本文提出了一種基于詞表示模型的領域文獻數據可視分析方法。首先利用word2vec計算詞向量,根據相似度推薦豐富的關鍵詞,以此篩選出領域相關的論文;然后利用BERTopic提取特定領域的主題,提出了一種綜合計算多種指標的作者影響力評價算法Author-Rank;另設計并實現了一個文獻數據可視分析系統,幫助研究人員探索領域主題演變趨勢、高水平論文、研究熱點和作者信息,快速掌握領域研究內涵,同時為研究人員了解領域發展趨勢、探尋合作機會、尋找創新點提供新思路。

[1] PONTA L, PULIGA G, ONETO L, et al. Identifying the determinants of innovation capability with machine learning and patents[EB/OL]. [2021-11-15]. https://ieeexplore.ieee. org/document/9136883.

[2] BELTAGY I, LO K, COHAN A. Scibert: a pretrained language model for scientific text [EB/OL]. (2019-09-10) [2021-12-21]. https://arxiv.53yu.com/abs/1903.10676.

[3] ABDUL-RAHMAN A, ROE G, OLSEN M, et al. Constructive visual analytics for text similarity detection[J]. Computer Graphics Forum, 2017, 36(1): 237-248.

[4] IUCHI H, MATSUTANI T, YAMADA K, et al. Representation learning applications in biological sequence analysis[J]. Computational and Structural Biotechnology Journal, 2021, 19: 3198-3208.

[5] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//The 26th International Conference on Neural Information Processing Systems. New York: ACM Press, 2013: 3111-3119.

[6] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019-05-24) [2021-12-21]. https://arxiv.53yu.com/ abs/1810.04805.

[7] 王衛軍, 姚暢, 喬子越, 等. 基于詞嵌入的國家自然科學基金學科交叉知識發現方法: 以“人工智能”與“信息管理”為例[J]. 情報學報, 2021, 40(8): 831-845.

WANG W J, YAO C, QIAO Z Y, et al. Method of discovering interdisciplinary knowledge of the national natural science foundation of China based on word embedding: a case study on artificial intelligence and information management[J]. Journal of the China Society for Scientific and Technical Information, 2021, 40(8): 831-845 (in Chinese).

[8] JI X N, SHEN H W, RITTER A, et al. Visual exploration of neural document embedding in information retrieval: semantics and feature selection[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(6): 2181-2192.

[9] 黃佳佳, 李鵬偉, 彭敏, 等. 基于深度學習的主題模型研究[J]. 計算機學報, 2020, 43(5): 827-855.

HUANG J J, LI P W, PENG M, et al. Review of deep learning-based topic model[J]. Chinese Journal of Computers, 2020, 43(5): 827-855 (in Chinese).

[10] ABUZAYED A, AL-KHALIFA H. BERT for Arabic topic modeling: an experimental study on BERTopic technique[J]. Procedia Computer Science, 2021, 189: 191-194.

[11] KELLNER A W A, PONCIANO L C M O. H-index in the Brazilian Academy of Sciences: comments and concerns[J]. Anais Da Academia Brasileira De Ciencias, 2008, 80(4): 771-781.

[12] 吳淑燕, 許濤. PageRank算法的原理簡介[J]. 圖書情報工作, 2003, 47(2): 55-60, 51.

WU S Y, XU T. An introduction to PageRank algorithm theory[J]. Library and Information Service, 2003, 47(2): 55-60, 51 (in Chinese).

[13] 謝瑞霞, 李秀霞, 韓霞, 等. 基于加權被引頻次與署名順序的作者影響力評價指標構建[J]. 情報科學, 2018, 36(8): 90-93, 111.

XIE R X, LI X X, HAN X, et al. Evaluation index of author influence based on weighted cited frequency and signature order[J]. Information Science, 2018, 36(8): 90-93, 111 (in Chinese).

[14] WU S Y, LI W B, WU J R. Construction of deep resolution and retrieval platform for large scale scientific and technical literature[C]//2018 IEEE 3rd International Conference on Cloud Computing and Big Data Analysis. New York: IEEE Press, 2018: 375-379.

[15] CHEN Y, LV C, LI Y, et al. Ordered matrix representation supporting the visual analysis of associated data[J]. Science China Information Sciences, 2020, 63(8): 1-3.

[16] CHEN C M, SONG M. Visualizing a field of research: a methodology of systematic scientometric reviews[J]. PLoS One, 2019, 14(10): e0223994.

[17] FEDERICO P, HEIMERL F, KOCH S, et al. A survey on visual approaches for analyzing scientific literature and patents[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(9): 2179-2198.

[18] 邵航, 宋英華, 李墨瀟, 等. 我國食品安全與數據科學交叉研究的科學計量學分析[J]. 食品科學, 2020, 41(13): 291-301.

SHAO H, SONG Y H, LI M X, et al. Scientometric analysis of cross-disciplinary studies on food safety and data science in China[J]. Food Science, 2020, 41(13): 291-301 (in Chinese).

[19] GUO H, LAIDLAW D H. Topic-based exploration and embedded visualizations for research idea generation[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(3): 1592-1607.

[20] LI Z Y, ZHANG C H, JIA S C, et al. Galex: exploring the evolution and intersection of disciplines[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(1): 1182-1192.

[21] LIU S X, WANG X T, COLLINS C, et al. Bridging text visualization and mining: a task-driven survey[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(7): 2482-2504.

[22] FULTON S R, SCHUBERT W H. Vertical normal mode transforms: theory and application[J]. Monthly Weather Review, 1985, 113(4): 647-658.

[23] WANG Y F, HUANG H Y, RUDIN C, et al. Understanding how dimension reduction tools work: an empirical approach to deciphering t-SNE, UMAP, TriMAP, and PaCMAP for data visualization[EB/OL]. [2021-12-02]. https://arxiv.org/abs/2012. 04456v2.

[24] MCLNNES L, HEALY J, MELVILE J. Umap: uniform manifold approximation and projection for dimension reduction [EB/OL]. (2020-09-18) [2021-12-21]. https://arxiv. 53yu.com/abs/1802.03426.

[25] MCINNES L, HEALY J, ASTELS S. Hdbscan: hierarchical density based clustering[J]. The Journal of Open Source Software, 2017, 2(11): 205.

[26] QAISER S, ALI R. Text mining: use of TF-IDF to examine the relevance of words to documents[J]. International Journal of Computer Applications, 2018, 181(1): 25-29.

[27] SHEN C W, HO J T. Technology-enhanced learning in higher education: a bibliometric analysis with latent semantic approach[J]. Computers in Human Behavior, 2020, 104: 106177.

[28] WALTMAN L. An empirical analysis of the use of alphabetical authorship in scientific publishing[J]. Journal of Informetrics, 2012, 6(4): 700-711.

[29] DU M C, BAI F S, LIU Y S. PaperRank: a ranking model for scientific publications[C]//2009 WRI World Congress on Computer Science and Information Engineering. New York: IEEE Press, 2009: 277-281.

[30] 陳誼, 孫夢, 武彩霞, 等. 食品安全大數據可視化關聯分析[J]. 大數據, 2021, 7(2): 61-77.

CHEN Y, SUN M, WU C X, et al. Visual associations analysis of big data in food safety[J]. Big Data Research, 2021, 7(2): 61-77 (in Chinese).

A visual analysis approach for domain literature data based on word representation model

ZHANG Qing-hui, CHEN Yi, WU Cai-xia

(Beijing Key Laboratory of Big Data Technology for Food Safety, School of Computer Science and Engineering, Beijing Technology and Business University, Beijing 100048, China)

With the development of science and technology, scientific literature is mounting to an increasingly large scale. How to quickly and accurately seek the research topics, influential scholars, and high-level papers in a specific domain from the vast amount of publications remains an enormous challenge. The visual analysis method for domain literature data based on word representation model employed word2vec to recommend domain-related keywords by the similarity between word vectors, and filters the domain-related papers according to these keywords. Then it utilized the BERTopic model to extract topics from the abstracts of domain papers. Next, the values for paper impact were calculated using PageRank, and the values for author influence were calculated using Author-Rank, the author impact evaluation method, taking into account the order of authorship, the number of publications, and the impact of papers. Finally, the multi-view collaborative and interactive visualization approach could help researchers gain a quick understanding and analysis of specific areas from multiple perspectives, such as topics word frequency, topics evolution, literature impact, citation relationships, and author impact. The method can be applied to literature data analysis in the field of “food safety”, and the results and user tests can validate this method.

visualization; bibliometric analysis; word2vec; BERTopic; Author-Rank; food safety

30 December,2021;

National Natural Science Foundation of China (61972010); National Key R&D Program of China (2018YFC1603602)

ZHANG Qing-hui (1997-), master student. Her main research interests cover visualization and visual analysis. E-mail:1930401028@st.btbu.edu.cn

CEHN Yi (1963-), professor, Ph.D. Her main research interests cover visualization, visual analysis, machine learning etc. E-mail:chenyi@th.btbu.edu.cn

TP 391

10.11996/JG.j.2095-302X.2022040685

A

2095-302X(2022)04-0685-10

2021-12-30;

2022-03-02

2March,2022

國家自然科學基金項目(61972010);國家重點研發計劃項目課題(2018YFC1603602)

張清慧(1997-),女,碩士研究生。主要研究方向為可視化與可視分析。E-mail:1930401028@st.btbu.edu.cn

陳 誼(1963-),女,教授,博士。主要研究方向為可視化、可視分析和機器學習等。E-mail:chenyi@th.btbu.edu.cn

猜你喜歡
研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側面碰撞假人損傷研究
關于反傾銷會計研究的思考
焊接膜層脫落的攻關研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 免费亚洲成人| 波多野结衣在线一区二区| 亚洲三级成人| 麻豆精品久久久久久久99蜜桃| 任我操在线视频| 国产色偷丝袜婷婷无码麻豆制服| 免费毛片a| 亚洲一级毛片在线观播放| 天堂av高清一区二区三区| 国产自在线播放| 国产菊爆视频在线观看| 在线观看视频一区二区| 亚洲色大成网站www国产| 国产主播在线一区| 国产在线98福利播放视频免费| 久久香蕉国产线看观看精品蕉| 亚洲精品在线观看91| 国产一级毛片在线| 少妇精品在线| 国产流白浆视频| 午夜欧美理论2019理论| 国产白浆视频| 在线免费观看a视频| 色妞www精品视频一级下载| 好吊妞欧美视频免费| 亚洲一区二区成人| 五月丁香在线视频| 亚洲一区二区三区中文字幕5566| 日本精品一在线观看视频| 亚洲AⅤ无码国产精品| 中文字幕日韩丝袜一区| 一区二区三区精品视频在线观看| 欧美中文字幕在线播放| 久久精品国产91久久综合麻豆自制| 91探花在线观看国产最新| 91黄色在线观看| 国产偷国产偷在线高清| 精品无码人妻一区二区| 欧美亚洲香蕉| jizz亚洲高清在线观看| 欧美精品v欧洲精品| 亚洲欧州色色免费AV| 欧美精品一区二区三区中文字幕| 婷婷综合缴情亚洲五月伊| 国产一区二区三区免费观看| 精品欧美日韩国产日漫一区不卡| 88av在线播放| 国产乱视频网站| 久久性妇女精品免费| 欧美日韩亚洲国产主播第一区| 99久久这里只精品麻豆| 99在线视频免费观看| 99热国产这里只有精品无卡顿"| 国产色爱av资源综合区| 特级aaaaaaaaa毛片免费视频 | 欧美精品在线看| 日韩免费中文字幕| 色偷偷男人的天堂亚洲av| 亚洲无码日韩一区| 欧美日韩国产在线观看一区二区三区| 国产欧美日韩综合一区在线播放| 国产在线精品人成导航| 久久久四虎成人永久免费网站| 精品国产香蕉在线播出| 丁香婷婷综合激情| 免费观看精品视频999| 人人看人人鲁狠狠高清| 国产在线无码一区二区三区| 国产成人成人一区二区| 亚洲日本一本dvd高清| 婷婷色在线视频| 亚洲日韩Av中文字幕无码| 一级毛片在线播放免费| 国产超碰一区二区三区| 99精品在线视频观看| 亚洲三级成人| 99精品国产自在现线观看| 亚洲欧美日韩高清综合678| 狠狠v日韩v欧美v| 成人毛片免费在线观看| 国语少妇高潮| 91久草视频|