999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的工科科研主題識別與可視化研究

2020-09-21 06:51:14陸陽琪
江蘇科技信息 2020年22期
關鍵詞:利用圖書館模型

陸陽琪

(南京工程學院圖書館,江蘇南京 211167)

0 引言

為了推動工程教育改革的創新,2017 年教育部正式啟動了“新工科”計劃,并就新工科的內涵特征、發展路徑、建設指南等方面的內容形成了新工科建設的“三部曲”——復旦共識、天大行動和北京指南。在新工科不斷發展建設的背景下,高校圖書館作為學校教學和科研服務的保障支撐部門要積極應對,以滿足高校新工科建設的要求。本文嘗試以南京工程學院工科類科研文獻為數據源,利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型提取研究主題,幫助科研人員快速了解研究領域的熱點主題,為圖書館助力高校科研工作,完善精準知識服務探索新的路徑。

1 相關研究

從科研成果中挖掘研究熱點和主題一直都是圖書情報領域的重要研究方向,研究者們利用各種方法和工具對此進行研究,主要有共詞分析法、詞頻分析法、共被引分析法、內容分析法、社會網絡、LDA 模型等。趙蓉英等[1]利用CiteSpaceⅡ對文獻進行共引分析和聚類分析,揭示了文獻計量學的研究熱點和發展趨勢。李亞員[2]利用研究文獻的高頻關鍵詞進行共詞分析,梳理了我國慕課研究現狀與熱點。柯平等[3]利用社會網絡分析方法,借助UCINET 等工具對國外信息管理相關文獻的關鍵詞進行統計和聚類分析,挖掘研究熱點。李永忠等[4]利用LDA 模型抽樣獲得電子政務相關文獻的主題,總結分析了目前國內電子商務研究的熱點。吳查科等[5]利用LDA 方法建立了國內圖書館學研究的主題模型,挖掘圖書館學領域主題及其演變情況。

對于高校圖書館而言,如何從海量動態的文獻數據中精準獲取信息,幫助科研人員了解研究領域的發展趨勢和前沿熱點,找出創新突破點已成為高校圖書館精準知識服務面臨的一項挑戰[6]。LDA 是在機器學習和自然語言處理等領域用來在一系列文檔中發現抽象主題的一種統計模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA 在文本主題識別、文本分類以及文本相似度計算等方面有著良好的效果,因此廣泛被研究者們應用到各學科領域,如計算機領域、圖書情報學領域、經濟學領域等等[7-9]。但LDA模型目前在高校圖書館服務方面的實踐探索還較少,因此,本文利用LDA 模型分析了南京工程學院近10 年工科科研成果的研究熱點,探索高校圖書館利用數據科學技術更好地服務科研的可能性。

2 研究方法

本文以中國知網期刊全文數據庫收錄的文獻為數據來源,以作者單位=“南京工程學院”為檢索表達式,匹配方式為“模糊”,并將文獻發表時間限定為2010—2019 年,共檢索到8 783 條結果。本研究主要基于工科類科研成果,因此進一步將作者單位限定在電力工程學院、機械工程學院、材料科學與工程學院、能源與動力工程學院等工科院系。同時,人工核查剔除字段不全和不相關的文獻,得到有效數據4 437條。本文提取4 437 條篇目數據中的摘要字段,建立語料庫。檢索時間為2020年5月19日。

在自然語言處理工程中,文本預處理通常包括分詞、文本清洗、標準化、特征提取等步驟。對于中文分詞,jieba 分詞是目前最常用的分詞系統,本文利用Python 程序安裝jieba 庫,對每篇文獻的摘要字段進行分詞處理,文獻摘要中可能會包含一些常見的、與主題無關的詞語和特殊符號,因此需要進行停用詞和特殊符號處理,接著利用scikit-learn 向量化工具CounterVectorizer 對文本特征進行處理,以上文本處理完成后即可獲得LDA主題建模的訓練樣本。

文本預處理完成后,利用python的sklearn庫來實現南京工程學院近10年工科科研成果的LDA主題建模。構建LDA模型首先需要確定一個合適的主題數量,本文選用困惑度(Perplexity)指標作為確定最佳主題數量的參考指標,經過計算發現當主題數為15時,困惑度最小,因此確定主題數為15。

3 結果與分析

根據LDA 模型的初步訓練結果,獲得15 個主題的詞項分布和4 437篇文獻的主題分布。主題詞項分布如表1 所示,由于篇幅所限,每個主題展示10 個與主題相關的高頻詞。本文對15個主題的概率詞項進行推理,對每個主題名稱進行命名,例如從主題14中的“模擬、有限元、分布、數值、計算”推理出該主題關于“數值分析”,說明LDA模型的提取效果較好。

根據文獻主題分布結果,對每篇文檔的主題概率排序,選擇每篇文檔的最大概率進行主題歸類,每篇文檔都被賦予最能代表該文檔的主題詞,表2 為每個主題對應的文獻篇數的統計及占比情況,從表中可以看出“教育教學”“系統設計”和“檢測算法”是占比前三位的主題詞,表明在南京工程學院工科專業中高等教育與教學以及自動化系統和算法的應用較為普遍。

為了更好地解釋研究主題,更直觀地了解研究主題如何相互關聯,本文利用pyLDAvis 庫創建了生成LDA模型的交互式可視化結果,如圖1所示。LDA的可視化結果包括兩個部分,左側展示了主題模型的完整視圖,圓圈的大小代表了每個研究主題的文獻數量,并按照文獻數量的遞減順序對研究主題進行排序,圖1 中的研究主題1 即為“教育教學”。圓心之間的距離表示研究主題之間的相互關系,即兩個圓心間的距離越近,兩個研究主題間的相關性越高,例如數值分析在機器人算法代碼研究中有一定應用,因此,主題10“機器人”和主題14“數值分析”的圓圈就有重疊。右側展示的是左側突出顯示的研究主題中出現的前30 個最相關單詞的直方圖,比如左側選中研究主題1“教育教學”,右側展示的是與“教育教學”最相關的前30 個詞語,如教學、學生、學習、本科、工程等。

LDA 的可視化結果還可以用來探索主題詞之間的關系,具體來說,當右側的單詞“傳感器”突出顯示時,左側顯示了它在各個研究主題中分布的情況,如圖2所示。“傳感器”一詞可以在主題2“系統設計”、主題5“鎂合金”和主題10“機器人”中找到。

利用LDA 建模方法,本文確定了南京工程學院工科學科近10 年CNKI 收錄的中文期刊論文共15 個研究主題。研究發現,不同的工科學科,存在一些共性研究主題,比如高等教育、數據挖掘等。另外一些研究主題之間有著鮮明的學科特性,比如電力系統、數控機床、繼電保護、復合材料等等。實驗表明,LDA建模結果有助于快速了解教師的研究需求,高校圖書館館員可以利用數據科學技術更好地為廣大讀者服務。本文重點關注工科學科的研究需求,但LDA建模方法也可以應用到解決其他學科的教學科研需求甚至是分析圖書館館藏數據、用戶數據等方面的問題上。

表1 南京工程學院近10年工科科研成果主題分布

表2 主題文獻數量及占比統計

4 結語

本文利用LDA 模型分析南京工程學院近10 年CNKI 收錄的工科科研成果的研究熱點,初步探索了圖書館利用數據和數據科學技術服務科研的可能性,未來數據科學技術的應用還可以延伸到館藏管理、參考咨詢和教學決策等。

本研究還存在一些局限。首先,利用中國知網期刊全文數據庫來提取教師的科研成果,數量可能會偏少,因為對于理工類學科來說,教師可能還有一些成果被SCI、EI 等收錄;其次,由于學科交融越來越多,一些重疊主題解釋起來比較困難。后續研究可以進一步深入探索基于LDA的圖書館知識服務。

圖1 研究主題可視化結果

圖2 “傳感器”在多個研究主題上的分布情況

猜你喜歡
利用圖書館模型
一半模型
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
重要模型『一線三等角』
利用一半進行移多補少
重尾非線性自回歸模型自加權M-估計的漸近分布
利用數的分解來思考
Roommate is necessary when far away from home
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
3D打印中的模型分割與打包
主站蜘蛛池模板: 毛片一级在线| 亚洲无线一二三四区男男| 五月婷婷导航| 日韩精品视频久久| 国产综合欧美| 丁香婷婷久久| 欧美国产日韩一区二区三区精品影视| 五月天福利视频| 高清不卡一区二区三区香蕉| 狠狠v日韩v欧美v| 黄色网在线免费观看| 欧美激情二区三区| 国产网友愉拍精品视频| 青青操国产| 中文字幕在线一区二区在线| 国产精品微拍| 国产精品亚欧美一区二区| 久久综合亚洲鲁鲁九月天| 亚洲 日韩 激情 无码 中出| 夜精品a一区二区三区| 欧美成人区| 伊人久久精品亚洲午夜| 青青青草国产| 婷婷综合色| 免费观看精品视频999| 99久久国产综合精品2020| 欧美日韩国产系列在线观看| 婷婷亚洲最大| 国产99久久亚洲综合精品西瓜tv| 91久久国产综合精品女同我| 国产杨幂丝袜av在线播放| 女人18一级毛片免费观看| 91福利一区二区三区| 国产精品一区二区久久精品无码| 亚洲人成在线精品| AV熟女乱| 国产主播喷水| 亚洲国产天堂久久综合226114| 国产精品免费久久久久影院无码| 成人一级免费视频| 一级毛片视频免费| 日韩国产精品无码一区二区三区 | 欧美视频二区| 亚洲一区二区视频在线观看| 免费一级毛片不卡在线播放| 岛国精品一区免费视频在线观看| 丁香婷婷久久| 久久久久人妻一区精品色奶水| 日韩国产综合精选| 在线观看热码亚洲av每日更新| 真实国产精品vr专区| 666精品国产精品亚洲| 国产一区二区三区视频| www.精品国产| 性视频久久| 91久草视频| 精品三级在线| 国产网站一区二区三区| 天天躁夜夜躁狠狠躁躁88| 亚洲永久色| 国产网站一区二区三区| 国产欧美精品午夜在线播放| 亚洲成人免费在线| 狂欢视频在线观看不卡| 青草视频免费在线观看| 欧美亚洲国产视频| 久久无码高潮喷水| 久久久受www免费人成| 国产精品理论片| 国产一区免费在线观看| 2021国产乱人伦在线播放| 免费一级毛片| 日韩精品一区二区深田咏美| 国产麻豆精品久久一二三| 黄色国产在线| 天堂av综合网| 毛片一区二区在线看| 国产精品无码制服丝袜| 一级高清毛片免费a级高清毛片| 国产极品美女在线观看| 亚洲妓女综合网995久久| 亚洲欧洲综合|