999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林和LDA的論文自動分類及主題挖掘研究

2018-01-04 11:35:20楊秀璋于小民李娜夏換
計算機時代 2018年11期

楊秀璋 于小民 李娜 夏換

摘 要: 當前科研成果呈爆炸式增長,論文跨學科交叉分布不斷深化,精準獲取所需的論文需要耗費大量的時間和精力。文章提出一種基于隨機森林的論文自動分類方法,實現對海量論文的自動分類;提出一種基于LDA模型的主題挖掘方法,提取論文關鍵詞并進行詞云展示。實驗數據采用Selenium技術抓取中國知網九大主題的1710篇論文,實驗結果表明,該論文分類方法在準確率、召回率和F值上都有所提升,有效地挖掘出各學科的主題詞,為下一步引文分析、文本挖掘和知識圖譜構建提供有效支撐。

關鍵詞: 文本自動分類; LDA; 隨機森林; 主題挖掘; 中國知網

中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2018)11-14-05

Abstract: With the explosive growth of scientific research results, the cross-disciplinary distribution of papers has been deepened, and it takes a lot of time and effort to accurately acquire the required papers. In this paper, an automatic classification method based on random forest is proposed to realize the automatic classification of massive papers and a topic mining method based on LDA model is proposed to extract the keywords of the paper and display the word cloud. The experimental data used Selenium technology to capture 1710 papers on the nine themes of the CNKI. The experimental results show that the paper classification method has improved the precision, recall and F-measure, effectively mining the subjects of various disciplines. The keywords extracted provide effective support for the next citation analysis, text mining and knowledge graph construction.

Key words: automatic text classification; LDA; random forest; topic mining; CNKI

0 引言

隨著科學技術快速發展,科研成果的數量也呈快速增長趨勢,各學科的論文、專利、軟件著作權等都朝著跨學科交叉分布深化,所蘊含的深層次語義信息也更為復雜。科研工作者如何從這些海量學術成果中尋找到自己需要的信息,獲取論文的主題關鍵詞,已經成為當今研究的重要內容。論文自動化分類旨在準確地劃分論文學科類別,從而節約科研工作者的時間和精力,提高科研效率;論文主題挖掘旨在提取論文主干脈絡,為論文關鍵詞自動發現提供支撐。

目前國內外利用數據挖掘或機器學習發現論文主題詞,對學術論文進行自動分類的方法包括詞頻計算、決策樹、支持向量機(SVM)、最近鄰算法(KNN)等,這些方法可以有效地對科研成果進行自動分類,但實驗的效率和準確率較低,缺乏深層次語義理解,對跨學科的論文分類效果不理想,論文主題詞識別不精準。針對這些問題,本文提出一種基于隨機森林的論文自動分類方法,實現對海量論文的自動分類;同時,提出了一種基于LDA模型的主題挖掘方法,實現對論文關鍵詞提取,并進行詞云可視化分析。

本文的研究成果具有重要的理論意義和實用價值,一方面能高效精準地實現文本自動分類,為科研工作者訊速地提供所需的論文信息;另一方面能挖掘出論文的主題關鍵詞,使文本的主題脈絡更加清晰,為文本關鍵詞的自動發現提供幫助。本文所提出的算法可以廣泛應用于自動分類、引文分析和文本挖掘等領域,提高科研和工作效率。

1 相關研究

1.1 學術論文中的文本分析

當前科研成果的分析研究已經引起了社會和學術界的廣泛關注和重視,所涉及的領域包括引文分析、論文自動分類、主題挖掘、學術成果測度、論文知識圖譜構建等。本文主要是關于論文自動分類和主題關鍵詞提取的研究,其中論文自動分類旨在預測論文的所屬學科或主題,通常采用基于機器學習或自然語言處理中常用的文本分類技術解決;主題挖掘旨在通過算法識別出不同來源文本的主題或關鍵詞,通常采用LSA或LDA算法計算概率來挖掘主題詞。

近年,隨著深度學習和機器學習的興起,國內外學者對論文分析和主題挖掘花大量的時間做了大量的研究。王婷婷等[1]通過LDA模型和Word2Vec算法獲取科技文獻的主題詞概率,并構建詞義相關的T-WV矩陣識別主題;廖列法等[2]通過LDA模型對專利文本進行分類研究;逯萬輝等[3]提出一種基于Doc2Vec和HMM算法的文本內容特征因子計算模型,研究學術論文主題;顏端武等[4]通過HDP模型研究主題文獻并實現自動推薦;曾立梅[5]對碩士論文進行文本分類研究;王昊等[6]通過機器學習算法對中文期刊論文進行自動分類研究;劉瀏等[7]基于KNN算法對社科類論文實現自動分類;Blei等[8]提出的LDA主題模型被廣泛應用于各領域;王樹義等[9]通過主題模型挖掘企業新聞文本及情感分析;蘇金樹等[10]通過機器學習算法對文本分類技術進行研究;周慶平等[11]提出了基于聚類改進的KNN文本分類算法;張晨逸等[12]提出了MB-LDA模型方法并挖掘微博主題與人物間的關系;Shi等[13]通過LDA主題建模分析了企業非結構化業務數據,量化企業在產品、市場和科技空間中的位置。

盡管論文分析和主題挖掘在算法創新和應用領域都有一些研究,但這些方法的效率和準確率仍然不高,缺乏深層次語義理解,對跨學科的論文分類效果不理想,無法獲取深層次精準的主題信息。為了解決這些問題,本文提出了基于隨機森林的論文自動分類方法和基于LDA模型的主題挖掘方法。

1.2 LDA模型

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,由Blei等[8]在2003年首次提出,是一種三層貝葉斯結構,包括主題、文檔和主題詞三層結構,其中文檔到主題(D-T層面)、主題到詞(T-W層面)都服從多項分布。LDA主題模型是文本挖掘和信息處理領域重要的文本建模模型,它將一篇文本的每個詞都按照一定概率分布到某個主題上,并從這個主題中選擇相關的詞語集。

LDA主題模型提出了“主題”的概念,有效解決了“維數災難”問題,在維度壓縮的同時使得數據的表現能力增強,廣泛應用于主題挖掘、文本分析、自然語言處理、情感分析等領域。

2 基于LDA和隨機森林的論文自動分類及主題挖掘算法

2.1 算法總體流程

本文旨在對中國知網九個主題的學術論文進行分析,算法的總體流程如圖1所示。

及主題挖掘算法總體流程

⑴ 調用Python、Selenium和XPath技術自動抓取中國知網九大主題共1710篇學術論文并存儲至本地。

⑵ 對所抓取的論文摘要進行數據預處理,包括中文分詞、停用詞過濾、數據清洗等處理,這是文本數據分析的重要處理環節。

⑶ 將預處理之后的網頁文本轉換為特征詞矩陣,涉及特征提取和權重計算。

⑷ 論文分析主要包括基于隨機森林的論文自動分類和基于LDA模型的主題關鍵詞挖掘,并進行詞云可視化顯示。

2.2 數據采集及預處理

本文旨在分析中國知網論文,涉及數據挖掘、數據分析、大數據、Python、民族、數學、文學、數據科學、機器學習九個主題。通過構建一個基于Python、Selenium和XPath技術的網頁自動爬蟲抓取數據集,包括論文標題、類型、關鍵字、發布時間、摘要等特征。

在進行數據分析之前,通常需要對所爬取的信息進行預處理操作,包括缺失值填充、異常值處理、數據清洗、中文分詞、停用詞過濾等步驟,其目標是得到高標準、高質量的數據,從而提升分析的結果。本文的數據預處理操作包括以下三種。

⑴ 缺失值填充。論文缺失字段采用Null標明缺失項,再進行數據定向爬取補全,少量字段采用手動填充。

⑵ 中文分詞。分詞旨在將漢語句子切分成單獨的詞序列,本文選用結巴(Jieba)分詞工具,通過導入自定義詞典實現專有名詞和固定詞組的分詞。

⑶ 停用詞過濾。原始語料中會存在“·”、“...”、“/”等特殊符號,也會存在如“你”、“嗎”、“可以”等不影響文本主旨卻出現頻率很高的停用詞,此時需要定義停用詞表對這些詞語進行過濾。

2.3 特征提取及TF-IDF

學術論文摘要數據預處理后,需要對文本信息進行特征提取。這里采用向量空間模型(VSM)技術實現,用向量(W1,W2,W3,…,Wk-1,Wk)來表示論文文本,其中Wi表示第i個特征詞所對應的權重(i=1,2,3,…,k)。

為了盡可能多的保留影響程度更高的特征詞,過濾掉一些常見卻無關緊要的詞語,本文采用TF-IDF技術表示權重。TF-IDF計算特征詞的重要程度是依據特征詞在文本中出現的次數和在整個數據集中出現的文檔頻率實現的。其中TF(Term Frequency)表示某個關鍵詞在整篇文章中出現的頻率;IDF(Invers Document Frequency)表示倒文本頻率,它是文檔頻率的倒數。該技術用來降低所有文檔中常見卻對文檔影響不大詞語的作用。

TF-IDF的完整公式如下:

其中,特征詞ti在訓練文本dj中出現的次數記為ni,j,文本dj中全部特征詞的個數記為,語料對應所有文本的總數記為|D|,文本中包含特征詞ti的數量記為|Dti|。tfidfi,j表示詞頻tfi,j和倒文本詞頻idfi的乘積,權重與特征項在文檔中出現的頻率成正比,與在整個語料中出現該特征項的文檔數成反比。tfidfi,j值越大則該特征詞對這個文本的重要程度越高。

2.4 基于隨機森林的論文自動分類算法

該算法的優勢是通過隨機森林分類器提升實驗的準確率、召回率和F值,更精準高效地實現文本自動分類。

算法:基于隨機森林的論文自動分類算法

輸入:中國知網論文文本摘要

輸出:測試集的論文所屬類別

⑴ 調用Selenium和XPath技術爬取中國知網論文信息,并提取每篇文章的摘要;

⑵ 對所獲取的數據集進行預處理,包括中文分詞、數據清洗、停用詞過濾等;

⑶ 對語料進行特征提取操作,并結合TF-IDF技術將文本轉換為數學向量的形式;

⑷ 將處理好的數據集隨機劃分為訓練集和測試集,其中訓練集共1000篇摘要,測試集共710篇摘要,均涉及九大主題;

⑸ 訓練隨機森林算法模型,其迭代次數設置為1000次,再對測試集進行實驗分析,并獲取每篇摘要的分類類標;

⑹ 采用準確率、召回率和F值評估實驗結果,最終結果為10次實驗結果的平均值。

3 實驗結果與分析

⑴ 數據說明及預處理

本文數據集采用Python自定義爬蟲隨機抓取中國知網學術論文信息,涉及數據挖掘、數據分析、大數據、Python、民族、數學、文學、數據科學、機器學習九個主題,共1710篇論文(包括訓練集1000篇,測試集710篇),詳細信息如表1所示。

所爬取的論文信息共包含十個字段,如圖2所示,包含論文主題、標題、作者、關鍵詞、出版年份、出版社、引用次數、下載次數、摘要、類型等。本文對學術論文的摘要進行分析,經過中文分詞后,導入停用詞典進行數據清洗和降維,再進行特征提取和權重計算。

⑵ 評價指標

評價方法一般采用準確率(Precision)、召回率(Recall)和F值(F-measure),計算公式定義如下所示:

⑶ 論文自動分類實驗

表2是采用隨機森林算法對學術論文測試集進行文本自動分類的實驗結果,其中文學、民族和數學的F值最高,分別為0.97、0.96和0.96。

圖3是論文摘要的分類結果,它將數據挖掘、數據分析、大數據、Python、民族、數學、文學、數據科學、機器學習主題相關的文本聚集在一起。

接著分別對比了樸素貝葉斯、最近鄰、決策樹和隨機森林算法的論文自動分類實驗,其中各算法的實驗結果如圖4所示。從圖中可以知,基于隨機森林的論文自動分類方法的準確率、召回率和F值的實驗效果都更為理想。整體體實驗結果呈現出:隨機森林>決策樹>最近鄰>樸素貝葉斯的趨勢,基于隨機森林算法的論文自動分類方法可以廣泛應用于文本分類領域。

⑷ LDA主題挖掘實驗

在基于LDA模型的論文主題挖掘實驗中,設置的主題數(n_topic)為9,迭代次數(iterations)為500,調用Python環境下的LDA主題模型進行模擬訓練,每個主題內的主題詞根據其概率大小排序,獲取各論文主題關鍵詞如表3所示。

將LDA識別的主題關鍵詞在經過詞云可視化后,呈現如圖5所示的結果。

從圖5中可以看到,“文學批評”、“文學史”、“網絡小說”等關鍵詞與文學主題相關;“數據倉庫”、“決策”、“數據挖掘”與數據分析主題相關;“支持向量”、“神經網絡”、“人工智能”與機器學習主題相關;“文化”、“教育”、“少數民族”與民族主題相關。

4 結束語

本文的研究成果主要應用于論文自動分類和文本主題詞挖掘領域,以中國知網九大主題的1710篇學術論文進行實驗。提出了一種基于隨機森林的論文自動分類方法,實現對海量論文的自動分類;提出了一種基于LDA模型的主題挖掘方法,實現對論文關鍵詞提取,并進行詞云可視化分析。

實驗結果表明,本文提出的隨機森林論文自動分類方法在準確率、召回率和F值上都有所提升,當給出一篇新的論文時,我們能及時對論文進行自動分類;通過LDA模型能有效地挖掘出各學科的主題詞,使得論文主題脈絡更清晰,文本主題詞挖掘更加精確高效,為下一步引文分析、文本挖掘和知識圖譜構建提供有效支撐,具有一定的應用前景和實用價值。

參考文獻(References):

[1] 王婷婷,韓滿,王宇.LDA模型的優化及其主題數量選擇研究——以科技文獻為例[J].數據分析與知識發現,2018.1:29-39

[2] 廖列法,勒孚剛,朱亞蘭.LDA模型在專利文本分類中的應用[J].現代情報,2017.37(3):35-39

[3] 逯萬輝,譚宗穎.學術成果主題新穎性測度方法研究——基于Doc2Vec和HMM算法[J].數據分析與知識發現,2018.3:22-29

[4] 顏端武,陶志恒,李蘭彬.一種基于HDP模型的主題文獻自動推薦方法及應用研究[J].情報理論與實踐,2016.39(1):128-132

[5] 曾立梅.基于文本數據挖掘的碩士論文分類技術[J].重慶郵電大學學報:自然科學版,2010.22(5):669-672

[6] 王昊,葉鵬,鄧三鴻.機器學習在中文期刊論文自動分類研究中的應用[J].現代圖書情報技術,2014.3:80-87

[7] 劉瀏,王東波.基于論文自動分類的社科類學科跨學科性研究[J].數據分析與知識發現,2018.3:30-38

[8] Blei D M, Ng A Y,Jordan M I. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003.3:993-1022

[9] 王樹義,廖樺濤,吳查科.基于情感分類的競爭企業新聞文本主題挖掘[J].數據分析與知識發現,2018.3:70-78

[10] 蘇金樹,張博鋒,徐昕. 基于機器學習的文本分類技術研究進展[J].軟件學報,2006.17(9):1848-1859

[11] 周慶平,譚長庚,王宏君,等. 基于聚類改進的KNN文本分類算法[J].計算機應用研究,2016.33(11):3374-3377

[12] 張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計算機研究與發展,2011.48(10):1795-1802

[13] Shi Z M,Lee G,Whinston A B. Toward a Better Measure of Business Proximity: Topic Modeling for Industry Intelligence[J].MIS Quarterly,2016.40(4):1035-1056

主站蜘蛛池模板: 亚洲欧美成人在线视频| 综合成人国产| 99re精彩视频| 色综合五月婷婷| 色综合婷婷| 五月天天天色| 久久亚洲国产视频| 99热这里只有精品免费国产| 亚洲浓毛av| 国产精品爽爽va在线无码观看| 在线观看国产网址你懂的| 午夜限制老子影院888| 国产区福利小视频在线观看尤物| 久久成人18免费| 广东一级毛片| 亚洲无码高清免费视频亚洲| 日本免费一级视频| 亚洲 成人国产| 亚洲免费毛片| 在线看AV天堂| 午夜影院a级片| aa级毛片毛片免费观看久| 日韩免费无码人妻系列| 国产黑丝视频在线观看| 丰满的熟女一区二区三区l| 欧美v在线| 国产超碰在线观看| 国产美女叼嘿视频免费看| 综合色在线| 啪啪永久免费av| 亚洲第一视频免费在线| 国产三级毛片| 91九色国产porny| 日韩精品免费一线在线观看 | 免费激情网址| 国产香蕉97碰碰视频VA碰碰看| 免费a在线观看播放| 国产又爽又黄无遮挡免费观看| 欧美激情伊人| 精品国产一区二区三区在线观看| 欧美日本视频在线观看| 亚洲香蕉伊综合在人在线| 国产欧美日韩在线在线不卡视频| 色天堂无毒不卡| 亚洲欧洲天堂色AV| 国产最新无码专区在线| 国产aaaaa一级毛片| 久久影院一区二区h| 国产一在线| 国产区在线看| 99资源在线| 国产午夜精品一区二区三区软件| 国产精品成| 中文字幕在线观| 国产精品亚洲一区二区三区z| 日韩视频精品在线| 亚洲中文字幕手机在线第一页| 97影院午夜在线观看视频| 中文字幕伦视频| 亚洲码一区二区三区| 亚洲人精品亚洲人成在线| 色成人亚洲| 国产色网站| 99视频精品全国免费品| 亚洲一区网站| 婷婷六月激情综合一区| 中文毛片无遮挡播放免费| 亚洲日韩精品综合在线一区二区| 亚洲男人在线天堂| 狼友视频一区二区三区| 91外围女在线观看| 动漫精品啪啪一区二区三区| 久久精品欧美一区二区| 欧美激情第一欧美在线| 高清久久精品亚洲日韩Av| 欧美色香蕉| 国产精品亚洲精品爽爽| 日韩精品久久无码中文字幕色欲| 国产波多野结衣中文在线播放| 九色综合视频网| 91口爆吞精国产对白第三集 | 日本免费一区视频|