999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的中文論文自動分類

2018-01-30 13:42:34賈瑞強
大經(jīng)貿(mào) 2017年12期
關(guān)鍵詞:分類模型

賈瑞強

一.引言

1.選題背景和意義

隨著現(xiàn)代科技的發(fā)展,信息量在成幾何級數(shù)膨脹,每天都有大量新的論文產(chǎn)生,紙張這些傳統(tǒng)的存儲介質(zhì)已經(jīng)不能滿足現(xiàn)有的需求,構(gòu)建數(shù)字圖書館勢在必行。中國知網(wǎng)是我國目前比較成功的論文數(shù)字圖書館,構(gòu)建數(shù)字圖書館就是將期刊論文進行電子化,電子化就必然會面臨兩個主要工作:期刊論文的格式必須有統(tǒng)一標(biāo)準(zhǔn)和期刊論文的分類管理。經(jīng)過多年的努力,期刊論文現(xiàn)在已經(jīng)形成了一套統(tǒng)一的著錄標(biāo)準(zhǔn),期刊論文的分類管理還基本是以人工分類為主。人工分類目前面臨兩個問題:一個是隨著期刊論文數(shù)量的快速增長,人工分類顯得心有余而力不足,人工分類每天能分類的數(shù)量是固定的,即使增加人力成本,想要趕上期刊論文增長的速度還是很困難的,這無疑給分類工作增加了很大的壓力;第二個問題是人工分類存在一定的主觀性,分類工作人員一般會通過期刊論文的標(biāo)題和來源來確定論文的類別,比較少的閱讀論文全文來對論文進行分類,因此分類的正確率受人的主觀意識影響很大。鑒于這種情況的基礎(chǔ)上,研究期刊論文的自動分類能夠有效的解決以上兩個問題,不僅可以減輕人工分類的壓力,提高分類的效率,還能提高分類結(jié)果的正確率,減少主觀因素的影響。。

二.模型的實現(xiàn)

1.1數(shù)據(jù)準(zhǔn)備

首先將所有的論文通過python里的jieba模塊進行分詞,將出現(xiàn)的名詞、形容詞、動名詞作為總詞包,將在數(shù)理統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為數(shù)理統(tǒng)計詞包,將在經(jīng)濟統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為經(jīng)濟統(tǒng)計詞包,從數(shù)理統(tǒng)計包和經(jīng)濟統(tǒng)計詞包各取10個高頻詞作為高詞頻包

詞包結(jié)果圖如下:

1.2 詞包初探:從做成的詞包,統(tǒng)計成詞頻數(shù)據(jù),并做成詞云圖。

由詞云圖可以看出,數(shù)理統(tǒng)計的論文中,都是理論性的詞語詞頻較高,如:數(shù)據(jù)、研究、應(yīng)用、模型等詞。而經(jīng)濟統(tǒng)計學(xué)論文中更偏經(jīng)濟學(xué),如:經(jīng)濟、發(fā)展、分析等詞出現(xiàn)頻率較高。由此可以初步判定,通過詞頻的差別作為論文類別區(qū)分的特征是合理的。

1.3 建立模型

1.3.1 論文類別的預(yù)測

在模型識別和機器學(xué)習(xí)中的相關(guān)研究中,經(jīng)常會將整個數(shù)據(jù)集合分成兩個部分,分別是訓(xùn)練集合合測試集,假設(shè)X是集合全體,A是全集X的非空真子集,那么非空集合X、A則是集合A在全集X中的補集。于是可以在A上面做訓(xùn)練和分析,而幾個X、A則用來做測試和驗證。一開始的集合A被稱作訓(xùn)練集,而他的補集A被稱作是驗證集或者測試集。這是一個重要的觀點就是:只有訓(xùn)練集才可以使用在模型的訓(xùn)練之中,而測試集必須在模型訓(xùn)練完成后才用來評估模型的誤差。

從驗證結(jié)果中可以看出,正確率在大于90%,通過樸素貝葉斯模型預(yù)測論文類別,是可以行的。

【參考文獻】

[1] 白如江基于粗糙集和神經(jīng)網(wǎng)絡(luò)的文本自動分類方法現(xiàn)代圖書情報技術(shù),:白小明,邱桃榮.

[2] 基于和算法的科技文獻自動分類研究微計算機信息,:包劍,冀常鵬,李義杰.

[3] 基于矢量空間模型的文本自動分類系統(tǒng)研究計算機系統(tǒng)應(yīng)用,:陳玉.

[4] 多類別科技文獻動分類系統(tǒng)碩士學(xué)位論文湖北:華中科技大學(xué),楚存坤,李韜.

[5] 模糊聚類技術(shù)在文獻自動分類系統(tǒng)中的應(yīng)用現(xiàn)代情報:刁倩,張惠惠,玉永成,何驥.endprint

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 欧美黄网站免费观看| 中文无码精品A∨在线观看不卡| 亚洲中文无码h在线观看| 国产99视频在线| 久久黄色毛片| 99精品高清在线播放| 亚洲综合第一区| 午夜影院a级片| 日韩中文欧美| 亚洲欧美成aⅴ人在线观看 | 国产欧美日韩综合一区在线播放| 在线日本国产成人免费的| 看你懂的巨臀中文字幕一区二区| 伊人久久精品亚洲午夜| 国产精品高清国产三级囯产AV| 日韩在线欧美在线| 欧美午夜小视频| 精品视频一区二区观看| 国产美女精品人人做人人爽| 精品国产99久久| 91精品福利自产拍在线观看| 日韩亚洲高清一区二区| …亚洲 欧洲 另类 春色| 免费毛片全部不收费的| 波多野结衣的av一区二区三区| 少妇被粗大的猛烈进出免费视频| 丰满人妻中出白浆| 久久国语对白| 亚洲男人的天堂久久精品| 精品欧美日韩国产日漫一区不卡| 91色爱欧美精品www| 国产视频一区二区在线观看| 国产情侣一区| 99久久精品视香蕉蕉| 人妻丰满熟妇av五码区| 国产十八禁在线观看免费| 日韩国产高清无码| 午夜精品久久久久久久99热下载| 毛片久久久| 91娇喘视频| 国产人人干| 毛片免费视频| 谁有在线观看日韩亚洲最新视频| 在线看AV天堂| 成人午夜天| 成人午夜视频网站| 天天综合色天天综合网| 国产一级毛片yw| 精品国产成人a在线观看| 在线看片免费人成视久网下载| 精品国产成人三级在线观看| 在线人成精品免费视频| 丁香婷婷激情综合激情| 国产综合色在线视频播放线视| 91伊人国产| 久久久久久久久亚洲精品| 制服丝袜亚洲| 福利在线不卡一区| 色久综合在线| 国产精品久久久久久久伊一| 国产成人精品免费av| 亚洲无码37.| 欧美成人精品高清在线下载| 久久久91人妻无码精品蜜桃HD| 亚洲福利视频一区二区| 中文字幕无码制服中字| 亚洲国产成人久久精品软件| 欧美成人在线免费| 一区二区三区在线不卡免费| 亚洲AV色香蕉一区二区| 91福利在线观看视频| 日本久久久久久免费网络| 无码aⅴ精品一区二区三区| 欧美日在线观看| 日韩无码黄色| 亚洲国产欧美目韩成人综合| 91福利一区二区三区| 专干老肥熟女视频网站| 久久久久国色AV免费观看性色| 亚洲国产精品久久久久秋霞影院| 国产91精品调教在线播放| 国产AV无码专区亚洲精品网站|