999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學(xué)習(xí)的中文論文自動分類

2018-01-30 13:42:34賈瑞強
大經(jīng)貿(mào) 2017年12期
關(guān)鍵詞:分類模型

賈瑞強

一.引言

1.選題背景和意義

隨著現(xiàn)代科技的發(fā)展,信息量在成幾何級數(shù)膨脹,每天都有大量新的論文產(chǎn)生,紙張這些傳統(tǒng)的存儲介質(zhì)已經(jīng)不能滿足現(xiàn)有的需求,構(gòu)建數(shù)字圖書館勢在必行。中國知網(wǎng)是我國目前比較成功的論文數(shù)字圖書館,構(gòu)建數(shù)字圖書館就是將期刊論文進行電子化,電子化就必然會面臨兩個主要工作:期刊論文的格式必須有統(tǒng)一標(biāo)準(zhǔn)和期刊論文的分類管理。經(jīng)過多年的努力,期刊論文現(xiàn)在已經(jīng)形成了一套統(tǒng)一的著錄標(biāo)準(zhǔn),期刊論文的分類管理還基本是以人工分類為主。人工分類目前面臨兩個問題:一個是隨著期刊論文數(shù)量的快速增長,人工分類顯得心有余而力不足,人工分類每天能分類的數(shù)量是固定的,即使增加人力成本,想要趕上期刊論文增長的速度還是很困難的,這無疑給分類工作增加了很大的壓力;第二個問題是人工分類存在一定的主觀性,分類工作人員一般會通過期刊論文的標(biāo)題和來源來確定論文的類別,比較少的閱讀論文全文來對論文進行分類,因此分類的正確率受人的主觀意識影響很大。鑒于這種情況的基礎(chǔ)上,研究期刊論文的自動分類能夠有效的解決以上兩個問題,不僅可以減輕人工分類的壓力,提高分類的效率,還能提高分類結(jié)果的正確率,減少主觀因素的影響。。

二.模型的實現(xiàn)

1.1數(shù)據(jù)準(zhǔn)備

首先將所有的論文通過python里的jieba模塊進行分詞,將出現(xiàn)的名詞、形容詞、動名詞作為總詞包,將在數(shù)理統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為數(shù)理統(tǒng)計詞包,將在經(jīng)濟統(tǒng)計的論文里出現(xiàn)的詞歸結(jié)為經(jīng)濟統(tǒng)計詞包,從數(shù)理統(tǒng)計包和經(jīng)濟統(tǒng)計詞包各取10個高頻詞作為高詞頻包

詞包結(jié)果圖如下:

1.2 詞包初探:從做成的詞包,統(tǒng)計成詞頻數(shù)據(jù),并做成詞云圖。

由詞云圖可以看出,數(shù)理統(tǒng)計的論文中,都是理論性的詞語詞頻較高,如:數(shù)據(jù)、研究、應(yīng)用、模型等詞。而經(jīng)濟統(tǒng)計學(xué)論文中更偏經(jīng)濟學(xué),如:經(jīng)濟、發(fā)展、分析等詞出現(xiàn)頻率較高。由此可以初步判定,通過詞頻的差別作為論文類別區(qū)分的特征是合理的。

1.3 建立模型

1.3.1 論文類別的預(yù)測

在模型識別和機器學(xué)習(xí)中的相關(guān)研究中,經(jīng)常會將整個數(shù)據(jù)集合分成兩個部分,分別是訓(xùn)練集合合測試集,假設(shè)X是集合全體,A是全集X的非空真子集,那么非空集合X、A則是集合A在全集X中的補集。于是可以在A上面做訓(xùn)練和分析,而幾個X、A則用來做測試和驗證。一開始的集合A被稱作訓(xùn)練集,而他的補集A被稱作是驗證集或者測試集。這是一個重要的觀點就是:只有訓(xùn)練集才可以使用在模型的訓(xùn)練之中,而測試集必須在模型訓(xùn)練完成后才用來評估模型的誤差。

從驗證結(jié)果中可以看出,正確率在大于90%,通過樸素貝葉斯模型預(yù)測論文類別,是可以行的。

【參考文獻】

[1] 白如江基于粗糙集和神經(jīng)網(wǎng)絡(luò)的文本自動分類方法現(xiàn)代圖書情報技術(shù),:白小明,邱桃榮.

[2] 基于和算法的科技文獻自動分類研究微計算機信息,:包劍,冀常鵬,李義杰.

[3] 基于矢量空間模型的文本自動分類系統(tǒng)研究計算機系統(tǒng)應(yīng)用,:陳玉.

[4] 多類別科技文獻動分類系統(tǒng)碩士學(xué)位論文湖北:華中科技大學(xué),楚存坤,李韜.

[5] 模糊聚類技術(shù)在文獻自動分類系統(tǒng)中的應(yīng)用現(xiàn)代情報:刁倩,張惠惠,玉永成,何驥.endprint

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产激情无码一区二区免费| 国产亚洲精品91| 91精品小视频| 久久精品这里只有国产中文精品| 成人午夜精品一级毛片| 日韩东京热无码人妻| 亚洲伦理一区二区| 国产一二三区视频| 国产在线97| 久久精品国产电影| 色首页AV在线| 四虎成人精品在永久免费| 日本91在线| 最新精品久久精品| 亚洲日韩高清在线亚洲专区| 五月天在线网站| 国产亚洲欧美日韩在线一区二区三区| 亚洲小视频网站| 中文字幕亚洲综久久2021| 成人中文在线| 久久中文字幕不卡一二区| 亚洲综合中文字幕国产精品欧美| 亚洲第一中文字幕| 精品久久综合1区2区3区激情| 久久99热这里只有精品免费看 | 老司机久久99久久精品播放 | 亚洲中文字幕无码mv| 国产成人久久综合777777麻豆| 国产成人艳妇AA视频在线| 国产91视频免费观看| 一级香蕉人体视频| 99久久精品免费视频| 一级毛片免费不卡在线| 国产成人高清亚洲一区久久| 国内精品九九久久久精品| 天堂av高清一区二区三区| 伊人查蕉在线观看国产精品| 在线观看亚洲人成网站| 国产91色| 国产精品女人呻吟在线观看| 色噜噜综合网| 国产精品久久自在自线观看| 久久精品国产精品青草app| 在线无码九区| 久久大香香蕉国产免费网站| 国产精品手机在线观看你懂的 | 91成人在线观看视频| 日韩高清一区 | 国产精品成人观看视频国产| 无码免费的亚洲视频| a级毛片免费播放| 国产欧美日韩另类精彩视频| 国产精品自在在线午夜区app| 亚洲精品日产精品乱码不卡| 99re在线免费视频| 成人亚洲天堂| 91外围女在线观看| 久久亚洲黄色视频| 欧美国产日韩一区二区三区精品影视| 精品久久综合1区2区3区激情| 999精品视频在线| 成人国产小视频| 国产欧美日韩专区发布| 亚洲男人的天堂久久香蕉网| 欧美三级视频在线播放| 亚洲日韩欧美在线观看| 19国产精品麻豆免费观看| 一级香蕉人体视频| 99精品国产电影| 在线亚洲精品福利网址导航| 国产成人av一区二区三区| 国产菊爆视频在线观看| 亚洲日本韩在线观看| 日本午夜影院| 国产小视频网站| 天堂网亚洲综合在线| 亚洲第一精品福利| 欧美综合中文字幕久久| 国产剧情伊人| 欧美亚洲日韩不卡在线在线观看| 91年精品国产福利线观看久久| 婷婷五月在线视频|