999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于行業(yè)分類標(biāo)準(zhǔn)的債券新聞自動(dòng)多分類

2017-07-16 21:53:42陳欽明賴澤華呂威
中國(guó)新通信 2017年11期
關(guān)鍵詞:數(shù)據(jù)挖掘分類文本

陳欽明+賴澤華+呂威

【摘要】 本文首先介紹了文本分類的研究背景包括傳統(tǒng)的人工分類以及基于文本數(shù)據(jù)挖掘相關(guān)技術(shù)的文本分類,接著根據(jù)實(shí)際需求通過跟蹤多家債券主體相關(guān)的新聞,基于行業(yè)分類標(biāo)準(zhǔn),完成債券新聞的自動(dòng)多分類。新聞多分類處理流程包括數(shù)據(jù)集獲取、數(shù)據(jù)集的預(yù)處理、分類算法設(shè)計(jì)與實(shí)現(xiàn)、評(píng)估及穩(wěn)定性檢測(cè)等方面。

【關(guān)鍵字】 行業(yè)分類標(biāo)準(zhǔn) 多分類 數(shù)據(jù)預(yù)處理 人工標(biāo)記 SVM 交叉驗(yàn)證 算法穩(wěn)定性

一、研究背景

自上個(gè)世紀(jì)80年代以來(lái),信息化的浪潮開始席卷全球,特別是互聯(lián)網(wǎng)技術(shù)的不斷普及與完善,信息技術(shù)迅速地滲透到社會(huì)的各個(gè)行業(yè)領(lǐng)域。近幾年,隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及電腦的普遍使用,電子化文檔的規(guī)模得到了急劇的增長(zhǎng),這些文檔都包含了大量的非結(jié)構(gòu)化信息,為了充分利用這些非結(jié)構(gòu)化數(shù)據(jù),我們便需要使用相關(guān)的文本數(shù)據(jù)分析技術(shù)對(duì)其進(jìn)行處理和利用,當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過程便是文本數(shù)據(jù)挖掘[1]。事實(shí)上,最近研究表明公司信息有80%包含在文檔中[2]。文本數(shù)據(jù)挖掘正逐漸成為一個(gè)熱門領(lǐng)域,吸引各大高校以及專家學(xué)者不斷深入研究。

傳統(tǒng)的文本分類是依靠大量的人工完成的。在不同的行業(yè)領(lǐng)域,主要依靠專業(yè)的人員針對(duì)特定的領(lǐng)域進(jìn)行人工標(biāo)注與分類。如政府機(jī)關(guān)人員針對(duì)公文的分類、早期圖書館對(duì)圖書的分類歸檔,專利部門對(duì)專利的分類。著名的國(guó)際網(wǎng)站Yahoo曾雇傭一百多名來(lái)自各個(gè)領(lǐng)域的專家,他們即使?jié)M負(fù)荷地工作,也沒能對(duì)每天不斷涌現(xiàn)在互聯(lián)網(wǎng)上新網(wǎng)頁(yè)進(jìn)行標(biāo)注與分類[3]。

本文根據(jù)它說(shuō)債券資訊模塊開發(fā)的實(shí)際需求,通過跟蹤4528家債券主體的相關(guān)新聞,基于文本分類的相關(guān)算法如樸素貝葉斯、K最近鄰算法[4]、支持向量機(jī)[5]等,最終完成它說(shuō)債券資訊模塊的新聞自動(dòng)分類的功能。

數(shù)據(jù)源介紹

本文的新聞文本數(shù)據(jù)來(lái)源于第三方數(shù)據(jù)庫(kù)萬(wàn)德數(shù)據(jù)庫(kù)的相關(guān)表如公司表、行業(yè)負(fù)面表、行業(yè)正面表等,數(shù)據(jù)采集的規(guī)模,采集的時(shí)間等具體見如下表1:

二、數(shù)據(jù)預(yù)處理

本文對(duì)文本數(shù)據(jù)做了如下的數(shù)據(jù)預(yù)處理:將每一條數(shù)據(jù)庫(kù)記錄轉(zhuǎn)化為txt文檔;將文本的編碼從非UTF-8編碼轉(zhuǎn)化為UTF-8編碼;過濾掉小于1kb的文檔、英文文檔及無(wú)意義文檔;去掉html標(biāo)記、換行符、多余空格。

三、人工標(biāo)記

接著,對(duì)經(jīng)數(shù)據(jù)預(yù)處理后的新聞文本數(shù)據(jù),按照行業(yè)分類標(biāo)準(zhǔn)表根據(jù)文檔內(nèi)容對(duì)樣本數(shù)據(jù)按分類主題進(jìn)行人工分類。最終的分類結(jié)果如下表2:(Result——19/19/4988)

四、基于多種分類算法新聞模塊實(shí)現(xiàn)

文本分類算法是構(gòu)成一個(gè)成熟的文本分類系統(tǒng)不可或缺的一個(gè)非常重要的部分,基于高效地文本分類算法可以提高文本分類的時(shí)效性及準(zhǔn)確度。目前比較常用的文本分類算法包括K-最近鄰算法、樸素貝葉斯、支持向量機(jī)等等。下面簡(jiǎn)單介紹一下樸素貝葉斯、k最近鄰算法及支持向量機(jī)。

(1)樸素貝葉斯分類算法。它基于一個(gè)前提假設(shè):即在給定的文本類集合中,文本間的屬性是獨(dú)立的,互不影響。對(duì)文本分類,就是求該文本在文本類集合中各個(gè)類別的概率,概率值最大的那個(gè)類別就作為該文本的類別。

(2)K-最近鄰計(jì)算的是待分類的文本與所有訓(xùn)練文本之間的距離,然后將距離按照從小到大進(jìn)行排序,返回前K個(gè)距離最小的樣本,統(tǒng)計(jì)這K個(gè)樣本所屬的類別數(shù)目,最后將類別數(shù)目最大的類別作為待分類文本的類別。

(3)支持向量機(jī),即SVM,它由V.Vapnik提出。可以應(yīng)用于非線性分類及模式識(shí)別,在解決非線性、小樣本及高維模式識(shí)別等問題中具有很大的優(yōu)勢(shì)。它的主要思想是在樣本空間中尋找一個(gè)最優(yōu)超平面,從而最大化的將兩大類劃分開來(lái)。

本文使用經(jīng)數(shù)據(jù)預(yù)處理后剩下的4988條新聞作為最終的樣本集,并對(duì)樣本集進(jìn)行中文分詞處理,構(gòu)造樣本集文本對(duì)象,構(gòu)建樣本集TF_IDF詞向量空間,然后使用相關(guān)分類算法進(jìn)行預(yù)測(cè)分類結(jié)果。具體的算法流程圖如下圖1:

五、文本分類評(píng)價(jià)性能指標(biāo)

在完成文本分類的訓(xùn)練與測(cè)試之后,往往需要對(duì)分類算法進(jìn)行分類性能評(píng)估,以確定一個(gè)算法的優(yōu)劣及進(jìn)行算法之間的性能比較。目前常用的文本分類性能評(píng)價(jià)指標(biāo)包括召回率、錯(cuò)分率、準(zhǔn)確率、F1-score等。

1、召回率(Recall Rate,也叫查全率):是檢索出的相關(guān)文本數(shù)和文本庫(kù)中所有相關(guān)文本數(shù)的比率,衡量的是分類系統(tǒng)的查全率。

召回率(Precision)= 系統(tǒng)檢測(cè)到的相關(guān)文本 / 系統(tǒng)所有相關(guān)的文本總數(shù)

2、錯(cuò)分率為另外一個(gè)角度對(duì)召回率的刻畫,滿足錯(cuò)分率+召回率=1

3、精度(Precision,也稱為準(zhǔn)確率):是檢索出的相關(guān)文本數(shù)與檢索出的文本總數(shù)的比率,衡量的是分類系統(tǒng)的查準(zhǔn)率。

精度(Precision)= 系統(tǒng)檢索到的相關(guān)文本 / 系統(tǒng)所有檢索到的文本總數(shù)

4、F1-score綜合考慮了精度以及召回率,是兩者的協(xié)調(diào)評(píng)價(jià)指標(biāo)。

本文按照20%測(cè)試集、80%訓(xùn)練集,10%測(cè)試集、90%訓(xùn)練集,20%測(cè)試集、100%訓(xùn)練集三種不同的數(shù)據(jù)集隨機(jī)切分方式對(duì)分類結(jié)果進(jìn)行了交叉驗(yàn)證(cross_validation),最終的分類結(jié)果如下表2:

六、債券新聞多分類穩(wěn)定性檢測(cè)

評(píng)價(jià)一個(gè)分類系統(tǒng)的好壞不僅僅考慮系統(tǒng)分類的準(zhǔn)確度等指標(biāo)還要考慮分類系統(tǒng)的穩(wěn)定性。因此本文對(duì)分類算法做了算法穩(wěn)定的檢測(cè)工作。數(shù)據(jù)檢測(cè)來(lái)源為companynews表,取樣時(shí)間為2016年09月03日到2016年09月10日,持續(xù)一個(gè)星期,取樣的標(biāo)準(zhǔn)為每次獲取數(shù)據(jù)最新更新時(shí)間的前一天的數(shù)據(jù),數(shù)據(jù)量較大時(shí)隨機(jī)取樣10%作為測(cè)試樣本,并對(duì)其進(jìn)行人工分類形成最終測(cè)試樣本集。

最終針對(duì)各種分類算法的穩(wěn)定性檢測(cè)結(jié)果如下表3所示,由下表可知綜合比較貝葉斯,knn,svm三種算法,svm在文本多分類的穩(wěn)定性上較好。

參 考 文 獻(xiàn)

[1]王偉強(qiáng), 高 文. Internet 上的文本數(shù)據(jù)挖掘[J ] . 計(jì)算機(jī)科學(xué), 2000 , 27 (4) : 32 - 37.

[2] AH - HWEE TAN. Text Mining : The state of the art and the challenges[ Z] . PAKDD99 Workshop on Knowledge discovery from Advanced Databases ( KDAD99) , Beijing , 1999.

[3] J.M Gomez.Text Representation for automatic Categorization.In Proceeding of Eleventh Conference Of the European Chapter Of the Association for Computational Linguistic,2003

[4]亞南.KNN文本分類中基于遺傳算法的特征提取技術(shù)研究[D].中國(guó)石油大學(xué),2011.

[5]毛雪岷,丁友明.基于語(yǔ)義引導(dǎo)與支持向量機(jī)的中文文本分類[J].情報(bào)雜志,2007,26(1 1):56-58

猜你喜歡
數(shù)據(jù)挖掘分類文本
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 亚洲欧美不卡中文字幕| 亚洲专区一区二区在线观看| 58av国产精品| 国产美女一级毛片| 91精品国产福利| 精品国产一区二区三区在线观看| 波多野结衣一区二区三视频| 激情无码字幕综合| 欧美国产日韩一区二区三区精品影视| 亚洲首页在线观看| 国产H片无码不卡在线视频| 亚洲日本中文综合在线| 国产成人做受免费视频| 婷五月综合| 国产性爱网站| 精品一区二区三区波多野结衣 | 色综合日本| 欧美狠狠干| 亚洲国产天堂在线观看| 亚洲午夜福利在线| 亚洲天堂免费观看| 午夜一级做a爰片久久毛片| 婷婷色丁香综合激情| 福利小视频在线播放| 欧美精品v欧洲精品| www.av男人.com| 午夜日b视频| 无码免费的亚洲视频| 亚洲国产中文欧美在线人成大黄瓜| 永久免费无码日韩视频| 亚洲精品片911| 无码福利日韩神码福利片| 精品国产香蕉伊思人在线| 国产一级小视频| 亚洲天堂视频在线观看免费| 中文字幕日韩视频欧美一区| 精品国产免费观看| 精品无码一区二区三区电影| 九色综合视频网| 99无码中文字幕视频| 国产精品lululu在线观看| 久久国产精品嫖妓| 欧美成一级| 噜噜噜久久| 日韩二区三区无| 精品亚洲麻豆1区2区3区| 中文字幕在线一区二区在线| 日韩精品免费在线视频| 亚洲日本韩在线观看| 欧美成a人片在线观看| 中文字幕调教一区二区视频| 欧美色亚洲| 国产女人18毛片水真多1| …亚洲 欧洲 另类 春色| 欧美一级高清视频在线播放| 国产精品视频观看裸模| 欧美国产日产一区二区| 国产精品太粉嫩高中在线观看| 大香网伊人久久综合网2020| 欧美视频在线播放观看免费福利资源| 亚洲av色吊丝无码| 日韩成人免费网站| 国产大片喷水在线在线视频| 国产幂在线无码精品| V一区无码内射国产| 99精品影院| 999精品色在线观看| 色偷偷av男人的天堂不卡| 国产成人艳妇AA视频在线| 久久77777| 全免费a级毛片免费看不卡| 国产成年女人特黄特色毛片免| 中文字幕亚洲第一| 国产高清在线观看91精品| 精品一区二区三区水蜜桃| 亚洲精品无码久久毛片波多野吉| 国产精品自在线拍国产电影 | 亚洲日韩国产精品综合在线观看| 亚洲综合久久成人AV| 777午夜精品电影免费看| 国产v欧美v日韩v综合精品| 国产精品白浆无码流出在线看|