999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的中文網絡評論分類方法研究

2021-01-20 06:21:12劉思聰盧甘霖崔子良尹建爍西北農林科技大學信息工程學院
數碼世界 2020年12期
關鍵詞:分類文本模型

劉思聰 盧甘霖 崔子良 尹建爍 西北農林科技大學信息工程學院

引言

網絡論壇相關技術的發展,使其能夠承載更多網絡用戶產生的信息。但網絡評論來源的復雜性,造成了網絡論壇中的評論文本質量良莠不齊。因此,對網絡評論文本進行實時并且快速的分類成為了當前比較緊迫的商業需求。

但當前網絡評論文本分類的有關研究還未成熟,其亟待解決的問題可總結為:文本分類的類別設置不全面;使用的分類算法性能不佳。為解決以上問題,本文建立了一套較為科學的評論文本分類標簽,提出了一套基于XGBoost算法的分類系統。

1 相關技術

1.1 數據獲取與預處理流程

采用網絡爬蟲抓取網絡論壇上的評論信息,運用NLTK工具集對無關信息進行清洗,建立符合需求的評論文本數據集。

1.2 文本分詞處理流程

使用Jieba進行中文分詞,該工具包實現了高效的詞圖掃描,能找出基于詞頻的最佳切分方式。

1.3 基于TF-IDF的特征提取流程

通常運用TF-IDF提取文章的特征,具體如下:

2 XGBoost算法

該分類算法的基本思想是選擇部分樣本和特征生成一個簡單模型,將其作為基本分類器。在生成新模型時,學習以前模型的殘差最小化目標函數。重復執行,最終產生準確率很高的綜合模型。它的目標函數 Oobj經過泰勒公式展開后,最終化簡為

3 網絡評論分類系統的構建

分類系統由文本獲取(使用網絡爬蟲從網絡論壇抓取文本信息)、文本整理與清洗(剔除文本中的無關信息)、文本分詞(對經過預處理的文本進行分詞)、特征提取(對分詞后的文本建立特征矩陣)和模型訓練(訓練出XGboost模型)構成。

4 實驗驗證

4.1 實驗驗證平臺

硬件平臺:CPU:Intel i5 7300HQ,內存:DDR4 12G,硬盤:260G硬盤;

開發及運行環境:操作系統 Windows 10 OS, 編程語言:Python 3。

4.2 項目所使用數據集

首先,設定體育、健康等12類標簽。其次,在SougoCS數據集的基礎上,使用網絡爬蟲和手工標注將訓練集和測試集分別增強到24000條和12000條。

4.3 分類性能評判標準

使用準確率,召回率和F1三個指標作為分類器評判標準,定義如下:

4.4 不同分類模型的比較

為驗證XGBoost的分類準確性,選擇Logistics、隨機森林和樸素貝葉斯三種算法,在100%數據量下,進行比較。由表1可知,XGBoost模型的結果好于其他三種算法。其中,較排名第二的Logistics仍高出8%。

4.5 不同數據量的影響

隨機選取20%、40%、60%、80%的數據作為訓練集。從折線圖中可以看出,隨著數據量的增加,模型的結果逐步增強,且未出現明顯的下降趨勢。

表2 訓練樣本量對XGBoost算法的影響

圖1 XGBoost在不同數據量下測試結果的變化

5 結論

(1)針對當下分類標簽設定不科學的問題,可在原有基礎上。根據實際,設計出更精細的標簽;然后,利用人工標注的方法,逐步增強適用于網絡評論分類的評論語料。

(2)針對準確率的問題,提出了一套基于XGBoost算法的分類方法。通過與其他分類算法的比較可得:XGBoost算法的結果好于其他算法;通過在不同數據量下的測試可得:隨著訓練樣本的增加,準確率保持穩定增長,未出現較明顯的下降趨勢。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线永久免费观看的毛片| 日本一区二区三区精品国产| 欧美成人日韩| 热九九精品| 久久综合一个色综合网| 国产99视频精品免费视频7| 成人另类稀缺在线观看| 久久精品人人做人人综合试看| 久久99精品久久久久久不卡| 欧美亚洲国产精品第一页| 看看一级毛片| 欧美一区二区丝袜高跟鞋| 欧类av怡春院| 日韩精品免费一线在线观看| 亚洲娇小与黑人巨大交| 日韩无码视频播放| 国产精品成人啪精品视频| 久久综合激情网| 国产视频久久久久| 99re精彩视频| 一本色道久久88| 日韩福利在线视频| 日日噜噜夜夜狠狠视频| 人妻中文久热无码丝袜| 亚欧美国产综合| 日本久久网站| 亚洲毛片网站| 国产精品久久久久久久久久久久| 人妻无码中文字幕一区二区三区| 午夜福利在线观看入口| 欧美黄网在线| 亚洲精品手机在线| 亚洲爱婷婷色69堂| 都市激情亚洲综合久久| 99在线观看免费视频| 激情影院内射美女| 亚洲精品自拍区在线观看| 免费大黄网站在线观看| 色综合久久88| 亚洲天堂网在线观看视频| 国产精品成人一区二区不卡| 欧美一区二区啪啪| 欧美日韩一区二区在线播放| 欧美成人一级| 色噜噜综合网| 98超碰在线观看| AV在线天堂进入| 亚洲欧美日韩视频一区| 久久香蕉国产线| 99久久精彩视频| 免费一级毛片在线观看| 无码国产伊人| 亚洲三级a| 国产欧美精品午夜在线播放| 欧美在线网| 美女无遮挡免费视频网站| 久久综合激情网| 国产精品妖精视频| 欧美日韩国产成人高清视频| 992tv国产人成在线观看| 99久久精品国产麻豆婷婷| 亚洲综合经典在线一区二区| 欧美亚洲激情| 欧美精品v| 玖玖免费视频在线观看| 四虎AV麻豆| 岛国精品一区免费视频在线观看 | 黄色在线不卡| 一本视频精品中文字幕| 国内嫩模私拍精品视频| 亚洲自拍另类| 国产免费福利网站| 美女视频黄频a免费高清不卡| 国产人妖视频一区在线观看| 色综合激情网| 亚洲精品制服丝袜二区| 国产成人无码综合亚洲日韩不卡| 亚洲成A人V欧美综合天堂| 国产午夜看片| 欧美激情二区三区| 亚洲—日韩aV在线| 亚洲天堂成人在线观看|