999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向XGBoost 的課程評價文本智能分類模型

2021-09-28 11:22:50晉百川楊鴻波胡大膽
軟件導刊 2021年9期

晉百川,楊鴻波,胡大膽

(北京信息科技大學自動化學院,北京 100192)

0 引言

互聯網的快速發展帶動電商與線上教育平臺融合,隨之而來的是大量的商品評價和課程評價的文本信息。企業關注的是對大量評價文本信息快速處理,精準地將差評分為一類,再根據差評提取出的關鍵詞確定企業問題所在,據此快速改進問題,彌補損失。

文本信息處理研究較多,如文獻[1-5]針對KNN 算法提出了一種基于密度的樣本選擇算法,對文本特征進行處理,取得較好的分類效果;文獻[6-8]結合文本相似度和NaveBayes 方法,提出了新的類別區分詞特征選擇方法;文獻[9-11]提出了一種基于LDA 模型的文本分類算法,對傳統的特征降維方法進行改進。以上方法對數據集要求很高,對評價日常文本內容表現欠佳。文獻[12-16]采用改進的KNN 算法對短文本內容進行分類,但分類效率還有待提高;文獻[17-19]使用改進的CNN 網絡,在提高文本分類精度方面效果顯著,但在文本處理方面還有一定不足。

以上方法均為在評價文本數據方面進行細致分類與分析。本文使用數據可視化分析方法對特征進行重點關聯分析,采用jieba 分詞和停用詞的處理方法對文本數據進行詞向量表示,使用PCA(主成分分析)進行特征降維,采用XGBoost 來訓練評價文本分類模型,使用交叉驗證方法選取模型的最優參數,對評價文本內容進行快速有效分類。

1 數據預處理

數據中存在一定的錯誤、缺失和一些劣質數據,劣質數據往往會直接導致模型效果不佳,甚至對模型精準率造成很大影響,所以在建模之前需要對數據集進行預處理。

1.1 數據集概況

本文數據集來自某高校課程反饋評價,進行了人工標注和脫敏處理。數據集分為訓練集和測試集兩組,其中訓練集有9 994 條反饋內容,測試集有1 647 條反饋內容,數據示例如圖1 所示,特征字段解釋說明如表1 所示。特征“反饋評價”的類別有Z(中肯評價)、G(好評)、B(差評)、N(無參考價值的評價)4 種。

Fig.1 Data set example圖1 數據集示例

Table 1 Explanation of feature fields表1 特征字段解釋說明

1.2 缺失數據統計

首先判斷數據是否有重復行,這樣做目的是減少一些不必要的訓練數據,結果顯示本文數據集不存在重復數據;其次查看數據是否存在缺失值,結果顯示,特征“文本評價”存在缺失值,但缺失值的數量相比樣本數目所占比例很小,最終將所有特征“反饋評價”的缺失值刪除,剩余訓練集樣本數目為9 968。

1.3 數據可視化

對訓練集的數據特征進行可視化分析,判斷出特征“反饋評論”是最重要的,因此對特征“反饋評論”進行可視化分析,查看該特征在每個分類類別中所占比重,結果如圖2 所示。由圖2 可以判斷數據集存在樣本不均衡問題,這樣訓練后的模型在測試結果上會存在偏差,所以首先需對類別不均衡的數據進行處理。處理方法有兩種:①使用過采樣方法,增加數量較少類的樣本,使正負樣本數目均衡;②使用欠采樣方法,減少數目較多類的樣本,達到類別數目均衡??紤]到數據量可以滿足模型訓練,所以采用隨機欠采樣方法處理類別Z(中評)和N(無參考價值的評價),以達到分類數據樣本均衡的目的。

1.4 文本類別數據處理

從本數據集可以看出其特征數目為7,特征數目太少容易導致訓練的模型過擬合,采用對特征“學科編號”和“校區編號”進行One-hot 編碼來增加特征數目。One-hot編碼又稱一位有效編碼,其方法是使用N 位狀態寄存器對N 個狀態進行編碼,每個狀態都有獨立的寄存器位,并且在任意時候其中只有一位有效。One-hot 編碼有兩個好處:①解決了分類器不好處理屬性數據的問題;②在一定程度上起到了擴充特征的作用。

Fig.2 Proportion of important features in each category圖2 重要特征在每個類別中所占比重

文本評價是所有特征中最重要同時也是最難處理的特征,處理方法直接影響到最終測試結果,考慮到文本評價都是文本信息,所以首先導入jieba 分詞模塊,使用現有的jieba 分詞對該特征文本信息進行拆分成為獨立的詞,將這些詞與現有的停用詞結合。分詞過程中對文本內容存在的多余空格、空行、回車等符號進行自動去除,然后使用sklearn 下面的文本特征提取函數CountVectorizer 將文本中的詞語轉換為詞頻矩陣,計算詞語出現的個數。此時文本信息處理完畢,樣本如圖3 所示,特征數目為9 345。處理后的數據進行歸一化,這樣做的好處是可以提升模型的收斂速度和精度。

Fig.3 Processed text data graph圖3 處理后的文本數據

2 特征提取

將特征“反饋評價”作為目標值,其他作為特征值,對特征值進行處理。由于特征值維度過大,達到9 384,這樣不僅訓練時效率低下還容易導致維災難,所以對特征值進行降維處理。現有的降維方法很多且相對成熟穩定,采用PCA(主成分分析)進行特征降維。PCA 是降維最經典的方法,它旨在找到數據中的主成分并利用這些主成分來表征原始數據,從而達到降維目的,本實驗將n_components 設置為0.9,最終將特征維度降至1 179。

3 XGBoost 算法模型

使用機器學習分類算法訓練文本特征分類器,使用預先處理好的數據集進行逆行訓練,最終得到訓練好的分類模型。

XGBoost 算法是在GBDT 算法上改進而來的。與GB?DT 相比,XGBoost 對損失函數利用二階泰勒展開式增加正則項尋求最優解,避免過擬合。對于XGBoost 的課程評價分類模型表示為:

其中,K 為樹的總個數,fk表示第k 顆樹表示樣本xi的預測結果。XGBoost 的目標函數為:

其中,yi代表真實值代表模型的預測值,Ω(fk)為模型的復雜度,可以保證模型在訓練過程中控制復雜度,避免過擬合。

XGBoost 在優化過程中采用增量訓練方法來保證每一次訓練原來的模型不變。加入一個新的函數f到模型中,如式(4)所示:

加入f目的是使目標函數盡量減小。因為本文的目標是最小化obj(t)時得到模型f(x),但是obj(t)中并沒有參數f(x),所以將目標函數更新為:

目標函數的泰勒展開式定義為:

從式(6)可以看出,最終的目標函數依賴每個數據點在誤差函數上的一階和二階導數。利用式(6)對目標函數再次改寫成:

其中,T為葉子節點個數,λ和γ為比重系數,以防止過擬合產生。

模型訓練過程中使用交叉驗證與網格搜索方法對XG?Boost 參數進行調優,最終選取關鍵參數為:subsample=1,colsample_bytree=0.7,min_child_weight=1,max_depth=3,n_estimators=1000,alpha=0,選取過程如圖4 所示。

Fig.4 Tuning process of key parameters in XGBoost圖4 XGBoost 中關鍵參數調優過程

4 模型評估

根據真實類別和預測類別分為真正類(TP)、真負類(TN)、假正類(FP)和假負類(FN)。采用精準率(Preci?sion)、召回率(Recall)及F1 值3 個指標測試分類精度。

精準率是預測為正的樣本數與所有實際為正的樣本數之比,召回率是預測為正的樣本數與該類實際樣本數之比,F1 是綜合精準率和召回率考慮的文本分類精確度。

5 實驗結果與分析

將訓練得到的XGBoost 模型最優參數:subsample=1,colsample_bytree=0.7,min_child_weight=1,max_depth=3,n_estimators=1 000,alpha=0 等加入 到面向XGBoost 的評價文本分類模型中,得到最優的評價文本分類模型。為了進一步驗證模型的有效性,選用機器學習中經典的分類模型最近鄰分類器(KNN)、貝葉斯分類器(NB)、支持向量機分類器(SVM)、lightGBM 分類器,與面向XGBoost 的評價文本分類模型進行比較。最終通過模型的評估指標精準率(Precision)、召回率(Recall)、F1 值進行對比,實驗結果如表2 所示。

Table 2 Comparison of experimental results表2 實驗結果對比 (%)

由于XGBoost 分類器能夠對缺失的特征值進行自動學習處理,為避免陷入局部最優進行反向剪枝,可將成百上千個分類精準率低的模型組合成一個分類精準率較高的模型進行分類處理。從實驗結果可以看出XGBoost 在精準率、召回率及F1 值3 個指標上均優于最近鄰分類器(KNN)、貝葉斯分類器(NB)、支持向量機分類器(SVM)、lightGBM 分類器,在課程評價文本分類中表現出較好的分類效果,具有一定的使用價值。

6 結語

本文建立了一個11 641 條課程評價的數據集并進行人工標注和脫敏處理,使用欠采樣方法處理數據中的樣本不均衡問題,使用jieba 分詞和停用詞對文本進行詞向量表示,使用PCA(主成分分析)進行特征降維,通過比對一些經典的機器學習分類學習器可以得到面向XGBoost 課程評價文本內容的分類。

本文針對高校課程評價內容進行智能分類,構建了面向XGBoost 的課程評價文本智能分類模型。該模型在評價文本的智能分類中表現出較好結果,對文本分類內容進行了一定的創新。但是本文還存在一些不足,如XGBoost 分類模型訓練存在耗時問題,通常一個最優參數的訓練要花費很多時間,降低了效率;在分類的精度上還有待提高。后續研究會對這些缺點進行深入研究,爭取在提高文本分類精度的同時提高模型訓練速度,在保證模型精準率的同時還要提高效率。

主站蜘蛛池模板: 激情成人综合网| 国产不卡国语在线| 国产欧美一区二区三区视频在线观看| 久久综合色视频| 在线国产综合一区二区三区| 国产精品入口麻豆| 久久人人97超碰人人澡爱香蕉| 国产精品香蕉在线观看不卡| 久久香蕉国产线看精品| 国产亚洲精久久久久久久91| 亚洲精品777| 2020久久国产综合精品swag| 在线不卡免费视频| 色噜噜久久| 日韩高清一区 | 久久黄色影院| 国产视频资源在线观看| 日日噜噜夜夜狠狠视频| 国产香蕉97碰碰视频VA碰碰看| 国产乱子伦无码精品小说| 一区二区在线视频免费观看| 国产一级一级毛片永久| 成人国产小视频| av一区二区无码在线| 一本综合久久| 中文字幕无码av专区久久| 国产欧美又粗又猛又爽老| 亚洲国产清纯| 亚洲婷婷丁香| 亚洲一区二区三区中文字幕5566| 日韩精品毛片| 国产精品久久久精品三级| 国产精品自拍露脸视频 | 亚洲天堂成人在线观看| 久久精品国产91久久综合麻豆自制| 国产JIZzJIzz视频全部免费| 丁香五月婷婷激情基地| 国产黄色免费看| 无码综合天天久久综合网| 香蕉久久永久视频| 天堂在线www网亚洲| 国产精品久久久久久久久| 亚洲欧洲日韩久久狠狠爱| 欧美亚洲国产视频| 亚洲an第二区国产精品| 3p叠罗汉国产精品久久| 亚洲一区波多野结衣二区三区| 美女被操91视频| 91福利免费| 亚洲国产黄色| 色屁屁一区二区三区视频国产| 久久久久亚洲精品成人网| 亚洲一区无码在线| 狠狠干综合| 欧美日韩资源| AV色爱天堂网| 91网址在线播放| 久久婷婷六月| 永久免费无码日韩视频| 亚洲日韩国产精品无码专区| 久久久精品久久久久三级| 丁香五月亚洲综合在线 | 男女性午夜福利网站| 18禁影院亚洲专区| 亚洲国产日韩在线成人蜜芽| 四虎永久在线视频| 亚洲人成人伊人成综合网无码| 国产乱人乱偷精品视频a人人澡| 精品三级在线| 亚洲无线观看| 国产精品30p| 欧美人在线一区二区三区| 亚洲第七页| 午夜啪啪网| 国产视频欧美| 婷婷午夜影院| 欧美一级大片在线观看| 成人午夜网址| 亚洲欧美另类日本| 日本高清免费一本在线观看 | 91麻豆国产在线| 日韩在线欧美在线|