999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的政務留言文本分類研究

2021-12-24 07:13:38李銘鑫尹凱倩吳岳松郭晨璐李想
電腦知識與技術 2021年29期
關鍵詞:數據挖掘

李銘鑫 尹凱倩 吳岳松 郭晨璐 李想

摘要:現階段網絡問政系統發展趨勢較為緩慢,政府部門迫切需要提高管理水平和問題處理效率的方法,面對海量的留言文本,快速準確地處理留言成為目前急于解決的問題。該文通過對比現有的文本分類方式,通過Word2Vec模型對文本進行特征提取,獲得初步詞向量表示,構建了邏輯回歸模型(LR)、樸素貝葉斯(Na?ve Bayes)模型、TextCNN、TextRNN等分類模型對留言問題進行對比分類。

關鍵詞:問政留言;數據挖掘;中文文本分類

中圖分類號:TP3? 文獻標識碼:A

文章編號:1009-3044(2021)29-0160-02

社情民意調查是采用科學的調查和統計學方法,對一定時期一定范圍內的社會公眾進行的對社會現實主觀反應的調查,具有反映民意、引導輿論、決策參考、檢驗政策實效等作用。隨著互聯網的發展,社情民意調查的途徑不斷增加,微博,微信,市長信箱,陽光熱線成為網絡問政平臺,成為政府了解民意、匯聚民智、凝聚民氣的重要渠道。各類社情民意調查文本數量的不斷增加,給留言劃分以及熱點整理工作帶來了挑戰[1],因此,建立基于自然語言處理技術的“智慧政務”系統,提高政府部門管理水平和處理問題的效率成為政府的普遍需求,本文通過實驗對比,找到一種相對合理的政務留言文本分類模型。

1預處理

1.1 Jieba分詞和去停用詞[2]

由于留言文本存在句子冗雜,主題不明確等問題,文本整體具有較強的干擾性和隱蔽性,導致文本分類識別存在著巨大的挑戰。因此對中文文本一般進行分詞(如Python語言中的jieba庫),對收集到的每一條留言進行預處理工作,并通過預處理完成去停用詞等操作。

1.2 Word2Vec

本文采用了自然語言處理的 Word2Vec[3]方法,通過 Word2Vec工具分別對預處理后的留言文本進行詞向量訓練。

1)Word2Vec 的CBOW模型

Word2Vec 中的CBOW模型的工作原理是通過上下文預測當前中心詞。在本文中,設置windows_size為3,向量的維度為200,現在將中心詞wi上下文分詞的獨熱編碼輸入,由于win?dows_size為3,故有2個 One-Hot 編碼向量輸入。設輸入層的權值矩陣為Win,v為W 的一行,則有lookup 的過程:

由此可知,將One-Hot編碼的向量wi和W相乘,wi中只有一個維度是1,得權值矩陣中wi對應的每一行向量,則該行向量vi就為分詞wi對應的詞向量。

2)特征提取處理

通過lookup得出每個分詞的詞向量,因為這些詞向量是權值矩陣 W所對應的每一行分向量,所以維數相同。將其累加后求取平均值所得的向量,即該句對應的語義向量為最終的數據輸入分類模型。

CBOW模型的訓練目標是使訓練集中的樣本的似然概率最大,需要優化似然函數的值,則有:

即使用梯度下降法,多次迭代求取最優值。

1.3訓練數據

實驗訓練數據使用“問政湖南”網站(https://wz.rednet.cn/#/ home)共計12710條脫敏留言數據。

2構建分類模型

常用的文本分類算法有傳統的機器學習算法和深度學習算法等。本文選取機器學習中的邏輯回歸算法和樸素貝葉斯分類器,與神經網絡算法中的TextCNN和TextRNN做對比,對比其分類功能,選取最優模型對留言內容進行分類。圖1是文本訓練流程圖。

數據集有七個類別,召回率(Recall)、精確度(Precision)、 F1-score 的值對應的是二分類問題中的評價標準,因此,將七分類問題轉換為多個二分類問題,其中 F1-score 為首要指標。

2.1邏輯回歸分類器

邏輯回歸算法是典型的二分類算法[4][6],可用于預測和分類。邏輯回歸模型可以看作一個Sigmoid 函數,將輸入的向量

映射為概率值,實現預測功能,再調整其閾值進行分類。

一般我們規定:hθ(x)< 0.5時,當前處理的數據屬于同一類別;相反的,就屬于另一類。根據實驗驗證,閾值設為0.5。

2.2樸素貝葉斯分類器

樸素貝葉斯分類器[7]是一種簡單,且分類快速精確的分類器,樸素貝葉斯分類可以在分類中表現出良好的抗干擾能力,綜合準確率較高。

樸素貝葉斯分類器是一種建立在條件獨立性前提下的分類器,根據貝葉斯定理和前提,可以得到樸素貝葉斯的以下分類公式:

CNB = argmaxP(Y)∏ =1P(xi|Y)? (3)

樸素貝葉斯的分類過程的關鍵就是計算條件概率和先驗概率,這樣就可以進行分類操作。

2.3 TextCNN分類器

TextCNN模型是2014年Yoon Kim針對CNN 的輸入層做的一些變形[5],整個模型由四部分組成:輸入層、卷積層、池化層、全連接層。卷積操作是CNN 的重要特征之一,卷積層以特征映射為組織的方式,其中的每個單位與前一層的局部感受野連接,利用共享的卷積核(或稱過濾器)與局部感受野做卷積運算,這里的卷積核為128,再通過激活函數做非線性運算,得到特征值,給定一個矩陣X ∈ RM × N 和卷積核,一般 m 其卷積如式所示:

卷積操作將矩陣映射為一個3*1的特征矩陣[2,3,4],通過max-pooling 方式池化,從提取的特征矩陣中選取最大值,用 dropout與其他通道的最大值拼接,組合成篩選過的特征向量,再通過softmax層對文本進行7分類。

2.4 TextRNN分類器

TextRNN是直接利用循環神經網絡處理文本的詞向量序列[5],并通過softmax函數進行分類。對文本進行分類時,我們一般會指定一個固定的輸入序列或文本長度:此時對于過長的文本需要進行截斷,反之則進行填充。

3實驗

對四種模型進行K折交叉驗證,分別得到10組召回率(Re? call)、精確度(Precision)、F1-score 的值,對其求平均值有:

(1)在以召回率(Recall)、精確度(Precision)、F1-score為評價指標時,TextCNN較邏輯回歸模型F1-score提升了17.2%,較TextRNN的 F1-score 提升了0.1%,性能較為顯著提高?;?Word2Vec 的TextCNN模型相比于LR模型和TextRNN模型更具有優勢,分類效果更好。

(2)在基于4種模型訓練時,計算出邏輯回歸模型訓練時長為13分鐘,樸素貝葉斯模型訓練時長為33分20秒,TextCNN模型訓練時長為20分鐘,而TextRNN訓練時長為1小時27秒。

(3)在交叉驗證的過程中,通過分析結果的方差得出,TextCNN的F1值方差較小。

4結語

在針對訓練效率、模型F1-score 與交叉驗證情況分析后,得出結論:在基于文本內容進行一級標簽分類時,優先選擇TextCNN模型作為分類器。

參考文獻:

[1]陳曦.文本挖掘技術在社情民意調查中的應用[J].中國統計, 2019(6):27-29.

[2]曾小芹.基于Python 的中文結巴分詞技術實現[J].信息與電腦(理論版),2019,31(18):38-39,42.

[3] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.

[4]許騰騰.基于貝葉斯邏輯回歸文本分類模型的改進及其應用[D].蘭州:蘭州財經大學,2018.

[5]涂文博,袁貞明,俞凱.針對文本分類的神經網絡模型[J].計算機系統應用,2019,28(7):145-150.

[6]安波.基于邏輯回歸模型的垃圾郵件過濾系統的研究[D].哈爾濱:哈爾濱工程大學,2009.

[7]潘忠英.樸素貝葉斯中文文本分類器的設計與實現[J].電腦編程技巧與維護,2021(2):37-39,70.

【通聯編輯:代影】

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美日韩国产在线人| 在线观看精品自拍视频| 成人在线观看一区| 精品少妇三级亚洲| 国产精品漂亮美女在线观看| 先锋资源久久| 亚洲第一黄片大全| 亚洲天堂区| 麻豆精品在线| 狠狠操夜夜爽| www亚洲天堂| 久久夜色精品| 亚洲资源在线视频| 国产欧美日韩va| 免费无码在线观看| 欧美伦理一区| h网址在线观看| 国产毛片高清一级国语| 毛片基地视频| 亚洲综合精品第一页| V一区无码内射国产| 不卡网亚洲无码| 久操中文在线| 亚洲国产天堂久久综合226114| 国产在线日本| 国产AV无码专区亚洲精品网站| 狠狠色丁香婷婷| 久久国产精品影院| 日韩大片免费观看视频播放| 好久久免费视频高清| 婷婷丁香色| 国产精品粉嫩| 香蕉视频在线精品| 毛片基地美国正在播放亚洲| 国产午夜一级毛片| 朝桐光一区二区| 国产精品视频999| 亚洲国产无码有码| 精品人妻系列无码专区久久| 亚洲国产精品成人久久综合影院 | 久久国语对白| 色综合五月| 日本91视频| 亚洲一区二区三区国产精品| 大陆精大陆国产国语精品1024| 国产精品人莉莉成在线播放| 国产精品亚洲片在线va| 欧美成一级| 91口爆吞精国产对白第三集 | 欧美精品二区| 国产在线第二页| 久久久久青草大香线综合精品| 国产福利在线免费| 国产在线97| 99热国产在线精品99| 国产成人永久免费视频| 久无码久无码av无码| 无码内射中文字幕岛国片| 在线观看91香蕉国产免费| 黄色网站在线观看无码| 2020极品精品国产| 久久鸭综合久久国产| 人人91人人澡人人妻人人爽| 久久黄色免费电影| 亚洲日韩在线满18点击进入| 2020精品极品国产色在线观看 | 99久久人妻精品免费二区| 精品成人一区二区| 久久99国产视频| 国产免费观看av大片的网站| 日韩小视频网站hq| 成人字幕网视频在线观看| 九九精品在线观看| 欧美色图久久| 亚洲天堂在线视频| 狠狠躁天天躁夜夜躁婷婷| 中国精品久久| 久久这里只有精品国产99| 久久国产高清视频| 国产极品粉嫩小泬免费看| 欧美日韩综合网| 亚洲国产日韩在线观看|