李銘鑫 尹凱倩 吳岳松 郭晨璐 李想
摘要:現階段網絡問政系統發展趨勢較為緩慢,政府部門迫切需要提高管理水平和問題處理效率的方法,面對海量的留言文本,快速準確地處理留言成為目前急于解決的問題。該文通過對比現有的文本分類方式,通過Word2Vec模型對文本進行特征提取,獲得初步詞向量表示,構建了邏輯回歸模型(LR)、樸素貝葉斯(Na?ve Bayes)模型、TextCNN、TextRNN等分類模型對留言問題進行對比分類。
關鍵詞:問政留言;數據挖掘;中文文本分類
中圖分類號:TP3? 文獻標識碼:A
文章編號:1009-3044(2021)29-0160-02
社情民意調查是采用科學的調查和統計學方法,對一定時期一定范圍內的社會公眾進行的對社會現實主觀反應的調查,具有反映民意、引導輿論、決策參考、檢驗政策實效等作用。隨著互聯網的發展,社情民意調查的途徑不斷增加,微博,微信,市長信箱,陽光熱線成為網絡問政平臺,成為政府了解民意、匯聚民智、凝聚民氣的重要渠道。各類社情民意調查文本數量的不斷增加,給留言劃分以及熱點整理工作帶來了挑戰[1],因此,建立基于自然語言處理技術的“智慧政務”系統,提高政府部門管理水平和處理問題的效率成為政府的普遍需求,本文通過實驗對比,找到一種相對合理的政務留言文本分類模型。
1預處理
1.1 Jieba分詞和去停用詞[2]
由于留言文本存在句子冗雜,主題不明確等問題,文本整體具有較強的干擾性和隱蔽性,導致文本分類識別存在著巨大的挑戰。因此對中文文本一般進行分詞(如Python語言中的jieba庫),對收集到的每一條留言進行預處理工作,并通過預處理完成去停用詞等操作。
1.2 Word2Vec
本文采用了自然語言處理的 Word2Vec[3]方法,通過 Word2Vec工具分別對預處理后的留言文本進行詞向量訓練。
1)Word2Vec 的CBOW模型
Word2Vec 中的CBOW模型的工作原理是通過上下文預測當前中心詞。在本文中,設置windows_size為3,向量的維度為200,現在將中心詞wi上下文分詞的獨熱編碼輸入,由于win?dows_size為3,故有2個 One-Hot 編碼向量輸入。設輸入層的權值矩陣為Win,v為W 的一行,則有lookup 的過程:
由此可知,將One-Hot編碼的向量wi和W相乘,wi中只有一個維度是1,得權值矩陣中wi對應的每一行向量,則該行向量vi就為分詞wi對應的詞向量。
2)特征提取處理
通過lookup得出每個分詞的詞向量,因為這些詞向量是權值矩陣 W所對應的每一行分向量,所以維數相同。將其累加后求取平均值所得的向量,即該句對應的語義向量為最終的數據輸入分類模型。
CBOW模型的訓練目標是使訓練集中的樣本的似然概率最大,需要優化似然函數的值,則有:
即使用梯度下降法,多次迭代求取最優值。
1.3訓練數據
實驗訓練數據使用“問政湖南”網站(https://wz.rednet.cn/#/ home)共計12710條脫敏留言數據。
2構建分類模型
常用的文本分類算法有傳統的機器學習算法和深度學習算法等。本文選取機器學習中的邏輯回歸算法和樸素貝葉斯分類器,與神經網絡算法中的TextCNN和TextRNN做對比,對比其分類功能,選取最優模型對留言內容進行分類。圖1是文本訓練流程圖。
數據集有七個類別,召回率(Recall)、精確度(Precision)、 F1-score 的值對應的是二分類問題中的評價標準,因此,將七分類問題轉換為多個二分類問題,其中 F1-score 為首要指標。
2.1邏輯回歸分類器
邏輯回歸算法是典型的二分類算法[4][6],可用于預測和分類。邏輯回歸模型可以看作一個Sigmoid 函數,將輸入的向量
映射為概率值,實現預測功能,再調整其閾值進行分類。
一般我們規定:hθ(x)< 0.5時,當前處理的數據屬于同一類別;相反的,就屬于另一類。根據實驗驗證,閾值設為0.5。
2.2樸素貝葉斯分類器
樸素貝葉斯分類器[7]是一種簡單,且分類快速精確的分類器,樸素貝葉斯分類可以在分類中表現出良好的抗干擾能力,綜合準確率較高。
樸素貝葉斯分類器是一種建立在條件獨立性前提下的分類器,根據貝葉斯定理和前提,可以得到樸素貝葉斯的以下分類公式:
CNB = argmaxP(Y)∏ =1P(xi|Y)? (3)
樸素貝葉斯的分類過程的關鍵就是計算條件概率和先驗概率,這樣就可以進行分類操作。
2.3 TextCNN分類器
TextCNN模型是2014年Yoon Kim針對CNN 的輸入層做的一些變形[5],整個模型由四部分組成:輸入層、卷積層、池化層、全連接層。卷積操作是CNN 的重要特征之一,卷積層以特征映射為組織的方式,其中的每個單位與前一層的局部感受野連接,利用共享的卷積核(或稱過濾器)與局部感受野做卷積運算,這里的卷積核為128,再通過激活函數做非線性運算,得到特征值,給定一個矩陣X ∈ RM × N 和卷積核,一般 m 其卷積如式所示:
卷積操作將矩陣映射為一個3*1的特征矩陣[2,3,4],通過max-pooling 方式池化,從提取的特征矩陣中選取最大值,用 dropout與其他通道的最大值拼接,組合成篩選過的特征向量,再通過softmax層對文本進行7分類。
2.4 TextRNN分類器
TextRNN是直接利用循環神經網絡處理文本的詞向量序列[5],并通過softmax函數進行分類。對文本進行分類時,我們一般會指定一個固定的輸入序列或文本長度:此時對于過長的文本需要進行截斷,反之則進行填充。
3實驗
對四種模型進行K折交叉驗證,分別得到10組召回率(Re? call)、精確度(Precision)、F1-score 的值,對其求平均值有:
(1)在以召回率(Recall)、精確度(Precision)、F1-score為評價指標時,TextCNN較邏輯回歸模型F1-score提升了17.2%,較TextRNN的 F1-score 提升了0.1%,性能較為顯著提高?;?Word2Vec 的TextCNN模型相比于LR模型和TextRNN模型更具有優勢,分類效果更好。
(2)在基于4種模型訓練時,計算出邏輯回歸模型訓練時長為13分鐘,樸素貝葉斯模型訓練時長為33分20秒,TextCNN模型訓練時長為20分鐘,而TextRNN訓練時長為1小時27秒。
(3)在交叉驗證的過程中,通過分析結果的方差得出,TextCNN的F1值方差較小。
4結語
在針對訓練效率、模型F1-score 與交叉驗證情況分析后,得出結論:在基于文本內容進行一級標簽分類時,優先選擇TextCNN模型作為分類器。
參考文獻:
[1]陳曦.文本挖掘技術在社情民意調查中的應用[J].中國統計, 2019(6):27-29.
[2]曾小芹.基于Python 的中文結巴分詞技術實現[J].信息與電腦(理論版),2019,31(18):38-39,42.
[3] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.
[4]許騰騰.基于貝葉斯邏輯回歸文本分類模型的改進及其應用[D].蘭州:蘭州財經大學,2018.
[5]涂文博,袁貞明,俞凱.針對文本分類的神經網絡模型[J].計算機系統應用,2019,28(7):145-150.
[6]安波.基于邏輯回歸模型的垃圾郵件過濾系統的研究[D].哈爾濱:哈爾濱工程大學,2009.
[7]潘忠英.樸素貝葉斯中文文本分類器的設計與實現[J].電腦編程技巧與維護,2021(2):37-39,70.
【通聯編輯:代影】