馬婉貞 陳淑婷 李雅潔 明濤






摘要:隨著數字化轉型的新趨勢到來,為解決企業審計或辦公人員面對海量數字化文檔工作效率低、重復工作等問題,本文在傳統機器學習SVM的基礎上,加入文本預處理、TF-IDF算法、LDA算法,構建了一套多策略混合的文本關鍵情感詞識別模型。通過模型測試及與單一SVM分類器模型的對比實驗,結果顯示本文構建的混合模型F1值達到了89.08%,比單一SVM分類器模型提升了22.58%,證明該模型對關鍵情感詞的識別有一定程度的提升,應用于辦公或項目管控場景,可以有效提升企業審計辦公智能化水平。
關鍵詞:機器學習;情緒識別;TF-IDF;SVM;LDA
引言
隨著互聯網技術及各個政府機構或企事業單位數字化建設的快速發展,各類文本信息數據呈爆發性增長,為進一步提高辦公文件審校效率,及時下發日常相關文件文書;進一步優化項目資料規范化管理檢查流程,提升項目文檔審計效率,降低工作成本,防范項目審計風險,本文對TF-IDF(詞頻-逆文檔頻率)算法、LDA(隱狄利克雷)算法及SVM(支持向量機)算法進行融合,以句子為最小分析單元,以辦公文件敏感詞及項目建設負面清單關鍵字為情感詞典,計算整句情感詞得分,輸出整個文本內容情感傾向性,深入開展智慧辦公和智能化管控場景應用,提升工作效率。
1.相關工作
現如今,對自然語言的文本數據分析已成為當下研究的熱點。單從文本分類而言,其指的是在人為規定好的分類標準下,根據文本自身含義對文本數據進行分類的過程。而文本情緒分析則是對文本內容中的關鍵情感信息進行挖掘,并進一步分析處理,進行文本情緒識別的過程。通過對文本中的情感成分進行提取,分析出文本中的隱含情感,對文本的情緒、觀點和態度作出歸納判斷。
隨著機器學習模型在自然語言處理領域的不斷發展,對其模型的優化也隨之引起了各類研究學者的關注。機器學習模型廣泛被分成監督學習、無監督學習和半監督學習,其中應用最為廣泛的則是監督學習模型,比如Pang等人對比了樸素貝葉斯、最大熵和SVM算法在多個特征集中的應用,得出了SVM相較于其它學習模型表現出了較高的優勢。針對半監督學習方面,文獻證明了圖形半監督學習算法具有較優性能。針對無監督學習方面,文獻提出了一種基于非隨機初始化的無監督學習模型,并在特征中采用文本統計分析算法進行擴展,獲得了較好效果。現如今隨著對單一模型的研究日漸成熟,效果已然到達瓶頸期,開始有研究學者將目光轉移到混合學習模型領域,比如文獻構建出一種基于 SVM 和 CRF(條件隨機場算法)的情感分析系統,輸出結果表現出了良好的反饋效果,證明多策略混合模型有著相對于單個模型的優越性。
TF-IDF算法是一種針對關鍵詞的統計分析方法,具有簡單、可靠性高等特征,用于評估一個詞對一個文件集或者一個語料庫的重要程度,這類算法能有效減弱常用詞對關鍵詞的影響,提高關鍵詞與文本間的關聯性。LDA是一種監督學習的降維技術,就是將數據在低維度上進行投影,投影后獲得類內方差最小,類間方差最大的輸出。LDA既可以用來降維,又可以用來分類,并且它在降維過程中可以使用關鍵詞分類的先驗知識,這也符合本文多策略混合模型構建技術路線要求。因此通過以上研究及大量調研分析工作,本文確定了主要機器學習模型SVM,再使用TF-IDF及LDA(線性判別分析)進行特征空間優化完善。
2.基于多策略混合的文本關鍵情感詞識別方法
2.1算法流程
為解決以上眾多困境,本文實驗方法及流程如圖1所示,首先通過文本去噪、基于同義詞詞林和互信息量的方法對已有的辦公文書敏感詞和項目負面清單關鍵詞情緒詞典進行進一步擴展;使用TF-IDF算法對文本數據中的關鍵詞計算權重值,并以此權重建立文本提取特征矩陣;采用線性SVM分類器對文本內容進行關鍵情感詞分類,對每個句子有無關鍵詞進行判斷;其次,使用LDA算法對關鍵詞判斷進行細化分析,得到文本特征矩陣;最后使用非線性SVM對特征變量優化映射,得到最終句子的關鍵詞傾向結果。
2.2數據預處理
本文分析的情感詞并非屬于廣泛理解的情感詞典,而是針對具體辦公或者項目管控情景下的關鍵詞,因此開展文本情緒分析前,需進行數據預處理,流程如圖2:
1)輸入a.初始文檔數據:包含通報、通知、批示等辦公文書以及項目全過程資料;
b.辦公文件敏感詞:定密模型文件、公文敏感詞庫;
c.項目負面清單:項目負面清單庫;
2)文本去噪:對以上輸入數據去除語氣副詞、助詞等無用信息,提取基礎關鍵詞;
3)同義詞詞林:對基礎關鍵詞通過同義詞詞典找到關鍵詞的同義詞,從而擴展基礎關鍵詞詞典;
4)互信息量:對全文本文檔數據及關鍵詞詞典,借助網絡共享程序包(https://www.omegaxyz.com/2018/08/03/mifs/),進行文本數據與關鍵詞的互信息量計算,進一步擴展基礎關鍵詞詞典;
5)輸出本文所定于的關鍵情感詞詞典。
2.3 TF-IDF算法處理
TF-IDF算法是一種根據單詞在語料庫中出現頻次判斷其重要程度的統計方法,主要思想是先對詞頻(term frequency,TF) 進行統計,認為詞語出現次數越多,則文檔可能與該詞語有越多的正向關聯性,再通過逆文檔頻率(inverse document frequency,IDF) 減少常見詞的權重[8],計算公式為:
其中TFIDF表示詞頻TF和逆文檔頻率IDF的乘積,TFIDF值越大,對當前文本的重要性越大。本文利用TF-IDF算法,給關鍵情感詞賦予權重,進行特征提取,將關鍵情感詞轉化為詞頻向量,建立文本提取矩陣。
2.4線性SVM分析
SVM是一種用于分類的算法,分為線性可分和非線性可分,通俗理解所謂線性和非線性就是指能夠用一條直線直接劃分數據。
本文根據特征矩陣高維、稀疏特征,先采用線性SVM分類器對文本內容進行關鍵情感詞分類,對每個句子有無關鍵詞進行判斷。
經過LDA細化分析后,再采用非線性SVM分類器將低維變量映射到高維特征空間,在高維特征空間計算內積,建立非線性分類器,實現文本關鍵情感詞的識別。
2.5 LDA細化分析
LDA算法的原理就是將帶上標簽的數據/點,通過投影到維度更低的空間中,促使投影后的點將會按類別區分,形成一簇一簇情形,最終相同類別的數據/點,將會在投影后的空間中更接近。
本文利用LDA算法對經過線性SVM分類器處理后的帶有標簽的數據進行投影,將有無關鍵詞的句子區分更開;將有關鍵詞的句子按隱含關鍵情感詞進行進一步聚類,得到句子與隱含關鍵情感詞的對應概率矩陣,以此作為文本特征矩陣。
3.實驗
3.1實驗環境搭建
本文依托于企業智能化辦公項目,數據集均來自企業內部文件及模型:
a)初始文檔數據:包含企業2017-2021年發布的通報、通知、批示等辦公文書以及項目全過程資料,共計5899條;
b)辦公文件敏感詞:企業自有的定密模型文件、公文敏感詞庫;
c)項目負面清單:企業自有的項目負面清單庫。
實驗環境:i7-8700CPU/64,內存/256G,固態/2T硬盤,RTX2080ti-11G顯卡的高性能工作站,運行操作系統為:Ubuntu18.04。
3.2實驗評估指標
模型效果優劣廣泛采用精確率P、召回率R以及 F1 值 3 個標準作為實驗評估指標,值越高,則模型效果越好。
在本文中,精確率P又稱查準率,就是指預測為關鍵情感的文件條目中實際關鍵情感的文件條目占比。
召回率R又稱查全率,就是指實際關鍵情感的文件條目中被預測為關鍵情感的文件條目占比。
F1值,就是指精確率和召回率的加權調和平均值,是綜合性的評價指標。本文采用綜合評價指標F1值衡量模型的關鍵情感識別效果。公式為:
3.3實驗結果
使用數據預處理后的關鍵情感詞典及基礎數據作為訓練數據,通過本文構建的多策略混合的文本關鍵情感識別模型進行訓練,再使用測試集合對模型進行多個方面的測試,模型關鍵情感傾向評估結果如表1(由于本文涉及企業內部事項,這里選取部分關鍵情感詞進行結果展示):
由表1可知,此次模型測試測出的精確率、召回率以及F1值得均值分別達到了89.57%、88.61%以及89.08%。為進一步評估構建的混合模型優越性,本文采取了對比分析法,利用單個傳統機器學習SVM分類器,同樣輸入數據預處理后的關鍵情感詞典及基礎數據作為訓練數據進行訓練,使用相同測試指標進行測試,測試結果如圖3:
由圖3可知,本文構建的混合模型比單個傳統機器學習模型精確率提升了23.58%、召回率提升了21.58%、F1值提升了22.58%,綜合性能大大提高。
綜上所述,本文構建的多策略混合文本關鍵情感詞識別模型整體性能優于單一傳統機器學習模型,且具有良好的識別效果,應用于辦公或項目管控場景,可以有效提高工作效率,提升企業審計智能化水平。
4.結束語
為有效迎接企業數字化轉型新趨勢,解決企業審計或辦公人員面對海量數字化文檔工作效率低、重復工作等問題,本文在傳統機器學習SVM的基礎上,加入文本預處理、TF-IDF算法、LDA算法,構建出一套多策略混合的文本關鍵情感詞識別模型。通過模型測試及與單一SVM分類器模型的對比實驗,結果顯示本文構建的混合模型在性能上有了顯著的提高。
參考文獻:
[1]張膂.基于LPAL模型的超文本分析[J].微型電腦應用,2016,32(03):77-80.
[2]袁彬. 基于語義特征的文本分類算法研究[D].北京郵電大學,2016.
[3]焦桐. 面向微博文本的情緒內容分類系統設計與實現[D].北京郵電大學,2018.
[4]Pang B .Thumbs up? sentiment classification using machine learning techniques[J]. Proc. EMNLP,2002,2002.
[5]Sindhwani P V . Document-Word Co-regularization for Semi-supervised Sentiment Analysis[J]. IEEE Computer Society,2008.
[6]AAS ,AFL ,B M P . Sentiment analysisAn automatic contextual analysis and ensemble clustering approach and comparison[J]. Data & Knowledge Engineering,2018,115:194-213.
[7]Ting-Ting L I ,Dong-Hong J I ,Computer S O ,et al. Sentiment analysis of micro-blog based on SVM and CRF using various combinations of features[J]. Application Research of Computers,2015.
[8]張蕾,姜宇,孫莉.一種改進型TF-IDF文本聚類方法[J].吉林大學學報(理學版),2021,59(05):1199-1204.
[9]顏端武,梅喜瑞,楊雄飛,朱鵬.基于主題模型和詞向量融合的微博文本主題聚類研究[J].現代情報,2021,41(10):67-74.
國家電網公司電力數據“口袋書”關鍵技術及產品設計研發科技項目基金支持。