999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多策略混合的關鍵情感詞識別方法

2021-12-03 06:39:25馬婉貞陳淑婷李雅潔明濤
科技信息·學術版 2021年31期
關鍵詞:機器學習

馬婉貞 陳淑婷 李雅潔 明濤

摘要:隨著數字化轉型的新趨勢到來,為解決企業審計或辦公人員面對海量數字化文檔工作效率低、重復工作等問題,本文在傳統機器學習SVM的基礎上,加入文本預處理、TF-IDF算法、LDA算法,構建了一套多策略混合的文本關鍵情感詞識別模型。通過模型測試及與單一SVM分類器模型的對比實驗,結果顯示本文構建的混合模型F1值達到了89.08%,比單一SVM分類器模型提升了22.58%,證明該模型對關鍵情感詞的識別有一定程度的提升,應用于辦公或項目管控場景,可以有效提升企業審計辦公智能化水平。

關鍵詞:機器學習;情緒識別;TF-IDF;SVM;LDA

引言

隨著互聯網技術及各個政府機構或企事業單位數字化建設的快速發展,各類文本信息數據呈爆發性增長,為進一步提高辦公文件審校效率,及時下發日常相關文件文書;進一步優化項目資料規范化管理檢查流程,提升項目文檔審計效率,降低工作成本,防范項目審計風險,本文對TF-IDF(詞頻-逆文檔頻率)算法、LDA(隱狄利克雷)算法及SVM(支持向量機)算法進行融合,以句子為最小分析單元,以辦公文件敏感詞及項目建設負面清單關鍵字為情感詞典,計算整句情感詞得分,輸出整個文本內容情感傾向性,深入開展智慧辦公和智能化管控場景應用,提升工作效率。

1.相關工作

現如今,對自然語言的文本數據分析已成為當下研究的熱點。單從文本分類而言,其指的是在人為規定好的分類標準下,根據文本自身含義對文本數據進行分類的過程。而文本情緒分析則是對文本內容中的關鍵情感信息進行挖掘,并進一步分析處理,進行文本情緒識別的過程。通過對文本中的情感成分進行提取,分析出文本中的隱含情感,對文本的情緒、觀點和態度作出歸納判斷。

隨著機器學習模型在自然語言處理領域的不斷發展,對其模型的優化也隨之引起了各類研究學者的關注。機器學習模型廣泛被分成監督學習、無監督學習和半監督學習,其中應用最為廣泛的則是監督學習模型,比如Pang等人對比了樸素貝葉斯、最大熵和SVM算法在多個特征集中的應用,得出了SVM相較于其它學習模型表現出了較高的優勢。針對半監督學習方面,文獻證明了圖形半監督學習算法具有較優性能。針對無監督學習方面,文獻提出了一種基于非隨機初始化的無監督學習模型,并在特征中采用文本統計分析算法進行擴展,獲得了較好效果。現如今隨著對單一模型的研究日漸成熟,效果已然到達瓶頸期,開始有研究學者將目光轉移到混合學習模型領域,比如文獻構建出一種基于 SVM 和 CRF(條件隨機場算法)的情感分析系統,輸出結果表現出了良好的反饋效果,證明多策略混合模型有著相對于單個模型的優越性。

TF-IDF算法是一種針對關鍵詞的統計分析方法,具有簡單、可靠性高等特征,用于評估一個詞對一個文件集或者一個語料庫的重要程度,這類算法能有效減弱常用詞對關鍵詞的影響,提高關鍵詞與文本間的關聯性。LDA是一種監督學習的降維技術,就是將數據在低維度上進行投影,投影后獲得類內方差最小,類間方差最大的輸出。LDA既可以用來降維,又可以用來分類,并且它在降維過程中可以使用關鍵詞分類的先驗知識,這也符合本文多策略混合模型構建技術路線要求。因此通過以上研究及大量調研分析工作,本文確定了主要機器學習模型SVM,再使用TF-IDF及LDA(線性判別分析)進行特征空間優化完善。

2.基于多策略混合的文本關鍵情感詞識別方法

2.1算法流程

為解決以上眾多困境,本文實驗方法及流程如圖1所示,首先通過文本去噪、基于同義詞詞林和互信息量的方法對已有的辦公文書敏感詞和項目負面清單關鍵詞情緒詞典進行進一步擴展;使用TF-IDF算法對文本數據中的關鍵詞計算權重值,并以此權重建立文本提取特征矩陣;采用線性SVM分類器對文本內容進行關鍵情感詞分類,對每個句子有無關鍵詞進行判斷;其次,使用LDA算法對關鍵詞判斷進行細化分析,得到文本特征矩陣;最后使用非線性SVM對特征變量優化映射,得到最終句子的關鍵詞傾向結果。

2.2數據預處理

本文分析的情感詞并非屬于廣泛理解的情感詞典,而是針對具體辦公或者項目管控情景下的關鍵詞,因此開展文本情緒分析前,需進行數據預處理,流程如圖2:

1)輸入a.初始文檔數據:包含通報、通知、批示等辦公文書以及項目全過程資料;

b.辦公文件敏感詞:定密模型文件、公文敏感詞庫;

c.項目負面清單:項目負面清單庫;

2)文本去噪:對以上輸入數據去除語氣副詞、助詞等無用信息,提取基礎關鍵詞;

3)同義詞詞林:對基礎關鍵詞通過同義詞詞典找到關鍵詞的同義詞,從而擴展基礎關鍵詞詞典;

4)互信息量:對全文本文檔數據及關鍵詞詞典,借助網絡共享程序包(https://www.omegaxyz.com/2018/08/03/mifs/),進行文本數據與關鍵詞的互信息量計算,進一步擴展基礎關鍵詞詞典;

5)輸出本文所定于的關鍵情感詞詞典。

2.3 TF-IDF算法處理

TF-IDF算法是一種根據單詞在語料庫中出現頻次判斷其重要程度的統計方法,主要思想是先對詞頻(term frequency,TF) 進行統計,認為詞語出現次數越多,則文檔可能與該詞語有越多的正向關聯性,再通過逆文檔頻率(inverse document frequency,IDF) 減少常見詞的權重[8],計算公式為:

其中TFIDF表示詞頻TF和逆文檔頻率IDF的乘積,TFIDF值越大,對當前文本的重要性越大。本文利用TF-IDF算法,給關鍵情感詞賦予權重,進行特征提取,將關鍵情感詞轉化為詞頻向量,建立文本提取矩陣。

2.4線性SVM分析

SVM是一種用于分類的算法,分為線性可分和非線性可分,通俗理解所謂線性和非線性就是指能夠用一條直線直接劃分數據。

本文根據特征矩陣高維、稀疏特征,先采用線性SVM分類器對文本內容進行關鍵情感詞分類,對每個句子有無關鍵詞進行判斷。

經過LDA細化分析后,再采用非線性SVM分類器將低維變量映射到高維特征空間,在高維特征空間計算內積,建立非線性分類器,實現文本關鍵情感詞的識別。

2.5 LDA細化分析

LDA算法的原理就是將帶上標簽的數據/點,通過投影到維度更低的空間中,促使投影后的點將會按類別區分,形成一簇一簇情形,最終相同類別的數據/點,將會在投影后的空間中更接近。

本文利用LDA算法對經過線性SVM分類器處理后的帶有標簽的數據進行投影,將有無關鍵詞的句子區分更開;將有關鍵詞的句子按隱含關鍵情感詞進行進一步聚類,得到句子與隱含關鍵情感詞的對應概率矩陣,以此作為文本特征矩陣。

3.實驗

3.1實驗環境搭建

本文依托于企業智能化辦公項目,數據集均來自企業內部文件及模型:

a)初始文檔數據:包含企業2017-2021年發布的通報、通知、批示等辦公文書以及項目全過程資料,共計5899條;

b)辦公文件敏感詞:企業自有的定密模型文件、公文敏感詞庫;

c)項目負面清單:企業自有的項目負面清單庫。

實驗環境:i7-8700CPU/64,內存/256G,固態/2T硬盤,RTX2080ti-11G顯卡的高性能工作站,運行操作系統為:Ubuntu18.04。

3.2實驗評估指標

模型效果優劣廣泛采用精確率P、召回率R以及 F1 值 3 個標準作為實驗評估指標,值越高,則模型效果越好。

在本文中,精確率P又稱查準率,就是指預測為關鍵情感的文件條目中實際關鍵情感的文件條目占比。

召回率R又稱查全率,就是指實際關鍵情感的文件條目中被預測為關鍵情感的文件條目占比。

F1值,就是指精確率和召回率的加權調和平均值,是綜合性的評價指標。本文采用綜合評價指標F1值衡量模型的關鍵情感識別效果。公式為:

3.3實驗結果

使用數據預處理后的關鍵情感詞典及基礎數據作為訓練數據,通過本文構建的多策略混合的文本關鍵情感識別模型進行訓練,再使用測試集合對模型進行多個方面的測試,模型關鍵情感傾向評估結果如表1(由于本文涉及企業內部事項,這里選取部分關鍵情感詞進行結果展示):

由表1可知,此次模型測試測出的精確率、召回率以及F1值得均值分別達到了89.57%、88.61%以及89.08%。為進一步評估構建的混合模型優越性,本文采取了對比分析法,利用單個傳統機器學習SVM分類器,同樣輸入數據預處理后的關鍵情感詞典及基礎數據作為訓練數據進行訓練,使用相同測試指標進行測試,測試結果如圖3:

由圖3可知,本文構建的混合模型比單個傳統機器學習模型精確率提升了23.58%、召回率提升了21.58%、F1值提升了22.58%,綜合性能大大提高。

綜上所述,本文構建的多策略混合文本關鍵情感詞識別模型整體性能優于單一傳統機器學習模型,且具有良好的識別效果,應用于辦公或項目管控場景,可以有效提高工作效率,提升企業審計智能化水平。

4.結束語

為有效迎接企業數字化轉型新趨勢,解決企業審計或辦公人員面對海量數字化文檔工作效率低、重復工作等問題,本文在傳統機器學習SVM的基礎上,加入文本預處理、TF-IDF算法、LDA算法,構建出一套多策略混合的文本關鍵情感詞識別模型。通過模型測試及與單一SVM分類器模型的對比實驗,結果顯示本文構建的混合模型在性能上有了顯著的提高。

參考文獻:

[1]張膂.基于LPAL模型的超文本分析[J].微型電腦應用,2016,32(03):77-80.

[2]袁彬. 基于語義特征的文本分類算法研究[D].北京郵電大學,2016.

[3]焦桐. 面向微博文本的情緒內容分類系統設計與實現[D].北京郵電大學,2018.

[4]Pang B .Thumbs up? sentiment classification using machine learning techniques[J]. Proc. EMNLP,2002,2002.

[5]Sindhwani P V . Document-Word Co-regularization for Semi-supervised Sentiment Analysis[J]. IEEE Computer Society,2008.

[6]AAS ,AFL ,B M P . Sentiment analysisAn automatic contextual analysis and ensemble clustering approach and comparison[J]. Data & Knowledge Engineering,2018,115:194-213.

[7]Ting-Ting L I ,Dong-Hong J I ,Computer S O ,et al. Sentiment analysis of micro-blog based on SVM and CRF using various combinations of features[J]. Application Research of Computers,2015.

[8]張蕾,姜宇,孫莉.一種改進型TF-IDF文本聚類方法[J].吉林大學學報(理學版),2021,59(05):1199-1204.

[9]顏端武,梅喜瑞,楊雄飛,朱鵬.基于主題模型和詞向量融合的微博文本主題聚類研究[J].現代情報,2021,41(10):67-74.

國家電網公司電力數據“口袋書”關鍵技術及產品設計研發科技項目基金支持。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 亚洲色偷偷偷鲁综合| 国产jizz| 波多野结衣爽到高潮漏水大喷| 91区国产福利在线观看午夜 | 超碰91免费人妻| 久久婷婷六月| 日韩小视频在线播放| AV不卡国产在线观看| 四虎永久在线精品国产免费| 成人午夜网址| 九色在线观看视频| 高清免费毛片| 91偷拍一区| 国产黄色免费看| 91欧美在线| 日韩成人午夜| 中文国产成人久久精品小说| 国产精品久久久久久久久| 欧洲熟妇精品视频| 2021天堂在线亚洲精品专区| 91精品福利自产拍在线观看| www精品久久| 色悠久久久| 久久中文电影| 亚洲乱码在线播放| 国产香蕉97碰碰视频VA碰碰看| 欧美不卡视频在线| 欧美成在线视频| 亚洲精品天堂自在久久77| 欧美日韩一区二区在线免费观看| 免费激情网站| 亚洲精品va| 久久精品亚洲中文字幕乱码| 99国产在线视频| 亚洲精品国产乱码不卡| 天天躁夜夜躁狠狠躁躁88| 在线观看亚洲人成网站| 成人午夜精品一级毛片| 国产精品yjizz视频网一二区| 久久99国产综合精品1| 国产精品亚洲一区二区三区z| 国产精品无码AⅤ在线观看播放| 国产成在线观看免费视频| 欧美一级在线| 国产在线八区| 亚洲无码精彩视频在线观看| 中文字幕永久在线观看| 国产亚洲精品在天天在线麻豆 | 毛片久久久| 91精品网站| 国产网站免费观看| 极品私人尤物在线精品首页| 美美女高清毛片视频免费观看| 欧美黄色网站在线看| 丁香婷婷在线视频| 久青草免费视频| 国产精品自在自线免费观看| 在线另类稀缺国产呦| 国产精品三级av及在线观看| 成人免费网站在线观看| 国产日韩AV高潮在线| 国产成人免费手机在线观看视频 | 日韩在线欧美在线| 国产精品久久久久久影院| 欧美三級片黃色三級片黃色1| 国产精品美乳| 国产欧美日韩va| 亚洲国产成人麻豆精品| 人与鲁专区| 亚洲视频一区在线| 久久久久国产精品熟女影院| 日韩免费视频播播| 在线观看国产网址你懂的| 五月激激激综合网色播免费| 欧美在线一级片| 宅男噜噜噜66国产在线观看| 欧美日韩在线观看一区二区三区| 精品少妇人妻一区二区| 日韩精品一区二区三区swag| 曰韩免费无码AV一区二区| 无码精品国产dvd在线观看9久| 91视频日本|