999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據視角下的非結構化文本挖掘分析方法

2021-07-27 15:46:38黎偉健胡斌李威唐健玲肖西西
新媒體研究 2021年8期

黎偉健 胡斌 李威 唐健玲 肖西西

關鍵詞 非結構化文本;情感分析;分類分析

中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2021)08-0008-03

1 研究背景

根據IDC報告,當下數據以每年50%左右的速度快速增長,非結構化文本數據占比很高。因此,非結構化文本數據的挖掘分析顯得尤為迫切和重要。

文本挖掘(Text Mining)又稱為文本數據挖掘(Text Data Mining)或文本知識發現(Knowledge Discovery in Texts,KDT),是指從大量非結構化文本數據中抽取未知的、可理解的、最終可用的知識,并運用這些知識更好地組織信息,進而獲取用戶感興趣或有用模式的過程[1-2]。文本挖掘流程大致可以描述為基于網頁、文檔、字符等非結構化文本數據,利用自然語言處理技術實現非結構化文本數據結構化,再結合機器學習、統計分析、可視化分析等技術進行挖掘分析,進而實現搜索引擎、輿情分析、新聞分類等。

目前,文本挖掘作為信息時代的重要研究領域,逐漸成為國內外學者的重點研究方向。本文將基于大數據視角,通過對文本挖掘分析方法進行梳理,總結海量文本分析流程,以期能有助于對海量文本開展情感分析和問題分類。

2 文本挖掘方法

采用“樸素貝葉斯算法”(Naive Bayes Classifier)和機器學習[3],對客戶反饋的意見進行情感正負向判斷,將客戶反饋標記為1(正向)、0(中性)、-1(負向)3類。通過人工標注分類規則、機器運行相結合的方法對客戶意見進行分類,發現用戶反饋意見的主要內容,分析完成后會通過不斷的人工校驗優化分類規則,提高分析準確性。

2.1 客戶情感傾向分析

在行業已有的情感分析模型[4]基礎上進行優化,應用于客戶反饋意見的情感傾向分析,具體分析過程(圖1)如下。

2.1.1 確定模型

使用機器學習方法對文本進行處理需要將文本編碼為計算機容易處理的形式,本次采用One-Hot編碼對文本進行處理。One-Hot編碼,又稱一位有效編碼,其方法是使用N位狀態寄存器對N個狀態進行編碼,每個狀態都有它獨立的寄存器位,并且在任意時候,其中只有一位有效。在本次分析中,寄存器的每一個狀態即是一個詞匯,如果文本中存在相應的詞匯則為1,不存在則表記為0,最終將文本轉換為由0和1組成的長度為N的數組,稱為N維特征向量。其維度N為對訓練數據進行分詞、去重并去除停用詞后的詞匯數量。

在分類算法的選擇上選用樸素貝葉斯分類器,在工業上廣泛應用于垃圾郵件的分類。其基于貝葉斯定理,依據先驗概率和似然函數對后驗概率進行估計。在貝葉斯分類器中,訓練的過程即是通過統計獲取先驗概率和似然函數取值的過程。在訓練完成后,對特定文本進行情感判斷即是計算在當前條件下特定情感的后驗概率,并選取后驗概率最大的情感類別作為分類器的輸出。

2.1.2 訓練模型

機器學習模型的表現受訓練過程的影響較大。為了讓訓練集保持對全量數據的代表性,盡量保證訓練集的分布與全量數據一致,在打亂原始數據后抽取了1萬條數據進行人工標注。在權衡人力消耗等因素后,引入約2萬條內容較為相似的開源數據集,總計約3萬條數據對模型進行訓練。

2.1.3 優化模型

使用訓練好的分類器對小批量數據進行分類,并根據分類結果對分類錯誤的樣本進行失效分析。有針對性地對分類器特征提取方面進行優化,提升模型的準確性。在實踐中主要有以下情況。

1)由于訓練集中未包含類似表述的文本,導致未能提取到任何特征,判斷失敗。這種情況需要添加一定數量的相似數據到訓練集中。

2)文本特征被停用詞表過濾導致未能提取到特征,或者無意義的詞匯特征過多干擾判斷。這種情況需要對停用詞表進行修改,盡量避免無意義詞匯進入特征和有意義詞匯被過濾的情況。

3)文本被不恰當的分詞導致判斷錯誤。這種情況需要精細調整分詞工具的用戶詞典,由于中文文本經常存在可被多種分詞方式劃分的情況,這時需要調整詞典詞頻確保劃分貼合實際含義。另外將否定詞與其后緊接的詞匯連起來劃分為一個單獨詞匯也可提高模型準確性。

2.1.4 情感分析

應用優化后的模型對全量客戶反饋的回答進行情感分類。

2.1.5 人工校驗

深入分析行業前沿的情感分類AI模型,開展輔助驗證(如訊飛等)。通過優化測試模型的算法源碼,調整模型參數等手段,將情感分類模型的準確性的從82%提升至89.22%。

2.1.6 數據分析

通過分析客戶反饋回答的情感傾向占比,及其與客戶對產品的整體滿意度評價等其他指標間的關系,可多維度客觀地反映客戶對產品的真實評價,此外可預測不同滿意度客戶的反饋回答的情感傾向。鑒于通常客戶調研均以滿意度、NPS等量化問卷調研客戶對產品的滿意度,答題成本相對較低,客戶可能未認真回答,或未按照內心真實想法回答,而開放性問題答題成本相對較高,其反饋的意見通常為客戶的真實評價,故對開放性問題的回答進行分析可更真實的獲取客戶的評價。

2.2 客戶意見分類分析

通過人工標注分類規則、機器運行相結合的方法,對客戶反饋的回答進行問題分類,聚焦客戶反饋的問題類型,具體分析過程(圖2)如下。

2.2.1 數據清洗

鑒于客戶反饋意見中存在部分無意義的回答,故采用人工分析方式對客戶反饋的回答進行清洗。正向評價的客戶通常表達對產品的好評意見,回答可能會相對簡單,存在3個字符以下的回答,如“好、滿意、很滿意”等,故正向評價的客戶反饋回答的數據清洗標準為:刪除全部為標點符號的回答;負向評價的客戶更傾向于表達對產品的差評、使用產品遇到的問題、對產品的優化建議等,若字符太少,則無法有效表達,故負向評價的客戶反饋回答的數據清洗標準為:刪除全部為標點符號、少于3個字符的回答。

2.2.2 意見分類

通過機器分詞與人工抽樣查看相結合的方式對客戶反饋的回答進行。通過機器分詞,確定正負向評價的有效數據中客戶提到的高頻詞匯,及其出現的頻率,同時隨機抽取總樣本的5%逐個人工查看客戶的回答,對客戶的反饋進行分析歸類。通常可將客戶的反饋分為好評類、差評類、建議類3大類,好評類可具體分析客戶反饋的回答中好評集中在哪些方面,相關的關鍵詞是什么;差評類和建議類客戶的反饋內容相對翔實,可分析客戶反饋的回答中差評、建議集中在哪些方面,具體表現及相關關鍵詞是什么。

2.2.3 制定分類規則

通過機器分詞篩選出的高頻關鍵詞,以及人工查看確認的相關關鍵詞,對比全量有效的客戶反饋回答,確定客戶的回答的具體類型,提取歸納客戶意見類型的關鍵詞及其邏輯關系,通過“and”“or”“not”等邏輯關系詞制定相應的分類規則。同時,在制定規則的過程中,通過查看全量有效數據,不斷增加新的觀點進行迭代優化。制定分類規則時,需明確每個意見類型的定義,挖掘該意見類型的核心特質,并根據核心特質確定分類規則。如制定客戶對客服服務態度的規則時,首先需確定客服相關的關鍵詞,如“人工”“話務員”等,然后確定服務態度相關的關鍵詞,如“態度”“語氣”等,二者通常需同時出現才可進行篩選,可以“and”進行連接,此外撰寫關鍵詞時,除了提取客戶原話中的關鍵詞,也可通過日常表達選擇關鍵詞的近似詞,如近義詞等方法擴大關鍵詞的詞庫。此外需注意,客戶填寫答案時易出現錯別字,需將高頻的錯別字也放入規則,如“太度”等。

2.2.4 開發腳本

使用Python編寫分類腳本與規則檢查腳本。腳本讀取編寫好的分類規則進行詞法分析,將規則由字符序列轉換為標記(Token)序列,包含關鍵詞,運算符(and、or與not)和界符(用于改變優先級的括號)三種標記。在分類時,先提取出標記序列中所有的關鍵詞,逐一判斷待分類文本中是否存在關鍵詞,如存在則替換為布爾值“真”,否則替換為布爾值“假”。經過上述過程,此時的規則已經轉換為一條邏輯表達式,表達式的運算結果即為待測文本是否符合該條規則。腳本開發完畢后,對全部開放性客戶的回答進行問題分類,提升效率。

2.2.5 人工校驗

通過不斷的人工校驗優化分類規則,主要是通過抽取部分的分類結果,人工對歸類結果的準確性進行統計,同時查看歸類錯誤、未納入歸類的客戶原話,不斷迭代優化分類規則,將歸類準確性從最初的50%左右提升至76.51%。

2.2.6 數據分析

通過分析客戶反饋的回答中的問題、建議等具體類型的占比,確定客戶關注重點,若客戶反饋了具體問題或建議,則根據意見占比確定優先級;若客戶未反饋具體問題或建議,則可輔助其他方式,如競品對標等挖掘客戶評價的真實原因,有效利用客戶的反饋挖掘有意義的信息。

3 方法合理性分析

鑒于客戶回答開放性問題時,通常是有具體問題才會較有動力回答,故客戶開放性問題回答中,主要以負向評價為主,本次分析27萬的客戶反饋中,僅14.62%為正向評價,且正向評價主要為無具體指向的好評,以人工分析為主,故不分析正向評價的分類分析的合理性;負向評價高達83%,分類分析主要應用于負向評價分析,故以負向數據的結果進行方法合理性分析。

3.1 情感分析方法準確性分析

隨機抽取1 000條情感分析的數據結果,人工判斷其情感傾向,與機器判斷結果進行對比,發現客戶的情感分類準確性從最初的82.00%提升至89.22%。

3.2 分類分析方法合理性和準確性分析

對所有負向評價的有效數據進行問題歸類后,統計納入歸類分析的數據占比,分析問題歸類的合理性,有效數據量為206 316,納入問題歸類的數據量為162 082,有效率為78.56%。針對有效數據占比低的問題進行抽樣統計,發現未被納入歸類的問題中,確實無法被歸類的占比為93%,主要原因為反饋內容無意義、非針對開放性問題對象的回答等。

對所有負向評價的有效數據進行問題歸類后,統計納入歸類分析的問題的準確性,分析問題歸類的準確性,共抽取2 065個樣本,其中準確歸類的數據量為1 580,準確率為76.51%。

4 實際可應用場景

以上梳理和總結的海量文本分析流程,可以應用于知識管理、客戶服務、社交媒體數據分析等各類場景。

4.1 知識管理

管理大量文本文檔時,一個很大的問題就是無法快速地找到重要的信息。例如,對于醫療行業來說,研發一個新的產品可能同時需要近十年的基因組學和分子技術研究報告。此時,基于文本挖掘的知識管理軟件為此種“信息過剩”情況提供了有效的解決方案。

4.2 客戶服務

文本挖掘和自然語言處理是在客戶服務領域常被使用的技術。如今,利用調查、故障單、用戶反饋等有效信息,文本挖掘技術可以用來改善客戶體驗,為客戶提供快速高效的解決方案,以期減少客戶對幫助中心的依賴程度。

4.3 社交媒體數據分析

如今,社交媒體是大多數非結構化數據的產源地,企業可以使用這些非結構化數據去分析和預測客戶需求并了解客戶對其品牌的看法。通過分析大量非結構化數據,文本分析能夠提取意見,了解情感和品牌之間的關系,以幫助企業發展。

5 不足及展望

目前,按照分類分析流程開展的海量非結構化文本問題歸類過程中,發現歸類準確性不高的原因主要在于:一是樣本量較大,客戶反饋的開放性問題相對較為分散;二是非結構性文本、口語化表述較多,關鍵詞不明顯,導致分類規則無法包含全部用戶的反饋;三是項目開展時間較短,模型及算法仍需完善,后續將通過經驗沉淀繼續優化分類規則。

根據每年的發文量來看,文本挖掘在近幾年得到了快速發展[5]。隨著文本挖掘研究的深入,其應用領域還將不斷拓展,同時,隨著大數據、云計算、人工智能等智能化的發展,未來將文本挖掘應用于大數據處理將面臨更大的挑戰。如何將文本挖掘與大數據、人工智能等更好地結合起來,是研究者所需面對的問題。

參考文獻

[1]徐德金,張倫.文本挖掘用于社會科學研究:現狀、問題與展望[J].科學與社會,2015,5(3):75-89.

[2]李尚昊,朝樂門.文本挖掘在中文信息分析中的應用研究述評[J].情報科學,2016,34(8):153-159.

[3]程顯毅,朱倩著.文本挖掘原理[M].北京:科學出版社,2010.

[4]趙剛,徐贊.基于機器學習的商品評論情感分析模型研究[J].信息安全研究,2017,3(2):166-170.

[5]譚章祿,彭勝男,王兆剛.基于聚類分析的國內文本挖掘熱點與趨勢研究[J].情報學報,2019,38(6):578-585.

主站蜘蛛池模板: 一级毛片无毒不卡直接观看| 视频国产精品丝袜第一页| 日韩在线播放欧美字幕| 亚洲欧美自拍视频| 亚洲一区第一页| 五月婷婷综合网| 日本亚洲成高清一区二区三区| 亚洲欧美天堂网| 亚洲国产欧美中日韩成人综合视频| 男人的天堂久久精品激情| a天堂视频| 啪啪啪亚洲无码| 午夜激情婷婷| 999在线免费视频| 日韩无码一二三区| 亚洲天堂自拍| 免费无码AV片在线观看中文| 亚洲一区二区三区香蕉| jijzzizz老师出水喷水喷出| 免费高清毛片| 四虎精品免费久久| 秋霞午夜国产精品成人片| 国产成人h在线观看网站站| 国产激情国语对白普通话| 无码高清专区| 国产成人啪视频一区二区三区 | 日韩欧美高清视频| 最新亚洲人成网站在线观看| 亚洲精品午夜天堂网页| 欧美日韩在线亚洲国产人| jizz国产在线| 免费看美女毛片| 免费一极毛片| 亚洲无码视频一区二区三区| 一级毛片在线免费视频| 午夜啪啪网| 一级毛片在线免费视频| 国产在线精品人成导航| 久久精品视频一| 久久精品视频亚洲| 亚洲AⅤ综合在线欧美一区| 国产精品嫩草影院av| 精品国产污污免费网站| 毛片三级在线观看| 91久久国产热精品免费| 日本高清在线看免费观看| 亚洲成A人V欧美综合| 亚洲第一成网站| 国产性精品| 国产美女精品在线| 91视频首页| 国产精品亚洲五月天高清| 成人无码一区二区三区视频在线观看| 亚洲精品桃花岛av在线| 国产精品lululu在线观看| 国产成人一区| 亚洲欧美日本国产专区一区| 日韩av电影一区二区三区四区| 亚洲精品午夜天堂网页| 国产精品福利导航| 99r在线精品视频在线播放| 在线亚洲精品自拍| 中文字幕天无码久久精品视频免费| 精品一区二区无码av| 国产一区亚洲一区| 国产成人免费高清AⅤ| 国产jizzjizz视频| 亚洲一区二区视频在线观看| 精品国产三级在线观看| 国产无码高清视频不卡| 尤物亚洲最大AV无码网站| 亚洲AV电影不卡在线观看| 美女一级毛片无遮挡内谢| 国产欧美日韩资源在线观看| 天天操精品| 高清码无在线看| 四虎精品免费久久| 亚洲第一中文字幕| 亚洲成AV人手机在线观看网站| 久久性视频| 日韩av在线直播| 日韩欧美国产三级|