關志廣 程喬



摘要:為了充分挖掘非結構化數(shù)據(jù)蘊含的信息價值,文章介紹了基于自然語言處理的文本挖掘技術,從原理到實踐進行了探究。以電信運營商移動網絡客戶的體驗與口碑為導向,利用文本挖掘技術在互聯(lián)網輿情分析和客服部門投訴工單分析等方面進行探索,給出了基于非結構化文本數(shù)據(jù)的信息分類與呈現(xiàn)的方法,從而更好地聚焦客戶需求和網絡問題,支撐網絡維護與優(yōu)化工作,提升客戶滿意度。
關鍵詞:文本挖掘;自然語言處理;結構化數(shù)據(jù);輿情;投訴
中圖分類號:TP391文獻標志碼:A
0 引言
對電信企業(yè)而言,客戶網絡體驗好壞是影響網絡口碑的重要因素,如何高效改善客戶網絡感知是當前迫在眉睫的問題。在相關的工作經歷中發(fā)現(xiàn),客戶通過客服系統(tǒng)反饋的投訴工單以及在社交媒體發(fā)表的言論是其反映網絡問題的主要渠道,較為真實、可靠地反映了客戶對網絡的真實體驗。但其中更多的是以非結構化數(shù)據(jù)的形式存在,難以有效地利用起來。此類數(shù)據(jù)日積月累,形成了一個潛在的體量龐大的信息資源。因此,深入探索文本挖掘技術,在客服投訴工單與互聯(lián)網輿情等方面進行輔助分析,將有助于發(fā)揮更多的數(shù)據(jù)價值,以指導客戶滿意度提升工作,維護企業(yè)良好的網絡口碑。
1 文本挖掘技術
文本挖掘技術包括了自然語言處理(Natural Language Processing,NLP)、信息抽取、數(shù)據(jù)挖掘等技術[1],可以對非結構化數(shù)據(jù)進行處理,從中抽取潛在的、客戶感興趣的重要信息,是一個將非結構化數(shù)據(jù)轉化為構化數(shù)據(jù)的過程。
一般而言,要實現(xiàn)文本挖掘的分類應用主要有以下幾個過程:首先,根據(jù)人工識別設定的標簽體系對樣本進行分類標注,構建模型訓練集;其次,運用文本分類工具進行文本分詞及預處理,抽取文本特征,將文本數(shù)據(jù)轉化為能描述文本內容的結構化數(shù)據(jù);再次,基于樸素貝葉斯算法自動計算特征向量和分類貢獻度(TF-IDF值),輸出形成分類規(guī)則表構建模型[2];最后,利用分類、聚類和關聯(lián)分析等數(shù)據(jù)挖掘技術根據(jù)該結構發(fā)現(xiàn)新的概念,獲取相應的關系。
目前有多種開源文本分類工具,比如,TextGrocery,OpenNLP,Weka,GATE等。TextGrocery是一個基于Lib Linear和Jieba分詞的短文本分類工具,其特點是高效易用,同時支持中文和英文語料。本文在Python環(huán)境下使用TextGrocery對文本進行模型訓練,基于訓練好且準確性高的模型對工單的投訴內容進行智能分類。
1.1 自然語言處理
2 應用案例
2.1 客服投訴工單文本挖掘
基于NLP的文本挖掘技術可以構建非結構化數(shù)據(jù)的文本分類模型,實現(xiàn)對海量的客戶投訴工單文本的自動分類,并將分類結果結合投訴位置信息形成對應類型的客戶投訴位置地理化打點圖,方便網絡優(yōu)化工程師聚焦處理某類網絡問題所引起的大量客戶投訴。
在訓練文本分類模型之前,需要人工對典型性的歸屬于網絡側的投訴工單回復文本打上分類標簽形成模型的訓練集,其標簽為弱覆蓋、干擾、故障告警、高負荷四大類。利用Grocery工具基于訓練集進行建模和訓練,通過對數(shù)據(jù)集的處理和模型參數(shù)調優(yōu),使得輸出模型的準確性在80%以上。使用訓練好的模型對待分類的工單文本進行分類分析,獲得了網絡問題分類結果,再通過地理化的問題打點,很容易看到大量的客戶投訴實際只聚集在為數(shù)不多的區(qū)域——比如龍胤鳳凰城住宅小區(qū),這便是關注和處理的重點。對歸屬于網絡弱覆蓋問題且投訴量較多的龍胤鳳凰城住宅小區(qū)優(yōu)先開通新基站后,結合MR數(shù)據(jù)分析得知,相關區(qū)域的網絡弱覆蓋率得到改善,客戶網絡體驗得到進一步提升。實現(xiàn)文本分類應用的Python核心代碼及模型輸出的網絡問題分類結果如圖1所示。
2.2 互聯(lián)網輿情文本挖掘
利用網絡爬蟲提取網絡媒體如論壇、貼吧、微博等互聯(lián)網上的輿情數(shù)據(jù),通過文本挖掘技術對輿情數(shù)據(jù)進行智能分類與分析,得到與電信企業(yè)相關的輿情動態(tài)。將輿情分析的結果關聯(lián)網絡性能指標與業(yè)務感知數(shù)據(jù),按優(yōu)先級、影響程度等指導移動網絡優(yōu)化工作。
互聯(lián)網輿情數(shù)據(jù)采集主要通過部署爬蟲收集器獲得[3]。以“廣西大學吧”貼吧輿情數(shù)據(jù)爬取為例進行說明:入口地址為http://tieba.baidu.com/f?kw=廣西大學&ie=utf-8&pn=0,該頁面包含發(fā)帖客戶ID、發(fā)帖時間、發(fā)帖內容、回復人數(shù)等信息,分頁采用50個帖一頁的傳統(tǒng)分頁,具有典型性。HTML文檔屬于描述性結構,對爬取到的HTML文檔提取有效信息可以通過網頁源代碼標簽解析來限定期望提取的內容。
筆者前期已經從大量與網絡相關的歷史投訴信息中,分析整理網絡感知體驗差的關鍵詞并構建關鍵詞庫。部分負面輿情關鍵詞和語義分類如表1所示。
基于定義構建的輿情關鍵詞,使用文本挖掘技術建立分類應用模型,對輿情數(shù)據(jù)進行語義關鍵詞提取并依此歸類整理、可視化輸出,以進一步篩選提煉與疑似網絡類輿情相關的內容[4]。通過對集中度高、重要性高的網絡輿情內容分析得知,廣西大學宿舍區(qū)域存在較多的與上網類相關的負面輿情信息,如表2所示。
結合所涉及的電信運營商移動網絡基站話統(tǒng)數(shù)據(jù)分析,核實了基站負荷過高導致的視頻卡頓率、游戲卡頓率惡化的情況,與輿情所反映的情況相符。對相關基站小區(qū)進行設備擴容以及多載波間負荷均衡優(yōu)化后,網絡負荷得到緩解,業(yè)務卡頓現(xiàn)象改善明顯。
3 結語
本文的研究表明,基于自然語言處理的文本挖掘技術可以充分挖掘出電信企業(yè)客服投訴工單,網絡輿情之中非結構化數(shù)據(jù)蘊含的信息,并且利用這些信息進行分類探究,可以更好地了解客戶需求,指導相關網絡感知提升工作的開展,助力提升客戶滿意度。
通過文中的應用案例可以看到新技術帶來的優(yōu)勢,人工智能必然會滲透到各領域的實際生產中,帶來不可估量的價值。然而,在此種分類應用的研究和使用中,我們也發(fā)現(xiàn)了一些問題和不足,例如,模型準確率有待提高、功能相對單一等。后續(xù)可以在分類算法的優(yōu)化方面下功夫,引入聚類、情感識別等方面的改進,不斷提高數(shù)據(jù)向價值的轉換效率。
參考文獻
[1]張樂,唐亮.人工智能時代語言學家面臨的機遇和挑戰(zhàn)[J].電腦知識與技術,2020(24):195-197.
[2]劉懷亮,杜坤,秦春秀.基于知網語義相似度的中文文本分類研究[J].現(xiàn)代圖書情報技術,2015(2):39-45.
[3]肖良玉.爬蟲技術在互聯(lián)網領域的應用[J].數(shù)碼世界,2017(12):548-549.
[4]史瑞芳.網頁正文信息抽取新方法[J].通信世界,2015(19):210-211.
(編輯 傅金睿)