邱云飛 劉聰



摘 要:[目的/意義]針對單純使用統計自然語言處理技術對社交網絡上產生的短文本數據進行意向分類時存在的特征稀疏、語義模糊和標記數據不足等問題,提出了一種融合心理語言學信息的Co-training意圖分類方法。[方法/過程]首先,為豐富語義信息,在提取文本特征的同時融合帶有情感傾向的心理語言學線索對特征維度進行擴展。其次,針對標記數據有限的問題,在模型訓練階段使用半監督集成法對兩種機器學習分類方法(基于事件內容表達分類器與情感事件表達分類器)進行協同訓練(Co-training)。最后,采用置信度乘積的投票制進行分類。[結論/結果]實驗結果表明融入心理語言學信息的語料再經過協同訓練的分類效果更優。
關鍵詞:社交網絡;意圖分類;心理語言學;協同訓練(Co-training)
DOI:10.3969/j.issn.1008-0821.2019.05.008
〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)05-0057-07
Abstract:[Purpose/Significance]Aiming at the problems of feature sparseness,semantic ambiguity and mark data insufficiency caused by using single statistical natural language processing technology for intention classification of short text data generated on social networks,a psycholinguistic information based Co-training intention classification method was proposed.[Method/Process]Firstly,in order to enrich the semantic information,the feature dimension was extended by extracting the features of the text while synthesizing the psycholinguistic clues with emotional tendencies.Secondly,aiming at the insufficiency of mark data,two machine learning classification methods(based on the event content expression classifier and the emotional event expression classifier)were used cooperatively for training the model. Finally,the classification was performed by using a voting system of confidence products.[Conclusion/Results]The experimental results show that,by adding psycholinguistic information into the corpus,the cooperative training could provide better classification results.
Key words:social network;intention classification;psycholinguistic;Co-training
隨著互聯網的飛速發展,人們的生活、交流方式早已和社交網絡平臺緊緊聯系在一起。在日常生活中,用戶通過微博平臺發布簡短信息(例如,Twitter)來表達他們的需求和愿望[1],這會促使網絡平臺產生大量的用戶數據。從這些數據中挖掘用戶信息和潛在行為,將使公司企業或政府部門對用戶進行更準確的定位[2]。因此,正確識別用戶意圖并進行精準分類作為挖掘用戶潛在行為信息的子項目,具有重要意義。
由于微博平臺對所發布信息的字數限制,以及用戶在表述時常使用不標準的習慣用語,使得微博信息常具有碎片化特征[3]。而這些碎片化的短文本數據往往不能獲得完整的上下文信息,導致提取出的特征稀疏,從而影響分類效果。同時,由于微博信息即時更新的特性[4],很難在一定時間內獲取大量標記數據,這使得完全依賴于人工標記數據的監督學習沒有足夠的覆蓋范圍,無法取得良好的分類效果。鑒于以上兩點問題,如何利用有限的標記數據對這些碎片化信息進行高效地意圖分類是這項工作的主要挑戰。
Hollerit B等人曾指出推文被認為是挖掘用戶意圖的重要來源[5]。因此,本文的研究將針對推文數據,結合社會心理學信息進行特征維度擴展,并采用半監督集成方法對少量標記數據和大量未標記數據進行協同訓練,最終使用置信度乘積的投票制進行分類,以達到更優的分類效果。
目前,尚無研究試圖建立意圖推文的類別。為了建立意圖推文的分類,調研了大量的推文,并研究了京東、亞馬遜等網絡購物商城的分類模塊。這里提到購物商城分類的原因是:1)微博用戶在推文中表達的意圖通常與日常生活有關,其中包含大量的生活用品信息;2)購物商城涵蓋廣泛的日常生活用品的優惠活動。最后,通過整合兩大網絡商城的分類模塊,將意圖推文分為以下5類:
購物(Goods):這個類別主要指商品、時尚和購物分享。它們結合在一起是因為它們都與商業意圖和服務相關。
餐飲(Food):這個類別主要與食物、餐廳相關。通常用戶會在這一類中表示自己的饑餓程度或飲食需求。
社交通信(Social):這一類別包括聊天、打電話以及發表個人情緒。這項意圖類別的研究可以了解用戶的心理情緒波動。
智能互娛(Entertainment):包括娛樂、音樂、游戲等類別。由于它們同屬生活中的娛樂項目被統稱為智能互娛。
戶外運動(Outside):主要指旅行、運動、看電影等外出行為。
本文結構安排如下:第一節指出意圖分類的研究現狀及相關工作;第二節介紹使用的關鍵技術;第三節給出實驗過程及分析;第四節給出總結,并對下一步工作進行展望。
1 相關工作
1.1 國內外研究現狀
用戶意圖分類屬自然語言處理范疇,是情感分析與短文本分類下的交叉模塊。現階段國內外對意圖分類的改進研究大致分為以下3種方式:
一是改進分詞技術。國內的葛達明使用表情符號、新詞與網絡流行詞語擴充了情感詞典,以達到更優的分詞效果[6]。儲濤濤通過降低公有特征詞集的權重消除多義詞的影響,從而進行更精準的分詞[7]。
二是改進模型訓練中特征向量。對于特征項的改進又可進行如下細分。1)挖掘文本中潛在的表達情緒并結合語義、語境進行特征維度擴展。國內的何炎祥等人將深度學習模型MCNN與基于表情符號的情感空間映射相結合,提高了分類能力[8]。Haibo Ding等人結合多種外部字典對詞語進行分類標注,基于人類需求類別對人類情感進行分類[9]。2)針對文本自身語法規則和特殊字符的維度擴展。國內的趙文清等人提出了一種基于語義規則的方法,考慮程度副詞、否定詞和表情符號的褒貶分類對文本情感傾向的影響[10]。國外的Sudha Subramani等人使用具有卡方度量的TF-IDF方法作為特征選擇參數,以提高分類精度[11]。3)結合外部社會行為信息進行的特征維度擴展。國內的Wayne Xin Zhao等人從微博中抽取用戶的人口統計信息特征,并結合lexical-POS的文本特征進行意圖分類[12]。付博等人實現了跨社交平臺的信息關系連接,提高了意圖識別的效果[13]。國外的Hemant Purohit等人研究危機領域的意圖分類。他使用不同知識來源派生的模式集(類似于規則前項),來獲得在本地上下文之外的語義,以改善意圖分類的信息語境[14]。
三是改進分類算法。國內的江偉等人將提取的N-gram短語加入到循環神經網絡詞嵌入層,再用帶注意機制的雙向循環神經網絡進行學習分類[15]。Jinpeng Wang等人提出基于圖傳播的半監督意圖分類,通過關鍵字與意圖推文間的正則化關系建立意向圖進行自學習(Self-training)[16]。
以上研究從不同角度對意圖分類進行改進,為本文提供了重要的理論基礎。
1.2 相關概念
意圖推文:最早來自于Chen等人在論壇上關于意圖帖子定義的討論[17],以及Hollerit等人關于商業意圖推文的定義[5]。如果一個句子滿足以下3個條件,就稱這條推文為意圖推文:
1)至少包含一個動詞;
2)明確描述用戶執行活動的意圖;
3)以一種可以識別的方式。(Hollerit在研究商業意圖推文中表明,“可識別”在人工智能和模式識別領域意義為:能夠在一定時間內做出決定[5])。
短文本分類:短文本通常被定義為長度不超過160個字符的文本形式,如微博信息、手機短信、觀點評論等比較短的文本。自動化的短文本分類是一項具有挑戰性的任務[18-19],目的是自動對用戶輸入的短文本按照給定的分類體系進行分類輸出。短文本通常存在特征稀疏、不遵循語法規則以及規模巨大等問題[20],一般在文本預處理、模型的訓練等環節中進行優化和改進,以提高分類效果。意圖分類的核心問題就是如何對短文本進行高精度的自動分類。
如圖1所示,短文本分類包括文本預處理、特征抽取、模型訓練、分類預測等幾個主要環節。
半監督學習:半監督學習是指不依賴外界交互的學習器,能夠自動地利用未標記數據和已標記數據來提升學習性能的學習方式[21]。在機器學習領域中,半監督學習作為監督學習和無監督學習的結合產物,在只有少量標記數據集的問題上,對于減少數據標注代價、提高學習性能有重大意義。近年來,半監督學習在分類方法上的研究越來越多。
Co-training:它是目前分類任務中最常見的半監督集成學習方法,又稱協同訓練方法。在半監督學習研究的早期,Blum等人提出兩個相互獨立且充分冗余的視圖通過協同訓練方法可以提高分類性能[22]。它用已標記數據分別在兩個視圖上進行訓練學習,再利用訓練好的學習器對未標記數據進行分類預測,選取置信度較高的類別進行標記,然后將這些偽標記數據加入已有的標記數據集,重新對分類器進行訓練,反復迭代至兩個學習器都不再更新為止。該方法為半監督學習開辟了新的分支[23]。
2 關鍵技術
2.1 數據預處理
對于有效分析,數據預處理是最重要的步驟,因為它消除了降低分類性能的噪聲。通過結合數據清洗、分詞、去停用詞以及詞語標準化(詞干、詞形還原等技術)對數據進行預處理來獲得高質量的信息。
1)數據清洗:用戶在發布的推文中常會加入一些特殊字符,如“Emoji、@、*、&”等,推文中還會加入一些URL鏈接以及數字。在對數據進行分詞前,要將這些無用的噪聲數據剔除。
2)分詞、去停用詞、標準化:首先,根據語法習慣,將文本內容分成若干單詞。其次,刪除介詞、連詞、代詞等停用詞。例如:一個、他的、然而和因此。接下來,是詞語標準化(即詞形還原)。將單詞形式轉換為更有限的規范形式可以減少詞形對特征提取的影響,從而減少數據特征稀疏。
2.2 特征提取
特征提取階段是數據挖掘和知識發現的最重要的步驟之一。為提高分類準確度,需提取出更有價值的特征。為解決推文數據文本內容有限所導致的特征稀疏問題,需對文本數據進行特征維度擴展。在以下部分,分別討論了這項工作中使用的兩種不同提取技術。
2.2.1 基于事件內容的特征提取
2.3 模型訓練
為解決標記數據集不足所導致的分類精度低的問題,提出使用兩種不同的分類器(事件內容表達分類器和情感事件表達分類器)分別對已標記數據集進行學習訓練的方法,再將兩種分類器進行協同訓練,以獲得最終的分類模型。
本文研究的意圖分類問題屬多元分類問題。在機器學習算法中,通常使用MNB(Multinomial Naive Bayes)、LinearSVC(Linear Support Vector Classifier)、KNN(K-Nearest Neighbour)等算法進行多元分類。因此,在分類模型選取上對比使用了以上多種多元分類算法。最終,在實驗驗證的基礎上,得出在事件內容表達分類器的分類問題上使用LinearSVC分類器效果可以達到最優,在情感事件表達分類器上使用MNB算法效果最優。
2.3.1 事件內容表達分類器
在事件內容表達分類器中,單獨考慮文本內容自身所具有的特征,即使用基于文本內容所提取的特征項進行訓練。將經過數據預處理后的已標記數據集傳入事件內容表達分類器進行模型訓練,訓練過程中使用LinearSVC分類算法。
2.3.2 情感事件表達分類器
在情感事件表達分類器中,融合了社會心理語言學知識,即使用基于心理語言學所提取的特征項進行模型訓練。訓練過程中使用MNB分類算法。
2.3.3 Co-training
由于無監督學習常用的方法是借助領域詞典進行分類,而領域詞典的構建需要巨大的開銷,且適用領域范圍小,因此無監督學習在文本分類問題上還沒有得到很顯著的成功。又因社交網絡數據的實時流動性,想要借助監督學習獲取全部的標記數據進行分類,難度系數很大,且分類效果不佳。因此,本文選取了適合處理社交短文本數據的半監督學習。近年來,半監督的分類方法受到了越來越多的重視[23]。
上文提出的兩類分類器,單獨使用時都只能表現出較弱的“學習能力”。因此,為使分類模型具有較高的泛化能力,并進一步提高分類的精度,本文提出使用半監督學習與集成學習相融合的Co-training算法對上文提出的兩種分類方案進行結合。Co-training算法是最早出現的半監督集成學習方法[22]。一般而言,通過集成學習,分類器的性能往往比只使用一個分類器要好[21]。下文對比實驗驗證,將兩類分類器進行協同訓練可以得到更優分類結果。本文采用的Co-training方法具體流程如圖2所示。
2.3.4 置信度相乘的投票制
在最終的分類決策上采用基于置信度相乘的投票方法。在使用兩種分類器預測得到相應類別的置信度后,篩選滿足置信度閾值(≥0.5)的項,再將兩類分類器預測出的相同類別的置信結果做乘積運算,最終選取置信度乘積分數最高的類別作為分類的標簽。
3 實驗設置
3.1 實驗數據
對于當前的研究,使用從推特社交平臺提取的推文數據。在意圖推文的識別和檢索問題上,采用了Riloff E等人提出的Bootstrapping方法[26]。實驗中共使用了兩類數據集確保實驗結果的真實有效性。第一類是2009下半年的推文數據,從Jinpeng Wang論文中獲取的已標注的實驗數據集[15],該類數據集被有經驗的標注者進行分類標注,共1 599條,將該類意圖推文數據作為已標注數據(EL,Labled Data)。第二類是通過網絡爬蟲技術爬取的用戶于2018年4月10號23時到24時發布的推文數據,共23 601條,該類數據作為未標記數據(EU,Unlabeled Data)。
3.2 實驗環境
本實驗使用Python3.5版本,在Pycharm2018平臺進行算法實現。基于事件內容表達分類器使用Spacy自然語言處理工具包對數據進行分詞、標準化等處理,通過調用Sklearn包中的機器學習算法SVC進行分類。SVC算法采用線性核函數,通過對比最終的F1-score選取出參數C(C=1,2,5,10,20,100)的最優取值。為確保兩種分類器的充分獨立性基于情感事件表達分類器使用NLTK自然語言處理工具包進行分詞、去停用詞以及標準化等工作,并將LIWC字典提取的特征項融入到文本特征項中,最后通過調用MNB算法進行分類。
3.3 實驗步驟
具體流程:
1)將已標注數據EL采用3倍交叉驗證劃分成訓練集和測試集,并將訓練集作為兩種分類器的輸入,分別訓練兩類分類器;
2)將未標記數據EU分別放入兩類初步訓練的分類器中,通過分類預測得出屬于不同類別的置信分數,過濾掉不滿足置信度閾值的結果;
3)在滿足置信度閾值的結果中,挑選兩種分類器預測的表示同一類別的置信分數進行乘積運算,最終采用得分最高的類別標記EU;
4)將新標記的偽標記數據加入EL;
5)使用最新的EL重新訓練兩類分類器;
6)如此迭代,直至達到最大迭代次數(I=30),生成最終分類器;
7)讀取測試集,分別放入兩類分類器,對測試集進行分類預測,與真實值進行對比,進而求出分類器性能參數。
通過實驗結果可以看出,已有的經典算法在長數據集上分類表現較好,但在具有嚴重稀疏性的推文數據上表現不佳。表4結果進一步論證了本文算法在處理推文數據分類問題上的有效性。
另外,圖4展示了本文算法在不同迭代次數下的表現能力。如圖4所示,經過30次迭代后,F1-score達到0.84,此時Co-training算法表現最佳。此外,可以看到,迭代次數小于30時,分類情況并沒有單獨使用事件內容表達分類器或情感事件表達分類器的效果好。這是因為實驗標記數據集很小、未標記數據集巨大,所以我們沒有足夠的數據來微調參數。但在實驗中我們可以找到一個最佳的停止標準,通過設定合理的迭代次數來進一步提高性能。
4 結束語
本文針對社交網絡所產生的短文本數據進行意圖分類的問題,提出了一種基于協同訓練的意圖分類優化方法。該方法將基于事件內容表達分類器和基于情感事件表達分類器進行協同訓練,并在情感事件表達分類器中融入社會心理學知識,結合LIWC字典進行特征維度的擴展,以解決數據稀疏性所造成的分類精度低的問題。通過實驗驗證,融入了心理語言學信息的特征項對模型訓練有積極作用。在實驗中,我們分別評估了兩種分類器的獨自的分類性能,又分析了兩種分類器協同工作的效果,發現在只有少量標記數據集的情況下經過Co-training學習后的分類器提高了單一分類器的分類能力。
在今后的研究中,將從以下3個方面入手。一是嘗試在基于事件內容表達分類器上融合從文本內容中提取出的更多有用的特征項(如詞性、表情符號等),以使模型的訓練效果更優。二是嘗試找到一個更優的調節迭代次數的方法,讓分類器可以自動適應并設置迭代次數。三是針對細粒度分類問題的研究,即結合應用領域知識研究特定領域的分類問題,使該研究課題更具有商業價值。
參考文獻
[1]薛春香,張玉芳.面向新聞領域的中文文本分類研究綜述[J].圖書情報工作,2013,57(14):134-139.
[2]曹玖新,吳江林,石偉,等.新浪微博網信息傳播分析與預測[J].計算機學報,2014,37(4):779-790.
[3]李伶俐.微博熱的冷思考——兼論微博碎片化的特征及影響[J].新聞愛好者,2011,(9):82-83.
[4]楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發現[J].中文信息學報,2012,26(1):84-90,109.
[5]Hollerit B,Krll M,Strohmaier M.Towards Linking Buyers and Sellers:Detecting Commercial Intent on Twitter.In WWW,2013:629-632.
[6]葛達明.基于微博平臺的中文情感分析技術的研究[D].沈陽:沈陽工業大學,2017.
[7]儲濤濤.微博用戶的興趣發現與意圖識別的研究與實現[D].北京:北京郵電大學,2017.
[8]何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強的深度學習模型[J].計算機學報,2017,40(4):773-790.
[9]Haibo Ding,Ellen Riloff.Human Needs Categorization of Affective Events Using Labeled and Unlabeled Data[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2018.
[10]趙文清,侯小可,沙海虹.語義規則在微博熱點話題情感分析中的應用[J].智能系統學報,2014,9(1):121-125.
[11]Subramani Sudha,Vu Huy Quan,Wang Hua.Intent Classification Using Feature Sets for Domestic Violence Discourse on Social Media.In Preprint arXiv,2018:1804.03497.
[12]Zhao X.W,Guo Y,He Y.We Know What You Want to Buy:A Demographic-based System for Product Recommendation on Microblogs.In KDD,2014:1935-1944.
[13]付博,劉挺.社會媒體中用戶的隱式消費意圖識別[J].軟件學報,2016,27(11):2843-2854.
[14]Hemant Purohit,Guozhu Dong,Valerie Shalin,et al.Intent Classification of Short-Text on Social Media.In IEEE,2015.
[15]江偉,金忠.基于短語注意機制的文本分類[J].中文信息學報,2018,32(2):102-109,119.
[16]Jinpeng Wang,Gao Cong,Wayne Xin Zhao,et al.Mining User Intents in Twitter:A Semi-Supervised Approach to Inferring Intent Categories for Tweets.In AAAI,2015.
[17]Chen Z,Liu B,Hsu M.Identifying Intention Posts in Discussion Forums[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2013:1041-1050.
[18]王仲遠,程健鵬,王海勛,等.短文本理解研究[J].計算機研究與發展,2016,53(2):262-269.
[19]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現代圖書情報技術,2016,(12):27-35.
[20]張倩,劉懷亮.一種基于半監督學習的短文本分類方法[J].現代圖書情報技術,2013,(2):30-35.
[21]周志華.機器學習[M].北京:清華大學出版社,2016.
[22]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the 7th Conference on Computational Learning Theory(COLT),2000:92-100.
[23]蔡毅,朱秀芳,孫章麗,等.半監督集成學習綜述[J].計算機科學,2017,44(S1):7-13.
[24]J W Pennebaker,R L Boyd,K Jordan.The Development and Psychometric Properties of Liwc2015,Tech.Rep.,2015.
[25]James W Pennebaker,Roger J Booth,and Martha E Francis.Linguistic Inquiry and Word Count:LIWC2007.Austin,TX:Liwc.net,2007.
[26]Riloff E,Wiebe J,Wilson T.Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C]//Proceedings of Conference on Computational Natural Language Learning(CoNLL),2003:25-32.
[27]徐禹洪,黃沛杰.基于優化樣本分布抽樣集成學習的半監督文本分類方法研究[J].中文信息學報,2017,31(6):180-189.
(責任編輯:陳 媛)