基于用戶身份特征的多標簽分類算法

2017-09-03 10:23:54鄭曉雪張大方刁祖龍

計算機應用 2017年6期

關(guān)鍵詞：分類校園特征

鄭曉雪，張大方，刁祖龍

(1.湖南大學信息科學與工程學院，長沙410082； 2.湖南大學可信系統(tǒng)與網(wǎng)絡實驗室，長沙410082)

基于用戶身份特征的多標簽分類算法

鄭曉雪1,2*，張大方1,2，刁祖龍1,2

(1.湖南大學信息科學與工程學院，長沙410082； 2.湖南大學可信系統(tǒng)與網(wǎng)絡實驗室，長沙410082)

(*通信作者電子郵箱zhengxiaoxue@hnu.edu.cn)

目前對于智慧校園中的家校溝通，缺乏一種衡量和參考的方法。針對智慧校園中特有的聊天特點即存在明顯的身份特征，提出了一種基于用戶身份特征的多標簽分類算法——Adaboost.ML。首先,新增加了啟發(fā)式規(guī)則;然后,引入Adaboost.MH算法，同時摒棄了把數(shù)據(jù)集進行分片的概念;最后,直接利用單條數(shù)據(jù)作為分析的焦點，減少了由于時間片邊緣帶來的誤差和推斷時間，綜合決策出聊天用戶之間的關(guān)聯(lián)關(guān)系。實驗結(jié)果表明，與基于規(guī)則的啟發(fā)式方法相比，所提算法在智慧校園數(shù)據(jù)集上的誤報率、漏報率分別降低了53%、66%，同時在微信數(shù)據(jù)集上也具有良好的分類效果。該算法已應用到智慧校園項目中，能夠迅速并準確地了解到家校溝通的情況。

社會網(wǎng)絡；智慧校園；啟發(fā)式規(guī)則；多標簽判斷；集成學習

0 引言

在社會信息化的大背景下，構(gòu)建“智慧型”校園，利用學校為主體的教育信息化推進過程，成為教育信息化的重要組成部分[1]。智慧校園中家校溝通模塊充分體現(xiàn)了學校與家長之間的互動和聯(lián)系，通過對溝通情況的分析能夠有效地反映用戶之間存在的本質(zhì)關(guān)聯(lián)。

本文研究把聊天用戶之間的溝通判斷抽象為分類中的多標簽分類判斷，同時避免了由于時間片帶來的邊緣誤差問題。分類是數(shù)據(jù)挖掘領(lǐng)域應用的一個分支，分類是根據(jù)數(shù)據(jù)集的特征構(gòu)造一個對應的分類器，利用該分類器對未知類別的對象賦予類別的一種技術(shù)，其中包括單標簽分類和多標簽分類問題。針對單標簽分類問題的分類算法有很多，例如樸素貝葉斯(Naive Bayes, NB)分類算法、K最近鄰(K-Nearest Neighbour, KNN)分類算法、支持向量機(Support Vector Machine, SVM)分類算法等[2]。對于多標簽分類問題大致分為兩種：算法適應和問題轉(zhuǎn)換[3]。算法適應意味著把處理單標簽分類問題的算法改造為能處理多標簽問題的算法，比如Adaboost.MH(Multiclass,multi-label version of Adaboost based on Hamming loss)算法[4]、Boos Texter(a Boosting-based system for Text categorization )算法[5]、RankSVM(Ranking Support Vector Machine)算法[6]等。問題轉(zhuǎn)換意味著把多標簽分類問題轉(zhuǎn)換為多個可解的單標簽分類問題，該方法轉(zhuǎn)化后可以使用前面提到的算法進行標簽判斷，轉(zhuǎn)換的常用方法有一對一分解法[7]、一對多分解法[8-9]、冪集法[10]等。

如何在群聊中準確快速地判斷用戶間存在的交流關(guān)系是一個極具挑戰(zhàn)性的問題。1)時間片問題。一般的聊天室，用戶身份相同沒有很明確的身份特征，只能通過時間片來縮小研究的范圍至一個回話長度來研究兩個用戶間的交流特征。2)交流對象判斷問題。當對一個時間片或者會話進行研究的時候，如何快速有效地準確判斷這段消息的交流對象。

目前關(guān)于群聊數(shù)據(jù)處理方面的研究已經(jīng)延伸為小型社會網(wǎng)絡挖掘，通過此類挖掘可以有效地分析用戶之間的關(guān)聯(lián)、行為規(guī)律、活動模式等。國內(nèi)外具有代表性的研究有：最初利用基于時序特征的啟發(fā)式方法來挖掘聊天用戶之間的社會網(wǎng)絡[11]，實驗表明此方法可以取得一定的效果，但是受到單一時序特征的限制產(chǎn)生了很高的漏報率；文獻[12]在文獻[11]的基礎(chǔ)上引入內(nèi)容相似性特征,提出了一種結(jié)合內(nèi)容相似性和時序性的社會網(wǎng)絡挖掘方法，首先提取聊天數(shù)據(jù)中的時序特征和內(nèi)容特征,然后使用Adaboost算法判斷兩兩用戶之間是否存在交流關(guān)系；文獻[13]針對對象可以賦予多個類別的分類問題，提出了一種基于浮動閾值分類器的Adaboost算法(Adaboost algorithm with Floating Threshold, Adaboost.FT)，該算法雖然用浮動閾值方法取代了固定時間片分片方式，但是時間片帶來的誤差問題依然存在。文獻[6]提出了最小化排序損失的SVM的多標簽分類算法(RankSVM)，但是該算法計算復雜度比較高。

本文首次引入Adaboost.MH算法來進行群聊數(shù)據(jù)分析和多標簽判斷。該方法是一個弱分類器集成算法，其中每個弱分類器對整體的判斷準確度不是特別高，但是對符合自身這個特征的信息而言判斷的準確度很高。這樣經(jīng)過多次訓練和迭代形成強分類器，一直應用于語法分析、人臉識別等領(lǐng)域，能夠進行多標簽判斷，同時針對智慧校園聊天數(shù)據(jù)的特點提出了6個時序特征，重要的是摒棄了時間片的概念，直接利用單條數(shù)據(jù)作為研究焦點，根據(jù)提出的時序特征進行交流判斷，這樣既減少了時間片帶來的誤差問題同時也提高了判斷的準確率。

1 綜合特征提取

聊天數(shù)據(jù)是一種不固定的短文本形式，只能通過挖掘數(shù)據(jù)存在的特征來判斷用戶交流關(guān)系。本文在內(nèi)容相似性特征和原有的時序特征的基礎(chǔ)上新增加符合智慧校園聊天數(shù)據(jù)的幾個特征，以此提高準確率。

1.1 數(shù)據(jù)預處理

聊天數(shù)據(jù)有很多種類型文件，在智慧校園平臺中首先獲取聊天數(shù)據(jù)的log類型文件，分析里面的數(shù)據(jù)字段進行分隔符處理，獲得消息記錄的時間戳、發(fā)送者、接收者、發(fā)送者所屬群組ID等重要類型信息。

圖1(a)是聊天數(shù)據(jù)原本的log文檔數(shù)據(jù)格式，經(jīng)過代碼處理后修改成圖1(b)的數(shù)據(jù)格式進行數(shù)據(jù)分析。

1.2 特征提取

本文首先對收集的聊天數(shù)據(jù)進行人工判定，即判定此條消息的發(fā)送者、接收者，存在即為1，不存在即為-1，以此作為訓練集集合。在文獻[10-11]的基礎(chǔ)上選取了3個時序特征和1個內(nèi)容相關(guān)性特征，由于在之前的群聊中發(fā)現(xiàn)每個人的身份都是一樣的，交流的對象存在一定的隨機性，而在智慧校園中存在明顯的身份特征，家長發(fā)言多數(shù)是對前面發(fā)言的老師說的，所以又新增加了兩個針對性的時序特征判斷，共6個時序特征，詳情如下：

1)簡略回答特征。

對于待分析的消息片段中存在“好”“ok”“收到”等之類的詞語時，會根據(jù)消息中的用戶身份屬性進行判斷，家長群中存在三種身份的角色：家長、老師、管理員。對于此條消息的接收者可能存在兩種身份：一是同等身份的其他人，二是不同身份的人。如果消息的發(fā)送者是管理員，那么很大概率可以認為是發(fā)給上一個不同身份的人；如果發(fā)送者是老師，則此條信息可判斷為是發(fā)給上一個發(fā)言的家長；如果發(fā)送者是家長，那么可以認為是發(fā)送給前面的老師。

圖1 實驗數(shù)據(jù)處理結(jié)果對比

本文主要針對群聊數(shù)據(jù)進行處理，而一般家長之間的聊天會進行單聊操作。當對群聊數(shù)據(jù)進行分析時，發(fā)現(xiàn)家長之間聊天并回復“好”“ok”等詞，確實會對分類器的判斷造成誤差。但是，在智慧校園身份特征比較明顯的環(huán)境下，這種情況的數(shù)據(jù)很少，造成的影響有限,所以判定當發(fā)送者是家長時認為是發(fā)送給前面的老師。

2)缺省特征。

對于待分析的消息片段中有多名用戶發(fā)送消息，則認為在教師群中，此條消息是發(fā)送給上一個人；在家長群中，若發(fā)送者為管理員，默認是發(fā)送給上一個人，若發(fā)送者為老師，則認為是發(fā)送給上一個家長，若發(fā)送者為家長，同時滿足間隔響應特征時，則認為是發(fā)送給上一個不同身份的人。

3)接收者特征。

對于待分析的消息片段中兩個用戶A和B，掃描用戶A的消息，如果其中含有“大家”“各位”等信息，則認為此條消息是發(fā)送給群里所有用戶；如果其中含有某用戶B的昵稱，則認為用戶A在向用戶B發(fā)送消息，將用戶B作為該消息的接收者；如果其中沒有用戶B的昵稱，則用戶B不是該消息的接收者。

4)時間接近特征。

對于待分析的消息片段中的時間戳進行判定，這個特征是指在一段時間的寂靜之后，某用戶A發(fā)布了一個消息，緊接著另一個用戶B也發(fā)布了一個消息，則認為用戶B對用戶A的消息作出了響應。

5)夾逼準則特征(本文增加的時序特征)。

對于待分析的消息片段中一個用戶A發(fā)送一條消息，接著一個用戶B發(fā)送消息，之后用戶A又發(fā)送了一條消息，則認為此種情況下存在一定的夾逼性，即用戶A和B之間存在交流。

6)問答特征。

對于待分析的片段中用戶A發(fā)布了一個類似疑問形式的消息(內(nèi)容涵蓋“誰”“嗎”“？”等疑問詞)，若內(nèi)容中涵蓋“誰”“你們”“大家”和“？”或者“嗎”“呢”等疑問詞，則判斷該內(nèi)容是發(fā)給所有人；若內(nèi)容中涵蓋“你”和“？”或者“嗎”“呢”等疑問詞，則判斷該內(nèi)容是發(fā)給上一個發(fā)消息的人。同時若在發(fā)送內(nèi)容中涵蓋某用戶B的昵稱，則認為該條消息是發(fā)給用戶B的；若沒有發(fā)現(xiàn)用戶昵稱，則認為該條消息是發(fā)送給群組內(nèi)的所有用戶。

2 基于用戶身份特征的多標簽分類算法

本文使用集成學習的方式，提出了一種基于用戶身份特征多標簽分類算法即Adaboost.ML算法(Multiclass, multi-Label version of Adaboost based on user identity)。該算法引入Adaboost.MH算法進行多標簽判斷。Adaboost.MH算法的核心思想是設計相應的弱分類器，通過不斷地迭代和計算樣本權(quán)重，獲得每一個弱分類器的權(quán)重，最終組合成一個強分類器進行用戶交流判斷。該算法應用簡單，同時不會產(chǎn)生overfitting的情況，只需要增加新的分類器，不需要變動原有分類器就可增加分類的準確率。

本文方法的社會網(wǎng)絡挖掘過程和分類器訓練過程如圖2(a)～(b)所示。

圖2 Adaboost.ML算法分類器訓練過程

2.1 弱分類器設計

本文提出的弱分類器分別對應上述6個特征，現(xiàn)將特征設計如下：

1)對于簡略回答特征，若消息中存在簡略詞語，需要根據(jù)發(fā)送者的身份判斷接收者。若為管理員，則判斷信息接收者是上一個身份不同的用戶；若為老師，則認為是發(fā)送給上一個家長；若為家長，則認為是發(fā)送給上一個老師；

2)對于缺省特征，根據(jù)信息的發(fā)送者和所處的群判斷信息的接收者。

3)對于接收者特征，掃描用戶信息，查看其中是否含有其他用戶昵稱，若含有則認為兩用戶存在交談。

4)對于時間接近特征，設定寂靜時間為T1，用戶A、B信息間隔時間為T2，當T1≥5T2時，認為用戶A、B存在交流。

5)對于夾逼準則特征，當用戶B發(fā)送的信息前后均為用戶A的消息，則認為用戶A、B存在交流。

6)對于問答特征，當用戶A發(fā)送信息中含有疑問詞語，若疑問詞是“誰”“你們”“大家”和“?”或者“嗎”和“呢”等，則認為用戶A與所有用戶存在交流；若其中是“你”和“？”或者“嗎”“呢”等疑問詞則認為用戶A與上一個發(fā)信息者存在交流。用戶B的消息出現(xiàn)在其之后，則認為用戶A、B存在交流。

2.2 算法描述

Adaboost.MH算法的主要思想是維持訓練集上的一個分布或權(quán)重集(表示為Dt)。初始狀態(tài)下，分布D的權(quán)值是相同的。在每次迭代中,運用給定的調(diào)整公式調(diào)整每個樣本的權(quán)值，使每次輸入弱學習器的樣本集具有不同的權(quán)重，讓弱學習器集中學習使用前一弱分類器預測錯誤的樣本，經(jīng)過若干次迭代后,最終得到一個準確度更高的分類規(guī)則,即為最終的分類模型。該算法快速、簡單并且易于編程，同樣適合多類多標簽的分類問題。

在獲得特征向量的時候，除了1、-1，另設了0作為棄權(quán)標志，0代表當前信息用當前分類器無法進行判斷，即不符合當前分類器的判斷情景時就會自動棄權(quán)，防止判斷錯誤帶來的誤差。

Adaboost.MH算法的流程[4]如下：

1)設樣本集S={(x1,Y1),(x2,Y2),…,(xm,Ym)}，其中：X為訓練集,Y為詞義標簽集合,對應聊天群組的所有用戶，記k=|Y|。樣本(x,Y)為單一實例x和該實例對應的詞義標簽集合Y。

2)該算法在樣本集S上維持一個m*k的權(quán)重分布D，初始狀態(tài)下，分布D的權(quán)值是相同的。

3)進入循環(huán)：令Dt為第t次迭代后的分布,為分布Dt上獲得的弱規(guī)則,該規(guī)則由弱學習器產(chǎn)生，同時計算出錯誤率，即根據(jù)弱規(guī)則預測的值與正確值不同的樣本占的比例。

根據(jù)錯誤率計算，并使用上面的公式更新樣本權(quán)重，使每次輸入弱學習器的樣本集具有不同的權(quán)重,讓弱學習器集中學習那些使用前一規(guī)則最難以預測的樣本(x,Y)。

其中：ht(xi,l)表示對接收者標簽l∈Y是否應該賦給實例xi的一種預測,其值|ht(x,l)|反映了這種預測的可信度。

4)獲得最后的強分類器，其計算式如下：

2.3 算法特點

本文Adaboost.ML算法在傳統(tǒng)群聊數(shù)據(jù)的處理上，主要作了以下改進：

1)引入Adaboost.MH算法作為多標簽分類集成器，降低了算法的復雜度。

2)對于弱分類器，舍棄決策樹和時間片的方式，而是以當前信息作為處理焦點，提出了新的特征，直接作多標簽判斷，舍棄了傳統(tǒng)的單標簽二分類判斷，提升了準確度。

本文算法與多標簽Adaboost.FT相比判斷迭代的次數(shù)減少，直接進行多標簽判斷。下面用圖形化方式分別展示使用Adaboost.FT算法和Adaboost.ML算法的判斷過程。

利用Adaboost.FT算法、Adaboost.ML算法判斷過程分別如圖3、圖4所示。其中A、B,…,E代表群聊成員，M1、M2,…,M8代表聊天信息，小圓圈數(shù)字代表判斷的次數(shù)。

從圖3中可以看出，針對M1進行處理，判斷是否與A用戶存在交流，不存在記為0。之后對M2進行處理，判斷與A用戶是否存在交流，若存在記為1，以此類推直到M8。A用戶判斷完畢，對B用戶進行同樣操作，直至所有用戶依次判斷完畢，設群聊人數(shù)為n，聊天信息數(shù)目為m，則時間復雜度為O(n*m)。

從圖4中可以看出，Adaboost.ML算法直接以單條信息為焦點判斷用戶間是否存在交流。針對M1進行處理時，直接對所有用戶進行判斷，判斷是否存在交流，之后對M2進行處理，以此類推直到M8，判斷的迭代次數(shù)為m次，時間復雜度為O(m)，相比圖3判斷的迭代次數(shù)變少，時間復雜度明顯降低。

圖3 Adaboost.FT算法判斷交互過程

圖4 Adaboost.ML算法判斷交互過程

3 實驗結(jié)果及分析

3.1 實驗方法和數(shù)據(jù)

本文使用智慧校園App群聊和單聊數(shù)據(jù)、微信聊天數(shù)據(jù)集作為實驗數(shù)據(jù)集，一周的聊天數(shù)據(jù)作為一個分析的單元，目前獲得兩年的聊天數(shù)據(jù)，其中20周作為實驗數(shù)據(jù),然后人工分析出20周數(shù)據(jù)的聊天網(wǎng)絡，最后對所有聊天數(shù)據(jù)進行自動挖掘，記錄實驗結(jié)果，并用平均值作為最終結(jié)果。

3.2 評估指標

本文使用漏報率(false_negative)和誤報率(false_positive)來評估挖掘的準確性,即：

false_negative=(N-TN)/N

false_positive=(M-TN)/M

式中：N為經(jīng)人工分析得到的社會網(wǎng)絡關(guān)系的數(shù)目；M為由程序自動挖掘出的社會網(wǎng)絡關(guān)系的數(shù)目；TN為自動推斷出的社會網(wǎng)絡關(guān)系中正確關(guān)系的數(shù)目。

3.3 實驗結(jié)果與對比分析

第14周和第15周數(shù)據(jù)實驗結(jié)果對比如圖5所示。圖5中，指標對比網(wǎng)絡密度為0.299:0.053、網(wǎng)絡平均度為14.64:3.40、平均聚類系數(shù)為0.623：0.398、平均路徑長度為1.399:1.872。

圖5中節(jié)點(家長姓名)的排列和順序都有相應變化，從圖5中指標對比可以看出，上一周(第14周)網(wǎng)絡密度和平均度等都比下一周(第15周)要高一些，由此可以判斷上一周的家長相對比較活躍，因此家長節(jié)點的度也增加了，并處于靠中心的位置，網(wǎng)絡相對比較復雜；而下一周的圖比較簡單，類似只有一個老師中心，周圍很多家長的小節(jié)點聊天次數(shù)較多，下一周就只有老師和少部分家長存在聊天記錄。通過調(diào)查得知上一周進行了學生體能測試，需要在家里進行跳繩等項目測試并上報給班主任。

圖5 家校溝通實驗結(jié)果

表1列出了智慧校園數(shù)據(jù)集上使用基于規(guī)則的啟發(fā)式方法[11]和Adaboost.FT算法、Adaboost.ML算法的平均性能。

從表1中可以看出，本文的算法在智慧校園聊天數(shù)據(jù)集上無論是在誤報率、漏報率和推斷時間上都存在明顯的優(yōu)勢，與基于規(guī)則的啟發(fā)式方法相比在誤報率、漏報率上分別降低了53%、66%。

表2列出了在智慧校園數(shù)據(jù)集上使用RankSVM方法和Adaboost.MH算法、Adaboost.FT算法、Adaboost.ML算法的五項度量指標(漢明損失、排序損失、覆蓋率、1錯誤率、平均精度)的實驗結(jié)果，這四種算法均利用機器學習的思想進行多標簽分類。

從表2可以看出，本文的算法Adaboost.ML存在較好的性能表現(xiàn)，雖然在漢明損失指標上比Adaboost.FT算法高了4%，預測的錯誤率提高了，但是其他指標上均存在明顯的優(yōu)勢，尤其是在平均精度指標上比Adaboost.FT算法提升了4%、比Adaboost.MH算法提升9%、比RankSVM算法提升14%。

表1 智慧校園聊天數(shù)據(jù)集實驗結(jié)果

表2 智慧校園聊天數(shù)據(jù)集其他實驗指標

微信數(shù)據(jù)集選取的是某個年級在兩年內(nèi)的聊天數(shù)據(jù)，里面包括輔導員、學生和部分家長。表3列出了在微信數(shù)據(jù)集上的不同方法的性能結(jié)果.

表3 微信聊天數(shù)據(jù)集實驗結(jié)果

從表3中可以看出，在微信數(shù)據(jù)集上，本文算法在誤報率、漏報率和推斷時間上依然存在明顯優(yōu)勢。

表4列出了在微信數(shù)據(jù)集上使用RankSVM方法和Adaboost.MH算法、Adaboost.FT算法、Adaboost.ML算法的五項度量指標。

從表4中可以看出，本文的算法Adaboost.ML在其中漢明損失和排序損失兩項指標上存在優(yōu)勢，在其他的指標上也具有良好的表現(xiàn)，相對比較穩(wěn)定。

表4 微信聊天數(shù)據(jù)集其他實驗指標

4 結(jié)語

針對聊天信息判斷的問題，本文擴展了常用的時序特征并新增了夾逼準則等特征，同時把消息判斷抽象為多標簽分類問題，提出了一種基于用戶身份特征的多標簽分類算法即Adaboost.ML算法。該算法運用集成學習算法思想，采用單條信息直接判斷分類，利用特征值判斷結(jié)果進行弱分類器學習，最終形成更加準確的強分類器。實驗分析中，將本文算法與現(xiàn)有聊天信息挖掘算法進行對比，實驗結(jié)果表明，本文算法的準確率相對較高，分類性能穩(wěn)定，推斷時間較短。在以后的研究中，將通過提高單聊數(shù)據(jù)的權(quán)重等其他方式來提高分類的準確性和穩(wěn)定性，同時也將研究如何改善適應更多情況的分類。

)

[1]HUANGRH,ZHANGJB,HUYB,etal.Smartcampus:thedevelopingtrendsofdigitalcampus[J].OpenEducationResearch, 2012, 18(4): 12-17.

[2]KEERTHISS,SHEVADESK,BHATTACHARYYAC,etal.ImprovementstoPlatt’sSMOalgorithmforSVMclassifierdesign[J].NeuralComputation, 2001, 13(3): 637-649.

[3]TSOUMAKASG,KATAKISI,TANIARD.Multi-labelclassification:anoverview[J].InternationalJournalofDataWarehousingandMining, 2007, 3(3): 1-13.

[4]SCHAPIRERE,SINGERY.Improvedboostingalgorithmsusingconfidence-ratedpredictions[J].MachineLearning, 1999, 37(3): 297-336

[5]SCHAPIRERE,SINGERY.BoosTexter:aboostingbasedsystemfortextcategorization[J].MachineLearning, 2000, 39(2/3): 135-168

[6]ELISSEEFFA,WESTONJ.Akernelmethodformulti-labelledclassification[C]//NIPS2001:ProceedingsoftheAnnualConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2001: 681-687.

[7] 萬書鵬.基于兩類和三類支持向量機的快速多標簽分類算法[D].南京:南京師范大學,2008:4-7.(WANSP.Afastmulti-labelclassificationalgorithmbasedonbinaryandtripleclasssupportvectormachines[D].Nanjing:NanjingNormalUniversity,2008:4-7.)

[8]FOXCR,CLEMENRT.Subjectiveprobabilityassessmentindecisionanalysis:partitiondependenceandbiastowardtheignoranceprior[J].ManagementScience, 2005, 51(9): 1417-1432.

[9]SPEIRS-BRIDGEA,FIDLERF,MCBRIDEM,etal.Reducingoverconfidenceintheinternaljudgmentsofexperts[J].RiskAnalysis, 2010, 30(3): 512-523.

[10]TROHIDISK,TSOUMARKSG,KALLIRISG,etal.Multi-labelclassificationofmusicintoemotions[C]//ISMIR2008:Proceedingsofthe9thInternationalConferenceonMusicInformationRetrieval.Philadelphia: [s.n.], 2008: 325-330.

[11]MUTTONP.InferringandvisualizingsocialnetworksonInternetrelaychat[C]//IV’04:Proceedingsofthe8thInternationalConferenceonInformationVisualization.Washington,DC:IEEEComputerSociety, 2004: 35-43.

[12] 張衛(wèi),曹先彬,尹洪章.基于多特征融合的聊天室社會網(wǎng)絡挖掘方法[J].中國科學技術(shù)大學學報,2009,39(5):540-546.(ZHANGW,CAOXB,YINHZ.Chatroomsocialnetworkminingbasedonmulti-featuresfusion[J].JournalofUniversityofScienceandTechnologyofChina, 2009, 39(5): 540-546.)

[13] 張丹普,付忠良,王莉莉,等.基于浮動閾值分類器組合的多標簽分類算法[J].計算機應用,2015,35(1):147-151.(ZHANGDP,FUZL,WANGLL,etal.Multi-labelclassificationalgorithmbasedonfloatingthresholdclassifierscombination[J].JournalofComputerApplications, 2015, 35(1): 147-151.)

ZHENG Xiaoxue, born in 1990, M. S. candidate. Her research interests include data mining, machine learning.

ZHANG Dafang, born in 1959, Ph. D., professor. His research interests include trusted system and network, software test, next generation Internet.

DIAO Zulong, born in 1988, Ph. D. candidate. His research interests include big data, data mining, machine learning.

Multi-label classification algorithm based on user identity

ZHENG Xiaoxue1,2*, ZHANG Dafang1,2, DIAO Zulong1,2

(1.CollegeofComputerScienceandElectronicEngineering,HunanUniversity,ChangshaHunan410082,China； 2.LaboratoryofDependableSystemsandNetwork,HunanUniversity,ChangshaHunan410082,China)

At present there lacks a way to measure home-school communication in a smart campus. Concerning the obvious identity characteristics when chatting in a smart campus, a new multi-label classification algorithm named Adaboost.ML (Multiclass, multi-label version of Adaboost based on user identity) was proposed. Firstly, the heuristic rule was added for the proposed algorithm. Then, the Adaboost.MH (Multiclass,multi-label version of Adaboost based on Hamming loss) algorithm was introduced, and the concept of dataset sharding was discarded. Finally, the single data was used as the focus of analysis, which reduced the inference time and the error caused by the edge of the time slice. The comprehensive decision-making about the relationship between the chat users was made out. The experimental results show that, compared with the heuristic algorithm based on rules, the false positive rate of the proposed algorithm is decreased by 53% while its false negative rate is reduced by 66% on the dataset of smart campus. The proposed algorithm also has good classification results on the dataset of WeChat. At present, the proposed algorithm has been applied to the smart campus project, and it can get home-school communication quickly and accurately.

social network; smart campus; heuristic rule; multi-label judgment; ensemble learning

2016- 11- 14;

2017- 01- 16。

鄭曉雪(1990—)，女，吉林松原人，碩士研究生，主要研究方向：數(shù)據(jù)挖掘、機器學習；張大方(1959—)，男，上海人，教授，博士，CCF會員，主要研究方向：可信系統(tǒng)與網(wǎng)絡、軟件測試、下一代互聯(lián)網(wǎng)；刁祖龍(1988—)，男，湖南株洲人，博士研究生，主要研究方向：大數(shù)據(jù)、數(shù)據(jù)挖掘、機器學習。

1001- 9081(2017)06- 1697- 05

10.11772/j.issn.1001- 9081.2017.06.1697

TP181;TP301.6