999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于堆疊降噪自編碼機的廣告博文識別方法

2018-10-26 02:40:58趙曉樂馮旭鵬劉利軍黃青松
小型微型計算機系統 2018年9期
關鍵詞:分類特征文本

趙曉樂,欒 杰,馮旭鵬,劉利軍,黃青松,3

1(昆明理工大學 信息工程與自動化學院,昆明650500)2(昆明理工大學 教育技術與網絡中心,昆明 650500)3(云南省計算機技術應用重點實驗室,昆明650500)

1 引 言

在互聯網快速發展的今天,社交網絡在人們生活中占據了很重要的位置.其中新浪微博作為基于社交關系進行信息傳播的媒體平臺之一,以其發信息布門檻低,文本長度短,實時分享性以及互動性等特點吸引了大量的用戶注冊和使用[1].盡管微博擁有諸多優點,但是也存在著一個嚴重的問題,即由于微博本身的特性,它允許任何人在不透露自己真實身份的前提下,就可以表達自己的意見,這種匿名性鼓勵了有某種意圖的人會有針對性的發表言論[2].通常這類博文被稱作噪音博文,其中的廣告博文就是這類言論的代表,其特點是帶有營利性,由專業人士編寫,內容分散,形式多種多樣,很難通過統計篩選的方法將其去除.隨著微博中的廣告數量日漸增多,產生了大量的低質量或無用信息,直接導致了博文質量的下降.微博中廣告的存在使得人們閱讀微博時不僅浪費了大量的時間,同時也增加了挖掘博文中有用信息的難度.因此對微博博文中的廣告進行識別,去除廣告噪音博文,對于改善博文質量,挖掘博文中用的價值等信息都有重要意義.

微博充滿了各種各樣的博文,廣告博文屬于噪音博文的一種.目前國內外對于噪音博文的定義形式與處理方法多種多樣,Castillo[3]認為不可信的博文(Twtter)即謠言是噪音博文,需要設計方法進行去除.對于不可信的噪音博文,高明霞[4]通過構建基于信息融合的識別框架來識別該類噪音博文.Li[5]等基于機器學習算法提出兩種半監督的方法應用于大量未標記數據來識別垃圾郵件.董雨辰[6]對新浪微博上的水軍發布的炒作博文進行過濾,通過分析炒作微博的特性,提出基于SVM的炒作博文識別方法.Zhang[7]發現許多的商家為了擴大商品的知名度在Twtter上發布許多帶有URL鏈接的廣告博文,Zhang對這些博文中涉及的推廣活動進行分析,提出一個基于URL推廣目的相似度的推廣活動博文識別框架.

對于有專業人士編寫的有目的性的廣告博文,其內容廣泛多變,難以通過統計篩選將其過濾.目前國內外關于廣告博文的去除主要有以下幾種方法.王琳[8]將廣告微博和字符微博定義為噪音博文,并通過對廣告博文進行分析,確定廣告博文擁有的特性,將各個特性值相加并設定閾值來過濾廣告博文.Anita[9]在經過實驗驗證之后發現使用隨機森林分類的方法識別廣告博文效果最好.姚子瑜[10]在Zhang和Anita的基礎上將廣告博文和有獎營銷博文放在一起作為噪音博文,通過樸素貝葉斯和最大期望算法構建一種半監督的噪音博文識別模型,實驗證明所提的模型要優于樸素貝葉斯和支持向量機模型.高俊波等[11]使用文本數據作為特征,采用監督學習的方式構建SVM分類模型進行廣告博文的識別;然而這種方式在建立模型未考慮博主社會關系方面的特征.因此,郭跇秀等[12]從博主角度出發定義特征,在原有的特征基礎上引入博主“主題”特征,實驗證明在引入博主“主題”特征之后廣告博文識別模型準確率有所提高.但上述方法在構建模型時都沒有對特征進行選擇,使用的特征或多或少存在著冗余的問題.張宇翔等[13]參考特征工程中現有的特征選擇方法(主要為機器學習方法)構建自己的特征選擇方法,并將選擇后的特征用于構建微博反垃圾模型,實驗表明相比于方法的選擇,特征選擇對模型的識別效果更為重要.

對此,本文從另一個角度出發,使用堆疊降噪自編碼機進行特征選擇,提出一種基于SDA的廣告博文識別模型.一方面通過SDA對特征進行降維處理,將原有特征編碼成另一種更低維度的特征表征,解決特征冗余的問題,提高了模型的識別率,另一方面使用深度學習技術對特征進行選擇減輕了特征選擇的工作量,降低了應用的難度.

2 相關工作

2.1 word2vec

首先通過訓練將微博文本中的每個詞表征為K維實數值向量,通過計算詞與詞之間的距離來計算他們之間的語義相似度.然后根據詞頻用Huffman編碼,使得所有詞頻相似的詞隱藏層激活的內容基本一致,出現頻率越高的詞語,他們激活的隱藏層數目越少,這樣有效的降低了計算的復雜度[14].其采用的模型有CBOW和Skip-Gram兩種.

CBOW模型的基本原理是通過已知當前詞的上下文Context(w)對當前詞w(t)進行預測,其條件概率函數如下:

(1)

Skip-Gram模型的與CBOW模型相反,Skip-Gram模型的基本原理是通過已知當前詞w(t)對當前詞的上下文Context(w)進行預測.其條件概率函數如下:

(2)

(3)

2.2 堆疊降噪自編碼機

想要了解堆疊降噪自編碼機的原理首先理解其中的基本單元自編碼機的原理,自編碼機最早是由Hinton等人[15-17]提出,是一種無監督的學習算法,主要由兩個部分組成,編碼和解碼.在整個過程中嘗試學習一個函數y使得輸出最大程度上復現輸入x,實現自編碼機學習出x→h→y的能力并且在幾乎不損失信息量的情況下將原始數據表達成另一種形式.基于這一原理便可以實現使用自編碼機對特征進行壓縮,將高維特征轉化為更低維度的特征表征,以此達到特征選擇的目的.

降噪自編碼機是自編碼機的變種,由Vincent等人[18]于2010年提出,他認為能將原始數據進行編碼并通過解碼將其恢復的自編碼機并不一定是最好的,能夠將有噪音的原始數據編碼并通過解碼將其恢復為真正的原始數據的自編碼機才是最好的.降噪自編碼機的結構如圖1.

圖1 降噪自編碼機結構圖Fig.1 Noise reduction autoencoders structure

堆疊降噪自編碼機(SDA)是在降噪自編碼機上的一種改進,這種改進的目的是為了通過深層網絡學習出原始數據的多種表達,每一層都以上一層的輸出作為輸入,借此找出最適合分類任務的表征.堆疊顧名思義其使用的編碼機不止一個,其結構如圖2.

圖2 堆疊降噪自編碼機結構圖
Fig.2 Stack noise reduction autoencoders structure

其中DAE1表示的是降噪自編碼機單元,當我們完成自編碼機的訓練之后,其輸出z就沒有存在的必要了,因為對我們來說最重要的是隱藏層的數據,因此上圖中降噪自編碼機單元的輸出為h.堆疊降噪自編碼機的訓練是逐層訓練的,也就是說前一個單元訓練完成之后將輸出傳遞給下一個單元,下一單元接受數據后才能開始訓練,最終完成整個網絡的訓練.

2.3 最大熵分類

最大熵是在給定約束條件下,對未知情況不做任何假設.這樣得到的概率分布越均勻,概率模型的熵越大,預測的風險就越小[19].在本文中,將微博文本特征向量放入最大熵分類中,得到該特征向量的博文識別模型.最大熵分類模型公式如下:

(4)

(5)

其中y為分類結果,x為評論特征,Zw(x)稱為規范化因子,wi是特征的權重,f(x,y)是特征函數.

3 SDA博文去噪模型

3.1 基于SDA博文去噪模型

博文去噪的對象是無內容的博文、無評論的博文、廣告博文.模型的總體框架如圖3所示,模型的輸入是采集到的微博文本數據,輸出是微博文本的分類結果.

圖3 SDA廣告博文識別模型框架Fig.3 SDA advertisements post recognition model framework

在上述過程中,由于特征選擇方式的不同,廣告博文的去除方式也不同,分為如下三種方式:

1)基于微博文本特征向量的廣告博文識別模型:首先使用word2vec對微博文本進行處理,將其轉化為文本向量,再對文本向量使用SDA進行特征選擇,獲得基于微博文本的特征向量(FV1),將FV1放入最大熵分類中得到基于FV1的廣告博文識別模型M1.

2)基于人工定義特征向量的廣告博文識別模型:對噪音博文進行分析定義特征,然后對定義的特征進行抽取獲得人工定義的特征,將人工定義的特征作為SDA的輸入,進行特征選擇,得到基于人工定義的特征向量(FV2).將FV2放入最大熵分類中得到基于FV2的廣告博文識別模型M2.

3)基于組合特征向量的廣告博文識別模型:將FV1和FV2放在一起進行組合得到組合特征向量(FV3),將FV3放入最大熵分類中得到基于FV3的廣告博文識別模型M3.

依據分類結果篩選出最好的分類模型,依據此分類模型識別廣告博文.

3.2 基于微博文本的特征向量

文本特征一直都是廣告博文識別中特征工程的一個重要組成部分,先前研究對其處理的方式主要是通過對文本數據中出現的詞進行編號,對每個詞計算其TFIDF值作為該特征的權重,依此來構建文本特征向量.然而由于新浪微博將文本的字數限制從原來的140字調整到了2000字,使得文本的特征詞也相應的得到擴大,而且其中存在著大量的同義詞,上下文依賴嚴重,因此難免會出現特征詞冗余的問題.

對此論文首先使用word2vec對文本進行處理,借助word2vec在語義信息表征上的優越性[20]把文本中的每個詞轉化為向量表示稱之為詞向量,再將獲得的詞向量進行組合,得到文本向量.公式如下:

(6)

其中v(blog)i表示文本向量第j下標所對應的值,n為詞向量的維度,m為文本包含的詞數,word2vecij表示第i個詞的詞向量下標j所對應的位置.

此外對博文進行分析,可發現微博上的博文主要有兩種類型,一種是原創博文,另一種是博主轉發的博文.由于轉發的博文比原創博文多了一項轉發理由,而轉發理由也包含了大量文本信息,為了表征所有種類博文的文本信息,本文將文本特征向量分為兩部分,前一部分用以表征轉發的博文的文本信息,后一部分用于表征轉發理由這一文本信息,對于原創博文而言,其文本特征向量的前一部分表征博文的文本信息,由于其沒有轉發理由這一文本信息,故將其特征向量的后一部分做置0處理.這樣就得到所有種類博文的文本特征向量,再使用SDA對獲取的文本特征向量進行特征選擇,得到FV1.

3.3 人工定義的特征向量

人工對問題分析定義特征是特征工程的常用方法,先前關于廣告博文的研究中,特征的定義已經十分完善,本文在特征定義上引用上述研究定義的特征并依據自身對微博文本的分析補充一些特征.特征的詳情如表1所示.

表1 特征詳情表Table1 Feature details

特征定義之后需要對數據進行處理,將特征從其中抽取出來.由于定義的特征數過多,對于能直接量化的特征不做贅述,對不能直接量化的特征描述如下:

1)昵稱復雜度

昵稱復雜度主要表征的是微博用戶昵稱的復雜程度,微博用戶昵稱允許輸入字母、數字、漢字、特殊字符這四種字符,論文對這四種字符設立權重并計算四種字符在昵稱中所出現的次數,將四種字符的權重與出現次數相乘并求和作為用戶的昵稱復雜度.

(7)

其中NC表示昵稱復雜度,i表示字符編號,wi表示i字符的權重,ti表示i型字符在用戶昵稱中出現的次數.

2)博文情感

博文情感使用博文的情感傾向來表示正面:1,負面:0.通過工具包構建情感分析模型,將模型分析出來的值作為博文的情感特征值.

將抽取的特征進行融合得到初步的特征向量,對初步的特征向量使用SDA進行特征選擇得到FV2.

3.4 組合特征向量

組合特征向量的構建在前兩種特征向量構建的基礎上進行,前兩種特征構建方法是現階段研究中較為常用的特征向量構建方法,其方法各有優點但也各有缺點,對此我們將前兩種方法構建的特征向量進行組合,構建組合特征向量.具體組合方式是通過構建一個能同時容納兩種特征向量的高維向量作為FV3.

4 實 驗

4.1 實驗設計

為了驗證本文所提方法的有效性,實驗分為四個部分進行,第一部分為特征抽取實驗,用以驗證論文中所提的特征抽取方法的有效性(針對不能直接量化的特征).第二部分為SDA特征選擇實驗,將引入SDA之后的模型與未引入SDA的模型的識別效果作對比,驗證使用SDA進行特征選擇的有效性.第三部分為對比選擇實驗,分兩個階段進行,首先將FV1和FV2進行組合實驗獲得基于FV3的識別模型.第二階段,將基于FV3的識別模型與之前的基于FV1的識別模型和基于FV2的識別模型作對比,選出識別效果最好的模型用于廣告類噪音博文的去除.第四部分為分類對比實驗,將最大熵分類與其他分類方法作對比,驗證選擇最大熵分類的有效性.

4.2 實驗數據

由于在廣告博文識別方面尚未有標準的數據集,因此本文使用爬蟲獲取的數據進行實驗.實驗數據主要分為兩個部分(DA,DB),DA是通過對COAE2013中傾向性分析評測數據文本進行預處理獲得的數據,DB是對爬蟲獲取的微博數據進行預處理(主要為第一步的去除無法獲取博主信息的博文,第二步的兩輪人工標注,標注廣告博文)之后得到的,包括微博,和博主信息.同時為了獲得高維的最大熵特征函數向量,提高最大熵分類的效果.論文使用不平衡的樣本數據訓練模型,使用權重調整的方式解決樣本不平衡帶來分類問題.數據詳情如表2所示.

表2 數據詳情

4.3 特征抽取實驗

對于不能直接量化的特征進行抽取實驗,驗證本文抽取方法的有效性.昵稱復雜度的抽取實驗如表3所示.

表3 昵稱復雜度抽取實驗Table 3 Nickname complexity extraction experiment

表3展示的是使用本文方法抽取復雜度的部分實例,可以看出復雜度的給定基本符合客觀事實.

表4 情感特征抽取實驗Table 4 Emotional feature extraction experiment

從表4中實驗結果可以看出情感分析的準確率在86%以上,召回率在84%以上,達到了實驗要求的標準.

4.4 SDA特征選擇實驗

為了驗證使用SDA進行特征選擇之后對模型產生的效果,對比SDA引入前后模型識別率的變化.首先展示未引入SDA的模型識別效果(一方面由于本文識別的是廣告博文,另一方面為了更好的對比實驗結果,后續實驗結果將僅展示廣告博文類的P、R、F),實驗結果如表5所示.

表5 未引入SDA的實驗結果Table 5 No experimental results were introduced for SDA

從模型的F值上看,兩個模型之間相差不大,僅有1.24%的差距.從準確率上看,基于特征FV2所構建的模型準確率只有49.37%,表明該模型存在許多誤判的情況,而基于特征FV1所構建的模型其準確率為100%,明顯高于前者.從召回率來看,基于特征FV2所構建的模型要略有優勢.總的來說僅從表5的實驗結果難以判斷兩個模型哪個效果更好.因此對兩個模型分別引入SDA進行特征選擇,觀察模型的識別效果.引入SDA之后模型的實驗結果如表6所示.

表6 引入SDA的實驗結果Table 6 No experimental results were introduced for SDA

對比表5和表6的實驗結果可以看出在引入SDA之后對于基于不同特征向量的模型,其識別效果均有不同程度的提升.此外從F值上看,對于FV1來說,當特征維度降至50維的時候模型的識別效果最好,對于FV2來說,當特征維度降至15維的時候模型的識別效果最好,因此后續實驗中文本特征向量選擇經過SDA處理后的50維向量,而人工定義的特征向量則選擇經過SDA處理后的15維特征向量.

4.5 對比選擇實驗

根據本文4.3節所述將識別效果最好的人工定義的特征向量(經過SDA處理后的15維特征向量)和文本特征向量(經過SDA處理后的50維特征向量)組合構建一個65維的特征向量作為組合特征向量FV3,將組合特征向量放入最大熵分類中獲得基于組合特征向量的廣告識別模型M3,將M3與之前識別效果最好的M1進行比,選取出廣告博文識別效果最好的模型.實驗結果如表7所示.

表7 對比實驗表Table 7 Comparison of experimental tables

從表7可以看出基于文本特征向量的模型M1的識別效果最好,雖然其識別的準確率較低,但是其召回率較高能識別出微博中絕大部分的廣告博文,因此選取M1用于廣告類噪音博文的去除.

4.6 分類對比實驗

對比實驗中由于有些分類方法在實現時難以對模型進行權重調整,因此將分類對比實驗分為兩步來做.對不可以進行權重調整的方法使用重采樣的方式來解決數據不平衡問題.同樣與之對比的最大熵也使用相同的數據進行實驗,重采樣的特征選擇和權重調整的特征選擇使用的方法一致.實驗得出當模型的特征向量為FV1維度為150維時,模型在重采樣數據集上效果最好.對比實驗結果如表8所示.

從F值上可以看出無論是權重調整還是重采樣,與其他分類方法相比,最大熵分類方法在廣告博文識別問題上的效果都是要優于其他分類方法的.因此選擇最大熵作為解決本問題的分類方法是有效可行的.

表8 分類對比實驗Table 8 Classification comparison experiment

5 結 語

本文重點介紹了針對博文去噪問題所提出的基于SDA的廣告博文識別方法,提出了三種不同的識別模型,依據實驗結果選出其中對廣告博文識別效果最好的模型,將其與前面介紹的統計篩選放在一起作為噪音博文去噪的方法.實驗結果表明該方法能夠有效識別絕大多數的廣告博文,且效果優于其他模型.

不足之處:由于廣告博文的形式越來多變復雜(如文字很少,廣告以圖片的形式展示),使得實驗數據標注出現的誤差變大,導致模型識別誤差較大,因此下一步工作將考慮使用半監督學習的方式來調整訓練數據集.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91成人在线观看视频| 朝桐光一区二区| 亚洲免费黄色网| 亚洲系列无码专区偷窥无码| 久草网视频在线| 国产精品流白浆在线观看| 91久久国产综合精品女同我| 中文字幕亚洲电影| 99伊人精品| 久草青青在线视频| 最新国产午夜精品视频成人| 色欲色欲久久综合网| 成人亚洲天堂| 久草热视频在线| 亚洲天堂久久久| 免费日韩在线视频| av一区二区无码在线| 久久婷婷五月综合色一区二区| 美女视频黄频a免费高清不卡| 丝袜高跟美脚国产1区| 亚洲AⅤ波多系列中文字幕| 97久久超碰极品视觉盛宴| 国语少妇高潮| 亚洲 欧美 中文 AⅤ在线视频| 国产成人精品一区二区免费看京| 精品久久久久久久久久久| 亚洲中文字幕无码爆乳| 四虎永久在线精品影院| 欧美精品一二三区| 日韩成人午夜| 色综合久久无码网| 天天操天天噜| 粗大猛烈进出高潮视频无码| 亚洲最新在线| 欧洲精品视频在线观看| 最新国产精品鲁鲁免费视频| 欧美视频免费一区二区三区| 丰满人妻中出白浆| 视频一区视频二区日韩专区| 2020精品极品国产色在线观看| 国产杨幂丝袜av在线播放| 亚洲人成网站色7799在线播放| 99热这里只有精品在线观看| 日本不卡免费高清视频| 久久综合丝袜长腿丝袜| 91亚洲精选| 在线精品欧美日韩| 午夜毛片免费看| 国产草草影院18成年视频| 久久精品66| 日韩精品久久无码中文字幕色欲| 久久精品无码国产一区二区三区| www亚洲精品| 国产精品区视频中文字幕| 久久精品人妻中文系列| 三级国产在线观看| av性天堂网| 天堂在线www网亚洲| 免费国产福利| 国产高潮视频在线观看| 麻豆精品在线视频| 园内精品自拍视频在线播放| 色哟哟国产精品| 无码国内精品人妻少妇蜜桃视频| 午夜视频日本| 日本午夜影院| 久久久久久久久18禁秘| 在线毛片网站| 无码电影在线观看| 无码中字出轨中文人妻中文中| 久热中文字幕在线观看| 欧美不卡在线视频| 欧美黄网在线| 免费全部高H视频无码无遮掩| 欧美午夜在线观看| 国产天天色| 久久一本日韩精品中文字幕屁孩| 97在线国产视频| 广东一级毛片| 午夜福利视频一区| 国产精品成人第一区| 国模视频一区二区|