999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本內容分析的微博廣告過濾模型研究

2014-08-05 04:27:06高俊波
計算機工程 2014年5期
關鍵詞:特征文本實驗

高俊波,梅 波

(上海海事大學信息工程學院,上海 201 306)

基于文本內容分析的微博廣告過濾模型研究

高俊波,梅 波

(上海海事大學信息工程學院,上海 201 306)

針對新浪、騰訊等微博平臺出現大量廣告的問題,提出一個微博廣告過濾模型。通過對數據的預處理,將采集到的微博原始數據轉換成干凈且計算機易處理的數據。在預處理階段,根據微博文本的特點,對停用詞表進行改進,以提高查準率,然后基于支持向量機構建一個訓練分類器對數據進行訓練,經過不斷的學習和反饋,取得較好的分類效果。實驗結果表明,該模型進行廣告過濾時準確率超過90%,效果優于基于關鍵字的方法。

微博;文本處理;向量空間模型;支持向量機;文本分類;廣告過濾

1 概述

隨著微博在廣大網民中日益火熱,微博廣告也悄然而生。但是微博廣告的增多也使得微博的總體質量下滑,甚至人們在瀏覽微博的時候,出現整個頁面有一半以上的微博是廣告的情況,而真正感興趣的信息卻沒有幾條,嚴重影響了人們正常的瀏覽,該現象依靠一般的手段很難進行監管。因此,如何有效控制這些廣告的傳播,進行廣告的過濾成為了一個亟待解決的問題。

信息過濾一般指從動態信息流中將用戶感興趣的信息提取出來[1-2]。微博廣告過濾是信息過濾的一種,主要指從大量的微博中把微博廣告刪除,保留非廣告內容供用戶瀏覽。文本內容分析的方法一般有2類:(1)基于知識的方法[3],該方法主要優點是準確率高,對文本內容的理解更好,但是該方法在處理微博如此大的信息流時,速度將非常緩慢。(2)基于機器學習的方法[4],該方法速度快,大大提高了信息過濾的實時性,該方法需要大量的訓練樣本進行訓練,而且隨著網絡的變化,需要不斷加入新的訓練樣本,以保證其準確率。

本文以微博作為研究對象,基于文本內容分析,對微博廣告過濾模型進行研究,提出一個高準確率的過濾模型。

2 微博特性

作為新興的網絡社交平臺,越來越多的研究人員開始研究微博。它相對于傳統的網絡文本有以下特點[5]:

(1)文本短:微博文本字數不多于140字,而傳統的網絡文本(如博客、新聞)一般都有幾百字甚至幾千字。因此信息量少,用戶可以在空閑很短的時間內就能理解文本內容。

(2)源數據易獲取:現有微博平臺都提供了數據接口,研究人員可以很方便地獲取大量的數據,網絡上也有研究者提供自己抓取的數據供他人使用,因此數據獲取非常容易,方便分析與研究。

(3)語言不規范:為了表達方便,微博里面會出現大量的網絡語言如“表醬紫”,意思是“不要這樣子”,文本更加口語化并且不規范的詞語大量出現。

(4)實時且傳播速度快:微博不光有電腦客戶端,還有各種移動設備客戶端,因此人們可以隨時隨地發微博,而且現在用戶越來越多,傳播速度非常快,世界上任何一個角落發生的事,在幾分鐘之內就能讓所有人知道。

廣告依附微博平臺進行傳播,是監管部門面臨的新問題。微博廣告隱蔽性強,監管困難,沒有專門的機構對其進行監控,缺乏對微博廣告的監管手段。因此,對微博廣告過濾模型進行研究具有實用價值。

3 微博廣告過濾模型

本文建立的微博廣告過濾模型主要由以下部分組成,如圖1所示。

圖1 微博廣告過濾模型

該過濾模型主要采用支持向量機算法。首先對訓練樣本進行預處理,然后采用支持向量機(SVM)算法對過濾器進行訓練,最終獲得一個效果較理想的過濾器。

3.1 預處理

3.1.1 停用詞去除

首先要對數據進行預處理。預處理部分也包括分詞和停用詞的去除。本文使用中科院設計的分詞系統ICTCLAS,該系統對于中文的分詞有非常好的效果。停用詞的去除是使用一個停用詞表對數據進行清洗,把對過濾無用的詞或符號去掉。

大量微博中含有普通文本不具有的微博表情,清華大學計算語言學實驗室統計了100萬條新浪微博中使用到的全部表情數據,每個表情都有特別的意思,如“[給力]”,這些使用普通的停用詞表進行處理是不可行的。為此本文針對這一特點,改進了原有的停用詞表。如“@”“#”等表情及有關符號在原有停用詞表中,但微博文本的特點卻使這些詞有其特殊的含義,所以必須保留。經過反復實驗,在其他條件不變的情況下,使用改進后的停用詞表取得了更好的效果。

3.1.2 特征選取

在分詞過后,微博數據將被分成很多單詞。使用向量表示文本數據,維度非常巨大。本文使用文本數據的維度在不進行降維的情況下,向量維度非常大,這將直接導致過濾效率下降,因此必須要進行特征降維。通過特征選取進行降維,可以把數據維度降至千級,以提高過濾效率[6]。本文采用CHI方法實現特征提取。CHI方法認為詞和類別之間符合χ2分布。χ2統計量體現了詞和類別之間的相關性,其值越高,詞和類別之間的獨立性越小,相關性越強,詞對該類別的貢獻越大,也表示包含該詞的文本屬于該類別的概率越大,χ2值為0表示兩者不相關[7]。

3.1.3 特征加權

在特征選取之后,將為每個特征加權。本文采用TFIDF算法,TF-IDF特征權值計算方法是文本處理領域中常用的方法,由Salton首次論證提出[8]。它的主要思想是:一個特征詞在一類文本中出現的頻率越高,說明它對區分文本內容的能力越強,一個特征詞在文本中出現的類別范圍越廣,說明它區分文本內容能力越低。目前,TF-IDF算法在自然語言處理領域廣泛應用。其計算公式如下:

其中,wik表示特征項權重;tfik表示特征項tk在文檔di中出現的頻率;idfk表示特征項tk的文檔倒數。

3.1.4 文本描述

本文利用向量空間模型對微博數據進行文本描述。在向量空間模型中,文本空間被視為一組特征向量組成的向量空間,所有的文本處理運算將在該向量空間中進行。根據上面的特征選擇和特征加權的結果,向量空間模型將所有文本最終將表示成如下形式:

每一行表示一條文本,其中,wij表示第i個文本第j個特征的權重;n表示向量的維數;m表示文本的條數。

因為微博字數較少、特征維數較大時,最終產生的矩陣必將是一個稀疏矩陣,含有大量特征權重為0的項,用以上的形式表示將帶來很多不便,而且浪費存儲空間。因此每一個文本記錄將采用(L T:w)的形式,其中,L表示文本標簽;T表示特征項;w表示權重。例如,“世界上最好的安慰,并不是告訴對方一切都會好起來的,而是苦著臉說,哭個屁,你看,我比你還慘”,這句話經過前面的特征選取后得到4個特征詞:“世界”、“安慰”、“臉”、“哭”。于是,這句話就可以表示為“1 274:0.095206 485:0.309332 502:0.432423 842:0.444010”。其中,1表示類別;274是特征詞“世界”的編號;0.095206是特征的權重;后面數值表示也是如此。

3.2 SV M分類器的構建

本文構建支持向量機分類器對文本進行分類[9],并利用分類結果進行過濾。支持向量機(Support Vector Mach ine, SVM)是一種非常實用的機器學習方法,它是Cortes和Vapnik于1995年首先提出的[10-11]。相比于其他的算法,它在解決小樣本、非線性以及高維模式識別問題中表現出了其特有的優勢,并廣泛應用于許多機器學習問題中。

文本問題是非線性的問題,把訓練集數據x映射到一個高維特征空間H,并在H使用解決線性問題的方法,從而把復雜的非線性問題轉化成線性問題。在高維特征空間H中尋找最優超平面,首先需要構造一個內積函數K,K表示如下:

K函數的功能是利用原低維空間中的函數運算得到高維空間H中的內積運算的結果,稱函數K為核函數。

因此,本文在空間變換后采用Sigmoid核函數,實現非線性問題轉換為線性問題。Sigmoid核函數[12]如下:

其中,x表示待分類微博文本數據;xi表示文本支持向量樣本;yi表示xi對應的分類,當f(x)≥0時,則把x分為非廣告,f(x)<0則分為廣告。

4 實驗結果與分析

4.1 數據的獲取

本文實驗是在Windows 7下進行的,在VC++編程環境下使用C++語言實現。目前針對微博廣告過濾的研究還不多,雖然現在有很多公布的微博語料庫,但是都不適合本文的研究。為此,本文自建了一個用于微博廣告過濾的微博語料庫。首先利用爬蟲從網上獲取數據,然后再進行人工標注,最終構建一個微博語料庫。該微博語料庫含有廣告微博2 000條,非廣告微博2 000條。

4.2 評價標準

本文采用查準率(p)、查全率(r)和F值(f)作為衡量過濾器性能的標準。查準率的意思是被保留下來的非廣告數量除以保留下來的微博數量,體現了微博廣告過濾器辨別廣告的能力。查全率的含義是被保留下來的非廣告數量占所有非廣告數量的比例,體現了過濾器的過濾能力。F值是查全率和查準率的調和平均數。它們的公式定義如下:

其中,a表示非廣告被判定為非廣告的數量;b表示非廣告被判定為廣告的數量;c表示廣告被判定為非廣告的數量。

4.3 結果分析

實驗1 從騰訊微博平臺上隨機采集1 000條微博文本,分別采用改進前的停用詞表和改進后的停用詞表進行實驗。實驗結果如表1所示。

表1 停用詞表改進實驗的查準率

表1為2種情況下的查準率,從表中可以看出,隨著訓練樣本的增多,改進后的效果明顯優于改進前的效果。

實驗2 從12月1日起到12月10日,每天從騰訊微博平臺上抽取500條微博文本,使用本文微博廣告過濾模型進行廣告過濾實驗,實驗結果如表2所示。

表2 廣告過濾實驗的結果

實驗3 文獻[13]對微博文本的噪音進行了過濾,取得了較好的效果。本文實驗利用文獻[13]采用的微博廣告過濾方法重復進行實驗2,并與實驗2進行對比。實驗結果如圖2所示,其中,橫軸表示日期12月1日-12月10日,縱軸表示F值,顯示了使用2種方法進行實驗得到的F值,實驗表明本文方法優于文獻[13]中的方法,且效果穩定。這主要是因為文獻[13]是通過判斷文本中是否含有URL以及簡單的詞頻統計進行微博廣告過濾的。本文發現因字數有限,很多非廣告的微博會采用URL來鏈接更詳細的內容,所以URL并不能作為其是否為廣告的依據。相對于簡單的詞頻統計方法,本文采用機器學習的方法顯然更為優化。因此,本文使用的方法優于文獻[13]的方法。

5 結束語

本文基于文本內容分析構建了一個微博廣告過濾模型,實驗證明該模型取得了比較好的結果。本文只針對微博文本特征進行研究,后續可以綜合其他屬性,如用戶名、發表時間來對微博廣告進行多屬性綜合過濾,以取得更好的效果。

[1] 牛洪波. 基于文本分類技術的信息過濾方法的研究[D].哈爾濱: 哈爾濱理工大學, 2008.

[2] Laskov P. Feasible Direction Dec omposition Algorithms for Training Support Vector Machines[J]. Machine Learning, 2002, 46(3): 315-329.

[3] 晉耀紅. 基于語義的文本過濾系統的設計與實現[J]. 計算機工程與應用, 2003, 17(22): 22-25.

[4] Keerthi S, Gilbert E. Convergence of a Generalized SM O Algorithm for SVM Classifier Design[J]. Machine Learning, 2002, 46(3): 351-360.

[5] 張劍峰, 夏云慶, 姚建民. 微博文本處理研究綜述[J]. 中文信息學報, 2012, 26(4): 21-27.

[6] Zhao Xi, Deng Wei, Shi Y ong. Feature Selec tion with Attributes Clustering by Maximal Information Coefficient[C]// Proc. of the 1st International Conference on Information Technology and Quantitative Management. Suzhou, China: [s. n.], 2013: 70-79.

[7] 王洪彬, 劉曉潔. 基于KNN的不良文本過濾方法[J]. 計算機工程, 2009, 35(24): 69-71.

[8] A izawa A. An Information-theoretic Perspective of tf–idf Measures[J]. Information Processing & Management, 2003, 39(1): 45-65.

[9] Phan X H, Nguyen L M, Horiguchi S. Learning to Classify Short and Spars e T ext & Web with Hidd en Topics from Large-scale Data Collections[C]//Proc. of the 17th

International Conference on World Wide Web. [S. l.]: ACM Press, 2008: 91-100.

[10] 張學工. 關于統計學習理論和支持向量機[J]. 自動化學報, 2000, 26(1): 32-42.

[11] V apnik V. The Nature of S tatistics Learning Theory[M]. New York, USA: Springer Verlag, 1995.

[12] 郭麗娟, 孫世宇, 段修生. 支持向量機及核函數研究[J].科學技術與工程, 2008, 8(2): 487-490.

[13] 王 琳, 馮 時, 徐偉麗, 等. 一種面向微博客文本流的噪音判別與內容相似性雙重檢測的過濾方法[J]. 計算機應用與軟件, 2012, 29(8): 25-29.

編輯 任吉慧

Research on Microblog Advertisement Filtering Model Based on Text Content Analysis

GAO Jun-bo, MEI Bo

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

In order to solve the problem of a large number of advertisements on Sina, Tencent microblog platform, this paper proposes a microblog advertisement filtering model. Through the data pretreatment, the raw data are converted into clean data and easy to be handled by the computer. In the pretreatment stage, according to the characteristics of the microblog, this paper emphatically improves the stop word list, and it plays a key role in improving precision. Then it builds a classifier based on support vector machine for training data, and through continuous learning and feedback, better classification results are achieved. Experimental results show that the model of advertisement filter achieves better effect, when filtering accuracy is more than 90%, which is better than the method based on keywords.

microblog; text processing; vector space model; Support Vector Machine(SVM); text classification; advertisement filtering

10.3969/j.issn.1000-3428.2014.05.004

上海海事大學科研基金資助項目(20100093)。

高俊波(1972-),男,副教授、博士,主研方向:計算智能,數據挖掘;梅 波,碩士研究生。

2013-12-19

2014-02-19E-mail:jbgao@shmtu.edu.cn

1000-3428(2014)05-0017-04

A

TP391

·先進計算與數據處理·

猜你喜歡
特征文本實驗
記一次有趣的實驗
如何表達“特征”
在808DA上文本顯示的改善
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产国语一级毛片| 国产黄色视频综合| 免费人成网站在线高清| 国产二级毛片| 另类重口100页在线播放| 国产综合欧美| 波多野结衣久久精品| 91久久国产综合精品女同我| 亚洲青涩在线| 国产精品亚洲va在线观看| 91福利一区二区三区| 呦视频在线一区二区三区| 中文字幕乱码二三区免费| 色婷婷在线影院| 四虎影视永久在线精品| 动漫精品啪啪一区二区三区| 国产精品综合色区在线观看| 伊人无码视屏| 国产成人无码播放| 18禁影院亚洲专区| 日本欧美午夜| a级毛片毛片免费观看久潮| 国产日韩久久久久无码精品| 99re热精品视频中文字幕不卡| 亚洲国产系列| 亚洲性日韩精品一区二区| 日韩在线1| 日本一本正道综合久久dvd| 久久国产精品77777| 一本大道视频精品人妻| 日韩欧美亚洲国产成人综合| 亚洲一区毛片| 国产福利不卡视频| 88av在线播放| 中文字幕亚洲电影| 国产日韩欧美在线视频免费观看| 中文字幕啪啪| 精品少妇人妻无码久久| 亚洲成AV人手机在线观看网站| 香蕉综合在线视频91| 91色在线视频| 少妇高潮惨叫久久久久久| 波多野结衣视频一区二区| 最新亚洲人成无码网站欣赏网 | 熟女视频91| 久久亚洲国产最新网站| 欧美劲爆第一页| 乱色熟女综合一区二区| 多人乱p欧美在线观看| 曰AV在线无码| 中文字幕在线观| 精品免费在线视频| 欧美成a人片在线观看| 欧美另类视频一区二区三区| 亚洲欧美激情另类| 午夜精品区| 午夜视频免费一区二区在线看| 91年精品国产福利线观看久久| 亚洲欧洲一区二区三区| 亚洲AV无码乱码在线观看代蜜桃| 成人夜夜嗨| 伊人成人在线视频| 91九色国产porny| 国产尤物在线播放| 77777亚洲午夜久久多人| 麻豆精品视频在线原创| 无码免费的亚洲视频| 久久国产精品电影| 成人午夜免费观看| 精品在线免费播放| 亚洲成a人片77777在线播放| 国产成人1024精品下载| 国产精品无码影视久久久久久久| 国产免费一级精品视频| 国产精品亚洲一区二区在线观看| 国产剧情一区二区| 国产日本欧美亚洲精品视| 色九九视频| 国产乱子伦无码精品小说| 九色在线视频导航91| 免费看的一级毛片| 欧美天天干|