999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的文章特征提取及流量控制

2020-06-13 07:45:32曾穎李志濤周燕
電子技術與軟件工程 2020年2期
關鍵詞:特征文本模型

文/曾穎 李志濤 周燕

(華南農業大學 廣東省廣州市 510642)

隨著社交網絡的發展和人們上網偏好的改變,過半的成年國民都進行微信閱讀,微信公眾號逐漸成為重要的媒體平臺之一。一個公眾號基本有著相對固定的風格和目標人群,不同人群也代表著不同的閱讀偏好。而就在微信公眾號“咪蒙”關閉前,就被指出其文章內容越是煽動情緒、發泄仇恨,傳播力就越強?!斑涿伞钡淖髡咭苍硎荆婕暗綗狳c、金錢、性、暴力的文章閱讀量高。說明公眾號若能夠抓住關注者的閱讀偏好,并生產閱讀偏好下用戶最可能喜聞樂見的內容,則應當對其閱讀量的提升存在一定作用。于是,本文在文本數據挖掘的基礎上,以提取到的篇幅、主題、風格等文章特征為變量,建立流量預測模型。旨在確認影響媒體閱讀量的因素,并找到一套可復制的自媒體大數據研究方案,實現文本數據挖掘技術的延伸、傳播學自媒體研究的拓展。

1 文本挖掘技術、特征工程和預測模型的建立

本文文本數據挖掘主要利用Python的requests+BeautifulSoup +Charles,且需要通過不斷變化的pass_ticket、key和uin來進行反爬蟲機制,獲得文章閱讀量和點贊量的實時動態數據。

特征工程是指將原始數據轉換成更可能表現預測模型的潛在問題的特征的過程。本研究所使用四個維度,即文章的標題、發布時間、內容和閱讀量。文章閱讀量作為本研究預測模型的目標變量,而文章標題、文章發布時間、文章內容可通過多種方式提取特征,轉換出更多自變量。在這其中,用到R軟件的jiebaR軟件包中混合模型(隱式馬爾科夫模型與最大概率法的結合)進行分詞處理。

圖1:隨機森林的實際閱讀量與預測閱讀量對比

本文預測模型的建立采用隨機森林回歸和XGBoost回歸。隨機森林回歸是一種集成式的監督學習方法,以此驗證通過提取文章特征預測閱讀量的可行性。XGBoost是GBDT的一種高效實現,算法中采用了多種策略防止過擬合,并支持交叉驗和并行化處理,且能夠高效處理稀疏矩陣。

2 數據處理和特征工程

2.1 研究數據

本文爬取微信公眾號“情感說說”2018年11月14日至2019年5月11日的數據,剔除流量一周增長率大于1%(文章發布兩周時的閱讀量÷文章發布一周時的閱讀量)、閱讀量在三倍標準差范圍外的文章,經過數據清洗后選用226篇文章的標題、發布時間、內容和閱讀量這4個變量作為研究數據。

2.2 特征工程

2.2.1 文章標題的特征提取

文章標題的特征很可能包涵著對文章流量預測的重要信息。本文提取標題的漢字個數、符號個數、詞頻、情感。通過可視化、擬合曲線及預測區間的形式得知文章標題字數越少,文章閱讀量越高。然后通過混合模型對文章標題進行分詞處理,只保留實詞,最終獲得114個詞來建立114個特征作為分類變量,原始數據因此成為多維度稀疏數據。最后,將標題情感人工分為積極、消極和中性三類,并分別賦值1,-1和0。

2.2.2 文章正文的特征提取

圖2:XGBoost的實際閱讀量與預測閱讀量對比

當讀者通過文章的各種特征判斷其為一篇“好文章”時,可能會對其進行分享,利于文章傳播,提高閱讀量。本文提取文章的字符數、發布時間。通過提取統計文章中所有詞語的詞頻,可以自動查找主題。運用主題數K=3的LDA主題概率模型,將文本視作詞頻向量,從單詞的概率分析得知主題。而文本又是多個主題構成的一個概率分布,從而得知正文的主題特征。同時,把文章發布時對應的星期幾作為分類變量,且若為頭條取1,為次條取0進行建模處理。

表1:隨機森林回歸的變量重要度

表2:XGBoost回歸的變量重要度

2.3 流量預測模型的建立與驗證

因為本文只涉及文章閱讀量的其中幾個影響因素,所以預測建模過程需要泛化性能強的集成模型算法。

2.3.1 隨機森林回歸

本文通過R軟件的randomForest軟件包建立隨機森林,首先劃分訓練集和測試集,并通過randomForest函數建立隨機森林。模型殘差平方的均值為30400700,方差解釋度為-2.08.閱讀量預測值和實際值對比結果如圖1所示,模型的預測整體上存在偏大的可能,但成功預測了兩篇文章的閱讀量可以達到1萬次以上,說明構造流量預測模型評估文章能否成為“流量爆文”是可能的。然后獲取隨機森林的變量重要性的度量列表,重要性最高的10個特征如表1所示。

2.3.2 XGBoost回歸

為改進上述模型的不足,本文采用通過R軟件的xgboost包對上述方法相同的訓練集構建模型,得到結果如圖2所示??梢姼鼽c相對均勻地分布在對角線的兩側,模型預測效果遠遠好于使用隨機森林回歸的第一次預測。隨后,通過xgb.importance函數度量各個特征的重要性,得到重要性最高的10個特征如表2所示。對比表1可知,兩個模型在變量上的選擇有很大的相似性。

2.3.3 模型優化

文章的閱讀量一旦超過10000,也就是所謂的“流量爆文”,其流量的影響因素就變得十分不可控。因此,剔除閱讀量在1萬以上的文章,以閱讀量較低的樣本重新建立預測模型。在隨機森林回歸中,模型的殘差平方的均值為2303036,有了明顯的降低,而且方差解釋度超過了10,說明該隨機森林對公眾號文章閱讀量具備一定的解釋力。而兩個樣本建立的流量預測模型中重要變量有所區別。

用XGBoost回歸作相同的處理,得到的模型的殘差平方均值為3066360,比前面的幾個模型的預測效果都要好。統一樣本下,不同模型重要特征的差異小于不同樣本下建模的重要特征的差異。說明在建立預測模型時,應當將文章分為“爆文”和普通文章,使模型回歸具備更強的預測能力。

3 結論

(1)提取文章特征并預測流量是可行的,XGBoost的預測能力高于隨機森林。

(2)在變量重要性的度量中,是否為“爆文”在特征的選取上存在較大差異。在建立預測模型時,應將文章分為“爆文”和普通文章兩類。

(3)影響文章閱讀量的因素包括標題的漢字個數、標題的情感、正文的長度、正文所涉及的主題、發布的時間點和星期、是否頭條以及標題中是否會出現某些詞。這些提取到的特征對該公眾號的創作指導顯然是具有意義的。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一本一道波多野结衣一区二区| 18禁不卡免费网站| av色爱 天堂网| 亚洲色大成网站www国产| 极品av一区二区| 国产一级裸网站| 亚洲精品在线91| 黄色免费在线网址| 91亚洲免费| 中文字幕1区2区| 久久先锋资源| 亚洲国产综合精品一区| 久久亚洲美女精品国产精品| 精品亚洲国产成人AV| 国产精品久线在线观看| 国产亚洲高清在线精品99| 午夜无码一区二区三区在线app| 国产欧美又粗又猛又爽老| 亚洲天堂免费| 欧美a级完整在线观看| 久久久久久尹人网香蕉| 国产一级精品毛片基地| 91视频精品| 日韩国产精品无码一区二区三区| 性色一区| 综合亚洲网| 国产女人水多毛片18| 亚洲精品免费网站| 中国丰满人妻无码束缚啪啪| 无码日韩视频| 午夜国产大片免费观看| 天天综合网亚洲网站| 91精品最新国内在线播放| 色老头综合网| 欧美日韩中文字幕二区三区| 欧美精品v| 88av在线看| 欧美在线伊人| 天天色综网| 中文字幕啪啪| 色天堂无毒不卡| 亚洲色图综合在线| 大陆精大陆国产国语精品1024| av大片在线无码免费| 久久96热在精品国产高清| 国产免费福利网站| 色吊丝av中文字幕| 熟女日韩精品2区| 亚洲一级毛片在线观播放| 日本影院一区| 日韩精品成人网页视频在线| 精品视频福利| 中文字幕有乳无码| 午夜视频免费一区二区在线看| 制服丝袜国产精品| 精品亚洲麻豆1区2区3区| 中国丰满人妻无码束缚啪啪| 久草视频一区| 91免费观看视频| 午夜成人在线视频| 亚洲一级毛片在线观| 国产jizz| 日本午夜精品一本在线观看| 欧美影院久久| 美女被躁出白浆视频播放| 一本色道久久88| 26uuu国产精品视频| 九九这里只有精品视频| 日本精品αv中文字幕| 色妞www精品视频一级下载| 国产免费福利网站| 一区二区无码在线视频| 国产麻豆va精品视频| 91精品人妻互换| 视频在线观看一区二区| 久久国产精品嫖妓| 亚洲天堂福利视频| 超碰色了色| 国产成人精品亚洲77美色| 久久男人视频| 亚洲日韩精品伊甸| 亚洲欧洲自拍拍偷午夜色|