文/曾穎 李志濤 周燕
(華南農業大學 廣東省廣州市 510642)
隨著社交網絡的發展和人們上網偏好的改變,過半的成年國民都進行微信閱讀,微信公眾號逐漸成為重要的媒體平臺之一。一個公眾號基本有著相對固定的風格和目標人群,不同人群也代表著不同的閱讀偏好。而就在微信公眾號“咪蒙”關閉前,就被指出其文章內容越是煽動情緒、發泄仇恨,傳播力就越強?!斑涿伞钡淖髡咭苍硎荆婕暗綗狳c、金錢、性、暴力的文章閱讀量高。說明公眾號若能夠抓住關注者的閱讀偏好,并生產閱讀偏好下用戶最可能喜聞樂見的內容,則應當對其閱讀量的提升存在一定作用。于是,本文在文本數據挖掘的基礎上,以提取到的篇幅、主題、風格等文章特征為變量,建立流量預測模型。旨在確認影響媒體閱讀量的因素,并找到一套可復制的自媒體大數據研究方案,實現文本數據挖掘技術的延伸、傳播學自媒體研究的拓展。
本文文本數據挖掘主要利用Python的requests+BeautifulSoup +Charles,且需要通過不斷變化的pass_ticket、key和uin來進行反爬蟲機制,獲得文章閱讀量和點贊量的實時動態數據。
特征工程是指將原始數據轉換成更可能表現預測模型的潛在問題的特征的過程。本研究所使用四個維度,即文章的標題、發布時間、內容和閱讀量。文章閱讀量作為本研究預測模型的目標變量,而文章標題、文章發布時間、文章內容可通過多種方式提取特征,轉換出更多自變量。在這其中,用到R軟件的jiebaR軟件包中混合模型(隱式馬爾科夫模型與最大概率法的結合)進行分詞處理。

圖1:隨機森林的實際閱讀量與預測閱讀量對比
本文預測模型的建立采用隨機森林回歸和XGBoost回歸。隨機森林回歸是一種集成式的監督學習方法,以此驗證通過提取文章特征預測閱讀量的可行性。XGBoost是GBDT的一種高效實現,算法中采用了多種策略防止過擬合,并支持交叉驗和并行化處理,且能夠高效處理稀疏矩陣。
本文爬取微信公眾號“情感說說”2018年11月14日至2019年5月11日的數據,剔除流量一周增長率大于1%(文章發布兩周時的閱讀量÷文章發布一周時的閱讀量)、閱讀量在三倍標準差范圍外的文章,經過數據清洗后選用226篇文章的標題、發布時間、內容和閱讀量這4個變量作為研究數據。
2.2.1 文章標題的特征提取
文章標題的特征很可能包涵著對文章流量預測的重要信息。本文提取標題的漢字個數、符號個數、詞頻、情感。通過可視化、擬合曲線及預測區間的形式得知文章標題字數越少,文章閱讀量越高。然后通過混合模型對文章標題進行分詞處理,只保留實詞,最終獲得114個詞來建立114個特征作為分類變量,原始數據因此成為多維度稀疏數據。最后,將標題情感人工分為積極、消極和中性三類,并分別賦值1,-1和0。
2.2.2 文章正文的特征提取

圖2:XGBoost的實際閱讀量與預測閱讀量對比
當讀者通過文章的各種特征判斷其為一篇“好文章”時,可能會對其進行分享,利于文章傳播,提高閱讀量。本文提取文章的字符數、發布時間。通過提取統計文章中所有詞語的詞頻,可以自動查找主題。運用主題數K=3的LDA主題概率模型,將文本視作詞頻向量,從單詞的概率分析得知主題。而文本又是多個主題構成的一個概率分布,從而得知正文的主題特征。同時,把文章發布時對應的星期幾作為分類變量,且若為頭條取1,為次條取0進行建模處理。

表1:隨機森林回歸的變量重要度

表2:XGBoost回歸的變量重要度
因為本文只涉及文章閱讀量的其中幾個影響因素,所以預測建模過程需要泛化性能強的集成模型算法。
2.3.1 隨機森林回歸
本文通過R軟件的randomForest軟件包建立隨機森林,首先劃分訓練集和測試集,并通過randomForest函數建立隨機森林。模型殘差平方的均值為30400700,方差解釋度為-2.08.閱讀量預測值和實際值對比結果如圖1所示,模型的預測整體上存在偏大的可能,但成功預測了兩篇文章的閱讀量可以達到1萬次以上,說明構造流量預測模型評估文章能否成為“流量爆文”是可能的。然后獲取隨機森林的變量重要性的度量列表,重要性最高的10個特征如表1所示。
2.3.2 XGBoost回歸
為改進上述模型的不足,本文采用通過R軟件的xgboost包對上述方法相同的訓練集構建模型,得到結果如圖2所示??梢姼鼽c相對均勻地分布在對角線的兩側,模型預測效果遠遠好于使用隨機森林回歸的第一次預測。隨后,通過xgb.importance函數度量各個特征的重要性,得到重要性最高的10個特征如表2所示。對比表1可知,兩個模型在變量上的選擇有很大的相似性。
2.3.3 模型優化
文章的閱讀量一旦超過10000,也就是所謂的“流量爆文”,其流量的影響因素就變得十分不可控。因此,剔除閱讀量在1萬以上的文章,以閱讀量較低的樣本重新建立預測模型。在隨機森林回歸中,模型的殘差平方的均值為2303036,有了明顯的降低,而且方差解釋度超過了10,說明該隨機森林對公眾號文章閱讀量具備一定的解釋力。而兩個樣本建立的流量預測模型中重要變量有所區別。
用XGBoost回歸作相同的處理,得到的模型的殘差平方均值為3066360,比前面的幾個模型的預測效果都要好。統一樣本下,不同模型重要特征的差異小于不同樣本下建模的重要特征的差異。說明在建立預測模型時,應當將文章分為“爆文”和普通文章,使模型回歸具備更強的預測能力。
(1)提取文章特征并預測流量是可行的,XGBoost的預測能力高于隨機森林。
(2)在變量重要性的度量中,是否為“爆文”在特征的選取上存在較大差異。在建立預測模型時,應將文章分為“爆文”和普通文章兩類。
(3)影響文章閱讀量的因素包括標題的漢字個數、標題的情感、正文的長度、正文所涉及的主題、發布的時間點和星期、是否頭條以及標題中是否會出現某些詞。這些提取到的特征對該公眾號的創作指導顯然是具有意義的。