999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向文章流量預(yù)測(cè)的特征篩選與分析*

2020-04-25 13:37:24胡寶靈李志濤
通信技術(shù) 2020年4期
關(guān)鍵詞:分類特征研究

胡寶靈,李志濤,周 燕

(華南農(nóng)業(yè)大學(xué),廣東 廣州 510642)

0 引 言

隨著互聯(lián)網(wǎng)自媒體的興盛和人們上網(wǎng)偏好的改變,微信公眾號(hào)逐漸成為重要的媒體平臺(tái)之一。公眾號(hào)若能夠抓住關(guān)注者的閱讀偏好,并生產(chǎn)閱讀偏好下用戶最可能喜聞樂(lè)見(jiàn)的內(nèi)容,將對(duì)其閱讀量的提升存在一定作用。因此,本文在文本數(shù)據(jù)挖掘的基礎(chǔ)上,分析可能影響文章閱讀量的特征,并對(duì)這些特征進(jìn)行篩選,旨在確認(rèn)影響媒體閱讀量的因素,實(shí)現(xiàn)文本數(shù)據(jù)挖掘技術(shù)的延伸、傳播學(xué)自媒體研究的拓展。

1 文獻(xiàn)綜述

自媒體閱讀量受多種因素影響。在自媒體閱讀量的研究中,研究者們采用多種方法確認(rèn)閱讀量的影響因素,如金星[1]通過(guò)分析案例闡述閱讀量對(duì)文章特征的影響;陳星蓉、龍興宇[2]結(jié)合人群喜好提取吸引讀者的文章特征,但它們?nèi)狈?shù)據(jù)支持。還有通過(guò)描述性數(shù)據(jù)分析來(lái)估計(jì)閱讀量影響因素的研究,如郭爐、劉春云[3]將公眾號(hào)文章的多種特征可視化,判斷是否影響閱讀量,但這種方法仍舊缺乏有效的有效性檢驗(yàn)。鐘若曦、馬曉燕等[4]采用多因素Logistics 回歸分析閱讀量和點(diǎn)贊量的影響因素和程度,但數(shù)據(jù)因人為主觀因素而存在誤差。

2 研究方法

本研究以一個(gè)微信公眾號(hào)為研究主體,通過(guò)爬蟲(chóng)技術(shù)獲取該公眾號(hào)下的所有文章為研究樣本,然后估計(jì)閱讀量發(fā)展至穩(wěn)定所需的時(shí)間,裁去部分閱讀量仍未達(dá)到穩(wěn)定的樣本,隨后數(shù)據(jù)清洗,去除特殊文章和異常文章,并將文章的標(biāo)題和文章轉(zhuǎn)換詞向量,再進(jìn)行特征工程。通過(guò)最大概率法、主題概率模型以及相關(guān)數(shù)據(jù)操作技術(shù),對(duì)數(shù)據(jù)進(jìn)行分詞處理,提取文章特征,并檢驗(yàn)所提取特征與閱讀量之間的關(guān)系。

3 數(shù)據(jù)處理

本文爬取微信公眾號(hào)“情感說(shuō)說(shuō)”2018 年11月14 日至2019 年5 月11 日的數(shù)據(jù),剔除流量一周增長(zhǎng)率大于1%(文章發(fā)布兩周時(shí)的閱讀量文章發(fā)布一周時(shí)的閱讀量)、閱讀量在3 倍標(biāo)準(zhǔn)差范圍外的文章。經(jīng)過(guò)數(shù)據(jù)清洗后,選用226篇文章的標(biāo)題、發(fā)布時(shí)間、內(nèi)容和閱讀量4 個(gè)變量作為研究數(shù)據(jù)。

4 特征工程

4.1 文章標(biāo)題的特征

陳星蓉、龍興宇[2]認(rèn)為,文章標(biāo)題對(duì)文章流量有著至關(guān)重要的影響,新穎的標(biāo)題往往使文章具有較高的閱讀量。文章標(biāo)題的特征很可能包涵對(duì)文章流量預(yù)測(cè)的重要信息,故本研究首先提取文章標(biāo)題的特征。

4.1.1 標(biāo)題漢字的個(gè)數(shù)

本文將文章標(biāo)題的漢字個(gè)數(shù)與文章閱讀量通過(guò)散點(diǎn)圖的形式可視化,并生成通過(guò)最小二乘法擬合得到曲線及95%的預(yù)測(cè)區(qū)間,如圖1 所示。可以看見(jiàn),數(shù)據(jù)點(diǎn)主要集中在左側(cè)且偏上的位置,擬合曲線明顯向下傾斜。

圖1 漢字個(gè)數(shù)與文章閱讀量的散點(diǎn)圖及擬合曲線(95%)

通過(guò)R 軟件計(jì)算得到的一元線性回歸系數(shù)表(表1)可以發(fā)現(xiàn),標(biāo)題的漢字個(gè)數(shù)在回歸模型中的t 檢驗(yàn)顯著性水平小于0.05,說(shuō)明漢字個(gè)數(shù)在流量預(yù)測(cè)模型中存在足夠的信息價(jià)值。

表1 漢字個(gè)數(shù)與文章閱讀量的回歸系數(shù)表

4.1.2 標(biāo)題符號(hào)的個(gè)數(shù)

王干麗[5]在研究公眾號(hào)文章標(biāo)題時(shí)發(fā)現(xiàn),標(biāo)點(diǎn)符號(hào)可以增強(qiáng)文章的感染力。本研究將標(biāo)點(diǎn)符號(hào)這一特征進(jìn)行多種方式分類,發(fā)現(xiàn)將沒(méi)有標(biāo)點(diǎn)符號(hào)以及有標(biāo)點(diǎn)符號(hào)的標(biāo)題劃為一類,剩余有兩個(gè)及以上標(biāo)點(diǎn)符號(hào)的標(biāo)題劃為一類,這種情況經(jīng)過(guò)方差分析F 檢驗(yàn)后的顯著性水平最低。以符號(hào)情況為名建立新變量,并將第一類劃為0,第二類劃為1,共得到201 個(gè)0 和25 個(gè)1。

4.1.3 標(biāo)題的詞頻

文章標(biāo)題是讀者了解文章最快速的渠道,標(biāo)題中的每一個(gè)詞都可能意味著是文章所涉及的主題或討論的話題,而讀者也往往可能因?yàn)槲恼碌哪骋粋€(gè)詞而選擇閱讀文章。

本研究將以文章標(biāo)題中出現(xiàn)的詞建立多個(gè)變量。在建立詞變量前,首先需要對(duì)文章的所有標(biāo)題進(jìn)行分詞處理。

經(jīng)過(guò)R 軟件jiebaR 中segment 函數(shù)的處理,文章標(biāo)題將分為一個(gè)個(gè)詞。以標(biāo)題“希望,對(duì)余生的希望”為例,經(jīng)過(guò)分詞處理后的輸出結(jié)果為“希望”“對(duì)”“余生”“的”“希望”。對(duì)226 個(gè)標(biāo)題進(jìn)行分詞處理,共收集到533 個(gè)詞,其中370 個(gè)詞僅出現(xiàn)1 詞,81 個(gè)詞出現(xiàn)2 詞,而出現(xiàn)次數(shù)最多的詞為“的”字出現(xiàn)77 次。本研究保留名詞、動(dòng)詞、形容詞等實(shí)詞,副詞、介詞、連詞等虛詞刪去,獲得114 個(gè)詞,并以這114 個(gè)特征作為分類變量。

4.1.4 標(biāo)題的情感

本文利用處理多分類問(wèn)題的兩種拆分策略在鳶尾花數(shù)據(jù)集上進(jìn)行對(duì)比研究,比較兩種拆分策略的優(yōu)劣性,為后續(xù)多分類問(wèn)題的研究起到一定的指引作用。

由于研究對(duì)象屬于一個(gè)情感類公眾號(hào),因此研究將標(biāo)題的情感作為特征之一。

研究根據(jù)情感態(tài)度將標(biāo)題分為積極、消極和中性3 類。運(yùn)用專家打分法,同時(shí)建立特征標(biāo)題情感,將積極、消極和中性分別賦值為1、-1 和0。經(jīng)過(guò)處理后共得到54 個(gè)積極標(biāo)題、131 個(gè)消極標(biāo)題和41 個(gè)中性標(biāo)題。部分標(biāo)題的劃分如表2 所示。

4.2 文章正文的特征

當(dāng)讀者通過(guò)文章的各種特征判斷其為一篇“好文章”時(shí),可能會(huì)分享它,利于文章傳播提高閱讀量。下面將應(yīng)用多種統(tǒng)計(jì)方法提取文章正文的特征,盡可能從數(shù)據(jù)中獲取有價(jià)值的信息。

4.2.1 正文主題

本文提取文章的字符數(shù)和發(fā)布時(shí)間。通過(guò)提取統(tǒng)計(jì)文章中所有詞的詞頻,可以自動(dòng)查找主題。運(yùn)用主題數(shù)K=3 的LDA 主題概率模型,將文本視作詞頻向量。從單詞的概率分析得知主題,而文本又是多個(gè)主題構(gòu)成的一個(gè)概率分布,從而得知正文的主題特征。

4.2.2 正文長(zhǎng)度

文章長(zhǎng)度可能隱含能影響閱讀量的有價(jià)值信息,故計(jì)算正文的字符數(shù)表示文章長(zhǎng)度。正文長(zhǎng)度的樣本均值為568.58,樣本標(biāo)準(zhǔn)差為107.01。將正文長(zhǎng)度的密度分布函數(shù)可視化后發(fā)現(xiàn),整體近似正態(tài)分布,密度分布函數(shù)圖在正文長(zhǎng)度800 左右小范圍起伏。

4.2.3 發(fā)布時(shí)間

研究的226 篇文章中,只有1 篇在19:30 發(fā)布,其余225 篇在21:04 至23:58 之間發(fā)布。以21:00 起的每分鐘為發(fā)布時(shí)間,則21:04分發(fā)布的文章為4分,23:58 發(fā)布則為178 分,19:30 發(fā)布的那篇文章直接作為21:00 處理,然后將整理后的時(shí)間可視化,發(fā)現(xiàn)閱讀量在10 000 以下的數(shù)據(jù)散點(diǎn)有輕微的波動(dòng)起伏情況,說(shuō)明夜間閱讀存在高峰與低谷。

類似的,微信用戶也可能因?yàn)楣ぷ鞯汝P(guān)系,在工作日與休息日上有不同的閱讀頻率。因此,將文章發(fā)布日期轉(zhuǎn)換為周一至周日,并對(duì)閱讀量在7 個(gè)水平上進(jìn)行方差分析,得出方差分析表如表3 所示,箱型圖如圖2 所示。

表3 閱讀量的方差分析表

圖2 文章閱讀量以星期未分割的箱型

可以明顯看出,在周一發(fā)布的文章閱讀量集中且低于其他天,而周日發(fā)布的文章閱讀量相對(duì)分散。同時(shí),在方差分析表中,經(jīng)過(guò)F 檢驗(yàn)的p 值為0.584,在0.1 的顯著性水平下,可以認(rèn)為閱讀量在不同的星期發(fā)布是有差異的。

在微信公眾號(hào)的訂閱號(hào)頁(yè)面,一些訂閱號(hào)群發(fā)的文章有分頭條與次條,如圖3 所示。

圖3 訂閱號(hào)群發(fā)預(yù)覽

通過(guò)瀏覽數(shù)據(jù)對(duì)比公眾號(hào)的群發(fā)內(nèi)容發(fā)現(xiàn),收集到的數(shù)據(jù)中,當(dāng)天的第一條為頭條,其余為次條。以頭條為1、次條為0,經(jīng)過(guò)提取后得到125 篇頭條和101 篇次條。

4.3 有效性檢驗(yàn)

經(jīng)過(guò)上述過(guò)程的特征提取,原始數(shù)據(jù)變成226行125 列的數(shù)據(jù)框。除去文章閱讀量,125 個(gè)特征分別是標(biāo)題的漢字個(gè)數(shù)(連續(xù)變量)、標(biāo)題的符號(hào)個(gè)數(shù)(二分類變量)、標(biāo)題的情感(多分類變量)、正文的長(zhǎng)度(連續(xù)變量)、文章發(fā)布時(shí)間(連續(xù)變量)、文章發(fā)布星期(有序變量或多分類變量)、頭條次條情況(二分類變量)、114 個(gè)標(biāo)題的詞頻(二分類變量)、3 個(gè)正文的主題概率值(連續(xù)變量)和正文的主題類型。總的來(lái)說(shuō),可以分為連續(xù)變量、二分類變量和多分類變量3 種類型。

對(duì)3 種變量類型的特征進(jìn)行有效性檢驗(yàn),對(duì)連續(xù)或有序變量特征與文章閱讀量進(jìn)行相關(guān)性檢驗(yàn),確認(rèn)特征是否對(duì)文章閱讀量有線性影響。檢驗(yàn)結(jié)果(表4)顯示,標(biāo)題的漢字個(gè)數(shù)對(duì)閱讀量有明顯線性相關(guān)性,且當(dāng)發(fā)布星期作為有序變量時(shí),可以看成其對(duì)閱讀量存在有線影響。

二分類變量特征將文章閱讀量在特征水平上分為兩組,若特征對(duì)閱讀量有影響,則應(yīng)當(dāng)反映兩組間均值是有差異的,因此通過(guò)T 檢驗(yàn)確認(rèn)特征的有效性。

由于本文特征工程中創(chuàng)建的特征超百個(gè),故僅抽取0.05 顯著性水平下表現(xiàn)顯著的特征作為結(jié)果展示(表5)。這些標(biāo)題詞頻特征表示,文章的標(biāo)題是否出現(xiàn)這些詞匯會(huì)顯著影響其閱讀量。

表4 相關(guān)性檢驗(yàn)結(jié)果

表5 顯著特征的T 檢驗(yàn)結(jié)果

而對(duì)于多分類變量,兩組各進(jìn)行一次則流程繁瑣,且無(wú)法反映整體情況,因此采用方差分析的方差檢驗(yàn)組間均值是否有差異。需要進(jìn)行方差分析檢驗(yàn)的特征分別是發(fā)布星期、標(biāo)題的情感和主題類型,3 次方差結(jié)果如表6 所示。

表6 方差分析檢驗(yàn)結(jié)果

5 結(jié) 語(yǔ)

研究發(fā)現(xiàn),影響文章閱讀量的因素有標(biāo)題的漢字個(gè)數(shù)、標(biāo)題的情感、正文的長(zhǎng)度、正文所涉及的主題類型、發(fā)布的時(shí)間點(diǎn)和星期、是否頭條以及標(biāo)題中是否會(huì)出現(xiàn)某些詞等。以上特征對(duì)該公眾號(hào)的創(chuàng)作指導(dǎo)顯然具有重要意義。

猜你喜歡
分類特征研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
分類算一算
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
EMA伺服控制系統(tǒng)研究
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 真实国产乱子伦视频| 亚州AV秘 一区二区三区| 亚洲美女视频一区| 久久女人网| 久操线在视频在线观看| www亚洲精品| 国产精品漂亮美女在线观看| 日本在线欧美在线| 中国一级特黄视频| 欧美人与动牲交a欧美精品| 这里只有精品在线播放| 亚洲第一在线播放| 青草免费在线观看| 国产凹凸一区在线观看视频| 国产无套粉嫩白浆| 婷婷五月在线| 久久久久人妻一区精品| 国产人成在线视频| 国产一国产一有一级毛片视频| 久久中文字幕2021精品| 人人看人人鲁狠狠高清| 欧美成人精品在线| v天堂中文在线| 久久一日本道色综合久久| 91年精品国产福利线观看久久 | 日本高清在线看免费观看| 欧美日韩精品在线播放| 中文毛片无遮挡播放免费| 亚洲综合九九| 伊人无码视屏| 国产乱子伦无码精品小说| 久草热视频在线| 尤物特级无码毛片免费| 欧美日韩福利| 成年人国产视频| 欧美第九页| 97一区二区在线播放| 国产欧美网站| 国产对白刺激真实精品91| 浮力影院国产第一页| 久久精品无码国产一区二区三区| 久久青草精品一区二区三区 | 成人在线观看一区| 在线日本国产成人免费的| 五月婷婷欧美| 日韩成人高清无码| 亚洲国产精品一区二区第一页免 | 国产人在线成免费视频| 亚洲熟妇AV日韩熟妇在线| 日韩视频免费| 激情在线网| 欧美视频在线不卡| 国产午夜人做人免费视频中文| 1769国产精品视频免费观看| 久久国产精品电影| 制服丝袜无码每日更新| 日本一区二区不卡视频| 亚洲男人天堂2018| 国产黄在线免费观看| 国内精自视频品线一二区| 亚洲第一成年网| 精品精品国产高清A毛片| av在线手机播放| 亚洲欧美不卡视频| 国产精品99r8在线观看| 亚洲欧美在线综合图区| 色婷婷久久| 亚洲高清免费在线观看| 国产成人狂喷潮在线观看2345| 色一情一乱一伦一区二区三区小说| 日本成人在线不卡视频| 波多野结衣视频一区二区| 99在线视频免费观看| 麻豆国产原创视频在线播放| 熟女日韩精品2区| 亚洲精品第1页| 国产精品9| 无码福利视频| h视频在线播放| 99久久国产精品无码| 美女被狂躁www在线观看| h视频在线播放|