陳俟伶 謝鵬
摘 要 本文是基于數據挖掘的微信公眾號關注趨勢分析。數據挖掘技術能夠在海量的數據信息中搜尋出更加有價值的信息,實現數據信息的價值。微信公眾平臺是微信旗下推出進行信息推送與接收的平臺,是自媒體時代的產物,依靠著微信這個大平臺展示出了良好的傳播效果,其傳播路徑和方式與以前的媒體形式有所不同。利用數據分析工具對這些數據進行可視化展示,對產生的結果進行分析。
關鍵詞 大數據時代 數據挖掘 微信公眾號
中圖分類號:TP311文獻標識碼:A
0緒論
(1)數據挖掘的意義。
在這個大數據的時代,每個人都可以被稱為是生產者或是傳播者,因此很多互聯網信息中都帶有這關于潛在消費者的信息,通過對這些數據進行挖掘利用,就能夠更加清楚的得知這些潛在客戶的真實需求。數據挖掘技術具有比較復雜的特征,無論是應用對象還是應用過程,都涉及到大量因素。因為數據挖掘技術的特殊性,所以最終得到的結果也是存在特殊性質的信息。
(2)數據挖掘的包含方面。
數據挖掘一般包含數據預處理、數據挖掘、后處理這三個方面。
預處理的存在是為了提前將一些無用的數據剔除出去,這些“廢物”的存在很可能導致數據模型計算的失敗,所以說數據預處理是數據挖掘過程中不可缺失的一部分,雖然這部分會占據數據挖掘的大部分時間,但還是值得我們認真去完成。當我們完成數據的預處理后,接下來的數據挖掘和后處理就變得簡單很多,只需要將特定的數據放到特定的模型中去計算,將最合適的移交給后處理。
1算法介紹
1.1數據挖掘的算法
1.1.1經典算法
在如今的國際上認同的算法有:
C2.5算法;Apriori算法;PageRank算法;AdaBoost算法;KNN算法;CART算法;SVM算法;EM算法;K-Means算法;NaiveBayes算法。
1.1.2算法舉例
(1)聚類:K均值(Kmeans)、最近鄰算法(KNN)、期望最大值算法(EM)、隱含狄利克雷分布(LDA)。
(2)分類:支持向量機(SVM)、邏輯回歸(LR)、梯度下降樹(GBDT)、隨機森林(RF)、樸素貝葉斯(NB)、深層神經網絡(DNN)、卷積神經網絡(CNN)、LSTM(Long Short-Term Memory)。
(3)回歸:普通最小二乘回歸(OLS)、梯度下降樹(GBDT)。
(4)降維:主成分分析(PCA)、因子分析(FA)、LDA。
(5)時間序列:自回歸模型(AR)、滑動平均模型(MA)、自回歸移動平均模型(ARMA)。
①Adaboost。Adaboost是將不同的幾個弱的分類器相互結合在一起成強分類器算法然后來加快算法的速度。
②PageRank。PageRank的核心最主要的思想是在從一些優質的網頁基礎上鏈接過來的網頁,所以還是優質網頁的回歸關系,來判定所有網頁的重要性。
1.2微信公眾號數據的獲取
1.2.1爬蟲抓取數據
微信在數據方面來說是一個比較封閉的一個平臺,首先從微信的客戶端入手,然后通過抓包來進行數據的分析請求,再者使用 Fiddler、Charles 代理工具來進行抓包分析請求的構造原理,然后 Requests 等網絡請求的板塊來模擬微信向服務器發出請求從而獲得響應式數據,接著把抓出來的數據過濾和清潔,最后就可以用 Pandas 來進行數據分析然后就可視化展示出來了。
1.2.2數據挖掘的流程
(1)數據集選擇。一般來說數據集就是可獲得或者已存在的 (在網上過濾抓取需要的數據或者訪問網上的一些資料庫和使用軟件進行主動收集的數據等)。數據集的選擇對數據挖掘起著非常至關重要的作用。
(2)數據預處理。在數據集選取了后,接著就可以對數據進行預處理,這樣可以讓數據可以被我們使用。數據預處理大大的提高了數據的質量。
①數據清理。首先不看元祖,然后主動填寫缺失的值,使用屬性的中心度量的填充,給定同一類所有樣本的屬性均值或中位數填充,最可能的值填充。
②數據集成。實體識別,冗余和相關分析(卡方檢驗,相關系數,協方差等,用spss比較方便)。
③數據歸約。維規約(小波變換和主成分分析,最常用),數量規約(較小的數據替代原始數據),數據壓縮(有損無損兩種,尤其對于圖像視頻等多媒體常用)。
(3)數據分析算法。最經典的莫過于頻繁模式挖掘了,對象為事物出現的次數。如著名的啤酒尿布。其中最典型的算法為Apriori算法,包括連接和剪枝。其中有置信度,支持度,頻繁項集最小置信度閾值等重要概念,到相關分析中還有提升度,全置信度,Kulczy和余弦等判斷標準和零不變度量考慮。
2結論
通過對微信公眾號推送內容進行數據分析,企業可以編輯與自己企業文化相關的內容發布到微信公眾號上,同時也要滿足用戶的需求,推送用戶喜歡的內容,正確認識用戶的需求,以恰當的方式展開工作,結合讀者的需求為其推送更有價值的文章。同時從根本上提高微信公眾號的專業性,以此發揮微信公眾號的作用。
參考文獻
[1] JiaweiHan, MichelinKamber, JianPei,et al.數據挖掘:概念與技術(第三版)[M].機械工業出版社, 2012.
[2] 胡可云,田鳳,董偉峰.數據挖掘理論與應用[M].北京:清華大學出版社, 2008.
[3] 王學鳴,黃秋波.微信公眾號的現狀、類型及發展趨勢研究[J].無線互聯科技,2018(05):60-61.
[4] 李平榮.大數據時代的數據挖掘技術與應用[J].重慶三峽學院學報,2014(03): 45-47.
[5] 黃楚新,王丹.微信公眾號的現狀、類型及發展趨勢[J].新聞與寫作,2015(07): 5-9.
[6] 中國產業信息網. 2017年中國微信公眾號發展現狀及發展趨勢分析【圖】[EB/OL]. http://www.chyxx.com/industry/201807/656197.html, 2018-07-06.