999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談數據挖掘

2019-12-20 03:02:11陳俟伶謝鵬
科教導刊·電子版 2019年29期
關鍵詞:數據挖掘

陳俟伶 謝鵬

摘 要 本文是基于數據挖掘的微信公眾號關注趨勢分析。數據挖掘技術能夠在海量的數據信息中搜尋出更加有價值的信息,實現數據信息的價值。微信公眾平臺是微信旗下推出進行信息推送與接收的平臺,是自媒體時代的產物,依靠著微信這個大平臺展示出了良好的傳播效果,其傳播路徑和方式與以前的媒體形式有所不同。利用數據分析工具對這些數據進行可視化展示,對產生的結果進行分析。

關鍵詞 大數據時代 數據挖掘 微信公眾號

中圖分類號:TP311文獻標識碼:A

0緒論

(1)數據挖掘的意義。

在這個大數據的時代,每個人都可以被稱為是生產者或是傳播者,因此很多互聯網信息中都帶有這關于潛在消費者的信息,通過對這些數據進行挖掘利用,就能夠更加清楚的得知這些潛在客戶的真實需求。數據挖掘技術具有比較復雜的特征,無論是應用對象還是應用過程,都涉及到大量因素。因為數據挖掘技術的特殊性,所以最終得到的結果也是存在特殊性質的信息。

(2)數據挖掘的包含方面。

數據挖掘一般包含數據預處理、數據挖掘、后處理這三個方面。

預處理的存在是為了提前將一些無用的數據剔除出去,這些“廢物”的存在很可能導致數據模型計算的失敗,所以說數據預處理是數據挖掘過程中不可缺失的一部分,雖然這部分會占據數據挖掘的大部分時間,但還是值得我們認真去完成。當我們完成數據的預處理后,接下來的數據挖掘和后處理就變得簡單很多,只需要將特定的數據放到特定的模型中去計算,將最合適的移交給后處理。

1算法介紹

1.1數據挖掘的算法

1.1.1經典算法

在如今的國際上認同的算法有:

C2.5算法;Apriori算法;PageRank算法;AdaBoost算法;KNN算法;CART算法;SVM算法;EM算法;K-Means算法;NaiveBayes算法。

1.1.2算法舉例

(1)聚類:K均值(Kmeans)、最近鄰算法(KNN)、期望最大值算法(EM)、隱含狄利克雷分布(LDA)。

(2)分類:支持向量機(SVM)、邏輯回歸(LR)、梯度下降樹(GBDT)、隨機森林(RF)、樸素貝葉斯(NB)、深層神經網絡(DNN)、卷積神經網絡(CNN)、LSTM(Long Short-Term Memory)。

(3)回歸:普通最小二乘回歸(OLS)、梯度下降樹(GBDT)。

(4)降維:主成分分析(PCA)、因子分析(FA)、LDA。

(5)時間序列:自回歸模型(AR)、滑動平均模型(MA)、自回歸移動平均模型(ARMA)。

①Adaboost。Adaboost是將不同的幾個弱的分類器相互結合在一起成強分類器算法然后來加快算法的速度。

②PageRank。PageRank的核心最主要的思想是在從一些優質的網頁基礎上鏈接過來的網頁,所以還是優質網頁的回歸關系,來判定所有網頁的重要性。

1.2微信公眾號數據的獲取

1.2.1爬蟲抓取數據

微信在數據方面來說是一個比較封閉的一個平臺,首先從微信的客戶端入手,然后通過抓包來進行數據的分析請求,再者使用 Fiddler、Charles 代理工具來進行抓包分析請求的構造原理,然后 Requests 等網絡請求的板塊來模擬微信向服務器發出請求從而獲得響應式數據,接著把抓出來的數據過濾和清潔,最后就可以用 Pandas 來進行數據分析然后就可視化展示出來了。

1.2.2數據挖掘的流程

(1)數據集選擇。一般來說數據集就是可獲得或者已存在的 (在網上過濾抓取需要的數據或者訪問網上的一些資料庫和使用軟件進行主動收集的數據等)。數據集的選擇對數據挖掘起著非常至關重要的作用。

(2)數據預處理。在數據集選取了后,接著就可以對數據進行預處理,這樣可以讓數據可以被我們使用。數據預處理大大的提高了數據的質量。

①數據清理。首先不看元祖,然后主動填寫缺失的值,使用屬性的中心度量的填充,給定同一類所有樣本的屬性均值或中位數填充,最可能的值填充。

②數據集成。實體識別,冗余和相關分析(卡方檢驗,相關系數,協方差等,用spss比較方便)。

③數據歸約。維規約(小波變換和主成分分析,最常用),數量規約(較小的數據替代原始數據),數據壓縮(有損無損兩種,尤其對于圖像視頻等多媒體常用)。

(3)數據分析算法。最經典的莫過于頻繁模式挖掘了,對象為事物出現的次數。如著名的啤酒尿布。其中最典型的算法為Apriori算法,包括連接和剪枝。其中有置信度,支持度,頻繁項集最小置信度閾值等重要概念,到相關分析中還有提升度,全置信度,Kulczy和余弦等判斷標準和零不變度量考慮。

2結論

通過對微信公眾號推送內容進行數據分析,企業可以編輯與自己企業文化相關的內容發布到微信公眾號上,同時也要滿足用戶的需求,推送用戶喜歡的內容,正確認識用戶的需求,以恰當的方式展開工作,結合讀者的需求為其推送更有價值的文章。同時從根本上提高微信公眾號的專業性,以此發揮微信公眾號的作用。

參考文獻

[1] JiaweiHan, MichelinKamber, JianPei,et al.數據挖掘:概念與技術(第三版)[M].機械工業出版社, 2012.

[2] 胡可云,田鳳,董偉峰.數據挖掘理論與應用[M].北京:清華大學出版社, 2008.

[3] 王學鳴,黃秋波.微信公眾號的現狀、類型及發展趨勢研究[J].無線互聯科技,2018(05):60-61.

[4] 李平榮.大數據時代的數據挖掘技術與應用[J].重慶三峽學院學報,2014(03): 45-47.

[5] 黃楚新,王丹.微信公眾號的現狀、類型及發展趨勢[J].新聞與寫作,2015(07): 5-9.

[6] 中國產業信息網. 2017年中國微信公眾號發展現狀及發展趨勢分析【圖】[EB/OL]. http://www.chyxx.com/industry/201807/656197.html, 2018-07-06.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产日产欧美精品| 亚洲国产91人成在线| 天天综合网亚洲网站| 国产亚洲精久久久久久久91| 亚洲欧美日韩色图| 怡春院欧美一区二区三区免费| 丝袜久久剧情精品国产| 亚洲精品无码成人片在线观看| 天天色综网| 国产成人在线小视频| 亚洲一区二区约美女探花 | 亚洲欧美一区二区三区麻豆| 久久大香伊蕉在人线观看热2| 免费看久久精品99| 亚洲一区二区成人| 五月丁香在线视频| 青青操视频免费观看| 久久女人网| 国产一二三区在线| 国产理论精品| 亚洲欧美h| 制服丝袜国产精品| 日韩在线网址| 国产成人AV综合久久| 欧洲成人免费视频| 99精品在线看| 色首页AV在线| AV无码一区二区三区四区| 亚洲精品第一页不卡| 日韩精品视频久久| 亚洲中文字幕久久精品无码一区| 91成人免费观看在线观看| 一本一本大道香蕉久在线播放| 亚洲AV色香蕉一区二区| 国产剧情一区二区| 秘书高跟黑色丝袜国产91在线| 久久性视频| 欧美一区国产| 亚洲综合国产一区二区三区| 男女精品视频| 欧美日韩va| 色吊丝av中文字幕| 精品三级在线| 亚洲天堂视频在线观看| 中国一级特黄大片在线观看| 成人国产精品2021| 欧美一区日韩一区中文字幕页| 国产美女无遮挡免费视频| 青青国产视频| 国产91无毒不卡在线观看| 99热这里只有精品2| 国产精品手机在线观看你懂的| 99热这里只有精品2| 中文字幕在线播放不卡| 中文字幕免费在线视频| 麻豆精品在线| 992tv国产人成在线观看| 日韩国产综合精选| 国产杨幂丝袜av在线播放| 国产精品免费电影| 九九热精品在线视频| 国产91全国探花系列在线播放| 人妻中文久热无码丝袜| 青青草国产一区二区三区| 国产原创演绎剧情有字幕的| 91在线无码精品秘九色APP | 日韩精品久久无码中文字幕色欲| 亚洲手机在线| 一级毛片高清| 国产香蕉在线| 亚洲第一在线播放| 亚洲国产中文精品va在线播放| 日韩精品一区二区三区免费| 亚洲成人精品| 91在线国内在线播放老师| 国产成人免费观看在线视频| 99偷拍视频精品一区二区| 国产精选自拍| 一级毛片a女人刺激视频免费| 欧美亚洲综合免费精品高清在线观看 | 欧美国产中文| 人人妻人人澡人人爽欧美一区|