999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Kafka對Python模擬產(chǎn)生的動態(tài)金融數(shù)據(jù)的分析

2019-09-10 04:17:44晉宇邵煜
新教育論壇 2019年13期
關(guān)鍵詞:金融分析系統(tǒng)

晉宇 邵煜

摘要:隨著時代的發(fā)展,數(shù)據(jù)已經(jīng)漸漸地滲透于我們生活的每一個地方,而我們對于數(shù)據(jù)的使用和分析也越來越頻繁。對于數(shù)據(jù)的抓取與分析顯得格外的重要。如今,傳統(tǒng)的數(shù)據(jù)的抓取 與分析已經(jīng)無法滿足日益增長的科技發(fā)展了。我們需要一個快速,簡潔,方便,高吞吐量,可實時消費(fèi)的高性能分布式消息系統(tǒng)。本文從Python對數(shù)據(jù)的抓取,Kafka對數(shù)據(jù)的整合,以及NS3對數(shù)據(jù)的分析來簡單描述Kafka的消息系統(tǒng)。

關(guān)鍵詞:Kafka分布式發(fā)布訂閱消息系統(tǒng);Python;NS3

1.研究意義

時代的發(fā)展,電子數(shù)據(jù)已經(jīng)漸漸地滲透于我們生活的每一個地方,傳統(tǒng)的數(shù)據(jù)收集和分析模式已經(jīng)無法滿足企業(yè)的發(fā)展。因此,用Python對數(shù)據(jù)進(jìn)行抓取,用Kafka對數(shù)據(jù)進(jìn)行分析,可以了解我國國內(nèi)金融行業(yè)的現(xiàn)狀,小而言之,也可以了解金融行業(yè)中的一部分,比如對股票進(jìn)行分析,以判斷可以購買哪支股票。

2.Kafka的概念及優(yōu)勢

Kafka最初由LinkedIn公司開發(fā),之后成為Apache軟件基金開發(fā)的一個開源流處理平臺。它使用Scala編寫,因其高吞吐率而被廣泛使用。Kafka憑借著自身的優(yōu)勢,受到互聯(lián)網(wǎng)企業(yè)的青睞。在國內(nèi),唯品會也采用Kafka作為其內(nèi)部核心消息引擎之一。

Kafka是一個新穎的分布式的消息訂閱和發(fā)布的系統(tǒng),能夠?qū)崟r和離線對數(shù)據(jù)進(jìn)行處理。同時也具有自己獨(dú)特的設(shè)計優(yōu)勢:

1)高吞吐量(主要優(yōu)勢)。Kafka被創(chuàng)立出來的初衷就是為了能夠有效、快速的提高大量數(shù)據(jù)抓取和分析。并且,Kafka即使在普通的硬件上,也能夠支持每秒數(shù)百萬的消息。

2)數(shù)據(jù)的持久化存儲。對數(shù)據(jù)可持久化到磁盤,用于批量消費(fèi),防止數(shù)據(jù)丟失。

3)利用zookeeper確保服務(wù)的可行性。通過zookeeper管理協(xié)調(diào)數(shù)據(jù)的請求,將數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā)并進(jìn)行備份。

3.Kafka 應(yīng)用于 Python模擬產(chǎn)生動態(tài)的金融數(shù)據(jù)的分析

3.1 Python對模擬產(chǎn)生動態(tài)的金融數(shù)據(jù)的采集

通過Python中使用urllib2來支持HTTP通信協(xié)議的實現(xiàn)。用URL參數(shù)指示一個要下載的資源路徑。當(dāng)數(shù)據(jù)參數(shù)為空時,表示將發(fā)出一個GET類型的請求,該請求不包含任何實體;當(dāng)數(shù)據(jù)參數(shù)為非空時,預(yù)示著將發(fā)出一個POST類型的請求,數(shù)據(jù)的內(nèi)容為請求的實體內(nèi)容。可以自動地進(jìn)行抓取網(wǎng)絡(luò)的金融數(shù)據(jù),并對數(shù)據(jù)進(jìn)行采集[2]。或者通過網(wǎng)絡(luò)爬蟲按照一定的規(guī)則對數(shù)據(jù)進(jìn)行自動的抓取。按照行業(yè)領(lǐng)域劃分,分為股票、證券、債券、期貨等理財數(shù)據(jù), P2P數(shù)據(jù),電子商務(wù)數(shù)據(jù)等類型[3]。但以這樣的方式取得的金融網(wǎng)頁的頁面數(shù)據(jù),很有可能出現(xiàn)數(shù)據(jù)粗糙,錯誤的字符編碼和無序的結(jié)構(gòu)等現(xiàn)象。所以,首先要確定文檔的字符編碼,可以通過<head>中的content-type元得到。然后將其解碼成uncode類型[4],以保證數(shù)據(jù)存儲的方便。

3.2 Kafka 對 Python 抓取數(shù)據(jù)的處理

3.2.1 Kafka和Python產(chǎn)生的問題與解決方案

Kafka和Python均可以對數(shù)據(jù)進(jìn)行抓取,均需要一定的java編程基礎(chǔ),甚至于Kafka和Python均對數(shù)據(jù)可以進(jìn)行深入的分析。但在數(shù)據(jù)采集上,Python更加的方便。因此,如若對于編程不是特別熟悉的人,可以選擇用Python進(jìn)行數(shù)據(jù)采集,它使用的語言清晰簡練,而且易于理解,即使不是專業(yè)的編程人員也能夠理解程序的含義。但是同樣的,Python語言存在性能不足的缺點(diǎn)。在面對大量的數(shù)據(jù)時,Python的數(shù)據(jù)分析效率不是很高,甚至于可能會崩潰。而Kafka正好可以彌補(bǔ)這一缺點(diǎn),為數(shù)據(jù)的分析提供強(qiáng)大的支持。并且Python經(jīng)過一代代的開發(fā)研究,生成了kafka-python庫,可以通過一定的方式與Kafka進(jìn)行連接,實現(xiàn)了與Kafka之間的數(shù)據(jù)交互。

當(dāng)然,在數(shù)據(jù)的傳遞時也會產(chǎn)生一定的問題,比如,生產(chǎn)的消息因多次創(chuàng)建Kafka-Producer產(chǎn)生的問題。這會使得抓取的數(shù)據(jù)因為這個問題而丟失。

3.2.2多次創(chuàng)建Kafka的Producer產(chǎn)生的問題與解決方案

由于Kafka-Python將數(shù)據(jù)傳輸給Kafka,它將產(chǎn)生一條消息,發(fā)布者需要多次創(chuàng)建該消息才能單獨(dú)發(fā)送給消費(fèi)者,但在多次創(chuàng)建發(fā)布者時會產(chǎn)生一定的錯誤,無法繼續(xù)創(chuàng)建新Kafka生成器。產(chǎn)生錯誤的原因是因為每次創(chuàng)建一個新的Kafka生成器都會占用一個文件符號,這是因為controllen結(jié)束時,沒有釋放導(dǎo)致的。因此,我們可以創(chuàng)建一個用于控制的全局Kafka生成器。

3.3 Kafka對模擬產(chǎn)生動態(tài)的金融數(shù)據(jù)的處理

通過上述數(shù)據(jù)采集的方法,采集而來的數(shù)據(jù)都是粗糙的,因此,我們可以通過Kafka對數(shù)據(jù)進(jìn)行一遍整理。用NS3節(jié)點(diǎn)類[5]的方式對數(shù)據(jù)進(jìn)行簡單的處理。根據(jù)Kafka的分布式發(fā)布訂閱消息系統(tǒng)基本構(gòu)架,可以分別設(shè)置生產(chǎn)者、代理者、消費(fèi)者這3個節(jié)點(diǎn)。

針對于大數(shù)據(jù)的交互會有一個管理者來對這樣的大型分布式的系統(tǒng)進(jìn)行協(xié)調(diào)服務(wù)[6],用它來協(xié)調(diào)控制分布式網(wǎng)絡(luò)中各個節(jié)點(diǎn)的通信,維護(hù)系統(tǒng)的負(fù)載均衡[7],保證最大程度減輕代理系統(tǒng)的通信壓力,提高系統(tǒng)的性能。

最后我們可以設(shè)計一個特定的場景,比如添加2個或者以上的生產(chǎn)者,3個或以上的代理者,2個或以上的消費(fèi)者,設(shè)置消息大小為100字節(jié),讓生產(chǎn)者分別發(fā)布 80、100、300 條消息,并讓消費(fèi)者以隨機(jī)的方式進(jìn)行分配,最后,通過選取其中一個代理點(diǎn)和一個消費(fèi)者進(jìn)行數(shù)據(jù)的分析,并實時抓取的不同時間點(diǎn)的數(shù)據(jù)分析圖或表。

結(jié)束語

每一款軟件具有它的優(yōu)點(diǎn),我們應(yīng)該發(fā)揮的優(yōu)點(diǎn),與其他可以相關(guān)聯(lián)的軟件一起用,使得數(shù)據(jù)得到有效的分析。像Python用于捕捉數(shù)據(jù)速度算快,也方便,不過對于數(shù)據(jù)的整合上卻顯得很無力,因而我們可以選用Kafka來對數(shù)據(jù)進(jìn)行整合,并進(jìn)行分析。在動態(tài)數(shù)據(jù)上,Kafka對于動態(tài)數(shù)據(jù)的整合也能夠使它達(dá)到我們預(yù)期的效果。如若對于Kafka使用并不熟練者也可以通過數(shù)據(jù)整合之后,將數(shù)據(jù)導(dǎo)出放置于Spass中進(jìn)行簡單的數(shù)據(jù)分析。

參考文獻(xiàn):

[1]赫特蘭. Python 基礎(chǔ)教程[M].2版.北京:人民郵電出版社,2010.

[2]齊 鵬,李隱峰,宋玉偉.基于Python的Web數(shù)據(jù)采集技術(shù)[J].2012,25(11):118-120.

[3]王蕾,安英博,劉佳杰.基于Python的互聯(lián)網(wǎng)金融數(shù)據(jù)采集[J],2017,(9):47-49.

[4]魯特茲.Python 學(xué)習(xí)手冊[M].北京: 機(jī)械工業(yè)出版社,2009.

[5]馬浩然. 基于NS3的分布式消息系統(tǒng) Kafka的仿真實現(xiàn)[J].2015,(1):94-99.

[6]莫磊, 胥布工. 基于分布式估計及任務(wù)分配的WSANs 協(xié)同機(jī)制[J].新型工業(yè)化,2013,(12):15-27.

[7]蔣占軍,李成,李磊等. 分布式無線通信系統(tǒng)中并行Round Robin調(diào)度算法研究[J].新型工業(yè)化,,2011,(10):103-111.

[8]楊國龍.企業(yè)間大數(shù)據(jù)推薦引流系統(tǒng)研究與設(shè)計[D].湖南大學(xué),2016.

[9]周鐵峰.基于大數(shù)據(jù)的用戶電信息采集系統(tǒng)的設(shè)計與實現(xiàn)[D].華北電力大學(xué),2018.

猜你喜歡
金融分析系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
隱蔽失效適航要求符合性驗證分析
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
何方平:我與金融相伴25年
金橋(2018年12期)2019-01-29 02:47:36
君唯康的金融夢
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
電力系統(tǒng)及其自動化發(fā)展趨勢分析
P2P金融解讀
主站蜘蛛池模板: 伊人久久久大香线蕉综合直播| 国产精品漂亮美女在线观看| 国产成人亚洲精品无码电影| 在线观看国产精品第一区免费| 亚洲嫩模喷白浆| 一级毛片中文字幕| 欧美午夜网| 五月天久久综合| 2021精品国产自在现线看| 3344在线观看无码| 青青热久免费精品视频6| 久久福利片| 波多野结衣AV无码久久一区| 2021国产乱人伦在线播放| 国产一区二区三区在线精品专区| 色婷婷国产精品视频| 久夜色精品国产噜噜| 国产无码在线调教| 尤物特级无码毛片免费| 免费日韩在线视频| 99在线观看免费视频| 亚洲综合九九| 在线看片中文字幕| 一本综合久久| 国产精品免费入口视频| 欧美成人午夜视频| 欧美色图久久| 亚洲欧美日韩综合二区三区| 日韩大片免费观看视频播放| 欧美一级99在线观看国产| 伊大人香蕉久久网欧美| 一级一级一片免费| 在线免费a视频| 亚洲精品午夜天堂网页| 中文字幕在线看| 欧美亚洲欧美| 亚洲床戏一区| 无码国产偷倩在线播放老年人| 性做久久久久久久免费看| 久久综合亚洲色一区二区三区| 亚洲天堂首页| 国产精品短篇二区| 亚洲高清国产拍精品26u| 成人伊人色一区二区三区| 日韩无码真实干出血视频| 国产乱人视频免费观看| 伊人久久福利中文字幕| 欧美不卡在线视频| 67194在线午夜亚洲| 久久综合丝袜长腿丝袜| 久久99热这里只有精品免费看| 无码免费视频| 潮喷在线无码白浆| 久久久精品国产亚洲AV日韩| 九九热精品免费视频| 亚洲国产中文在线二区三区免| 久久精品娱乐亚洲领先| 午夜日本永久乱码免费播放片| 精品久久综合1区2区3区激情| 久草国产在线观看| 综合色婷婷| 国产亚洲精品无码专| 美女国产在线| 一区二区三区高清视频国产女人| 一级毛片在线直接观看| 夜夜拍夜夜爽| 无码专区在线观看| 国产伦精品一区二区三区视频优播| 国产视频欧美| 久久特级毛片| 日韩一区二区在线电影| 亚洲一区国色天香| 亚洲人成电影在线播放| 伊人久久精品亚洲午夜| 日本午夜影院| 国产激情无码一区二区APP| 一本久道久久综合多人| 国产日韩精品欧美一区喷| 国产好痛疼轻点好爽的视频| 特级精品毛片免费观看| 青青热久免费精品视频6| 国产免费久久精品99re不卡|