999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于流式引擎的大數據分布式架構

2020-09-10 11:53:33柴志菲李翔
商業2.0-市場與監管 2020年7期

柴志菲 李翔

摘要:在人工智能流行的時代,數據量的增長速度也是無法估計的,網絡上的留言也越來越多,也難免會有一些污穢的語言,所以凈化網絡環境是很重要的事情,我們可以利用自動化的網頁抓取技術將網絡上的留言保存下來,通過設計大數據架構對數據進行實時計算,然后分批裝載進數據庫,常見的流式處理技術像kafka[1]+spark streaming[2]+zookeeper[3]這樣進行架構,然后再將處理后的數據存儲進hive 或者HDFS這樣的存儲單元。

關鍵詞:大數據架構,流式處理,實時計算

如今我們正處于人工智能的時代,大數據,人工智能,自動化等概念越來越深入人心,讓我們對于這些詞匯越來越有清晰的印象,而在數據挖掘,數據計算方面,整理一個思路清晰的架構思路也是非常重要的。

我們所出的網絡環境,每天都會有很多人在上面發表自己的言論,這就會讓網絡成為一個自由的環境,但是也有很多不法分子在網絡上污穢的言論污染了我們所在的空間,這是一種不好且存在的現象,而我們可以使用人工智能大數據的手段,快速識別這些污穢的詞匯,從根本上杜絕這些情況的發生,這就需要設計一個可靠合理的大數據架構了。

1.數據集

我們使用自動化爬蟲框架源源不斷的去獲取到數據源,從某網站上使用代理池ip不斷替換身份,然后抓取網絡的言論,最后保證獲取到的數據大約是百萬量級的。

最開始的時候,我們主要是從百度貼吧,新浪微博的客戶端去進行獲取,因為對于數據加密的算法不會很難,可以很容易的就獲取到,然后將這些數據規范化,存儲進我們的數據庫,或者可以說是落盤與內存的一種中間狀態進行存儲。

2.設計架構

接下來,就是較為重要的架構設計了。

本文將架構的介紹按照數據流向的順序進行介紹。

第一步,自動化爬蟲獲取到的數據我們是落盤到HDFS上的,如果想進行計算,就需要將HDFS分區上的內容讀進內存,但是HDFS[6]上的數據是海量的,如果一次全部讀進來,會堆棧溢出,所以此方案設計為按照block編號的順序去進行讀取,之后對接到flume[7],按照順序去讀取每個block上的評論信息。

第二步,被flume讀取進來之后,直接對接到kafka的生產者階段,此時系統整個過程都是需要使用zookeeper進行高可用保障的,這里使用的znode主要用來存儲的是flume的配置信息,因為系統可以在不同流量的時候對應到不同的采集配置。

第三步,就是系統中的kafka了,它主要起到了解耦的效果,數據在爬取讀入的過程,可以稱之為生產數據,之后利用kafka內部的partition運送所產生的的數據到消費者端。由于此系統不需要過高的效率,所以這里將kafka的ack.require設置為exactly once,保證每一條信息的可靠傳達。這里的消費者端也就是下面會提到的Sparkstreaming,在上層應用中,系統會通過測試判斷當前系統可支持的運算能力,當超過可容納的閾值的時候,會在消費者端使用阻塞隊列保證系統的安全。

第四步,自然是最重要的SparkStreaming,此系統采用這項技術主要也是為了模擬batch運算,將生產者端運輸進來的數據進行微批次的計算,預處理等操作,篩選掉有些可能沒有價值的數據,將這些數據一并進行回收,最后將格式化的數據進行整理,放入到hive中,分庫分表,以便于進行后續進行數據挖掘的同學進行相關的操作和使用數據。

3.測試調優

此項流程,主要是為了測試系統的各項閾值,例如kafka承受數據的閾值,消費者端與kafka進行TCP連接的句柄數閾值,spark層阻塞隊列長度的閾值,內存,cpu,堆等等的閾值,分別進行測量與預估,制定優化方案,接著將平臺的一些設計進行調整,令體驗上升,性能更優。

而測試的過程,可以采用多種方案,比如說Apache Jmeter,Apache Bench等等,都可以滿足我們的需求,實時監控當前狀態各性能指標以及參數,是否滿足我們預期的標準。

測試之后,發現當前系統存在一個問題,就是我們無法完成持久化,也就是說,如果在當前內存中出現宕機,那么正在運算的block的數據,會丟失,于是便根據這個問題設計了一個方案,參考Redis的RDB和AOF的混合持久化方式,每100條評論數據進行一次落盤,并且在加載當前數據的時候,啟用AOF的手段保證數據的穩定性。

4.總結

此系統主要會考察一些團隊針對于分布式架構體系的應用,將一些生活中常見的場景使用一些相關技術得到數據整理,以便人工智能算法可以得以落地,團隊通過查閱資料,單元測試等方法將一些書上的案例得以應用,并且在此項目中,也確實擁有一定的商業價值,例如可以將此方案應用在社交平臺上,凈化社交媒體的網絡環境,也可以應用在游戲中,以防雙方因為情緒出現國際語言,也包括像微博,貼吧等地方,都可以應用。

引用:

[1]Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications.

[2]By running on Spark, Spark Streaming lets you reuse the same code for batch processing, join streams against historical data, or run ad-hoc queries on stream state. Build powerful interactive applications, not just analytics.

[3]ZooKeeper aims at distilling the essence of these different services into a very simple interface to a centralized coordination service.

[4]The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.

[5]Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

主站蜘蛛池模板: 无码啪啪精品天堂浪潮av| 网友自拍视频精品区| 午夜毛片福利| 欧美一区二区三区香蕉视| 天天综合天天综合| 欧美日韩午夜| 98精品全国免费观看视频| 毛片在线播放a| 激情综合图区| 国产亚洲精品无码专| 日韩高清无码免费| 午夜综合网| 亚洲欧美h| 99在线免费播放| 永久免费av网站可以直接看的| 日本国产在线| 99视频在线看| 国产不卡国语在线| 视频二区中文无码| 沈阳少妇高潮在线| 久久国产精品国产自线拍| 久久久久无码国产精品不卡| 国产一级毛片网站| 亚洲精品色AV无码看| 91精品国产91久无码网站| 55夜色66夜色国产精品视频| 色悠久久久| 69av在线| 中日无码在线观看| 中文字幕日韩久久综合影院| 国产农村精品一级毛片视频| 欧洲高清无码在线| 亚洲AV无码一二区三区在线播放| 国产农村妇女精品一二区| 欧美日韩午夜| 日本成人在线不卡视频| 一级一级一片免费| 国产欧美视频一区二区三区| 超碰免费91| 国产精品第一区在线观看| 国产欧美日韩精品综合在线| 最新日韩AV网址在线观看| 久久精品这里只有国产中文精品| 天堂久久久久久中文字幕| 国产91无毒不卡在线观看| 亚洲人成电影在线播放| 亚洲天堂精品在线观看| 无码日韩人妻精品久久蜜桃| 国产亚洲欧美日本一二三本道| 亚洲高清国产拍精品26u| 色135综合网| 亚洲无码91视频| 亚洲精品麻豆| 亚洲综合二区| 呦视频在线一区二区三区| 欧美不卡视频在线观看| 欧美日韩另类国产| 久久性妇女精品免费| 巨熟乳波霸若妻中文观看免费| 超碰91免费人妻| 99久久精品免费看国产电影| 亚洲女同一区二区| 九色综合视频网| 亚洲—日韩aV在线| 国产在线一区视频| 亚洲AV无码不卡无码| 日韩123欧美字幕| 中文成人在线视频| 国内毛片视频| 国产无人区一区二区三区| 国产亚洲视频免费播放| 国产人人射| 免费一极毛片| 激情無極限的亚洲一区免费| 91麻豆久久久| 园内精品自拍视频在线播放| 欧美一级片在线| 狠狠色香婷婷久久亚洲精品| 一级全免费视频播放| 国产三级毛片| 国产在线视频导航| 99久久精品国产麻豆婷婷|