999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于畜產品的大數據分析系統設計

2020-12-24 06:30:16
無線互聯科技 2020年21期
關鍵詞:融合分析檢測

楊 毅

(河南牧業經濟學院,河南 鄭州 450000)

1 畜產品大數據的現狀

在大數據時代下,人工智能、云平臺和高性能計算等技術的高速發展為畜產品智能檢測分析系統提供了重要的支撐。智能檢測分析系統的建構,有利于提升畜產品檢測的智能化,完善畜產品質量安全體系,推進農業信息化建設[1]。將畜產品檢測與大數據技術相結合,利用現代信息技術,通過采集海量碎片化的信息數據,準確的進行篩選、分析,并最終歸納、整理出政府和相關機構需要的資訊,構建一套畜產品檢測智能分析系統,實行及時有力的深度分析,整體提升畜產品檢測監管能力和水平,促進畜牧業產業健康、可持續發展。

針對目前畜產品的檢測,其數據處理主要存在3個問題:

(1)畜產品檢測注重檢測方法的使用和創新,檢測設備的培訓和升級,檢測人員的指導和培訓,而對檢測數據分析不夠重視,沒有深度發掘測試數據的潛在價值。

(2)各類檢測機構眾多且互不統屬,有傳統的人工統計模式,還有利用軟件進行簡單分析的模式。此外實驗室所用大型儀器,廠家不同,操作軟件也不同,數據存儲和處理也不同,測試數據分散,導致數據收集困難。

(3)畜產品數據的數據統計、分析與挖掘還比較滯后,需要向系統化、集成化、智能化的方向發展,缺乏相對應的畜產品檢測數據分析系統。

2 大數據平臺的數據處理

2.1 數據獲取

數據獲取是從數據源收集數據,數據源分為閉源數據和開源數據。閉源數據指的是和相關檢測機構合作獲取的內部數據,這部分數據可靠性比較高且不向外部公開,僅僅只作為分析統計使用,不能進行商業的應用。開源數據是指各檢測機構通過網絡發布的公開檢測數據,比較分散,可以利用爬蟲軟件進行抓取[2]。

對開源數據進行收集時,首先是定時,每段時間對相關網站進行分析,觀察所發布檢測數據的更新情況。其次定量,要準確地識別出哪些是最新的、哪些是相關的內容。數據主要來源于國家、省、市、縣和具有檢測資質的企業等相關網站,這些數據都比較分散,需要進一步進行有意義信息的提取,比如:過濾冗余信息,集成互補性信息。這其中還存在很多問題,如信息的質量問題,哪些信息是有價值的、可信賴的。可以從可信溯源(信息的不同來源進行分析,省市級的信息比較重要和真實)、動態輪詢(根據后期分析和預測結果對數據源之前的重要性權重進行動態更新)做出判斷。采集數據分為結構化數據和非結構化數據,要區別對待。

2.2 資源聚合

考慮到不同數據來源中數據特性的不同,對于結構化相對較好、關聯相對簡單的檢測機構知識庫數據,重點關注檢測指標實體(如樣品編號、測量對象、濃度等)的識別與消歧;對于采集的非結構化數據,重點關注基于所識別的測試指標實體,抽取數據中的命名實體及其實體之間的關聯。最后,研究知識融合方法消除知識元素間的知識冗余、知識沖突,以保證知識的精準性與可行度,構建可靠的畜產品檢測知識圖譜。

針對復雜、迭代式的信息抽取與知識融合,使用具有高可擴展性、可容錯性的MapReduce架構(開源Spark系統),實現并發處理與調度。以研究人員為中心,針對數據的局部性,設計合理劃分策略,將大的數據集分為若干個容易處理的子數據集。根據劃分的策略,針對不同子數據集的特點,設計特有的清洗方法,提升局部數據質量。設計整體清洗策略,清洗多個子數據之間存在的錯誤、不一致等問題,提升整體數據質量。由于分區的清洗策略充分的考慮了數據的局部特征與整體特征,將顯著提高清洗效率和效果[3]。

2.3 對多源異構數據的融合分析

畜產品檢測數據之間存在潛在的信息互補和信息冗余,對這些大規模數據進行融合分析和產品動態畫像的構建,能更加全面、有效地分析出畜產品質量異常發生的季節、地點、產生的原因等。針對數據的融合分析,本課題從兩個方面進行處理:(1)為了過濾掉畜產品數據之間的冗余信息,并且對有意義、高質量的互補信息進行提取,采用主成分分析(PCA)和知識圖譜的嵌入向量融合的方法,最終得到更加全面、準確的畜產品特征表示。(2)為了提高在下游任務中的性能,采用集成學習的思想對不同弱分類(或預測)器進行決策層的融合,比如在Flume的基礎上結合Spark實現梯度提升決策樹(GBDT)以及隨機森林(RF)算法的快速分布式融合。

3 數據倉庫系統設計

數據倉庫能夠以不同的維度(如區域,時間等)、不同的粒度級別存儲數據,同時具有方便的擴展性,因此課題擬使用基于Hive的 MapReduce+Spark 雙計算引擎混合架構進行數據倉庫系統設計,通過和機器學習技術結合,無須人工干預和停機就能自動調優、修補、升級、監視和保護數據庫,以幫助疫病預測和制定戰略決策[4-5],系統設計如圖1所示。

圖1 數據倉庫系統設計

數據倉庫的主模塊包含HDFS、YARN、MapReduc、Spark和Hive。首先系統將多源異構數據匯聚到HDFS分布式文件系統,通過YARN對Hadoop 集群和Spark集群的資源進行分配和管理,然后再利用Hive工具進行數據的管理和索引,再通過上層MapReduce和Spark計算引擎對數據進行查詢分析和計算。雙引擎的好處在于,可以依據業務計算需求的不同,通過配置或簡單命令隨時切換Hive計算引擎。MapReduce采用了多進程模型,便于細粒度控制每個任務占用的資源,但會消耗較多的啟動時間,對實時性要求不高或對穩定性要求較高的場景下使用MapReduce計算引擎;而Spark采用了多線程模型,雖然會出現嚴重的資源爭用,但有效地減少了中間數據傳輸數量與同步次數,對實時性有一定要求時使用Spark計算引擎。

此外,根據項目的實際需要,添加以下模塊:

(1)考慮到業務的擴展性,添加組件ZooKeeper,按需對集群節點進行擴容。

(2)考慮到病情預警所需要的實時性,添加組件Spark Streaming對數據進行流處理,為實時流處理提供平臺。

(3)考慮到數據源多樣性,添加組件Graphx對圖片類型數據進行處理。

(4)考慮到和機器學習技術結合,添加機器學習庫Spark Mlib。

4 結語

傳統產業與現代信息技術結合,已經成為畜牧業創新發展的制高點。大數據時代,畜牧業在產前、產中、產后各鏈條、各環節產生大量的數據,如何分析、挖掘、開發和利用大數據技術對海量數據進行相關分析,對畜牧業發展做出準確預測,對畜牧業生產經營管理者進行正確指導和選擇合適的技術行為,是畜牧大數據開發的關鍵,畜產品檢測作為畜牧業安全保障的關鍵一環,需要加快信息資源整合,讓數據轉起來、用起來,讓決策有依據,大數據分析必不可少。

猜你喜歡
融合分析檢測
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創新出發,與高考數列相遇、融合
隱蔽失效適航要求符合性驗證分析
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
主站蜘蛛池模板: 国产人免费人成免费视频| 五月天久久综合国产一区二区| 欧美性爱精品一区二区三区 | 日本91在线| 亚洲一级毛片免费看| 亚洲色婷婷一区二区| 99re视频在线| 91久久国产综合精品女同我| 国产精品嫩草影院视频| 内射人妻无套中出无码| 国产不卡一级毛片视频| 无码粉嫩虎白一线天在线观看| 少妇精品在线| 亚洲成年人网| 日韩欧美中文在线| 欧美日韩在线亚洲国产人| 亚洲中文字幕av无码区| 国产欧美日韩另类| 少妇高潮惨叫久久久久久| 免费在线看黄网址| 亚洲天堂网视频| 亚洲国产精品不卡在线| 波多野结衣视频网站| 韩国自拍偷自拍亚洲精品| 亚洲伊人电影| 国产亚洲欧美日韩在线一区| 中国精品自拍| 一级黄色欧美| 色屁屁一区二区三区视频国产| 就去色综合| 久久婷婷六月| 成年免费在线观看| 亚洲视频欧美不卡| 国外欧美一区另类中文字幕| 亚洲成在线观看| a级毛片毛片免费观看久潮| 免费国产好深啊好涨好硬视频| 欧美丝袜高跟鞋一区二区| 欧美在线视频不卡第一页| 尤物午夜福利视频| 四虎成人精品在永久免费| 五月婷婷导航| 国产成人一区在线播放| 3344在线观看无码| 久久激情影院| 狼友视频一区二区三区| 欧美日本在线播放| 亚洲va精品中文字幕| 亚洲欧美激情小说另类| 996免费视频国产在线播放| 日韩欧美91| 红杏AV在线无码| 久久国产乱子伦视频无卡顿| 久久女人网| 99免费视频观看| 国产91成人| 色噜噜在线观看| 五月婷婷精品| 日韩激情成人| 亚洲欧美成人在线视频| 国产黄网永久免费| 国产男女免费视频| 日本在线免费网站| 中文字幕在线观| 在线观看欧美精品二区| 无码一区18禁| 亚洲精品无码AV电影在线播放| 久久人人97超碰人人澡爱香蕉| 欧美特黄一级大黄录像| 99久久国产综合精品2020| 国产一区二区三区免费观看| 呦系列视频一区二区三区| 欧美在线网| 一本大道视频精品人妻| 亚洲中文精品人人永久免费| 日日噜噜夜夜狠狠视频| 就去色综合| 99精品免费在线| 国内丰满少妇猛烈精品播| 又污又黄又无遮挡网站| 老色鬼欧美精品| 欧美三级日韩三级|