999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

農業數據質量及評估方法探討

2017-05-30 10:42:37李斐斐張建華朱孟帥
安徽農業科學 2017年36期

李斐斐 張建華 朱孟帥

摘要在闡述農業數據質量內涵的基礎上,對我國農業數據應用現狀進行了分析,從數據流程角度選取了數據收集、數據存儲、數據處理和數據管理4個影響因素,總結了單一準確性和多維綜合性質量評估方法,并對數據質量檢驗的發展方向進行了展望,以期為提高我國農業數據質量提供參考。

關鍵詞農業現代化;農業數據;農業數據質量;質量評估方法

中圖分類號S-058文獻標識碼A文章編號0517-6611(2017)36-0221-03

AbstractBased on expounding the connotation of agricultural data quality, we analyzed the application status of agricultural data in China. Four influencing factors of data collection, data storage, data processing and data management were selected from the point of view of data flow, we summarized the single accuracy and multidimensional comprehensive quality evaluation methods. And we forecast the development directions of data quality inspection methods, in order to provide references for improving the quality of agricultural data in China.

Key wordsAgricultural modernization;Agricultural data;Agricultural data quality;Quality evaluation methods

近年來,信息技術與經濟社會、科學研究的交匯融合激發了數據量爆炸性增長,數據因其發現新知識、創造新價值、提升新能力的特點而成為國家基礎性戰略資源。我國是農業大國,傳統農業農村數據積累量較大,而將傳感器、移動通訊、數據庫等現代信息技術引入農業生產、流通、消費等環節加速了數據量的跨級數增長。農業大數據是大數據理念、技術和方法在農業領域的實踐[1],利用大數據驅動農業發展,有助于加快我國農業轉型升級,提升國際競爭力和影響力。

數據包含數量和質量,二者相輔相成,沒有質量的數量毫無意義,而數量又是質量的基礎,質量的提升源于數量的積累。但是,隨著農業數據資源開放性和多源性的增加,數據質量更加參差不齊,垃圾數據、錯誤數據、虛假數據等問題層出不窮,是我國農業面臨“數據豐富、信息貧乏”困境的重要原因,不利于制定科學的決策。此外,與工商業不同,農業具有與時空密切相關、生產周期長、生產災害難以彌補等特點,對數據質量具有更高的要求。

目前,數據用戶著重于通過數據預處理等方式來提高數據質量,缺少對數據整體質量的評估,事實上,評估數據質量便于發現問題,合理控制影響因素,縮小誤差。這不僅對于提高農業數據質量具有重要意義,而且有助于加強信息處理和知識發現,指導農業生產,滿足農業農村發展的需要。因此,從數據科學的思想出發,明晰數據質量含義,把握我國農業數據應用現狀,多角度揭示影響數據質量的因素,總結適用于農業數據的質量評估方法具有重要意義。

1數據質量內涵

質量是一個多義詞,它在質量管理學的定義為“一組固有特性滿足要求的程度”,質量的概念不是固定不變的,而是處于動態發展變化之中,與使用對象息息相關。在數據成為產品、可以提供服務功能后,數據領域引入了“質量”概念。數據質量最初是指數據的準確性,以誤差大小作為衡量標準[2],這是一個相對狹義的定義。隨著社會的發展和信息技術的進步,數據質量內涵不斷擴展,準確性不再是評估其優劣的唯一指標,特別是從20世紀90年代起數據研究領域廣泛采用多種質量維度,綜合衡量數據情況。常用的質量維度有20多種[3],數據用戶可根據需求靈活選取,在實際應用中,各質量維度重要性不一,始終沒有統一的認識和標準[4-5],但它們并非完全孤立,而是相互關聯的,其中數據準確性、一致性、完整性、可解釋性等是基礎性維度,其他維度可由這些維度推導得出,所以這些維度的高水平是其他可選維度質量的保障,也是數據質量的重要研究對象。

2我國農業數據應用現狀

數據是驅動農業現代化發展的重要力量,是連接農業生產、經營、消費、市場、貿易等環節的關鍵。數據的有效應用,一方面可以全息立體反映農業全過程,促進相關要素之間的聯系,另一方面還可以通過數據間關聯特征,預測未來,提前做好準備,應對行業變化。然而,現階段我國農業數據發展水平并不均衡,主要側重于農業生產、安全監管、市場調配等方面的應用。

在農業生產方面,農業數據的應用主要體現在精準生產、作物育種、災害防御方面。①在精準生產中,利用農業物聯網、通訊技術,實時獲取環境中的溫濕度、風速、二氧化碳以及土壤水分、電導率、礦物質含量等指標,并與農作物各階段生長規律相結合,完成精準施肥、澆水等農耕活動,以實現資源最節約、效益最大化。②在作物育種中,通過大數據技術和生物技術獲取更完整、準確的生物基因組數據,挑選出具有特定形狀的基因組(如高鈣、抗氧化、抗敏等),提高育種效率,彌補傳統雜交育種工作中偶然性大、成功率低的缺點[6]。③在災害預防中,利用歷史氣象數據建立相關自然災害、病蟲災害模型,預測未來某時間點可能出現的意外。一方面,指導農戶合理避開減產作物種植,或做好預防措施;另一方面,輔助制定農業保險政策,降低農戶損失[7-8]。劉祖建等[9]對1991—2010年的2代稻飛虱發生情況和氣象資料進行相關分析,已建立了成蟲始盛期、若蟲高峰期、發生程度及發生面積的預測模型,效果良好。

在安全監管方面,農業數據能有效促進農產品安全監管。傳統農產品生產、流通、消費、存儲過程中存在渠道復雜、信息紊亂、監管不透明等問題,安全控制難度極大。基于RFID射頻、二維碼等技術的農產品溯源體系,能將農產品生長、流通過程中的環境指標、地理信息、倉儲信息等其他數據實時收集、存儲、處理并用可視化方式展示,方便終端消費者全面獲取“從田間到餐桌”過程中有關的產地、種植人、施肥量、農藥用量、病害蟲災、采摘時間等,提高食品安全監管效率。

在市場調配方面,農業數據能驅動商業模式創新,完善市場調配。傳統農產品市場信息不對稱現象明顯,供需不平衡情況也十分廣泛,“田頭賤、攤頭不賤”“蒜你狠、姜你軍”等問題層出不窮。在大數據技術支持下,農產品電商平臺可以將生產者與消費者快速、精準地銜接、匹配。一方面,通過連續分析消費者在不同節氣和溫度下的購買習慣,實現精準訂貨、存儲和配貨,統籌不同區域農產品生產;另一方面,利用農業監測預警技術,分析各種農產品的交易情況、價格波動,提前發布市場信號,有效通過信息引導市場,應對市場變化。

3農業數據質量的影響因素

農業數據在為農業發展創造重大機遇的同時,也帶來了巨大的挑戰,主要體現在對數據質量有更高要求。從數據流程,即數據生命周期角度來探討影響數據質量的因素,大致可以分為數據收集、數據存儲、數據處理、數據管理4個階段。

3.1數據收集

數據收集是數據生命周期的開始,對數據質量起決定性作用,若收集到的數據錯誤、不一致、滯后甚至無效,數據質量就無從談起。農業數據來源廣、種類多[10],選擇合適的收集方式至關重要,傳統農業統計以普查、抽樣調查、重點調查或行政記錄獲取數據,易出現數據模糊、精度損失、記錄不完備等問題,而現代農業已經將物聯網、互聯網、遙感技術[11-12]引入,極大改變了傳統數據的采集模式,在系統交互過程中能獲取更加具體細化的數據,但成本相對較高,目前主要應用在規模化、標準化的科研基地以及農業企業等單位中,普通用戶短時間內難以普及。

3.2數據存儲

數據存儲是保障數據質量水平的重要環節,數據存儲紊亂會影響數據的使用效率,從而降低數據質量。目前,農業各業務數據以結構化為主,存儲在傳統的關系型數據庫中,而半結構化數據和非結構化數據則需先轉化成結構化數據才能得到有效存儲。在異質數據轉化的過程中,若轉化不當對各質量維度的影響很大,特別是農業數據數量更龐大、結構更復雜、變化更快,出錯率更高,所以突破異質數據轉換、集成與調度技術[13],盡可能消除數據整合過程中出現的不兼容、精度損失等問題,完善大數據環境下的數據庫建設十分必要。

3.3數據處理

數據處理是提高數據質量的有效手段,包括數據更新、預處理、提取、分析等。①要滿足數據質量維度自身要求,就數據時效性和價值性而言,溫室控制中對溫濕度、二氧化碳含量數據若更新不及時將導致環境調節滯后,影響農作物產量,數據價值性驟降;②加強數據預處理、提取、分析,盡管在數據采集、存儲中都規范了流程,但仍會存在不準確、不一致、不完整的數據,降低數據挖掘效率和精確率,所以對數據進行分類或分組前的優化、排序是十分必要的。

3.4數據管理

數據管理是干擾數據質量的外界因素,這里特指各種人為操作。數據收集、存儲和處理側重于從技術上規避問題,而數據管理旨在從人為角度分析影響準確性、一致性、完整性等質量維度的因素。一方面,數據收集時基層統計人員統計過于隨意,上級領導為追求政績會偽造數據,數據匯總時橫向或縱向溝通不暢更會造成數據重復統計,增加冗余;另一方面,數據基本存儲在數據庫中,數據生命周期中數據庫管理員都擔負著重要職責,在設計存儲架構時要充分考慮數據不兼容、不一致等問題。

4農業數據質量評估方法

數據質量評估能夠預先發現數據問題,為改善數據質量提供指導,是數據質量研究過程中的重要環節。現有研究多為框架理論,評估方法相對統一,主要圍繞每個質量維度下數據指標的結構或內容展開。筆者總結了農業領域易出現的生產數據紊亂、價格數據不平衡等問題,結合國內外提出的模型方法,大致歸納為定性分析、定量分析2種。

4.1定性評估

定性分析是以用戶需求為中心的主觀評價法,基于一定的評價準則,綜合評判農業數據集的“好”與“壞”,評價結果可用等級制、百分制或其他方法表示,應用范圍較廣。傳統的定性分析方法包括用戶反饋法、專家評議法、第三方評測法,分別以數據用戶需求、專家經驗知識、特定信息需求為核心進行評估,這些方法適用于小樣本數據,難以滿足大數據在評估效率和準確率等方面的要求。當數據樣本較大時,可以將目標質量維度簡單歸納,根據需求進一步分解為更小的單位,直接或間接地評估其內在質量,如分析數據現實世界、信息世界的對應關系[14],分析數據更新頻度等來判斷數據的準確性、完整性、一致性、及時性等[15],還可以將研究視角拓寬至相關環境數據。此外,也可利用主觀數據質量參數和客觀數據質量指示器等其他合理的方法[16]進行研究。定性分析的方法簡單易用,但評價結果比較模糊,缺乏客觀、量化的分析。

4.2定量分析

定量分析是以數據為中心的客觀評價法,根據需求制定合理規則集[17],將目標質量維度進行量化和重現,評價結果直接用數字表示。根據評估的維度數量,可分為單維度準確性評估、多維度綜合性評估。

4.2.1單一準確性評估方法。

早期有關數據質量的研究主要針對數據準確性,一般采用統計學模型分析,比較經典的方法包括邏輯關系檢驗法、核算數據重估法、計量模型分析法、統計分布檢驗法、調查誤差評估法等。

邏輯關系檢驗法分為比較邏輯檢驗法和相關邏輯檢查法,主要從橫向或縱向角度粗略地檢查統計指標之間存在的恒等、包含和相關關系,如各省農業產值之和與全國農業產值之和不一致。核算數據重估法是對邏輯關系檢驗法的拓展,主要從統計核算的角度出發評估農業生產數據、農產品價格數據或者行業增加值。計量模型分析法能通過建立計量經濟模型,量化更復雜的相關關系,對相關指標的數據質量進行評估,但它一般是基于數據完全真實的假設上。統計分布檢驗法是根據統計總體的個體都服從特定的函數分布的性質,如正太分布等,若待評估數據集符合特定分布,則初步認為數據準確率高。調查誤差評估法主要分析數據中所包含的誤差進行評估,包括抽樣誤差和非抽樣誤差,對于非抽樣誤差可以用其他指標間接分析,也能用對統計數據執行二次抽樣調查,并與前者進行對比核查。

4.2.2多維綜合性評估方法。

多維綜合性評估是對單一準確性評估的進一步拓展,評估對象包括數據基礎維度和其他可選維度,評估方法是建立合理的評價模型,而模型的核心是如何有效度量數據的不精確、不完整、不一致等程度。

目前,農業數據大多以結構化方式存儲在關系數據庫中,數據各質量維度的度量大多采用數據庫技術或數據挖掘技術。在基于數據庫技術的方法中,學者廣泛應用函數依賴關系分析數據集,函數依賴是指在關系數據庫R中2個屬性集合X、Y屬性值之間的約束關系,如實體完整性、參照完整性、用戶定義完整性等,用戶依據既定的函數依賴,利用SQL命令批量篩選目標數據,如根據語法上相同或相似的不同記錄可能代表現實世界同一實體的原理,用排序—合并、建立索引的方法檢測違反完整性的重復記錄,還可以統計屬性字段缺失的記錄,得到數據集的完整率、一致率等,有效量化數據集各維度質量;在基于數據挖掘技術的方法中,各質量維度的量化方法不同,用戶可根據數據特點,采用聚類、分類、關聯規則或自定義算法進行有限次迭代循環,篩選并統計符合用戶需求的記錄數,如基于距離的相似度計算、基于信息內容的語義相似度測度等。與數據庫分析數據相比,它能動態計算屬性相應的權重,客觀性更強、處理效率快、精度更高。此外,還可以用信息熵、逆文獻頻率加權法等進行計算。

根據各質量維度的度量結果對數據集進行評估時,大致可分為以下3個層次。①根據度量結果直接對數據集進行評價,如農作物基因組數據的準確率、一致率、完整率分別為78%、90%和95%,數據完整率較高,但若準確率更重要時,就難以突出重要質量維度,有時無法滿足用戶需求。②將目標質量維度進行分類,如分為核心維度和一般維度,黃鶯等[18]在研究元數據質量時建立了一個四維核心模型,該模型由2層組成,一層是與數據內在質量密切相關的固定維度,另一層與數據外部環境聯系較強的可選維度,其中第一層重要性更高。這種方法使研究對象主次有別,客觀性更高。③構建綜合數據評估模型,模型可以是簡單的線性關系,也可以是復雜的多項式等關系[19],主要采用加權法(約束加權法、屬性加權法、維度加權法等)給不同的質量維度賦予相應權重。針對農業數據非平衡問題,王曉華等[20]提出一個數據質量評估體系,用基于屬性加權的缺失評估算法、非平衡離群評估算法進行數據缺失、離群評估,缺失評估算法的權重由基于類分布的屬性加權求得,可靠性更高,該評估體系已經在馬鈴薯銷售量和銷售額中表現出良好的適用性。

實際應用中,為了使評估更加合理,充分發揮二者優勢,可以將定性和定量分析結合使用,常用的方法包括層次分析法、模糊綜合評價、灰色聚類法等。

45卷36期李斐斐等農業數據質量及評估方法探討

5數據質量評估方法發展

農業現代化進程中,農業也進入了大數據時代,各種監測網點及網絡信息平臺相繼建立,數據環境愈加復雜,數據多源異構特點明顯,同時錯誤、無效及過時數據也更多。為了提高大數據的應用價值,質量評估方法需要具有更高的效率和精確率,今后主要從適應分布式數據環境、加強知識發現、降低響應時間度等方面進行發展。

大數據質量評估方法要適應分布式數據存儲環境。多源異構的農業數據主要存儲在分布式數據庫中,但分布式數據庫的不同節點間多通過Web等方式連接,每個節點僅包含部分數據,數據類型、結構往往存在差異,傳統函數依賴通用性差,為提高數據可遷移性,應明晰數據本質,挖掘數據間存在的異同,重新建立約束機制,以數據不一致性為例,京東和淘寶平臺上相同的農產品在數據庫存儲中可能存在欄目、主題、約束、類型、結構、指代不一致等問題,可以建立基于層次概率判定的Web不一致數據自動發現算法。

大數據質量評估方法要加強知識發現能力。由于農業行業的特殊性,將傳統數據庫和基于專家知識的知識規則庫融合使用,能深入洞悉數據特征,描述更加復雜和多樣化的約束算法規則,全面判斷數據質量。施建平等[21]據此建立了農田土壤自動識別和動態勘察的規則庫,完成數據質量相關的背景和方法信息檢驗(檢驗樣地代碼一致性、長期采樣地管理數據、標準物質測定準確度等檢驗)和數據檢驗(土壤微量元素等指標的閾值檢驗、統計檢驗、關聯檢驗等)。

大數據質量評估方法要減少系統響應時間。數據規模的增大降低數據處理效率、增加系統響應時間是現階段存在的重要問題,為減少數據處理過程中的時間消耗,一方面可以選擇MapReduce分布式計算框架、分布式內存計算系統、分布式流計算系統等性能較好的模型或系統;另一方面,要化繁為簡,降低算法復雜度,如在滿足復雜多樣的約束規則的同時,利用并行函數依賴和剪枝等方式。

6結論

農業大數據時代已經來臨,農業數據能全面揭示我國農業現狀、突出問題和主要矛盾,是反映我國農業基本狀況、生產方式、動力源泉的重要依據。對數據質量進行評估能宏觀把握數據可用性,制定科學決策,更好地服務政府部門,幫助農民合理規避農業風險,平衡市場和生產者的供應關系等。傳統的數據質量評估方法相對成熟,在處理小樣本數據集時表現出較高的處理效率和精準率,但是,在面對海量多源多模態農業數據時,現有評估方法還是難以滿足對計算速率、數據種類等方面的要求,針對未來更加復雜,也更加開放的農業環境,今后應做好以下方面工作:加強算法在數據適用性、可擴展性,特別是共享性方面的研究,提高數據處理能力;建立農業大數據環境下更全面的評估標準、量化方式;完善在評估數據之后提高數據質量的策略。

參考文獻

[1] 孫忠富,杜克明,鄭飛翔,等.大數據在智慧農業中研究與應用展望[J].中國農業科技導報,2013,16(6):63-71.

[2] WINKLER W E.Methods for evaluating and creating data quality[J].Information system,2004,29(7):531-550.

[3] HUANG K T,LEE Y W,WANG R Y.Quality information and knowledge management[M].New Jersey:Prentice Hall,1998.

[4] 黃剛,袁滿,吳秀英,等.元數據驅動的數據質量評估體系架構研究[J].計算機工程與應用,2013,49(8):114-119.

[5] BRUCE T R,HILLMAN D I.The Continuum of Metadata Quality:Defining,Expressing,Exploiting [C]//HILLMANN D I,WEATBROOKS E L.Metadata in Practice.Chicago:American Library Association,2004:238-256.

[6] RADAUER C,BREITENEDER H.Pollen allergens are restricted to few protein families and show distinct patterns of species distribution[J].J Allergy Clin Immunol,2006,117(1):141-147.

[7] TAO F L,ZHANG S,ZHANG Z. Changes in rice disasters across China in recent decades and the meteorological and agronomic causes[J].Regional Environ Change,2013,13(4):743-759.

[8] LIU X W,FEIKE T,SHAO L W,et al.Effects of different irrigation regimes on soil compaction in a winter wheatsummer maize cropping system in the North China Plain[J].Catena,2016,137:70-76.

[9] 劉祖建,陳冰,陳蔚燁,等.廣東省西南部稻飛虱發生期和發生程度的氣象預測模型[J].中國農業氣象,2013,34(2):204-209.

[10] BROWN J C,KASTENS J H,COUTINHO A C,et al.Classifying multiyear agricultural land use data from Mato Grosso using time-series MODIS vegetation index data[J].Remote sensing of environment,2013,130(4):39-50.

[11] 戈錦文,肖璐.農業統計存在的問題及變革趨向[J].統計與決策,2016(18):188-189.

[12] JIAO L Z,DONG D M,ZHENG W G,et al.Research on fiberoptic etching method for evanescent wave sensors[J].Optikinternational journal for light and electron optics,2013,124(8):740-743.

[13]馬茜,谷峪,張天成,等.一種基于數據質量的異構多源多模態感知數據獲取方法[J].計算機學報,2013,36(10):2120-2131.

[14] WAND Y,WANG R Y.Anchoring data quality dimensions in ontological foundations[J].Communication of the ACM,1996,39(11):86-95.

[15] WANG R Y,KON H B,MADNICK S E.Data quality requirements analysis and modeling[C]//Proc of Ninth ICDE.[s.l.]:[s.n.],1993.

[16] AEBI D,PERROCHON L.Towards improving data quality[C]//Proceedings of the International Conference on Information Systems and Management of Data.[s.l.]:[s.n.],1993:273-281.

[17] 楊青云,趙培英,楊冬青,等.數據質量評估方法研究[J].計算機工程與應用,2004,40(9):3-4,15.

[18] 黃鶯,李建陽.元數據質量評估方法及模型研究[J].圖書館學研究,2013(12):52-56,51.

[19] 楊青云,趙培英,楊冬青,等.數據質量評估方法研究[J].計算機工程與應用,2004,40(9):3-4,15.

[20] 王曉華,蘇宏業,渠瑜,等.面向電信欠費挖掘的數據質量評估策略研究[J].計算機工程與應用,2011,47(12):220-224,233.

[21] 施建平,沈志宏,蘇賢明,等.基于知識規則的數據質量檢驗方法在農田土壤監測中的應用[J].科研信息化技術與應用,2012,3(2):53-61.

主站蜘蛛池模板: 国产精品手机在线观看你懂的| 成人在线欧美| 亚洲浓毛av| 亚洲不卡av中文在线| 亚洲一级毛片| 国内精品一区二区在线观看| 69av在线| 日韩无码精品人妻| 欧美亚洲国产一区| 亚洲一区二区成人| 黄色国产在线| 亚洲第一极品精品无码| 无码久看视频| 亚洲成人在线免费| 欧美日韩91| 丰满人妻久久中文字幕| 热思思久久免费视频| 亚洲黄色视频在线观看一区| 五月婷婷综合网| 伊人激情久久综合中文字幕| 午夜激情婷婷| 男人天堂亚洲天堂| 97se亚洲综合在线| 国产在线观看精品| 91精品啪在线观看国产91九色| 97人妻精品专区久久久久| 91精品啪在线观看国产91九色| 亚洲一区网站| 亚洲欧美综合另类图片小说区| 亚洲欧美日韩成人在线| 69免费在线视频| 四虎国产成人免费观看| 国产综合精品一区二区| 国产免费久久精品99re不卡| 国产成人亚洲日韩欧美电影| 亚洲人妖在线| 亚洲三级色| 天堂成人在线| yy6080理论大片一级久久| 日韩av资源在线| 国产毛片高清一级国语| 18禁影院亚洲专区| 亚洲女同一区二区| 熟妇丰满人妻| 国产呦精品一区二区三区网站| 亚洲一区二区三区中文字幕5566| 国产精品人人做人人爽人人添| 免费观看亚洲人成网站| 91丨九色丨首页在线播放 | 狠狠做深爱婷婷久久一区| 亚洲啪啪网| 国产探花在线视频| 国产高清免费午夜在线视频| 亚洲伦理一区二区| www欧美在线观看| 99在线观看视频免费| 亚洲天堂网站在线| 国产欧美视频在线| 欧美一区二区人人喊爽| 综合网久久| 国产精品久久精品| 日韩一二三区视频精品| 国产一级裸网站| 国产成人超碰无码| 2019年国产精品自拍不卡| 69国产精品视频免费| 欧美日韩国产精品va| 国产成人精品一区二区三区| 国产精品女在线观看| 天天色天天操综合网| 亚洲综合亚洲国产尤物| 成年人视频一区二区| 亚洲精品无码人妻无码| 青青久视频| 国产色婷婷| 国产成人综合在线视频| 亚洲首页在线观看| 国产成人精品在线1区| 青青操视频免费观看| 精品福利网| 五月婷婷精品| 污污网站在线观看|