[摘要] 隨著大數據技術的發展和數字鄉村建設數據量不斷增長,對于鄉村數據資源的管理和共享成為亟待解決的問題。本文采用數據中臺技術對數字鄉村數據資源進行分類管理,建立數字鄉村數據中臺體系架構,并基于此架構探索出數字鄉村基礎數據資源建設路徑,包括統一采集接入、數據集中處理、數據資源存儲、數據組織管理、元數據管理。
[關鍵詞] 數字鄉村;數據中臺;數據資源
[基金項目] 2021年度山東省社會科學普及應用項目“大數據背景下數字鄉村基礎數據資源體系構建研究”(編號:2021-SKZZ-18)
[作者單位] 山東華宇工學院
隨著大數據技術的不斷發展,鄉村數據呈爆炸式增長,如何對鄉村數據資源進行有效的管理并提供共享服務,是數字鄉村建設亟待解決的問題。根據以往的數據集成思路,借助統一的數據平臺可以快速響應用戶的各種需求,滿足多種業務場景的應用。數據中臺技術是指運用統一的標準和技術,對海量的異構數據進行采集、加工、存儲、管理等一系列數據集成與管理,為各類應用提供數據共享服務。通過數據中臺,數字鄉村所涉及的各類用戶、政府、農民、企業等對內對外建立統一的業務系統和管理平臺,減少各種業務系統信息孤島現象,打通各部門間的數據墻,形成統一的數據規范。
數字鄉村基礎數據資源數據中臺架構
數據中臺設計原則。數據中臺的建設要保證來源于不同系統的同類數據具有一致性,要遵循相應的行業數據庫設計標準,以及農業農村領域的數據標準和地方標準。數據中臺設計時要在充分考慮數據實用性的基礎上整合數據資源,要通過不斷變化的需求進行數據資源的重組,滿足數據實用性原則;要考慮數據的獨立性,能夠使數據獨立于具體應用之外,不隨各類系統的變化而改變。同時,數據庫的設計要有可擴展性,當新的需求出現時,可以在原有基礎上進行擴展,不必完全重新設計數據庫。此外,數據中臺還應該有數據的安全設計,進行有效的備份和數據恢復,確保發生事故時能夠快速恢復,并且要有安全授權設計,避免非法用戶的訪問。
數據中臺技術和層次架構。數據結構總體可以分為三種,結構化數據、非結構化數據以及其他半結構化數據。對于結構化數據的存儲目前主要用關系型數據庫處理;非結構化數據的存儲主要在非關系型數據庫中,例如文件管理系統,存儲一些圖片、視頻、文檔等數據;半結構化數據實質是一種結構化數據的形式,包括一些相關的標記用以區分不同的語義元素。數據中臺建設過程中要能夠處理這三種類型的數據資源。
數據中臺建設數據資源采集、數據資源融合、數據資源共享等數據服務體系。在整個體系建設中,將數據管理、數據質量、數據安全、數據標準納入其中。經過數據中臺的不斷應用,推進數據的采集接入、分析、挖掘和治理能力的提升,從而完善數據中臺服務。總體來看數據中臺主要包括數據的統一采集接入平臺、數據集中處理平臺、數據管理平臺、大數據分析與數據挖掘平臺、統一管理平臺以及數據可視化平臺等多個平臺。
數據中臺數據架構。數據中臺的數據架構按數據庫的處理內容不同分為原始庫、資源庫、主題庫、業務庫等。原始庫是存儲未經處理的原始數據,主要存放和原系統一致的數據;資源庫的建設是基于原始庫,按資源類型的不同將原始庫中的數據規范化處理,形成不同主題的數據;主題庫基于原始庫和資源庫,構建數據的邏輯關系,形成實體關系模型,完成知識圖譜的建設等;業務庫面向不同業務的場景,建立起相關的數據結構。數據中臺同時應建立起索引庫和資源目錄,對數字鄉村數據資源進行整合,對相應的元數據進行管理,比如業務元數據和技術元數據。
采用分層分類方法將數字鄉村數據指標按照其屬性及其數據來源分為農村基礎信息數據指標、農業基礎信息數據指標、農民基礎信息數據指標三大類,在每一大類里,業務關聯度高的數據歸入同一小類。數據指標采用名稱、代碼、數據類型、是否為空、注釋來描述數字鄉村相關數據。
數字鄉村基礎數據資源體系建設路徑
數據資源統一采集接入。數據資源的采集是數據擁有價值的第一步,同時也決定了數據潛在的意義。目前基于大數據技術的數字鄉村數據資源采集方式有以下幾種:一是利用農村農業各個業務系統進行信息采集,通過部署各類非關系型數據庫負載均衡和分片完成海量數據的采集。二是通過查看各個業務系統的系統日志采集數據,利用在線分析和離線分析方式分析系統日志文件獲得數據。三是利用網頁數據的爬取技術采集網頁、論壇、交易平臺等數據信息。四是利用智慧終端各類傳感器、監測平臺、監控設備等來獲取圖片、視頻等信息。
數據集中處理。數據集中處理主要是對數據的提取、清洗、關聯、對比、標識、對象化等操作。數字鄉村建設涉及的業務領域眾多、數據復雜多樣,采集獲取的數據往往不能直接用于數據分析,所以需要對獲取的數據進行數據清洗、數據集成、數據變換、數據規約等數據資源預處理,篩選出與主題相關的數據。數字鄉村建設中采集的數據源多來自不同的業務平臺,要將相關聯的異構數據源合并放入一個一致的數據存儲中完成數據的集成。
鄉村基礎數據資源存儲。目前,農業農村相關業務平臺的后臺數據存儲多采用結構化關系型數據庫軟件存儲。大數據時代的數據存儲方式應該發生轉變,為海量多樣化數據分析提供支持,而主流的大數據存儲是支持海量數據讀寫,支持上億行、上百萬列的,面向列的分布式非關系型數據庫。鄉村業務系統中的政務文件、政策規定等非結構化數據可以用大數據平臺的分布式文件系統存儲;網絡輿情、業務日志等半結構化數據可采用列式存儲的分布式數據庫存儲;溫度、土壤、濕度自動監測等小時、分鐘級數據提供時序數據庫實現海量數據存儲。
數據組織管理。根據中臺數據架構進行數據的組織管理,建立原始庫、資源庫、主題庫、知識庫、業務庫、數據資源目錄。原始庫可以進行數據的原始加工,抽取數據的關鍵信息、對數據進行分級分類標簽管理,同時提供查詢、推送、對比、訂閱等服務。資源庫是經由原始庫中的數據整合和清洗過后形成的,可以提供數據的檢索、統計分析、訂閱服務等。主題庫具有相似特征的不同數據分類進行歸集,構建不同實體間知識圖譜,能夠提供數據分析和統計服務。業務庫提供專題類業務分析,構建實體庫中的業務相關模型,基于資源庫建設而形成。
數字鄉村元數據管理。為了更有效地完成數據的管理,方便數據的擴展,實現對鄉村數據資源的便捷訪問,設計使用元數據進行數據管理。元數據是用來描述數據的數據,元數據和數據本身構成了不同層次的數據,對于信息系統而言要能適應元數據結構和數據內容結構。元數據管理可以進行元數據的自動修改,例如當系統應用需求發生改變或擴展時,元數據管理能自動識別變化,從而修改元數據,信息應用系統不需要進行數據的整體修改。