清華大學 北京 100084
在信息技術快速發展的時代,數據增長呈現出爆發性趨勢,對數據的組織與管理也提出了更高的要求[1]。多源異構數據廣泛存在于社會經濟眾多領域[2],多源異構數據的組織與管理體系尚不完備,需要深入分析,逐步完善。
多源異構數據是一種復合型數據。“多源”指的是一個數據的整體具有多個數據持有方,具有多個來源;“異構”指的是整體數據包含不同的數據成分,內容類型不同、特征不同,既有離散型數據,又含有混合型數據,既包含了結構化數據,也包含了非結構化數據[3]。例如,互聯網數據結構就是一種典型的異構數據,在互聯網融媒體發展的過程中,各種媒體的技術原理和成熟度均不相同,數據內容差異性很大,因此互聯網融媒體的多源和異構特征非常明顯[4]。另一個例子是城市交通多源數據,城市主管交通的不同部門都各自管理和持有一部分交通相關的數據[5]。
多源異構數據的組織和管理是大數據時代的重要研究內容[6]。隨著用戶數據不斷增加,數據采集渠道不斷豐富,其規模增長不受限制。另一方面,數據信息的載體多樣化,從文字到圖形、圖像、聲音,從結構化到半結構、非結構化,數據種類的增多也沒有止境[7]。
多源異構數據的組織和管理要保證真實性、完備性、自洽性、科學性以及安全性,保證數據管理的質量達標,這也是數據管理的基本原則。而隨著數據規模的增長和數據的復雜多樣化,有限時間之內完成質量管理成為巨大的難題。既要兼顧質量管理水平,也要兼顧管理效率,迫使多源異構數據的組織和管理技術的不斷創新。
多源異構數據源的數據內容種類繁多,數據量巨大,充分理解這些數據的背景和內容,實現有效的管理,對于數據管理人員的能力提出了較高的要求。然而,數據資源管理的科學系、系統性、可持續性在很多業務部門并未受到重視,多源異構數據的管理人員的能力提升并未得到有力的保障,這給長效性的多源異構數據管理和服務工作帶來了嚴重的隱患。
根據多源異構數據的特征,建立起完善的多源異構數據管理機制,可從以下三個方面入手:一是確立數據質量評價標準,規范數據管理結構,為數據管理的考核提供條件,提高數據管理質量;二是制定數據管理相關流程以及制度章程,不斷深化數據資源建設,保證多源異構數據的組織管理的高效進行;三是擁抱“開放數據、開放科學”原則,實現異構數據的統一管理和共享利用,保證不同性質的數據管理都能夠遵循同樣的數據管理流程,促進數據的規范性、科學性和開放性的管理與服務[8-9]。
建立起信息技術保證體系,有助于實現數據管理質量與數據管理效率的同步提升。該體系應當包含數據檢測、數據存儲、數據傳輸、數據分析、過程控制等組成部分。此外,需要特別重視運用現代化信息技術手段,研發數據管理和服務的新手段,例如,將高速寬帶通信技術運用到數據管理的數據傳輸系統,運用數字化手段開發數據儲存空間,建立數據綜合信息管理系統,有效提高數據管理的效率[10]。
落實國家關于“數據是新的生產要素”的指示,提升數據管理和服務人員的能力和素質。包括加強對數據管理人員水平的培訓,提高其數據管理服務能力,提高創新意識和技術水平;包括設計數據管理服務專業技術培訓體系和能力評價體系,建立完備的從業人員職業晉升和發展的通道。
隨著社會經濟的發展和各類大數據技術的運用,多源異構數據已經成為社會經濟發展的重要組成部分。多源異構數據的組織與管理的能力建設亟須加強,從業人員的素質建設亟須規劃。本文建議建立完善的多源異構數據管理機制、信息技術保證體系、信息技術保證體系,加強數據管理服務從業人員的素質建設,有助于落實國家關于“數據是新的生產要素”的指示,切實促進我國數據管理和服務行業的發展。