趙昕暉,郭智強
(1.甘肅省科學技術情報研究所,2 甘肅省物產集團有限責任公司,甘肅 蘭州 730000)
在全球信息化這一時代大背景下,各個應用系統產生了大量的數據資源,由此整合數據資源及提升數據價值的需求也日益增長,并進一步推動了大數據和云計算技術的快速發展。大數據是信息化建設中產生的各類數據的總稱,從數據結構方面來說,分為結構化數據和非結構化數據;其中結構化數據易于分析處理,而非結構化數據分析處理是大數據應用中面臨的難題之一。因此,系統應用分布式計算、非結構化數據存儲、垂直型數據庫應用等是基于大數據信息化整合的重點研究領域[1]。
近年來,大數據和云計算等名詞頻頻登上計算機領域的技術熱搜榜首。但大數據和云計算之間的關系人們普遍缺乏系統的認識。大數據是指在信息化建設過程中產生的一系列圍繞信息化系統的數據總集,這些數據包含了信息化系統本身的基本結構化數據和非結構化數據,以及系統和用戶產生的相關日志等文本類型的數據。但想要通過單一的計算并分析這些數據,用來提供一定的決策支撐顯然是耗時耗力的,因此必須使用到云計算技術對大數據進行分析和存儲。云計算的前身就是分布式計算,將復雜的計算任務由單一的服務器計算通過云計算軟件調度,拆分成并行的多個計算線程,由服務器集群分別計算后再匯總結果。因此,大數據與云計算是相輔相成的,想要用好大數據,必須從信息化底層整合計算資源和數據資源。
大數據技術是由一系列處理數據有關的單獨技術綜合而成,其包含了數據獲取技術、數據存儲技術、數據檢索技術和數據挖掘技術,運用以上四種技術組建數據資源池,并基于各信息化系統的元數據標準,可有效打破各信息系統之間互不關聯的信息資源孤島,形成大數據資源的綜合運用。
數據資源采集獲取技術分為針對結構化數據的數據導入導出工具、SQL 腳本、軟件接口、和數據爬蟲等定時推送技術。非結構化信息的獲取需要批量采集非結構化數據的元數據信息,通過元數據信息來對非結構化數據進行描述,來達到大數據平臺的獲取需求。
大數據的存儲主要采用分布式存儲技術,比較成熟的技術包括Hadoop 的HDFS 集群以及由HDFS 集群和結構化數據庫MySQL 集群共同組成大數據存儲平臺。采用這種數據存儲方法既保證了多種數據的存儲,并且可以有效的利用Hive、Spark、MapReduce 等技術對大數據進行離線計算。從而可以有效地提高大數據的計算處理效率和處理質量,縮短處理時間,提升數據利用率。
大數據搜索技術是大數據的典型應用場景之一,在搜索領域也出現了一些成熟的技術,這類技術主要是基于分布式的全文搜索引擎與數據分析引擎。該技術能實現大數據平臺的數據搜索、分析和探索能力,具備良好的可擴展性和二次開發程序接口,可以為大數據整合提供完整的搜索解決方案。
大數據之所以產生價值,就在于對大數據的挖掘分析。基于OLAP(聯機分析)技術可以使用大數據方便的形成數據畫像、各類報表。通過深入的數據挖掘可以形成針對訪問用戶的精準數據畫像,典型的應用包括各類電商平臺的推薦系統和保險營銷的營銷系統。
基于大數據技術的信息化整合應從軟件和硬件兩個方面著手。軟件方面,通過使用ETL(數據倉儲)工具,將一個個孤立的業務系統數據進行數據抽取、數據清洗、數據轉換之后,整合存儲到大數據平臺資源池以備使用。軟件方面,通過使用Hadoop集群可以很好地解決大數據分布式存儲和數據挖掘計算。硬件方面,采用流行的軟件定義網絡產品,將多臺高性能服務器使用虛擬化技術進行資源管理和分配,這樣能夠做到計算和存儲資源的有效利用。并且通過部署Hadoop 集群,做到大數據的分布式存儲、分發、計算,有效節約了時間成本和運維成本,數據處理效率得到了高可靠的保證。在信息安全方面,大數據中的應用數據始終處于流動狀態,因此可以采用https 數字證書加密等方式,保障系統數據的加密傳輸。在硬件安全方面,應盡量采用安全審計設備,對各類信息進行監測,由專業安全人員根據數據的重要性采用不同的監測和加密方式進行傳輸和使用[1]。
通過大數據技術將傳統的信息化業務系統整合成為了一個統一的應用平臺,實現業務系統數據的交互,在數據挖掘方面和數據搜索方面提升了數據的利用率,為決策支持提供有效的數字支撐。例如,采用綜合統計報表等方式,通過數據分析大屏直觀地展示,從而提供決策支持依據,提升業務流轉效率,優化各業務部門的協同作業。
使用大數據平臺整合了信息化業務系統后,還可以有效的加強內部輔助系統的應用研發,例如可以在考核、財務、信息資源共享等方面拓展大數據平臺的應用范圍[2]。在考核方面,有關人員考核的數據可以經由大數據平臺匯總,大數據平臺可以直觀的反映人員的出勤、產出等方面的數據,加強對人員的管理把控;在財務管理方面,有支付需求的業務可以采用統一的支付平臺,通過支付平臺的應用可以減少財務對賬流程,杜絕財務錯賬壞賬的發生,并對合同進行有效的追蹤和使用。在信息資源共享方面,可以通過大數據平臺輕松實現內部資源共享,并做到相關性資料一鍵搜索。
大數據整合后,用好大數據的主要方向就是向決策主體服務[2],通過各個業務系統匯聚而來的數據,經過大數據平臺的分析挖掘,形成的數據分析結果可以在不同的決策主體之間進行共享流轉,進而方便各決策主體單位及時掌握大數據平臺的分析數據和關聯因素,加快決策進程。
智慧城市是典型的大數據應用,通過打通城市政府各業務系統,可以實現智慧城市智能大數據應用[3]。例如通過交通信號攝像大數據實現智慧交通,動態調節城市交通;通過對城市常住人口的大數據分析,使社區部門掌握人口變化信息和養老信息,從而推動社區精細化管理。
社交媒體大數據在輿情監控方面獨有價值,通過對社交媒體產生的大數據進行挖掘分析,做到對社交人員的學習畫像[4],及時掌握輿情信息,促進政府對輿情的正確研判和正確引導,及時介入解決糾紛。
大數據的信息化整合,不僅僅是從技術上打通信息孤島,更是要用好大數據。通過對大數據的分析、加工、挖掘,使數據產生更高的使用價值,從而提高數據的利用率,發揮大數據在決策中的應有作用。本文簡單地探討了大數據的基本整合思路和常用的整合技術,希望能對推動各行業大數據平臺落地實施有所幫助。