龐亮
摘要:大數據技術在我國各大行業中都有廣泛的應用,而在大數據技術應用的過程中數據質量的好壞直接影響到應用服務的性能,所以一定要保證數據的質量。本文通過分析大數據的興起和發展歷程,然后介紹其特點,分析Web大數據質量管理的主要流程,最后對大數據質量管理的方法進行介紹,希望通過本文可以對我國Web大數據質量管理問題進行有效的解決。
關鍵詞:大數據;數據質量;數據清洗
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2018)01-0224-02
隨著互聯網、移動通信的普及,21世紀信息的傳播途徑變得多種多樣,人們每時每刻都處在信息化的環境中。這就要求必須擴大傳統的數據儲存容量,確保數據傳播的高效性、安全性、完整性,而且數據的產生量每年正在不斷增長,這標志著大數據時代的到來。大數據具有體量大、種類繁多、價值密度低、處理速度快等特征。近年來,Web大數據質量管理問題逐漸顯現,如何有效的解決大數據質量管理問題成為我國急需解決的問題,本文基于這一問題展開討論,從而有效的促進我國大數據質量管理的快速發展。
1 大數據的興起和特點
大數據在2012年受到越來越多人的提及,隨后大數據在各個領域得到了廣泛的應用,包括物理學、環境生態學以及軍事、金融等行業。大數據之所以在近幾年得到快速的發展和應用,是因為它有著以下特點:第一,使開源軟件得到廣泛的應用,隨著大數據的不斷發展,開源軟件受到越來越多人的青睞,主要是因為大數據相關技術和軟件都需要開源軟件的開發。第二,大數據應用了很多人工智能技術,智能化程度高,大數據主要是從諸多數據中獲取最有用的數據,然后對數據進行分析和處理,達到最終目的。但是在這個信息量超大的時代,如何對數據進行有效的過濾,從而篩選出最有用的信息就需要應用人工智能技術,不僅能提高數據分析和處理的效率,還能保證數據的準確性。第三,大數據有很強的變化性,隨著數據的不斷增多,其數據庫也會發生很大的改變,因此需要及時更新數據庫,保證大數據的準確性。第四,數據量大,大數據是將某一行業所有的數據結合起來,所以大數據中往往包含大量的數據。第五,數據類型多種多樣,大數據會收集多種不同類型的數據進行整合,所以在進行處理和分析的時候能有效的提高處理的效率。
2 Web大數據質量管理流程
大數據環境下的Web數據質量管理是通過對非結構化和半結構化數據進行分布處理的,這種處理方式與傳統的處理方式有很大的不同,新型方式能有效的提高數據質量管理的效率和質量,一般來說Web大數據質量管理流程主要分下面幾個步驟:
第一,數據抓取。通過多臺服務器進行數據的收集和抓取,系統自動分配服務器的負責區域,然后對網絡中的所有Web數據進行全面性的抓取,并且在抓取的過程中要盡可能的保證數據的時效性和可靠性。最后將抓取到的信息進行收集,并且儲存到系統中。
第二,預處理。當服務器抓取道路相應的信息和數據之后,系統會對Web數據進行一個預處理,從而更加有效的保證數據的準確性。在預處理的過程中首先會對錯誤的數據和信息進行篩選,然后對數據進行標準化,最后通過相應的函數將數據進行統一,保證Web數據的全面性。
第三,數據清洗。數據清洗是Web大數據質量管理過程中最重要的一步,系統會根據預處理之后的數據進行優化,然后對一些存在問題或者異常的數據進行清洗,保證數據的純度。另外,在傳統的數據清洗過程中,需要工作人員手動進行清洗,但是利用先進的技術可以直接進行自動化的清洗,保證數據清洗工作的效率和質量。
第四,質量評估。完成數據清洗之后需要對清洗之后的數據進行一個有效的評估,判斷數據是否含有重復、錯誤或者敏感詞等等,通過判斷之后才能進行下一步驟,所以說對數據的質量評估也是很重要的。
第五,監控反饋。整個Web大數據質量管理流程是一個循環的過程,在完成一次數據的質量管理過程中都有實時的監控反饋步驟,而且在每一個環節都有相應的監控和反饋,通過這樣可以有效的提高數據質量管理的效率。
3 大數據質量管理方法和措施
3.1 數據存儲服務優化
大數據時代的到來,使傳統模式下的數據存儲無法滿足,傳統數據存儲模式受時間和空間的限制,儲存容量小,處理能力慢,無法滿足大數據體量大、離散復雜的特點,傳統數據運行速度無法跟上現代人們對數據處理的要求和需要。而云計算采用分列式存儲方式,將不同屬性的數據分類存儲,方便通過屬性查詢來及時提取數據,大大提高了數據處理的效率,降低數據存儲空間,實現對數據的壓縮處理,減少盲目查詢造成的時間浪費。
3.2 數據質量問題及處理方法
我國大數據質量管理的過程中還存在諸多問題,嚴重的影響了我國大數據質量管理過程,因此,需要對質量管理過程中存在的問題進行有效的解決。對大數據在采集和處理過程中存在的問題,包括數據采集錯誤、數據處理不當等等都采取一定的預防措施和檢測措施,從而有效的保證據數據質量,提高數據質量問題的處理效率。
3.3 數據質量評估
雖然我國大數據質量管理已經發展多年,而且已經取得了良好的成績,但是其在應用的過程中還存在很多問題。因此,在質量管理的過程中一定要加大力度對數據質量進行有效的評估,對每一個過程都進行實時的監控和反饋,這樣才能在一定的程度上提高數據處理的質量和效率,并且讓工作人員對數據質量進行有效的判斷,保證數據的準確性和時效性。
3.4 質量數據處理
當數據完成相應的采集、預處理、清洗之后,數據的整體質量也有很大的提升,而且有用的數據也基本包含在內,但是這種數據想要達到理想中的數據還是存在一定的差距,因此,還需要對這類數據進一步處理,將這些數據與Web數據庫中的數據進行對比、分析,然后進行多種循環處理,有效的提高數據的整體質量。
3.5 數據質量管理方法分析比較
Web大數據質量管理的方法有很多,但是不同種類的數據需要特定的質量管理方法,因此,在進行大數據質量管理的過程中需要根據數據的種類和特點選擇管理方法,從而有效的保證大數據處理的效率和質量。
4 結語
綜上所述,隨著大數據在我國各大行業中的廣泛應用,其在應該過程中存在的問題逐漸顯現,尤其是對Web數據質量管理的過程中。為了有效的提高大數據質量管理的效率和質量,就需要充分的了解Web大數據質量管理流程,然后針對性的提出一些大數據質量的管理方法,從而有效的提高大數據質量管理的效率和質量,保證Web大數據在我國各大行業中的廣泛應用。
參考文獻
[1]胡水晶.基于資源基礎觀的企業大數據分析技術采用意愿影響因素研究[J].情報科學,2016,V34(5):148-152.
[2]張萍,邱立,劉慧.大數據思維框架下醫院“質量數據管理中心”的集成構建[J].中國醫院,2015,(3):30-32.
[3]朱力緯,劉麗勤,王健.高校基于大數據時代的數字化校園建設探討[J].華東師范大學學報(自然科學版),2015,2015,(s1):104-110.