■魏文峰 王明琛 陳哲昊
(中國礦業大學(北京)能源與礦業工程學院)
大數據作為當今特殊時代條件下催生的新興產業越來越受到人們的重視。隨著社會的發展,每天產生的數據規模越來越龐大,利用大數據完成的工作也越來越多。而對這些數據的和信息的篩選、匯集與管理無疑是一項艱巨的壓力和挑戰。在大數據發展越來越快的當下,必須相應地對管理信息系統做出變革和創新,才能夠適應新時代下的變化,滿足未來嚴峻的挑戰。而為了有效滿足對管理信息系統的需求,必須對大數據背景下的管理信息系統進行分析與討論,探索其與大數據的重要聯系的發展現狀。
大數據是指使用當前運算工具在一定時間內難以捕捉、管理、分析和處理,需要通過數據挖掘、數據清洗、數據分析后才可以獲取其價值的大規模數據的集合,具有大量(Volume)、高速(Velocity)、多樣(Variety)、低價值密度(Value)、真實性(Veracity)的特點。隨著互聯網技術的迅速發展,大數據研究正成為推動社會發展的重要力量。習近平總書記于2019中國國際大數據產業博覽會指出,當前,以互聯網、大數據、人工智能為代表的新一代信息技術蓬勃發展,對各國經濟發展、社會進步、人民生活帶來重大而深遠的影響。未來,大數據必將更深入地應用到包括文化、醫療、民生等社會生活的各個方面。
而大數據環境下的管理信息系統主要是管理者通過綜合利用計算機軟件、硬件、網絡等設備采集相關的信息,然后通過傳輸和分析對信息進行加工處理,從而可以有效提升企業的經營效益[1]。現代企業管理信息系統的發展研究必須以大數據為基本背景,才能夠將企業管理信息系統與未來的發展要求相匹配,才可以順應時代的發展趨勢。而雖然目前我國越來越多的企業開始重視大數據背景下的企業管理信息系統的發展,并且取得了一定的成果,例如阿里研發的OceanBase分布式數據庫系統,具備先進的處理技術,建立了金融級分布式關系數據庫,推動了我國管理信息系統的發展。但是也要清楚的認識到,我國目前仍然與西方國家有較大差距,仍然需要大力發展和創新。未來的發展中管理信息系統將繼續適應大數據環境,調整傳統管理信息系統架構以適應新的需求,同時打造優質的管理環境,革新傳統設備以提高管理信息系統的運轉效率,滿足企業的發展要求。
如今各類數據普遍存在于當今社會的組織結構當中,而在大數據背景之下,對數據的集成和清洗功能又有了新的要求。對于大數據環境下數據的集成功能目標主要是對新產生的大量非結構化和半結構化數據進行高效的處理和集成,以便于后續高效的分析數據。而目前一般采用Hadoop架構,這種架構能夠高效處理此類數據,并結合云存儲和分布式處理等方式適應多種情況下的數據處理,在大數據處理上具有非常大的優勢,因而被廣泛采用。而大數據時代下數據的質量難以保證,存在大量的無用、冗余甚至錯誤的信息。這就對企業管理信息系統的數據清洗能力提出了一定的要求。數據清洗(data cleaning)主要用來檢測數據中存在的異常數據(例如錯誤數據、缺失數據和不一致數據等)[2]。對于大數據背景下的管理信息系統,必然對于缺失數據平滑、屬性表征和異常檢測等數據清洗功能有新的較高的要求,這對于未來的數據清洗技術的發展仍然是較大的挑戰。
大數據背景下,隨著電子商務、互聯網等產業的快速發展,數據規模以幾何級數的方式增長,現有的存儲設備基本難以滿足數據庫對大數據中大量數據的存儲需求,這催生出能夠滿足大數據時代存儲要求的技術和設備。而且由于企業成本、技術以及時間的限制,又要求管理信息系統的成本較低,能夠使非計算機專業的操作人員使用,并且要求存取數據準確、快速。即一方面要求存儲能向著縱向和無限擴容發展,另一方面要求系統低的構建成本、簡易的操作與維護的復雜程度和高效的可存取性。而在此背景下,一般采用云存儲技術滿足管理信息系統的存儲需求。云存儲以互聯網為基礎,能夠很好地滿足當前應用的存儲需求。通過該技術,用戶能夠利用個人電腦、手機等多種設備,實現數據、文檔、圖片等內容的集中存儲和資料共享[3]。云存儲采用可擴展的DFS,利用低價的PC為人們提供了大量廉價的存儲空間,滿足企業的需要并且大大降低了成本。并且云存儲借助互聯網技術降低了資料傳輸的時間投入,革新了共享效率和數據分享模式。
數據分析是最重要的環節之一,是可以為企業提供決策依據和創造經濟價值的過程。傳統意義上的數據分析主要針對結構化數據展開,且已經形成了一整套行之有效的分析體系[4]。首先結合數據庫的結構化數據,進行多維度下鉆(drilldown)或上卷(roll-up)操作,并產生了聚類、關聯分析等一系列有效的處理手段。但在大數據背景下這一處理過程段對于大量非結構化和半結構化數據表現并不如人意。并且大數據背景下,又產生了許多新的問題。首先,處理設備的限制。傳統數據管理中數據結構簡單,數據較少,一般的處理設備可以較好處理。而大數據背景下數據結構復雜,數據規模龐大,一般的設備難以應付。如今采用的分布式處理的技術,滿足大數據管理的需要,但面對日益龐大的數據,其處理能力仍然面對嚴峻的考驗。其次是數據處理的實時性要求。數據中蘊含的信息價值隨著時間的延長而降低,而且在某些場景中必須要求對實時數據進行處理,例如人工智能等技術,需要實時對獲得的大量數據進行分析處理。目前雖然已有很多成果,但仍然缺少通用的實時處理大數據的應用架構。最后是處理方法的缺乏。在面對非結構化和半結構化的數據中,往往之前并不存在有效的處理問題的方法,使計算機能夠找到數據內部的聯系,并得出合理的分析結果。而某些問題的實時處理要求更難應用合理的處理方法得到結果。這些問題仍然制約著目前管理信息系統的發展,需要企業進一步的發展和創新。
管理信息系統的架構規則與體系是包括信息系統的概念、信息系統的基礎設施架構、信息系統的信息資源結構和信息系統的軟件架構等[5]。而首先基于云計算的新型模式,系統將借助相應的SaaS、IaaS、PaaS服務模式實現實現計算機資源遠程管理,將企業與用戶的計算機遠程連接,最大化利用計算機資源。其次是分布式數據處理體系,該技術的使用將大大提高系統的信息處理能力和容量,提高信息系統的性能與可靠性。以及虛擬數據儲存例如云存儲的技術,提高系統訪問的時效性和可靠性,增加與用戶的共享性,節省信息輸送時間,推動企業的進一步發展。而且,傳統MIS系統的核心是CS結構,主要范圍在企業內部網上,而在互聯網發展下的現代MIS核心是BS架構,即在互聯網上可以供客戶使用操作的信息系統。這是適應時代發展和變革的新的結構。
大數據時代下產生的難以短時間內處理的規模龐大的數據,對軟件的分析和運算能力提出了新的要求和任務。分布式文件系統Hadoop以高度的容錯性和吞吐率帶來了極大的便利,受到了各類組織的廣泛使用。阿里巴巴自行研發的OceanBase分布式數據庫系統,采用了兼具分布式系統的擴展性和關系數據庫的易用性和靈活性的設計,使其具有良好的可擴展性和可靠性。
隨著計算機技術的發展,越來越多的數據得以數字化的形式保存在虛擬數據庫中,這大大提升了數據存儲和處理的能力,但也造成了極大的安全風險。而網絡技術的快速發展使得這一風險再次提高。而大數據對于云存儲和分布式處理的廣泛使用也提高了數據安全的風險。目前信息安全防護中,APT 高級威脅檢測與分析是云技術防護體系的重要組成部分,是在基礎安全防護的基礎上,通過全流量采集、行為分析、威脅情報、機器學習等新技術和手段,對各類高級威脅、定向滲透、特種木馬等進行深度分析。除此之外,對于數據庫數據加密,防火墻漏洞分析等技術也在快速發展,人們對于數據庫安全的意識也在不斷提高,國家也在積極制定相關法律法規和政策,對于網絡數據安全和規范進行明確的規定,保護數據安全。
本文結合目前有關的技術和經驗對管理信息系統在大數據背景下的發展情況進行論述和分析。而社會大數據環境的不斷發展,雖然對傳統的管理信息系統產生了巨大的挑戰,但也促使著管理信息系統的不斷優化和創新。這可以使得企業決策的合理性大大提高,對于企業的發展具有非常重要的意義。