任鹍翔
(山西省第一水文地質工程地質隊,山西 太原 030024)
在礦區水工環地質調查中,一直存在著很多問題。水工環地質調查中需要調查的數據很多,但一直沒有合適的系統可以收集、整理調查數據,也不能實現數據的實時發布。工作人員在進行地質調查后,如果沒有專業的系統整理數據,這些數據就無法實時發布,影響地質調查的工作的推進。如果地質調查缺乏數據支撐,則會導致調查工作效率降低。但是礦區水工環地質調查數據屬于保密數據,在獲取和發布前都應該進行處理,設置相關權限,供一部分人查看。在大數據時代,雖然大部分的數據在網上都處于共享狀態,但對數據進行保護性發布的技術也分很多種類,基于數據匿名的原理,設計基于云計算的礦區水工環地質調查數據發布系統。
系統主要由礦區水工環地質調查數據庫和數據發布的終端兩部分組成,聯網部分加上數據傳輸和修改的瀏覽器,總體構造如圖1所示。

圖1 系統結構簡圖
如圖1所示,數據的發布裝置需要同時具備兩種功能,一是實現數據的處理,二是充當嵌入式服務器使用。用戶在數據發布裝置上可實現遠程網絡操控,因此系統的硬件部分可分為處理器、通信器和數據儲存器[1],再加上作為驅使動力的電源和最終顯示結果的顯示器,系統的硬件共有五部分組成。
系統的電源安裝在顯示器下方,節省空間的同時還能將電源隱藏,起到美觀效果。電源與供電電路相連接,電壓控制在3V-5V之間,采用E4412芯片作為數據處理器,數據處理器的主頻最高可達到2G赫茲,可大大提高系統的處理速度。并且該處理器的能量損耗相較于傳統處理器低[2],一塊正常的電池可供處理器使用72個小時。外網遠程控制器的芯片使用12GB的大容量芯片,可實現數據秒存,控制器和處理器采用16bit的接口連接儲存器的儲存芯片采用EMMC芯片,一邊與供電電路相連,另一邊連接數據通道。儲存器的儲存方式是隨機儲存,符合數據加密處理的要求,為礦區水工環地質調查數據發布系統的設計提供了良好的硬件環境。
礦區水工環地質調查數據系統用戶可通過PC端口的瀏覽器直接訪問系統,數據發布終端與瀏覽器的連接是通過遠程操控的,瀏覽器與系統不能是單純的連接和兼容關系,兩者的融合方式是嵌入式的[3,4],嵌入式瀏覽器可隨時為用戶提供服務,用戶在任何有互聯網的地方通過任何IP地址登錄都可實現系統的數據發布。這主要是考慮到礦區水工環地質調查通常的工作地點都不是信號暢通的城市,而是信號薄弱的山區,降低數據發布的信號要求,有利于降低系統最終的運行時間。
服務器的遠程通信主要是依靠數據處理單元和服務器的連接,在操作系統中進行編程通信環節。系統自帶的IP可滿足通訊要求,服務器附著于操作系統進行數據發布的操作,服務器的CDI程序又獨立于操作系統實驗用戶的身份驗證和數據導出功能。防止操作系統在進行遠程操作的時候被惡意攻擊,導致數據丟失。
數據的發布過程中,數據的發布裝置全程監聽數據發布的動態,保證發布安全性的同時允許多個用戶同時登錄,在用戶連接之前會進行來訪者驗證,在用戶使用期間可能會隨機進行來訪驗證。判斷合法連接才能繼續進行數據發布工作,一旦發現陌生用戶進行操作立刻返回登陸界面,并向合法登陸者發出非法登陸提示。CDI程序是一種獨立于操作系統存在的網頁程序,在系統中與其他功能模塊連接通過程序接口,負責對瀏覽器發射數據判斷的請求,如果數據符合發布標準則直接進入發布環節,如果數據還處于動態階段,則會將數據傳輸到CDI程序中進行靜態處理。數據發布的最終結果會進行分類傳輸,在顯示器上顯示發布完成,最終通過遠程網絡發送到客戶端的數據接收端口上,實現礦區水工環地質調查數據發布。
為驗證本身設計的系統是否滿足礦區水工環地質調查數據發布的需求,設計對比測試實驗,對比該系統與傳統方式的系統執行時間,驗證系統的可實行性。
實驗環境選擇W10系統的計算機,計算機的CPU為i7-5200,內存為12.0GB,設置編程環境為JUPY not,數據采用某礦山的水工環地質的真實調查數據,采用Adult數據集進行數據整理,調查數據在整理之后篩選出50000條,包含各類型、各種格式的數據。數據集的具體屬性如表1。
在設置數據屬性時,由于要測試數據發布系統的性能,實驗的數據類型要多樣化,但是為了實驗結果的有效性,敏感性數據在實驗數據中的比例趨近百分之五十。
系統的執行時間是判斷系統優劣的重要標準,啟用系統進行數據發布任務執行,對比文獻中系統與本文設計的系統的執行時間,實驗結果如圖2所示:

圖2 系統運行時間對比圖
如上圖所示,本文設計的系統具有較短的運行時間,因為傳統系統為了抵御信息攻擊需要考慮諸多因素,對攻擊進行類型判斷和構造判斷才能進行有效防御。因此,運行時間最高可達到200s以上,而本文設計系統的運行時間均衡在150s~160s之間。運行時間穩定且較短,說明系統的整體性能優異。
本文基于大數據環境下的數據發布特征,對礦區水工環地質調查數據發布系統進行重新設計。該系統秉承了傳統系統用加密發布代替亂碼發布的優勢,彌補了傳統系統運行時間過長的缺點,為日后的數據發布系統的發展奠定了基礎。