蔡璽 張文軒 李萬陽
(甘肅同興智能科技發展有限責任公司,甘肅蘭州 730050)
數據準備工作是完成數據遷移的基礎,準備工作需要充分而周全。需要整理新舊系統數據字典、數據質量分析、差異化分析,建立新舊系統間的映射關系,制定具體的遷移方案等。
數據遷移的實施是將準備好的數據復制到物理介質或將其推送到全球互聯網上,是遷移任務3個階段中最重要的環節。遷移過程中可能出現多變的遷移環境及數據變化(寫入、導出、格式化等),這要求數據實施遷移必須制定完備的數據遷移實施流程[1]。
在數據遷移進行完畢后,需要針對這部分進行檢查和校對,應當第一步針對遷移進行查校,因為無論是通過物理介質還是網絡傳輸,數據傳輸期間有很多不確定影響因素,完整的數據遷移是證明該過程完成的重要依據。其結果也是判斷系統是否可以使用的根本。
大數據具有數據量大、類型繁多的特征,隨著海量數據的不斷堆積,微簇的聚類程度也會有所不同。對于微簇時態權重F設n表示某一微簇,tn為數據點S到微簇n的時刻,則微簇n的時態密度為所有到達微簇n的權重的總和:

通過數據到達微簇時的速度的計算發現,當新的數據到達微簇時,時態密集度權重之和增加,隨著數據運行時間的衰減推移變化,會影響整體微簇的產生。如果新的數據快速不斷地推移到達微簇,那么時態密度就會越來越大,一旦新的數據不能盡快推移到達微簇,其時態密度就會逐漸減少。通過增量的計算反映出一個微簇推移時間的快慢對整體微簇產生的重要性,新的數據到達微簇的時間越快,就會增加微簇的時態密度,而當微簇一直未有新的數據到達,該微簇沒有形成時態密度特征,就會通過更新信息將該微簇刪除。這種針對微簇不同階段點的時態密度分析計算的方式,不僅有效提高了計算的速度,還保證了計算的有效性和可靠性。
數據會因類型不同而產生不同的存儲記錄方式,導致數據存儲格式不統一。數據被遷移到新平臺后,影響到原來系統和新系統之間數據庫的正常,可能導致重復數據的二次錄入以及格式問題等情況出現,這些情況會影響到系統的兼容性。無法實現數據的統一管理。為避免這一現象發生,在新的數據遷入環境中應采用統一化格式存儲數據,以便于管理。
根據新平臺的應用功能,采用設計語言查詢數據庫的特殊編程方式,以便更好地管理和控制數據庫。設計Java語言服務方式,服務器對數據庫遷移緩存ORM框架采用的是Hibernate。通過遷移數據庫中的數據與新系統數據庫中的數據,進行Hibernate語言對象訪問形式,有效解決了數據重復混亂的問題[2]。
由于龐大的數據量對平臺系統造成推移接收困難,所以,遷入數據應先進行切分,再被多線程同時處理。這種處理方法具有很多的優勢。數據移動和接收的問題可以得到處理,對于平臺的運行環境有一定的優化作用。另外,在進行遷移前,首要的工作是對處理的總數據的情況進行合理的計算,不一定要精確,但是一定要在系統硬盤內存的量內。之后,根據實際的情況來將數據遷移到位。通過數據切分模塊將大數據細分成較小數據單元,之后,采用多線程協同處理的方式,完成上述數據分割過程,分割的不同部分應當做好對應的記錄,之后提高新平臺后,完成數據遷移過程。數據切分記錄表如表1所示。
表1中:N為數據總量,E為單個作業需要完成的遷移數據量,M×E≤N,整個切分流程分為以下幾個步驟。
黃鶯目瞪口呆,傻看著劉雁衡。劉雁衡兩眼盯住胖警官:“我跟你們去,在這里,我什么都不會說。傳單的事,只有我知道。”

表1 數據分割記錄表Tab.1 Data segmentation record table
Step1:分析并估計系統存儲能力及處理能力;
Step2:通過預估計算來分析預加載數據規模;
Step3:當數據遷移量超出系統處理能力時,需要先將數據做切分處理;
Step4:當切分環節出現問題時候應仔細評估數據遷移量并進項異常檢測;
Step5:將切分完成的數據信息序列導入到數據遷入模塊中。
基于時態密度特征的大數據遷入作業,采用的是多線程并行處理模式,數據遷入步驟如下。
Step1: 加載遷入隊列初始信息;
Step2:檢測數據源是否存在數據,如果存在數據,就要讀入下一個單位量的數據,如果沒有結束程序;
Step3:若檢測隊列已滿,則等待;
Step4:當隊列中數據讀入緩沖區,表示為空時,則任務結束。
遷入緩沖隊列技術和遷出緩沖隊列技術有效解決了時態密集大數據在遷移過程中讀入數據在格式上存在的差異和時率不匹配問題。通過對不同訪問數據的訪問率進行分別存儲,把經常訪問的數據存儲到成本較高的存儲空間,實現存儲硬件的最大化使用價值,快速安全地完成大數據的遷移工作[3]。
為了驗證基于時態密集度特征的大數據高效遷移方法的有效性,進行對比實驗分析。
實驗環境如表2所示。

表2 實驗仿真環境Tab.2 Experimental simulation environment
實驗數據分析如表3所示。

表3 實驗數據Tab.3 Experimental data
將不同種類的數據遷移方法進行對比分析,不同時間點結果如下:
3:00AM:經驗模態分解大數據遷移方法和粒子群大數據遷移方法的遷移效率分別為54%和70%,而基于時態密集度特征遷移方法的遷移效率為88%;
9:00pM:經驗模態分解法和粒子群遷移法的效率分別為31%和59%,而基于時態密集度特征遷移方法的遷移效率為91%;
綜合來看,時態密集度特征遷移方法具有良好的處理效率和實用性。
綜上所述,互聯網技術以及物聯網技術的高速滲透讓人們獲得了更多的可以取得信息和數據的渠道,但是同時也讓做好數據信息的管控更加困難。所以本文推出了具有時態密集度特征高效遷移法:通過將不同平臺的數據進行遷移后,完成了控制數據和遷移數據的可能,并且在此基礎上進一步完善了數控平臺的穩定性,避免控制平臺出現數據流流失等情況發生。基于時態密集度特征的大數據高效遷移策略,首先進行預估數據計算,并針對數據進行分割,隨后開始遷移工作,從而達到數據優化以及數據合理配置的目的。該方法確實有很強的實用性,且對于系統平臺的運行也具有很大的幫助,對于提高遷移效率,改善運算精確具有很大的幫助。另外,一些智能化的具有儲量大、運算能力強的軟件業得到了廣泛的使用,從而為數據遷移工具的開發以及大數據的應用提供了幫助。