中圖分類(lèi)號(hào):P208 文獻(xiàn)標(biāo)志碼:A
0 引言
網(wǎng)絡(luò)技術(shù)的發(fā)展,尤其是以博客、社交網(wǎng)絡(luò)、微博等Web2.0技術(shù)為代表的網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)的用戶(hù)作用正在發(fā)生變化。網(wǎng)絡(luò)用戶(hù)已由單一的使用者逐漸轉(zhuǎn)變?yōu)樯a(chǎn)者,不再是單純地接受由網(wǎng)絡(luò)編輯所提供的資訊,而是呈現(xiàn)顯著的“共享”的趨勢(shì)[1]如何有效地利用網(wǎng)絡(luò)中的海量數(shù)據(jù),為人類(lèi)的日常生活提供有效的服務(wù),成了當(dāng)前有關(guān)單位的研究重點(diǎn)。
隨著我國(guó)信息化水平的不斷提升,地質(zhì)勘查工作向縱深發(fā)展,地學(xué)數(shù)據(jù)庫(kù)中的數(shù)據(jù)量常常達(dá)到幾百GB,甚至以TB計(jì)量。用戶(hù)要從海量、繁雜的數(shù)據(jù)中獲取最豐富的信息,須采用相關(guān)的技術(shù)簡(jiǎn)化數(shù)據(jù)的存儲(chǔ)、組織和檢索工作,從而快速訪問(wèn)、方便更新和高效使用存儲(chǔ)空間[2]。在地理信息系統(tǒng)中,查詢(xún)處理是地理信息處理的重要組成部分,而查詢(xún)效率又是用戶(hù)最為關(guān)心的問(wèn)題,如何對(duì)其進(jìn)行優(yōu)化是提高地理信息服務(wù)質(zhì)量的重要途徑。
在早期的研究中,基于國(guó)內(nèi)外普遍采用的索引、存儲(chǔ)、精簡(jiǎn)表關(guān)聯(lián)、有意冗余等方法,雖然取得了較大的進(jìn)展,但仍然未能從本質(zhì)上解決數(shù)據(jù)的存儲(chǔ)與檢索問(wèn)題。檢索數(shù)據(jù)的關(guān)聯(lián)性較差、冗余度較高等現(xiàn)象仍較為顯著,為解決此方面問(wèn)題,規(guī)范檔案管理等相關(guān)工作,提高檢索效率與檢索信息的針對(duì)性,文章將以數(shù)字化地質(zhì)檔案為例,開(kāi)展海量時(shí)空數(shù)據(jù)關(guān)聯(lián)性自動(dòng)搜索方法的設(shè)計(jì)。
1數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)時(shí)間修正
為滿足數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)關(guān)聯(lián)性自動(dòng)搜索需求,文章采集時(shí)空數(shù)據(jù),進(jìn)行數(shù)據(jù)的時(shí)間修正。在采樣頻率較高的情況下,在時(shí)間域內(nèi),環(huán)境參量等的物理信息表現(xiàn)為連續(xù)的光滑曲線,為實(shí)現(xiàn)在較短時(shí)間內(nèi)將時(shí)空數(shù)據(jù)變化近似為連續(xù)曲線,文章引進(jìn)最小二乘多項(xiàng)式擬合方法,獲得數(shù)據(jù)對(duì)應(yīng)時(shí)刻的參數(shù)估算值并對(duì)其進(jìn)行修正[3]。數(shù)據(jù)擬合的過(guò)程如公式(1)所示。

公式中: K 表示擬合后的數(shù)據(jù); i 表示第 i 個(gè)數(shù)據(jù);Y表示數(shù)據(jù)的誤差平方和; P 表示多元函數(shù); m 表示時(shí)空數(shù)據(jù)中的多項(xiàng)式階數(shù); x 表示原始采樣數(shù)據(jù)。完成數(shù)據(jù)的擬合后,文章利用主元素法,得到設(shè)定時(shí)間參量下的空間參數(shù),通過(guò)系統(tǒng)回代計(jì)算,得到參數(shù)估計(jì)值。在此基礎(chǔ)上,文章引進(jìn)時(shí)間修正系數(shù),按照公式(2),進(jìn)行海量時(shí)空數(shù)據(jù)的時(shí)間修正4]

公式中: X 表示修正后的時(shí)空數(shù)據(jù); χt 表示修正時(shí)間點(diǎn); d 表示當(dāng)前時(shí)間點(diǎn)下的參數(shù)采樣值;
表示當(dāng)前時(shí)間點(diǎn)下的參數(shù)估計(jì)值; δ 表示修正閾值; dmax 、dmin 表示 d 的最大值與最小值。參照上述方式,文章設(shè)定時(shí)間修正閾值,根據(jù)閾值標(biāo)準(zhǔn),實(shí)現(xiàn)數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)的時(shí)間修正。
2基于空間支持度的時(shí)空數(shù)據(jù)關(guān)聯(lián)性融合
完成時(shí)空數(shù)據(jù)的時(shí)間修正后,考慮到隨著時(shí)空數(shù)據(jù)量的增加,數(shù)據(jù)之間的分布密度越來(lái)越大,為滿足自動(dòng)檢索中的數(shù)據(jù)高度關(guān)聯(lián)需求,文章設(shè)定數(shù)據(jù)所處的環(huán)境參量(即物理量)必須是一個(gè)連續(xù)的、平滑的曲面。如存在傳感節(jié)點(diǎn)讀入錯(cuò)誤數(shù)據(jù),則此數(shù)據(jù)的點(diǎn)位會(huì)被其他節(jié)點(diǎn)數(shù)據(jù)占據(jù)。因此,文章根據(jù)方向參量的變化速率判定數(shù)據(jù)是否存在異常[5]。文章在排除數(shù)據(jù)異常的前提下,進(jìn)行數(shù)據(jù)的空間支持度計(jì)算,以此為依據(jù),進(jìn)行時(shí)空數(shù)據(jù)的關(guān)聯(lián)性融合。時(shí)空數(shù)據(jù)的空間支持度計(jì)算公式如下:

公式(3)中: G 表示時(shí)空數(shù)據(jù)的空間支持度; E 表示調(diào)整系數(shù); N1,N2 表示參數(shù)變化率差值小于閾值的節(jié)點(diǎn)數(shù)量、檢索到的時(shí)空節(jié)點(diǎn)數(shù)量; s 表示 E 的敏感度系數(shù)。根據(jù)上述公式的計(jì)算結(jié)果,文章明確時(shí)空數(shù)據(jù)的豐富度與檔案數(shù)據(jù)存儲(chǔ)終端網(wǎng)絡(luò)子節(jié)點(diǎn)數(shù)量具有直觀關(guān)聯(lián),子節(jié)點(diǎn)的數(shù)量越多,表示對(duì)應(yīng)區(qū)域的融合數(shù)據(jù)占比越大[6。根據(jù)子節(jié)點(diǎn)的空間密度,文章按照公式(4),進(jìn)行時(shí)空數(shù)據(jù)的關(guān)聯(lián)性融合處理。

公式(4)中: R 表示時(shí)空數(shù)據(jù)關(guān)聯(lián)性融合;表示時(shí)空修正系數(shù)的權(quán)重、時(shí)空支持度的權(quán)重;Ndata,i表示子節(jié)點(diǎn)的數(shù)據(jù)豐富度。
3數(shù)據(jù)自動(dòng)檢索
在上述設(shè)計(jì)內(nèi)容的基礎(chǔ)上,文章引進(jìn)“時(shí)空 + ”的多維索引結(jié)構(gòu),設(shè)計(jì)數(shù)據(jù)的自動(dòng)檢索。為滿足檢索過(guò)程的自動(dòng)化需求,文章運(yùn)行HBase機(jī)制,在建立HBase數(shù)據(jù)庫(kù)的基礎(chǔ)上,將數(shù)據(jù)庫(kù)中的查詢(xún)條件加入數(shù)據(jù)庫(kù)中,包含空間、時(shí)間等多個(gè)維度的查詢(xún)要求[7]。基于輸人條件,文章建立數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)的三維網(wǎng)格,對(duì)網(wǎng)格進(jìn)行編碼,與其他維條件一起確定自動(dòng)化檢索中的行關(guān)鍵集。
考慮到行關(guān)鍵字是按照詞典順序劃分的,可能存在不唯一性與不連續(xù)性。因此,文章在獲取數(shù)據(jù)時(shí),須將行關(guān)鍵字進(jìn)行分組,通過(guò)此種方式,決定檢索中的每個(gè)起始和結(jié)束行的關(guān)鍵字集合。將空間坐標(biāo)(x,y) 與時(shí)間戳 χt 映射為HBase行鍵(RowKey),確保時(shí)空連續(xù)性。計(jì)算公式如下:
kr=Hash(x)°ledastHash(y)°ledastT(t)°ledastSq
公式中: kr 表示唯一行鍵; Hash(x) , Hash(y) 表示空間坐標(biāo)的哈希值; T(t) 表示時(shí)間戳的離散化處理;Sq 表示序列號(hào),解決同一網(wǎng)格內(nèi)數(shù)據(jù)沖突;
表示字
符串拼接。其中,時(shí)間戳的離散化處理 T(t) 計(jì)算過(guò)程如下:

公式中: t0 表示基準(zhǔn)時(shí)間; Δt 表示時(shí)間分片間隔。
在數(shù)據(jù)檢索流程中,文章基于HBase的行鍵群順序執(zhí)行高效數(shù)據(jù)掃描。具體步驟如下:首先,依據(jù)輸入的時(shí)空查詢(xún)條件,確定待掃描的行鍵群集合,按詞典序依次遍歷。在掃描過(guò)程中,利用HBase的外過(guò)濾器機(jī)制,對(duì)行鍵匹配的數(shù)據(jù)進(jìn)行初步篩選,僅保留符合索引條件的記錄,暫存至結(jié)果集。隨后,系統(tǒng)判定當(dāng)前行鍵群是否已遍歷完畢。若未完成,則自動(dòng)進(jìn)入下一行鍵群,重復(fù)上述掃描與過(guò)濾步驟,直至所有行鍵群處理完畢。
為進(jìn)一步提升數(shù)據(jù)質(zhì)量,文章對(duì)檢索結(jié)果實(shí)施二次篩選。首先,通過(guò)時(shí)間相關(guān)性分析,剔除瞬時(shí)異常數(shù)據(jù)。其次,利用空間相關(guān)性分析,識(shí)別并過(guò)濾永久性錯(cuò)誤數(shù)據(jù)[8]。通過(guò)兩級(jí)篩選,確保終端展示的數(shù)據(jù)既滿足時(shí)空連續(xù)性要求,又具備高精度與低冗余特性,顯著提升地質(zhì)檔案等時(shí)空數(shù)據(jù)的檢索與應(yīng)用價(jià)值。
在篩選中,文章需要先在特定的抽樣頻率下進(jìn)行檢索數(shù)據(jù)收集,對(duì)抽樣的數(shù)據(jù)進(jìn)行時(shí)序判定,針對(duì)普通數(shù)據(jù),文章可直接傳送到終端。針對(duì)存疑或異常數(shù)據(jù),文章將其劃分為瞬時(shí)誤差與永久誤差2種類(lèi)型。對(duì)于瞬時(shí)誤差,文章應(yīng)將其剔除,若不考慮,則進(jìn)行數(shù)據(jù)的二次篩選,根據(jù)生成異常數(shù)據(jù)的結(jié)點(diǎn)在聚類(lèi)中的百分比判定,篩選出永久錯(cuò)誤數(shù)據(jù)。按照上述步驟,文章完成數(shù)據(jù)自動(dòng)檢索與冗余處理。
4實(shí)例應(yīng)用分析
4.1實(shí)驗(yàn)準(zhǔn)備
為實(shí)現(xiàn)對(duì)設(shè)計(jì)方法在實(shí)際應(yīng)用中效果的檢驗(yàn),文章選擇某數(shù)字化地質(zhì)檔案管理單位作為本次實(shí)驗(yàn)的研究試點(diǎn),采集部分經(jīng)過(guò)脫敏處理后的時(shí)空數(shù)據(jù)作為實(shí)驗(yàn)中的樣本數(shù)據(jù)。樣本數(shù)據(jù)規(guī)模與格式如表1所示。
表1樣本數(shù)據(jù)規(guī)模與格式

為確保自動(dòng)檢索過(guò)程中數(shù)據(jù)的規(guī)范性,避免相關(guān)因素對(duì)實(shí)驗(yàn)結(jié)果造成影響,可在上述內(nèi)容的基礎(chǔ)上,按照表2所示的內(nèi)容,進(jìn)行自動(dòng)檢索終端技術(shù)參數(shù)的設(shè)計(jì)。
表2自動(dòng)檢索終端技術(shù)參數(shù)

完成測(cè)試環(huán)境的構(gòu)建后,將樣本數(shù)據(jù)錄人測(cè)試機(jī),按照下述提出的指標(biāo),對(duì)數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)關(guān)聯(lián)性自動(dòng)搜索方法展開(kāi)測(cè)試。
4.2自動(dòng)檢索時(shí)空數(shù)據(jù)關(guān)聯(lián)性檢驗(yàn)
數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)自動(dòng)檢索關(guān)聯(lián)性檢驗(yàn)是對(duì)地理文件時(shí)空關(guān)聯(lián)價(jià)值進(jìn)行系統(tǒng)性分析和評(píng)價(jià)的一項(xiàng)關(guān)鍵技術(shù),地質(zhì)記錄中含有大量的時(shí)間和空間信息,例如:地層的形成時(shí)代和空間分布。以不同形式、來(lái)源的數(shù)字化地質(zhì)記錄數(shù)據(jù)為研究對(duì)象,研究設(shè)計(jì)的方法是否能夠自動(dòng)準(zhǔn)確地識(shí)別出時(shí)空相關(guān)性。
為滿足實(shí)驗(yàn)結(jié)果的對(duì)比性,在該指標(biāo)的測(cè)試中,引進(jìn)高子軼等[1]、范曉亮等[2]提出的方法,將其作為對(duì)照,對(duì)3種方法的測(cè)試結(jié)果進(jìn)行綜合分析,如圖1所示。
從圖1自動(dòng)檢索時(shí)空數(shù)據(jù)關(guān)聯(lián)性檢驗(yàn)結(jié)果來(lái)看,本文方法在數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)自動(dòng)檢索關(guān)聯(lián)性檢驗(yàn)中展現(xiàn)出顯著優(yōu)勢(shì)。在對(duì)比實(shí)驗(yàn)里,本文方法檢索數(shù)據(jù)間的關(guān)聯(lián)度始終維持在較高水準(zhǔn),平均高達(dá) 92% ,這充分表明其具備強(qiáng)大的時(shí)空相關(guān)性識(shí)別能力。反觀高子軼等[1]、范曉亮等[2]提出的方法,檢索數(shù)據(jù)關(guān)聯(lián)性明顯較低。這一差距反映出本文方法在設(shè)計(jì)與算法優(yōu)化上的獨(dú)特之處。本文方法通過(guò)更為精細(xì)的特征提取算法,精準(zhǔn)捕捉地質(zhì)記錄中時(shí)間和空間信息的關(guān)鍵特征,無(wú)論是地層形成時(shí)代這類(lèi)時(shí)間線索,還是空間分布等空間要素,都能被有效識(shí)別并關(guān)聯(lián)。同時(shí),在數(shù)據(jù)匹配與關(guān)聯(lián)分析環(huán)節(jié),依據(jù)海量數(shù)據(jù)訓(xùn)練出高度精準(zhǔn)的關(guān)聯(lián)判斷機(jī)制,從而確保檢索結(jié)果的高關(guān)聯(lián)度。實(shí)驗(yàn)結(jié)果有力證明了本文方法在自動(dòng)檢索關(guān)聯(lián)性檢驗(yàn)方面的可靠性與高效性,為后續(xù)數(shù)字化地質(zhì)檔案時(shí)空數(shù)據(jù)的深度挖掘與利用提供了堅(jiān)實(shí)的技術(shù)支撐。
4.3檢索數(shù)據(jù)中冗余數(shù)據(jù)統(tǒng)計(jì)
冗余性用于衡量檢索后數(shù)據(jù)集中冗余信息的比例。在數(shù)據(jù)提取中,由于數(shù)據(jù)的重復(fù)輸入和跨源數(shù)據(jù)的交叉,會(huì)產(chǎn)生大量的冗余數(shù)據(jù)。如檢索后數(shù)據(jù)集合中含有大量的冗余數(shù)據(jù),則表明該方法的效率和質(zhì)量均相對(duì)較差,從而影響后續(xù)的數(shù)據(jù)分析精度和效率。反之,如檢索數(shù)據(jù)中的冗余數(shù)據(jù)量較少,說(shuō)明設(shè)計(jì)的方法應(yīng)用效果良好,可以在檢索中保留價(jià)值信息,刪除無(wú)用信息。對(duì)該指標(biāo)的檢驗(yàn)結(jié)果進(jìn)行分析,如圖2所示。
圖2檢索數(shù)據(jù)中冗余數(shù)據(jù)統(tǒng)計(jì)結(jié)果

從圖2檢索數(shù)據(jù)中冗余數(shù)據(jù)統(tǒng)計(jì)結(jié)果來(lái)看,本文方法在處理數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)關(guān)聯(lián)性自動(dòng)搜索時(shí),展現(xiàn)出對(duì)冗余數(shù)據(jù)出色的控制能力。檢索數(shù)據(jù)中冗余數(shù)據(jù)量極少,這一表現(xiàn)凸顯了本文方法的高效性與高質(zhì)量,本文方法能夠有效減少冗余數(shù)據(jù),說(shuō)明其在數(shù)據(jù)檢索環(huán)節(jié)具備精準(zhǔn)篩選的能力。高子軼等[1、范曉亮等方法檢索出的數(shù)據(jù)中攜帶了較多冗余信息與無(wú)用信息。這表明2種方法在數(shù)據(jù)檢索和篩選過(guò)程中,未能有效過(guò)濾不必要的數(shù)據(jù),導(dǎo)致檢索結(jié)果質(zhì)量欠佳。這一結(jié)果有力地證明了本文方法在減少冗余數(shù)據(jù)方面的優(yōu)越性,不僅能夠提高數(shù)據(jù)檢索的效率,還能為后續(xù)的數(shù)據(jù)分析提供更純凈、更有價(jià)值的數(shù)據(jù)集,有助于提升整個(gè)數(shù)字化地質(zhì)檔案數(shù)據(jù)處理的準(zhǔn)確性和可靠性。
5結(jié)語(yǔ)
數(shù)字化地質(zhì)檔案作為地質(zhì)科技檔案室的主要組成部分,是我國(guó)地質(zhì)工作的核心構(gòu)成。隨著電子計(jì)算機(jī)科技的發(fā)展,人類(lèi)社會(huì)的信息化進(jìn)程也隨之來(lái)臨。在地礦行業(yè)以及企業(yè)中,傳統(tǒng)的紙質(zhì)檔案數(shù)據(jù)管理已經(jīng)不能滿足當(dāng)前信息時(shí)代飛速發(fā)展的需求,而現(xiàn)有的服務(wù)模式已經(jīng)越來(lái)越不能滿足現(xiàn)在的用戶(hù)要求。在全新的歷史條件下,如何更好地適應(yīng)新的形勢(shì),已成為我國(guó)地質(zhì)檔案工作人員面臨的一個(gè)重大而迫切的課題。因此,要跟上時(shí)代的腳步,構(gòu)建和逐步健全地質(zhì)檔案數(shù)據(jù)的數(shù)字化管理方式,助力我國(guó)地礦產(chǎn)業(yè)和整個(gè)部門(mén)的地質(zhì)檔案數(shù)據(jù)管理等相關(guān)工作。本文通過(guò)數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)時(shí)間修正、基于空間支持度的時(shí)空數(shù)據(jù)關(guān)聯(lián)性融合、數(shù)據(jù)自動(dòng)檢索,完成了此次設(shè)計(jì),通過(guò)對(duì)數(shù)字化地質(zhì)檔案海量時(shí)空數(shù)據(jù)關(guān)聯(lián)性自動(dòng)搜索,為技術(shù)人員的檔案管理與相關(guān)工作的規(guī)范化實(shí)施予以技術(shù)支持,從而提高檔案錄入、檢索的效率。
參考文獻(xiàn)
[1]高子軼,宋智淵,張海平,等.西寧市旅游基礎(chǔ)設(shè)施時(shí)空格局演變及關(guān)聯(lián)性研究[J].干旱區(qū)資源與環(huán)境,2023(3):195-202.
[2]范曉亮,彭朝鵬,鄭傳潘,等.面向大規(guī)模交通網(wǎng)
絡(luò)的時(shí)空關(guān)聯(lián)挖掘方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2023(9):1317-1325.
[3]王紅霞,王波,張嘉鑫,等.基于聲陣列時(shí)空關(guān)聯(lián)特征融合的不平衡局部放電類(lèi)型識(shí)別方法[J].高電壓技術(shù),2024(5):1913-1922.
[4]唐云,王義鳳,桂舟.基于長(zhǎng)時(shí)序夜間燈光數(shù)據(jù)的南京市城區(qū)范圍時(shí)空分異研究[J].江蘇科技信息,2023(13):75-80.
[5]王亭,李龍,馬靖皓,等.不同來(lái)風(fēng)方向?qū)︼L(fēng)電機(jī)組發(fā)電性能的數(shù)據(jù)分析研究[J].新能源科技,2024(3):25-32.
[6趙星越,林艷,丁正焱.基于自動(dòng)車(chē)牌識(shí)別數(shù)據(jù)的團(tuán)伙犯罪時(shí)空關(guān)聯(lián)車(chē)輛發(fā)現(xiàn)方法[J].地球信息科學(xué)學(xué)報(bào),2024(12):2701-2711.
[7]周啟帆,劉海旭,董志鵬,等.基于軌跡數(shù)據(jù)的大規(guī)模路網(wǎng)交通擁擠時(shí)空關(guān)聯(lián)規(guī)則挖掘[J].系統(tǒng)仿真學(xué)報(bào),2024(1) :260-271.
[8]姚宏.基于深度學(xué)習(xí)的課堂交互行為數(shù)據(jù)搜索方法[J].無(wú)線互聯(lián)科技,2024(21):123-125.
(編輯 王永超)
Automatic search method for correlation of massive spatio-temporal data in digital geological archives
E Qinlian (Qinghai Provincial Natural Resources Museum, Xining 81Oooo,China)
Abstract:To improvethecorelationofretrieveddataandreducedataredundancy,thisarticletakes digital geological archives as an example todesign anautomaticsearch method for masive spatiotemporaldatacorrelation.The article introduces the least squares polynomialfting method to obtain parameter estimates atthe corresponding time of data, and performs timecorrectionon massive spatiotemporal data of digital geological archives.Onthe premise of excluding data anomalies,thearticle calculates the spatial supportof thedataand performs spatiotemporaldata corelation fusion based on the calculationresults.The article introduces a multidimensional indexing structure of“spatiotemporal + ” and designs automatic data retrieval.The comparative experimental results showthat the designed method notonly ensures high correlation betweenautomaticallyretrieved spatiotemporal data,but alsoreduces the redundancyof retrieved data and optimizes data quality.
Key words:digital geological archives;spatial support degree;time corection;automatic search method;correlation fusion;massive spatio-temporal data