基于語義匹配的海量異構(gòu)數(shù)據(jù)自動化集成方法研究

2018-05-15 08:31:14李賀李曉琳

軟件導(dǎo)刊 2018年4期

關(guān)鍵詞：語義

李賀李曉琳

摘要：隨著互聯(lián)網(wǎng)與信息化的普及，數(shù)據(jù)數(shù)量、數(shù)據(jù)來源與數(shù)據(jù)格式的復(fù)雜性愈加突出?；ヂ?lián)網(wǎng)、傳感器、人工收集等多種來源產(chǎn)生了海量異構(gòu)數(shù)據(jù)，為解決多源異構(gòu)數(shù)據(jù)處理問題，設(shè)計(jì)一種將海量異構(gòu)數(shù)據(jù)自動化集成到同一數(shù)據(jù)倉庫的方法。通過建立元數(shù)據(jù)模型（以數(shù)據(jù)集為單位）將來源數(shù)據(jù)按數(shù)據(jù)集分類，映射整合到數(shù)據(jù)倉庫中，通過CRF序列標(biāo)注模型、Skip-Gram神經(jīng)網(wǎng)絡(luò)、TF*IDF等機(jī)器學(xué)習(xí)技術(shù)，解決了數(shù)據(jù)倉庫集成中語義映射的難題，實(shí)現(xiàn)了海量多源異構(gòu)數(shù)據(jù)的自動化入庫，為之后的數(shù)據(jù)分析挖掘提供了良好基礎(chǔ)。

關(guān)鍵詞：海量異構(gòu)數(shù)據(jù)處理；元數(shù)據(jù)；CRF序列標(biāo)注；Skip-Gram神經(jīng)網(wǎng)絡(luò)；TF*IDF算法

DOI：10.11907/rjdk.172628

中圖分類號：TP391

文獻(xiàn)標(biāo)識碼：A 文章編號：1672-7800（2018）004-0194-03

Abstract：With the popularization of internet and information technology， the complexity among the number of data， data sources and data formats grows more and more prominent. Internet， sensors， artificial collection and other sources have produced massive heterogeneous data， so a method of automating the integration of massive heterogeneous data into the same data warehouse is designed to solve the problem of multi-source heterogeneous data processing. By setting up the metadata model （in units of data sets）， the source data is classified according to the data set.The mapping is integrated into the data warehouse. Through the CRF sequence annotation model， Skip-Gram neural network， TF * IDF and other machine learning techniques， the problem of semantic mapping in data warehouse integration is solved， and the automatic storage of massive multi-source heterogeneous data is realized， so as to provide a good foundation for the subsequent dato analysis and mining.

Key Words：mass heterogeneous data； metadata； CRF sequence labeling； Skip-Gram neural networks； TF-IDF algorithm

0 引言

隨著互聯(lián)網(wǎng)的日漸普及，數(shù)據(jù)來源更加復(fù)雜[1]，數(shù)據(jù)量更是以幾何級數(shù)增長。如何合理梳理海量異構(gòu)、多來源的數(shù)據(jù)迫在眉睫。例如公安信息系統(tǒng)[2]，由于全國公安信息互聯(lián)，范圍廣、種類多、信息復(fù)雜，導(dǎo)致了數(shù)據(jù)的海量異構(gòu)。

同時(shí)，數(shù)據(jù)處理與自然語言處理技術(shù)日趨完善，其中針對數(shù)據(jù)處理，尹寶才、王文通等[3]介紹了深度學(xué)習(xí)算法在不同數(shù)據(jù)處理中的最新應(yīng)用現(xiàn)狀及發(fā)展趨勢；宗成慶[4]通過將給予規(guī)則的方法和給予統(tǒng)計(jì)的方法相結(jié)合，提高了自然語言處理正確率，并對語料庫技術(shù)、漢語自動分詞與詞性標(biāo)注、句法分析、詞義消歧等進(jìn)行了研究。

本文基于海量異構(gòu)數(shù)據(jù)的實(shí)際場景，對多來源、多異構(gòu)的數(shù)據(jù)提出智能語義匹配的自動化集成接入方案。首先提出將多源、相似數(shù)據(jù)合并成統(tǒng)一的數(shù)據(jù)集，以解決來源復(fù)雜、存儲重復(fù)的問題；其次，對多格式數(shù)據(jù)進(jìn)行分析，針對不同格式，填寫對應(yīng)的配置文件（文件格式、映射目錄、字段含義、分隔符等），實(shí)現(xiàn)多格式的數(shù)據(jù)處理；然后通過機(jī)器學(xué)習(xí)的語義匹配對語義相同、名稱不同的數(shù)據(jù)字段實(shí)現(xiàn)智能自動化推薦，解決了來源數(shù)據(jù)集和企業(yè)內(nèi)標(biāo)準(zhǔn)數(shù)據(jù)集映射的問題；最后，采集大量樣本數(shù)據(jù)，通過現(xiàn)場測試、學(xué)習(xí)樣本訓(xùn)練等，提高正確率。

1 設(shè)計(jì)思路

常見數(shù)據(jù)集集成方式[5]有：Federated Database（聯(lián)邦數(shù)據(jù)庫）、Data Warehouse（數(shù)據(jù)倉庫）、Middleware（中間件體）。聯(lián)邦數(shù)據(jù)庫對多源數(shù)據(jù)采用部分集成方式，但查詢復(fù)雜、映射程序關(guān)聯(lián)過多；數(shù)據(jù)倉庫能夠統(tǒng)一數(shù)據(jù)格式進(jìn)行存儲，但數(shù)據(jù)源發(fā)生變化時(shí)不能及時(shí)更新；中間件體實(shí)際提供的是一種查詢方案，可進(jìn)行跨數(shù)據(jù)源的查詢，但存在查詢效率不高、速度慢等缺點(diǎn)。

聯(lián)邦數(shù)據(jù)庫和中間件體稱為模式集成方法，數(shù)據(jù)倉庫稱為數(shù)據(jù)復(fù)制方法。兩種集成方法對比如表1所示。

綜上述，本文提出基于元數(shù)據(jù)的集成方案，企業(yè)內(nèi)部制定以數(shù)據(jù)集為單位的元數(shù)據(jù)模型，將海量異構(gòu)數(shù)據(jù)按數(shù)據(jù)集進(jìn)行分類，類似于模型化ETL過程，并對數(shù)據(jù)來源、地市、類別等信息進(jìn)行標(biāo)記，實(shí)現(xiàn)了數(shù)據(jù)的整體化和集成規(guī)范化。相對于傳統(tǒng)數(shù)據(jù)倉庫方法，可通過元數(shù)據(jù)修正實(shí)現(xiàn)數(shù)據(jù)的及時(shí)更新；相對于中間件體方法，減少了跨數(shù)據(jù)庫的查詢模式，效率更高，關(guān)聯(lián)性更好，信息更全面。

語義匹配則是針對來源數(shù)據(jù)集分類映射到企業(yè)內(nèi)部元數(shù)據(jù)模型時(shí)，存在的數(shù)據(jù)集歸類、具體字段含義分析問題而實(shí)現(xiàn)智能的映射關(guān)系推薦。整體設(shè)計(jì)如圖1所示。

2 方法實(shí)現(xiàn)

根據(jù)海量數(shù)據(jù)來源和相關(guān)企業(yè)及國家標(biāo)準(zhǔn)，制定能夠廣泛涵蓋海量數(shù)據(jù)的元數(shù)據(jù)模型，并根據(jù)實(shí)際情況進(jìn)行增刪修改；根據(jù)數(shù)據(jù)集的推薦和對應(yīng)字段的映射關(guān)系，采用語義匹配方式進(jìn)行智能匹配。主要工作內(nèi)容包含以下幾部分：

（1）通過CRF序列標(biāo)注模型（Conditional Random Field）進(jìn)行相鄰語句標(biāo)記，通過上下文確定字段含義，實(shí)現(xiàn)中文文本自動分詞，訓(xùn)練領(lǐng)域相關(guān)分詞器。CRF序列標(biāo)注模型屬于判別模型，主要對條件概率模型P（Y|X）進(jìn)行建模。學(xué)習(xí)時(shí)，利用訓(xùn)練數(shù)據(jù)集通過極大似然估計(jì)或正則化的極大似然估計(jì)，迭代求解模型參數(shù)；預(yù)測時(shí)，對于給定的輸入序列X，求出條件概率P（Y|X）最大的輸出序列Y[6]。

（2）針對訓(xùn)練好的領(lǐng)域相關(guān)分詞器，建立大量語料庫，對語料進(jìn)行分詞處理，建立語言模型（基于Hierarchical Softmax的Skip-Gram神經(jīng)網(wǎng)絡(luò)）訓(xùn)練領(lǐng)域詞向量[7-8]。

（3）去除字段中無含義的助詞部分（的、了、啊等語氣助詞），應(yīng)用TF-IDF算法[9-10]評估具體字段或語句在來源數(shù)據(jù)中的重要性，并通過對詞向量的加權(quán)平均，確定其歸屬數(shù)據(jù)集和對應(yīng)字段。

（4）數(shù)據(jù)集推薦問題分解為兩個步驟：數(shù)據(jù)集分類、集內(nèi)元素推薦。以之前人工完成的映射作為樣本進(jìn)行向量化，接入的數(shù)據(jù)集編號作為類別，應(yīng)用MLP建立分類模型，應(yīng)用MLP分類模型訓(xùn)練生成訓(xùn)練數(shù)據(jù)集，應(yīng)用相似性最大匹配算法遍歷解空間計(jì)算字段映射。經(jīng)實(shí)際數(shù)據(jù)檢驗(yàn)，分類模型的F1值可達(dá)91%。

具體工作模式分為兩部分，對來源數(shù)據(jù)集采用緩存和語義詞向量兩種方式，實(shí)際步驟如下：①對數(shù)據(jù)集所有字段的中文描述進(jìn)行排序，然后按順序拼接成一個長字符串。應(yīng)用哈希算法，計(jì)算出該數(shù)據(jù)集的哈希值Key。對字段中文進(jìn)行排序，是為了保證字段的不同順序不會影響輸出結(jié)果；②根據(jù)哈希值Key，從映射緩存池中查找是否存在相應(yīng)記錄與之對應(yīng)，如果存在，則返回要接入的數(shù)據(jù)集編號和字段映射；如果不存在，則進(jìn)入基于語義詞向量的接入模式；③進(jìn)入基于語義詞向量的接入模式。將每個字段與每個數(shù)據(jù)集看作一個詞的容器，利用預(yù)訓(xùn)練好的分詞器對每個字段的中文描述進(jìn)行分詞；④對分詞結(jié)果進(jìn)行停詞過濾，排除一些常見卻沒有太多信息的詞，如“的”、“了”等；⑤統(tǒng)計(jì)每個詞在要接入數(shù)據(jù)集中出現(xiàn)的頻次TF（Term Frequency），根據(jù)該詞在歷史接入數(shù)據(jù)庫中的逆文檔頻率（IDF），計(jì)算每個詞的權(quán)重系數(shù)TF*IDF。對逆文檔頻率的計(jì)算過程要進(jìn)行平滑處理；⑥根據(jù)預(yù)訓(xùn)練的詞向量庫，獲取每個詞對應(yīng)的詞向量。對于數(shù)據(jù)集的向量化，用數(shù)據(jù)集內(nèi)所有分詞詞向量的加權(quán)平均表示，加權(quán)系數(shù)為第⑤步計(jì)算的TF*IDF系數(shù)；⑦將數(shù)據(jù)接入工作分解為兩部分，一是獲取對應(yīng)的目的數(shù)據(jù)集，二是在目的數(shù)據(jù)集內(nèi)通過相似性計(jì)算獲取字段映射表。將數(shù)據(jù)集的接入工作轉(zhuǎn)化為分類問題，可應(yīng)用現(xiàn)階段大量成熟的分類算法，應(yīng)用多層感知機(jī)（MLP）實(shí)現(xiàn)數(shù)據(jù)集多分類任務(wù)。利用歷史接入數(shù)據(jù)庫預(yù)訓(xùn)練好MLP，以第⑥步計(jì)算出的數(shù)據(jù)集的表征向量作為輸入，計(jì)算出目的數(shù)據(jù)集的類別編號；⑧集內(nèi)字段相似性匹配。遍歷要接入的數(shù)據(jù)集，對于每一個字段，分別計(jì)算與目的數(shù)據(jù)集內(nèi)每個字段的相似性得分，得分最高者即為匹配字段。給出目的數(shù)據(jù)集編號和字段映射表；⑨將基于語義詞向量接入模式輸出的結(jié)果保存到映射緩存池中。技術(shù)流程如圖2所示。

3 結(jié)果分析

來源數(shù)據(jù)：以快遞類數(shù)據(jù)為例，XX1為快遞單類信息，XX2為快遞訂單信息，XX3為快遞訂單記錄。元數(shù)據(jù)中快遞類數(shù)據(jù)集如圖3所示。

接入流程：當(dāng)有新的快遞類數(shù)據(jù)時(shí)，通過對來源數(shù)據(jù)與元數(shù)據(jù)的語義匹配，得出對應(yīng)關(guān)系，將來源數(shù)據(jù)按照新的數(shù)據(jù)結(jié)構(gòu)入庫，“物流公司名稱”、“地市”等標(biāo)記字段，根據(jù)數(shù)據(jù)來源自動填充。最終將3個不同快遞公司的數(shù)據(jù)存入同一數(shù)據(jù)集中，并通過“物流公司名稱”進(jìn)行來源區(qū)分，不同數(shù)據(jù)集會有不同的來源區(qū)分字段?？爝f數(shù)據(jù)入庫前后對比結(jié)果如圖4所示。

效果說明：顯然3類不同廠家來源的快遞類信息，通過語義匹配的集成方法，很好地映射進(jìn)元數(shù)據(jù)模型中的快遞類數(shù)據(jù)集，并且標(biāo)注有廠商名稱、地市、來源等字段，信息完整、準(zhǔn)確、統(tǒng)一。

4 總結(jié)展望

本文介紹了通過制定元數(shù)據(jù)模型和機(jī)器學(xué)習(xí)的方法，將來源復(fù)雜、結(jié)構(gòu)各異的海量數(shù)據(jù)進(jìn)行匹配映射接入，實(shí)現(xiàn)了海量異構(gòu)數(shù)據(jù)的規(guī)范化。以下3個方面還需進(jìn)一步深入展開：①元數(shù)據(jù)維護(hù)需進(jìn)一步加強(qiáng)，以應(yīng)對一些數(shù)據(jù)的實(shí)時(shí)更新，提高系統(tǒng)魯棒性；②建立基于HDFS、HBase的大數(shù)據(jù)存儲系統(tǒng)，提高海量數(shù)據(jù)的接入處理速度；③不斷完善調(diào)整智能推薦模塊詞庫及其權(quán)重分配，提高推薦效率和準(zhǔn)確度。

參考文獻(xiàn)：

[1] HAMPTON S，STRASSER C，TEWKSBURY J J，et al.Big data and the future of ecology[J]. frontiers in Ecology and the Environment，2013，11（3）：156-162.

[2] 唐友軍.一個公安異構(gòu)數(shù)據(jù)集成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].上海：同濟(jì)大學(xué)，2008.

[3] 尹寶才，王文通，王立春.深度學(xué)習(xí)研究綜述[J].北京工業(yè)大學(xué)學(xué)報(bào)，2015（1）：153-155.

[4] 宗成慶.統(tǒng)計(jì)自然語言處理[M].第2版.北京：清華大學(xué)出版社，2015.

[5] CALI A，CALVANESE D，GIACOMO G D，et al.Data integration under integrity constrainsts[C].The 14th International Conference on Advanced Information Systems Engineering，2004：147-163.

[6] 趙曉凡，胡順義，劉永革. CRF模型中參數(shù)f在字標(biāo)注漢語分詞中的適用性研究[J].鄭州大學(xué)學(xué)報(bào)：工學(xué)版，2011（7）：103-106.

[7] 蔡慧蘋.基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D].重慶：西南大學(xué)，2016.

[8] 朱家暉.基于深度學(xué)習(xí)的主題建模方法研究[D].武漢：武漢大學(xué)，2017.

[9] 張瑾.基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志，2014（4）：153-155.

[10] 郭太勇.一種基于改進(jìn)的TF-IDF和支持向量機(jī)的中文文本分類研究[J].軟件，2016（12）：141-145.

（責(zé)任編輯：黃健）