邊陸, 林少波, 郭棟, 代素敏, 韓飛飛, 程鵬
(北京中電飛華通信有限公司,北京 100700)
“工業(yè)4.0”利用最新的信息技術(shù)促進(jìn)了企業(yè)的協(xié)同發(fā)展,使企業(yè)內(nèi)部的各個(gè)系統(tǒng)信息互聯(lián),推動(dòng)了企業(yè)的橫向集成和縱向集成[1-2]。在數(shù)據(jù)處理分析研究中:文獻(xiàn)[3]針對(duì)工業(yè)生產(chǎn)過(guò)程中出現(xiàn)的多源異構(gòu)問(wèn)題,提出了基于XML文檔技術(shù)的異構(gòu)數(shù)據(jù)轉(zhuǎn)換集成方法,將異構(gòu)數(shù)據(jù)轉(zhuǎn)換為文檔實(shí)現(xiàn)數(shù)據(jù)源的有效集成;文獻(xiàn)[4]利用Hadoop大數(shù)據(jù)框架建立了數(shù)據(jù)分析的分布式平臺(tái),實(shí)現(xiàn)了企業(yè)業(yè)務(wù)信息的互通互聯(lián)和資源共享;文獻(xiàn)[5]應(yīng)用了Spark大數(shù)據(jù)處理技術(shù),優(yōu)化了數(shù)據(jù)查詢速率,通過(guò)并行化計(jì)算完成圖像數(shù)據(jù)的快速檢索;文獻(xiàn)[6]提出了一種端到端的實(shí)體關(guān)系抽取模型,使用詞序關(guān)系和語(yǔ)法樹結(jié)構(gòu)完成信息抽取,加快了數(shù)據(jù)處理過(guò)程中信息抽取的效率。當(dāng)前研究中,對(duì)于有高噪聲、強(qiáng)冗余的高維數(shù)據(jù)的處理效果較差,在數(shù)據(jù)分析和組織過(guò)程中計(jì)算量過(guò)大且復(fù)雜程度較高,在有效分離數(shù)據(jù)類別的同時(shí),無(wú)法保證相同特性的數(shù)據(jù)聚集。

(1)
式中,U、V表示兩個(gè)系統(tǒng)中業(yè)務(wù)數(shù)據(jù)的非負(fù)矩陣,n表示樣本數(shù)量,d表示特征數(shù)量。將業(yè)務(wù)數(shù)據(jù)集分解為U、V兩個(gè)矩陣,U=[u1,u2,…,un]表示權(quán)重向量矩陣,V=[v1,v2,…,vn]表示基向量矩陣。基向量矩陣V為一個(gè)r維的向量空間R,R中的點(diǎn)可表示為原始數(shù)據(jù)集中的向量,經(jīng)過(guò)矩陣分解后忽略了數(shù)據(jù)的高維幾何結(jié)構(gòu)。為了保留業(yè)務(wù)數(shù)據(jù)的部分高維特征,在矩陣分解中引入局部正則化,根據(jù)目標(biāo)函數(shù)提出相應(yīng)的優(yōu)化方案。局部約束非負(fù)矩陣算法的降維流程如圖1所示。

圖1 局部約束非負(fù)矩陣算法的降維流程
本研究對(duì)降維過(guò)程中算法的稀疏度進(jìn)行了控制,算法的稀疏度可表示為
(2)
式中,n表示數(shù)據(jù)集中向量的維度,xi表示業(yè)務(wù)數(shù)據(jù)集中的樣本。通過(guò)調(diào)整正則化參數(shù)使矩陣分解模型更加穩(wěn)定,避免出現(xiàn)過(guò)擬合的情況,模型的損失函數(shù)可表示為
(3)
式中,Y表示模型輸出的數(shù)據(jù),X表示輸入的原始數(shù)據(jù),β表示模型系數(shù),α表示常數(shù)參數(shù)[9]。對(duì)于企業(yè)信息系統(tǒng)中n個(gè)d維的樣本X=[x1,x2,…,xn],在高維空間的損失函數(shù)為φ,通過(guò)求解模型的權(quán)重系統(tǒng),將數(shù)據(jù)集從高維映射到低維后重構(gòu)系數(shù)不變,低維空間中n個(gè)r維樣本V=[v1,v2,…,vn]的損失函數(shù)[10]可表示為
(4)
式中,W表示重構(gòu)系數(shù),I表示單位矩陣,G表示映射關(guān)系。在矩陣分解過(guò)程中需要保持穩(wěn)定的同時(shí)控制稀疏性,在低維空間中保留原始數(shù)據(jù)高維的結(jié)構(gòu),得到的目標(biāo)函數(shù)可表示為
(5)
企業(yè)系統(tǒng)中智能搜索、自動(dòng)問(wèn)答和信息推薦等應(yīng)用需要從文本數(shù)據(jù)中提取多個(gè)實(shí)體之間的關(guān)系,形成相關(guān)的知識(shí)圖譜,在深度學(xué)習(xí)中構(gòu)建復(fù)雜的知識(shí)庫(kù)。本研究基于預(yù)訓(xùn)練模型建立關(guān)系抽取模型,在解決關(guān)系分類任務(wù)時(shí)定義了編碼器模型。
系統(tǒng)數(shù)據(jù)庫(kù)中,x=[x0,x1,…,xn]表示詞語(yǔ)序列,x0=[CLS]為特殊的開(kāi)始標(biāo)記,xn=[SEP]為結(jié)束標(biāo)記。數(shù)據(jù)序列中,s1=(i,j)、s2=(k,l)為一對(duì)整數(shù),關(guān)系語(yǔ)句用三元組r=(x,s1,s2)表示,s1、s2表示實(shí)體區(qū)間,關(guān)系語(yǔ)句中的第一個(gè)實(shí)體用[xi,…,xj-1]表示,第二個(gè)實(shí)體用[xk,…,xl-1]表示。通過(guò)關(guān)系表示函數(shù)映射到向量hr,向量hr為s1、s2之間的詞語(yǔ)序列關(guān)系。本研究關(guān)系表示模型的結(jié)構(gòu)如圖2所示。

圖2 關(guān)系表示模型結(jié)構(gòu)
模型輸入的關(guān)系語(yǔ)句詞語(yǔ)序列為
(6)

在關(guān)系抽取任務(wù)中的有監(jiān)督關(guān)系抽取中,給定有關(guān)系描述r和預(yù)測(cè)關(guān)系的類型t,固定的關(guān)系類型字典設(shè)為T,當(dāng)t=0時(shí)表示關(guān)系語(yǔ)句匯總的實(shí)體之間的缺乏關(guān)系。在有監(jiān)督任務(wù)中設(shè)定一個(gè)新的分類層,可表示為
W∈Rk*H
(7)
其中,k表示業(yè)務(wù)數(shù)據(jù)關(guān)系類型的數(shù)量,H表示關(guān)系標(biāo)識(shí)的大小。在關(guān)系抽取任務(wù)中對(duì)于關(guān)系描述r對(duì)應(yīng)的詞序列,經(jīng)過(guò)編碼器訓(xùn)練后得到隱藏層輸出向量,再經(jīng)過(guò)線性歸一化后得到固定長(zhǎng)度的向量hr。通過(guò)預(yù)先學(xué)習(xí)得到關(guān)系類別表示,關(guān)系語(yǔ)句表示和關(guān)系類別為Softmax得到的關(guān)系分類。
在FS關(guān)系抽取中,利用查詢關(guān)系語(yǔ)句對(duì)數(shù)據(jù)序列中的一組候選關(guān)系語(yǔ)句進(jìn)行排序和匹配,在數(shù)據(jù)集匯中給定K組有N個(gè)被標(biāo)記的關(guān)系語(yǔ)句Sk={(r0,t0),…,(rN,tN)},其中ti∈{1,…,K}。對(duì)于少樣本任務(wù)關(guān)系,對(duì)待查詢的關(guān)系語(yǔ)句的數(shù)據(jù)序列,經(jīng)過(guò)transformer編碼器訓(xùn)練得到固定長(zhǎng)度的向量hr。對(duì)于候選關(guān)系語(yǔ)句可以進(jìn)行相同的操作,得到關(guān)系表示向量,并將待查詢語(yǔ)句和候選語(yǔ)句作為向量點(diǎn)積,Softmax查詢語(yǔ)句和候選關(guān)系語(yǔ)句作為向量點(diǎn)積的相似度進(jìn)行關(guān)系分類。
盡管我國(guó)生態(tài)文明建設(shè)已經(jīng)取得一些積極的成效,但依然面臨不少問(wèn)題與挑戰(zhàn),既面臨生態(tài)環(huán)境保護(hù)與治理方面的難題,也需要應(yīng)對(duì)體制機(jī)制方面的障礙。
數(shù)據(jù)分析是體現(xiàn)企業(yè)各類業(yè)務(wù)數(shù)據(jù)價(jià)值的過(guò)程,對(duì)于不同來(lái)源和不同結(jié)構(gòu)的數(shù)據(jù),數(shù)據(jù)分析方法可分為結(jié)構(gòu)化數(shù)據(jù)分析、文檔數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、Web數(shù)據(jù)分析等,最大限度地發(fā)揮數(shù)據(jù)價(jià)值。系統(tǒng)能夠選擇特定的數(shù)據(jù)源對(duì)數(shù)據(jù)維度進(jìn)行加工處理,根據(jù)用戶需求選擇數(shù)據(jù)字段、數(shù)據(jù)量限制、排列方式等,根據(jù)數(shù)據(jù)屬性創(chuàng)建數(shù)據(jù)集,通過(guò)屬性編輯控制模塊顯示內(nèi)容。數(shù)據(jù)分析系統(tǒng)架構(gòu)如圖3所示。

圖3 數(shù)據(jù)分析系統(tǒng)架構(gòu)
本研究數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)處理模式可分為流處理和批處理,流處理針對(duì)企業(yè)中實(shí)時(shí)的應(yīng)用場(chǎng)景,批處理適用于對(duì)時(shí)延要求不高的場(chǎng)景,將業(yè)務(wù)數(shù)據(jù)收集起來(lái)作為一個(gè)整體進(jìn)行處理。系統(tǒng)應(yīng)用了Hadoop開(kāi)源分布式框架進(jìn)行大數(shù)據(jù)處理和分析,具有較高的可靠性和可拓展性,通過(guò)將存儲(chǔ)和計(jì)算分布到大量的集群上,增加了系統(tǒng)的存儲(chǔ)容量和計(jì)算效率。系統(tǒng)應(yīng)用深度學(xué)習(xí)算法模型完成數(shù)據(jù)的預(yù)處理,改善數(shù)據(jù)質(zhì)量并提高數(shù)據(jù)分析的效率,能夠提取目標(biāo)實(shí)體完成信息抽取任務(wù)。算法模型基于數(shù)據(jù)特征對(duì)系統(tǒng)中的高維業(yè)務(wù)數(shù)據(jù)進(jìn)行降維處理,通過(guò)提取業(yè)務(wù)數(shù)據(jù)之間的關(guān)聯(lián)結(jié)構(gòu),形成新的數(shù)據(jù)特征,構(gòu)建原始數(shù)據(jù)的低維表現(xiàn)形式,減少數(shù)據(jù)分析過(guò)程中計(jì)算的數(shù)據(jù)量,同時(shí)不影響原始數(shù)據(jù)集特征。進(jìn)行降維處理的同時(shí)減少了原始業(yè)務(wù)數(shù)據(jù)集中的噪聲干擾,消除了原始數(shù)據(jù)之間的相關(guān)性。
實(shí)驗(yàn)采用數(shù)據(jù)庫(kù)服務(wù)器、計(jì)算機(jī)、交換機(jī)、路由器等設(shè)備建立實(shí)驗(yàn)測(cè)試環(huán)境,并將HBase、Flume、Kafaka等組件集成到計(jì)算機(jī)數(shù)據(jù)分析平臺(tái)上,操作系統(tǒng)為Ubuntu 16.04。在實(shí)驗(yàn)計(jì)算機(jī)上安裝ZooKeeper,并配置系統(tǒng)的環(huán)境變量,對(duì)Hadoop和Hbase進(jìn)行集群監(jiān)控。實(shí)驗(yàn)測(cè)試環(huán)境架構(gòu)如圖4所示。

圖4 實(shí)驗(yàn)測(cè)試環(huán)境架構(gòu)
通過(guò)VMware軟件創(chuàng)建3臺(tái)虛擬機(jī),操作系統(tǒng)為CentOS 7,將虛擬機(jī)分別命名為FXdata 1、FXdata 2、FXdata 3,并設(shè)定為固定IP。虛擬機(jī)的設(shè)置信息如表1所示。實(shí)驗(yàn)環(huán)境中硬件設(shè)備配置參數(shù)如表2所示。

表1 虛擬機(jī)的設(shè)置信息

表2 設(shè)備配置參數(shù)
完成實(shí)驗(yàn)環(huán)境中設(shè)備的配置后,建立數(shù)據(jù)分析實(shí)驗(yàn)的數(shù)據(jù)集,如表3所示。

表3 實(shí)驗(yàn)數(shù)據(jù)集
進(jìn)行數(shù)據(jù)降維分類實(shí)驗(yàn)時(shí),首先設(shè)定模型參數(shù)θ的范圍為0.1~1.0,間隔為0.1,主要參數(shù)λ1、λ2、λ3的取值范圍設(shè)置為λ={0.001,0.01,0.1,1,10,100,1000}。文獻(xiàn)[3]系統(tǒng)和文獻(xiàn)[4]系統(tǒng)中的數(shù)據(jù)分類算法作為對(duì)照實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集的維度設(shè)定為0~100,得到3種算法在數(shù)據(jù)集上的分類精度,如圖5所示。

圖5 數(shù)據(jù)集分類精度
由圖5可知不同算法在不同數(shù)據(jù)維度下的分類精度,隨著數(shù)據(jù)維度的增加,算法的識(shí)別率逐漸提高。在數(shù)據(jù)維度低于10時(shí),只有文獻(xiàn)[3]系統(tǒng)的識(shí)別率在0.2以下,文獻(xiàn)[4]系統(tǒng)的分類精度為0.72,文獻(xiàn)[3]系統(tǒng)的分類精度不超過(guò)0.8,文獻(xiàn)[4]系統(tǒng)的分類精度為0.86。本研究系統(tǒng)在數(shù)據(jù)降維分類中具有較好的分類精度,數(shù)據(jù)維度低至10時(shí),系統(tǒng)的分類精度達(dá)到0.48,數(shù)據(jù)維度增加到50時(shí),分類精度增長(zhǎng)到0.9左右,數(shù)據(jù)維度越高,原始數(shù)據(jù)中保留的信息就越多,數(shù)據(jù)維度超過(guò)70后,系統(tǒng)的識(shí)別率基本保持穩(wěn)定,分類精度最高達(dá)到0.97,在數(shù)據(jù)維度較高時(shí)算法的特征提取性能高于其他系統(tǒng)算法。
在表3實(shí)驗(yàn)數(shù)據(jù)集下,抽取文本中包含的所有時(shí)間關(guān)系實(shí)體,利用序列標(biāo)注進(jìn)行關(guān)系抽取,每個(gè)數(shù)據(jù)集樣本數(shù)據(jù)設(shè)定為50個(gè),LSTM模型作為對(duì)比實(shí)驗(yàn),得到在數(shù)據(jù)集中提取出的正確樣本條數(shù)如圖6所示。具體數(shù)據(jù)如表4所示。

表4 正確樣本數(shù)

圖6 關(guān)系抽取結(jié)果
根據(jù)對(duì)關(guān)系抽取結(jié)果分析可得出,單獨(dú)的LSTM模型訓(xùn)練學(xué)習(xí)效果較差,對(duì)實(shí)驗(yàn)數(shù)據(jù)序列中實(shí)體和方向與本研究關(guān)系抽取模型相比仍有一定的差距,導(dǎo)致提取出的正確樣本數(shù)量較少,學(xué)習(xí)能力有待提高。其中,在數(shù)據(jù)集4和數(shù)據(jù)集7中提取出35個(gè)正確樣本,在數(shù)據(jù)集5提取出的樣本數(shù)最高,達(dá)到39個(gè),在數(shù)據(jù)集6中得到的結(jié)果不超過(guò)20個(gè)。
本研究關(guān)系抽取模型提取出的正確樣本條數(shù)較多,能夠根據(jù)特征在數(shù)據(jù)集中找出對(duì)應(yīng)的語(yǔ)句,在信息標(biāo)注中不依賴其他特征成分,關(guān)系抽取的效果較高。在數(shù)據(jù)集4、數(shù)據(jù)集5和數(shù)據(jù)集7中提取到的樣本數(shù)量都超過(guò)40個(gè),最高可達(dá)到47個(gè)。
本研究建立數(shù)據(jù)分析系統(tǒng)處理多源異構(gòu)大數(shù)據(jù),基于大數(shù)據(jù)框架完成數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算,數(shù)據(jù)計(jì)算框架中使用了改進(jìn)型深度學(xué)習(xí)算法模型,對(duì)高維復(fù)雜的數(shù)據(jù)進(jìn)行降維處理,并構(gòu)建預(yù)訓(xùn)練的關(guān)系表示模型完成關(guān)系抽取任務(wù),從非結(jié)構(gòu)的數(shù)據(jù)序列中提取實(shí)體與實(shí)體之間的信息,并結(jié)合抽取的實(shí)體信息進(jìn)行判別,將關(guān)系語(yǔ)句映射到固定長(zhǎng)度的向量上。本研究在數(shù)據(jù)分析方面的分析方法較為單一,對(duì)于半結(jié)構(gòu)化數(shù)據(jù)或其他類型數(shù)據(jù)的處理沒(méi)有進(jìn)行深度的研究,還需對(duì)其他數(shù)據(jù)分析方法進(jìn)行深入分析,完善數(shù)據(jù)分析系統(tǒng)的功能應(yīng)用。