陳彬,王志英,甘瑩,唐良運
(1.中國南方電網有限責任公司,廣東廣州510663;2.南方電網數字電網研究院有限公司,廣東廣州511455)
隨著信息化技術水平的飛速發展,非結構化數據管理已經成為目前至關重要的研究內容?;ヂ摼W平臺也逐漸成為人們社會生活發展中的關鍵組成部分,隨著各行業信息技術的不斷創新,也逐漸涌現諸多新型數據,提出更高標準的非結構數據管理需求?;诒敬窝芯康姆墙Y構化數據,需建立特征挖掘模型,傳統數據關系模型作為模式滯后式邏輯結構,是一種基于代數關系基礎形成的數據管理方法,不再能有效地處理非結構化數據。非結構化數據還擁有海量特點,所以為了能夠更好地解決非結構化數據管理這一問題,在以往文獻研究中提出了多種方案,譬如基于關系數據庫的非結構化數據管理、列存儲管理、Bigtable、數據空間技術等。在梳理匯總以往研究成果基礎之上,從全新研究角度對非結構化數據管理問題進行觀察分析,引入模糊運算建立非結構化數據特征挖掘模型,展開深入探索。
非結構化數據具有多樣化,譬如常見的網頁、音頻、文本等相關數據,以及各企業的內部管理文檔以及生物、地理和天氣等相關復雜多樣性數據。通過運用數據對象針對性地描述具體數據,定義每類集合內元素為數據對象,在一個物理或邏輯層面,都可以有效地區分其他數據區域的實體,其存在數據對象粒度情況,即一個數據對象作為更大數據的組成部分或包括更多數據對象。一般情況下都需要尋找適當粒度,對數據集合內的獨立數據對象進行劃分,所以在一般研究中也假定了其呈現數據對象的非結構化數據方式。
為了方便表述,定義非結構化特征如下。
定義1:為了表達某數據集或某類數據共同擁有的特征共性,根據應用者的使用需求進行定義,也可以根據數據自身所表現的特性,以特征需求完成定義。
定義2:假設G的超模糊運算為“0”,那么?a,b∈G,存在了唯一y∈G,想要滿足(aob)(y)>θ,證:由于(aob)(y)=R(a,b,y),假設?y,y1∈G,使R(a,b,y)>θ,那么可得:
?a,b∈G,?y,y1∈G,R(a,b,y)>θ,并且R(a,b,y)>θ,y=y1,所以存在唯一y∈G,使(aob)(y)>θ。
定義3:數據特征。數據特征作為形式化抽象性描述數據的定義,代表了數據所具備的特征意義和具體的取值特征空間域存在的主要度量關系,假若一個數據對象擁有多個特征,要讓該數據對象擁有該特征類型,則需要滿足以下條件:
1)通過既定依據方法,能夠完成數據對象抽取,成為所屬特征對象的特征數據;
2)完成特征數據抽取,與數據對象的代表意義及特征類型相符;
3)這類特征數據屬于對應數據特征的取值范圍。
對于這一特征值域的具體要求是無論任何特征區域均為值域,而且需要設定度量空間,滿足值域空間的特征。
以模糊算法模型代碼為例:

在完成建模基礎上,建立基于模糊運算的非結構化數據特征挖掘系統架構,如圖1所示。該模型架構共計包括3 類數據庫,分別為原始數據庫、特征數據庫、索引庫。系統對于若干個數據對象處理類型庫進行維護,每一個數據對象與其對應特征,也與處理類相對應,能夠完成特征抽象、索引及查詢。

圖1 非結構化數據特征挖掘系統架構
在系統功能類庫中,又包括了數據類型庫、特征庫。其中,數據類型庫能夠對數據類型和相對應的特征數據類型加以梳理,而特征庫則包括了具備對應特征和特征類型的處理類,如表1所示。

表1 數據類型與處理類
對于數據類型處理類的系統特性操作接口,每類成功定義的數據類型與處理類相對應,那么該類數據處理類型在本次系統中所規定相應的數據處理接口,能夠成功完成相應的數據類型操作。并且還可以實現用戶接口自定義,采用特定操作處理相應的操作數據類型。
特征類型庫與數據類型庫相比,擁有更加復雜的類庫,主要接口包括以下幾類,如表2所示。

表2 特征類型處理類
一是對于抽取數據特征接口,在使用中接口面向特征類型,通過運用差異化提取數據特征的方法,能夠抽取等同抽樣特征,運用該接口也能夠更方便地管理無關的數據特征類型;
二是數據特征索引接口,在系統中索引庫的存在必不可少,作為系統核心技術需要以原本的數據特征類型為依據,完成數據信息存儲,并參照原本數據特征,組織統一特征的數據對象。作為廣義層面的索引,能夠根據原本特征索引特征數據對象;
三是查詢接口,在對非結構化數據進行查詢檢索的過程中,復雜化的非結構數據所采用的查詢策略通常存在較大差異。但是查詢這種抽象行為本身是不同的,圖2為兩個類型關系庫的對比關系。

圖2 兩類類型關系庫對比
數據存儲部分包括三大組成:
1)原始數據,任何存儲于原始系統中的指定數據對象,能夠組成原始數據庫;
2)特征數據,該數據庫與原始數據的數據庫相對應,且各類特征數據對象也同樣對應,并包括相應的數據特征信息。每類數據特征也主要由特征名稱和數據兩類組成;
3)索引庫,特征空間所對應的特殊數據庫,在每類特征維度相對應的空間特征對象都作為統一數據庫,能夠提供具體特征索引和相應的查詢結果。
在數據特征挖掘處理中,系統類庫負責非結構化數據管理,主要面向系統管理員、普通用戶這兩類用戶。系統管理員對于引擎定義及特征類數據安裝、定義,處理并添加新型數據處理類。對于普通用戶,具體實現的引擎功能如圖3所示。

圖3 處理引擎功能結構
由圖3可知,該引擎可以成功完成非結構數據對象的實時接收,并且可以對數據類型進行自主制定分析;根據具體的數據對象相應類型,能夠成功抽取相關特征,并建立每類數據特征對象,并在對應數據庫中充分存儲;在特征空間中存儲特征數據,能夠構建特征索引;完成用戶操作中查詢請求的實時接收,一般情況下是在查詢特征基礎之上完成查詢請求的實時接收,并對應完成特征查詢;對于高級用戶數據查詢計算需求,在處理過程中應當完成自定義數據類型、特征類型。
通過Hadoop 系統存儲原始數據,該系統作為分布式開放系統,對普通PC 端的分布式計算處理比較適用,且能夠在運用過程中有較好的拓展性與容錯性,解決了非結構化較大數據量的相關問題。
一個數據共計包含多類特征,通過實現以上特征能夠共同組成相應的特征對象,主要用于對某類特征數據對象的特征信息描述,如圖4所示。

圖4 特征結構表示
通常情況的特征數據類型,包括了浮點數、字符、整數、二進制數,所以運用Hadoop 系統能夠完成數據特征對象存儲,并存放于HDFS 中,依照具體數據存儲方式,與數據存儲特征正好相符,所以有利于模糊運算的非結構化數據特征挖掘應用。
經本次研究,以非結構化數據特征視角進行分析,建立了基于模糊運算的非結構化數據特征挖掘模型,能夠提供非結構化數據管理的可行性思路,可以靈活方便地應用于非結構化數據管理。為靈活化處理非結構數據特征提供了可行性的數據處理思路。