李 國,張 亞,王懷超
(中國民航大學 計算機科學與技術學院,天津 300300)
隨著民航業的蓬勃發展,民航數據呈現出指數式的爆炸增長。這些數據中很多是基礎的、共享的數據,即某些數據會在多個部門、系統或業務中重復使用。若出現各個部門編碼方式不一樣或者某個數據在某一個部門更新了,其它部門還未更新等情況,則會造成信息不對稱,從而影響最終的決策。因此如何從這些海量的數據中識別出這種具有高價值的、基礎的、被多個部門共享的數據,即主數據[1,2],變得緊迫且重要。
然而,主數據的識別工作一直未受到重視,也未提出比較有效的識別方法,目前的研究有:王學建等[3]提出了基于層次分析法的主數據識別方法,該方法的優點為它是一個系統性的分析方法,簡單實用且所需定量數據較少,缺點為定性成份較多,不易令人信服;當指標過多時,數據統計量大,權重難以計算;權重確定為專家打分法,當某個專家更改時,結果可能會波動很大。劉濤等[4]提出了基于綜合加權法的主數據識別方法,綜合加權法即德爾菲法與主成分分析法的結合,主成分分析法主要思想就是降維,將多指標轉化為少數幾個綜合指標,這幾個綜合指標代表了原始變量的大部分信息,德爾菲法即專家打分法,該方法的優點為當數據量過大時,通過降維減少數據量,易于計算,缺點是專家打分具有主觀性,當替換某個專家時,結果可能波動很大。上述理論和方法在權重確定方面都是由專家打分得到的。這就意味著人為主觀因素影響較大。因此,識別主數據仍是一個重大挑戰,有必要探索新的有效的理論和方法。
為消除主數據識別指標中的隨機性和模糊性,識別過程的關鍵兩點:①用于主數據識別的定性指標的定量化描述。正向云模型方法是一種基于概率論和模糊數學理論的定性概念到定量表示的轉化模型,它可以將概念內涵(主觀世界中的抽象概念)轉化為概念外延(客觀世界中的樣本集合)。故本文基于此模型,實現主數據識別指標的定量化。②指標權重的確定問題。傳統的權重確定幾乎都需要專家打分,存在某種程度的主觀性。粗糙集理論可以根據客觀存在的樣本數據來計算各個指標的權重,可以得到相對客觀的結果。故本文采用粗糙集的方法來確定指標之間的權重?;谝陨蟽牲c分析,本文提出了一種基于云模型及粗糙集的民航主數據識別方法。
本文基于云模型及粗糙集的對民航主數據進行識別??紤]到識別指標的模糊性和不確定性,選取7個具有代表性的典型指標建立識別指標體系,通過客觀方法得到識別指標的客觀權重。然后,基于客觀權重建立了RS-CM(粗糙集-云模型),為民航主數據識別提供了一種方法。
民航新一代旅客服務系統由21個子系統組成,根據中國民航的業務特點、主數據的定義及主數據具有的特征一致性、識別唯一性、長期有效性、業務穩定性的特點,在確定主數據的識別指標時,需重點考慮以下因素:
(1)基礎性
并不是所有的數據都是主數據,主數據是原子數據,不是衍生數據。如旅客訂票后,旅客和機票皆是原子數據,它具有不可拆分性。
(2)共享性
共享性是主數據非常重要的一個特性,是其它特性的前提。主數據一定會被多個系統訪問,某個數據被訪問的系統越多,則它越可能是主數據。如國家代碼會被運價發布和計算系統、電子票系統、貨運系統、離港系統、GDS分銷系統等共同使用,則國家代碼極有可能是主數據。
(3)存在時間
主數據一般存在時間比較長,被多個系統共享的臨時數據不是主數據,如機場代碼需長期存在,不能缺少,則機場代碼可能是主數據。
(4)訪問次數
主數據一般比較活躍,被各個系統訪問頻繁,即需要經常使用到的數據。如城市代碼會被離港系統、GDS分銷系統、電子票系統等頻繁訪問,則城市代碼極有可能是主數據。
(5)變更頻率
主數據一般比較穩定,變動頻率較低。如省代碼。
充分考慮以上因素,最終確定主數據識別的7個指標,見表1。

表1 主數據識別指標
云模型[6-8]是Li和Du[9]在1995年首次提出的一種數學模型。它考慮了定性概念與定量數值表示之間轉換的不確定性。充分考慮了主數據的模糊性和隨機性。
設Z是一個定量集合Z={x}。C在Z中是定性的概念,確定的參數x∈Z,在C中是隨機發生的,對于Z中的任何元素x,C中x的確定性程度為μ(x)∈[0,1],μ(x)是一個穩定的隨機數。x在Z中的分布稱為云,每個x稱為云滴。由大量的云滴組成的云可以代表領域空間中的定性概念[10,11]。
引入了3個數值特征(Ex、En和He)來表示云模型中的定性概念。期望Ex是區域空間中云滴空間分布的期望和集合的均值,Ex也是最能代表定性概念的點。熵En是由定性概念的隨機性和模糊性決定的。具體來說,En是定性的隨機性和模糊性的度量的概念。超熵是熵不確定性的一種度量,反映了不確定性在域空間中各點的內聚性。超熵值He間接反映了云滴的厚度[12]。
本文采用正向云發生器和x條件云發生器。正向云發生器具有將定性概念轉換為定量值的能力,這些發生器根據云的3個數值特性來生成云滴。x條件云發生器是一種基于云的3個數值特征與x的指定值的組合,能夠產生云滴(x,μ(x))的正向云發生器。通過兩個發生器的結合,可以得到各種類型的云,在定性知識和定量值之間進行轉換[13]。
由于主數據具有隨機性與模糊性等不確定性特征,故若對主數據進行分等級識別,則得到的結果會更加精確與合理。所以本文借助于云模型理論,根據主數據的特點,選出最能定性概括民航主數據的幾個指標,通過這些指標來對主數據進行分級識別。識別過程中,權重的確定尤為重要,本文采用粗糙集理論來確定各指標的權重,這樣處理使結果更加客觀。具體過程如下:
步驟1 根據主數據特點,選出最具代表性的識別指標,對主數據進行等級劃分;
步驟2 對各指標不同等級計算相應云模型的3個參數,生成相應的云模型圖;
步驟3 根據民航采集的數據,計算出各等級對應各指標的隸屬度u(x);
步驟4 根據粗糙集理論確定各指標的權重wi;
步驟5 用如下公式計算綜合確定性程度
(1)
步驟6 根據最大確定度原理確定主數據的等級。
識別過程流程,如圖1所示。

圖1 識別過程流程
云模型的具體實現方法有多種形式,依據不同的概率分布可以形成不同的云,比如基于正態分布的正態云、基于高斯分布的高斯云、基于線性分布的線性云等。其中,正態分布廣泛存在于社會活動、自然活動、及生產技術中。實際生活中遇到的大部分隨機事件都呈現正態分布或者近似呈現正態分布。由中心極限定理可知,正態云模型具有普適性,所以本文選擇正態云。
云模型中3個參數的計算方法[14]如下

(2)
式中:Zmax和Zmin分別為各等級對應的最大值和最小值。r是一個固定值,可以根據變量的模糊度進行調整,在本研究中固定為0.01。
識別過程步驟3中數據x對應的隸屬度函數[15]如式(3)所示,因為經過對各類隸屬函數進行對比,發現其它隸屬函數多數與正態隸屬函數一致。它們大部分是正態隸屬函數泰勒展開式的低次項之和,是正態隸屬函數的近似表達。所以正態隸屬函數具有普適性,則本文選擇正態隸屬函數來確定樣本的隸屬度
(3)

粗糙集理論[16-18]是波蘭數學家Pawlak提出的一種數據挖掘方法,這種方法挖掘不完整的數據,發現隱藏的信息,它在確定指標權重方面具有獨特的優勢,可以消除人為因素的影響且它最大的優勢是克服了模糊集合論中隸屬函數的主觀性,屬性重要度、條件信息熵等是從原始數據中計算得到的,人不會參與進來,所以用它來確定指標的權重是比較客觀的[19-21]。
定義1 在決策表S=(U,A,V,f)中,其中U是非空有限集合,稱為論域,記為U={x1,x2,…,xn};A=C∪D,C是條件屬性集,D為決策屬性集,C∩D=φ;f:U×A→V是一個信息函數,V=∪Va,a∈A,Va表示屬性a的值域。

定義3 在決策表S=(U,A,V,f)中,A=C∪D,指標屬性C,U/C={C1,C2,…,Cm},決策屬性D,U/D={D1,D2,…,Dn},則決策屬性相對于指標屬性的條件信息熵為
(4)
定義4 在決策表S=(U,A,V,f)中,A=C∪D,?c∈C,a∈A,x∈U,則條件屬性c的重要度為

(5)
其中,a(x)=U/{a}。
定義5 在決策表S={U,A,V,f)中,A=C∪D,?c∈C,則條件屬性c的權重為
(6)
本節仿真實驗的實驗環境是:Intel(R) Core(TM)i5-4590CPU,8 GB內存,操作系統為Windows7 旗艦版,在Matlab環境下進行仿真實驗。
本節模擬實際場景進行仿真實驗,來驗證本文研究的基于粗糙集-云模型的民航主數據識別方法的可行性。
本節仿真實驗數據皆來自航空公司。
將主數據劃分為5個等級,每個等級代表成為主數據的可能性,具體含義為I(極高),II(高),III(中),IV(弱),Ⅴ(極弱)。由7個指標共同決定,見表2。
表2中,統計了民航信息系統20個月來的數據,每個指標值的含義如下:按照民航信息系統的優先級規則將業務優先級設置為10級;統計數據在系統中的生命周期,以月為單位,比如說國家代碼在系統中的生命周期是20個月,則國家代碼的生命周期這一識別指標為第一等級;統計數據的標識作用,以百分比為單位;查詢該數據被訪問的系統個數,最多為17個子系統;統計數據的變更頻率,以月為單位;查詢一天中數據在系統中的被訪問的次數;判斷數據的基礎性。根據以上分析,生成如表2所示的主數據等級標準。

表2 主數據等級標準
由于正態云具有普適性,故本文使用正態分布函數的正向云發生器。將定性描述的識別指標轉化為用3個數字特征表示的定量映射。映射過程由式(2)計算,得到主數據各個指標的云模型參數(Ex,En,He),分別為:
業務優先級:I(9.5,0.42,0.01), II(8,0.85,0.01), III(5.5,1.27,0.01), IV(3,0.85,0.01), Ⅴ(1.5,0.42,0.01);
生命周期:I(17.5,2.12,0.01), II(13.5,1.27,0.01), III(9,2.55,0.01), IV(4.5,1.3,0.01), Ⅴ(1.5,1.27,0.01);
唯一性:I(95,4.25,0.01), II(77.5,10.62,0.01), III(50,12.7,0.01), IV(22.5,10.6,0.01), Ⅴ(5,4.25,0.01);
跨系統使用:I(12,4.25,0.01), II(6,0.85,0.01), III(4,0.85,0.01), IV(2.5,0.42,0.01), Ⅴ(1,0.85,0.01);
變更頻率:I(1,0.85,0.01), II(3,0.85,0.01), III(5.5,1.27,0.01), IV(8,0.85,0.01), Ⅴ(10.5,1.27,0.01);
使用頻率:I(150,16.96,0.01), II(115,12.74,0.01), III(75,21.23,0.01), IV(35,12.7,0.01), Ⅴ(10,8.49,0.01);
基礎性:I(8.5,0.42,0.01), II(7.5,1.27,0.01), III(4.5,1.27,0.01), IV(2,0.85,0.01), Ⅴ(0.5,0.42,0.01)。然后生成各指標的標準云,如圖2所示。
圖2為7個識別指標的標準云,每個指標中有5個等級。橫坐標為各指標的取值,縱坐標為隸屬度。以生命周期為例,當生命周期取16時,則第I、II、III、IV、Ⅴ等級的隸屬度分別為0.6、0.3、0.05、0、0。
對于隸屬度函數的選擇,有線性隸屬函數、柯西隸屬函數、正態隸屬函數等,但由文獻[22]可知,正態隸屬函數在很多領域與其它隸屬函數具有一致性,并且廣泛應用在各個領域。故本文選用正態隸屬函數,由x條件發生器,根據式(3)將采樣數據代入圖2中各識別指標標準云,得到每個數據各個識別指標的隸屬度,這個隸屬度具有隨機性,但是是一個具有穩定傾向的隨機數,故本文對其進行了100次計算并對這100次結果求其平均數,得到其中的業務優先級隸屬度見表3。在該表中,展示了各個樣本在每個等級下的隸屬度。
根據式(4)、式(5)和式(6)計算各指標的權重,得到各指標權重為業務優先級(0.0084),生命周期(0.0084),唯一性(0.0105),跨系統使用(0.0105),變更頻率(0.0105),使用頻率(0.0105),基礎性(0.0105)。
根據式(1)計算每條數據的綜合確定度,以最大確定度作為最終主數據的識別等級。結果見表4。

圖2 各識別指標標準云

表3 業務優先級隸屬度

表4 識別結果
將表4的識別結果與民航領域已有主數據標準進行對比,國家代碼,城市代碼,機場代碼與州或省代碼這4項已經確定一定為主數據,本文識別結果均為Ⅰ等級,故結果合理有效。樣本一到樣本四與預期結果相同,驗證本文研究的主數據識別方法是可行的。
隨著社會的高速發展,數據已變成信息時代的重要戰略資源,它如同一座有待開采、礦藏豐富的礦山,對它進行有效的挖掘已經成為各個行業的核心競爭力。而對主數據識別則是其中的關鍵一環。本文依據主數據的隨機性與模糊性,提出運用云模型方法對其進行識別,首先選取7個關鍵識別指標,然后建立標準云模型,再將采集的樣本代入標準云模型,求出各個數據隸屬于各等級的隸屬度。由于每個指標對主數據的影響是不一樣的,不能平均對待,故本文采取粗糙集方法來確定各指標的權重。此方法對先驗知識要求不高,使權重確定更客觀。最后將各隸屬度與相應權重結合,求出綜合確定度,以最大確定度確定主數據等級。
本文第一次將主數據劃分等級,使識別結果更為精確。并且在權重確定這部分與已有方法有很大不同,已有方法人工干預過多,即大多為專家打分,導致結果主觀性比較強。本文引入粗糙集方法,根據原始數據計算權重,結果更為客觀。將本文所提方法應用在民航領域,最終結果與中航信提供結果一致,驗證了本文所提方法的可行性。
但是對主數據識別方法的研究仍然是任重而道遠的,還需要進一步的研究。