摘 要:針對部隊飛機維修部門現有飛行參數數據量大,分析和處理數據能力不足,導致海量的數據變成了信息垃圾的問題,在對飛行參數數據和數據倉庫技術進行研究的基礎上,結合部隊飛機維修部門關心的問題,給出飛行參數數據倉庫模型的設計及飛行參數數據的概念模型、邏輯模型、物理模型、元數據模型和粒度模型。對現有的物理模型進行了改良,理論上將廉價冗余磁盤陣列技術與數據倉庫物理模型有機的結合,改進了存儲設備的可靠性,縮短了系統的響應時間。
關鍵詞:飛行參數; 數據倉庫; 星型模式; 物理模型; 元數據模型; 粒度模型
中圖分類號:TP391文獻標識碼:A
文章編號:1004-373X(2010)08-0130-04
Research on Modeling of Flight Parameters Data Warehouse
GUO Hong-ning, NAN Jian-guo, WAN Ming
(Engineering Institute, AirForce Engineering University, Xi’an 710038, China)
Abstract: According to the practical problems that the departments of aircraft maintenance are faced with such as great amount of flight parameter data,andlow capability of data analysis and processing which caused numerous data to beturned into information trash, the flight parameter data warehouse model is brought up, as well as the concept model, logical model, physical model, metadata model and granularity model of flight parameters. The existing physical model was improved by combining RAID 5 technology with data warehouse physical model theory. As a result, the store device reliability was enhanced and the system response time was shortened.
Keywords: flight parameter; data warehouse; star schema; physical model; metadata model; granularity model
0 引 言
飛參系統是飛行參數記錄與處理系統的簡稱,用于對飛機各系統工作狀態參數進行測量、記錄與處理[1]。飛參系統的使用,將使部隊在機務維護、飛行訓練、事故分析等各個方面的保障訓練水平有了很大提高,但是目前飛參系統在使用上存在著分析手段落后,分析工具欠缺等問題,使大量的飛參數據得不到有效利用[2]。因此,探索先進的飛參數據分析手段,研制適用的飛參數據分析工具已成為當務之急。
數據倉庫及數據挖掘技術的出現,為解決裝備信息化過程中數據與處理手段的矛盾提供了途徑。數據倉庫是一種概念或稱為模式,而非一種產品。在此,基于數據倉庫技術建立的飛參數據分析系統模型,為飛參數據的管理與分析探索出了一種有效的模式。它的目標是有效地對龐大的飛參數據進行深層分析,從中發現隱藏在大量數據背后的各種信息,進而輔助飛機維修人員和飛行人員在執行保障和訓練任務時更好地進行決策。
1 飛參數據多維數據模型
1.1 飛參數據多維數據模型設計
“面向主題”是數據倉庫中數據組織的基本原則。數據倉庫的構造過程,首先就是確定主題的過程。數據倉庫的設計者必須明確該數據倉庫的用途,并將其歸納為若干具體的、易于利用數據組織并加以分析的主題[3]。根據對部隊實際需求的詳細調研,部隊的維護工作及飛參數據的使用情況具有如下特點:
(1) 維護數據的孤立性。現有飛參數據只是孤立地存儲于以架次為單位的數據文件中。在進行數據分析時,各專業人員從當前架次數據文件中檢索出本專業的相關數據進行分析。這種檢索模式使得一次只能對單一架次的數據進行分析,不僅存在檢索效率低下的問題,同時難以對某架飛機歷史數據進行過程分析,更不能對某型飛機進行更深入的綜合分析。
(2) 故障分析的單一性。飛參數據的使用者往往是就某一故障而分析某一故障,而這一故障中隱含的其他信息是得不到充分挖掘的。例如,有些并發故障、次生故障難以發現,這些問題都造成現有飛參數據分析手段與能力的不足。
(3) 維護工作的專業性強。飛機的維護工作通常是按專業來劃分的(如機械、電子等),對維護人員的知識結構、工作經驗等的專業性要求很強。然而,相應的機務部隊的編制體制也是按照專業來規劃的,所以各專業的獨立性很強,同時各專業間也有交聯。
綜合以上特點不難得出,具體的飛參數據主題應圍繞著各個專業而組織,只有以專業分析主題為依據來規劃數據的組織,才能保證數據倉庫的內容邏輯清楚、條理明晰、脈絡分明,從而更好地適應維護工作。同時,主題的抽取必須體現出獨立性和明確性的特點,即主題要有獨立的內涵,各主題之間要有明確的界限,不應有依存關系。要保證與主題相關的所有數據都能得到正確的組織,避免數據的缺失與冗余。綜合以上因素,結合數據倉庫的主題組織原則、飛機本身的個體特征以及飛參數據產生的時序性,將整個數據倉庫系統的數據模型劃分為三個維度:
主題維 包括四個維護專業主題和飛行訓練評估主題共五個主題。
型號維 包括飛機機型與編號信息。
時間維 包括日期與架次信息。
飛參數據倉庫的三維數據模型如圖1所示。
圖1 飛參數據倉庫的三維數據模型
1.2 飛參數據多維數據模型的OLAP應用
基于飛參數據倉庫的三維數據模型,既可以涵蓋原有飛參數據的分析方法,又能夠在多維空間中實現OLAP分析,為飛機故障的發現、決策輔助、故障分析與預測等提供先進的平臺與技術手段。
聯機分析處理OLAP是一種決策分析工具,它可以根據決策分析者的角度將數據進行分類與運算,對大量數據進行復雜的查詢處理,并以直觀、易理解的形式將查詢結果提供給決策分析者[4]。OLAP是基于數據倉庫的信息分析處理過程,是數據倉庫中用戶的接口部分。對同一主題的數據,OLAP展現可以在不同的角度對數據進行展示,用戶可以根據需要,隨意組合展示角度和展示方式。在分析的過程中,用戶可以選定所有的角度,既可以在各種角度的綜合作用下進行分析,也可以只選擇自己感興趣的角度進行分析。例如,可以進行下列不同角度的展現:某飛機在各個時間段內的故障趨勢及同期比;某飛機在各個專業內的故障趨勢及同期比;某單位在各個機型內的故障趨勢及同期比;某段時間內,故障時間和完好時間在總工作時間量中所占的比重等。
分析時除了靈活選擇地維度外,系統還支持在某一維度上的鉆取分析。例如,在按照主題分類和時間角度對飛機進行分析時,用戶可以根據需要采取向下鉆取(Drill)的分析方式,查看時間角度上更細節的數據,如查看每個季度每月的數據或只查看某一季度下面三個月的數據。
2 飛參數據倉庫建模
飛行參數多維數據模型僅從數據層面上對飛參數據進行分析,而建立飛參數據倉庫還要采取下列步驟:在數據倉庫的構建過程中,將客觀事物從現實世界的存在到計算機內物理實現的抽象過程劃分為四個階段,即現實世界(Real World)、概念世界(Concept World)、邏輯世界(Logical World)和計算機世界(Computer World)。與概念世界、邏輯世界和計算機世界相對應的數據模型,分別為概念模型(Concept Model)、邏輯模型(Logical Model)和物理模型(Physical Model),這是在數據倉庫開發過程中需要使用的三種模型[5]。描述數據倉庫的各種數據模型,除了上面提到的三種外,還有元數據模型和粒度模型。圖2給出了數據倉庫構造過程中各種數據模型的層次及相互關系。
圖2 數據倉庫構造過程中的各種數據模型
2.1 概念模型
概念模型的設計主要是確定數據倉庫中應該包含的數據類及其相互關系。概念模型的設計是在較高的抽象層次上的設計,因此建立概念模型時不必考慮具體技術條件的限制。目前,常用的概念數據模型有星型模式、雪花模式和事實星座模式三種。星型模式是一種非常簡潔的數據倉庫概念模型,它可以準確地反映出各實體之間的邏輯關系,并依據實體的重要程度,將這種關系展示出來[6]。雪花模式是在星型模式的基礎上拓展而來的,它是在事實表和維度表的基礎上,增加了詳細類別表,用于對維度表進行描述。事實星座模式需要多個事實表共享維度表,因而可以視為星型模式的集合。在設計中為了提高查詢性能和便于用戶安排不同的查詢,采用了星形模式,其概念模型如圖3所示。
圖3 飛參數據倉庫的星型概念模型
2.2 邏輯模型
邏輯數據模型,是從概念模型過渡到物理模型的中間層次,因此又稱為中間層模型。可以認為它是數據倉庫開發者與使用者之間,就數據倉庫的開發進行交流和討論的工具和平臺。通過邏輯模型,設計者可向數據倉庫的用戶提供比概念模型更為詳細的“系統功能結構圖”。開發者的任務就是要保證邏輯模型的完整性和正確性,并能滿足用戶的使用需求。這里的邏輯數據模型設計,主要參照了各個主題的相關專業知識。圖4中的飛行數據為初始數據組,它體現了發動機實體的本質特征。出廠原始數據和出廠日期為二次數據組,它們通過鏈接部件與初始數據組相連,對初始數據組的內容和屬性加以詳細說明;其余部分為類型數據組,它可以理解為在初始數據組主題下,逐漸細化的分類數據,相對靠左側的是超類型數據組,相對靠右側的稱為子類型數據組。
圖4 飛參數據倉庫的邏輯模型
2.3 物理模型
數據倉庫的物理數據模型指邏輯模型在計算機世界中的具體實現方法,包括物理存取方式的設計、數據存儲結構的構造、數據存放位置的確定等。物理模型設計的主要內容包括以下幾個方面:
(1) 數據存儲結構的確定。作為數據倉庫的基礎,數據庫管理系統(DBMS)往往可以向用戶提供多種存儲結構,每種存儲結構各有其獨特的實現方式。在利用DBMS構建數據倉庫時,應當統一考慮飛行數據的存儲時間、空間效率、數據維護成本等各方面因素,選用合適的存儲結構。
(2) 索引策略的確定。飛參數據倉庫中的數據量十分龐大,遠遠超過一般的業務數據庫系統。但數據倉庫的內容更新頻率卻不高,往往采用定期導入新數據的方法。因此,為有效提高數據倉庫的運行效率,可在對常見查詢請求所訪問的數據進行分析的基礎上,設計建立較為復雜的索引策略。由于飛參數據倉庫的內容具有非易失性,因此盡管設計和建立索引的工作量較大,維護卻較為簡單。
(3) 數據存放位置的確定。不同的數據存儲介質各具特點,目前硬盤的價格已經很低,可以采用磁盤冗余陣列存儲數據,既提高了訪問性能,又提高了可靠性。
(4) 存儲分配參數的確定。在創建傳統數據庫的工作中,一項重要的內容就是確定一些具體的、與數據存儲分配相關的參數,如數據塊的大小,緩沖區的大小,以及緩沖區的數量等。飛參數據倉庫是依托DBMS而建立的,因此在創建飛參數據倉庫時,必須進行這一步工作。這一部分的工作主要集中在將數據倉庫的模型結合實際的系統加以物化的過程。
飛參數據倉庫系統與其他業務系統不同,尤其需要分析決策的實時性,這是由作戰的最終用途所決定的。為有效地實現對作戰的保障,還要求系統的可靠性要高。基于以上特點,飛參數據倉庫系統物理結構采用雙節點多處理器的服務器,共享存儲空間。存儲系統采用大容量的廉價冗余磁盤陣列(RAID5)系統。具體的物理結構如圖5所示。采用RAID5系統的優點是:可提高磁盤的I/O性能和提供容錯能力,磁盤的利用率較高,這樣既縮短了系統的數據訪問響應時間,又提高了系統的可靠性。
圖5 飛參數據倉庫物理結構
2.4 元數據模型
元數據的主要作用是對飛參數據倉庫中各專業數據的性質做出說明,從而使每個數據都有確切的含義[7]。在數據倉庫建立過程中,元數據起著十分重要的作用,他所描述的對象,涉及數據倉庫的各個方面。根據用戶對數據倉庫的認識和使用目的,可將元數據劃分為兩大類,如圖6所示。
圖6 元數據的分類及作用
(1) 技術元數據(Technical Metadata)。它將開發工具、應用程序以及數據倉庫系統聯系在一起,對分析、設計、開發等所有技術環節進行詳細說明。技術元數據主要供飛參數據倉庫的數據倉庫管理人員和應用開發人員使用,為技術人員維護和擴展系統,提供了一個詳細的說明書和結構圖 [8]。它所包含的內容如表1所示。
表1 技術元數據的內容
項目作 用
基礎數據信息對飛參數據倉庫和OLAP系統的體系結構與實施方案做出詳細的描述
抽取調度信息說明飛參數據從數據源中經過抽取、清洗、轉換,最終進入數據倉庫的方法
映射依賴信息對飛參數據倉庫內部各表之間的依賴、映射關系,表與視圖的對應關系,中間表與源表的依存關系等,做出詳細的解釋
其他技術信息介紹系統導入的元數據、特定用戶所產生元數據的情況
(2) 專業元數據(Speciality Metadata)。專業元數據是通用專業術語和關于數據倉庫中上下文信息的集合,它是聯系用戶和數據倉庫中數據的橋梁,為用戶提供了有關數據倉庫的整體結構視圖。專業元數據包含有面向應用的文檔(系統簡介、使用導航等),以及各種術語的定義及所有報表的細節[9]。具體內容如表2所示。
2.5 粒度模型
粒度指數據倉庫中記錄數據或對數據進行綜合時所用的時間段參數,它決定了數據倉庫中所存儲數據單元在時間上的詳細程度和級別[10]。粒度的確定沒有絕對嚴格的標準,它是在對飛行參數數據模型深入了解的基礎上,對分析需求、系統開銷、軟件能力等各方面因素進行綜合考慮后的折中,粒度確定過程的本身也是一個決策過程。
表2 專業元數據的內容
項 目作用
飛機概念信息介紹飛機的專業概念和數據模型,說明各專業之間的關系,從而為用戶提供幫助
多維數據信息對飛機概念信息的進一步細化與深化,為用戶提供多維數據倉庫中有關維定義、維類別、數據立方體,以及數據集市的聚合原則等方面信息
數據依存信息描述飛參數據模型與物理數據間的依存、對應關系,說明物理上的庫、表及其屬性與具體專業屬性之間的對應關系
數據挖掘信息描述飛參數據倉庫中語義關聯和專有的概念層次關系,為基于元數據的假設、生成和結果過濾準備條件,從而支持數據挖掘
查詢導航信息對飛參數據依存信息的全面細化,便于實現基于業務術語的請求在數據庫中的查詢,并實現面向業務的導航
劃分粒度的關鍵是正確估算出表的行數。由于飛參數據存儲以幀為單位,而每秒的數據量可達到4~8幀,由此估算出表的行數是非常大的,約106~108行,因此這里采用了雙粒度模型,如圖7所示。
圖7 飛參數據倉庫雙重粒度模型
3 結 語
針對現有飛參數據的孤立性、故障分析的單一性等問題,本文按照主題、時間、型號三個維度將飛參數據進行了劃分,并對飛參數據倉庫的概念模型、邏輯模型、物理模型、元數據模型和粒度模型進行了深入研究。對傳統的物理模型進行了有效的改進,經實踐檢驗,大幅度提高了存儲設備的可靠性,縮短了系統數據的訪問響應時間。飛參數據倉庫可以高效地應用于航空維修故障診斷分析領域,也可以有效支持OLAP分析和數據挖掘等技術,為提高現有飛參數據的分析水平提供有力的支持。
參考文獻
[1]梁建海, 孫秀霞, 杜軍. 基于數據挖掘的飛行參數處理方法研究[J]. 彈箭與制導學報, 2005, 25(1): 7679.
[2]劉鈺, 張風鳴, 惠曉濱. 數據倉庫技術在飛參數據處理中的應用[J]. 計算機工程, 2004, 30(8): 9597.
[3]蘇新寧, 楊建林, 江念南. 數據倉庫和數據挖掘[M]. 北京: 清華大學出版社, 2006.
[4]林璇, 馮健文, 陳啟買. 餐飲決策支持系統中OLAP數據倉庫的設計與實現[J]. 計算機工程與設計, 2006, 27(21): 41424144.
[5]宣愛斌. Soars比較購物分析數據倉庫的設計[D]. 上海: 復旦大學, 2008.
[6]王駿. 構建數據倉庫實例[J]. 計算機工程與設計, 2006, 27(19): 36633665.
[7]謝福成, 王備戰, 史亮, 等. 基于銀行數據倉庫的元數據管理系統[J]. 計算機工程, 2009, 35(9): 7981.
[8]郇秀霞, 王紅. 基于數據倉庫的QAR數據分析[J]. 計算機工程與設計, 2008, 29(10): 26852688.
[9]潘定, 沈鈞毅. 數據倉庫環境的元數據管理技術綜述[J]. 微電子學與計算機, 2005, 22(11): 1720.
[10]夏秀峰, 周大海, 張雅茜, 等. 數據倉庫設計中低粒度數據的分割策略研究[J]. 計算機工程,2006, 32(17): 138140.