杜 仲
(四川航空股份有限公司重慶分公司,重慶 401120)
數(shù)據(jù)挖掘是一門新興技術,面對的是大量的、隨機的、不完全的數(shù)據(jù),需要從大量、不完全以及隨機的數(shù)據(jù)中提取人們?nèi)庋蹮o法識別的、隱含的數(shù)據(jù)信息,并且這些信息又是具有指導性和決策性的信息,對航空維修具有重要意義。數(shù)據(jù)挖掘技術實現(xiàn)了對數(shù)據(jù)庫的檢索、查詢、分析等功能,并且還能對航空維修需要的信息進行詳細分析,進一步指導實際問題的解決;能發(fā)現(xiàn)數(shù)據(jù)之間的關系、事件之間的關系以及規(guī)律,從而對航空維修事件進行有效分析。
研究數(shù)據(jù)挖掘技術在航空維修中的應用之前,首先對此文涉及的理論進行簡要論述,掌握其基本的理論含義,有利于進一步分析研究。因此,首先進行理論概念綜述,更好的認識數(shù)據(jù)挖掘技術[1]。
隨著信息產(chǎn)業(yè)的發(fā)展,成千上萬個數(shù)據(jù)庫開始應用于各個行業(yè)、領域,數(shù)據(jù)涌現(xiàn)的趨勢不可改變,巨大挑戰(zhàn)是如何處理數(shù)據(jù)進行數(shù)據(jù)挖掘,將有用的數(shù)據(jù)盡快地提取和分析。為解決這一問題,數(shù)據(jù)挖掘技術應運而生。
數(shù)據(jù)挖掘的屬性比較特殊,有許多學科交叉的屬性,它與統(tǒng)計學科、數(shù)據(jù)庫理論、知識工程以及數(shù)據(jù)可視化等技術密切相關。并且由于其數(shù)據(jù)能大范圍的使用而引發(fā)廣泛的關注,最主要的意義是能夠轉(zhuǎn)換數(shù)據(jù),將其轉(zhuǎn)變?yōu)榭捎眯畔ⅰ?shù)據(jù)挖掘重要的依靠是數(shù)據(jù)庫,數(shù)據(jù)庫已經(jīng)得到了廣泛應用,而數(shù)據(jù)庫之所以被廣泛的接受,其中最重要的原因是數(shù)據(jù)庫技術與新型技術的集成使用。隨著數(shù)據(jù)庫儲存量的增大和數(shù)據(jù)庫的廣泛使用,與其相關的處理技術也會得到一定的發(fā)展,新的需求促使新技術的產(chǎn)生。后續(xù)的發(fā)現(xiàn)和研討,將為數(shù)據(jù)挖掘技術提供更多的機遇。
數(shù)據(jù)挖掘的任務主要分為兩類。一類做預測任務,就是通過現(xiàn)有的數(shù)據(jù)及知識屬性,預測特定的屬性值。另一類是描述任務,此任務項目的工作通常是探查性的,并且通常需要進行后期的技術檢驗以及結(jié)果的解釋。在航空領域中,數(shù)據(jù)挖掘工作可以應用于復雜的航空維修工作,因為航空維修工作的細節(jié)比較瑣碎、工作內(nèi)容復雜并且沒有明顯的規(guī)律可以遵循,人們通常都是根據(jù)經(jīng)驗進行維修,除此之外很難發(fā)現(xiàn)相應的規(guī)律。此時,數(shù)據(jù)挖掘顯現(xiàn)出它的特點和優(yōu)勢。在航空維修中,數(shù)據(jù)挖掘的主要任務就是從海量的數(shù)據(jù)中尋找和捕捉人類肉眼無法獲取的信息和數(shù)據(jù),提高航空維修的準確度。因此,數(shù)據(jù)挖掘技術是航空維修必需的技術,從任務領域中,也可以看出進一步進行數(shù)據(jù)挖掘在航空維修中的應用研究有著十分重要的作用。
由于航空維修工作的需要,根據(jù)實際情況建造航空維修數(shù)據(jù)挖掘系統(tǒng)框架。航空維修數(shù)據(jù)挖掘系統(tǒng)總體框架由3 層結(jié)構(gòu)組成。第一層結(jié)構(gòu)為數(shù)據(jù)存儲,第二層是數(shù)據(jù)挖掘,第三層是圖形用戶界面。其中,第一層的數(shù)據(jù)來源是以往航空維修數(shù)據(jù)庫的數(shù)據(jù)資料,但對原始數(shù)據(jù)進行了集成及轉(zhuǎn)換處理,然后進入數(shù)據(jù)挖掘庫。數(shù)據(jù)庫系統(tǒng)主要存儲航空維修數(shù)據(jù)中某一類的維修數(shù)據(jù),數(shù)據(jù)挖掘是該結(jié)構(gòu)的核心內(nèi)容。最后傳輸?shù)接脩艚缑妫敵瞿J娇梢詾榭梢暬J健?/p>
2.2.1 問題定義
由于研究的模型是基于航空維修數(shù)據(jù)建立的,屬于特定領域。因此,為了提出一個有意義并且能夠利用現(xiàn)有條件解決的問題,必須掌握一定的航空維修知識。然而,部分學者在研究數(shù)據(jù)挖掘時,并沒有意識到問題的描述,建立模型時只選擇未知的相關性制定變量[2]。這一步驟要求我們了解該領域知識,現(xiàn)實中這些問題都是通過該領域的專家和數(shù)據(jù)挖掘?qū)<液献魍瓿桑虼艘粋€成功的數(shù)據(jù)挖掘應用中,專家之間的合作不單單存在于初始階段,也處于整個數(shù)據(jù)挖掘過程之中。也就是需要明確的定義業(yè)務問題,感受領域的相關信息,理解知識,搞清楚用戶的需求。認清問題是數(shù)據(jù)挖掘最重要的一步,雖然結(jié)果不可預測,但是分析的問題要有依據(jù)的,不能盲目應用,否則必然失敗。
2.2.2 數(shù)據(jù)準備
第一步需要數(shù)據(jù),進一步探索和尋找與航空維修有關的資料和數(shù)據(jù)信息,同時還需要挑選出適合于數(shù)據(jù)挖掘應用的信息和數(shù)據(jù)。此階段要確定數(shù)據(jù)收集方式,一般有兩種收集方式,一種由專家控制的收集,另一種是觀察法收集。觀察法收集時,數(shù)據(jù)是未知的,取樣分布也是未知的,但可以掌握數(shù)據(jù)搜集對理論分布的影響。其次要進行數(shù)據(jù)預處理,這是整個過程之中十分重要的工作。內(nèi)容包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變化、數(shù)據(jù)規(guī)約。最后是數(shù)據(jù)轉(zhuǎn)換,根據(jù)具體問題建立模型,隨后確定相應的算法,將數(shù)據(jù)轉(zhuǎn)換為適用的形式,此階段的作用是為了適用模型算法,為后續(xù)工作提供便利。
2.2.3 數(shù)據(jù)挖掘
此階段的工作是明確合適的算法,剩余的工作都可以自動合成。
2.2.4 結(jié)果分析
數(shù)據(jù)挖掘中得到的系列信息及模型,是否能有效處理航空維修中的問題、挖掘到有價值、有意義的數(shù)據(jù)信息,都需要進行相關的歸納、研究、評估、分析工作。該階段要注意的問題是結(jié)果分析的方法通常根據(jù)數(shù)據(jù)挖掘操作進行處理,可視化技術為主要的技術手段。
2.2.5 知識集成
知識集成就是把收集到的通過分析得到的知識,整理歸納到業(yè)務信息系統(tǒng)中。
通常所說的數(shù)據(jù)源發(fā)揮的作用是提供挖掘數(shù)據(jù)存儲地址,在整個過程中,數(shù)據(jù)源扮演著一個存儲器的角色,存儲大量分析數(shù)據(jù)。數(shù)據(jù)源表示到數(shù)據(jù)地址的一個鏈接,并且系列定義物理地址的連接字符串等。字符串包含服務器的名稱、安全性、超時值等信息。
需要生成的包括數(shù)據(jù)庫對象所使用的模型,包含N 個基礎數(shù)據(jù)源中選定的數(shù)據(jù),可以通過N 個數(shù)據(jù)源的生成,包含單獨存在的關系、相應的計算等,客戶無法通過客戶端看到數(shù)據(jù)[3]。
挖掘結(jié)構(gòu)定義生成挖掘模型的數(shù)據(jù)域,數(shù)據(jù)挖掘結(jié)構(gòu)不包括算法以及算法類型。同一個數(shù)據(jù)挖掘結(jié)構(gòu)能創(chuàng)建多個數(shù)據(jù)挖掘模型,并且建立的挖掘模型都由一個數(shù)據(jù)源發(fā)展而成。
建設模型是整個過程的重心和重點,簡單的說,可以把數(shù)據(jù)挖掘模型看作是一個樹狀圖,用來存儲相關信息,數(shù)據(jù)挖掘模型的任務是存儲數(shù)據(jù)挖掘模型。創(chuàng)建模型時需要指定列的具體用法,輸入列是識別信息以及學習信息,輸出列則是分析和預測。
模型處理在此階段也可以說為模型訓練,在此模型的數(shù)據(jù)處理中,數(shù)據(jù)挖掘算法把處理集中的數(shù)據(jù)輸入沒有經(jīng)過處理的模型,把訓練數(shù)據(jù)輸入后,數(shù)據(jù)不存到挖掘模型中,只進行分析,從中找到一些規(guī)則和模式,再根據(jù)模式和利用這規(guī)則填充模型。
飛機啟動系統(tǒng)是飛機重要的組成部分,但是在日常工作中,經(jīng)常因為飛行系統(tǒng)故障造成機器無法正常運行。因此要通過海量的維修數(shù)據(jù)和信息的分析和處理,使用數(shù)據(jù)挖掘技術解決飛行系統(tǒng)故障。要對故障進行分析,并且預測下一階段的趨勢,提前準備。其他的維修工作也可以參照,做法是利用粗糙集約簡的方法來解剖和分離出故障的關鍵性原因,然后分析故障數(shù)據(jù),研究故障類型,進行時間序列相似性的處理搜索,并且對未來情況進行判斷,做出合理的預測。在處理過程中,要對故障模式以及失效率高數(shù)進行分析,該方法可以用到不同系統(tǒng)的飛機數(shù)據(jù)處理,建立起故障預測模型,對于航空維修決策的制定有著重要意義,可以減少維修成本,保障人員安全[4]。
目前,航空飛行安全面臨著許多新的特點、新的問題,提升飛行安全最重要的工作就是進行航空維修,航空維修離不開信息的分析及利用。因此,應該建立起一個一體化的系統(tǒng)研究模型,讓決策者以及工作人員能透過大數(shù)據(jù)準確把握復雜的業(yè)務信息,能對信息進行客觀分析,對航空維修保障工作有指導意義,從而提升航空安全管理水平和企業(yè)經(jīng)濟效益。