基于文本挖掘和K-means聚類的航空安全事故報告的可視化分析方法

2022-02-17 00:29:53馬婷

電腦知識與技術 2022年35期

馬婷

摘要：航空事故對航空安全起到至關重要的作用，影響航空安全的因素是多重的。文章對航空安全事故報告采用文本挖掘和R語言，找出航空安全事故的致險因素，對航空安全提供參考，收集事故報告90例，首先采用了結巴分詞對數據進行分詞處理，其次是過濾分詞結果中的停用詞和無效詞，然后進行關鍵字的提取，找出能夠代表文本特征的詞條，建立向量空間模型，最后采用K-means聚類算法，在K值為3時聚類效果達到最佳，將航空事故致險因素分為了人為-環境-設備三類，利用R語言的Word Cloud程序包將實驗結果進行可視化處理，得出8項主要致險因素，17項一般致險因素。根據詞云圖中的致險因素，從人-環境-設備三個方面為以后的飛行安全提供了有價值的參考信息。

關鍵詞：航空安全事故報告；文本挖掘；分詞；聚類；致險因素

中圖分類號：G642? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2022）35-0056-04

人們的生活方式正悄無聲息地發生變化，比起其他交通工具，乘坐飛機出行已經成了人們的日常。從2018的有關航空安全的數據來看，航空安全形勢仍然嚴峻，還有許多安全問題是不容忽視的。因此，對于航空安全性進行提高是航空公司以及從業人員都迫不及待需要解決的問題[1]。

美國在20世紀70年代首創的航空安全系統（Aviation Safety Reporting System），是國外開始針對航空安全事故報告開展研究的起始點。該系統可以從航空安全報告中分析出造成事故的原因，從而使類似事件發生的概率大大降低。近年來，國內也有不少人致力于對安全事故報告進行相關方面的分析研究，如文獻[2]基于文本挖掘技術和R語言，對334份建筑施工安全事故報告進行分詞處理和特征項降維，識別出8項建筑工人不安全行為及其27項影響因素。文獻[3]以某管制單位2004—2019年共269條管制原因不安全事件數據為挖掘語料，運用LDA主題模型挖掘管制運行風險主題及關鍵詞，使用Word2Vec挖掘主題之間和關鍵詞之間有怎樣的關聯性、用UCINET分析軟件、可視化工具NETDRAW構建語義網絡將關聯關系進行可視化并進行網絡分析。結果表明：挖掘到7個主題，主要以管制人為因素為主。文獻[4]以航空安全事故報告作為數據基礎，通過TF-IDF、LDA算法進行致險因素的分析，在此基礎上提出如何來進行風險的預測。其中包括6項主要致因因素和20項一般致因因素。文獻[5]構建出了基于樸素貝葉斯網絡結構的“人-船-管理-環境”系統。通過對TFIDF算法的進一步改進，推導出人為因素是造成船舶碰撞事故風險因素的第一因子。文獻[6]通過詞云和網絡結構圖的可視化展示，展示出了地鐵施工安全風險的致險因素，并根據這些因素對事故發生的重要程度對其進行了等級劃分。文獻[7]是以ASN、NTSB和世界事故數據為基礎來構建民航系統的事故數據庫，所采用的算法是多維關聯規則的算法。文獻[8]采用內容分析方法，分析在飛機飛行階段的安全問題及造成安全問題的原因有什么樣的關系，通過分析得到對于某一起航空安全事故發生的主要原因并不是單一的，而是由“環境”“管理”“人為”等多重因素相互疊加造成的。

上述方法大部分是通過分析事件及事件之間關系，但出于機器學習聚類的使用比較少，并且通過可視化展現分析結果的使用也比較少，本文借助了文本挖掘和R語言技術，K-means聚類的方法及可視化，從90例飛行事故報告，挖掘航空事故致險因素。

1 文本挖掘

文本挖掘是數據挖掘領域中的一個部分，主要的作用是挖掘對用戶具有潛在價值的新知識。文本挖掘是針對文本類型的數據進行定性分析和定量計算，將包含在其中的各種類型的隱式知識挖掘出發，如隱含其中的信息模式、結構等[9]。文本挖掘的方法主要針對某些包含信息模式和結構的文本信息源展開分析和計算，其應用主要包含實現有監督的文本分類和無監督的文本聚類。

本文文本挖掘操作步驟如圖1所示。

2 文本挖掘語料及挖掘工具選擇

在做文本挖掘之前首先要選擇合適的挖掘工具，典型的開源的文本挖掘工具有LINGPIPE、LIBSVM、WEKA、ROST CM等[10-11]，ROST CM挖掘工具主要用于中文文本，WEKA算法在許多數據挖掘專業人員中相對流行，因為它的算法很全面， LIBSVM挖掘工具主要針對SVM模式識別與回歸操作，并且為了對自然語言進行更好地處理，人們開發出了LINGPIPE挖掘工具包。R語言則可提供完全免費開放的環境，它由于涵蓋的功能多種多樣，而且包含在內的成熟穩定的函數齊全，成了一門可以用來專門做統計和數據分析工作的高效的語言，可以針對不同的用戶需求提供相應的程序分析包，同各種IOS的兼容性好，而且它的功能也很齊全。因此，鑒于以上的分析比較，最終選擇了涵蓋數據處理、統計分析和數據可視化功能的R語言及相應程序包，對所搜集的航空安全事故報告進行了挖掘分析[12-14]。

為了保證實驗所用的數據具有真實性，實用性，我們采用航空安全網（Aviation Safety Network）中的數據為實驗中的基礎數據，另外通過全網搜索與航空安全事故有關的信息，從民航資源網等相關的管理部門網站共收集事故報告90例。

搜集的90例航空安全事故報告來源如表1所示。

3 基于R語言文本挖掘的航空事故致險因素分析

特征表示通常我們會把文本數據用向量空間模型來表示，即提取的特征值與相對應的權重進行組合，所包含的概念如下：

（1）某個語料庫文檔或單個文件集中的某一段，叫作文檔，記為D，文件總數為[D];

（2）區別其他類文檔與這類文檔的重要依據，某一個給定的詞或詞語，我們把它稱為特征值；

（3）對于一類文檔而言，特征值是有多么重要，我們用權重來表示。

TF表示某一個詞或短語在一篇文檔中出現多少次及頻率[17]。在某個文檔中，詞頻通常用來規范單詞的數量并防止它偏向長文檔，（與某個詞語是否對整篇文章重要無關，在長文件中一個詞的出現頻率很高，而在某個短文件中出現的頻率則很低），所以某一個給定的詞或詞語出現的頻率次數稱為詞頻，在一篇文檔里面出現的某個詞語ti對文檔的重要程度我們把它表示為如公式（1）。

[tfi，j=ni，jknk，j]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（1）

公式（1）中，分子部分n（i，j）表示在一篇文檔中某個特定的詞或詞組出現的詞頻，而式子中的分母表示的是該文檔中包含的所有的詞或詞組出現總詞頻。

對某個詞語在文檔中的重要程度進行衡量，我們通常用逆向文件頻率來表示。以文件總數作為分子，以有哪些文檔包含該特定詞語的數目作為分母，再將分子除分母所得到的結果進行對數運算，得到的公式（2），稱為某一個特定的詞或詞組的IDF：

（2）

其中|D|：語料庫中的文件總數|{j：t_i∈d_（i，j） }|

tf－idf=tfi，j×idfi? ? ? ? ? ? ? ? ? ? ? ? ? ?（3）

通過式（3）計算，就能得出每個特征項的權重Wik：

（4）

（4）向量空間模型：特征值和權重進行組合構成向量空間模型。

3.1? 航空事故報告預處理

使用了一款高效、對于繁體和自定義的詞典可以進行分詞得分詞包——結巴分詞來完成整個文檔的分詞操作。它以C++作為基礎層，并且基于MIT協議實現對RCPP的高效調用。對90份文件采用結巴分詞的方式進行分詞處理，分詞結果中存在著英文單詞、停用詞等對于本文分析贅余、無效的詞匯，部分分詞結果如圖2所示。為了節省內存空間，在對自然語言數據進行處理的步驟中，通過停用詞的過濾，可以提高檢索的效率和存儲效率，整理的停用詞如圖2（b）所示。基于已經整理的停用詞詞典、正則表達式分別過濾停用詞、英文單詞等無效詞匯，過濾后的分布結果如圖2（c）所示。觀察過濾停用詞與英文后的分詞結果，發現存在著“網”“號”等單詞長字，這些字在文本分析中無實際的效果，通過限制詞長來過濾這些詞，過濾效果如圖2（d）所示。

3.2? 特征值選擇及空間向量構建

特征值是可以表示文本主要含義的信息，向量空間模型是在文本處理中的模型。TFIDF（term frequency–inverse document frequency）是一種統計方法[15-16]，信息加權的技術領域應用較多，主要作用是用于根據某個字詞的出現頻率，在某個語料庫或單個文件集中的某一個單詞，對他們存在的重要程度進行評估。

如果在一篇文檔中某個詞以較高的詞頻存在時，它通常就可以被用來表示該類別中文檔的特征，應該將這樣的詞語選出來，使其具有較高的權重，并將這些特征詞作為區別其他類文檔與這類文檔的重要依據。

每一行作為一個文本，每一列為關鍵詞，在文檔-詞頻矩陣中，部分提取結果如圖3所示。

根據空間向量模型的構成方式，如表2為部分文本及特征值的空間向量模型。

3.3? K-Means聚類

K-Means算法其實是一種非常簡單的算法，它根據給定樣本集中的樣本之間的距離，形成K個簇，讓樣本自動歸入到相應的簇內。讓簇內的各個點之間的距離盡可能小，而讓各個簇之間盡最大的可能分散[18]。

假設生成的K個簇是（[S1、S2...Sk]），[Ui]是簇[Si]的均值向量，或者稱其為簇的質心，用數據方式表示為：

（5）

通過計算得到的最小化平方誤差E：

（6）

K-Means算法實現步驟：

（1）數據集分成幾個集合，先確定出K值；

（2）選出質心，質心的選擇是任意的，它可以是隨機從數據集中選出的k個數據點。

（3）數據集中的每個點與質點之間都有一個距離，我們通過計算距離，能夠找到數據集中的點離哪個質點近，就把它們分為一類。

（4）通過上述步驟，使所有數據與其適當的集合成為一個聚類，用k個集合表示，對每一個集合的質心，重新計算一次。

（5）得到第二次的計算結果后，將它與第一次的結果進行比較，如果第二次結果減去第一次的結果小于某個極小數，相當于收斂，那么說明質點的位置沒有太大改變，這就是我們所預期的結果已經達到了，不需要再次進行計算。

（6）如果第二次結果減去第一次結果值得變化比較大，則需要再次聚類，即轉到3～5進行循環迭代，直到滿足條件為止[19]。當K=3的時效果最佳，選擇聚成三類，將航空事故致險因素分為人為造成事故傷害、天氣環境以及設備故障三大類因素，如圖4所示。

具體的聚類效果如圖5所示。

4 聚類可視化

實驗的最終結果以造成航空安全事故的因素的詞云圖展現，通過利用R語言的Word cloud程序包方式進行可視化展示。實驗得到的最終結果以詞云圖形式進行可視化展示，如圖6所示。

雖然作為本文數據來源的90份航空安全事故報告，它們的語言表達方式多種多樣，內容結構也不盡相同，而且造成每一起航空事故的原因都存在很大差異，但通過實驗最后得出的詞云圖，根據詞語字體在圖中的居中位置不同、詞語方向大小以及明暗顏色都是有一定差別，如誤操作、疲勞駕駛、能見度低、安全意識薄弱、管理員決策不當、鳥群撞擊、飛機設備故障及失靈等頻率較高的詞位置居于中央，字體明顯比其他詞語較大，顏色也較為醒目，我們把它們看成是主要致險因素。而飛行員情緒波動、失壓、人員安排、缺氧、低云、無線電通信阻塞、載荷過載等頻率低的詞字體比較小，位置處于詞云圖的邊緣部分，顏色較不明顯，我們把它看成一般致險因素。

5 結語

本文主要借助了文本挖掘和R語言技術，通過文本分詞，停用詞過濾、無效詞過濾、關鍵字提取，建立向量空間模型，及K-means聚類的方法，從90例飛行事故報告，挖掘航空事故致險因素，最后通過可視化進行顯示，顯示出的實驗結果進行分析得到：

基于對實驗所得的航空事故致險因素詞云圖中字體的大小、位置、顏色等的分析，一起航空安全事故的發生是由一些主要的致險因素和一般的因素造成的，從詞云圖來看，誤操作、疲勞駕駛、能見度低、安全意識薄弱、管理者決策不當、鳥群撞擊、飛機設備故障及失靈等這些是主要的致險因素；一般致險因素有：飛行員情緒波動、失壓、人員安排、缺氧、低云、無線電通信阻塞、載荷過載等。而一個航空事故的發生不可能是由某個單一的原因造成的，可能由多個致險因素相互疊加而導致，所以每個致險因素都是不容忽視的。為了能夠有效地防止航空安全事故的發生，主要從“人為造成事故傷害-天氣環境-管理者的管理-設備故障”這四大致險因素出發制定切實可行且有效的措施防止悲劇的發生。

參考文獻：

[1] 徐佳迪.公務航空飛行安全的關鍵風險因素研究[D].天津：中國民航大學，2019.

[2] 薛楠楠，張建榮，張偉，等.基于文本挖掘的建筑工人不安全行為及其影響因素研究[J].安全與環境工程，2021，28（2）：59-65，85.

[3] 陳芳，陳茜，徐碧晨.基于文本挖掘的管制運行風險主題分析[J].中國安全生產科學技術，2020，16（11）：47-52.

[4] 劉夢娜.基于文本挖掘的航空安全事故報告致因因素分析和風險預測[D].合肥：安徽建筑大學，2019.

[5] 吳伋，江福才，姚厚杰，等.基于文本挖掘的內河船舶碰撞事故致因因素分析與風險預測[J].交通信息與安全，2018，36（3）：8-18.

[6] 李解，王建平，許娜，等.基于文本挖掘的地鐵施工安全風險事故致險因素分析[J].隧道建設，2017，37（2）：160-166.

[7] 侯熙桐.基于多維關聯規則的民航事故數據挖掘研究[D].天津：中國民航大學，2016.

[8] 劉俊杰，李華明，梁文娟，等.基于內容分析法的航空安全自愿報告信息分析[J].中國安全科學學報，2012，22（4）：90-96.

[9] 張磊.基于文本挖掘的項目風險分析方法研究[D].濟南：山東大學，2015.

[10] 張雯雯，許鑫.文本挖掘工具述評[J].圖書情報工作，2012，56（8）：26-31，55.

[11] 張雪英.國外先進數據挖掘工具的比較分析[J].計算機工程，2003，29（16）：1-3.

[12] 馬準中.對三種數據挖掘工具的比較[J].實驗科學與技術，2005，3（1）：45-46，29.

[13] Yang Y Y.Text mining and visualization tools - Impressions of emerging capabilities[J].World Patent Information，2008，30（4）：280-293.

[14] Gemert J V.Text mining tools on the Internet an overview[J]. Intelligent Sensory Information Systems，2000（25）：1-68.

[15] 張建娥.基于TFIDF和詞語關聯度的中文關鍵詞提取方法[J].情報科學，2012，30（10）：1542-1544，1555.

[16] 章志華，陸海良，郁鋼.基于TFIDF算法的關鍵詞提取方法[J].信息技術與信息化，2015（8）：158-160.

[17] 施聰鶯，徐朝軍，楊曉江.TFIDF算法研究綜述[J].計算機應用，2009，29（S1）：167-170，180.

[18] 回玥婷，夏懿嘉，陳紫荷，等.基于Synonyms、k-means的短文本聚類算法[J].電腦知識與技術，2019，15（1）：5-6.

[19] Lee E，Schmidt M，Wright J.Improved and simplified inapproximability for k-means[J].Information Processing Letters，2017，120：40-43.

【通聯編輯：王力】