費清春,史瑩瑩,曾慶國
(1.南京電子技術研究所,江蘇 南京210039;2.工業和信息化部電子第五研究所,廣東 廣州511300)
隨著計算機技術的快速發展,企業建立了產品質量問題處理信息系統,存儲了大量的產品質量問題處理歷史記錄。產品質量改進通常是建立在產品質量問題數據分析的基礎上,將質量問題快速、準確地自動歸類為不同的故障模式,對于促進企業識別質量問題關鍵因素,推動產品質量改進具有十分重要的現實意義。如何將成千上萬,甚至是幾十萬條質量問題數據按照故障模式自動分類,單憑專家篩選、甄別和分類,是一個巨量的、難以短時間完成的任務,成為了亟需解決的實際問題。以關鍵詞檢索等自動化程度較低的人機協作模式開展質量問題分類,結果存在大量的誤報和漏報,不能滿足實際使用的需要。
運用大數據技術,分析挖掘產品質量問題數據,能夠為產品質量改進的技術創新提供有效的技術支持[1]。當前,計算機領域已形成了中文分詞、文本挖掘等自然語言處理技術,在此背景下,本文重點聚焦裝備質量問題文本數據的故障模式自動分類方法展開研究。
在計算機文本挖掘方面,Kenter等人[2]合并由相同算法、語料庫、參數設置得到的不同維度詞向量,訓練出分類模型,并利用此分類模型計算短文本問題之間的相似度;Kusner等人[3]基于詞與詞之間的最小移動距離,求解問題文本之間的文檔相似度;孟繁宇[4]則將基于檢索詞的摘要提取問題轉化為文本聚類問題,利用提取式摘要抽取方法,對文檔的主要特征進行向量化抽取和去冗余等操作。
針對裝備故障和失效等質量問題分類方法研究,張計晨[5]圍繞天氣雷達運行工作原理,分析雷達發射系統故障觸發機理,形成發射系統故障分類模型。龔俊杰[6]提出航空產品質量問題的三維分類模型,從“過程-問題-性質”三個維度對質量問題的不同分析類別進行定義,再通過每一維度的層次分類,實現對問題的全面分類管理。李擎等人[7]提出基于層疊隱馬爾可夫的設備質量風險隱患識別模型,在此基礎上統計每類質量問題的出現頻度,實現對基于風險等級的質量問題管理方案。謝榮琦[8]則將數據挖掘中的特征聚類算法引入質量特性識別過程中,并與過濾型特征算法相結合,構造面向復雜產品關鍵質量特征的問題識別模型。張青等人[9]提出基于主題擴展的領域問題分類方法,給出了評價分類的指標。Liu等人[10]提出了一種基于樸素貝葉斯的分類算法,通過計算描述文本的統計學特征進行分類。洪晟等人[11-15]針對雷達電源系統健康分級分類、車載離子電池的健康狀況評價等方面,開展特征數據訓練,并引入長-短期記憶網絡預測和判別健康狀態,在互相依存網絡中開展故障關聯分類分析、級聯失效分類分析等。
上述研究文獻啟發了筆者通過文本之間的相似度判斷問題分類的思路,相對于從裝備實時監測狀態判定故障模式,本文從自然語言處理的角度,提出一種基于文本特征抽取和相似度計算的裝備質量問題自動分類方法,為解決此類問題提供了一個新的路徑。
定義1裝備質量問題文本表示為6元集合P,如式(1)所示:

其中,pi表示質量問題的特定數據項。p1表示質量問題唯一編號;p2表示質量問題發生的部位;p3表示質量問題現象文本;p4表示質量問題原因文本;p5表示質量問題糾正文本;p6表示質量問題糾正措施文本。
定義2裝備質量問題故障模式表示為3元集合F,如式(2)所示:

式中,fi表示裝備質量問題故障模式的特定數據項。其中,f1表示故障模式唯一編號;f2表示故障模式名稱;f3表示故障模式文本描述。
定義3裝備質量問題分類的結果表示為裝備質量問題文本集P到裝備故障模式集F的一個映射關系ζP→F。假設?xi∈P均有且僅有一個yi∈F與之對應,即一個質量問題與一個故障模式存在唯一映射關系。
本文提出了質量問題文本分類的框架,如圖1所示。數據預處理對質量問題和故障模式文本進行中文分詞等;數據特征提取對質量問題和故障模式文本提取有用的特征;相似度計算獲得質量問題與故障模式的文本相似性;分類判定用以建立質量問題文本與故障模式文本的映射關系;指標評價完成評估質量問題分類方法的性能。

圖1 裝備質量問題文本分類框架圖
基于故障模式的裝備質量問題文本自動分類方法包含3個核心部分:(1)文本特征向量構造:利用中文分詞技術分別將質量問題和故障模式文本切詞,生成關鍵詞特征向量;(2)質量問題特征向量相似度計算:進行質量問題文本與故障模式文本的特征向量之間的相似度計算;(3)質量問題故障模式判別:依據相似度閾值,自動判定質量問題歸屬的故障模式種類。裝備質量問題文本分類方法的主要流程如圖2所示。

圖2 裝備質量問題文本分類流程圖
在建立映射關系ζP→F的過程中,需要同時考慮質量問題文本的多維度信息pi和故障模式文本F中的多維度信息fi,最大程度地利用多元語義特征,具體步驟包括:
(1)提取裝備質量問題文本的語義特征,構造質量問題文本特征向量,創建字符串s=p1+p2+p3+p4+p5+p6,對s進行中文分詞并構建單詞集合X。
(2)提取故障模式文本的語義特征,創建字符串f=f1+f2+f3,對f進行中文分詞并構建單詞集合Y,X和Y合并為詞典Z,詞典Z中單詞的總數為n。
(3)建立質量問題文本的特征向量,記為v,向量空間長度為n;建立故障模式的特征向量,記為w,向量空間長度為n。
(4)對照文本在Z中查字典,按照獨熱編碼方式,完成v和w特征向量賦值。
裝備質量問題文本與質量問題故障模式文本的相似度記為a,相似度計算的常用方法包括杰卡德相似系數(Jaccard Similarity Coefficient)、余弦相似度(Cosine Similarity)和皮爾遜相關系數(Pearson Correlation Coefficient)等。
(1)杰卡德相似系數通過測量兩個有限樣本集合之間的重疊,計算它們之間的相似性。給定一個裝備質量問題文本分詞集合X,一個故障模式的分詞集合Y,則杰卡德相似系數表示為:

(2)余弦相似度通過計算質量問題文本的特征向量v和故障模式的特征向量w的夾角余弦值來評估它們的相似度。給定一個質量問題特征向量v,一個故障模式的特征向量w,則余弦相似度表示為:

其中,vi和wi分別表示為裝備質量問題文本和故障模式的特征向量中第i維特征值,a是它們之間的余弦相似度。
(3)通過計算裝備質量問題文本的特征向量v和故障模式的特征向量w,得到皮爾遜相關系數,表示為:

其中,vi和wi分別表示為裝備質量問題文本和故障模式的特征向量中第i維特征值,和分別表示為裝備質量問題文本和故障模式的特征向量平均值,a是它們之間的皮爾遜相關系數。
在建立映射關系ζP→F的過程中,相似度a的值域為[0,1],在此范圍內設置k作為質量問題分類故障模式的閾值。一個裝備質量問題與所有故障模式文本均進行了相似度計算,假設與第i個故障模式的相似度最高,記為ai:
(1)當ai≥k時,則映射關系成立,即判定裝備質量問題分類至第i個故障模式;
(2)當ai<k時,則映射關系不成立,即判定裝備質量問題暫無映射的故障模式。
以某企業313項裝備質量問題文本和6類故障模式文本數據開展實驗對比與分析。其中,裝備質量問題文本包括編號、部位、現象、原因、糾正和糾正措施等維度的短文本,而6類故障模式包括編號、名稱和內容等維度短文本。
例如,一個裝備質量問題文本編號為Q0001,現象為“雷達掃描線不轉動,目標無法顯示”,部位為“數據處理分析”,原因為“數據處理死機”,糾正為“重新安裝升級后的軟件”,糾正措施為“修改代碼完善非法數據驗證,提高容錯性”。與之對應的裝備故障模式編號為F001,故障模式名稱為“雷達無法探測目標”,故障內容描述為“數據處理軟件死機”。故障模式類別及其對應的裝備質量問題文本數如表1所示。

表1 裝備質量問題樣本分類分布(個)
為了評價基于故障模式的裝備質量問題分類方法的性能,采用準確率P、召回率R和F1指標(F1-score)作為實驗評價指標。其中,準確率P反映了已分類結果的正確性,計算如式(6)所示。召回率R是已正確分類占所有應該正確分類的比例,計算如式(7)所示。F1同時兼顧了準確率P和召回率R兩個方面的評價指標,它是準確率和召回率的調和平均數,計算如式(8)所示。

為了有效驗證本文提出的裝備質量問題文本分類方法的有效性,設計了3個實驗開展分類有效性的比對研究。
實驗1:在相同的相似度閾值k下,按照杰卡德相似系數、余弦相似度和皮爾遜相關系數3種相似度計算方式,開展裝備質量問題文本自動分類實驗,選出性能最優的相似度算法,并開展相關結果分析。
實驗2:按照實驗1優選的相似度算法,開展裝備質量問題文本分類實驗,針對在不同的相似度閾值k下的各項指標,選出性能最優的相似度閾值k。
實驗3:按照實驗1優選的相似度算法,實驗2優選的相似度閾值k,開展裝備質量問題文本分類實驗,依據在6個類別上的評價指標,分析目前存在的差距和改進方向。
在實驗1中,針對313項裝備質量問題文本,按照杰卡德相似系數、余弦相似度和皮爾遜相關系數3種不同方式計算相似度a,統一設置相似度閾值k=0.01,實驗1的性能指標結果如表2所示。

表2 實驗1的性能測試指標結果(%)
在實驗2中,按照杰卡德相似系數計算相似度a,設置相似度閾值k分別為0.01、0.1、0.2和0.3,實驗2的性能指標結果如表3所示。

表3 實驗2的性能測試指標結果(%)
在實驗3中,采用杰卡德系數計算相似度a,設置相似度閾k=0.01,在6種故障模式類別下,開展實驗比對,實驗3的性能指標如表4所示。

表4 實驗3的性能測試指標結果(%)
實驗1結果表明,采用杰卡德相似系數在準確率、召回率和F1值3項評價指標上均優于余弦相似度和皮爾遜相關系數。相似度計算方式優選杰卡德系數。
實驗2結果表明,采用杰卡德相似系數,隨著閾值k逐步增加,準確率隨之上升,而召回率則隨之下降,準確率的提升會帶來裝備質量問題文本分類中漏報的風險,因此在[0.01,0.4]范圍內,相似度閾值k最優為0.01。
實驗3結果表明,采用杰卡德相似系數計算相似度,設置相似度閾值k=0.01時,在所有測試樣本集上進行裝備質量問題文本分類,整體上取得了較好的總體性能,然而,在6個故障模式類別之間性能差距較大,例如在故障模式類別2和故障模式類別4上的分類準確率和召回率具有顯著差異性。因此,需要深度挖掘不同類別的質量問題文本特征,改進故障模式判別方式,均衡不同類別的分類差異,進一步優化分類效果。
本文針對當前裝備質量問題文本的分類方法自動化程度較低,提出了一種基于文本特征提取和相似度計算的分類方法,實現裝備質量問題文本與故障模式的自動和有效分類,減少了對專業人員的依賴,極大地降低了分類中的人工工作量,推動了產品質量改進的效率。
在未來工作中,針對裝備質量問題文本分類性能尚存在的差距,將采用深度學習模型挖掘質量數據的隱藏語義特征,進一步提升裝備質量問題文本特征提取效果,并拓展故障模式庫的廣度和深度,優化裝備質量問題文本分類的各項性能。