CAPP中基于本體和CBR技術的數據挖掘建模研究

2016-09-19 12:27:36蔣志遠

裝備制造技術 2016年6期

關鍵詞：數據挖掘語義詞匯

蔣志遠，郭　淵

（江蘇大學機械工程學院，江蘇鎮江212000）

軟件應用

CAPP中基于本體和CBR技術的數據挖掘建模研究

蔣志遠，郭淵

（江蘇大學機械工程學院，江蘇鎮江212000）

研究了基于本體的數據挖掘事例庫的構建、兩級事例檢索策略（以基于本體的語義理解為第一級事例檢索，以數值相似度計算為第二級事例檢索）、語義相似度計算方法、數值相似度計算方法等技術，將本體技術和CBR技術集成起來構建了基于本體的CBR系統，并通過大量實驗驗證了其有效性。

數據挖掘；CAPP；本體；CBR

現存的基于數據挖掘獲取工藝知識的CAPP系統尚處于初期階段，有很多缺陷需要完善。其中一個重要的問題是系統應用門檻高，很難被普通用戶（非領域專家）方便應用，這嚴重限制了基于數據挖掘獲取工藝知識的CAPP系統的廣泛應用［1］。為了解決上述問題，本文主要從數據挖掘建模方面進行研究，提出了基于本體和CBR（Case-based reasoning，基于事例的推理）的建模方法，開發了相應的基于數據挖掘的工藝規劃系統，并通過大量實驗驗證了其有效性。

1　基于本體和CBR技術的數據挖掘建模方法總體概述

基于本體和CBR技術的數據挖掘建模機理如圖1所示，其具體步驟描述如下：

（1）首先將挖掘任務通過界面接口技術轉換成本體詞匯，為語義理解奠定基礎；

（2）通過基于語義理解的檢索導引策略，將輸入本體詞匯（界面接口轉換得到的本體詞匯）與事例庫的本體詞匯樹上的詞匯進行匹配，通過語義相似度計算測量他們的相似性，從而縮小下一步搜索的解空間［2］；

（3）通過數值相似度測量獲取目標事例集作為數據挖掘模型評價的候選模型；

（4）通過數據挖掘模型評價機制對獲得的所有相似事例進行綜合評估，得出最佳相似事例；

（5）如果最佳相似事例的相似度測量值沒有達到一定的標準，就不得不進入事例修改環節，進行事例的修改。當事例修改結果評估達標時，即獲得滿意事例；

（6）根據獲得的滿意事例（應用事例），參照其相應的挖掘算法組織及選用的字段、權重等進行數據挖掘，獲得預期的知識；

（7）對數據挖掘所獲得的知識進行評價，如果滿意則進入事例學習，如果不滿意則進入下一個循環。見圖1.

圖1　基于本體和CBR技術的數據挖掘建模機理

2　基于本體和CBR技術的數據挖掘建模方法的關鍵技術

2.1基于本體的工藝規劃數據挖掘事例庫的建構

構建一個領域本體主要有三個步驟：（1）獲取領域本體概念（詞匯）；（2）獲取領域本體的關系（即概念與概念之間的關聯）；（3）通過建立概念之間的聯系獲得樹狀本體結構，該結構同時也是一個事例（Case）模型，賦以不同的值即獲得所有事例（Case）。本文所建本體詳細過程如下：

（1）本體詞匯（即領域概念）的獲取

構建本體首先要獲取領域本體詞匯。由于本文所建構的本體是CBR本體，所以其同時要符合CBR技術的特點。詞匯的領域為交叉領域包括CAPP領域和數據挖掘領域。

（2）本體關系的獲取

根據概念之間的關系構成一個樹狀結構。概念越抽象，其位置越在樹的頂端。樹的最頂端是最抽象最籠統的概念“工藝規劃數據挖掘事例”，最底端即樹的末梢是最具體的概念例如材料“PS”、“PPS”等。在本體樹形結構中，樹葉部分（葉節點）的概念同時也是一個數據庫的標簽，里面可以存儲相應概念的特征值。這些葉節點可以看做一個集合，而現實世界的每一個具體事例，實際就是對這組葉節點進行賦值，從而成為整個本體Case的一個實例。這樣，將大量現實世界的實例的具體特征值存入對應的數據庫就構成事例庫，儲存了領域知識。

2.2基于本體的工藝規劃數據挖掘事例的檢索

本文建立了二級檢索機制：第一級檢索是基于本體的語義理解檢索，其功能相當于知識導引法，首先將問題的解縮小到一個適當的解空間；第二級是利用最近鄰算法的數值計算，并通過設置一定的閾值控制所返回的結果事例個數。

2.2.1基于本體的語義理解檢索

如何訪問本體事例庫和語義相似度的計算是基于本體語義理解檢索的兩個核心環節，它決定著檢索的成敗與否。下面分別介紹這兩個環節：

（1）基于本體的工藝規劃數據挖掘事例的訪問

基于本體的工藝規劃數據挖掘事例的訪問技術即接口技術，其功能是將用戶的自然語言詢問轉換成本體事例庫可以接受的語言規范并進行相關概念的訪問，從而為相似度測量打下基礎。這里的接口技術是通過SPARQL技術來實現的。

（2）基于本體的語義相似度計算

語義相似度計算的基礎理論主要來源于離散數學中的圖和樹的匹配技術、數據庫中模式的類似處理技術和一階謂詞中類似的處理技術（如用機器學習來解決相似性的問題）。本文建構的語義相似度算法：提出了新的ND-IC相似度計算法即W-IC-ND（Weighted Information Content and Node Distance）。假定概念簇C' =［C'1，C'2，…，C'i，…，C'n］來自于用戶詢問，概念簇C=［C1，C2，…，Ci，…，Cn］來自于匹配的本體詞匯庫。概念簇C'和C的總體相似度表示為SimIC-ND（C'，C）.為計算SimIC-ND（C'，C），首先計算這兩組概念簇中每一個概念對（C'i，Ci）的相似度，記為SimIC-ND（C'i，Ci）。當計算SimIC-ND（C'i，Ci）時，首先用本文建議的IC相似度計算法計算，記為SimIC（C'i，Ci），再用本文建議的ND法計算，記為SimND（C'i，Ci），最后再將二者加權求和。

2.2.2數值相似度測量

數值相似度測量分兩步進行:首先計算出各個數值型屬性的相似度，然后通過最近鄰策略計算出總體數值相似度，下面分別描述之。

（1）單個數值型屬性相似度的計算

數值型屬性相似度的計算要根據不同的數值類型，分別采取不同的算法。在本文中，數值類型主要有簡單數值型、區間數值型、模糊數值型等，相應的相似度算法如下：

1）簡單數值型

假設c（實數）代表源事例的某個數值型屬性的值；c'（實數）代表目標事例相應屬性的值，則二者的相似度算法如公式（1）所示，k為相應屬性在事例庫中的值范圍。

2）區間數值型

假定區間值［a，a'］是源事例的某個屬性的值；［b，b'］為目標事例的相應屬性的值，則二者的相似度可以按公式（2）求出。

3）模糊數值型

在很多情況下，事例的屬性也可能是一個模糊數值，其由一個目標值v和相應的關系（＜，≤，≥，＞）組成。例如工藝規劃的“生產規?！睂傩裕瑢傩灾禐椋荷a規模不超過500件。那么用模糊數值表示即為：v≤500.這種情況下，計算源事例和目標事例的屬性相似度，通常首先要選擇一個隸屬度函數。隸屬度函數的選擇主要依靠主觀經驗進行試錯選擇，本文根據應用實踐情況選用TriF法作為隸屬度函數。

（2）總體數值相似度的計算

當每個數值型屬性相似度的值求出后，通過最近鄰匹配函數求出總體數值相似度。這里，總體相似度包括三部分：簡單數值型屬性相似度集，區間數值型屬性相似度集；模糊數值型相似度集。故此，總體相似度計算如公式（3）所示。

3　實驗驗證及結論

3.1實驗設計

（1）用于執行數據挖掘任務的數據源的選擇及數據預處理

本論文的數據預處理主要包括以下幾項：

1）去噪聲數據：在大型企業中，由于數據眾多，很容易因為數據收集工具，數據輸入錯誤，數據輸出錯誤，技術限制等在測量過程中產生隨機錯誤或是偏差，通過不同性質的多源數據進行參照，消除噪聲數據；

2）數據集成：將多個數據源中的數據整合到一個一致的儲存中，整合不同數據源中的元數據，匹配來自不同數據源的現實事例的實體，檢測并解決數據值的沖突問題，同時由于可能會有數據重復而要消除數據冗余。

3）將數據進行標準化，以統一的格式，存入標準數據庫中。

（2）實驗安排

1）實驗任務：三個典型的機械加工零件，閥蓋、端蓋、泵蓋。工藝規劃任務為典型任務例如加工工藝路線的確定、切削用量的選擇、工序卡的制定、刀具的選用等。

2）用于做比較的方法：當前流行的CBR檢索系統GA-CBR［3］，TCBR［4］；

3）系統檢索效果評價指標：Case修改量和用戶滿意度。在這種評價方法里，選擇一個可靠的專家組是評價成功的關鍵。故此，本文選用了20個來自知名企業（大眾、通用等企業）的專家學者進行打分評價。

4）方法執行者：為了消除偶然誤差，每項任務（Case）由不同的五個人（他們具有相當工程背景）來完成，然后求其平均值。見表1.

表1　本文建議的方法與現存方法的比較

從表1的統計數據，明顯可以看出，相比較于傳統的CBR而言，本文建議的基于本體和CBR的事例檢索方法在精度和效率方面都大大提高，特別是在復雜的零件工藝規劃時例如閥蓋。設計任務越復雜，建議的系統比傳統CBR的優越性越突出，說明了本文構造的相似度算法是恰當的，同時有力地證實了本文所研究的方法是可行的。

［1］邵新宇，蔡力鋼.現代CAPP技術與應用［M］.北京:機械工業出版社，2004：1-4.

［2］柯明楊.機械制造工藝學［M］.北京:北京航空航天大學出版社，1996：1-5.

［3］G.Beddoe，S.Petrovic，Selecting and weighting features using a genetic algorithm in a case-based reasoning approach to personnel rostering［J］.Eur JOpnl Res，2006，175:649-671.

［4］C.K.Reisbeck，R.C.Schank，Inside case-based reasoning. Hillsdale［M］，NJ，USA:Lawrence Erlbaum Associates 1989.

Research on Modeling of data Mining based on Ontology and CBR Technology

JIANG Zhi-yuan，GUO Yuan
（School of Mechanical Engineering，Jiangsu University，Zhenjiang Jiangsu 212000，China）

This paper studies the ontology based data mining case library construction，two grade case retrieval strategy（based on ontology semantic understanding for the first case retrieval，with numerical similarity calculation for the second case retrieval），semantic similarity calculation method，numerical similarity computationmethods of technology，ontology technology and CBR technology integration and construct the ontology based CBR system. And a lotof experiments have been made to verify its effectiveness.

datamining；CAPP；ontology；CBR

TP311

1672-545X（2016）06-0228-03

2016-03-05

蔣志遠（1994-），男，江蘇淮安人，本科，研究方向：機械制造極其自動化；郭淵（1979-），男，江蘇鎮江人，博士，講師，研究方向：智能化制造/數據挖掘。

CAPP中基于本體和CBR技術的數據挖掘建模研究

1 基于本體和CBR技術的數據挖掘建模方法總體概述

2 基于本體和CBR技術的數據挖掘建模方法的關鍵技術

3 實驗驗證及結論

1　基于本體和CBR技術的數據挖掘建模方法總體概述

2　基于本體和CBR技術的數據挖掘建模方法的關鍵技術

3　實驗驗證及結論