摘要:最小距離分類法廣泛應用于文字,圖像識別領域。泵功圖是封閉的二值曲線圖像,可用于判別抽油井各種工況。對最小距離分類法進行改進,并把獲得的泵功圖進行形態學處理,使之優化為標準功圖,然后應用最小距離分類法對油井現場獲得的61幅泵功圖進行工況分類。實驗結果表明,這種方法對泵功圖分類是可行的,正確率較高。
關鍵詞:泵功圖;最小距離分類法;形態學;識別
Applying the Improved Minimum Distance Classification to Identification the Operation Conditions of Pump Diagrams
LIU Wei
(Computer Department of Shanxi Institute of Education, Xi'an 710061, China)
Abstract: The minimum distance classification has been broadly applied to the areas of character recognition and image recognition. The pump diagram is a binary image of closed curve, and it can be used to identify all kinds of operation conditions of an oil well. In this paper, the minimum distance classification has been improved, and all pump diagram have been dealt with morphology method to an optimized standard pump diagram, then it has been applied to identify the operating conditions of 61 pump diagrams which are collected on-site in the oil field. Test results show that the method is feasible and it has high correctness in condition of pump diagrams classification.
Key words: pump diagram; minimum distance classification; morphology; recognition
最小距離分類法是一種簡單的基于向量空間模型的分類算法。根據訓練集按照算術平均生成一個代表該類的中心向量Uk (k=1,2,…,m; m是類的個數),對于每一組待分類數據X,計算其與Uk之間的距離d2 k,最后判定X屬于與之距離最近的類。這里X=[x1,x2,…,xn,c], Uk=[μk1,μk2,…,μkm,c],c表示類別,c屬于{c1,c2,…,cn} [1]。最小距離分類器經常使用的算法有歐式距離,標準化歐式距離,馬哈拉諾比斯距離等[2]。在圖像處理和文本分類領域,最小距離分類器或其改進算法被普遍應用[3]。
模板匹配法是最小距離判別函數概念的延伸。模板匹配是基于圖像相似性度量、在現場獲取的實時圖像中尋找最接近目標模板圖像區域的一種識別距離方式。它無需對圖像進行分割和特征提取處理,而只在原始圖像數據上進行運算,從而保留了圖像的全部信息。模板匹配法[4]是模式識別中一個最原始、最基本的方法,它基本上是一種統計識別方法。因為每一模板與未知樣本匹配的好壞,取決于模板上各單元與樣本上各相對應單元的匹配與否,若模板與樣本上的絕大多數單元均相匹配,則稱該模板與樣本“匹配得好”,反之則稱“匹配不好”。并取匹配最好的作為識別結果。同時,模板匹配法也是直觀,快速的算法。目前在進行圖像識別、語音識別中,這個方法仍然非常重要[4]。
1 “最小距離分類法”基本原理
基于最小距離判別函數的分類器稱為最小距離分類器。在最小距離分類中,若決策邊界上的點與相鄰兩類都是等距離的,這種方法就難于解決。此時,必須尋找新的特征,重新分類。在圖像識別中,最小距離分類器作為線性分類器是一種很重要的方法,即將未知類別的圖像與特征空間中作為模板的點(標準樣本的中心)之間的距離作為分類的準則。對于M類模板,未知類別圖像與哪一類距離最近就屬于哪一類[5]。
假定M類圖像,分別為W1,W2,…,WM。每類有一個標準圖像模板特征向量,則共有M個模板特征向量,表示為Z1,Z2,…,ZM。則未知類別圖像的特征向量X和Wi類的模板特征向量Zi之間的歐幾里德距離為:
■ (1)
相應的判別規則為:對未知圖像的特征向量X和M類圖像的模板特征向量分別求距離,可得到一個距離集D1,D2,…,DM,將X分到與它距離最近的類別。換句話說,對所有的j≠i若Di(X) 2 對“最小距離分類器”進行改進 2.1 傳統算法 通常,首先將掃描得到的圖像轉化為數字圖像送入計算機,也就是p×q維數字矩陣,通過預處理,特征壓縮等,將原始p×q維圖像變為I×J維圖像(I≤p,J≤q)。對每幅圖建立一個模板Pk ,對一個未知模式X,逐個與模板匹配求出最小距離,然后按上節描述的識別規則進行識別。識別過程為[5]: 1) 計算: l為模板庫中模板總數,x為待分類圖像的二值矩陣,p為模板圖像的二值矩陣。 2) 判別: 如果: 則: X∈Pk(4) 否則拒識。其中ρ為拒識距離閾值。 2.2 改進算法 鑒于泵功圖自身為封閉的二值曲線圖像,圖形相對簡單,以及可以獲得描述工作現場的各種工況的示功圖,所以在模板足夠完備,分類足夠細致的情況下,可以將這種模板匹配的算法加以改進,應用于對泵功圖所描述的工況進行識別。改進算法如下: 1) 計算: 其中 為待分類的泵功圖的二值矩陣,p為模板泵功圖的二值矩陣,k為用于比較的模板對應的類別序號,l為泵功圖模板庫中模板總數,m和n分別代表泵功圖二值矩陣的行列總數。 2) 判別: 如果:Hk=min(Hk) (6) 則:c=k(7) 其中c為類別號。 改進算法適用于泵功圖模板庫足夠完備,待分類的所有圖像均有可以對應的模板的條件下。獲得各種工況下的油井現場泵功圖來豐富標準泵功圖模板庫,可以在很大程度上提高這種算法的準確性。 3 應用改進算法對泵功圖進行識別 圖1描述了泵功圖識別系統的構成。 3.1 模板庫 學習36幅典型泵功圖[4],建立模板庫,如表1所示。 3.2 形態學數據處理 對典型泵功圖和用于測試的待分類泵功圖都要進行形態學數據處理,變成同樣的標準才能進行比較。以油管錨損壞為例,將掃描得到的圖像二值化,膨脹,細化,去毛刺,然后處理成256×512像素標準大小。處理后獲得的圖像如圖2所示。 采用列掃描的方法填充內部區域,形成標準泵功圖模板。不按行掃描而按列掃描的主要原因是柱塞在一個泵循環中只改變方向一次而泵功圖上下水平邊會出現兩個或更多的載荷峰值。最終得到的油管錨損壞標準泵功圖模板如圖3所示。 3.3 模板庫建立 形成模板庫,比較模板之間的差異。以前12個模板為例,結果如表2所示。表中元素對應的行列位置代表相對應兩幅模板的歐氏距離。從表中可以看出數值越小,表示兩幅圖越接近。表中顯示是主對角線為0的對稱矩陣。 3.4 用改進最小距離分類法對測試數據進行分類 將油田現場采集61幅地面示功圖仿真為泵功圖后,用改進的最小距離分類法對其進行分類,以其中前16幅待分類泵功圖為例,分類結果如表3所示。 4 結論 最小距離分類法的改進算法應用于泵功圖的工況識別,是基于標準模板足夠完備,分類足夠細致的基礎上的。模板庫越豐富,分類的準確性越高。從油田現場采集的61幅泵功圖來看,采用最小距離分類法進行工況識別,正確率可以達到75%,如果根據油井自身的情況建立完備模板庫,將提高分類精度。但是在最小距離分類中,在決策邊界上的點與相鄰兩類都是等距離的,這種方法就難于解決。此時,必須尋找新的特征,重新分類。 參考文獻: [1] Jain A K, Duin R P W, Mao J. Statiscal Pattern Recognition:A Review[J].IEEE Transaction on Pattern Analysis and MachineIntelligence,2000,22(1):4-37. [2] Therrie C W. Decision,Estimation and Classification[M].New York:John Wiley,1989. [3] 龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動分類系統的研究與實現[J].計算機應用研究,2001,18(9):23-26. [4] 彭勇.模式識別及其在石油工業中的應用[M].西安:陜西科學技術出版社,1998. [5] 張洪剛,陳光,郭軍.圖像處理與識別[M].北京:北京郵電大學出版社,2006.