唐維道
(上海郵電設計咨詢研究院有限公司,上海 200092)
國內外專家對果實的識別的研究非常多,但是普遍存在果實識別率不高的情況,果實識別的主要方法有Sobel邊緣提取、Hough變換以及果萼特征識別等,這類方法主要通過判斷果實的顏色、形狀等特征對果實進行識別,主要應用在小范圍、單目標的果實識別工作中,但是識別多目標果實的效率較低[1]。利用K-means算法可以進行多目標識別,該方法的優點較多,例如聚類簡單、運算速度快等,如果出現大數據集,那么該方法不僅處理效率高,而且還可以伸縮。然而,該方法存在一個問題,在識別過程中,過于重視初始中心點,因此會經常出現局部最優解,這樣就會降低果實的識別效率[2]。針對這個問題,該文提出了一種新的聚類果實識別方法,對K-means算法進行改進,并且以獼猴桃為例對算法進行驗證,測試結果表明,該方法可以提高多目標果實的識別率,很好地解決了局部最優解的問題。
如果要準確地進行目標分割,就必須有合適的顏色空間,普通的圖像大都屬于RGB顏色空間,該顏色空間主要由三基色組成,分別是紅色、綠色和藍色,因為3種顏色之間的相關性很強,所以沒有辦法對3種顏色進行獨立運算,也就無法實現獨立的圖像分割和處理。Lab顏色空間是CIE(國際照明協會)確定的色彩標準模式,任何圖像的任何顏色都可以在Lab顏色空間中進行表達,Lab顏色空間也是最均勻的顏色空間,與設備沒有關系,非常適合接近自然光照的場合。因此,該文所提出的方法使用Lab顏色空間,并在該顏色空間下對獼猴桃目標圖像進行分割。Lab顏色空間的色域更寬闊、均勻,更接近自然光照,并且各個色域相對獨立,可以更好地對多目標果實進行分割、識別和定位[3]。
Lab顏色空間可以通過XYZ空間進行轉換,主要由3個要素(L、a和b)構成。其中,L表示亮度特征,a和b表示色彩分量,取值范圍為-128~+127。+127a代表紅色,-128a代表綠色,+127b代表黃色,-128b代表黃色。所有的顏色由這3 個值交互變化組成。RGB空間可以通過公式(1)轉換到XYZ顏色空間。
XYZ和Lab顏色空間的轉換如公式(2)、公式(3)所示。
式中:R為RGB顏色空間下的紅色分量,G為RGB顏色空間下的綠色分量,B為RGB顏色空間下的藍色分量;X、Y和Z為3個假想原色的分量;Xn、Yn和Zn為正常光照下的刺激值;f為校正變量;t為校正標量。
將圖像轉換到Lab顏色空間后,就可以利用K-means聚類算法對顏色空間進行聚類分割。
多果實獼猴桃圖像的Lab圖像空間轉換結果如圖1所示。
設樣本集為A={a(1),a(2),…,a(n)}, 每個a(n)∈R(m),R(m)是m維歐式空間。把這一類樣本聚集成K個族類,初始的K個聚類中心定義成{φ(1),φ(2),…,φ(k)},φ(k)∈R(m)。計算每個樣例屬于的類,如公式(4)所示。
式中:a(i)為樣本;φ(j)為類聚中心。
再計算每個類的聚集中心,如公式(5)所示。
式中:j為類聚中心的數量,j為整數。
重復上述過程直至聚類收斂。
初始類聚中心的選擇是改進算法的關鍵,不變矩是表征區域特征重要的參數,用f(x,y)表示流型圖像,r+s(r、s為整數)階矩和中心矩的離散化如公式(6)、公式(7)所示。
式中:p為p數字圖像距和中心距離散化坐標。
圖像比例的變化對圖像有較大的影響,為了避免這樣的影響,可以使用對中心矩進行規格化的方法,如公式(9)所示。
式中:φrs為中心矩的離散化表達式;φ00為中心矩的坐標。
當r+s的值為2或者3時,就可以建立7 個不變矩,這樣就可以消除平移、縮放以及旋轉對圖像的影響。7個不變矩構成一組特征量,具有旋轉、縮放和平移不變性,如公式(10)所示。
式中:I為不變矩。
d(i)的類聚中心如公式(11)所示。
式中:vi為d(i)的類聚中心。
重新計算類聚中心,如公式(12)所示。
公式(12)中的函數h的功能是判斷xi的類別是否屬于j類,如公式(13)所示。
為了提高多目標果實的識別率,該文采用高斯模板進行平滑處理,這樣就可以降低圖像的模糊程度[4],如公式(14)所示。
式中:G為高斯模板。
高斯模板種類多樣,無論哪一種模板都是由(2k+1)×(2k+1)的矩陣I組成,(i,j)位置的元素值由公式(15)決定。
式中:λ為標準差,λ=0.8;k為元素值,常數。
使用該方法可以使同類間像素距離最小,反之則間距離最大[5]。使用該方法對獼猴桃多果實進行處理的結果如圖2所示。由圖2可知,通過該方法可以把圖像分為3類。
為了驗證該文所提出的算法的正確性,隨機選取多幅圖像和其他識別算法進行對比測試。算法基于MATLAB(version2018a8)實現。該文測試了10 幅圖像,選取其中3幅圖像的識別效率。
圖像拍攝裝置主要由機器視覺、輔助補光和電腦3個部分構成,機器視覺裝置為微軟相機,在拍攝過程中可以根據天氣狀況和拍攝時間選擇不同的輔助補光設備。另外,也可以根據光照選擇不同的補光設備。使用數據線將機器視覺拍攝的各種圖像傳輸給電腦。
機器視覺裝置的拍攝的圖像動態分辨率是2304×1728 dpi,最大幀頻是30 fps,使用自動對焦的方式拍攝各種獼猴桃的圖像,圖像格式為jpg格式,圖像的粉綠設置為640×360 pt,傳遞圖像信息的數據線為USB3.0接口。處理圖像的電腦為華為筆記本電腦MateBook14s 2022 英特爾Evo12代酷睿標壓i5 16G 1T/14.2英寸90Hz觸控/高性能輕薄本。輔助光裝置為無級可調光LED影視平板燈,其參數為CM-LED 1200HS,最大照度為1 m 。
由圖3可知,Otsu閾值分割法噪聲大,識別率最低,R-G分割算法雖然識別率提高了,但是噪聲較大,該文所提出的算法的優勢比較明顯,不但識別率進一步提高,而且還很好地控制了噪聲。為了驗證該文所提出的算法的優越性,還對4種算法的識別率和算法執行時間進行了定量分析。
由表1可知,該文所提出的算法的正確平均識別率達到96.95%,比R-分割算法的正確平均識別率80.51%高16.44 %,比Otsu閾值分割算法的正確平均識別率5.39%高91.56 %,比傳統K聚類法的正確平均識別率89.65%高7.3 %。

表1 算法的識別率對比測試結果
該文提出的果實采摘機器人多目標視覺識別方法將試驗的獼猴桃多目標果實從背景中分割出來,從而完成了識別果實的任務,同時運用高新模板和改進K-means聚類算法,這樣就可以避免出現局部最優解的情況。在進行圖像處理前,對圖像進行通道變換,充分利用高斯模板,在RGB 通道下對圖像進行平滑處理,這樣就能保證可以正確識別果實。在 Lab通道下完成了 K-means 聚類,這樣就可以將圖像分為果實、樹葉及其他背景。
該文論述了一種果實采摘機器人多目標視覺識別方法。首先,進行色彩的空間轉換。其次,在傳統K-means多目標識別方法的基礎上對算法進行改進,解決了傳統K-means多目標識別方法存在局部最優解的問題。該文以獼猴桃為例對算法進行驗證,通過與其他算法測試結果進行比較可知,該文所提出的算法在提高果實識別率的同時,還降低了噪聲,具有較大實用價值。