

摘要:構建植被覆蓋度模型是運用數學算法對作物群體監控系統中采集的數據進行處理的一種數學方法,常用的構建模型主要有KNN、樸素貝葉斯、Kmeans等。介紹3種模型在提取植被覆蓋度運用的相關理論,以期為作物群體監控系統應用提供算法基礎。
關鍵詞:植被覆蓋度;構建模型;KNN;樸素貝葉斯;Kmeans
中圖分類號:TP183 ? ?文獻標識碼:A ? ?文章編號:1674-1161(2023)03-0038-02
在電子信息技術飛速發展的背景下,作物群體監控系統成為當下農業科研的熱點,該系統可以服務精細化農業,準確了解作物生長狀況,實現對作物生長發育的控制,對提高作物產量和質量具有重要意義[1]。作物群體監控系統主要通過無人機搭載高光譜成像設備采集水稻圖像數據,截取部分圖像進行預處理、樣本擴展庫構建和圖像分割,最后構建植被覆蓋度模型。構建植被覆蓋度模型是運用數學算法對作物群體監控系統中采集的數據進行處理的一種數學方法,常用的構建模型主要有KNN、樸素貝葉斯、Kmeans等。介紹3種模型在提取植被覆蓋度運用的相關理論,以期為作物群體監控系統應用提供算法基礎。
1 KNN模型構建
KNN訓練算法是一種基本的實例分類訓練算法。該算法假設已成功給定了一個被稱為分類訓練且類別已確定的實例數據集,在實例分類時新加入一個實例,依照其中k個最近相鄰的訓練學習實例類別,通過多數實例組合進行表決等多種手段,對其類型進行綜合預測。因此,KNN算法并沒有必要提供顯式的自動機器深度學習計算過程,它實際上是利用訓練數據集對特征向量空間進行劃分,并作為其分類模型[2]。
1.1 KNN算法原理
KNN數值模型的3個重要基礎性設計要素分別是k值的正確選取、距離值的衡量及分類決策準則。當k值三要素均已確定時,對于任何新的輸入實例,其所屬的類都是唯一可以被確定的,即可以依照要素把特征空間分割成幾組子空間,確定各子空間中每一點都所屬的子空間類。
1.2 基于KNN距離度量
在一個特征數據空間中兩個不同實例的點之間的數據距離值,也就是兩個不同實例的點之間的數據相似性不同程度的反映。例如,KNN模型的向量特征實數空間為三維的向量實數空間時,使用的空間距離計算公式為歐式空間距離,其距離公式為
[L2(xi,xj)=(l=13|x(l)i-x(l)j|2)12] ? ? ? ? ? ? ? ?(1)
1.3 k值的選擇
k值不同,KNN模型得到的結果也會有很大差異。當給定的k值較小時,相當于使用較小的鄰域中輸入訓練過程實例的值來對其結果進行模擬預測,學習時的近似和模擬誤差也同樣會逐漸減小,只有和輸入的一個訓練過程實例較近的一個輸入訓練過的實例,才真正能夠對我們預測的學習結果有效。k值降低代表著整個系統模型的擬合設置過程變得更加復雜,極易產生過擬合現象。當給定的k值較大時,相當于對較大鄰域內部智能訓練過程實例的一個數據模型進行了數值預測,此時的優點是可以大幅降低根據學習公式估算時的誤差,缺點是根據學習公式估算的近似度和誤差將會逐漸加大。k值增大意味著整個模型中的整體設計變得更加簡單。
1.4 KNN模型構建過程
1) 計算每個已分好類的點與待測點的歐式距離;2) 把各點到待測點的距離按從小到大進行排序;3) 根據給定的k值選擇距離最小的k個點;4) 觀察k個點所代表類別的各自出現次數;5) 取出出現次數最多的點的類別,并把待測點歸為這一類別。
2 樸素貝葉斯模型構建
樸素貝葉斯模型是基于貝葉斯定理及其樸素特征符合條件的幾個獨立基本假設而逐步提出來的。該屬性計算簡化方法以貝葉斯算法模型為理論基礎,對屬性彼此獨立的計算目標和取值函數進行簡化,沒有任何一個屬性變量對其所需占據的決策過程結果的影響比重很大,也沒有任何一個屬性變量對它所需要占據的決策過程結果的影響比重很小。
2.1 構建算法
對于給定的訓練數據集,首先做出條件獨立的假設,得到輸入和輸出的聯合概率分布;然后在此模型基礎上給出輸入x,利用貝葉斯定理求出后每個分類的后驗概率,選出其中最大者作為輸出y[3]。
樸素貝葉斯方法主要是通過對聯合訓練的多個數據模型進行聯合學習分析來幫助理解的一種聯合概率分布方法。先驗概率分布
P(Y = ck) , k = 1,2,...,K ? ? ? ? ? ? ? ? ?(2)
條件概率分布
P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck ),k=1,
2,...,K ? ?(3)
樸素貝葉斯法就條件概率分布公式做出了保持條件概率獨立性的基本假設,這種算法其實是比較強烈的數學假說,樸素貝葉斯法因之得名。具體來說,條件獨立性可以用一種假設性來表示
P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck )
=ΠP(X(j)=x(j)|Y=ck) ? ? ? (4)
樸素貝葉斯分類時,對給定的輸入x,通過這個學習過程得到的樸素模型可用來直接計算后驗概率分布P(Y=ck|X=x),將后驗概率最大的類作為x的類輸出。
2.2 樸素貝葉斯分類流程
2.2.1 準備工作階段 根據具體情況確定特征屬性并適當劃分,再由人工將待分類項分類,形成訓練樣本集合。準備工作流程是該方法唯一通過人工分類的流程,對后續樣本分類質量起到至關重要的作用
2.2.2 分類器訓練階段 將特征屬性和訓練樣本輸入,根據輸入數據計算每個特征屬性劃分對每個類別的條件概率預估以及每個類別在訓練樣本中出現的頻率,記錄并輸出分類器。
2.2.3 應用階段 應用第二階段分類器對待分類項分類,輸出待分類項和類別的映射關系。
3 Kmeans模型構建
Kmeans是一種非監督學習、面向聚類函數的算法,其算法設計思路是當k被賦予特定值、使用原始群集中心點時,每個點(或數據記錄)將被劃分為離其最近群集中心所代表的群集。定義所有群體類集中的中心點后,再次遍歷所有的點,計算下一次聚類中心(就是取點的平均值),然后對其他點進行一個替換點并分配中心點和迭換替代點并更新一個群集內的所有點的替換步驟,直到1 個群集內所有點的變化很小或能重新達到指定的迭代次數[4]。
3.1 算法流程
1) 鑒于k值未知,故先給定k值,即聚類后得到的k個簇;2) 遍歷所有數據,在其中隨機選中k個數據點作為聚類中心點,即每個簇的中心;3) 通過計算每個點與聚類中心點的歐式距離,比較所有距離的大小,取最小距離并將點歸入此集合內;4) 把所有數據回歸到最優集合(包含 k 個集合),對各集合重新求解,再對其中的質心進行求解;5) 如果計算聚類得到的質心與原始質心之間穩定距離遠遠小于某個點設置的質心閾值,則意味著重新計算的質心在此位置上已變化不大且趨于穩定(稱為收斂),此時可直接確定該質心聚類已達到期望的閾值結果,算法可能會被自動終止;6) 若新的聚類中心點與原來的中心點之間距離變化很大,則需替換3~5 個步驟。
3.2 數學原理
將Kmeans算法原理用數學公式表示:假設集合劃分成k個,標記為(C1,C2,...CK),則得到的最小化平方誤差E為
[E=i=1kx∈Ci||x-μi||22] ? ? ? ? ? ? ? ? ? ? ? ? (5)
式中,μi是集合Ci的平方均值向量,也稱為質心,其表示方法為:
[μi=1Cix∈Cix] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)
優點:1) Kmeans是最簡單的聚類算法,實現起來較為容易且速度較快;2) 當聚類得到的集合均較密集且每個集合之間的差異較大,則該模型實現得較好;3) 該算法需確定的參數很少,只有集合個數k值。
缺點:1) k值未知,需人為設定,但通常情況下確定k值很難;2) Kmeans聚類算法對聚類開始的中心點選取要求很高,不同隨機點直接獲得的初始聚類選擇結果截然不同,故對其聚類結果產生極大影響;3) 通過迭代方式得到的解,有極大可能會得到局部最優解,但無法得到全局最優解,從而為模型構建帶來很大誤差,影響真實效果。
參考文獻
[1] 呂霞,馬向陽,冮地,等.基于水稻群體監控系統的植被覆蓋度模型對比研究[J].農業科技與裝備,2022(1):47-48.
[2] 劉文斌,張樂.基于KNN的卷積神經網絡改進算法[J].信息與電腦(理論版),2019(2):48-49.
[3] 李濤.多源傳感器數據融合及其在目標檢測中的應用[D].成都:電子科技大學,2015.
[4] 鐘穗希,李子波,唐榮年.基于PCA-Kmeans聚類法的橡膠樹葉片氮含量的近紅外高光譜診斷模型研究[J].海南大學學報(自然科學版),2020,38(3):260-269.
Theoretical Research on the Construction of Three Planting Coverage Models
L? Xia
(Liaoning Institute of Agricultural Mechanization, Shenyang 110161, China)
Abstract: The construction of vegetation coverage model is a mathematical method that uses mathematical algorithms to process the data collected in crop population monitoring system. The commonly used construction models mainly include KNN, Naive Bayes, Kmeans, etc. This paper introduced the relevant theories of the application of the three models in the extraction of vegetation coverage, so as to provide the algorithm basis for the application of crop population monitoring system.
Key words: vegetation coverage; construct model; KNN; Naive Bayes; Kmeans