吳華瑞,李慶學,繆祎晟,宋玉玲
基于正則化與時空約束改進K最近鄰算法的農業物聯網數據重構
吳華瑞1,2,李慶學1,2,繆祎晟1,2,宋玉玲3
(1. 國家農業信息化工程技術研究中心,北京 100097;2. 北京農林科學院北京農業信息技術研究中心,北京 100097;3.農業農村部農業物聯網重點實驗室,楊凌 712100)
針對農業復雜環境易發的物聯網感知數據丟失異常問題,該文提出一種基于正則化懲罰的K最近鄰數據重構方法(K nearest neighbor-regularization penalty,KNN-RP),采用嶺回歸方法對最近鄰方法中的最小二乘因子進行正則化,并討論了懲罰項的范數選取形式。通過對農業物聯網感知數據的時空穩定性與相關性分析,確定了時間與空間約束矩陣的定義方式。采用溫室數據樣本對算法性能進行交叉驗證,結果顯示該文的KNN-RP性能在點丟失模型下優于KNN、反距離加權KNN算法以及DT算法,而在塊丟失模型下優于KNN和反距離加權KNN算法,略低于DT算法,提高了農業物聯網的感知數據質量。該研究可為基于物聯網數據的農業生產決策提供參考。
算法;模型;農業物聯網;數據重構;聚類回歸
農業物聯網是進行農業環境感知、生產決策管理與科研分析等的重要數據來源,其數據的精度與質量對研究與決策結果有著重要影響。由于傳感器、網絡鏈路、采集節點等的軟硬件故障難以避免,農業物聯網存在數據錯誤、缺失等問題進而降低感知數據質量[1-4]。農業生產監測中環境復雜惡劣、信道條件復雜與網絡能量受限等條件與特征均會提高數據異常的概率。不僅如此,隨著網絡規模的擴大,其故障出現的頻率也隨之升高[2]。為提高農業物聯網監測數據的完整性與質量,有效的數據重構方法是有待研究解決的關鍵問題。
缺失數據重構方法在許多領域有著重要的作用[5-7]。常見的數據插值重構方法有線性插值法、移動平均法、基于機器學習重構方法與基于壓縮感知的數據重構方法等。線性插值法、移動平均法僅適用于線性度較高數據的重構問題,對于農業環境的高度非線性數據這2類方法重構精度較低。同理,多元回歸法雖然可以實現非線性數據高精度擬合,但隨著數據非線性的提高,該方法的變量數迅速增加,算法復雜度呈指數級增加。基于機器學習的數據重構算法,如K最近鄰(K-nearest neighbor,KNN),delaunay triangulation(DT)以及多通道奇異譜分析。這些方法通常僅適用于少數缺失值場景,當缺失值較多時,該類方法的性能下降明顯[2]。潘立強等[8]將時間估計方法與空間估計方法(multiple regression,MR)相結合,對無線傳感器網絡的感知缺失值進行估計,結果顯示單純的時空估計算法對相對平穩信號的估計精度更高。Kong等[2]提出一種面向高數據丟失率的改進型壓縮感知與重構方法,并從單參數、多參數角度給出了重構精度分析。Sun等[5]提出了一種面向數據塊的稀疏貝葉斯學習算法,利用數據的塊屬性與固有結構重建變換域的CS稀疏系數進而恢復原始信號。Eldar等[9]根據數據塊的相干度量導出了塊稀疏信號的不確定關系,并提出正交匹配追蹤算法的K-稀疏信號重構方法,利用塊稀疏性實現了更好的重構性能。上述研究顯示,單一維度的數據時空關聯插值與重構方法研究已較為充分,但基于多參數間聯系或基于數據塊稀疏的重構方法是目前研究的熱點[10-12]。在基于壓縮感知的數據重構方面也有諸多研究,傳統基于靜態數據的壓縮感知方法難以體現農業物聯網數據的動態變化特征,而動態壓縮感知算法的高復雜度又較難適用于資源受限的農業無線傳感器網絡[1,5,13-16]。
綜上所述,本文結合農業環境數據的時間、空間、參數間關聯特性研究提出一種基于正則化懲罰與時空約束的改進KNN方法,以期提高農業物聯網監測數據的重構準確性。
農業物聯網監測應用多采用無線傳感器網絡(wireless sensor network, WSN)技術,對于WSN數據重構應用場景,一般采用矩陣形式表示重構前后數據,環境參數矩陣(environment matrix, EM)定義為[17-19]

式中為第個節點,為第個時間點。
農業WSN因為軟硬件故障或信道鏈路等問題易出現數據丟失或異常,其中異常數據經異常檢測算法檢出后刪除,也可視為丟失數據一同處理[18]。此時EM矩陣中會出現0值項,則定義數據丟失矩陣(data missing matrix, DMM)表征數據的丟失情況[2,20-21]

則WSN實際采集到的數據可表示為感知矩陣(perception matrix, PM)
P
=
B
.×
Y
(3)
式中.×表示矩陣對應元素相乘。
農業WSN數據重構方法的目標即是要從采集獲得的數據矩陣中恢復出數據矩陣,使其盡可能地接近原始數據矩陣[22-24]。
農業WSN數據采集應用的數據丟失模型主要有其下幾種[2,25]:
1)單點隨機丟失模型
這是最簡單的數據丟失模型。矩陣中的數據是獨立隨機地丟棄的,即丟失的數據點是隨機分布在感知矩陣PM中的。一般WSN的信號噪聲和節點接入碰撞是這種模式的根本原因。
2)塊隨機丟失模型
塊隨機丟失模型表現為感知矩陣PM中存在部分相鄰數據同時丟失的現象,根據丟失數據的相鄰排列維度不同主要可分為空間序列塊丟失、時間序列塊丟失以及參數序列塊丟失模型。
其中時間序列塊丟失模型為某節點的數據在時間序列上出現頻繁丟失,可以表現為持續性丟失和間歇性丟失。在農業WSN應用場景中,不可靠的鏈路是常見的現象,當鏈路質量不好時,感知數據易出現時間序列塊丟失。
空間序列塊模型為某時間節點上相鄰節點的數據一同丟失。農業WSN網絡擁塞是導致高密度多傳感器節點數據丟失的主要原因。
參數序列塊丟失表現為某節點多個參數的同時丟失,農業WSN節點傳感器硬件故障是造成參數序列塊丟失的主要原因。
3)混合丟失模型
在實際應用中一般丟失都由多種因素同時造成,但由于混合模型較為復雜,在具體分析時一般分解為前2種模型進行處理。
本文提出了一種改進的K最近鄰回歸算法以解決農業WSN場景下的缺失數據重構問題。傳統的方法多采用時間、空間的關聯性進行關聯估計,農業場景下的WSN除了上述關聯外,其部分參數還具有顯著的參數間相關性與周期性。因此,本文方法重點從參數間二階相關性方面對KNN算法進行改進。以恢復矩陣與原始矩陣盡可能接近為算法優化目標,即


由于農業環境參數的連續時空特性,農業物聯網數據在時間與空間維度上展現出明顯的相關特性。由圖1可以看出,農業物聯網不同區域節點數據的變化趨勢較為接近,表明WSN節點間參數的高度空間相關性。

圖1 相同時間段不同區域節點的環境溫度折線圖
由圖2可以看出,農業WSN數據的在時間軸上呈現明顯的周期性特征,而且如溫度、濕度、光照強度等幾乎以同一周期進行變化,表明WSN節點間參數的高度時間關聯性。

圖2 同節點多參數周期變化曲線
在KNN算法之中引入最小二乘法作為損失函數,這里最小二乘模型可表示為

對于最小二乘法的損失函數而言,當不是列滿秩,或者某些列之間的線性相關性比較大時,T的行列式接近于0,即為非奇異陣,計算(T)-1時誤差會很大,難以保證有唯一的最優解。嶺回歸是在最小二乘法的基礎上引入懲罰項約束,雖然損失了無偏性,但可獲得較高的數值穩定性與計算精度。具體為將其主對角元素都加上一個常數,可以使矩陣滿秩,滿足最優解求解條件。在訓練數據較少時帶正則化懲罰項的嶺回歸有較好的效果,于是有[29-30]

式(6)較式(5)多出的項即為正則化因子,其中是一個大于零的系數,控制懲罰項的力度。采用2范數作為懲罰項雖然可以保證最優解的唯一性,但得出的解未必是稀疏的,會對KNN算法中的取值造成影響而影響結果的穩定性與可靠性,本文采用2,1范數替代。

2,1范數較好的融合了1范數的稀疏性特點,又擁有了2范數防止損失函數過擬合的特點,較適用于噪聲較大的高維農業WSN數據處理。將式(7)替換式(6)中的2范數,則有

由于式(8)是凸函數,因此,可對w(1≤≤)求導并令其為0,可得


洪子誠先生認為“鏡頭”即詩的意象,從而對北島早期詩歌中的意象群展開分析。他提出了兩組基本的意象群。一個是作為理想世界、人道世界的象征物存在的,如天空、鮮花、紅玫瑰、橘子、土地、野百合等。另一個帶有否定色彩和批判意味,如網,生銹的鐵柵欄,頹敗的墻,破敗的古寺等,“表示對人的正常的、人性的生活的破壞、阻隔,對人的自由精神的禁錮。”[5]北島早期的詩意象的涵義過于確定。到了《觸電》這里,我們會發現其意象的設置與北島早期詩歌有明顯的不同。《觸電》中的意象,如“握手”,所指不明,與日常生活和傳統意象都有距離和阻隔,只給讀者一模糊的感知,卻難以找到詞語明確地與之對應。
將式(9)改變形式可得

基于2,1范數正則化懲罰的KNN算法具體步驟如下:1)將輸入的樣本數據進行歸一化處理;2)按照式(10)對初始陣進行迭代,直至不再變化,此時則為最優的;3)根據式(8)對訓練樣本數據進行測算,得出最佳的值;4)在步驟3)中得出的值基礎上,根據式(8)對測試樣本數據進行測算,得出缺失樣本的估計值。
如前文所述,農業物聯網數據的低秩與時空參關聯特性可為數據重構提供關聯約束,從而進一步提高預測的準確性。由農業物聯網數據的低軼特性可知農業物聯網數據矩陣滿足

式中和均為酉矩陣,則優化目標可轉化為找到一個滿足式(3)的T的使得

式中、均為初等矩陣。
進一步,考慮到農業生產環境的漸變特性,其參數在時間與空間的變化相對穩定,即在相鄰的時間點或相鄰節點間環境參數變化較小[31-32],本文通過數據序列中相鄰節點間的歸一化偏差描述數據序列的穩定性。以環境溫濕度數據為例,其時間序列相鄰數據的歸一化偏差占比如圖3所示,從圖中可以看出,環境溫度序列的相鄰節點歸一化偏差小于0.02的占比超過60%,歸一化偏小于0.04的占比超過90%;對于環境濕度序列,相鄰節點歸一化偏差小于0.02的占比超過95%,由此可以看出農業環境數據序列具有較高的穩定性。
基于農業環境數據的數據序列穩定性特征,本文采用(011)矩陣作為時域穩定性約束,時間約束矩陣捕獲時間穩定性特征,限定了2個連續時隙之間的變化在一小范圍內。時間約束矩陣定義如下。

空間約束矩陣捕獲空間相似性特征,它表征了網絡中一跳鄰居節點之間值的關聯約束。*為行歸一化的得到,定義為

式中N為或的領居節點數量。
將農業物聯網時間與空間約束矩陣代入式(12)可得

式中為約束均衡系數。
將式(15)、(11)代入式(10),則可得到基于農業環境時空約束的正則化回歸KNN方法。
本文在MATLAB環境下對算法的性能進行驗證,選取某溫室的環境數據作為數據建模樣本,采用交叉驗證方法,其中訓練集與測試集之比為4:1。對測試集數據采用數據丟失模型處理后作為重構算法的觀測數據矩陣,利用不同算法從矩陣中恢復得出。對于回歸的評價指標本文選用文獻[2]中重構誤差率(error ratio,ER),定義如下[2]

其中()=0表示只考慮數據丟失條件下的重構誤差。
因農業物聯網中節點碰撞、網絡擁塞等問題多發,易出現短時間內的高數據丟失率現象,為充分體現高丟失率部分的性能變化趨勢,驗證中數據丟失率取值范圍取10%~90%。
在單點隨機丟失模型情形下,通過改變丟失數據的比例得出不同算法對該模型下的數據重構結果,如圖4所示。其中圖4a是農業環境溫度數據重構結果,當數據丟失率為10%時4種算法的重構誤差率均很小,約在1%以內,隨著數據丟失率的提高,數據重構的誤差率也隨之升高,其中KNN的誤差曲線上升最快,KNN-inverse次之,KNN-RP的誤差曲線上升最慢。當數據丟失率增加至40%~50%左右時,不同算法的重構誤差有了較明顯的區別,后續隨數據丟失率的增加,不同算法間性能進一步擴大,90%數據丟失率時,重構誤差率為KNN約70%,KNN-inverse約55%,DT約35%,KNN-RP約20%。圖4b是農業環境濕度數據重構結果,總體趨勢與圖4a類似,與之不同之處在于在低數據丟失率時重構誤差率較環境溫度的偏高,而高數據誤差率時則與環境溫度的結果相仿。環境濕度90%數據丟失率時重構誤差為KNN約80%,KNN-inverse約50%,DT約35%,KNN-RP約18%。DT算法在數據丟失率50%~60%附近出現了重構誤差率的明顯提升,而在60%以上重構誤差增加反而較為平緩。圖4c是農業環境光照數據重構結果,由于光照數據在夜間有較長時段為0值,為客觀體現算法重構性能,在構建環境光照數據集時將夜間連續為0值的數據刪除。如圖4c所示,4種算法從低數據丟失率(10%)時的重構誤差已有較明顯區別,10%數據丟失率時,重構誤差率為KNN約5%,KNN-inverse約14%,DT約8%,KNN-RP約2%,隨著數據丟失率的升高,KNN的重構誤差率迅速升高,而其他3種算法的重構誤差率則上升較緩,甚至DT與KNN-RP算法在數據丟失率60%~70%附近還出現了重構誤差的略微下降。環境光照數據90%丟失率時重構誤差為KNN約80%,KNN-inverse約50%,DT約35%,KNN-RP約20%。

圖4 單點隨機丟失模型下不同算法的重構誤差對比
總體上看在單點隨機丟失模型下,隨著數據丟失率的提高,不同算法的數據重構誤差也隨之升高;在高數據丟失率部分KNN的性能最差,KNN-RP的性能最好。但在低數據丟失率部分,不同算法在不同環境參數下的重構性能有一定區別。分析其可能原因是,對于曲線較為平滑的環境參數采用最鄰近方法的回歸性能較好,而對于局部變化頻繁的環境參數則最鄰近方法會增加不確定性。
按照3.1中同樣方法對塊隨機丟失模型情形進行仿真,由于丟失塊的長度與位置是隨機的,則改變整體數據丟失率對不同算法在塊隨機丟失模型下的重構性能進行對比,如圖5所示。其中圖5a是環境溫度數據重構結果,當數據丟失率為10%時4種算法的重構誤差率均小于10%,隨著數據丟失率的提高,數據重構的誤差也隨之升高,其中KNN的誤差率上升最快,KNN-inverse次之,DT算法的誤差率上升最慢。當數據丟失率增加到90%時,不同算法的重構誤差率為,KNN約90%,KNN-inverse和KNN-RP相當,約為70%,DT約60%,KNN-RP約20%。圖5b是環境濕度數據重構結果,4種算法在重構誤差率均隨數據丟失率的增加單調遞增,環境濕度數據丟失率為10%時,KNN-inverse和KNN-RP算法的重構誤差率約為10%,而KNN和DT算法的重構誤差率均小于10%;環境濕度數據90%丟失率時重構誤差率分別為,KNN約90%,KNN-inverse約72%,DT約58%,KNN-RP約61%。整體上看,對于塊隨機丟失模型下的環境濕度數據而言,KNN的重構誤差率最高,KNN-inverse次之,KNN-RP與DT算法性能相當,KNN-RP重構誤差率略高于DT算法。圖5c是環境光照數據重構結果,對于光照數據0值處理方式同3.1節單點丟失模型,光照數據丟失率10%時,重構誤差率最高的KNN-inverse接近20%,其次是DT算法約10%,再是KNN約5%,KNN-RP略低于KNN;隨著數據丟失率的升高,KNN與KNN-RP的重構誤差率呈明顯單調遞增趨勢,KNN-inverse的重構誤差率呈階梯狀變化,DT算法在丟失率大于50%后重構誤差率出現波動變化,光照數據90%丟失率時重構誤差為KNN約78%,KNN-inverse約47%,DT約36%,KNN-RP約60%。整體上,對于同樣的數據丟失率情形,塊丟失的數據重構性能要低于單點隨機丟失情形,由于KNN及其改進算法較為依賴關聯度最高的節點信息,而塊丟失會導致最高關聯數據點缺失的比例提高。而DT算法在塊隨機丟失場景下表現的性能要優于其他3種算法。從算法復雜度的角度而言,KNN算法的時間復雜度為()[3,5,8],KNN-inverse只是改變了KNN算法的距離計算方法,時間復雜度也為(),DT算法通過增量計算提高精度,其時間復雜度也隨之提高為(lg)[2-5],對于KNN-RP算法而言,由于式(10)中存在矩陣相乘、求逆運算,所以其算法復雜度應為(3)。

圖5 塊隨機丟失模型下不同算法的重構誤差對比
為進一步分析值選擇對于算法重構性能的影響,本文以KNN-RP算法在單點隨機丟失模型下數據丟失率為40%情形下為例,通過改變值對比數據重構的誤差。如圖6所示,KNN-RP算法的重構誤差隨值的增大呈現先減小后增大的趨勢。

圖6 單點隨機丟失模型40%數據丟失率時K值對KNN-RP算法重構誤差的影響
對于環境溫度數據,重構誤差總體隨值變化較小,在取2時算法重構誤差約為7%,重構誤差隨值增大而下降,當取8時誤差降到最低約4%,隨后重構誤差隨值增大而逐漸增大,當取14時誤差增大為約5%。對于環境濕度數據,在取2時算法重構誤差約為19%,重構誤差隨值增大而下降,當取8時誤差降到最低約6%,隨后重構誤差隨值增大基本穩定,略有增加。對于環境光照數據,在取2時算法重構誤差約為8%,重構誤差隨值增大而下降,當取6時誤差降到最低約4%,隨后重構誤差隨值增大而迅速增大,當取14時誤差增大為約15%。從結果中可以看出,的取值對于KNN-RP算法有顯著影響,對于數據變化較穩定的環境溫度而言,重構誤差受值的影響相對較小,而對于變化較明顯的環境濕度與光照數據而言,重構誤差受值的影響相對較大,總體上對于溫度、濕度和光照3種環境參數而言,最優的值在6~8之間。
本文提出一種基于正則化懲罰的KNN重構方法,利用農業物聯網數據的時空穩定性與相關性等特點建立關聯約束對損失函數進行修正。通過對農業物聯網監測數據在不同數據丟失模型下的進行了重構測試。試驗結果證明,本文方法對于單點隨機丟失模型的重構性能較好,而對于塊隨機丟失模型高數據丟失率情形其重構性能低于DT算法,整體上本文方法具有較高的準確性和穩定性,實現了農業復雜環境下物聯網異常數據的有效重構,提高了數據質量與可信度。
對于塊丟失模型中丟失率60%以上時KNN-RP重構性能不佳的問題,后續考慮結合長短期記憶模型,保證數據間關聯約束的穩定。而且,本文中對于異常數據僅考慮了數據缺失與錯誤的類型,并未將數據噪聲納入分析,后續考慮引入數據噪聲使得結果更加接近于實際數據環境,此外考慮通過矩陣降維等方式降低KNN-RP算法的時間復雜度也是后續需要研究解決的問題之一。
[1] Jesus G, Casimiro A, Oliveira A. A survey on data quality for dependable monitoring in wireless sensor networks[J]. Sensors, 2017, 17(9): 2010.
[2] Kong L, Xia M, Liu X Y, et al. Data loss and reconstruction in wireless sensor networks[J]. IEEE Transactions on Parallel & Distributed Systems, 2014, 25(11): 2818-2828.
[3] 段青玲,肖曉琰,劉怡然,等.基于改進型支持度函數的畜禽養殖物聯網數據融合方法[J]. 農業工程學報,2017,33(增刊1):239-245.
Duan Qingling, Xiao Xiaoyan, Liu Yiran, et al. Data fusion method of livestock and poultry breeding internet of things based on improved support function[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(Supp.1): 239-245. (in Chinese with English abstract)
[4] Chen S, Zhao C, Wu M, et al. Compressive network coding for wireless sensor networks: Spatio-temporal coding and optimization design[J]. Computer Networks, 2016, 108: 345-356.
[5] Sun J, Yu Y, Wen J. Compressed-sensing reconstruction based on block sparse bayesian learning in bearing- condition monitoring[J]. Sensors, 2017, 17(6): 1454.
[6] Wu H, Suo M, Wang J, et al. A holistic approach to reconstruct data in ocean sensor network using compression sensing[J]. IEEE Access, 2018, 6(99): 280-286.
[7] Jayawardhana M, Zhu X, Liyanapathirana R, et al. Compressive sensing for efficient health monitoring and effective damage detection of structures[J]. Mechanical Systems & Signal Processing, 2017, 84: 414-430.
[8] 潘立強,李建中,駱吉洲. 傳感器網絡中一種基于時-空相關性的缺失值估計算法[J]. 計算機學報,2010,33(1):1-11.
Pan Liqiang, Li Jianzhong, Luo Jizhou. A temporaland spatial correlation based missing values imputational gorithm in wireless sensor networks[J]. Chinese Journal of Computers, 2010, 33(1): 1-11. (in Chinese with English abstract)
[9] Eldar Y C, Kuppinger P, Bolcskei H. Block-sparse signals: uncertainty relations and efficient recovery[J]. IEEE Transactions on Signal Processing, 2010, 58(6): 3042-3054.
[10] Morell A, Correa A, Barceló M, et al. Data aggregation and principal component analysis in WSNs[J]. IEEE Transactions on Wireless Communications, 2016, 15(6): 3908-3919.
[11] Ghazanfari-Rad S, Labeau F. Formulation and analysis of lms adaptive networks for distributed estimation in the presence of transmission errors[J]. IEEE Internet of Things Journal, 2017, 3(2): 146-160.
[12] Tan L, Wu M. Data reduction in wireless sensor networks: A hierarchical LMS prediction approach[J]. IEEE Sensors Journal, 2016, 16(6): 1708-1715.
[13] Argyriou A, ?zgü Alay. Distributed estimation in wireless sensor networks with an interference canceling fusion center[J]. IEEE Transactions on Wireless Communications, 2016, 15(3): 2205-2214.
[14] Wu M, Tan L, Xiong N. Data Prediction, Compression, and Recovery in Clustered Wireless Sensor Networks for Environmental Monitoring Applications[M]. New York: Elsevier Science Inc. 2016.
[15] Miranda K, Ramos V. Improving data aggregation in wireless sensor networks with time series estimation[J]. IEEE Latin America Transactions, 2016, 14(5): 2425-2432.
[16] 江冰,毛天,唐大衛,等.基于農田無線傳感網絡的分簇路由算法[J]. 農業工程學報,2017,33(16):182-187.
Jiang Bing, Mao Tian, Tang Dawei, et al. Clustering routing algorithm based on farmland wireless sensor network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(16): 182-187. (in Chinese with English abstract)
[17] Xu X. Data Approximation for time series data in wireless sensor networks[J]. International Journal of Data Warehousing and Mining, 2016, 12(3): 1-13.
[18] Morell A, Correa A, Barceló M, et al. Data aggregation and principal component analysis in WSNs[J]. IEEE Transactions on Wireless Communications, 2016, 15(6): 3908-3919.
[19] Panigrahi T, Panda M, Panda G. Fault tolerant distributed estimation in wireless sensor networks[J]. Journal of Network & Computer Applications, 2016, 69(C): 27-39.
[20] Li X, Tao X, Mao G. Unbalanced expander based compressive data gathering in clustered wireless sensor networks[J]. IEEE Access, 2017, 5(99): 7553-7566.
[21] Yan W, Dong Y, Zhang S, et al. An optimal CDG framework for energy efficient WSNs[J]. Chinese Journal of Electronics, 2017, 26(1): 137-144.
[22] Klis R, Chatzi E N. Vibration monitoring via spectro-temporal compressive sensing for wireless sensor networks[J]. Structure & Infrastructure Engineering, 2016, 13(1): 195-209.
[23] Chen X, Yin X, Yu B, et al. Communication channel reconstruction for transmission line differential protection: System arrangement and routing protocol[J]. Energies, 2016, 9(12): 893.
[24] Wang T Y, Yang M H, Wu J Y. Distributed detection of dynamic event regions in sensor networks with a gibbs field distribution and gaussian corrupted measurements[J]. IEEE Transactions on Communications, 2016, 64(9): 3932-3945.
[25] Zhu X F, Huang Z, Yang Y, et al. Self-tau-ght dimensionality reduction on the high-dimensional small-sized data[J]. Pattern Recognition, 2013, 46(1): 215-229.
[26] 龔永紅,宗鳴,朱永華,等. 基于混合模重構的kNN回歸[J]. 計算機應用與軟件,2016(2):232-236.
Gong Yonghong, Zong Ming, Zhu Yonghua, et al. Knn regression based on mixed-norm reconstruction[J]. Computer Applications & Software, 2016(2): 232-236. (in Chinese with English abstract)
[27] Geeta D D, Nalini N, Biradar R C. Fault tolerance in wireless sensor network using hand-off and dynamic power adjustment approach[J]. Journal of Network & Computer Applications, 2013, 36(4): 1174-1185.
[28] Qaisar S, Bilal R M, Iqbal W, et al. Compressive sensing: From theory to applications, a survey[J]. Journal of Communications & Networks, 2013, 15(5): 443-456.
[29] Park H, Kim B S, Kim K H, et al. A tree based broadcast scheme for (m,k)-firm real-time stream in wireless sensor networks[J]. Sensors, 2017, 17(11): 2578.
[30] Park J, Bok K, Seong D, et al. A data gathering method based on a mobile sink for minimizing the data loss in wireless sensor networks[J]. International Journal of Distributed Sensor Networks, 2014, 2014(5): 242.
[31] Nguyen N T, Pham V T, Pham V T, et al. On maximizing the lifetime for data aggregation in wireless sensor networks using virtual data aggregation trees[J]. Computer Networks the International Journal of Computer & Telecommunications Networking, 2016, 105(C): 99-110.
[32] Zhu L, Huang Z, Liu Y, et al. The Nonparametric Bayesian dictionary learning based interpolation method for WSNs missing data[J]. AEU-International Journal of Electronics and Communications, 2017, 79: 267-274.
Agricultural internet of things data reconstruction based on K-nearest neighbor reconstruction algorithm improved by regularization penalty and spatio-temporal constraints
Wu Huarui1,2, Li Qingxue1,2,Miao Yisheng1,2, Song Yuling3
(1.100097; 2.100097; 3.712100,)
The internet of things (IoT) technology has been widely applied in the agriculture production monitoring. Accurate decision-making and environment regulation can be made based on monitoring results. However, data loss in agriculture wireless sensor networks is common due to noise, collision, unreliable link, and unexpected damage, which greatly reduces the quality of data acquisition and then affects the results of decision analysis. In order to solve this problem, this paper proposed a data reconstruction method based on K nearest neighbor with regularization penalty constraints (KNN-RP). Firstly, the ridge regression method was used in order to regularize the least square factor. Secondly, there was a problem that it is difficult to get a unique solution due to the algorithmic error while the data matrix is not full-column rank. This could be improved by introducing a penalty term into the method. The combination of 1-norm and 2-norm could ensure the sparsity of the matrix as well as prevent the loss function from over-fitting. It is suitable for high-dimensional agricultural WSN (wireless sensor network) data reconstruction with high noise. Furthermore, the definition of time and space constraint matrix was determined according to the temporal and spatial stability of perceptual data in agricultural IoT. Finally, thevalue was determined by model training to achieve the better reconstruction performance. A cross-validate experiment was done to evaluate the algorithm performance according to the greenhouse data samples. KNN (K nearest neighbor), KNN-inverse and DT (delaunay triangulation) algorithms were chosen for the performance comparison. In the element random loss case, the overall reconstruction error rate of the 4 algorithms increased with the increasing of data loss rate. The KNN and KNN-inverse had higher error rate when the data loss rate above 60% compared with the other 2 algorithms. Besides, the performance of KNN-RP was superior to the DT algorithm in both high and low data loss rates. In the block loss case, the reconstruction error rates of the 4 algorithms were close to the element random loss case, but reconstruction error rates increased faster than the element random loss case while the data loss rate increased. In the block loss case, the overall performance of KNN-RP was better than KNN and KNN-inverse, but lower than that of DT algorithm when the data loss rate was above 60%. Thevalue had a significant influence on the performance of KNN-RP. The reconstruction error of KNN-RP decreased first and then increased with the increasing ofvalue. For the stable parameter like temperature, the reconstruction error rate was less affected byvalue. On the contrast, the reconstruction error rates of humidity and lightness data were more affected byvalue. The reason maybe the humidity and lightness data changed faster than temperature. Considering all 3 parameters, temperature, humidity and lightness, the optimalvalue was between 6 and 8. In summary, KNN-RP algorithm could effectively reconstruct the missing errors in the agricultural IoT, especially in element random loss case. The proposed algorithm improves the quality of perceptual data in agricultural IoT monitoring and may provide reference for agricultural production decision-making.
algorithms; models; agricultural internet of things; data reconfiguration; cluster regression
2018-11-29
2019-06-20
國家自然科學基金項目(61871041, 61571051);北京市自然科學基金項目(4172024, 4172026);農業農村部農業物聯網重點實驗室開放課題(2018AIOT-06)
吳華瑞,研究員,主要從事農業智能系統與物聯網研究。Email:wuhr@nercita.org.cn
李慶學,助理研究員,主要從事農業物聯網與智能系統研究。Email:liqx@nercita.org.cn
10.11975/j.issn.1002-6819.2019.14.023
TN919
A
1002-6819(2019)-14-0183-07
吳華瑞,李慶學,繆祎晟,宋玉玲.基于正則化與時空約束改進K最近鄰算法的農業物聯網數據重構[J]. 農業工程學報,2019,35(14):183-189. doi:10.11975/j.issn.1002-6819.2019.14.023 http://www.tcsae.org
Wu Huarui, Li Qingxue, Miao Yisheng, Song Yuling. Agricultural internet of things data reconstruction based on K-nearest neighbor reconstruction algorithm improved by regularization penalty and spatio-temporal constraints[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(14): 183-189. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.14.023 http://www.tcsae.org