999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

RFID數(shù)據(jù)清洗技術(shù)研究進展

2022-12-19 03:00:00樂嘉錦
計算機與生活 2022年12期
關(guān)鍵詞:方法

王 健,樂嘉錦

1.河南財經(jīng)政法大學(xué) 計算機與信息工程學(xué)院,鄭州 450046

2.東華大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,上海 201620

無線射頻識別(radio frequency identification,RFID)技術(shù)具有非接觸識別、穿透力強、識別速度快、自動檢測、節(jié)省人力等眾多優(yōu)點,已經(jīng)廣泛應(yīng)用于一些需要采集[1]、監(jiān)控[2]或追蹤[3]信息的領(lǐng)域中,例如倉儲物流運輸、門禁考勤、固定資產(chǎn)管理、車輛識別、行李安檢、醫(yī)療信息追蹤、軍事國防安全等[4]。伴隨著廣泛應(yīng)用而來的是對高數(shù)據(jù)質(zhì)量的迫切需求。

盡管RFID 具有很多優(yōu)點,但是在面對水和金屬時穿透能力相對較弱,易受無線電信號干擾,這種情況下RFID標簽的識別準確率就大大降低,造成數(shù)據(jù)的不可靠性[5]。另外,RFID 標簽的長期停留、多讀寫器的部署、為提高識別率而采取的多個同一標簽的粘貼,在系統(tǒng)采集數(shù)據(jù)[6]時也會造成數(shù)據(jù)的冗余。在數(shù)據(jù)傳輸過程中,由于網(wǎng)絡(luò)延遲等因素,收集到的數(shù)據(jù)還會產(chǎn)生亂序的問題。因此,RFID 數(shù)據(jù)的不可靠性主要包含數(shù)據(jù)的漏讀、多讀/交叉讀、冗余、亂序等[7]。如果應(yīng)用端直接使用RFID原始數(shù)據(jù),會造成很多問題。因此,預(yù)處理系統(tǒng)一般會對RFID原始數(shù)據(jù)進行清洗,以提高RFID數(shù)據(jù)的質(zhì)量。

在對RFID 原始數(shù)據(jù)清洗的過程中,存在著很多的挑戰(zhàn)。這些挑戰(zhàn)一般是由RFID 數(shù)據(jù)流的特點和應(yīng)用端的需求帶來的[8]。RFID數(shù)據(jù)是突發(fā)產(chǎn)生的,因此造成的挑戰(zhàn)之一是其產(chǎn)生和到達速度快。只要RFID 數(shù)據(jù)在采集設(shè)備(讀寫器)的讀寫范圍內(nèi),就會產(chǎn)生數(shù)據(jù),造成的挑戰(zhàn)之二是數(shù)據(jù)流的總量是無限的。由于RFID 數(shù)據(jù)在傳輸過程中遇到不同的網(wǎng)絡(luò)狀況,造成的挑戰(zhàn)之三是數(shù)據(jù)到達次序不受應(yīng)用約束。查詢等應(yīng)用一般在內(nèi)存中完成,且內(nèi)存容量有限,造成的挑戰(zhàn)之四是除非刻意保存,一般每個數(shù)據(jù)只處理一次。RFID標簽一般貼于位置經(jīng)常變動的物品上,造成的挑戰(zhàn)之五是數(shù)據(jù)時效性強,必須在很短時間內(nèi)處理。

RFID 數(shù)據(jù)清洗一度成為最流行的研究熱點之一,研究者們從各個方面出發(fā),提出了許多高質(zhì)量的方法。為了方便廣大研究者借鑒和使用相關(guān)方法,很有必要對RFID 數(shù)據(jù)清洗技術(shù)進行綜述。文中介紹了RFID 數(shù)據(jù)清洗問題的描述,給出了RFID 數(shù)據(jù)清洗研究的挑戰(zhàn),整理了典型的數(shù)據(jù)集和評價標準,梳理了現(xiàn)有的RFID數(shù)據(jù)清洗技術(shù),并從漏讀數(shù)據(jù)處理[9-10]、多讀數(shù)據(jù)處理[9]、冗余數(shù)據(jù)處理[9]、亂序數(shù)據(jù)處理[11]、RFID 系統(tǒng)應(yīng)用[9-10]等方面對RFID 數(shù)據(jù)清洗技術(shù)的現(xiàn)有工作進行了詳細的歸納和總結(jié),最后對RFID數(shù)據(jù)清洗上可能的研究方向進行了展望。

1 RFID系統(tǒng)與數(shù)據(jù)清洗問題描述

1.1 RFID系統(tǒng)

RFID 系統(tǒng)通常包含以下幾部分:RFID 標簽、RFID 讀寫器、RFID 中間件和后端應(yīng)用系統(tǒng)[12]。其中,RFID標簽由芯片和標簽天線或線圈組成,通過電感耦合或電磁反射原理與讀寫器進行通信。RFID讀寫器是讀取/寫入標簽信息的設(shè)備。天線可以內(nèi)置在RFID讀寫器中,也可以通過同軸電纜與RFID讀寫器天線接口相連。RFID 中間件負責(zé)數(shù)據(jù)清洗[13-14]和復(fù)雜事件處理等工作。圖1為RFID系統(tǒng)的示意圖。

圖1 RFID系統(tǒng)Fig.1 RFID system

RFID 標簽分為三種類型:無源標簽、半無/有源標簽和有源標簽[15]。其中源的含義是供電電源,這種電源一般具有體積小、使用時間長等特點。

RFID技術(shù)的基本原理是:無源標簽進入RFID讀寫器的讀寫范圍內(nèi)時,接收讀寫器發(fā)出的電磁信號,接著自身產(chǎn)生感應(yīng)電流,然后憑借感應(yīng)電流產(chǎn)生的能量將存儲于芯片上的信息傳遞給讀寫器;若為有源標簽,其不需要借助讀寫器的信號來產(chǎn)生能量,因為其自身帶有電源,所以它會主動發(fā)出某一頻率的電磁波,這樣讀寫器讀取電磁波并解碼,然后送到中央系統(tǒng)進行后續(xù)的數(shù)據(jù)處理,最后將信息傳遞給用戶或者應(yīng)用系統(tǒng)[7]。

1.2 RFID數(shù)據(jù)清洗問題描述

RFID 數(shù)據(jù)清洗問題主要包括數(shù)據(jù)的漏讀、數(shù)據(jù)的多讀、數(shù)據(jù)的冗余、數(shù)據(jù)的亂序等。下面給出相關(guān)定義與描述。

定義1(數(shù)據(jù)的漏讀) 也稱假陰性讀數(shù)(false negative readings)[16-18],是指某個或者某些標簽實際上已經(jīng)處于RFID讀寫器的讀取范圍內(nèi),但是讀寫器卻沒有產(chǎn)生相應(yīng)時間點或者時間段的有關(guān)此標簽的數(shù)據(jù)。在RFID數(shù)據(jù)采集過程中,漏讀是一個常見的現(xiàn)象。產(chǎn)生漏讀的原因有:(1)當(dāng)許多標簽同時被讀寫器探測到的時候,無線電波的沖突和信號的干擾經(jīng)常出現(xiàn),因此干擾了讀寫器識別任何一個標簽;(2)水、金屬或者無線電波的干擾。現(xiàn)有的研究與實驗表明,在部署有RFID 設(shè)備的應(yīng)用中,電子標簽的識別率通常在60%到70%之間,即超過30%的數(shù)據(jù)被常規(guī)地丟棄掉。圖2 給出了一個數(shù)據(jù)漏讀的示意圖。在一個貨架上放滿了帶有標簽的物品,RFID 讀寫器讀取到了大部分標簽的數(shù)據(jù),只有個別數(shù)據(jù)沒讀到,這就是RFID數(shù)據(jù)漏讀現(xiàn)象。

圖2 RFID數(shù)據(jù)的漏讀示意圖Fig.2 Example of RFID false negative readings

定義2(數(shù)據(jù)的多讀) 也稱假陽性讀數(shù)(false positive readings)、交叉讀(cross readings)或噪聲(noise)[16-17],是指RFID 讀寫器不僅讀取到了期望的標簽,而且也讀取到了不期望的標簽。這種現(xiàn)象可以歸結(jié)于以下幾種形式:(1)位于RFID 正常讀取范圍之外的標簽被讀取到。比如,當(dāng)在采集一個箱子內(nèi)的標簽數(shù)據(jù)過程中,讀寫器可能從鄰近的箱子內(nèi)讀到了標簽。(2)讀寫器所處環(huán)境中的不確定因素,比如,某讀寫器產(chǎn)生并傳送非其探測范圍內(nèi)的標簽中的數(shù)據(jù)。圖3 給出了一個數(shù)據(jù)多讀的示意圖。交叉區(qū)域內(nèi)被兩個讀寫器都捕捉到的數(shù)據(jù)稱為多讀數(shù)據(jù)(交叉讀數(shù)據(jù))。

圖3 RFID數(shù)據(jù)的多讀示意圖Fig.3 Example of RFID false positive readings

定義3(數(shù)據(jù)的冗余) 英文為duplicated readings[16-17],是由以下幾種原因引起的:(1)標簽在一個讀寫器探測范圍內(nèi)停留很長時間,被讀寫器讀取了許多次;(2)在一個大的區(qū)域或者長距離的范圍內(nèi)部署了多個RFID讀寫器,位于讀寫器重疊區(qū)域的標簽被讀取了多次;(3)為了提高讀取精度,許多帶有同一標識的標簽粘貼于同一物品上,因此產(chǎn)生冗余現(xiàn)象。圖4給出一個數(shù)據(jù)冗余的示意圖。該圖含義是某個帶有RFID標簽的數(shù)據(jù)在不同的n個狀態(tài)(比如不同位置、不同讀寫器讀寫)下產(chǎn)生了多個讀數(shù),但是每個狀態(tài)下有許多冗余,只有每個狀態(tài)的第一個數(shù)據(jù)是有效的數(shù)據(jù),其他的讀數(shù)可以丟棄。

圖4 RFID數(shù)據(jù)的冗余示意圖Fig.4 Example of RFID duplicated readings

定義4(數(shù)據(jù)的亂序) 英文為out-of-order readings[11]。由于不同網(wǎng)絡(luò)傳輸中的延遲、擁塞等情況,讀寫器在工作過程中生成的原本產(chǎn)生時間戳較早但到達時間戳較晚或者原本產(chǎn)生時間戳較晚但到達時間戳較早等非順序到達。圖5 給出了一個數(shù)據(jù)亂序的示意圖。該圖含義是在t+1 到t+8 時刻數(shù)據(jù)1到8 依次產(chǎn)生,然而由于網(wǎng)絡(luò)延遲等原因經(jīng)過一定的傳輸時間,其到達次序就變得與產(chǎn)生次序完全不一樣。

圖5 RFID數(shù)據(jù)的亂序示意圖Fig.5 Example of RFID out-of-order readings

定義5(RFID 數(shù)據(jù)清洗) 是對讀寫器在工作過程中產(chǎn)生的漏讀、多讀、冗余讀、亂序到達數(shù)據(jù)進行填補、去偽存真、約減、排序等工作的過程。

2 研究挑戰(zhàn)

RFID 數(shù)據(jù)屬于流數(shù)據(jù)中的一種,其具有流數(shù)據(jù)的特點[8],這些特點也就形成了若干研究挑戰(zhàn)。下面介紹一下比較重要的挑戰(zhàn)。

研究挑戰(zhàn)1:數(shù)據(jù)源源不斷產(chǎn)生,規(guī)模之大難以數(shù)計。由于RFID 技術(shù)為感知識別,在RFID 讀寫器開啟的情況下,瞬間可以采集多次,比如1 s可以采集1 000次。同時RFID讀寫器是分布式部署的,這樣同時采集多個帶有RFID標簽的物品,會形成猶如洪水般的數(shù)據(jù)流,并源源不斷地流向應(yīng)用端。

研究挑戰(zhàn)2:數(shù)據(jù)到達速率極快。RFID 技術(shù)感知式采集,采集到的數(shù)據(jù)通過無線網(wǎng)、有線網(wǎng)、局域網(wǎng)、廣電網(wǎng)等不同網(wǎng)絡(luò)傳遞到應(yīng)用端,同時多個網(wǎng)絡(luò)傳輸,因此RFID數(shù)據(jù)流的到達極快。

研究挑戰(zhàn)3:數(shù)據(jù)到達次序不受應(yīng)用約束。RFID數(shù)據(jù)來自周圍環(huán)境,隨機發(fā)生,你追我趕,多路并發(fā)傳播,同時也受網(wǎng)絡(luò)狀況的影響,到達的次序與產(chǎn)生時的順序完全不同。由于不以任何事物的意志為轉(zhuǎn)移,其到達次序也難以預(yù)測。

研究挑戰(zhàn)4:除非刻意保存,每個數(shù)據(jù)都只能“看”一次。由于RFID數(shù)據(jù)規(guī)模巨大,受處理機內(nèi)存大小的限制,該數(shù)據(jù)無法全部容納于內(nèi)存之中。為了快速處理這些數(shù)據(jù),只能掃描一遍。在掃描一遍數(shù)據(jù)情況下,如何完成相關(guān)工作時間緊迫。

研究挑戰(zhàn)5:數(shù)據(jù)時效性高,價值轉(zhuǎn)瞬即逝。由于RFID 數(shù)據(jù)具有獨特的時空語義性,帶有RFID 標簽的物品位置也是在不斷變換的,比如帶有RFID標簽的書籍,可能剛才還在書架上,短時間內(nèi)就有可能被學(xué)生借走,出現(xiàn)在借閱處。如果為了實時監(jiān)控每一本書籍的情況,就需要不停地處理帶有時空信息的RFID數(shù)據(jù),距離當(dāng)前時刻越近的數(shù)據(jù)越具有應(yīng)用價值。

3 數(shù)據(jù)集與評價標準

本章將會介紹典型的RFID 數(shù)據(jù)集以及RFID 數(shù)據(jù)清洗的評價標準。

3.1 數(shù)據(jù)集

高質(zhì)量與合適場景的數(shù)據(jù)集對RFID 數(shù)據(jù)清洗方法的驗證與評估非常重要。本節(jié)總結(jié)了兩個廣泛使用的RFID數(shù)據(jù)集。表1給出了相關(guān)數(shù)據(jù)集的基本信息,比如數(shù)據(jù)集名稱、年份、來源、描述、文件數(shù)量、網(wǎng)址等。

表1 常見RFID數(shù)據(jù)集Table 1 Typical RFID datasets

hope/amd 數(shù)據(jù)集是從2008 年7 月18 日至20 日舉行的第七屆HOPE(地球上的黑客)會議上收集的RFID跟蹤數(shù)據(jù)。與會者佩戴了RFID徽章,通過該徽章可以在整個會議空間內(nèi)唯一地識別和跟蹤他們。貢獻者是Aestetix和Christopher Petro。2008年8月7日上傳于CRAWDAD(community resource for archiving wireless data at Dartmouth)網(wǎng)站,該網(wǎng)站是達特茅斯的無線數(shù)據(jù)存檔社區(qū)資源。網(wǎng)址為https://crawdad.org/hope/amd/20080807。數(shù)據(jù)集中有13個文件,總數(shù)據(jù)量約為25 MB,包含了與會者參會期間的位置信息。

hope/nh_amd 數(shù)據(jù)集是從2010 年7 月18 日至20日舉行的HOPE(地球上的黑客)會議上收集的RFID跟蹤數(shù)據(jù)。目的與hope/amd數(shù)據(jù)集一致。貢獻者是Travis Goodspeed 和Nathaniel Filardo。2010 年7 月18 日上傳于CRAWDAD 網(wǎng)站。具體下載地址為https://crawdad.org/hope/nh_amd/20100718。數(shù)據(jù)集中有33個文件,且每個文件的數(shù)據(jù)量都接近100 MB,總的數(shù)據(jù)量約為3.1 GB,同樣包含了與會者參會期間的位置信息。

3.2 評價標準

由于本研究方向的評價標準表達形式多樣,不能一一列舉,這里只給出具有代表性的評價標準。

精確度指的是清洗后的數(shù)據(jù)Dc與真正數(shù)據(jù)Dr的交集占真正數(shù)據(jù)Dr的比重。定義如式(1)所示:

數(shù)據(jù)壓縮率指的是原始數(shù)據(jù)Draw與數(shù)據(jù)清洗過后的數(shù)據(jù)Dc的數(shù)據(jù)量的差值占真正數(shù)據(jù)Dr的比重。定義如式(2)所示:

吞吐量指的是處理過的數(shù)據(jù)量|Draw|與所用處理時間T的比值。定義如式(3)所示:

運行時間是指算法運行穩(wěn)定時處理數(shù)據(jù)流所需要的時間。

4 RFID數(shù)據(jù)清洗

本章主要從漏讀數(shù)據(jù)清洗、多讀數(shù)據(jù)清洗、冗余數(shù)據(jù)清洗、亂序數(shù)據(jù)處理、RFID系統(tǒng)應(yīng)用等方面來總結(jié)現(xiàn)有方法的基本思想、優(yōu)勢、局限和適用場景。

4.1 漏讀數(shù)據(jù)清洗

Jeffery等人[19]提出一種稱為ESP(extensible receptor stream processing)的數(shù)據(jù)清洗方法。其在時間滑動窗口中平滑RFID數(shù)據(jù),并將多個讀寫器分組在一個空間粒度中,以糾正漏讀數(shù)據(jù)(亦稱假陰性數(shù)據(jù)或誤報)并去除異常值。然而,很難確定不同RFID 數(shù)據(jù)的最佳窗口大小,尤其是在移動環(huán)境[20]中。在這樣的環(huán)境中,重要的是確保兩個應(yīng)用需求(完整性、標簽動態(tài))之間的平衡。完整性:確保所有在讀寫器范圍內(nèi)的RFID標簽都被檢測到。標簽動態(tài):捕獲標簽在讀寫器檢測范圍內(nèi)進出的動態(tài)。通過設(shè)置較大的窗口大小來消除數(shù)據(jù)的漏讀,可以確保數(shù)據(jù)的完整性,但它們在檢測標簽躍遷時效率不高,還引入了多讀數(shù)據(jù)(假陽性)。然而,窗口大小設(shè)置較小時能夠檢測到RFID標簽的移動,但不能補償漏讀數(shù)據(jù)。

Jeffery 等人[17]提出一種自適應(yīng)滑動窗口清洗方法,稱為不可靠RFID 數(shù)據(jù)的統(tǒng)計平滑(statistical smoothing for unreliable RFID data,SMURF)。SMURF把RFID流數(shù)據(jù)看成統(tǒng)計學(xué)中的隨機事件,并在系統(tǒng)的整個生命周期內(nèi)不斷地根據(jù)流數(shù)據(jù)的統(tǒng)計學(xué)特點自適應(yīng)調(diào)整窗口大小(不會向應(yīng)用程序公開平滑窗口參數(shù)),從一定程度上提高了漏讀數(shù)據(jù)填補的精確度。然而當(dāng)監(jiān)控對象在某邏輯區(qū)域內(nèi)的讀數(shù)完全丟失時,該方法的清洗效果較差。

Massawe 等人[21]采用SMURF[17]中提出的統(tǒng)計方法,給出了一種稱為窗口子范圍躍遷檢測(window subrange transition detection,WSTD)的RFID 數(shù)據(jù)流自適應(yīng)清洗方案。其具有更高效的標簽遷移檢測機制。WSTD能夠調(diào)整窗口大小,以應(yīng)對環(huán)境變化導(dǎo)致的標簽和讀寫器整體性能波動,同時相對準確地檢測遷移時間點。然而,由于使用的窗口較小,它會產(chǎn)生更多的漏讀數(shù)據(jù)。

現(xiàn)有的清洗技術(shù)專注于設(shè)計在各種條件下都能很好工作的精確方法,但忽視了在可能有數(shù)千個讀寫器和數(shù)百萬個標簽的應(yīng)用場景的高昂開銷。Gonzalez 等人[22]提出了一個清洗框架,該框架采用RFID 數(shù)據(jù)集和一系列清洗方法以及相關(guān)開銷,并通過確定廉價方法適用的條件,得出一個清洗計劃,進而優(yōu)化整體清洗開銷。該框架所考慮的開銷主要包括三方面:一是機器學(xué)習(xí)中的訓(xùn)練開銷;二是存儲與運行開銷;三是分類錯誤時所需要的開銷。具體的清洗方法主要是基于滑動窗口的平滑過濾填補方法,還可以是用戶自定義方法,其中窗口包括靜態(tài)和動態(tài)窗口。文中還介紹了基于決策樹和貝葉斯的數(shù)據(jù)清洗方法,根據(jù)不同數(shù)據(jù)特征進行最優(yōu)清洗策略,以達到總體開銷最小。該方法只解決了漏讀現(xiàn)象,如何解決多讀、冗余、亂序到達等問題,還有待進一步研究。該方法的優(yōu)點在于考慮了觀測值和估計值,然而這些估計值與觀測值的關(guān)系是由歷史數(shù)據(jù)集得到的,不能動態(tài)更新,因而對動態(tài)標簽的清洗結(jié)果也不十分理想。

Baba等人[23]重點研究了原始室內(nèi)RFID跟蹤[24]數(shù)據(jù)中的漏讀現(xiàn)象。其研究有限制,即室內(nèi)空間數(shù)據(jù),有限制的同時還可以利用時空約束進行數(shù)據(jù)清洗。其次,利用概率距離感知圖模型[25]來識別和填補漏讀數(shù)據(jù)。另外,該方案還可以應(yīng)用于其他類型的符號化室內(nèi)跟蹤數(shù)據(jù)的清洗,例如藍牙跟蹤數(shù)據(jù)。該方法的優(yōu)點是利用了時空約束信息,應(yīng)用領(lǐng)域較廣,但局限于室內(nèi)物品產(chǎn)生的數(shù)據(jù)。

Gu等人[26]通過有效維護和分析監(jiān)控對象的相關(guān)性,提出了RFID漏讀數(shù)據(jù)的填補模型。監(jiān)測對象之間的時空相關(guān)性用于填補漏讀數(shù)據(jù)。突破了大多數(shù)RFID數(shù)據(jù)清洗算法只是根據(jù)獨立監(jiān)測對象的歷史讀數(shù)來填補缺失的讀數(shù)的情況。

在深入分析RFID對象[27]的關(guān)鍵特征之后,Xie等人[28]提出一種用于高效處理不確定RFID 數(shù)據(jù)的框架,并支持各種查詢和跟蹤RFID 對象。特別地,提出了一種自適應(yīng)清洗方法,根據(jù)不確定數(shù)據(jù)的不同速率調(diào)整平滑窗口的大小,采用不同的策略處理不確定數(shù)據(jù),并根據(jù)不確定數(shù)據(jù)出現(xiàn)位置區(qū)分不同類型的數(shù)據(jù)。還提出一種路徑編碼方案,通過聚合路徑序列、位置和時間間隔來顯著壓縮海量數(shù)據(jù)。該方法的優(yōu)點在于自適應(yīng)調(diào)整窗口大小,融入了時空信息,考慮了群體和單個物體的運動。局限在于規(guī)則設(shè)置不合理、不完整等都會影響清洗效果。

Baba 等人[29-30]提出一種稱為IR-MHMM(indoor RFID multi-variate hidden Markov model)的數(shù)據(jù)清洗方法。該方法是一種基于學(xué)習(xí)的數(shù)據(jù)清洗方法,可以應(yīng)對RFID源數(shù)據(jù)中存在噪聲(多讀、交叉讀數(shù))和不完整性(漏讀)的問題。與現(xiàn)有方法不同,該方法不需要關(guān)于室內(nèi)空間和RFID 閱讀器部署的時空特性的詳細先驗知識。該方法只需要有關(guān)RFID 部署的最少信息(室內(nèi)拓撲、設(shè)備部署),就可以從原始RFID 數(shù)據(jù)中學(xué)習(xí)相關(guān)知識,并使用它來清洗數(shù)據(jù)。該方法的優(yōu)勢是不需要關(guān)于室內(nèi)空間和RFID 閱讀器部署的時空特性的先驗知識,只需要少量RFID部署信息。然而,局限于室內(nèi)物品產(chǎn)生的數(shù)據(jù),局限于馬爾可夫模型。

現(xiàn)有RFID 漏讀數(shù)據(jù)填補方法以原始讀數(shù)為粒度,在此基礎(chǔ)上進行窗口平滑操作,其會填補許多冗余數(shù)據(jù)。在多邏輯區(qū)域參與的場景中,填補準確度較差。為了改變上述狀況,谷峪等人[31]首次將RFID數(shù)據(jù)從數(shù)據(jù)層抽象到邏輯區(qū)域?qū)幼鳛樘幚淼牧6龋岢? 種基于動態(tài)概率路徑事件模型的數(shù)據(jù)填補算法,通過挖掘已知的區(qū)域事件的順序相關(guān)性來對后續(xù)發(fā)生的事件進行判斷和填補。該方法的優(yōu)勢在于對漏讀數(shù)據(jù)進行了填補,并考慮了實時性、準確性和維護代價等因素。局限在于未考慮包含相同的區(qū)域事件問題;未考慮依次經(jīng)過多個邏輯區(qū)域時,每個邏輯停留時間的相關(guān)性。

為了同時解決RFID 數(shù)據(jù)采集過程中存在的漏讀、多讀和冗余問題,Jiang等人[32]探索了利用通信信息進行RFID 數(shù)據(jù)清洗,并使RFID 讀寫器在早期階段產(chǎn)生更少的臟數(shù)據(jù)。首先,設(shè)計了一個讀者通信協(xié)議,以有效地利用讀者之間的通信信息。然后,提出了帶參數(shù)的單元事件序列樹。最后,提出了三種新的RFID 數(shù)據(jù)清洗方法,分別用于減少重復(fù)、消除誤報和填補缺失數(shù)據(jù)。該方法有一個假設(shè),即讀寫器之間可以相互通信,但是實際情況還有所差別,也許在未來是可行的。

在很多RFID 監(jiān)控應(yīng)用中,監(jiān)控物體都是以動態(tài)變化的小組為單位進行活動的。谷峪等人[33]通過定義關(guān)聯(lián)度和動態(tài)聚簇對各個RFID 監(jiān)控物體所在的小組進行動態(tài)的分析[34],并在此基礎(chǔ)上定義了一套關(guān)聯(lián)度維護和數(shù)據(jù)清洗的模型和算法,通過壓縮圖模型,提出了基于分裂重組思想的鏈模型關(guān)聯(lián)度維護策略,提高了維護的時空效率。該方法的不足是:當(dāng)邏輯上的小組頻繁分裂重組時,性能會大大降低。

Xie等人[35]考慮如何有效地識別移動輸送機上的標簽。考慮到現(xiàn)實環(huán)境中的路徑丟失和多徑效應(yīng)等情況,研究者首先提出了一個RFID標簽識別的概率模型。基于該模型,根據(jù)輸送機上的固定路徑移動,提出了識別移動RFID 標簽的有效解決方案。該方法的優(yōu)勢在于考慮概率傳播。局限在于事先設(shè)定好路徑,超出該路徑范圍,處理效果不確定。

現(xiàn)有的工作主要集中在靜態(tài)環(huán)境中的RFID 數(shù)據(jù)清洗(例如庫存檢查)。為了補充現(xiàn)有方法的不足,Zhao 等人[36]提出一種移動環(huán)境中目標跟蹤RFID數(shù)據(jù)的清洗方法。首先提出了一個移動環(huán)境中目標跟蹤的概率模型。同時,設(shè)計了一種基于貝葉斯推理的方法,用于使用該模型清洗RFID數(shù)據(jù)。為了從運動分布中采集數(shù)據(jù),設(shè)計了一種順序采樣器,該采樣器能夠以高精度和高效率的方式清洗RFID 數(shù)據(jù)。該方法的優(yōu)勢是適用于漏讀率比較高的移動環(huán)境,利用了物品之間的時空關(guān)聯(lián)。局限在于概率計算來自于歷史數(shù)據(jù)。

Fazzinga等人[37]提出了一種離線清洗技術(shù),用于將RFID 跟蹤的移動物體產(chǎn)生的讀數(shù)轉(zhuǎn)換為地圖上的位置。它包含一個基于網(wǎng)格的雙向過濾方案,其中嵌入了一個用于解決缺失檢測(漏讀)的采樣策略。首先按時間順序處理讀數(shù):在每個時間點t,根據(jù)該時刻產(chǎn)生的位置信息與前一時間點t-1 過濾后的位置的可達性進行過濾。然后,對經(jīng)過第一次濾波后的位置進行重新過濾,并按相反順序應(yīng)用相同的方案。隨著兩個階段的進行,在每個時間點t逐步評估每個候選位置的概率。該概率集合了過去、未來、實際位置的概率。在第一個過濾階段的某些步驟中進行采樣,智能地減少在下一步被視為候選位置的單元數(shù)量,因為它們的數(shù)量在連續(xù)缺失檢測(漏讀)的情況下會急劇增加。該方法能做到很高的精確度,但是不能滿足實時的應(yīng)用需求,只能做后續(xù)離線分析[38]之用。

現(xiàn)有RFID 數(shù)據(jù)清洗方法主要針對靜態(tài)標簽,沒有考慮動態(tài)標簽的特性。對于動態(tài)標簽進出讀寫器探測范圍的時間檢測存在延遲,清洗效果并不理想。針對RFID 數(shù)據(jù)流不準確性和不能及時響應(yīng)標簽躍遷的問題,王妍等人[39]首次在RFID 數(shù)據(jù)流清洗中引入卡爾曼濾波,提出了一種稱為KAL-RFID(Kalman radio frequency identification)的數(shù)據(jù)清洗方法。該方法通過時間更新和測量更新形成自回歸逼近真實值,從而改善了由滑動窗口引發(fā)的漏讀和多讀問題。該方法還可以及時檢測標簽發(fā)生躍遷的時間,避免現(xiàn)有清洗方法在動態(tài)標簽離開閱讀器時易產(chǎn)生的多讀現(xiàn)象和對標簽發(fā)生躍遷的時間響應(yīng)延遲問題,從而提高了清洗效率。該方法解決了單個讀寫器的漏讀、多讀數(shù)據(jù)的問題,以及動態(tài)標簽躍遷產(chǎn)生的延遲問題。

表2給出了幾種典型的RFID漏讀數(shù)據(jù)清洗方法的對比,包括分類、子類、代表性工作、優(yōu)勢、局限、適用場景等內(nèi)容。

表2 典型RFID漏讀數(shù)據(jù)清洗方法對比Table 2 Comparison of methods of RFID false negative reading cleaning

4.2 多讀數(shù)據(jù)清洗

RFID 數(shù)據(jù)的多讀又稱為交叉讀,其產(chǎn)生的因素很多,比如環(huán)境的干擾、射頻技術(shù)的限制等。RFID數(shù)據(jù)的交叉讀問題會導(dǎo)致位置信息沖突,進而無法滿足RFID 上層應(yīng)用的需求。為此,Liao 等人[41]提出了一種基于內(nèi)核密度的概率清洗方法(kernel densitybased probability cleaning method,KLEAP)來消除滑動窗口中的交叉讀數(shù)。該方法使用基于核的函數(shù)估計每個標簽的密度。與具有最大密度的微集群相對應(yīng)的讀寫器將被視為標記對象在當(dāng)前窗口中應(yīng)定位的位置,從其他讀寫器獲得的讀數(shù)將被視為交叉讀數(shù)。該方法的優(yōu)勢是能檢測到標簽的確切位置,局限是滑動窗口大小是固定的。

SMURF方法[19]可以調(diào)整窗口大小以減少交叉讀數(shù)據(jù),但不能消除物理因素產(chǎn)生的交叉讀取。

Bai等人[16]使用一種簡單的計數(shù)方法去除交叉讀數(shù),該方法基于交叉讀數(shù)通常比正常真實讀數(shù)的發(fā)生率低的假設(shè)。然而,該方法的有效性與計數(shù)閾值直接相關(guān),如果用戶沒有太多的領(lǐng)域知識,計數(shù)閾值很難設(shè)置。此外如果交叉讀數(shù)的數(shù)量大于正常的真實讀數(shù),該方法可能會產(chǎn)生錯誤的過濾結(jié)果。

潘巍等人[42]提出了利用參考標簽思想結(jié)合信號強度[43]特征的相對定位技術(shù)來解決交叉讀仲裁的問題,設(shè)計并實現(xiàn)了基于滑動窗口的交叉數(shù)據(jù)讀入檢測和仲裁的核心算法。該方法的優(yōu)勢是巧妙地利用了讀寫器的信號強弱,同時輔以參考標簽,利用相對位置推測標簽位置。不足之處是其中用到的窗口大小不能自適應(yīng)調(diào)整,還不適用于非規(guī)則布局的應(yīng)用場景。

表3給出了幾種典型的RFID多讀數(shù)據(jù)清洗方法的對比,包括分類、子類、代表性工作、優(yōu)勢、局限、適用場景等內(nèi)容。

表3 典型RFID多讀數(shù)據(jù)清洗方法對比Table 3 Comparison of methods of RFID false positive reading cleaning

4.3 冗余數(shù)據(jù)清洗

在RFID 系統(tǒng)中,一個RFID 讀寫器或部署到同一區(qū)域的一些RFID 讀寫器多次讀取RFID 標簽,因此RFID 數(shù)據(jù)流中存在大量重復(fù)項。Wang 等人[44]發(fā)現(xiàn)現(xiàn)有的基于時間布魯姆濾波器(time Bloom filter,TBF)的重復(fù)消除方法需要多個計數(shù)器來存儲RFID數(shù)據(jù)流中元素的檢測時間,從而浪費了寶貴的內(nèi)存資源。為了改變上述情況,其設(shè)計了d-左時間布魯姆濾波器(d-left time Bloom filter,DLTBF),作為d-左計數(shù)布魯姆濾波器的擴展。通過d-left 散列(一種平衡分配機制),DLTBF可以將檢測到的元素時間存儲到一個計數(shù)器中。在此基礎(chǔ)上,提出了一種基于DLTBF 的一次性近似消除RFID 數(shù)據(jù)流中重復(fù)項的方法。不過,其在插入數(shù)據(jù)之前需要計算最小裝載桶。此外,它還使用了許多散列函數(shù)。

通常,RFID 數(shù)據(jù)流包含大量重復(fù)數(shù)據(jù)。由于RFID數(shù)據(jù)是流數(shù)據(jù),其產(chǎn)生源源不斷,很難用少量內(nèi)存一次性消除重復(fù)的RFID數(shù)據(jù)。因此,Lee等人[45]提出了基于Bloom濾波器的近似重復(fù)消除方法,即時間Bloom 濾波器(TBF)和時間間隔Bloom 濾波器(time interval Bloom filter,TIBF)。在時間Bloom 過濾器中,將Bloom 過濾器中的位數(shù)組替換為時間信息數(shù)組,因為RFID數(shù)據(jù)中重復(fù)項的定義與檢測到的時間有關(guān)。此外,為了減少冗余數(shù)據(jù),時間間隔Bloom 過濾器使用時間間隔來處理。實驗結(jié)果表明,所提出的方法可以在一次過程中以較小的誤差去除重復(fù)的RFID 數(shù)據(jù)。該方法內(nèi)存效率不高,因為需要多個時間計數(shù)器來存儲讀取時間。

針對現(xiàn)有方法不能滿足處理海量RFID 數(shù)據(jù)流的實時性要求的問題,Mahdin 等人[40]提出了一種稱為CBF(comparison Bloom filter)的數(shù)據(jù)過濾方法,可以有效地檢測和刪除RFID 數(shù)據(jù)流中的重復(fù)讀數(shù)。其優(yōu)勢是將布隆過濾器的數(shù)量減少至1個,同時在時間和空間上都有很好的性能。不過其只能過濾一個讀寫器的冗余數(shù)據(jù),且使用了許多哈希函數(shù),滑動窗口在標簽運動不規(guī)則的情況下效果不好。

Baba 等人[46]研究了室內(nèi)RFID 跟蹤數(shù)據(jù)的數(shù)據(jù)清洗。其關(guān)注兩個相關(guān)的任務(wù):消除時間冗余和減少空間歧義。對于前者,設(shè)計了一個臨時清洗算法來臨時聚集原始RFID讀數(shù),從而在不丟失信息的情況下壓縮數(shù)據(jù)大小。對于后者,設(shè)計了一種空間清洗技術(shù)。同時,提出了一個距離感知部署圖來捕獲RFID讀寫器部署以及室內(nèi)拓撲結(jié)構(gòu)所隱含的時空約束。通過利用圖中捕捉到的時空約束,設(shè)計了一種空間清洗算法來減少RFID 數(shù)據(jù)中的空間模糊性。本文提出的技術(shù)也適用于其他符號定位技術(shù)(如藍牙)獲得的室內(nèi)跟蹤數(shù)據(jù)。其局限在于不容易設(shè)定時間和空間粒度的大小。

表4給出了幾種典型的RFID冗余數(shù)據(jù)清洗方法的對比,包括分類、子類、代表性工作、優(yōu)勢、局限、適用場景等內(nèi)容。

表4 典型RFID冗余數(shù)據(jù)清洗方法對比Table 4 Comparison of methods of RFID duplicated reading cleaning

4.4 亂序數(shù)據(jù)處理

現(xiàn)有的方法無法處理存在基于事件的系統(tǒng)(event based system,EBS)時由網(wǎng)絡(luò)延遲引入的亂序事件到達的情況,而且亂序事件處理可能導(dǎo)致系統(tǒng)故障。為此,Mutschler等人[47]提出了一種基于K時間寬松(K-slack)的低延遲方法。該方法在沒有先驗知識的情況下實現(xiàn)了對高數(shù)據(jù)率傳感器和事件流的有序事件處理。在不使用本地或全局時鐘的情況下,動態(tài)調(diào)整空閑緩沖區(qū)以適應(yīng)數(shù)據(jù)流中的亂序。中間件系統(tǒng)透明地重新排列事件輸入流,以便事件仍然可以聚合和處理到滿足應(yīng)用程序需求的粒度。在實時定位系統(tǒng)(realtime locating systems,RTLS)上,該系統(tǒng)在亂序事件到達的情況下能夠執(zhí)行準確的低延遲事件檢測,并且當(dāng)系統(tǒng)分布在多個線程和機器上時,具有接近線性的性能。該方法局限在于滑動窗口的大小是固定不變的,不能適應(yīng)網(wǎng)絡(luò)延遲的實時變化。

網(wǎng)絡(luò)延遲、機器故障等因素可能會導(dǎo)致事件在事件流處理引擎中亂序到達。Li 等人[48]解決了在可能包含亂序數(shù)據(jù)的事件流上查詢指定的事件模式的問題。首先,研究者分析了典型的事件流處理技術(shù)在面對亂序數(shù)據(jù)到達時會遇到的問題。然后,研究者為核心流代數(shù)操作符(如序列掃描和模式構(gòu)建)提出了一種新的物理實現(xiàn)策略,包括基于堆棧的數(shù)據(jù)結(jié)構(gòu)和相關(guān)的清除算法。還介紹了序列掃描和構(gòu)造以及狀態(tài)清除的優(yōu)化,以最小化CPU 成本和內(nèi)存消耗。不過,該方法還存在一定量的誤配或者錯位事件,同時結(jié)果也存在一定的延遲。

亂序處理涉及延遲和生成的連接結(jié)果質(zhì)量之間不可避免的權(quán)衡。為了滿足流應(yīng)用程序的不同需求,需要提供用戶可配置的結(jié)果延遲與結(jié)果質(zhì)量的權(quán)衡。現(xiàn)有的亂序處理方法要么不提供這種可配置性,要么只支持用戶指定的延遲約束。為此,Ji等人[49]提倡質(zhì)量驅(qū)動的亂序處理思想,并提出了一種基于緩沖區(qū)的m路滑動窗口連接(m-way sliding window joins,MSWJ)亂序處理方法。該方法在滿足用戶指定的結(jié)果質(zhì)量要求的同時,最小化輸入排序緩沖區(qū)的大小,從而減少結(jié)果延遲。該方法的核心是一個分析模型,它建模了輸入緩沖區(qū)大小與生成結(jié)果質(zhì)量之間的關(guān)系。該方法也是通用的,它支持具有任意連接條件的m路滑動窗口連接。優(yōu)點是允許用戶指定結(jié)果質(zhì)量要求,在保證處理結(jié)果質(zhì)量的前提下,盡可能減少延遲時間;缺點是緩存容量的減少和質(zhì)量的保證,促使實時性要求較高的應(yīng)用無法使用該方法的處理結(jié)果。

現(xiàn)有的事件流處理技術(shù)在遇到亂序數(shù)據(jù)到達時遇到了重大挑戰(zhàn),比如輸出阻塞、較長的系統(tǒng)延遲、內(nèi)存資源溢出和不正確的結(jié)果生成。為了解決這些問題,Liu等人[50-51]提出了兩種備選解決方案:分別采用激進策略和保守策略來處理亂序事件流上的序列模式查詢。在亂序事件很少出現(xiàn)的樂觀假設(shè)下,激進策略產(chǎn)生最大輸出。相反,為了解決亂序事件的意外發(fā)生以及由此產(chǎn)生的任何過早錯誤結(jié)果,為激進策略設(shè)計了適當(dāng)?shù)腻e誤補償方法。保守方法是在亂序數(shù)據(jù)可能很常見的假設(shè)下工作的,因此只有當(dāng)其正確性得到保證時才會產(chǎn)生輸出。提出了一個偏序保證(partial order guarantee,POG)模型,該模型下可以保證這種正確性。對于尖峰工作負載下的健壯性,這兩種策略在持久存儲支持和用戶訪問方法上相互補充。不過,該研究還未能實現(xiàn)在兩個策略間自動切換。

在亂序數(shù)據(jù)流上執(zhí)行連續(xù)查詢是一項挑戰(zhàn),其中元組不是根據(jù)時間戳排序的;因為高準確性和低延遲是兩個相互沖突的性能指標。盡管許多應(yīng)用程序允許以精確的查詢結(jié)果換取較低的延遲,但它們?nèi)匀幌M傻慕Y(jié)果滿足一定的質(zhì)量要求。然而,現(xiàn)有的亂序處理方法沒有考慮在滿足用戶指定的查詢結(jié)果質(zhì)量要求的同時最小化結(jié)果延遲。Ji 等人[52]提出一種基于緩沖區(qū)的自適應(yīng)亂序處理方法AQ-Kslack(approximate query-K-slack),它支持以質(zhì)量驅(qū)動的方式對亂序數(shù)據(jù)流執(zhí)行滑動窗口聚合查詢。通過采用基于采樣的近似查詢處理和控制理論領(lǐng)域的技術(shù),該方法在查詢運行時動態(tài)調(diào)整輸入緩沖區(qū)大小以最小化結(jié)果延遲,同時遵守用戶指定的查詢結(jié)果錯誤閾值。該方法的優(yōu)點是同時考慮準確性和低延遲,動態(tài)調(diào)整緩沖區(qū)的大小,允許用戶指定結(jié)果的閾值;缺點是結(jié)果既不是最準確的,也不是延遲最短的。

網(wǎng)絡(luò)延遲和機器故障可能會導(dǎo)致事件亂序到達。此外,現(xiàn)有文獻假設(shè)事件沒有持續(xù)時間,但許多實際應(yīng)用程序中的事件都有持續(xù)時間,并且這些事件之間的關(guān)系往往很復(fù)雜。Zhou等人[53]首先分析了時間語義學(xué)的基礎(chǔ)知識,接著提出了一個時間語義學(xué)模型。還介紹了一種包含時間間隔的混合解決方案,用于處理亂序事件。在未來,該方案還可以考慮其他影響因素,比如緩沖區(qū)的大小、亂序比例、亂序事件的平均步長,以便找到平衡點。

現(xiàn)有的事件流處理技術(shù)主要提供盡最大努力(best-effort)式的服務(wù)來減少平均響應(yīng)時間,這種方式并不能在確定的時間延遲需求下輸出更多的結(jié)果。針對監(jiān)控應(yīng)用中的確定性服務(wù)質(zhì)量需求,谷峪等人[54]討論了常見的泊松監(jiān)控流上的截止期敏感[55]的復(fù)雜事件處理最優(yōu)化資源分配問題。從系統(tǒng)服務(wù)角度對事件的到達和復(fù)雜事件處理進行了理論分析和建模,提出了復(fù)合事件的截止期滿足率模型和多事件流處理亂序反饋修正模型,進而給出最優(yōu)化資源分配模型。通過合理地分配處理資源,保證了在實時限制下產(chǎn)生更多的正確結(jié)果,兼顧了復(fù)雜事件處理的實時性和正確性。

表5 給出了典型RFID 亂序數(shù)據(jù)清洗方法的對比,包括分類、優(yōu)勢、局限、適用場景等內(nèi)容。

表5 典型RFID亂序數(shù)據(jù)處理方法對比Table 5 Comparison of methods of RFID out-of-order reading cleaning

4.5 應(yīng)用系統(tǒng)

由于RFID 數(shù)據(jù)清洗屬于數(shù)據(jù)預(yù)處理環(huán)節(jié),沒有專門的RFID 數(shù)據(jù)清洗系統(tǒng),大部分RFID 應(yīng)用系統(tǒng)是RFID復(fù)雜事件處理系統(tǒng)、RFID不確定事件處理系統(tǒng)。下面介紹相關(guān)系統(tǒng)并重點介紹與數(shù)據(jù)預(yù)處理相關(guān)的應(yīng)用。

美國加州大學(xué)伯克利分校的Gyllstrom 等人[56]開發(fā)和設(shè)計了原型系統(tǒng)SASE(stream-based and shared event processing),其提供擴展的事件語言、事件查詢處理器和操作優(yōu)化策略等,實現(xiàn)了對數(shù)據(jù)的收集和清洗、基本事件生成、復(fù)合事件處理、事件歸檔以及對事件的查詢。然而,SASE忽略了時間這一關(guān)鍵因素,而在許多RFID應(yīng)用中,有些事件只有在指定的時間限制內(nèi)或限制之后才被認為是“有效事件”。同時,SASE還假設(shè)所有事件是按照其時間戳排序的,但該假設(shè)并不適用于所有的RFID場景,比如亂序的情形。

美國馬薩諸塞大學(xué)Tran等人[57]以帶有RFID標簽的對象固定、讀寫器移動為應(yīng)用場景設(shè)計和實現(xiàn)了RFID概率推演系統(tǒng),旨在將缺失的、帶有噪音的原始數(shù)據(jù)流清洗成帶有較精確位置的事件流。該推演系統(tǒng)適合于倉儲管理等這類貨物相對固定、讀寫器隨著使用人員移動的應(yīng)用。

移動和應(yīng)用程序通常依賴RFID 天線或傳感器等設(shè)備向其提供有關(guān)物理世界的信息。然而,這些設(shè)備是不可靠的。它們產(chǎn)生的部分數(shù)據(jù)可能丟失、重復(fù)或錯誤。目前的技術(shù)水平是局部校正誤差(例如,溫度讀數(shù)的范圍限制)或使用空間/時間相關(guān)性(例如,平滑溫度讀數(shù))。然而錯誤通常僅在全局設(shè)置中才明顯,例如,已知存在的對象的讀數(shù)缺失,或停車場的讀數(shù)與進入讀數(shù)不匹配。美國華盛頓大學(xué)的Khoussainova 等人[58]設(shè)計了名為StreamClean 的系統(tǒng),該系統(tǒng)使用應(yīng)用程序定義的全局完整性約束自動糾正輸入數(shù)據(jù)錯誤。由于通常不可能確定地進行糾正,研究者提出了一種概率方法,其中系統(tǒng)為每個輸入元組分配正確的概率。

美國華盛頓大學(xué)的Khoussainova等人[59-60]介紹了概率事件抽取器(probabilistic event extractor,PEEX),一個使應(yīng)用程序能夠從RFID 數(shù)據(jù)中定義和提取有意義的概率高層事件的系統(tǒng)。PEEX 能有效地處理數(shù)據(jù)中的錯誤和事件提取的固有模糊性。同時,PEEX提取了所有可能的活動。此外,由于PEEX基于關(guān)系數(shù)據(jù)庫管理系統(tǒng)(relational database management system,RDBMS),用戶可以方便地查詢和管理生成的事件。由于該系統(tǒng)的目標是從錯誤和不準確的RFID數(shù)據(jù)中檢測事件,傳感器和RFID數(shù)據(jù)清洗領(lǐng)域是該工作的補充。該系統(tǒng)直接對不準確和骯臟的數(shù)據(jù)進行操作,而不需要用戶指定如何清洗數(shù)據(jù)。

美國華盛頓大學(xué)的Ré等人[61]設(shè)計和實現(xiàn)了原型系統(tǒng)Lahar。該大學(xué)的研究人員給出了一個真實的應(yīng)用場景,他們在辦公樓里的公共場合部署設(shè)計和實現(xiàn)了原型系統(tǒng)Lahar。該大學(xué)的研究人員給出了一個真實的應(yīng)用場景,他們在辦公樓里的公共場合部署了一些RFID讀寫器,并且給相關(guān)的物品也貼上了電子標簽,通過該系統(tǒng)實時監(jiān)測和跟蹤[62]樓內(nèi)人員的工作和日常生活,必要時給予友善提醒。在數(shù)據(jù)預(yù)處理方面,Lahar 通過粒子濾波技術(shù)填補漏讀數(shù)據(jù)并推演標簽對象位置的概率分布。在事件處理方面,Lahar系統(tǒng)可以對歸檔數(shù)據(jù)和近實時數(shù)據(jù)執(zhí)行復(fù)雜事件查詢。總之,該系統(tǒng)提出了不確定概率事件流之上的復(fù)雜事件處理系統(tǒng),兼顧考慮了數(shù)據(jù)流上事件的關(guān)聯(lián)性。該系統(tǒng)局限在于只能簡單地回答查詢,且要求處理的數(shù)據(jù)是有序的。

Cascadia 系統(tǒng)[63]提供了面向普適RFID 應(yīng)用的基礎(chǔ)結(jié)構(gòu),管理漏讀數(shù)據(jù)的不確定性、位置信息的不確定性、事件語義的不確定性和事件發(fā)生時間的不確定性。在復(fù)雜事件建模方面,其構(gòu)建了概率事件模型。在數(shù)據(jù)預(yù)處理方面,其接收讀寫器讀取的原始數(shù)據(jù),并用粒子濾波技術(shù)將原始讀數(shù)清洗成帶有位置信息和概率的時間。與文獻[57]系統(tǒng)不同,Cascadia系統(tǒng)中讀寫器的位置是固定的,只能過濾出粗粒度的位置信息。Cascadia系統(tǒng)貢獻主要是針對RFID數(shù)據(jù)的不確定性構(gòu)建了RFID 概率數(shù)據(jù)模型并實現(xiàn)了概率事件抽取算法,支持面向RFID移動對象跟蹤等復(fù)雜應(yīng)用。

表6給出了幾種典型的RFID數(shù)據(jù)清洗應(yīng)用系統(tǒng)的對比,包括系統(tǒng)名稱、功能描述、貢獻、局限、適用場景等內(nèi)容。

表6 RFID應(yīng)用系統(tǒng)對比Table 6 Comparison of RFID application systems

5 未來研究方向

RFID 是一種很有前景的技術(shù),其在新興領(lǐng)域的應(yīng)用必將給RFID 數(shù)據(jù)清洗技術(shù)帶來新的機遇和挑戰(zhàn)。為了豐富和完善RFID數(shù)據(jù)清洗技術(shù),有待從以下五方面做進一步的研究:

(1)構(gòu)建高質(zhì)量的RFID 源數(shù)據(jù)集和RFID 基準測試數(shù)據(jù)集。現(xiàn)有的用來做實驗的RFID 源數(shù)據(jù)集基本沒有公共的數(shù)據(jù)集,一般都是研究者根據(jù)實驗情況人工生成的[64],這樣的數(shù)據(jù)缺少權(quán)威性和通用性,因此一般沒有二次利用價值。如果能夠在實際場景中生成一個或者若干高質(zhì)量的源數(shù)據(jù)集,對于相關(guān)研究方向的廣大的科研工作者無疑是一個福音。建議從以下方面保證RFID源數(shù)據(jù)集的質(zhì)量:一是RFID數(shù)據(jù)產(chǎn)生環(huán)境盡可能擁有不同等級的噪聲、干擾等情況;二是RFID數(shù)據(jù)在傳輸過程盡可能包含延遲、擁塞、丟包等情況。同時,廣大科研工作者提出的相關(guān)RFID數(shù)據(jù)清洗技術(shù)對于源數(shù)據(jù)的處理也沒有統(tǒng)一可用的結(jié)果,這樣大量相關(guān)新技術(shù)到底孰優(yōu)孰劣無從評價,因此構(gòu)建一個高質(zhì)量的RFID 基準數(shù)據(jù)集也是很有必要的。同樣,建議從以下方面保證RFID基準測試數(shù)據(jù)集的質(zhì)量:一是測試數(shù)據(jù)應(yīng)該盡可能少;二是測試基準數(shù)據(jù)應(yīng)該覆蓋更廣泛的業(yè)務(wù)類型。

(2)如何對加密RFID 數(shù)據(jù)和具有隱私保護[65]的數(shù)據(jù)進行數(shù)據(jù)清洗。安全性[66]是一個倍受使用者關(guān)注的問題。例如,一些公司不希望其他競爭對手能通過貨物上的RFID 標簽追蹤到貨物的行蹤及貨物種類。同樣,用戶在使用貼有RFID標簽的與金融信息相關(guān)的設(shè)備時,不希望與用戶帳戶相關(guān)的信息遭到泄露[67]。為此,科研工作者設(shè)計了一些用于RFID標簽對可信讀寫器認證的加密算法,用于標簽對讀寫器實現(xiàn)身份認證,通過認證的讀寫器才能獲取RFID標簽中的信息。然而,認證過程耗時,如何設(shè)計滿足安全性與隱私要求的高性能算法就顯得尤為重要。

(3)讀取準確率需要提高。數(shù)據(jù)完整并且正確性是決定RFID 系統(tǒng)性能的重要因素[68],在讀寫器作用域內(nèi),多個標簽同時向讀寫器發(fā)送數(shù)據(jù)或者一個讀寫器在另一個讀寫器的作用域內(nèi)時,信號間發(fā)生相互干擾,導(dǎo)致讀寫器接收到的數(shù)據(jù)錯誤,即無法完整識別出標簽,或者識別出錯誤的標簽[69]。因此,多目標識別既是RFID的最大優(yōu)勢,也是亟待解決的技術(shù)難點。雖然早在2009 年,美國某個知名企業(yè)就宣稱其單品RFID庫存管理系統(tǒng)能提供99%的店面庫存可見度,然而在現(xiàn)實操作中,由于算法原因、人員問題和流程問題而引起的誤讀仍是RFID 技術(shù)普及道路上的絆腳石。另外,有媒體報道,在“無人零售店”的體驗過程中,也有購買兩件同樣的商品只能識別出一件,以及因為粘貼太緊密而無法識別金屬易拉罐商品的情況出現(xiàn)。

(4)大數(shù)據(jù)時代,要充分考慮清洗結(jié)果的時效性。在大數(shù)據(jù)時代,數(shù)據(jù)量大已經(jīng)不是研究者關(guān)注的主要問題,最主要關(guān)注的問題應(yīng)該是數(shù)據(jù)處理的時效性。如何在非常短的時間內(nèi)把海量的RFID 數(shù)據(jù)進行處理,這就是大數(shù)據(jù)處理面臨的最大的挑戰(zhàn)。RFID數(shù)據(jù)的大量應(yīng)用都是實時或者近實時的應(yīng)用,如果不能對這些數(shù)據(jù)進行及時處理,這些RFID數(shù)據(jù)的價值就消失殆盡,這就是RFID大數(shù)據(jù)處理最大的挑戰(zhàn)。

(5)設(shè)計一個沒有固定限制的適用范圍更廣的方法。通常,現(xiàn)有的RFID數(shù)據(jù)清洗算法大多基于某種情況的假設(shè),比如有的假設(shè)標簽移動讀寫器固定[70],有的假設(shè)標簽固定讀寫器移動,有的物品間有時空關(guān)聯(lián),有的假設(shè)物品布局規(guī)則,有的假設(shè)多讀寫器場景,有的假設(shè)數(shù)據(jù)符合某種分布等,一旦轉(zhuǎn)換場景該方法的性能就大打折扣甚至不可用。因此,在今后的研究中,很有必要設(shè)計出一種自學(xué)習(xí)的算法,系統(tǒng)算法能分析現(xiàn)有情況屬于何種場景,從而從庫中選擇出合適的數(shù)據(jù)清洗算法,使得性能達到最佳。如果一種數(shù)據(jù)清洗算法效果不好,可以有選擇多種算法的能力,這樣的算法也正迎合了人工智能時代的要求。

6 總結(jié)

本文旨在回顧RFID 數(shù)據(jù)清洗技術(shù)的研究進展情況,以幫助相關(guān)科研人員對該領(lǐng)域的全面了解。本文對RFID數(shù)據(jù)清洗相關(guān)研究進行了全面回顧,給出了RFID系統(tǒng)與RFID數(shù)據(jù)清洗問題的有關(guān)定義與描述,列出了典型的數(shù)據(jù)集與評價標準,從相關(guān)技術(shù)的分類、子類、基本思想、優(yōu)勢、局限、適用場景等方面詳細比較和總結(jié)了現(xiàn)有的RFID數(shù)據(jù)清洗工作,同時給出了相關(guān)應(yīng)用系統(tǒng)。最后,從RFID原始數(shù)據(jù)與基準數(shù)據(jù)集構(gòu)建、加密與隱私保護數(shù)據(jù)的清洗策略、數(shù)據(jù)采集準確率、清洗結(jié)果的時效性、場景自學(xué)習(xí)的全面方法等方面提出了RFID 數(shù)據(jù)清洗領(lǐng)域五個未來有前景的研究方向。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 91免费国产高清观看| 国语少妇高潮| 国产精品女熟高潮视频| 亚洲天堂啪啪| 国产精品第| 爱爱影院18禁免费| 69综合网| 亚洲一区二区三区国产精华液| 性网站在线观看| 亚洲AV电影不卡在线观看| 国产麻豆福利av在线播放| 欧美在线网| 国产欧美日韩资源在线观看| 天天躁夜夜躁狠狠躁图片| 亚洲乱码视频| 手机在线免费毛片| 99热国产这里只有精品9九| av一区二区无码在线| 久久99精品久久久久纯品| 97国产一区二区精品久久呦| 91www在线观看| 熟妇丰满人妻| 国产波多野结衣中文在线播放| 日本高清有码人妻| 国产精品永久免费嫩草研究院| 亚洲欧洲国产成人综合不卡 | 在线观看av永久| 久久一色本道亚洲| 久久永久视频| 亚洲无线国产观看| 国产亚洲精久久久久久无码AV| 亚洲欧美另类专区| 在线国产欧美| 亚洲人精品亚洲人成在线| 久久香蕉国产线看观看精品蕉| 成年女人a毛片免费视频| 欧美一区二区三区欧美日韩亚洲| 午夜视频在线观看免费网站| 免费a级毛片18以上观看精品| 国产精品999在线| 亚洲精品天堂自在久久77| 亚洲成a人片77777在线播放 | 成年av福利永久免费观看| 国产成人综合在线视频| 国产女人在线视频| 久久综合一个色综合网| 国产精品一区二区国产主播| 日韩在线播放中文字幕| 亚洲第一黄色网| 三级欧美在线| 好久久免费视频高清| 久久久久亚洲AV成人人电影软件| 亚洲性色永久网址| 亚洲精品动漫| 91精品aⅴ无码中文字字幕蜜桃| 免费一级大毛片a一观看不卡| 欧洲精品视频在线观看| 精品视频一区二区观看| 91色爱欧美精品www| 露脸一二三区国语对白| 一本无码在线观看| 三区在线视频| 在线观看亚洲天堂| 国产亚洲精品精品精品| 最新国产网站| 国产aⅴ无码专区亚洲av综合网| 99在线观看精品视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美区一区| 91偷拍一区| 免费一级毛片在线观看| 国产丝袜91| 日韩中文字幕免费在线观看| 伊人色综合久久天天| 国产爽妇精品| 欧类av怡春院| 青青操视频在线| 伊人久久福利中文字幕| 无码免费的亚洲视频| 在线播放国产99re| 国产精品va| 999精品在线视频|