徐 超,林友勇,李少利
(中電海康集團研究院,浙江 杭州 310012)
本文從物聯基礎設施產生的數據出發,研究物聯數據的分類和建模形式,形成了以物模型、事件模型、感知數據模型為核心的物聯數據建模分析框架。本文還著重分析了物聯感知數值模型的幾種細分類型,提出了其相關的分析、挖掘方法,并討論了序列模型以及時序圖模型在文本、語音、視頻等感知數據類型上的拓展應用。總的來說,本文的主要貢獻包括如下幾點:
第一,梳理了物聯基礎設施的數據分類體系,提出了一套較為完整的物聯數據建模及分析框架;
第二,著重對數值型物聯感知數據建模進行了分析,并討論了這些模型在文本、語音、視頻等感知數據結構上的拓展應用。
物聯網的消息模型由設備協議模型構建,主要實現將實體世界的設備數字化,并在云端構建該設備的數據模型。設備協議模型主要描述感知設備是什么、能做什么、可以提供什么樣的感知數據、能夠產生的事件信息等。因此,根據設備協議的承載內容,概括為設備屬性、感知(即報文數據)、狀態及事件這四種消息模型,以用于描述感知設備的屬性、報文數據及控制指令的結構信息。針對上述4種物聯網消息模型,我們可以把物聯基礎設施中涉及到的物聯數據歸納為如下幾種:
(1)物體數據:即設備本身的數據,也就是描述設備的屬性、狀態、能力等的數據;
(2)感知數據:即設備產生的數據,也就是由設備感知到的數據,也稱為報文數據,一般可以分為數值、圖片、視頻、語音、文本(人、物交互產生)等幾種類型;
(3)事件數據:即控制指令的結構化信息數據。
物體數據涉及到物聯設施的標準化、規范化問題,一般是按照國內外的物體語義標準進行設計,小企業等都很難制定相關的標準以建立自己的標準化生態。而事件數據是基于本體數據形成的一種物體能力控制的指令信息,其處理過程涉及到事件順序的推理和因果分析,目前缺乏做得比較深入的企業,一般是通過一些規則引擎來實現數據流轉和簡單的業務聯動。感知數據是目前我們關注最多的一種,因為它比較容易處理并且更容易獲取直接的數據收益,一般所說的物聯網數據處理基本都是指的這種數據類型。這些數據的挖掘分析一般包括獲取、清理、查詢、壓縮、存儲、分析、預測等步驟,業界也在逐步利用機器學習和人工智能等技術來處理這些數據,以獲取更智能化的效果。目前的問題是,沒有一個有效的框架能融合上述三種數據類型,實現真正的由物聯到數聯,再到智聯的過程。因此,本文提出了一個統一的物聯數據模型建模框架,并對其中的感知數據模塊進行了詳細分析。
基于上節提出的物體、感知、事件三種數據類型,提出一個統一的物聯語義知識庫模型框架,并對框架的每個模型進行詳細的說明。

圖1 物聯數據建模分析框架模塊圖
本框架主要由6個模塊組成,分別是物模型、事件模型、感知數據模型、業務知識庫模型、互聯網知識庫模型和物聯語義知識庫模型;針對感知數據模型,又分為單維時序模型、多維時序模型以及時序網絡模型。其中,物模型、事件模型和感知數據模型是不可或缺的核心模塊;業務知識庫模型和互聯網知識庫模型是對整個模型的補充;物聯語義知識庫模型是以上幾個模型的融合,是一個大型的知識圖譜語義模型。在一個由“云-邊-端”構成的物聯網系統架構中,一般來說,物模型、事件模型以及實時感知數據模型是部署在邊緣側,為實時的數據處理提供推理分析,而歷史感知數據模型和物聯語義知識庫模型一般部署在云端,負責離線數據的融合、針對歷史數據的預測等。下面詳細介紹各個模塊。
物模型基于語義物聯網的標準對物體進行描述,建立物體的本體模型,并提供標準化的物體解析體系以及物體集成管理方法,核心內容包括如下幾個方面:
(1)物聯本體建模:解決物體是什么的問題
對物聯基礎設施及物聯基礎設施產生的數據進行標準化歸納、整理,形成一套完整的數據目錄(元數據),在此基礎上抽象出一套適合物聯基礎設施服務場景的本體。
(2)物聯解析體系:解決物體接入、發現的問題
物體發現主要是對新接入物體的物名、能力、位置等核心要素進行解析,以達到物體識別的功能,只有物聯知識庫識別到物體,才能正確地使用物體的能力,具體包括物名標識解析、能力標識解析、位置標識解析等。
(3)物體使能體系:解決物體怎么用的問題
負責物體的管理與集成,對外提供統一接口的能力服務,具體包括物體接入管理、能力管理、能力集成管理等。
事件模型是基于物體的能力體系,為數據的流轉、邏輯因果推理提供描述方法及解析等。物體與其他交互物(包括人、物等)發生一定動作時會產生一個基于主體、時間、位置等的事件,事件的發生存在一定的順序關系,在物模型的基礎上,事件之間建立相應的事理圖譜(知識圖譜的一種類型),基于事理圖譜也可以進行推理和分析,具體主要完成如下幾塊的內容:
第一,數據流轉:針對環境狀態和物體能力,對獲取的數據進行合理的分配;
第二,因果推理:針對異常事件或動作,進行有效的因果推理,獲取合理的分析結果。
感知數據模型主要是針對感知設備產生的數據建立分析、預測等模型。物聯感知數據具有時空性、關聯性、質量差、海量和非結構性等特點。空間時效性是物聯感知數據的固有屬性,所有原始數據在缺省狀態下都具有時間、空間和設備戳,即表示在特定時間、地點在特定設備上收集的。針對這些數據特點,下面主要針對數值型的感知數據進行分類:
(1)單傳感器節點,單維時序模型
單傳感器節點獲取單個維度的感知數據,并且感知數據隨著時間演變,傳統的時序數據分析都是針對單維屬性進行的,也就是只考慮歷史數據的影響。

圖2 單傳感器節點單維時序模型
(2)單感知數據節點,多維時序模型
單傳感器節點同時獲取多個維度的感知數據,并且這些維度存在一定的相關性,感知數據也隨著時間演變,可以看做是多維或多元時間序列。

圖3 單感知數據節點多維時序模型
(3)多感知數據節點時序圖模型
大量的傳感器被部署在各個地方連續地、協同地監測周圍的環境,如空氣質量。這些檢測器生成很多時空序列數據,之間有著空間相關性。預測這些時空數據很有挑戰,因為預測受很多因素影響,比如動態的時空關聯和其他因素。傳感器的讀數取決于歷史的記錄數據和鄰近傳感器的讀數,而這些影響的權重是隨著位置和時間不斷變化的。因此,在物聯網應用建模時,應當充分考慮并表達物理個體之間的關系特別是直接的關系。各個物理個體除以上論述的實時收集的時空數據之外,也應充分表達它們之間的連結關系。在一些應用中,這些連結關系也會隨著時空的轉換而發生變化(例如智能交通中車輛之間的關系)。模型本身應有充分的能力來表達直接關系,以方便推理間接關系。
因此,針對多傳感器節點獲取的感知數據(可以是上述的單維或多維情況)可以構成時空網絡,是指同一時刻多個多傳感器節點相互影響,構成了一個靜態圖結構,而不同時刻的圖數據結構,就構成了時序圖,時序圖顯示了各感知數據間相互影響、動態演變的過程。

圖4 多感知數據節點時序圖模型
在物聯應用中,各個物理對象不是獨立存在的,它們之間存在復雜多樣的關聯。其中一些關聯是直接的,另一些是間接隱含的。例如:在智能電網中,不同用電戶在物理電網上的相對位置會影響他們之間的關系和關聯程度;在交通運輸中,路網上游、中游和下游的車流量是與路網的網絡結構以及道路的距離長度緊密相關的;在環境監測中,不同污染源的相對位置和相對獨立性,都會對監測系統的設計與實現帶來影響。以路網中追捕逃犯車輛為例,路網中的各種傳感器(物模型)獲取每個感知節點的人流、車流情況,并對未來某個時間段利用時序模型進行預測(時序網絡模型:如圖5路網中的上下游在人流、車流的感知上存在一定的滯后性,也就是相關性),路網中的路卡設備可以根據預測的結果實時對路網進行截斷 (事件模型),同時根據預測結果合理分配警力資源的數量、所需占據的有利位置(業務知識庫模型)等。
這些物聯應用都是建立在數聯的基礎之上,因此,在物模型、事件模型、時序模型、時序圖模型的基礎上,還需要在云端建立一個龐大的知識庫模型。該知識庫模型融合多源異構、多模態的數據,并對這些數據進行統一的表示學習,在某個相空間中建立統一的語義表示模型。通過打通物模型圖譜、事理圖譜、時序網絡圖譜、業務數據圖譜、互聯網圖譜,融合各圖譜之間的語義知識,獲得對各種數據的進一步認識,挖掘其價值。

圖5 路網中的逃犯追捕場景簡單演示
從2.3可知,數值型感知數據可以建模為單元時間序列、多元時間序列以及時序圖,其中所涉及到的圖網絡模型、序列模型、時序圖模型也可以在其他類型的感知數據中得到拓展應用。其中,序列模型一般解決數值、語音、文本等數據問題,圖模型或時序圖模型解決圖片、視頻等數據問題,但還得根據具體的數據建模具體分析。下面主要針對時序模型以及時序圖模型在預測上的方法進行詳細介紹。
指僅根據歷史時間序列的趨勢發展來預測未來時間序列的趨勢發展的方法,此類方法通過建立適當的數學模型擬合歷史時間趨勢曲線,根據所建模型預測未來時間序列的趨勢曲線,常見模型包括ARIMA、VAR、ARCH等[5-7]。單維時間序列方法所依賴的數據較簡單,只需要歷史時間序列趨勢曲線便可構建模型,因此可適用于多種場景,模型較為通用。但是,ARIMA不能對非線性關系進行建模,也不能對序列以外的其他因素進行建模,VAR雖然屬于多維時間序列模型,但也不能對非線性進行建模,而且它們都不能對多個節點序列之間的關系進行建模。
為提高預測的精度,機器學習算法被引入時序預測,此類方法根據具體的應用場景,選取可能影響預測值的特征,將這些特征引入模型,應用機器學習的分類/回歸模型來進行預測。為提取特征,機器學習方法需要多個維度的數據,預測精度較高,建立的模型較為復雜,但是模型往往不夠通用,針對不同應用場景需要重新提取特征,建立模型。現實預測中,機器學習方法往往結合傳統單維時序預測法來運用。基于機器學習的時間預測方法一般適用于多維時間序列分析,如 SVR[8]等,而像RNN、LSTM、GRU[9-11]等序列分析方法,也可以用于單維時間序列分析。
為了考慮節點之間的網絡關系,考慮各個節點的關系影響,時序圖方法也被用來解決該類問題。時序圖模型是指基于時間快照的圖模型,即每個時刻所有節點的關系都是一個固定的靜態圖,或者干脆只考慮其簡接關系即隱含的、可學習的關系。這些模型與上面的多元時間序列分析方法不同,需要通過模型直接學習空間關系而不是手動抽取結構特征,所以這種方法需要結合空間卷積或圖結構的學習方法,比如卷積網絡 (CNN)、圖神經網絡(GCN)等。隨著圖神經網絡的爆火,目前已經在車流預測上取得了一定的效果,涌現了STGCN、DCRNN[12-13]等時空序列模型。
物聯感知數據不僅包括傳感器獲得的數值數據,還包括圖片、視頻、語音、文本(人、物交互產生)等幾種類型。如果我們對本文提到的復雜系統以及內部的數據節點進行合理的映射,就基本可以對上述所有數據進行建模。例如,對于單維或多維序列模型,可以解決數值、語音、文本等數據建模、預測問題,例如車流/人流預測、文本翻譯等,對于時序圖模型可以解決圖片、視頻等數據建模、預測問題,例如物體識別、場景識別、人物姿態識別等,并且時序圖建模還可以應用于復雜物理系統的狀態預測和推理,例如自動駕駛、司機動作理解等。
近年來,物聯數據分析已成為數據挖掘領域的研究熱點,在國內外獲得了廣泛關注,本文從物聯基礎設施產生的數據種類出發,建立了基于物模型、事件模型、感知數據模型為核心的物聯數據建模分析框架,并著重分析了數值型感知數據的分析方法。清晰定義的建模理論框架將會給該研究領域帶來理論上的指導,一方面可更好地理解物聯數據種類及其具備的特點,另一方面也有助于物聯數據研究者提出更有效的分析技術。