劉玉翠 高鴻斌

摘要:隨著物聯網概念的提出,包含了大量感知設備的物聯網系統在各個領域越來越得以大量應用。感知設備時刻產生著大量孤立和異構的感知數據,形成數據孤島。通過將不同設備及其產生的數據信息進行語義標注,從而構建不同域的數據關聯模型,以便屏蔽數據異構性,實現語義信息的統一。該文以物聯網為研究對象,提出對于宏觀上的物聯網系統從語義入手,結合語義網知識,介紹了語義標注的基本概念義、語義標注的方法及作用以及物聯網傳感數據的語義標注。
關鍵詞:物聯網;語義標注;結構化數據
中圖分類號:TP393 文獻標識碼:A
文章編號:1009- 3044(2019)34-0246-02
物聯網是一個由傳感設備與信息交互所構成網絡系統。由于設備信息的不一致性和不確定性為信息協調和交互提出難題,針對這一問題將語義標注技術引入物聯網中從而利用語義物聯網解決數據異構性。隨著物聯網技術的廣泛應用,海量物聯網傳感數據具有多源性的特點,多種傳感數據在數據格式、數據屬性及其描述、通信協議等方面都具有異構問題。這種異構影響了數據的交互和共享融合,也影響了跨域數據間的處理理解和開發難度[1]。通過將不同感知設備及其產生的數據進行有效的語義標注、構建跨域的數據關聯模型,以便消除數據的異構性,實現各種設備及數據統一是物聯網研究的關鍵問題。
1 語義標注
物聯網的語義化為物聯網領域資源提供了新的組織知識的方式,語義物聯網的實現依賴于大量的、與各種形式化知識相關聯的物聯網內容元數據。當前語義網的發展迫切需要特定的、明確的和容易理解的語義元數據的創建和使用,也就是需要對當前的物聯網所有資源數據進行廣泛可用的語義標注。語義標注指的是通過語義元數據阮數據指的是描述數據的數據,通常指本體有XML、RDF、OWL等格式)為文檔資源添加語義標記識別語義信息的過程,使其具有語義信息,不僅人可以理解,而且使機器也可以理解。概括的講,語義標注是一個在領域本體指導下為文檔添加規范化知識表示的過程。
陳葉旺[2]等認為語義標注有對象、知識和方式三個基本要素。在網頁中產生的各種信息資源,如網頁、圖片等數據都是標注對象。標注知識是如概念、屬性實例等的本體元數據,這些元數據與Web資源是相對應的。標注方式按照標注方法分為自動、半自動和手動。語義標注依賴于某個特定領域知識,而領域知識成分可分為元知識和知識實例,元知識描述的是抽象領域本體關系,知識實例的描述是真實存在的具體知識單元[3]。
語義標注按照注釋的存儲方式可分為內嵌式和非內嵌式兩種[3]。語義標注信息是否與標注對象內容或標記知識相結合決定著標注的存儲方式。Kiryakov認為將標注信息內嵌到標注對象內容或知識中是相對容易的,但是對于復雜的標注采用內嵌式容易增加對象內容或知識的篇幅,同樣也增加了標注內容或知識的維護負擔。語義標注采用非內嵌方式將標注與內容和標注知識分離存儲,對標注知識采用映射的方式相聯系,可以減少內嵌標注的副作用。
2 語義標注的方法及作用
簡單來說語義標注就是為各種資源數據標注含義,使得機器對大量的數據進行學習從而認識世界。數據本身是沒有語義的,需要特定人員對數據標注語義,標注語義的方法有手工標注、半自動標注和自動標注。人工標注,需要專業人確定資源概念集、分析對象內容結構、選擇元數據元素、并用如RDF或HTML語言進行標注。半自動標注,是利用數據的DTD或Schema定義內容元素和結構,通過映射關系自動地將標記轉換為對應的概念元數據。自動標注,是利用大量的標注數據進行機器學習,從而對未標注的數據自動的將標注信息添加到標注對象內容或標注知識中[5]。
語義標注的工作就是將現實應用中涉及的實例標記與抽象的本體概念相聯系,通過解析對本體添加知識單元。與數據庫相似領域本體的Schema就如建立好的數據庫表,語義標注就是添加對數據庫表添加具體實例的過程。通過對數據資源的語義標注,內容提供者可以更好地組織信息,計算機能夠更加方便的理解和處理數據的語義信息,用戶可以更好地獲取和利用信息。下面列舉了幾個標注的輔助工具[6]。
(1) SHOE Knowledge Annotizer是由Maryland大學本體工作小組研發的。SHOE是HTML的一個小擴展程序,使用者通過圖形的方式利用機器可讀SHOE知識來進行語義標注,而不必使用HTML,它適合手動標注的方式。
(2) BriefingAnnotizer是在TeKnowledge項目下開發的基于PowerPoint環境語義標注工具,它將這些標注隱藏在PowerPoint文檔中。它能夠用于手動標注的場合。
(3) SMORE由Maryland大學研究開發的,該工具為內容的發布和語義標注提供了集成環境,還擴充了其他標注平臺所不具備的許多特性。能夠應用于圖像視頻和E-mail等格式的標注。
(4) Annotea由W3C組織開發,是基于通用開放式RDF框架下的Web共享的標注系統,它采用C/S結構將關系數據庫中元數據及實例存于標注服務器中,這使得讀取標注內容更加方便。它適用于半自動標注場合。
(5) OntoMatAnnotizer是用于對網頁信息進行標注工具,該工具可以對已有的網頁進行標注,也可以標注和生成同時進行,最終的目標是生成帶標注的頁面,它通過對DAML+OIL標記解析得到實例和關系。它適用于自動標注的方法。
(6) Armadilo是一個自動系統,用于在大型倉庫中生成特定于領域語義Web的注釋,對于語義網它可以自動從Web上的文檔生成實例標簽。其自動的提取眾多來源的數據集成到知識庫中。
手動標注是人工手動將要標注的語義內容寫入本體中,半自動標注是利用標注工具將語義內容拖拽到本體。自動標注是需要通過訓練后實現自動的將語義信息寫入本體中。人工標注由于是專業人員及技術工程師合作手動完成的,對于本領域的標注準確率比較高,最后的審查工作也會比較輕松,然而對于本專業以外的語義信息專業性卻不強,而且仍容易受個人的主觀因素所影響,面對海量的數據信息也比較耗時費力。人工標注比較適用于數據量信息有限的單一本體。
半自動標注以及自動標注的準確率沒有人工標注的高,最后審查的工作仍然需要人工進行審查以及修改,工作量雖然大相比較人工標注海量信息卻少了很多。半自動標注采用機器和人工干預來提高標注的準確性,而且效率會比人工手動標注快很多,半自動標注與自動標注相比較而言,還不能以準確的方式自動識別和分類源數據中的所有實體。自動標注解決了現有本體所需的擴展性,減少了工作人員的工作量。
3 對物聯網傳感數據的語義標注
在物聯網方面,隨著物聯網領域技術的發展,目前都是設計定制方案對具體領域特定應用的傳感數據進行描述,數據屬性的結構化較強,數據很難被跨域理解和處理。針對這一問題,采用了一種面向物聯網數據屬性的語義標注方法[1]。通過利用本體架構對物聯網數據屬性語義標注,在本體服務器端運行MYsoL數據庫和Perl腳本,將元數據與數據信息抽象出來,使得數據屬性獨立于具體應用而存在。
根據物聯網傳感數據的特點,可知按照數據變化能夠分為動態和靜態這兩種屬性。動態屬性是由于傳感設備不斷采集和數據信息實時變化而產生的,如采集能源類設備。靜態屬性是由傳感設備不斷采集而數據信息幾乎不變化的屬性,如RFID。針對物聯網傳感數據這一特點對數據屬性采用人工標注,可以對數據的靜態屬性能夠較為精準的判別,但是對于不斷實時變化動態屬性人工標注就比較費力,不能及時的滿足數據標注需求。
采用自動半自動對物聯網的傳感數據進行標注,雖然數據標注的靜態屬性準確率沒有人工的準確率高,對于實時變化的動態屬性可以采用機器進行語義標注減少人工標注的工作量,增加了工作效率。采用全自動的語義標注手段,能夠更加及時和有效率地完成,同時人工參與的工作量也大大地減少。僅針對物聯網的傳感數據相比較半自動標注來說,自動標準的及時性和有效性較高一些。
4 結束語
這篇論文介紹了一種基于物聯網數據屬性的語義標注方法,目前比較常見的語義標注方法就是手動、半自動和自動。通過對設備信息的有效語義化標注,能夠實現不同設備的數據屬性進行統一化描述,同時使得數據模式變得更為靈活。對于數據信息的標注不僅能夠清晰的表達數據的物理意義和提升數據的價值,而且方便計算機對數據的深入理解和智能化的操作,為物聯網領域異構資源的融合共享和交互協提供了有力的技術支撐。根據語義標注的方法特點,針對物聯網的傳感數據特點,提出了一種自動和手動相結合的語義標注設想,對于數據的靜態屬性采用人工標注,對于數據的動態屬性采用自動標注。但是手動標注和自動標注相結合的方法對于物聯網的工作效率和準確率是否能夠提高,還有待進一步的研究。如果可行既可以提高準確率,也能相對地減少人工的工作量,對于動態數據也能及時標注。
參考文獻:
[1]施昭,劉陽,曾鵬,等,面向物聯網的傳感數據屬性語義化標注方法[J].中國科學:信息科學,2015,45(6):739-751.
[2]陳葉旺,李文,彭鑫.基于本體的文檔語義標注改進方法[J].東南大學學報:自然科學版,2009(6):1109-1113.
[3]傅柱.語義標注研究綜述[J].圖書館學研究,2016(4):10-17.
[4]時念云,楊晨,基于領域本體的語義標注方法研究[J].計算機工程與設計,2007,28(24):5985-5987.
[5]鄒亮,廖述梅.基于本體的語義標注工具比較與分析[J].計算機應用,2004,24(s1):328-330.
【通聯編輯:代影】
收稿日期:2019-08-29
作者簡介:劉玉翠(1994-),女,河北張家口人,河北科技大學信息科學與工程學院計算機技術專業,碩士,研究方向為計算機應用與物聯網;高鴻斌(1964-),男,河北高碑店人,河北科技大學信息科學與工程學院計算機技術專業,教授,碩士,研究方向為計算機應用與物聯網。