999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

西藏智慧畜牧業領域大數據融合:概念、架構與技術

2018-09-26 11:30:48趙爾平黨紅恩劉煒
軟件導刊 2018年7期

趙爾平 黨紅恩 劉煒

摘 要:目前大數據融合技術都是在靜態單模態數據集上進行的,沒有關注大規模數據的多源、異構、不確定和跨語言特性,而西藏畜牧業領域大數據是多源、異構、跨語言的多模態數據。為此,給出西藏畜牧業領域大數據融合技術架構,提出屬性聚類的異構數據源模式對齊,基于領域特征的多模態實體鏈接,面向開放模式實體語義關系挖掘的大數據融合技術,以及基于多模態特征的知識表示和建模、面向領域的深度知識發現與預測、特定領域特征普適機理凝練的知識融合技術。

關鍵詞:大數據融合;知識融合;知識庫;智慧畜牧業

DOI:10.11907/rjdk.181019

中圖分類號:TP3-0

文獻標識碼:A 文章編號:1672-7800(2018)007-0001-04

Abstract:With present, big data fusion technology was based on static and single-mode data set, without paying attention to the characteristics of multi-source, heterogeneity, uncertainty and cross-language in large-scale data. Big data in Tibet animal husbandry was multi-modal data of multi-source,heterogeneity and cross-language. In this paper we proposed a heterogeneous data source pattern alignment to develop big data fusion technology in Tibetan animal husbandry field based on attribute clustering, the domain-oriented multi-modal entity linking and open-oriented entity semantic relation mining; we further proposed knowledge representation and modeling based on multi-modal features, domain-oriented deep knowledge discovery and forecast, general mechanisms concision based on the specific-domain features .

Key Words:big data fusion; knowledge fusion; knowledge base; wisdom animal husbandry

0 引言

西藏草原位于海拔4 000~5 000m高原,草原面積居我國五大牧區之首。多年來由于過度放牧、病蟲災害、缺乏科學管理等原因,草原退化面積達2 346.67萬hm2之多,這種狀況威脅著西藏生態環境保護和畜牧業發展。為此,西藏各級政府采取各種科學措施對氣候、草原、牲畜、牧場、牲畜圍欄數、草原植被沙和病蟲等自然災害進行科學檢測。例如,西藏草原生態衛星遙感監測系統借助衛星遙感長時間序列獲取西藏七大草原植被長勢、草原利用、生態狀況等動態變化數據;ChinaFLUX當雄觀測站對青藏高原高寒草甸和濕地、羌塘草原生態系統的水、碳、氮循環進行實時檢測;西藏高寒草地氣象災害和牧草長勢監測系統2016年正式投入運行,實時檢測和采集西藏高寒草地氣象災害、濕度、溫度、病蟲害、鼠災、日植被指數、牧草長勢等動態變化指數數據;中科院西藏地區集中養殖場信息管理系統通過溫度、濕度、RFID、GPS、壓力、光學等傳感器等實時檢測和管理集中養殖場牲畜,收集海量數據,對畜產品進行追蹤溯源。近幾年,“互聯網+”智慧畜牧業正在快速發展,例如西藏“農牧管家”云服務平臺于2015年上線,為牧民提供科技、市場、文化、醫療、衛生、氣象等服務。這些檢測與服務系統必將產生海量大數據。以拉薩、林芝、日喀則三地為中心的西藏互聯網數據中心建成,可為各系統實現互聯互通和云數據交互提供網絡服務與保障。

但是西藏畜牧業領域大數據是割裂的、多源異構的多模態數據,這些數據源既有結構化的關系型數據、半結構化數據,又有非結構化數據,如文本、圖像、傳感器數據等。而這些多源、異構的領域大數據只有融合起來才能發揮最大價值。多源、異構大數據融合引起了學術界和企業界普遍關注。

1 數據融合概念及研究現狀

雖然數據產生方式變得越來越多樣化,但是數據之間卻存在著錯綜復雜的關系,呈現出大規模數據關聯、交叉和融合的局面[1]。數據融合是指利用計算機技術對數據源的信息自動預處理,自動分析及綜合,使數據變為知識,從而完成所需的決策和評估任務。大數據融合問題近年來引起了廣泛關注,學術界和工業界爭相提出解決方法,比如,面向開放領域的知識庫(Knowledge Base,KB)技術[2]、關聯數據(Linked Data)集成技術[3]、大數據集成技術[4]等。這些技術在結構化、半結構化與非結構化等各種類型的數據處理上形成優勢,并被廣泛使用。

基于領域特征的數據融合技術有實體連接研究和實體語義關系挖掘等。例如圖像語義信息提取與實體連接,必須在統一地理坐標系中獲取圖像表示的語義信息,然后在語義信息中提取實體。利用圖像分割算法和機器深度學習抽取圖像中的標題語義,從標題語義中抽取實體并聚類,然后把實體連接到維基百科知識庫獲取圖像標題知識[5]。抽取圖像中帶名稱的對象的名字,對文本中詞性標注、句法分析、指代消解和實體識別,使得文本中的實體和圖像上檢測到的實體鏈接起來[6]。這些技術適用于西藏冰雪覆蓋變化遙感圖像數據中提取實體信息。命名實體識別采用監督或者半監督的學習對實體抽取人名、地名、機構名等6類名詞,例如SACRF[7]采用人工與機器自動相結合方式進行標注訓練語料,抽取命名實體。命名實體消歧是指把多個別名的實體或代表不同含義的同名實體映射到特定領域知識庫獲取正確解釋,通常采用相似度、重合度方法實現。實體語義關系研究方法有基于名字詞典技術、語義數據模型的Web數據連接工具集、深層結構語義模型、分類挖掘模式、實體、實體屬性和實體間關系圖的分析方法[8]。

目前,知識庫有維基百科(Wikipediapedia)、Freebase、YAGO、Mi-crosoft's Satori和谷歌知識圖譜(Google′s Knowledge Graph),以及百度和搜狗等關聯數據庫。知識庫構建技術有DeepDiv[9]是利用統計推理與機器學習與數據庫技術結合構建知識庫。構建跨語言的關聯數據有助于提高現有關聯知識庫的覆蓋率,但是跨語言數據關聯方面的研究非常少。蘇永浩等[10]利用跨語言實體鏈接模型( RSVM) ,基于候選鏈接分類排序原理實現,借助漢英詞典和WordNet中的集合( Synset) 計算文本中的名詞相似度。知識表示與建模對知識分析、推論、融合起到重要作用,為后續知識融合提供方便,最常用知識表示為三元組RDF(Resource Description Framework),RDF圖用其攜帶的3種信息——描述性屬性、語義關系和語義圖結構。此外,面向領域的深度知識發現與普適機理凝練、知識融合依然缺乏對知識資源中存在的關系普適化,要從理性或直覺中建立問題模型,通過對數據呈現的現象進行概括性描述或者歸納學習得到普適模型,然后將模型與數據結合提供適當的泛化能力,比如,“谷歌大腦”可以通過深度學習無監督地辨別任何貓[11]。人的智力能透過現象看到本質,只有發現大數據所呈現出的普遍現象背后的普適原理,才能對客觀世界產生更大的影響。

但是現有大數據融合方案大多沒有充分考慮大規模復雜關聯數據多源性、異構、不確定和跨語言等特性,即現有研究成果大都是基于靜態的、單模態數據集上的數據融合技術研究。

2 畜牧業領域大數據特征

西藏畜牧業領域各種監測與管理系統物理上相互隔離,數據庫采用分布式存儲,它們產生的海量數據具有多源異構、時空敏感、信息缺失、碎片化、動態流式等特性,從而不能直接互聯和數據共享。具體分析這些檢測與服務系統產生的大數據,存在以下幾個問題:

2.1 海量數據存在多源異構

數據體積龐大,數據存在多源性、異構性。例如西藏草原生態衛星遙感監測系統是對觀測數據分析后的文本數據;西藏冰雪覆蓋變化監測系統是大量圖像數據和文本數據;ChinaFLUX通量觀測系統不帶顯示空間信息的關系型數據;西藏高寒草地氣象災害監測和牧草長勢監測系統及中科院西藏地區集中養殖場信息管理系統是利用不同類型傳感器實時采集數據,數據具有時空特性,這兩個系統都是帶有時空信息的關系型數據庫;“農牧管家”云服務平臺、西藏農牧科技云平臺等都是結構化和半結構化Web數據。智慧畜牧業檢測與服務互聯互通、信息整合與共享存在數據多源異構問題。

2.2 數據孤立堆積、價值取向單一

西藏畜牧業領域大數據在監管部門內孤立堆積,未能共享,缺乏深層語義信息挖掘與數據高度融合。例如牧草長勢、植被指數、病蟲害和鼠災等數據不能被養殖場集中管理系統共享,僅供政府部門統計草原生態指數。又如冰雪檢測數據可以預測草原濕度、牧草長勢,而牧草長勢可以預測鼠兔繁殖和鼠災,牧草長勢決定集中養殖場牲畜圍欄數等,這些孤立數據之間存在關聯關系和深層語義信息未被挖掘出來,造成不同系統檢測大數據價值取向單一。

2.3 數據未能轉化領域知識

西藏畜牧業領域大規模數據存在多源、異構、異質、孤立、跨語言、缺乏融合與普適機理凝練等缺點,海量大數據未能轉化為領域知識和知識庫,從而沒有最大化發揮大數據價值。以大規模、多源異構、跨領域、跨媒體、跨語言、動態演化、普適化為主要特征的大數據價值最大化發揮的關鍵在于數據融合(data fusion)[12]。2012達沃斯世界經濟論壇發布的大數據報告,探討了面對新數據產生方式下如何通過數據融合技術更好地利用數據產生良好的社會效益[13]。由此可見,通過數據融合可使西藏畜牧業領域物理上相互隔離、多源、異構和異質大數據能夠融合到統一的數據平臺上。這些大數據缺乏普適機理凝練,牲畜數據不僅與疾病數據存在知識關系,也與藏藥存在隱喻知識關系,例如藏草藥與其可以治療牲畜疾病存在知識關系。通過大數據融合技術使得畜牧業領域大數據轉化為領域知識,構建領域知識庫讓牧民透明訪問,為牧民提供便捷服務。多源、異構、跨語言數據融合技術是西藏智慧畜牧業領域亟待解決的問題,融合這類數據成為有效的分析數據集具有挑戰性。

3 西藏智慧畜牧業大數據融合

本文旨在利用西藏畜牧業領域現有氣象、冰雪覆蓋、草原、牲畜、鼠災、病蟲害、集中養殖場信息管理系統實時采集的多源異構數據進行融合,利用維基百科藏文版(https://bo.Wikipediapedia.org/Wikipedia/)、維基百科漢文版(https://zh.Wikipediapedia.org Wikipedia/)及互聯網知識進行融合,構建西藏畜牧業領域知識庫,方便西藏牧民通過西藏“農牧管家”云服務平臺、西藏農牧科技云等畜牧業服務平臺透明訪問畜牧業有關的信息和科普知識,西藏智慧畜牧業大數據融合技術框架如圖1所示。

4 大數據融合核心技術

4.1 屬性聚類的異構數據源模式對齊

現有模式對齊方法都沒有解決關聯數據源模式對齊過程中的結構非匹配問題,即現有方法要求兩個關聯數據庫的結構必須完全一致。對于結構化數據源可以利用聚類算中的K-MEANS算法劃分法把每個數據源屬性劃分為K簇進行屬性聚類,實現模式對齊;同時利用平均值法實現元組數據對齊。非結構化數據源盡管數據源是異構的,但是同一領域數據具有關聯性,實體類型和結構具有相似性,利用深度學習對齊技術在邏輯層面完成對齊,以解決關聯數據庫結構的非匹配問題。

4.2 基于領域特征的多模態實體鏈接

4.2.1 遙感圖像語義信息提取與實體連接

西藏草原衛星遙感監測系統產生大量長時間序列遙感圖像數據,需要提取它的語義信息,語義信息中包含牧草長勢、覆蓋度動態變化以及植被干旱指數、草原退化、沙化指數。對遙感圖像數據進行處理,提取其歸一化差分植被指數NDVI(Normalized Difference Vegetation Index)、草原干旱指數GDI(Grassland drought index)、沙化差分指數DDI(desertification defference index)、草原退化指數等。從語義信息中識別實體和實體屬性信息,挖掘實體間的語義關系,然后把實體關聯到領域知識庫。

4.2.2 領域特征命名實體識別與消歧

借助領域特征實現命名實體識別功能,利用畜牧業領域特征,人工抽取典型領域特征實體名并構建領域實體字典。例如抽取西藏所有草原名稱、西藏地名、牧區名、雪山名、湖泊名、牲畜名、植物名和藏藥名等。人工構造已知實體別名字典以及實體名與其別名的關聯關系。利用實體字典、別名字典與機器學習結合方法,實現未知實體名和別名的識別與抽取。

西藏畜牧業領域實體歧義性比較少,但也有一些,例如 “螃蟹甲”是生長在西藏特有的多年生草本植物,是一種藏區中草藥,能治感冒咳嗽、支氣管炎,同時“螃蟹甲”又是地名(武漢市內一座小山);“雪蓮花”既指西藏中草藥名字又是歌曲名字,存在實體名稱歧義性問題。命名實體消歧時充分利用高原、雪山、藏族、雪頓節、象雄文明等地域特征和高寒草原、藏羚羊、鼠兔、冬蟲夏草等領域特征為前提條件,利用聚類方法計算歧義實體上下文之間的相似度進行消歧。主要思路就是使用知識庫計算實體間的語義聯系,利用它更好地衡量歧義實體上下文之間的相關度,從而消歧。

4.3 面向開放模式的實體語義關系挖掘

識別新實體間的語義關系及實體屬性信息可以提高大數據理解和分析的準確率,并且可以用于對關聯數據庫或知識庫擴充。已有一些研究成果還存在不足:一方面,傳統關系抽取或者開放領域中的關系抽取通常是針對某些特定類型集合的實體及其語義關系,比如需要預先定義實體類型和關聯類型或領域相關的種子實例、種子模式,這樣做僅能覆蓋部分概念類型,會嚴重影響抽取關系的覆蓋率,尤其是大規模知識抽取。但是西藏畜牧業大數據具有多模態特征,使得實體類型以及實體之間語義關系的類型繁多。所以需要在開放模式下對實體語義關系進行抽取,以提高抽取關系的覆蓋率。另一方面,現有實體語義關系抽取方法基本都是針對單個句子,不能抽取位于多個句子中實體對間的語義關聯性,并且抽取到的關系質量參差不齊。但是,西藏畜牧業領域數據不僅規模大,且帶有長時間序列特征,所以可利用長時間序列特征抽取位于多個句子中的實體對間的語義關聯性,篩選高價值量關系,以提高抽取關系的召回率。

4.4 基于領域特征的知識融合技術

4.4.1 基于多模態特征的知識表示與建模

知識表示與建模對知識分析、推論、融合、完全甚至決策有著至關重要的作用,它不僅是把機器不易讀的數據轉化為機器可理解的形式,還能增強準確性。西藏畜牧業大數據是一種多源、離散分布的數據,以圖像、關系數據、三元組和文本為主,每種數據獨立分析和應用局限性大,多種模態數據聯合使用可以互補優缺。但是目前已有的知識表示學習方法多是基于元組或者基于文本,對于元組—文本、元組—圖片、元組—關系數據聯合的情況較少。其實,單純基于元組的表示學習方法缺乏語義,單純基于文本的方法對歧義性較為敏感,而文本、圖片和關系數據對語義信息的挖掘、消岐與補全有重要意義,可以有效輔助知識表示學習。所以,本文擬針對西藏畜牧業大數據中實體與關系的自身特點建立知識表示空間,比如嵌入表示為低維稠密的向量空間,實現知識遷移,為后續的深度知識發現和普適模式發現奠定基礎。

4.4.2 面向領域的深度知識發現與預測

為了更好地挖掘大數據中潛在的價值,服務于西藏畜牧業,首先需要挖掘隱含知識,尋找潛在知識關聯,進而作出預測和決策,主要包含以下3種:①關系型深度知識,如氣候變化與牧草產量的關系、牧民位置與生產水平的關系;②數據分布型深度知識,如積雪分布特征、牧場分布特征、牧民居住特征等;③性質型深度知識,如局部封閉世界、長時間序列等。其次采用潛在語義分析、統計推斷等技術提取數據特征,基于深度學習技術構建分析預測模型,并利用商務智能理論、計量經濟模型和集成學習方法構造決策模型。

4.4.3 西藏畜牧業領域特征的普適機理凝練

當前知識融合依然缺乏對知識資源中存在的關系普適化,并且只有發現大數據所呈現出的普遍現象背后的普適原理才能對客觀世界產生更大影響。對西藏畜牧業大數據呈現的現象進行概括性描述或者歸納學習得到普適模型,并將模型與數據結合提供適當的泛化能力,進而得出具有西藏鮮明區域特色的普適機理。例如西藏雪深呈四周山地雪深大、中部腹地雪深小的空間格局[14],而雪深與降水、牧草產量、牲畜圍欄數呈正相關。

5 結語

本文以西藏畜牧業領域大數據為研究對象,分析大數據融合技術現狀與存在的問題:該領域大數據特征及因缺乏融合使得這些數據未能發揮最大價值。介紹了大數據融合概念,給出該領域大數據融合技術框架,提出適合該領域大數據融合的技術與方法、基于西藏畜牧業領域特征的知識融合技術與方法,并對這些技術和方法進行詳細論述。

參考文獻:

[1] SUCHANEK F, WEIKUM G. Knowledge harvesting in the big-data era[C]. Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data,2013:933-938.

[2] DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD),2014:601-610.

[3] SMIRNOV P A, KOVALCHUK S V. Linked-data integration for workflow-based computational experiments[J]. Communications in Computer & Information Science.2014,46(8):175-183.

[4] DONG X L, SRIVASTAVA D. Big data integration[C].Proceedings of Data Engineering (ICDE), 2013 IEEE 29th International Conference on,2013:1245-1248.

[5] LYDIA W, IOANA H. Understanding the message of images with knowledge base traversals[C]. Proceedings of The 2nd ACM International Conference on the Theory of Information Retrieval(ICTIR ‘16),2016:199-208.

[6] REBECKA W, LINUS H, AGNES T, et al. Visual entity linking: a preliminary study[C]. Proceedings of Workshops at the Twenty-Eighth AAAI Conference on Artificial Intelligence(AAAI-14),2014:46-49.

[7] 鐘志農,劉方馳,吳燁,等.主動學習與自學習的中文命名實體識別[J].國防科技大學學報,2014,36(4):82-88.

[8] MICHAL H, ONDREJ P, MARIA B. Detecting identical entities in the semantic web data[C]. Proceedings of the 41st International Conference on Current Trends in Theory and Practice of Computer Science(SOFSEM 2015),2015:519-530.

[9] CHRISTOPHER D, ALEX R, CHRISTOPHER RE. Deepdive: declarative knowledge base construction[J].SIGMOD Record,2016,45(1):60-67.

[10] 蘇永浩,張馳,程文亮,等. CLEQS——基于知識圖譜構建的跨語言實體查詢系統[J].計算機應用,2016,36(s1):204-206.

[11] YOSHUA B. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-127.

[12] 孟小峰,杜治娟.大數據融合研究:問題與挑戰[J].計算機研究與發展,2016,53(2):1-16.

[13] WORLD E F. Big data, big impact:New possibilities for international developent[R/OL]. https://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development.

[14] 白淑英,史建橋,沈胃壽,等.近30年西藏雪深時空變化及其對氣候變化的響應[J].國土資源遙感,2014,26(1):144-151.

(責任編輯:何 麗)

主站蜘蛛池模板: Jizz国产色系免费| 亚洲一欧洲中文字幕在线| 国产精品网址在线观看你懂的| 国产欧美日本在线观看| 久久久精品国产亚洲AV日韩| 国产免费高清无需播放器| 在线欧美a| 欧美日韩亚洲国产主播第一区| 欧美性精品不卡在线观看| 亚洲综合国产一区二区三区| 亚洲高清在线播放| 青青青国产视频手机| 九色91在线视频| 日韩精品无码不卡无码| 亚洲—日韩aV在线| 美女国内精品自产拍在线播放| 高清无码一本到东京热| 久久人搡人人玩人妻精品| 欧美另类视频一区二区三区| 97久久精品人人做人人爽| 国产人人射| 性色生活片在线观看| 亚洲综合欧美在线一区在线播放| 在线视频亚洲色图| 伊人久久大香线蕉影院| 综合成人国产| 青草视频免费在线观看| 亚洲一区二区视频在线观看| 91免费在线看| 全色黄大色大片免费久久老太| 亚洲精品欧美日本中文字幕| 国产自在线拍| 操国产美女| 精品国产91爱| 26uuu国产精品视频| 久久综合久久鬼| 美女扒开下面流白浆在线试听| 2021国产乱人伦在线播放| 天堂成人在线| 国产精品视频久| 免费午夜无码18禁无码影院| 色妞www精品视频一级下载| 国产91精选在线观看| 黄色网页在线播放| 91精品久久久无码中文字幕vr| 情侣午夜国产在线一区无码| 狠狠色综合久久狠狠色综合| 一级毛片基地| 欧美日韩一区二区在线免费观看| 国产91高清视频| 成人午夜天| 国产精品综合久久久| 一级做a爰片久久毛片毛片| 国产男女XX00免费观看| 在线永久免费观看的毛片| 国产精品成| 99在线免费播放| 日本免费一区视频| 亚洲欧美日韩另类| 日本AⅤ精品一区二区三区日| 日本影院一区| 小蝌蚪亚洲精品国产| 亚洲日本韩在线观看| 香蕉久久永久视频| 99热这里只有精品2| 久久精品国产国语对白| 免费无码又爽又黄又刺激网站| 欧美日韩精品综合在线一区| 色综合热无码热国产| 亚洲欧美精品日韩欧美| 狠狠操夜夜爽| 黄色成年视频| 黄色污网站在线观看| 国产一级特黄aa级特黄裸毛片| 国产亚洲现在一区二区中文| 国产丰满成熟女性性满足视频| 中文字幕 欧美日韩| 在线五月婷婷| 无码av免费不卡在线观看| 国产在线高清一级毛片| 人妻少妇久久久久久97人妻| 久久无码av三级|