999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

氣象記錄檔案知識圖譜構建①

2022-02-15 06:39:48江雙五劉惠蘭溫華洋
計算機系統應用 2022年1期
關鍵詞:概念

江雙五,劉惠蘭,溫華洋,謝 偉

(安徽省氣象信息中心,合肥 230031)

1 引言

氣象記錄檔案是氣象觀測和探測中形成的氣象要素、天氣現象及其變化過程的真實記錄,是基礎性的氣象信息資源.目前全國各類氣象檔案館存儲并管理著始于19世紀中期以來的各類氣象記錄檔案,這些檔案形成的“資源倉庫”是開展氣象領域及相關行業科學技術研究的重要資源,是研究我國近代氣候變化不可替代的基礎性資料和國家基礎性戰略資源.

2018 年,中國氣象局組織安徽、河北、山東和湖北4 省開展數字氣象檔案館試點建設工作,以館藏檔案社會化利用為目的,期望各試點省積極利用大數據、語義網等信息技術推動氣象檔案管理和利用方法的創新改變,其中一個重要的試點建設內容是面向全國氣象檔案館建立一個語義化、智能化的氣象檔案管理系統.而數字氣象檔案管理系統后臺的挖掘算法和相關統計查詢的分析效果直接依賴于背景知識圖譜的構建質量.高質量的氣象檔案知識圖譜的建立不僅為我國氣象檔案的知識組織提供理論框架,同時也為推動氣象檔案的社會化利用提供重要的技術支撐.

2 相關研究

2.1 本體

1991 年,Neches 等人[1]將本體定義為構成相關領域詞匯的基本術語和關系;1993年,Gruber[2]將本體定義為“一種概念化的精確的規格說明”;1998年,Studer等人[3]將本體定義為“共享概念模型的明確形式化規范說明”.隨著專家學者們對本體知識認識的不斷深入,目前科學研究工作者普遍將本體定義為特定領域內的概念、屬性以及之間關系.

我國在領域本體構建方面已經取得了一些初步成果,如醫療領域本體知識庫[4]、多民族語言本體知識庫[5]和中文語言本體知識庫.在氣象領域方面少數的氣象工作者也開展了本領域本體構建的探索,如陳梅對大氣污染和其相關因素進行了本體建模[6];何險峰開展了氣象災害本體的設計[7];羅煒基于氣象數據集開展了本體的構建[8]等.但查詢公開發表的文獻,氣象檔案領域本體構建方面國內還鮮有高質量的知識庫.

2.2 知識圖譜

知識圖譜概念是從早期的語義知識網演變而來的.目前,知識圖譜研究方向分為通用知識圖譜和特定行業知識圖譜.通用知識圖譜主要利用現實生活中的大量常識性知識來構建,為互聯網查詢能力的智能化提供支持;特定行業知識圖譜主要利用行業數據來構建,為行業數據智能利用提供支持.當前,醫藥、軍事和產業等不同行業都在探索構建適合本領域的知識圖譜[9–22].國內外研究顯示檔案領域的知識圖譜構建研究尚處于起步階段,雷杰等利用EAD、DCMI、VIVO、SWRC、Schema.org 等現有較為通用的本體構建科研檔案管理知識圖譜[23],氣象領域知識圖譜的研究同樣處于起步階段,大多以公開發表的文獻為資源開展知識圖譜構建研究,王建勛等人[24]對1995–2017年中國知網的數據庫中有關干旱遙感監測研究的642 篇文獻進行可視化分析得到知識圖譜,王萍等人[25]利用文獻分析工具對2000–2017年中國知識資源總庫中關于災害風險研究的2890 篇中文文獻進行分析,繪制出災害風險研究的熱點、關鍵詞共現矩陣、核心作者群及研究機構的知識結構圖譜.李莉等人[26]針對分散的網絡氣象文本數據,編寫爬蟲從網絡上爬取相關文本數據,在此基礎上構建了氣象文獻知識圖譜.本研究以氣象記錄檔案資源智能化利用為目的,研究對象涵蓋氣象觀測資料、觀測規范和氣象檔案元數據等在內的主要氣象檔案資源,通過挖掘氣象檔案資源之間的語義關系來構建知識庫,提升檔案管理系統的查詢和檢索能力.

2.3 知識圖譜與本體的關系

知識圖譜從邏輯結構上一般分為概念層與實體層.概念層是構建目標領域的概念模型,以概念、屬性與關系來描述目標領域,通常通過建立本體模型來建立概念層;實體層則以實體為構建對象,是以“實體-關系-實體”與“實體-屬性-屬性值”三元組的形式對真實數據描述和存儲,并基于大量的三元組來形成關聯語義網絡,實體層是通過知識獲取技術來實現的.基于本體的知識圖譜構建方法中,知識獲取是建立在本體模型的基礎上,本體模型的構建質量是知識圖譜構建的關鍵.

3 氣象記錄檔案知識圖譜構建

3.1 總體構建思路

以用戶對氣象檔案的利用需求為導向,以館藏檔案資源為基礎,首先在分析氣象檔案特點基礎上構建氣象檔案本體庫模型,再應用知識圖譜構建技術完成氣象記錄檔案知識圖譜的構建.氣象記錄檔案知識圖譜的構建流程主要分為氣象記錄檔案資源的收集整理、知識圖譜模式層的構建以及基于模型層的知識圖譜的構建.基于氣象記錄檔案資源及該領域知識理解完成該領域概念、屬性、實體以及之間的關系構建,形成知識模型,依據模型從檔案資源中抽取實體、關系、屬性值數據,將抽取的數據轉化成符合氣象記錄檔案知識模型圖關系數據,再結合氣象記錄檔案專業知識對數據進行實體對齊、指代消解等知識融合處理,最后采用知識推理技術挖掘氣象檔案數據中的隱含關系及知識,形成氣象記錄檔案的知識圖譜.從架構上(圖1)知識圖譜的構建自下而上包括6 大步驟,分別是氣象記錄檔案數據源的收集整理、知識建模、知識抽取、知識融合、知識存儲和知識應用.

圖1 氣象記錄檔案知識圖譜構建架構

3.2 數據源

氣象檔案資源是知識圖譜本體庫和實體庫構建的基礎,主要包括氣象檔案元數據、館藏氣象檔案、氣象業務技術規范檔案和氣象文獻相關知識以及基于用戶反饋信息等檔案資源.

3.2.1 氣象檔案元數據

基于氣象行業標準《氣象檔案元數據》,主要包括氣象檔案館元數據、氣象檔案類別元數據、氣象檔案案卷元數據、氣象檔案卷內文件元數據、氣象檔案管理元數據等5 大類105 項元數據的收集和整理.主要包含檔案的類別、時間、來源、案卷數、存放位置、保存介質等內容.

3.2.2 館藏氣象檔案

以安徽省氣象檔案館館藏1 萬卷檔案為樣例數據,主要包含全省81 個臺站建站以來的地面、高空、輻射、農業、酸雨、天氣圖、數據加工文件和臺站歷史沿革文件等.

3.2.3 氣象業務技術規范

收集中國氣象局公開發布的氣象業務規定和技術規范方面的檔案,利用自然語言處理技術,進行氣象檔案各類詞表的擴充并基于數據挖掘技術進行知識圖譜中概念和實體關系的發現.

3.2.4 文獻知識

查詢公開發表氣象檔案的文獻資料,研究并實現基于模板的氣象檔案知識抽取,對知識圖譜的知識進行補充,并研究知識圖譜驅動下的氣象檔案知識自動抽取技術.

3.2.5 用戶反饋

廣泛開展用戶咨詢,基于用戶的反饋對知識圖譜的知識進行修正和補充.隨著應用服務的不斷加強,這一部分將是未來氣象記錄檔案知識圖譜迭代更新的重要知識來源.

3.3 氣象記錄檔案知識模型構建

氣象記錄檔案知識模型的構建以本體模型的構建為核心,以收集的檔案資源為資料源,在結合《氣象學詞典》和《中國檔案主題詞表》(第2 版)等領域資料的基礎上,選取氣象領域的基本術語、分類信息、主題詞來建立概念,同時結合應用需求和分類方法建立概念層次.氣象記錄檔案本體模型構建的基本流程包括5 個步驟(圖2):資源梳理、概念及層級構建、屬性定義、概念關系定義、本體語言表示和本體概念與實體映射.

圖2 氣象記錄檔案本體模型構建流程

3.3.1 氣象記錄檔案本體概念及層次構建

從數據源中歸納整理出氣象記錄檔案領域核心概念,核心概念的歸納整理注意本體中類的設計秉承獨立性、共享性原則[27]以及類的數目最小化原則[28].根據上述原則,從氣象檔案應用場景出發,從檔案的生命周期出發選擇“氣象記錄檔案”作為最頂層核心概念,次核心概念為“氣象檔案文件”“氣象記錄檔案形成”和“氣象記錄檔案管理“3 大類,最終從頂向下定義了氣象記錄檔案領域的28 個核心概念(圖3).

圖3 氣象記錄檔案核心概念及層次

通過核心概念的建立,逐步建立各層次概念280個,核心子概念“氣象記錄檔案文件”概念層次模型如圖4.

圖4 氣象記錄檔案文件概念層次

3.3.2 氣象記錄檔案本體屬性構建

從歸納整理出的氣象記錄檔案概念出發,對各氣象記錄檔案本體概念定義屬性以及屬性約束,其中屬性應結合用戶查找需求來定義.以“氣象記錄檔案文件”概念的屬性定義來說明:首先通過調研用戶對氣象記錄檔案的查找需求,查看分析氣象記錄檔案紙質文件、電子文件以及氣象記錄檔案元數據,選取能代表氣象觀測文件特性和能滿足用戶快速查找定位檔案的詞作為氣象記錄檔案文件屬性(圖5),分別為臺站編號、文件名稱、文件檔號、形成單位、地域號、形成日期、記錄類型、保管期限、關鍵詞和密級等.

圖5 氣象記錄檔案文件屬性

3.3.3 氣象記錄檔案本體概念關系定義

在氣象記錄檔案本體中,根據本體關系的層級和結構,通過歸納總結得到本體關系模型主要見表1,共分為物理、空間、管理、觀測、時間和事件相關性6 大類.

表1 氣象記錄檔案本體關系模型

氣象記錄檔案本體關系的定義是根據氣象記錄檔案業務分析,圍繞氣象記錄檔案的產生、管理和利用,以氣象記錄檔案自身即“氣象觀測文件”為核心,定義各概念之間的關系,在此基礎上建立氣象記錄檔案數據之間的關聯.總的概念關系圖如圖6所示.

圖6 概念關系圖

3.3.4 本體語言表示

本體中的概念、屬性以及層級結構需要采用OWL 語言來描述,把概念數據化,使計算機能夠理解與處理.

3.3.5 本體概念與實體映射

在知識圖譜中,本體概念是對實體的一個抽象描述,實體是最基本的元素,它們之間存在對應關系.只有實體對接到概念模型中才能完成知識圖譜的構建,如“氣象觀測臺站”是一個概念,“碭山縣國家一般氣象站”是一個實體,它們分別是知識圖譜中“圖”的一個節點,通過“圖”中節點之間的連線來建立概念和實體間的關系.知識圖譜模型實例見圖7.

圖7 知識模型圖

3.4 氣象記錄檔案知識抽取

依據已構建的氣象記錄檔案知識模型,抽取安徽省館藏氣象記錄檔案實體、屬性及關系.目前安徽省氣象檔案館館藏氣象記錄檔案資源從存儲格式上分為結構化、半結構化和非結構化3 種結構.要根據不同的存儲結構定義不同的知識抽取策略,具體來說結構化的館藏檔案著錄元數據采用D2RQ 數據處理工具進行處理;非結構化的紙質氣象記錄檔案數字化檔案圖像、文本、PDF 等數據采用圖像識別、文本抽取以及自然語言處理等技術進行處理;半結構化的電子類氣象觀測數據文件及臺站歷史沿革數據文件則根據文件的存儲規則,定制其對應的包裝器來完成氣象觀測數據的抽取.將抽取的數據轉化成符合知識圖譜模型結構的數據,存入圖數據庫中.

3.5 氣象記錄檔案知識融合

3.5.1 氣象記錄檔案實體識別鏈接

實體識別鏈接是將氣象檔案實體實例數據與氣象檔案知識模型中的概念進行對應識別鏈接的操作.在氣象檔案數據中,氣象臺站的臺站名稱、觀測位置、觀測儀器等會發生改變,可能導致存在同一個觀測位置出現不同的名稱,同一個觀測要素出現不同的要素名稱,同一個觀測儀器出現不同的儀器名稱.如“合肥國家基本氣象站”與“合肥國家基本氣象站;安徽省合肥國家基本氣象站;合肥站;合肥;合肥氣象站;合肥基本站;合肥國家站;合肥國家基本站”等在系統中為同一實體,類似這樣的數據在實體識別鏈接中需要解決同名實體含義不同和不同名實體含義相同的問題,構建出符合業務實際的氣象記錄檔案知識圖譜.

3.5.2 氣象記錄檔案知識合并

氣象檔案觀測數據形式多樣,同一地點、同一時間氣簿、氣表、自記紙中的觀測數據可能產生重復記錄的情況,數據抽取到圖譜庫中產生了冗余,這就需要對氣象檔案實例及關系數據進行知識合并.

3.5.3 氣象記錄檔案知識推理

知識推理是指從已構建的氣象記錄檔案關系數據出發,進行合理推理,發現和建立新關聯,從而豐富和完善氣象記錄檔案知識圖譜,提升氣象記錄檔案智能化利用能力.

3.5.4 氣象記錄檔案知識更新

氣象檔案知識更新可分為概念層更新和實體層更新.隨著新的觀測儀器、觀測方式和觀測方法的不斷發展,新的氣象記錄檔案概念將產生,老概念將變化.每年新的檔案資源不斷地被收集到檔案館,檔案實體必將逐年增加,這些概念和實體的變化必將推進氣象記錄檔案知識圖譜不斷更新.概念層更新是將新的概念通過知識融合加入到概念層中,實體層更新是將每年新接收的檔案實體、關系以及屬性值加到實體庫中.

3.6 氣象記錄檔案知識圖譜存儲

氣象檔案知識圖譜分為本體庫存儲和實體庫存儲.本體庫存儲一般采用MySQL 來存儲,實體庫存儲一般采用Neo4j 來存儲.MySQL 作為通用的一種關系型數據庫,它以表的形式存儲氣象記錄檔案本體概念.Neo4j是一種廣泛應用于知識圖譜領域的圖形數據庫[29],它以節點和邊的形式來存儲實體庫,一個節點表示一個具體的實體,邊則表示實體與實體之間的關系,這種實體和實體之間的關系以圖的形式展示出來.以下是查詢節點關系的代碼.

@AutoLog(value="根據節點ID 查詢節點的關系及目標節點")@ApiOperation(value="根據節點ID 查詢節點的關系及目標節點",notes="根據節點ID 查詢節點的關系及目標節點")@GetMapping("getById")

public Result getDataById(Integer modelId,Integer conceptId,String conceptCod e,St e d ring nodeId) {Neo4jNodataById=kgDataService.getDataById(modelId,conceptId,conceptCode,nodeId);Neo4jNode neo4jNode=dataById;return Result.ok(neo4jNode);}

3.7 氣象記錄檔案知識圖譜應用

3.7.1 檔案本身的智能檢索

基于以檔案為核心的關聯關系網,沿著邊呈發散狀關聯大量信息,為用戶提供從檔案的形成、內容到管理的相關信息(圖8),展示出檔案館目前館藏的各種類型的檔案及包含的內容,方便用戶快速查找檔案.

圖8 檔案檢索實例圖

3.7.2 觀測要素的智能檢索

基于觀測要素與觀測要素,觀測要素與檔案、觀測臺站之間的關聯關系,以獲得包含同一個觀測要素、不同觀測頻次、不同觀測時間的檔案(圖9).滿足用戶以某地某時某觀測要素的值為查詢檔案的條件的逆向查找需求.

圖9 檔案要素檢索實例圖

4 結論

目前,各類氣象檔案資源之間關聯關系還未被深度挖掘出來.氣象檔案具有專業性強、結構復雜且數據量大等特點,如何面向社會化利用需求建立氣象檔案知識模型,從多源異構的氣象檔案觀測數據中定義氣象檔案概念、實體、屬性以及相互之間的關系是構建氣象檔案知識圖譜的難點.

本文基于館藏氣象記錄檔案資源提出了一種氣象記錄檔案知識圖譜的構建方法,并實例展示了構建的氣象記錄檔案知識圖譜,是氣象領域和檔案領域知識圖譜構建的一次探索,對構建整個氣象和檔案領域知識圖譜提供了參考,期望后續有更多的學者關注和開展氣象和檔案信息領域的知識圖譜建設研究.

猜你喜歡
概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
概念飛行汽車,它來了!
車迷(2022年1期)2022-03-29 00:50:18
存在與守恒:《紅樓夢》中的物極必反概念探討
紅樓夢學刊(2020年4期)2020-11-20 05:52:48
TGY多功能多品牌概念店
現代裝飾(2020年4期)2020-05-20 08:56:10
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
衰老是被灌輸的概念
奧秘(2018年12期)2018-12-19 09:07:32
學習集合概念『四步走』
聚焦集合的概念及應用
論間接正犯概念之消解
深入概念,活學活用
主站蜘蛛池模板: 国内精自视频品线一二区| 四虎精品黑人视频| 久久中文字幕不卡一二区| 在线观看亚洲精品福利片| 制服丝袜一区| 欧美精品高清| 91精品伊人久久大香线蕉| av一区二区人妻无码| 国产成人精品亚洲77美色| 国产精品lululu在线观看| 亚洲黄网在线| 国产一级二级在线观看| 麻豆国产原创视频在线播放 | 日本国产精品一区久久久| av尤物免费在线观看| 欧美精品啪啪一区二区三区| 一级毛片中文字幕| 青青草国产精品久久久久| 永久免费av网站可以直接看的 | 在线观看免费国产| 日韩福利在线视频| Jizz国产色系免费| 91无码国产视频| 91精品国产综合久久香蕉922| swag国产精品| 国产三级视频网站| 国产欧美精品一区aⅴ影院| 亚洲福利视频一区二区| 欧美精品成人一区二区视频一| 欧美黄网站免费观看| 国产久操视频| 婷婷六月天激情| 国产91成人| 无码AV日韩一二三区| 国产91小视频| 亚洲精品视频免费| 日本一区二区三区精品视频| 91成人在线免费视频| 99re热精品视频中文字幕不卡| 免费女人18毛片a级毛片视频| 成人第一页| 欧美性爱精品一区二区三区| 欧美国产日韩另类| 国产不卡网| 日本三级黄在线观看| 中文字幕无线码一区| 精品国产aⅴ一区二区三区| 一本二本三本不卡无码| 亚洲天堂网站在线| 亚洲欧美另类专区| 欧美一区二区人人喊爽| 免费中文字幕一级毛片| 丁香五月激情图片| 久久国产亚洲偷自| 黄色网页在线观看| 露脸真实国语乱在线观看| 一本久道热中字伊人| 在线欧美a| 美女毛片在线| 久久九九热视频| 国产麻豆va精品视频| 国产在线高清一级毛片| 精品无码国产自产野外拍在线| 人妻一区二区三区无码精品一区| 在线免费看黄的网站| 亚洲欧美日韩中文字幕一区二区三区 | 欧美人与性动交a欧美精品| 日本欧美午夜| 91免费国产在线观看尤物| 久久女人网| 综合人妻久久一区二区精品| 精品国产免费观看| 国产va欧美va在线观看| 谁有在线观看日韩亚洲最新视频| 国产av无码日韩av无码网站| 色偷偷男人的天堂亚洲av| 精品国产网站| 午夜精品一区二区蜜桃| 啪啪永久免费av| 亚洲第一视频免费在线| 欧美成人第一页| 亚洲男人的天堂久久香蕉|