999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于敘詞分類的海洋科技信息的數據轉儲

2016-11-09 02:25:27徐建良
網絡安全與數據管理 2016年16期
關鍵詞:科技結構信息

史 珂,徐建良

(中國海洋大學 信息科學與工程學院,山東 青島 266100)

?

基于敘詞分類的海洋科技信息的數據轉儲

史珂,徐建良

(中國海洋大學 信息科學與工程學院,山東 青島 266100)

在研究敘詞表分類的基礎上,調研了國家海洋局第一海洋研究所海洋科技信息數據。根據這些電子資源的存儲方式與存儲結構,對其進行數據的轉儲,設計了標準的XML文件,以便數據資源的二次使用與共享。

敘詞表;海洋信息;數據轉儲

引用格式:史珂,徐建良. 基于敘詞分類的海洋科技信息的數據轉儲[J].微型機與應用,2016,35(16):72-74,79.

0 引言

在對現有的海洋科技信息數據的研究中發現,其存儲方式大多數以是Word文件或Excel文件的形式分散在科學家和各個研究部門手中。由于各個科研機構的管理方式和科研工作者的編寫習慣不一致,導致異構數據源在不同文件中的組織結構、語義層次不同,從而使整個海洋科技信息的數據出現雜亂、重復、語義不一致等現象,這就造成了海洋科技信息的數據資源沒有辦法滿足海洋科研工作者的科研成果的共享與二次使用,同時也不能滿足與國際科研機構的數據交換[1]。這種情況對我國海洋科學考察領域的發展產生了嚴重的阻礙。

把這些碎片化的異構數據源進行整合從而達到規范化是目前各個機構和科研工作者的首要任務。通過對海洋科技信息數據格式和內容的研究,本文設計了一種規范、標準的XML文件,把海洋科技信息數據資源轉儲到該自定義的XML文件,使海洋相關數據得到最大化的共享和利用,同時也為我國即將開展的數字海洋計劃提供了一定的數據資源。

1 海洋科技信息數據格式

按照Soergel的理論把敘詞表分為兩類,分別為基于術語的敘詞表(term-based thesaurus )和基于概念的敘詞表(concept-based thesaurus )[1]。其中,前者是一種集合,該集合結構清晰,因為這種類型的敘詞表只包含一種實體類型,這種實體就是術語,而術語與術語之間存在的關系分有3種,分別為層級關系、相關關系、等同關系[2]。而另外一種敘詞表,即基于概念的敘詞表,則由兩種實體類型組成,其中一種是概念,另外一種是術語。概念是一個簡單的結構單一的思想單元[3],概念的基本信息包括優選術語、非優選術語、范圍附注等,概念之間同樣也存在層級關系、相關關系。結合海洋科技信息數據源的存儲結構和存儲類型,可以把這些數據資源簡單分為兩類:

(1)把以Word文檔作為存儲結構的敘詞看作基于概念的敘詞表,不僅有術語、關鍵詞,還有概念,概念用來對關鍵詞進行進一步解釋。

(2)把以Excel文檔作為存儲結構的敘詞看作基于術語的敘詞表,不僅有術語關鍵詞,還有詞間的層級關系。

圖1 海洋科技信息敘詞表類型

其關系結構如圖1所示。

2 Word和Excel模板規范

海洋科技信息文檔的格式和組織架構雖然相對比較固定,但仍然存在語義與結構的不一致現象,直接從這樣的Word和Excel文檔中提取關鍵信息,容易導致數據的混亂,同時也對提取的算法要求頗高,這就需要先通過Word的語義模型和Excel的行列關系規范文檔的結構。

通過域的設定,可以把字體、位置、顏色等顯示樣式規范化[4]。域中的數據都是可變的,如果以后用戶自主創建Word文檔,只需更改域中的文字信息即可,不需要再對樣式、排版進行編輯,其中敘詞用加粗字體表示,對應概念用普通字體表示,敘詞與概念之間用空格銜接,如圖2所示。對于這種建立模版方法,在插入每一個域時,都需要輸入相應的提示文本,作為該域的語義信息。

圖2 海洋科技信息Word模版示意圖

而對于Excel文檔,一般情況下總共4列,同一行上后一個列屬于前一個列的子類,最后一列對應敘詞,除此之外的每一列都對應一個分類,如果以樹狀結構列出表中的層次關系的話,即每個葉子節點為敘詞,每個非葉子節點都為分類,且分類中也可包含其他分類,如圖3所示。

圖3 海洋科技信息Excel模版示意圖

3 Word和Excel信息抽取

Microsoft Office 2010提供了通過將自定義XML Schema架構插入工作薄,導出符合結構需求的XML文件的功能。該功能是在Office文檔和XML結構之間創建了一個映射,進行Office文檔中數據的分離。

3.1自定義XML Schema

XML Schema文件的主要定義可擴展標記語言的合法構建結構,它可以定義出現在文檔中的元素、元素的層次結構、子元素的次序、子元素的數目、元素是否為空、文檔中的屬性、元素和屬性的數據類型、元素和屬性的默認值以及固定值等[5]。本文自定義的XML Schema文件結構如下。

3.2Word到標準XML文檔

使用了上文通過域定義的語義模版后的Word文檔如圖4所示。使用XML Schema中定義的元素對Word文檔的關鍵字進行手動映射,這樣就把與邏輯相關的一些標記插入到了Word文檔中,以便根據實際需要通過標識符來方便地對文檔進行處理。具體實現方式如下。

圖4 Schema文檔中的元素與Word文檔關鍵字的映射

(1)在菜單中選擇“開發工具-架構”,在彈出的窗口中選擇“添加架構”,將XML Schema文件附加到Word文檔。

(2)在添加架構完成后,就可以利用該Schema文件中的元素批注Word文檔。Word文檔右側的“XML結構”窗格可將附加架構中的自定義元素映射到文檔關鍵字。

完成Schema文檔中的元素與Word文檔關鍵字的映射后,需要對剛創建的文檔進行保存,其保存格式為XML文件,保存后的XML文檔結構效果如下。

3.3Excel到標準XML文檔

把XML Schema文件添加到Excel文檔中的具體步驟如下。

(1)在菜單中選擇“開發工具-源”,在彈出的右側窗口中選擇“XML映射”,將XML Schema文件附加到Excel文檔。

(2)使用“XML源”將Excel文檔單元格映射到XML架構元素。

Excel會自動創建一個XML映射對象,通過鼠標拖曳XML映射元素到相應關鍵詞上,實現它們之間的映射,這樣就可以將單元格中的數據反映到XML架構的元素上,其顯示效果如圖5所示。

圖5 Schema文檔中的元素與Excel文檔關鍵字的映射

完成Schema文檔中的元素與Excel文檔關鍵字的映射后,Microsoft Excel導出的標準XML文件格式如下。基于這種通用結構,可以方便有效地完成海洋數據向各個應用或者數據庫的轉儲工作。

4 結論

本文研究的資料直接來源于國家海洋局第一海洋研究所,能客觀真實地反映該領域的知識結構框架,概念更專指,能有效克服“嵌入迷失問題”(詞表過大導致用戶迷失了方向)和“藝術博物館現象”(用戶花了很多時間卻沒有找到任何有用信息)[6]。本文通過使用Microsoft Office 2010自帶的映射功能完成標準XML文件的生成,為數據的管理和二次利用提供了有效的途徑。

[1] 傅強. 中國大洋研究成果數據庫平臺系統建設[D]. 青島:國家海洋局第一海洋研究所, 2007.

[2] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. International Joint Conference on Artificial Intelligence, IJCAI, 2003: 805-810.[3] BUDANITSKY A, HIRST G. Evaluating wordnet-based measures of lexical semantic relatedness[J]. Computational Linguistics, 2006, 32(1): 13-47.

[4] Chen Zeqiang, Chen Nengcheng. Use of service middleware based on ECHO with CSW for discovery and registry of MODIS data[J].地球空間信息科學學報(英文版), 2010, 13(3):191-200.

[5] LEE D, CHU W W. Comparative analysis of six XML schema languages[J]. ACM Sigmod Record, 2000, 29(3):76-87.

[6] AITCHISON J, CLARKE S D. The thesaurus: a historical viewpoint, with a look to the future[J]. Cataloging & classification quarterly, 2004, 37(3-4): 5-21.

Marine science and technology information data dump based on thesaurus classification

Shi Ke,Xu Jianliang

(Institute of Information Science and Engineering, Ocean University of China, Qingdao 26610, China;)

On the basis of classification of the thesaurus, this paper researches the marine science and technology information provided by the First Institute of Oceanography, SOA. According to the storage mode and storage structure of electronic resources, this paper carries on the data dump, and designs the standard XML file for secondary using and sharing of the data resources.

thesaurus; marine information; data dump

TP274

A

10.19358/j.issn.1674- 7720.2016.16.021

2016-03-30)

史珂(1989-),女,碩士研究生,主要研究方向:軟件工程技術。

徐建良(1969),男,博士,教授,主要研究方向:計算復雜性理論、計算機軟件與理論。

猜你喜歡
科技結構信息
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
科技助我來看云
科技在線
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
論《日出》的結構
科技在線
科技在線
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 精品久久久无码专区中文字幕| 天堂在线视频精品| 日韩在线播放欧美字幕| 久久一色本道亚洲| 久久久久国色AV免费观看性色| 少妇极品熟妇人妻专区视频| 亚洲成人黄色在线观看| 国产网站一区二区三区| 婷婷五月在线| 高潮爽到爆的喷水女主播视频| 天天摸天天操免费播放小视频| 国产91色| 国产真实乱子伦精品视手机观看| 国产成人免费观看在线视频| www.91中文字幕| 国产青榴视频| 波多野结衣在线se| 亚洲欧美精品一中文字幕| 黄色免费在线网址| 免费观看成人久久网免费观看| 亚洲国产成人久久77| 国产精品无码AV中文| 本亚洲精品网站| 日韩色图区| 国产精品白浆无码流出在线看| 国产网友愉拍精品| 久久一本精品久久久ー99| 制服丝袜无码每日更新| 亚洲 欧美 日韩综合一区| 日日噜噜夜夜狠狠视频| 亚洲av无码专区久久蜜芽| 亚洲av成人无码网站在线观看| 十八禁美女裸体网站| 免费国产高清视频| 精品久久蜜桃| 91色爱欧美精品www| 91免费精品国偷自产在线在线| 国产又粗又猛又爽| 国产网友愉拍精品视频| 欧美亚洲中文精品三区| 在线免费观看AV| 国产乱人乱偷精品视频a人人澡| 国产1区2区在线观看| 欧美劲爆第一页| 看国产毛片| 999国内精品久久免费视频| 亚洲人网站| 人妻丰满熟妇αv无码| 992Tv视频国产精品| 囯产av无码片毛片一级| 国产福利在线免费| 91视频99| 国产综合在线观看视频| 国产三级国产精品国产普男人| аv天堂最新中文在线| 日本一区高清| 国产精品香蕉在线观看不卡| 国产一级裸网站| 免费一级无码在线网站| 国产情精品嫩草影院88av| 91精品国产无线乱码在线 | 国产精品嫩草影院视频| 国产人成网线在线播放va| 久久无码av三级| 国产一区二区三区精品久久呦| 网友自拍视频精品区| 色亚洲激情综合精品无码视频 | 国产91小视频在线观看| 亚洲综合极品香蕉久久网| www.99在线观看| 青青青视频蜜桃一区二区| 久久男人资源站| 日本精品视频| 九色视频线上播放| 最近最新中文字幕在线第一页 | 久久精品这里只有国产中文精品| 色婷婷亚洲十月十月色天| 久久久久久久97| 免费高清a毛片| 日本高清视频在线www色| 九色视频最新网址| a在线亚洲男人的天堂试看|