999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Schema.org詞表的醫學類網頁語義標注

2018-04-29 00:00:00郭維嘉
河南科技 2018年1期

摘 要:對網頁進行有效的標注,有助于搜索引擎、瀏覽器等應用程序從中抽取結構化的數據。本文首先介紹Schema.org詞表的基本情況,然后討論將UMLS語義網絡轉換為Schema.org詞表擴展成分的5個關鍵步驟,最后通過實例探討基于Schema.org詞表的醫學類網頁語義標注方法。

關鍵詞:網頁標注;UMLS;詞表;微數據

中圖分類號:G202 文獻標識碼:A 文章編號:1003-5168(2018)01-0015-03

Semantic Annotations of Medical Web Pages Based

on Schema.Org Vocabulary

GUO Weijia

(College of Information Management, Zhengzhou University,Zhengzhou Henan 450001)

Abstract: Effective annotations of web pages are helpful for search engines and browsers to extract structured data. Firstly, this paper introduced the basic situation of the Schema.org vocabulary. Then it discussed five key steps converting the UMLS Semantic Network into a Schema.org vocabulary extension. Finally, it illustrated a semantic annotation method of medical web pages based on Schema.org vocabulary through an example.

Keywords: annotations of web pages;UMLS;vocabularies;microdata

1 研究背景

網頁中的HTML標簽主要用于告訴瀏覽器如何顯示在標簽中包含的信息,例如,

Avatar

告訴瀏覽器顯示的文本字符串“Avatar”在標題1格式。然而,標簽

并沒有指明“Avatar”的確切含義,該詞可能是指風靡全球的3D電影《阿凡達》,也可能泛指神話人物。因此,有必要采用某種通用的詞表(如Schema.org詞表)對這種多義詞進行標注,以便向用戶明確該詞的確切含義。

Schema.org是一個協作式團體,由Google、Microsoft和Yahoo等公司聯合發起,其使命是創建、維護一個可用來描述互聯網上結構化數據的詞表 。目前,已有1 000多萬個網站使用Schema.org詞表來標注網頁,Google、Microsoft、Yandex和Yahoo等公司的搜索引擎也已支持Schema.org詞表。現有研究結果表明,采用Schema.org詞表標注的網頁比未采用的網頁更易被搜索引擎檢出[1]。

本文將利用Schema.org提供的詞表擴展機制,把UMLS(Unified Medical Language System)的語義網絡擴展到Schema.org詞表中,并在此基礎上實現醫學類網頁的語義標注。

2 Schema.org詞表基本情況

Schema.org詞表由642個類、992個屬性和219個枚舉值組成,其中所有的類按樹型結構組織起來形成一個類目體系,樹根為類Thing。每個類下均定義了0至多個屬性,如類Map下定義了一個屬性Map Type,類Dance Event下沒有定義屬性。Schema.org詞表只有一個一級類目(即根類Thing),其下包含9個二級類目,如表1所示。

3 基于UMLS語義網絡的Schema.org詞表擴展

Schema.org詞表是一個基本的核心詞表,能滿足大多數普通網頁的語義標注用詞需求。然而,用戶在進行網頁標注時,可能會需要更專業、更精細的詞匯。可以利用Schema.org的擴展機制,將UMLS的語義網絡擴展到Schema.org中,以便更好地描述醫學類網頁的主題內容。

UMLS是美國國家醫學圖書館開發的一套醫學語言系統,包括超級敘詞表、語義網絡、專家詞典等幾個部分。超級敘詞表中的術語來自100多個詞匯表、代碼集和敘詞表。語義網絡則是為建立概念術語間的相互關系而設計的[2]。專家詞典收錄常見的英語單詞和生物醫學術語。

從本質上看,UMLS的語義網絡是一個頂層本體,由語義類型和語義關系兩部分組成。其中,語義類型是結點,語義關系是連接結點的邊。語義類型共有133個,主要用于對UMLS超級敘詞表中的所有概念進行分類;語義關系共有54個,主要用于描述不同語義類型之間的關系。

在表達醫學領域知識體系方面,UMLS語義網絡比Schema.org詞表的醫學實體類MedicalEntity更為全面、精細,將前者擴展到Schema.org核心詞表中,有助于更好地標注醫學類網頁。

如表2所示,UMLS的語義類型分為兩類:Entity和Event。前者描述各種物理對象和概念實體,后者描述各種物理對象和概念實體的活動、現象和過程。UMLS的語義關系也分為兩類:isa和associated_with。其中后者又進一步分為5種類型:物理關系(physically_related _to)、空間關系(spatially_related_to)、功能關系(functionally_related_to)、時間關系(temporally_related_to)和概念關系(conceptually_related_to)。

將UMLS語義網絡擴展到Schema.org詞表中,需要通過以下步驟實現。

①對語義類型的名稱進行處理。每個語義類型的名稱都是以詞語的方式存在的,具體分為兩種情況即單個詞語、詞組,其中詞組的各個單詞之間以空格分隔。應刪除詞組中的所有空格和逗號,同時每個單詞的首字母均大寫。例如,語義類型Therapeutic or Preventive Procedure,經過上述處理后變為:TherapeuticOrPreventiveProcedure。

②對語義關系的名稱進行處理。盡管UMLS的語義關系名稱中已經用下劃線代替了空格,但仍然不符合Schema.org對屬性名稱的約定。應刪除下劃線,除第一個單詞首字母小寫外,其他單詞的首字母均大寫。例如,語義關系physically_related_to,經過上述處理后變為physicallyRelatedTo。

③確定UMLS語義網絡與Schema.org核心詞表的關系。將UMLS語義網絡作為Schema.org詞表的擴展,定位為Schema.org詞表一級類目Thing的子類。對于UMLS語義網絡中的語義類型X來說,其對應的類繼承樹為Thing.X。例如,表2中的語義類型Bird的類繼承樹為Thing.PhysicalObject.Organism.Eukaryote.Animal.VertebrateBird。

④為UMLS語義網絡聲明一個名字空間,并為每個語義類型和語義關系聲明一個HTTP URI。按照Schema.org網站的要求,將名字空間聲明為http://umls.schema.org,每個語義類型和語義關系的HTTP URI格式均為:http://umls.schema.org/?。例如,語義類型Bird的HTTP URI為http://umls.schema.org/Bird。

⑤將上述經過處理的語義類型和語義關系用owl語言進行描述,形成一個RDF文檔并提交給Schema.org網站。詞表擴展獲得批準后,http://umls.schema.org即可供用戶使用。

經過上述步驟處理的UMLS語義網絡轉變為Schema.org詞表的擴展成分,其中包含了大量的醫學類術語,可以用于標注醫學類網頁。

4 基于Schema.org詞表的醫學類網頁標注方法

用擴展后的Schema.org詞表對醫學類網頁進行語義標注,可采用Microdata、RDFa和JSON-LD等多種格式。本文采用Microdata(以下稱為“微數據”)格式進行標注。

4.1 微數據格式

微數據格式是一種HTML規范,目的是在網頁內容中嵌入元數據,以便搜索引擎、Web爬行器和瀏覽器從中抽取結構化的數據并在此基礎上理解網頁內容的語義。微數據格式提供一組標簽,用于描述網頁中的項(item)、名稱-值對(name-value pairs),如表3所示。

4.2 網頁標注

對于給定的醫學類網頁,可以利用擴展后的Schema.org詞表進行標注。本文以某網頁中的如下文本片段為例來說明具體的標注方法。

Tu Youyou (Chinese: 屠呦呦; born 30 December 1930) is a Chinese pharmaceutical chemist and educator. She is best known for discovering artemisinin (also known as qinghaosu) , used to treat malaria, which saved millions of lives。

上述網頁文本內容涉及3個對象:Tu Youyou(屠呦呦)、qinghaosu(青蒿素)、malaria(虐疾)。標注時,需要根據對象的性質從擴展后的Schema.org詞表中選擇合適的類型,同時還要選擇合適的屬性。標注結果如下:

Tu Youyou (Chinese:屠呦呦

is a Chinese pharmaceutical chemist and educator.

She is best known for discovering

artemisinin (also known asqinghaosu), used to treatmalaria

, which saved millions of lives.

在上述標注結果中,屠呦呦的類型是人,選擇Schema.org詞表中的類Person作為其類型,并選擇該類的3個屬性name、additionalName、birthDate來標明屠呦呦的姓名、英文名稱和出生日期。青蒿素是藥物,選擇擴展詞表中的類PharmacologicSubstance作為其類型,并選擇該類的3個屬性name、additionalName、treats來標明青蒿素的名稱、附加名稱和治療的疾病,其中屬性treats是該類自身的屬性,屬性name和additionalName繼承自http://schema.org/Thing。瘧疾是疾病,選擇擴展詞表中的類DiseaseOrSyndrome作為其類型,并選擇該類的屬性name來標明瘧疾的名稱,該屬性繼承自http://schema.org/Thing。

搜索引擎、Web爬行器和瀏覽器可以很容易地從上述標注結果中提取以下結構化數據:

DiseaseOrSyndrome

name: malaria

PharmacologicSubstance

name: artemisinin

additionalName: qinghaosu

treats: malaria

Person

additionalName: Tu Youyou

name: 屠呦呦

birthDate: 1930-12-30

上述結構化數據中的類和屬性都來自擴展后的Schema.org詞表,且實際上都帶有前綴http://schema.org或http://umls.schema.org,因此上述標注實質上是一種語義標注。

5 結語

對網頁進行有效的標注,有助于搜索引擎、瀏覽器和Web爬行器從中抽取結構化的數據。Google和Microsoft等公司聯合推出了可用來標注網頁的Schema.org詞表,并允許外界對其詞表進行擴展。UMLS的語義網絡是一個醫學領域頂層本體,可將其中的語義類型、語義關系轉換為符合Schema.org要求的類和屬性并擴展到Schema.org詞表中。借助于微數據、RDFa、JSON-LD等格式和擴展后的Schema.org詞表,可實現醫學類網頁的語義標注。

參考文獻:

[1]賈君枝,王醒.基于微數據的語義標注應用研究[J].情報理論與實踐,2016(2):54-58.

[2]方平.試論一體化醫學語言系統(UMLS)超級敘詞表的特點[J].圖書情報工作,1998(10):26-29,41.

主站蜘蛛池模板: 人妻中文字幕无码久久一区| 久久狠狠色噜噜狠狠狠狠97视色 | 色国产视频| 亚洲综合色婷婷| 免费全部高H视频无码无遮掩| 欧美福利在线观看| 国产精品xxx| 亚洲无码精彩视频在线观看 | 亚洲中文字幕23页在线| 国产91精品调教在线播放| 无遮挡国产高潮视频免费观看 | 欧美成人午夜视频| 一级香蕉人体视频| 日本AⅤ精品一区二区三区日| 亚洲国产天堂久久综合226114| 国产不卡网| 国产成人综合欧美精品久久| 伊人色在线视频| 欧美成人午夜影院| 波多野结衣中文字幕一区二区| 天堂网亚洲系列亚洲系列| 特级毛片8级毛片免费观看| 久草视频精品| 亚洲国产理论片在线播放| a级毛片在线免费观看| 国产乱人视频免费观看| 国产jizz| 国产一区二区三区在线观看视频 | 亚洲国产AV无码综合原创| 香蕉eeww99国产在线观看| 国产剧情一区二区| 无码高潮喷水在线观看| 亚洲欧美在线综合图区| 亚洲国产亚综合在线区| 国产尤物jk自慰制服喷水| 久久成人18免费| 国产一级毛片高清完整视频版| 中文无码伦av中文字幕| 精品国产成人高清在线| 夜夜拍夜夜爽| 国产无遮挡猛进猛出免费软件| 六月婷婷综合| 欧美 国产 人人视频| 国产av无码日韩av无码网站| 欧美精品在线看| 国产一区成人| 亚洲天堂网站在线| 日韩免费中文字幕| 97在线公开视频| 国产精品免费露脸视频| 欧美日韩国产高清一区二区三区| 亚洲天堂免费观看| 丰满人妻一区二区三区视频| 国产噜噜在线视频观看| 欧美三级不卡在线观看视频| 日韩高清一区 | 久久www视频| 国内精品视频| 精品国产一区二区三区在线观看| 久久综合色播五月男人的天堂| 精品久久久久久成人AV| 色成人综合| 欧美国产视频| 国产国产人成免费视频77777| 亚洲一区二区黄色| 日韩av无码精品专区| www.精品国产| 国产精品观看视频免费完整版| 视频二区欧美| 成年人国产视频| 伊伊人成亚洲综合人网7777| 欧美一级黄色影院| 一区二区日韩国产精久久| 在线看AV天堂| 性色一区| 多人乱p欧美在线观看| 露脸国产精品自产在线播| 国产无码精品在线| 久久综合亚洲鲁鲁九月天| 午夜爽爽视频| 国产精品浪潮Av| 精品国产美女福到在线不卡f|