[摘要]微格式是實現都柏林核心數據集的一種新方式。本文介紹了用微格式實現都柏林核心數據集的背景及實現方法并通過一個實例來展示,隨后論證了微格式實現都柏林核心數據集的5個優點,文中最后對微格式實現都柏林核心數據集的前景進行了展望。
〔關鍵詞〕都柏林核心;微格式;都柏林核心微格式
DOI:10.3969/j.issn.1008-0821.2011.03.044
〔中圖分類號〕TP391 〔文獻標識碼〕A 〔文章編號〕1008-0821(2011)03-0174-04
Research On Microformat Creating Dublin CoreYang Shishan
(Department of Information Management,Nanjing University,Nanjing 210093,China)
〔Abstract〕Microformat is a novel way to encode the Dublin Core element set.This paper introduced the way how to use microformat to encode Dublin Core element set and an example was given.Then,5 points were listed to illustrate the advantages of Dublin Core Microformat compared to the traditional technology.Furthermore,this paper introduced glorious future of Dublin Core Microformat.
〔Keywords〕dublin core;microformat;dublin core microformat
1989年Tim Berners-Lee發明了HTML超文本標識語言,萬維網迅速發展,但HTML不能對網絡頁面內容進行描述和組織,致使網絡上信息海量卻不易準確獲取,查準率低。隨后出現了元數據和微格式,元數據被稱為“關于數據的數據”。多柏林核心數據集是1995年OCLC和NCSA提出的一種元數據,是對電子文獻的標準化描述,只有語法功能,不具備語義功能,需要具體技術手段實現。微格式對具有共性的某一類信息規定一種規范的格式,不僅讓數據更便于人類閱讀,同時保持數據對機器解析的友好性[1],能夠有效解決HTML語言中Tag標簽混亂的問題,稱為“低級語義網”,是目前能正確標記語義的最簡單解決方案。Eva Méndez等人在2008年9月在柏林召開的第八屆國際元數據應用會議上介紹了都柏林核心微格式[2],是一種用X/HTML編碼都柏林核心元素集的一種新途徑,能夠讓都柏林核心元素集描述內容擴展到網絡信息資源,并實現人機可見,顯著提高網絡信息資源的語義化水平。
1 微格式
目前的標記語言表達的語意有很大的局限,所能表達只能是段落、鏈接、引用等文學上語意,而不是人們需要表達的有如地址、事件、人物等具有實際意義的信息,并且標記語言并沒有將這些實體標準化,人們隨意選擇Tag標記地址、事件、人物等,致使被標記的事件標簽五花八門[1],信息資源的查準率和查全率很低。這種情況下,迫切要求網頁中的信息標簽有統一的標準。微格式在Tantek Celick在編寫能同時被機器自動處理和人類直接可讀的數據時的發起一場民間運動[2]中產生了,標準化了的格式和內容一起組合起來便成為了微格式。
微格式目前并沒有統一的定義,官方網站對微格式的解釋是[3]:以“用戶第一,機器第二”為設計原則,建立在已經存在并且被接受的標準之上的簡單的、開放的數據集合,它不是摒棄現在行為方式,而是通過適應現在的行為和使用模式(例如,XHML,博客)來解決較為簡單的問題。具體對微格式的闡述[1]:表1
微格式是……微格式不是……微格式的設計原則對數據的一種思考一種新的語言解決具體問題對格式的設計準則無限擴展和無邊無際的越簡單越好適應現在的行為和使用模式讓所有人都改變他們行為并重新編制他們的工具“用戶第一,機器第二”的設計原則與語義XHML高度相關一種完全摒棄現在工作機制的新的方法利用廣泛采用的標準一系列的簡單數據開發格式標準,可以開發或補充更好的結構化博客和網絡未內容發表能夠解決分類技術(taxonomies)、本體論(ontologies)和其他類似抽象問題的“萬能靈藥”模塊化/可嵌入以上全部定義整個世界,甚至讓海洋都沸騰起來允許和鼓勵分散發展內容和服務
各種微格式組成的一系列信息組織和處理技術稱為微格式技術體系[4]。微格式并非一種新的語言,其技術體系建立X/HTML 語言和XML語言的基礎上,由基本微格式和復合微格式兩部分組成(見圖1)。基本微格式是解決單一問題的最小解決方案,不對一段X/HTML頁面做語義相關的注解,而是針對某個標簽進行注解,采用X/HTML 支持的rel、rev、class等屬性定義,一方面可以嵌入到網頁文件中直接使用,另一方面也可以與標準的X/HTML元素組合構成復合微格式,屬于這一類型的微格式有:用于定義HTML元素配置文件的XMDP(XHTML Meta Data Profiles)、通過賦予超鏈接語義屬性表征人類關系的XFN(XHTML Friends Network)、定義新X/HTML文檔類型的XOXO(eXtensible Open XHTML Outlines)等。復合微格式由基本微格式和標準的X/HTML元素組成,是一段語義相關的X/HTML文檔內容,用來解決描述復合數據類型現存標準方案與X/HTML 之間準確轉換問題。這類的微格式有:結構化個人或組織聯系信息的hCard、結構化“日程”信息的hCalendar、為評價論內容增加語義的hReview等。圖1 微格式體系結構
微格式被認為是邁向語義網的實質性的一步[5],國內外學者都普遍認為其具有巨大的潛力和廣闊的發展前景[6],事實上,目前瀏覽器Firefox 3和Internet Explorer 8都實現了與持微格式的兼容[7-8]。2005年,Eva Méndez等人開始用微格式實現都柏林核心元素集的研究[9]。都柏林核心是一個句法無關的元數據框架,它功能強大、格式標準、具有普遍適用性,并且被DCMI廣泛推廣。微格式與都柏林核心數據集相結合,能使信息資源描述的范圍從文獻資源,擴展到具有標題、關鍵詞、描述、作者等的各種網絡信息資源。用微格式實現都柏林核心數據集的描述能結合微格式和都柏林核心兩者各自的特點,具有簡單、靈活、發散和通用等優點。
2 微格式實現都柏林核心
2.1 微格式實現都柏林核心數據集方法
用微格式實現都柏林核心數據集需要4個部分:類或標示符為“dublincore”的X/HTML元素,表示語義的字符串,Class/id屬性和屬性對性的具體內容。
圖2 用微格式實現都柏林核心數據集
2.2 微格式實現都柏林核心的實例
此處筆者構建一個用微格實現都柏林核心描述鐘義信的《信息科學原理》這本書的實例。
①類或標示符為“dublincore”的定義列表(本例中為
②由微格式表示語義的字符串(本例中為“題目”“ISBN”“作者”)。
③“class”或“id”屬性,其值是對應的DC元素指示給機器可讀的語義信息(本例中,“tltle”“identifier”“creator”)。
④與“class”或“id”屬性表述相對應的內容(本例中為“信息科學”“7563502351”“鐘義信”)。
具體代碼為:
由此段代碼可以看出微格式實現都柏林核心數據集的代碼,可以做到人機可見,如圖3所示。圖3 微格式實現都柏林核心數據集的代碼人機可讀
2.3 傳統標簽和RDF都柏林核心數據集實現上述的實例用Dublin Core Metadata Gen[10]生成傳統標簽和資源描述框架代碼分別為:
用傳統標簽描述《信息科學原理》:
e543827200b305ce2e291975b8c8d44cITYPE″
content=″http:∥purl.org/dc/dcmitype/PhysicalObject″>
用資源描述框架實現都柏林核心數據集描述《信息科學原理》:
xmlns:rdfs=″http:∥www.w3.org/2000/01/rdf-schema#″ xmlns:dc=″http:∥purl.org/dc/elements/1.1/″ xmlns:dcterms=″http:∥purl.org/dc/terms/″ xmlns:dcmitype=″http:∥purl.org/dc/dcmitype/″ xmlns:admin=″http:∥webns.net/mvcb/″>
3 微格式實現都柏林核心的優點
比較與用傳統標簽、資源描述框架實現都柏林核心數據集,用微格式實現都柏林核心數據集的優點和獨特性在于:
3.1 微格式實現的都柏林核心數據集,能夠實現了微格式的機器和人的同時可見由圖3可以看出,微格式實現都柏林核心數據集能夠實現人機可讀,這也是微格式設計是的原則之一。而上述由傳統標簽和RDF描述都柏林核心數據集的實例可以看出,他們的代碼晦澀,只是機器可讀,并沒能做到人機互見。微格式的人機可見,即其不僅易于人類閱讀,還能保持數據對機器解析的友好性,即讓外部應用程序、聚集程序和搜索引擎等在爬取網站的時候能夠識別信息內容的語義并對信息內容進行操作,從而實現分布式信息的共享和再利用[11]。
3.2 都柏林核心數據集的適用范圍可以擴展到網絡信息資源都柏林核心數據集最初提出是應用于標準化電子文獻描述。目前許多學者也發現了其對其他類型的網絡信息資源的普遍適用性,但是由于各種實現途徑的限制,都柏林核心數據集在網絡信息資源描述方面應用并不是很廣泛。微格式面向普通用戶,任何用戶都可以透過簡單的程序讀取微格式內容。此外,微格式還能消除處理一些資源和格式時產生的更新和同步問題。這些優點促使微格式在的web2.0環境下的應用日趨廣泛,Yanhoo!Local有至少1 500萬的hCards[12],2007年Google將hCard引入到Google地圖搜索結果中,使存儲已找到的地址變得更加容易[13]。用微格式描述都柏林核心數據集,能夠結合兩者優點,使都柏林核心數據集描述網絡信息資源邁出實質性的一步。
3.3 微格式實現的都柏林核心數據集的代碼更加簡短用微格式實現都柏林核心數據描述《信息科學原理》書名、作者、ISBN、出版時間這4個元素進行描述的代碼只有10行,遠遠簡短于使用傳統標簽和RDF方法,由此微格式實現都柏林核心數據集有明顯的簡易性。
3.4 對于信息生產者來說,用微格式實現都柏林核心數據集更容易構建,進入門檻低微格式并非一種新的語言,而是建立在已經被廣泛應用的X/HTML語言標準之上,用微格式描述都柏林核心數據集并不需要學習心得語言,只要具備基礎的X/HTML語言知識和X/HTML工具就可以構造微格式。
3.5 對于信息使用者來說,用微格式實現都柏林核心數據集使用更加方便用戶只需要在瀏覽器上安裝特定的插件(例如,Firefox的Dublin Core Microformats Viewer插件)就能讀懂用微格式實現都柏林核心所編寫的信息。這個使用代理會檢測網頁的X/HTML編碼中的用微格式實現的都柏林核心數據集。Dublin Core Metadata Microfomats Viewer安裝后,會在當前頁的狀態欄有一個小的圖標。雖然這個工具僅僅是有簡單功能的一個簡單插件,但是它能很方便的從都柏林核心微格式中提取標簽信息。微格式分析網頁文檔的簡易性,會促使人們在web服務中更加有效地使用語義信息。
4 總 結
都柏林核心數據集和微格式結合在一起,把信息描述的范圍有文獻信擴展到了各種網絡信息資源,擴展了多柏林核心數據集的應用領域。用微格式實現都柏林數據核心數據能讓用戶很方便地參與并利用語義網。都柏林核心微格式是語義信息更加容易和實用的一次嘗試。2007年W3C提出的GRRDL標準[14],描述了從各種語言中搜集資源描述機制,指出從X/HTML微格式中抽取語義信息的重要性。用微格式實現都柏林核心數據集的描述結合了都柏林核心數據集和微格式兩者的優點,具有很強的簡易性、靈活性等特點,會極大地促使人們在各種網絡活動中更加有效地使用語義信息。
參考文獻
[1]Lunatic Sun.什么是Microformats?[EB/OL].http:∥www.lunaticsun.com/article/microformats-concept,2010-12-02.
[2]Knowledge@Wharton.Whats the Next Big Thing on the Web?It May Be a Small,Simple Thing-Microformats[EB/OL].http:∥knowledge.wharton.upenn.edu/index.cfm?fa=printArticleID=1247,2010-09-25.
[3]Microformats[EB/OL].http:∥microformats.org/about,2010-01-02.
[4]李書寧.基于微格式的信息組織與處理框架[J].圖書情報工作,2007,51(8):35-37,112.
[5]Rohit,Khare.Tantek Celik.Microformats:a Pragmatic Path to the Semantic Web Proceedings of the 15th international conference on World Wide Web January,2006:865-866.
[6]Stolley Karl.Using Microformats:Gateway to the Semantic Web[C].IEEE Transactions on Professional Communication,2009,52(3):291-302.
[7]Kaply,Mike.Microformats and Firefox 3(for Developers)[EB/OL].http:∥kaply.com/weblog/2007/05/09/microformats-and-firefox-3-for-developers,2010-12-02.
[8]Bounds,Darren.Microsoft drops hints about Internet Explorer 8[EB/OL].http:∥arstechnica.com/microsoft/news/2007/05/microsoft-drops-hints-about-internet-explorer-8.ars,2010-12-02.
[9]Mendez,E.DCMF:DC and microformatos,a good marriage.International Conference on Dublin Core andMetadata Applicationes[EB/OL].http:∥edoc.hu-berlin.de/conferences/dc-2008/proc/dc-2008.pdf#page=151,2010-12-02.
[10]Webposible.Dublin Core Metadata Gen[EB].http:∥webposible.com/utilidades/dublincore-metadata-gen/index.php?lang=en,2010-12-02.
[11]楊九龍,熊偉.“微格式”申論[J].圖書館雜志,2009,28(3):59-63.
[12]Aarron Walter.Web標準和SEO應用實踐[M].李清,等譯.北京:機械工業出版社,2008.
[13]Microformats in Google Maps[EB/OL].http:∥googlemapsapi.blogspot.com/2007/06/microformats-in-google-maps.html,2010-12-02.
[14]W3C,Gleaning Resource Descriptions from Dialects of Languages(GRDDL)[EB/OL].http:∥www.w3.org/TR/grddl,2010-12-02.