喬惠萍山西建筑職業技術學院計算機工程系 山西 030006
互聯網的飛速發展使得 Internet成為人們快速獲取、發布和傳遞信息的重要渠道,并在人們生活中的各個方面扮演著重要的角色。在互聯網上發布信息主要是通過網站來實現的,網站是由網頁構成的,是一系列相互關聯的網頁的集合。而網頁又是由各種各樣的網頁元素構成(文本、圖像、動畫、音頻、視頻)的,各種元素如何合理的分布在網頁上?網頁上的內容又是如何發布到互聯網上,使得千千萬萬的用戶在自己的計算機上都能看到同樣的內容呢?
為了在互聯網上發布信息,需要一種所有計算機都能夠理解的“出版”語言,這就是國際標準ISO8879—標準通用標記語言(Standard Generalized Markup Language, SGML)。
現在互聯網網頁文檔很多是用超文本標記語言(HyperText Markup Language, HTML)編寫的,HTML可以看做是SGML的實際應用。
HTML與其他高級語言(如C語言等)不同,它不是一種程序設計語言,而是一種頁面(Page)語言,在某種程度上和排版語言類似。制作HTML文檔時需要加入一些標記(Tag),用于說明一些段落、標題、圖像、字體等。當用戶通過Web瀏覽器閱讀HTML文檔時,瀏覽器負責解釋插入文檔中的各種標識,并以此為依據顯示文檔的內容。
HTML語言同3W(World Wide Web)在上世紀90年代成為Internet的正式標準,所有的 Web瀏覽器都支持HTML語言,所有用戶用不同的瀏覽器中都能顯示相同的頁面。今天,HTML文檔已經可以跨越不同的瀏覽器和平臺,發展成為一種所有設備(例如,個人計算機、移動電話、手持設備、語言輸入輸出設備等)都可以使用的萬維網語言。
HTML的文檔是ASCII文件,沒有任何特殊格式,可以使用任何編輯器編輯即使像Notepad如此簡單的軟件。通常HTML的文檔由文檔頭(head)、文檔名稱(title)、文檔主體(body)、段落(paragraph)等成分組成。下面是一個簡單的HTML文檔:
<HTML>
<HEAD>
<TITLE>HTML文件結構</TITLE >
</HEAD>
<BODY>
<H1> 歡迎訪問我的網站?。?H1>
<p>這是一個HTML文件實例</p>
</BODY>
<HTML>
HTML文檔按多級標題結構進行組織,由<HTML>開始,以</HTML>結束。每個 HTML文檔由文檔頭(head)和正文(body)組成,并分別用<HEAD>…</HEAD>和<BODY>…</BODY>來標記。文檔頭標簽<HEAD>…</HEAD>之間使用<TITLE>…</TITLE>包含文檔的名稱。正文標簽<BODY>…</BODY>之間含有各種 HTML標簽作標記的段落、列表和其他文檔元素組成的實際文檔。
HTML的一個重要特性是超文本鏈接。通過在文件內創建“熱”區,使用戶用鼠標點擊熱區能跳轉到其他網頁、本地文件或頁面上其他區域。這樣使得以往平面文檔的線性瀏覽方式改變成為一種立體文檔,具有非線性瀏覽功能。
XHTML與HTML文檔最主要的不同如下:
(1)XHTML元素必須被正確地嵌套。
(2)XHTML元素必須被關閉,非空標簽必須使用結束標簽,空標簽也必須使用結束標簽,或者其開始標簽必須使用/>結尾。
(3)標簽名必須用小寫字母。XHTML規范定義標簽名和屬性對大小寫敏感。
(4)XHTML文檔必須擁有根元素。所有的XHTML元素必須被嵌套于<html>根元素中,其余所有的元素均可有子元素。子元素必須是成對的,且被嵌套在其父元素中。
(5)屬性名稱必須小寫,不能簡寫。(6)用ID屬性代替NAME屬性??梢钥闯鯴HTML比HTML要更嚴格。
2011年2月11日,遼寧省委、省政府出臺了《關于貫徹落實〈中共中央國務院關于加快水利改革發展的決定〉的實施意見》(以下簡稱《實施意見》),對加快遼寧水利改革發展作出了全面部署,提出力爭通過5~10年的努力,到2020年進一步增強水利支撐經濟社會發展的能力,基本建成防洪抗旱減災體系、“東水濟西”水資源配置格局和高效利用體系、水資源保護及江河流域健康保障體系和有利于水利科學發展的制度體系。
與HTML一樣,XML(Extensible MarkupLanguag)也源自SGML,HTML有固定標記集合,有著規定不變的格式,而XML實際上是一種定義語言,使用者可以用XML自己定義各種標記來描述文件中的元素。
XML與HTML的區別主要是:
(1)HTML是用來顯示數據,重點是‘如何顯示數據’。
(2)XML可以用來描述數據,重點是‘數據是什么’。
(3)XML是一種類似于 HTML的標記語言,但 XML的標記不是在XML中預定義的,你必須定義自己的標記。
(4)XML使用文檔類型定義(DTD)或者模式(Schema)來描述數據。
(5)XML使用DTD或者Schema后就是自描述的語言。
XML包含3個要素:文檔定義(DTD/XML Schema)、可擴展樣式語言XSL(eXtensible Stylesheet Language)和XLink。DTD規定XML文件的邏輯結構,定義了XML文件中的元素、元素的屬性和屬性之間的關系;XSL是規定XML文檔樣式的語言,它可以在客戶端使Web瀏覽器改變文檔的表示法,而不與服務器進行交互通信;XLink將進一步擴展當前Web上已有的簡單鏈接。
XML的應用一般可分為四種:
① 客戶需要與不同的數據源進行交互,使用XML解決數據的統一接口問題。
來自不同數據庫的數據有各自不同的格式,而客戶與這些數據庫間只能用一種標準語言進行交互,就是XML。XML的自定義性及可擴展性,使得可以表達各種類型的數據。
② 大量運算負荷分布在客戶端,服務器只需發出同一個XML文件。
傳統的“客戶/服務器”工作方式中,客戶向服務器發出不同的請求,服務器會分別進行響應,這就需要網絡管理者事先調查各種不同的用戶需求以做出相應不同的程序,無形中加重了服務器本身的負荷。假如用戶的需求繁雜多變,所有業務邏輯集中在服務器端是不合適的,服務器端的編程人員可能滿足不了眾多的應用需求,也來不及跟上需求的變化。應用XML可以將處理數據的主動權交給客戶,服務器所作的只是盡可能完善、準確地將數據封裝進XML文件中,從而使廣泛、通用的分布式計算成為可能。
③ 網絡代理編輯、增減所取得的信息以適應個人用戶的需要。
有些客戶取得數據并不是為了直接使用而是為了根據需要組織自己的數據庫。如學校建立了一個題庫,考試時可將題庫中的題目抽出若干組成試卷,再將試卷封裝進 XML文件發送給考生。
④ 同一數據以不同的面貌展現給不同的用戶。
如可以用電視劇、電影、話劇和動畫片等不同形式表現同一個劇本。
XML可以使數據制作者不必考慮數據的用途,而只考慮有可能會被用到的信息,并將其完整、規范地制作成 XML文件,服務商也無需拘泥于特定的腳本語言、制作工具等,只需提供標準化、可獨立銷售、有級別操作的領域,從而最大限度地滿足客戶的需求。
微軟的Schema成為現在的W3C定義的Schema的原型。但是W3C發展了一套不同于 DTD方法來定義XML數據類型,并給出了自己的定義。
Schema是一種描述信息結構的模型,它是借用數據庫中一種描述相關表格內容的機制,為一類文件樹立了一個模式,該模式規范了文件中tag(標簽)和文本可能的組合形式。例如,一本書的相關信息可以表示為:
<BOOK>
<TITLE>WEB應用程序設計</TITLE>
<AUTHOR>喬惠萍</AUTHOR>
<PUBLISHER>機械工業出版社</PUBLISHER>
<PRICE>RMB 24.00</PRICE>
</BOOK>
進行Schema的檢查過程是:一本書的信息包括書名、作者、出版社等。在 Schema中規范了內容的模式限制和數據類型限制,前者用來規定文件中element(元素)的順序,后者用來限制數據單元的合法性。
HTML網頁使用預先確定的標識(tags),對所有的標記都有明確的含義,而XML沒有固定的標識,需要用戶自己建立標識,所以瀏覽器不能自動解析它們。XML文檔沒有一個標準的辦法來顯示。為了顯示 XML文檔,可以使用 XSL(eXtensible Stylesheet Language)樣式語言。
XSL由兩部分組成:一是轉化XML文檔;二是格式化XML文檔。
Xlink是說明如何在網絡上做到識別、定址及連接的規格文件。Xlink一個重要功能是建立“topicmaps”。Topicmaps允許不同的資料有外在的注解(External Annotation)。
Xlink定義了幾種常用的連接型態:
① Simple:類似在HTML內a標記的用法。
② Extended:用法包含arc和locator的元素,并允許各種類的擴充連接。
③ Group和Document:讓群組連接到一些特別的文件。
因此,在當前最新的.NET平臺下,XML以其描述簡單、功能強大、跨平臺等特點被廣泛應用在各種領域,逐漸成為一種新的網絡數據處理方式。在網站中常被用來存儲臨時數據、配置信息或者列表詳情等,使用XML有效減少了與數據庫的交互次數,提升了服務器的訪問性能和速度。
[1]許卓鳴,劉琴.基于關系數據庫的XML存儲技術評述[D].南京:東南大學碩士學位論文.2003.
[2]趙英.組織 Web資源的新的標識語言—xML[J].圖書館雜志.2000.
[3]林甫.試析常用于數字圖書館中數據交換與處理的三種數據格式的標識語言(SGML、HTML、XML)的異同性.現代情報.2002.
[4]韓利芳.可擴展標記語言及其應用.電訊技術.2009.