數據庫產業的新崛起:XML數據庫

2009-12-31 00:00:00艾文

信息化建設 2009年10期

長期以來，IT業界一直在尋求新型數據庫系統以彌補經典的關系數據庫在管理非結構化數據方面的不足。Internet的異軍突起以及XML語言的出現，給數據庫系統的發展開辟了一片新的天地。原生XML數據庫系統概念的問世，標志著數據庫系統進入了新的一個的發展時期。

關于XML技術

20世紀70年代，數據庫系統的發展進入了“關系型數據庫系統(relational database)”時期。隨著信息技術和市場的發展，人們發現關系型數據庫系統雖然技術很成熟，但其局限性也是顯而易見的:它能很好地處理所謂的“表格型數據”，卻對技術界出現的越來越多的復雜類型的數據無能為力。九十年代以后，數據庫業界一直在研究和尋求所謂的“后關系型數據庫系統(post-relational database)”。XML技術的誕生就是為了統一不同格式的數據，實現不同系統之間的信息共享，增加系統價值。

XML是一種標記語言，以文本為基礎，具有易讀性和平臺無關性，它以其結構化、可擴展性及靈活性的特點引起了業界的普遍關注。XML技術的誕生就是為了統一不同格式的數據，實現不同系統之間的信息共享，增加系統價值。XML是處理非結構化數據和半結構化數據的橋梁。由于XML是一種可自我描述定義的元語言，所以它將大量用于制定行業內及行業間數據交換的標準。圍繞著XML已經形成了一大批新的技術及標準。工業界也在加緊制定自己行業的XML標準。目前，XML 數據已被廣泛地用于實際應用。在企業內部，80%的信息都是除結構化數據以外的文檔、郵件、音頻視頻等類型的非結構化數據，而這些數據的管理用XML形式描述是最好的。更多的例子包括辦公文檔(DOC， XLS)，網頁(HTML)，PDF，圖像(JPG， GIF)，音頻(MP3)，視頻(MPG， AVI)，文本等主流非結構化數據。可以預見，在以互聯網為基礎的企業及商務應用中，XML數據將呈爆炸性地遞增。

XML數據庫的優勢

江蘇倍多科技前身Ipedo成立于美國硅谷，是原生XML數據庫行業奠基者及標桿企業，同時也是行業標準的發起人之一。目前，江蘇倍多的XML數據庫已是相對成熟的產品，并在國內國外有大規模應用的客戶，如英國電信，法國電信，美國海軍，惠普，路透社，北京地稅局，江蘇電科院等。從產品的成熟化角度，江蘇倍多的XML數據庫同IBM和甲骨文等企業站在同一條起跑線上，而從產品的性能上則具有一定優勢。

大量資料和數字顯示XML數據庫的應用已經成為數據庫產業新一輪的熱點。業界最大的企業軟件公司，如:IBM，甲骨文和泰瑞數據都已正式推出各自的XML數據庫解決方案。電子病歷，電子商務和信息整合市場都將給該市場帶來數以萬億的市場機會。

相對IBM和甲骨文的以關系數據庫起家的企業相比，XML數據庫有天生的性能方面的優勢。IBM和甲骨文是在原有關系數據庫基礎上擴展了XML支持模塊，完成XML數據和數據庫之間的格式轉換和傳輸。即把XML數據本身的樹形結構轉換成關系模型中的二維表結構，從存儲粒度上，可以把整個XML文檔作為RDBMS表中一行，或把XML文檔進行解析后，存儲到相應的表格中。為了支持W3C的一些XML操作標準，如XPath，XED提供一些新的原語(如Oracle9iR2開始增加了一些數據包來操作XML數據等)，并優化了XML處理模塊。將XML樹狀結構翻譯成關系二維表，再從二維表翻譯回樹狀結構，會造成性能方面的很大問題。

XML數據的實現方式是原生態XML結構，即從底層就支持樹狀結構，采用層次數據存儲模型，保持XML文檔的樹形結構，省掉了XML文檔和傳統數據庫的數據轉換過程。原生態XML數據結構是專門為存儲XML文檔設計，也兼有一般數據庫的特性，例如支持事務，并發控制，查詢語言，安全機制，二次開發接口等。唯一的不同之處在于其內部存儲模型是基于XML文檔樹形結構，而非關系模型。下圖可以明確地反映出兩種實現方式的根本區別。

在XML數據庫行業組織的XML數據庫基準程序XMark的測試中，倍多的產品性能明顯勝出。而在最近國防某個項目的測試中，XML數據庫與甲骨文同臺比測，結果表明，XML數據庫在若干重要指標上有明顯優勢，尤其是在優化和查詢方面，一掃國內數據庫在高性能和穩定性方面普遍存在的頹氣。下圖表明了XMark測試的結果。

前景美好道路曲折

近年來我國發布的電子政務標準和文檔標準，如UOF，UOML等，均基于XML。我國的證券交易市場(如上海證券交易所)已開始采用基于XML的財務報表標準XBRL。而最近才發布的電子病歷標準征求意見稿及健康檔案標準更是為XML的應用提供了一個廣闊的前景。要把XML數據庫產業做大，任何公司都知道離不開中國市場。中國有13億人，單“全民健康檔案”一個項目就足以撐起整個產業。

但是，就目前而言，甲骨文、微軟、IBM、Sybase等巨頭在中國數據庫市場上繼續占據著97%以上的絕對壟斷份額，這一形勢沒有大的改變。長期壟斷導致許多重點用戶依附于國外產品，不易接受新的替代品，這反過來促進了壟斷趨于極端。后來者面臨的市場進入壁壘越來越高，是國產數據庫面臨的主要困難之一。

此外，國內用戶使用盜版數據庫的情況十分普遍，不亞于操作系統和辦公軟件，而且更為隱蔽;加上近年來國際開放源碼產品的興起也為國內用戶提供了更多的選擇，MySQL、PostGreSQL等提供了比較完整的數據庫功能，能夠滿足大多數中低端應用需要，這些很大程度上削弱了國產數據庫的價格優勢。

因此說，國產數據庫進入市場伊始，就面臨著上下兩方夾擊的嚴峻競爭，必須在產品定位、價格體系、營銷方式、支持服務等非研發范疇中迅速培養能力，并以創新來改變劣勢。目前國產數據庫只在局部市場上嶄露頭角，宣傳聲勢和知名度遠遠不夠，沒有像國產操作系統、中間件、辦公套件等產品那樣，與國外主流產品開展正面競爭，也并沒有引起國外廠商的重視。也正因如此，國產數據庫仍大有可為。

信息化建設2009年10期

信息化建設的其它文章: 信息化在線; 名刊摘要; 3G室內分布覆蓋問題及優化解決方案; 打造農村綜合信息平臺實現“城市包圍農村”; 推“四個一點”模式促電腦寬帶下鄉; 對設區市環境信息化建設的思考