19年歷史累積、28TB數據容量、每天超過1000萬筆交易記錄……上海證券交易所通過數據倉庫項目將海量數據轉化為靈活流動的財富。
2008年底,上海證券交易所數據倉庫三期項目完成,這標志著國內首個數據倉庫的生產和災備的主從雙系統建成。從2002年開始,在歷時6年、總共3期的數據倉庫建設過程中,上交所成為Teradata在亞太地區規模最大、最復雜、技術集成度最高的數據倉庫系統,還創造了數項國內金融機構之最:最早實現差異化存儲;使用數據挖掘技術最多;基層員工使用數據倉庫比率最高;以數據支持業務創新最徹底。
上交所的數據倉庫之路開始于2002年的數據存儲項目。通過那次對歷史交易數據進行清洗和錄入,上交所12年的歷史數據(包括光盤介質甚至紙質)全部實現了在線存儲;2003年,上交所完成了以全所級基礎數據平臺為主的操作性數據存儲系統(ODS)的一期工程,為上交所15個業務部門提供了200多項應用;2005年12月,完成以應用分析系統建設和完善數據倉庫管理為目標的二期多維數據存儲系統(DDS)。
如今經過三期的建設和使用,上交所數據倉庫的系統性能、運行水平得到極大提升,單一系統發生故障,上交所12個部門250位用戶仍可通過災備系統正常訪問600多個應用,同時保證對外的數據文件輸出服務。此外,在處理性能上,主系統比原先的平臺快57%,從系統比原來快49%,而且面對各種模擬的故障問題,系統可以在30分鐘內完成切換,并能夠確保數據比較、同步檢驗,保障主從系統的數據一致性。
遭遇牛市
從2006年開始,隨著股票行情的不斷高漲,交易量的增長速度也越來越驚人——2007年上交所每天平均要處理1000萬筆以上的交易申報,最多的時候超過2500萬筆。這促使上交所考慮對現有的數據倉庫進行深層次改造。“首先的工作就是擴容,但不是機械堆砌式擴容,而是對相關數據進行差異化存儲。”上海證券交易所總經理助理、總工程師白碩提出數據要按照應用的“熱度”加以區分,越被應用頻繁調用數據的“溫度”越高。在差異化存儲的思想指導下,上交所對歷史明細數據和近期匯總數據采用不同的冗余策略和不同的匯總粒度,充分利用現有設備了,保護了系統的投資。上交所還根據歷史經驗建立了獨特的容量預警模型,一旦數據容量逼近使用存儲空間安全限度,就會自動觸發擴容機制。
2007年元旦過后的第一個交易日,上交所遭遇了,“前所未有的牛市”:滬指跳空高開,成交金額和指數點位都創出新的歷史紀錄。這對投資者是喜笑顏開的好事情,卻讓上交所信息中心團隊捏了一把冷汗,雖然在熊市期間也對交易系統的軟、硬件進行過調試準備,但這種井噴行情還是出乎所有人的預料。盤中休息的時候,上交所信息中心主任蔣建人的面前擺著兩難問題:下午的交易量說不定會突破系統的承載能力;但運營高峰時間做系統更改同樣存在很大風險,數據倉庫能否給出臺理的決策支持建議?通過對歷史數據中申報成交筆數的時段比例進行測算,證明當天的系統設置在理論上完全能夠支持下午的行情。“當天真的就撐下來了,除了經驗之外,數據在這里面也起了很大的作用。”
除了日常運維,數據倉庫在創新、監管、經營和服務方面都展示了自身的“魅力”。在權證、交易所交易基金(ETF)、融資融券以及新交易系統設計初期的參數模擬中,數據倉庫對創新的支持無處不在。“比方說融資融券業務,究竟什么條件的證券可以成為擔保品?這就需要使用數據倉庫進行篩選,幫助業務人員測算產品推出后,風險和收益各會在什么地方。”另外,大小非解禁跟蹤、上市公司財務虛假性判斷等高端的應用也都依托于數據倉庫和挖掘平臺。
白碩認為,交易所作為一個特殊職能的金融機構,一方面要對市場運行進行監管;另一方面為了確保市場運行,要向投資者提供服務和信息。上交所的日常監管分為兩部分,一是將當天的實時數據與經過數據倉庫處理的歷史數據進行比對、跟蹤和分析;還有就是在司法機關立案、稽查的過程中,數據倉庫可以真實再現反映當時交易狀況的最原始的第一手數據。針對大牛市中涌入的大批散戶,對其進行投資者教育成為證券行業日漸關注的話題。上交所通過對投資者年齡、收入與交易行為的相關性分析,全面把握了整個市場的投資者總體狀況,為有針對性地對投資者進行疏導和教育提供了堅實的數據基礎。
打造一流證交所
作為我國成立最早、規模最大的證券交易所,上交所從2000年起就提出了構建國際一流交易所的發展目標,并開始著手規劃新一代交易系統。
“我們有世界上規模最大的投資者群體,這是優勢但也給技術系統帶來很大壓力。因為散戶的每筆訂單的面值雖然不大,但任何一筆訂單對前臺交易系統、后臺數據倉庫系統的資源消耗都是一樣的。”白碩認為,正是本世紀初上交所放眼全球聘請包括麥肯錫、第一波士頓、路透咨詢等在內的多家頂尖咨詢公司進行戰略咨詢,上交所最終得以確立了一個全面的。面向國際一流交易所的整體發展戰略規劃。作為當年整體戰略的一部分,信息技術發展規劃的主要項目包括網站、信息公司、數據倉庫、指數公司以及新的交易系統,而且多年來也基本在按照這個規劃的方案執行。
在路透公司的建議下,上交所決定采用當時還很新鮮的XBRL(可擴展的商業報告語言)來統一上交所的信息披露數據格式。這是一種基于互聯網的數據標準,可以方便地轉化成常用的各種書面文字,如PDF、HTML格式。當時,xBRL剛剛在國際上嶄露頭角并在海外會計師事務所、咨詢公司、交易所、政府機關等機構中應用。“和數據庫不同的是,XBRL可以支持中文檢索功能,這些中文檢索功能集成在數據倉庫里,也是我們的一大特色。”讓白碩驕傲的是,上交所在XBRL方面進行的受到國際同行高度認可的應用實踐,如今已經受到國內許多行業高度重視和關注。
在數據倉庫三期即將建成之時,上交所對數據倉庫投入和信息經營成果產出比進行了計算,得到的投資回報非常令人滿意。
在未來的設計藍圖中,上交所新建成的EAI消息總線與數據流處理技術、實時數據倉庫技術(ADW Active DataWarehouse)等相結合,可以實現行情、交易、成交等實時市場數據的實時加載和多個實時統計數據流的按需分發、推送。這意味5著上交所對實時市場數據的綜合利用會提升到一個新的高度,也為信息服務產品的創新提供了嶄新的技術手段。“這樣一個臺階一個臺階地走過來,也是蠻刺激的。”白碩說。