云南財經大學信息管理中心 曾志勇 云南財經大學信息學院 閆亞麗
?
基于XBRL層次結構的數據挖掘模型分析*
云南財經大學信息管理中心曾志勇云南財經大學信息學院閆亞麗
摘要:XBRL作為一種基于XML的可擴展性商業報告語言,是未來財務信息編制和交換的標準。本文提出了一種基于XBRL層次結構的數據挖掘模型架構,該模型架構包括數據提取轉換、X-Hive數據存儲、數據挖掘和結果展示四大模塊,綜合了XBRL層次結構思想,符合數據挖掘相關流程,并利用數據挖掘方法和XQuery查詢思想對存儲于X-Hive數據庫中的XBRL數據做深度挖掘。
關鍵詞:XBRL數據挖掘X-Hive數據庫
XBRL是商業和財務數據電子化交流的一種語言,它有助于商業信息的編制、分析和交流,為提供和使用財務數據的所有人提供低成本、高效率的服務以及可靠而準確的商業信息。進入21世紀后,由于互聯網的應用和普及,加深了各行業的融合度,針對社會不同領域進行綜合數據的挖掘顯得愈來愈重要,數據挖掘技術獲得了長足的發展,特別是基于結構化數據產生了很多的數據挖掘方法,并且取得了很好的數據挖掘效果。要對XBRL格式文件進行數據挖掘,必須將XBRL的技術規范與傳統的數據挖掘技術相結合。基于XBRL層次結構的數據挖掘模型架構如圖1所示,它由以下四個過程構成,主要包括數據提取轉換模塊、X-Hive數據存儲模塊、數據挖掘模塊以及結果展示模塊,它們之間的各種協調工作都是圍繞XBRL數據格式進行的。

圖1 基于XBRL層次結構的數據挖掘模型架構
數據提取轉換模塊是將各種形式的數據格式轉變為符合XBRL格式規范的過程。在數據挖掘整個系統中該模塊是一個非常重要的模塊,可以為最后的數據挖掘提供一個質量高、匹配性好、優質的數據源。從數據組織形式的角度來區分,數據可以分為兩大類,一類是基于XML語言基礎描述的適用于XBRL規范的數據源,一類是非XBRL規范的數據源。在數據挖掘過程中可以處理各種不同規范格式的數據源,在數據挖掘之前需要進行統一規范,也就是將第二類非XBRL規范格式的數據源按照一定規則進行處理,最后轉化成符合XBRL規范格式的數據源。
(一)HTML文檔轉化為XBRL規范在對HTML類型的文檔進行XBRL規范格式化時,首先要對HTML文檔進行分析,使其數據呈現為DOM樹形式,然后再繼續進行下一步的格式轉換。HTML文檔的XBRL轉換過程主要解決的問題是HTML文檔及其合集結構內容的提煉和模式的生成。舉例來說,可以在XBRL文檔中建立一個標志,用來表示HTML頁面中一個特定位置的信息,這個XBRL標志就稱為一個元數據的說明。這個內容的作用是用來描述數據內容如何在HTML中組織等信息。然后進一步分析HTML文件,增加丟失的信息,并明確對象名稱和他們之間各種不同的關系,生成一個完備的、標準的XBRL規范格式的數據模型。另外,對抽取模式進一步明確是否嚴格按照XBRL規范來進行標記,并且要明確指出其在HTML文檔中需要進行轉換的數據信息所在HTML文檔中的標記,確定那些已經完成轉換的XBRL規范的文檔標記同這些被轉換的HTML文檔信息之間的特定關聯,最后再根據這些特定關聯對HTML文檔進行詳細描述,并輸出最終結果,即XBRL規范文檔。
(二)現有文本數據的XBRL規范化當前的文本格式文件都是具有一定結構信息的文件,如日常數據表格文件、電腦的訪問記錄文件、各種文字數據的存儲文件等。為了對這些數據進行XBRL模式的數據挖掘,必須將這些文件都轉換成符合XBRL規范的數據格式才可以使用。在數據轉換過程中的主要工作是要獲取人們興趣度比較大的、具有一定數據結構的數據內容。對于這些組合起來比較靈活的文本格式數據,通過一些經過多次驗證的、可靠性的程序來進行文件解析和格式轉換。當前現有的技術中,DOM技術就可以完成向XBRL規范文檔的轉換。這個轉換過程可以分成三個塊來進行:第一塊是通過建立datastream來進行文本的讀取;第二塊是將文件中的內容按照Schema中定義的標準格式來進行統一組織,然后再轉換成所對應的DOM樹形式;最后第三塊是通過調用集成的轉換類Transformer,利用生成的DOM樹來產生所對應的XBRL規格文檔。
(三)結構化數據轉換成XBRL格式關系數據表可以用來表示結構化的數據。由于關系數據的結構性強、形式比較簡單,而且最終的信息視圖都具有不同的語義,所以可以很方便地用XBRL規范的數據模式來表示,而且其轉換也比較容易。
(四)XBRL規格文檔的檢驗工作通過上述三個步驟生成XBRL規范格式文檔后,需要對其進行進一步的檢驗工作,從中查找出不能夠滿足要求的內容并加以改正,使其可以滿足數據格式的要求。到此,就可以完成XBRL格式文檔數據的轉換任務了。
作為一種對XML數據存儲的數據庫系統,XML數據庫系統同類型為半結構化的數據匹配性非常好,在對這種類型的數據進行存儲時不需要進行拆分和再組合,數據的存儲效率比較高。這種存儲系統不但可以同時為多個用戶提供數據訪問請求,且具有傳統數據庫在數據的安全保障、數據管理、編程接口等方面的特點,而且還支持W3C最新發布的XML技術,如XQuery或XPath技術同該數據庫之間的無縫連接。
XML數據庫有比傳統數據庫更便利的特點:第一,在半結構化數據的存儲和管理上,XML數據庫的存儲效率明顯比傳統數據庫要高,這些數據結構在傳統的關系數據庫中是無法有效管理的。第二,可以提供針對路徑和標記的查詢工作。XML數據庫不僅可以通過標記名來查找,還可以對路徑進行查詢。這與傳統的數據庫語言只能對數據元素所對應的特定值進行查詢,卻對元素所表達的名稱不能查詢是完全不同的。第三,因XML獨特的層次結構語言模式,XML數據庫在解決具有層次結構特征的語言形式時顯得非常便捷。第四,由于XML存儲數據時具有明顯的順序結構特征,這使得數據的鏈接,查詢和修改更加便利。
對XBRL格式的數據而言,基于來自XML擴展的特點,采用XML數據庫對XBRL數據存取和操作是現今最合理的選擇。近幾年,隨著互聯網技術的大力發展和普及,很多數據都是通過XML或者XBRL來表現的,各國對這方面的研究也顯示了足夠的重視,并取得了豐碩的成果,這使得XML數據庫的存儲技術得到了迅猛的發展并已成功運用到各數據存儲領域,這些都為充分采用半結構化數據結構特點的XML數據庫對XBRL數據進行存儲管理提供了非常好的技術支持,而且這種方法對XBRL數據文檔的存儲是極為有效的。
在本文中,針對XBRL數據挖掘系統的數據存儲模塊使用的是X-Hive數據庫,該數據庫中的數據存儲結構如圖2所示。在X-Hive數據庫中,存在一個可以存放所有“文件集合”、XBRL文檔和目錄的“根文件集合”。鑒于XML數據庫是一種具有可以分層存儲的存儲系統,所以把“子文件集合”嵌入到“文件集合”中。通過對一類XBRL文件建立一個“文件集合”的方式就可以實現對數據的管理功能。在這里通過一個“交易”文件集合的創建來實現被挖掘的XBRL文檔的管理。每一個“交易”都有一個目錄,目錄是用來存放DTD或者XBRL Schema的地方,所有的DTD或者XBRL Schema如果被引用了,則首先必須先被導入到該目錄中,如果想創建文件集模式,就要把DTD或者XBRL Schema同對應的文件目錄連接起來。在X-Hive數據庫中還支持包括ID屬性索引、文檔索引、值索引和全文索引等多種不同的索引方法,而且在文件進入數據庫之后還會創建與之相對應的索引。

圖2 XBRL在X-Hive中的存儲結構
在數據的存儲流程上,X-Hive數據庫和其他類型的數據庫基本是差不多的,X-Hive數據庫的存儲流程首先要對數據庫創建連接,然后再將挖掘的數據導進來。
基于XBRL層次結構的數據挖掘的目的是從大量的XBRL文檔結構中發掘出值得利用的信息。因此數據挖掘在整個數據處理過程中起著至關重要的作用。但是數據挖掘的目的不同所采用的方法和技術也不盡相同,主要是將XBRL存儲于XML數據庫中,并對其進行數據挖掘。
目前為止,對XBRL數據內容的挖掘方案有如下兩種:第一種是針對當前關系模型的結構化特點,可以先將XBRL文檔轉換成結構數據,然后再把轉換后的XBRL數據同關系模型相關聯,最后在數據挖掘過程中采用比較流行且已經成功使用的數據挖掘方法。但是鑒于XBRL數據本身就是一些半結構化的數據,因此在同關系模式相關聯時候會存在一些未知的因素影響最終的挖掘效果。第二種是將一些查詢語言嵌入到其他應用程序中以實現XBRL數據或半結構化數據的查詢功能,來獲得對數據集的挖掘結果。這種方法的優點是能夠將XBRL技術與數據挖掘技術緊密結合,而且實現起來比較方便。當前X-Hive數據庫已經擁有XQuery查詢功能,所以,在對XBRL數據進行數據挖掘的過程中,可以將XQuery數據查詢技術同成熟的數據挖掘方法相結合,從而實現面向XBRL的數據挖掘算法。
在對XBRL數據進行查詢挖掘后需要根據數據挖掘的目的進行有效的展示,這一步需要對數據挖掘的目的要明確,在進行數據挖掘的過程中要選擇好合適的方法,應用恰當的工具分析、反復對比,最終總結出相應的結論,并選擇合適、有力的表示及可視化方法。結果展示模塊是最后一步也是至為關鍵的一步,它呈現了挖掘數據的結論,為之后的工作奠定了基礎。因此要展示出正確的結果就需要對數據挖掘的方法相當熟悉,在數據挖掘過程中做好充分的準備工作。
本文提出了基于XBRL層次結構的數據挖掘模型架構,該模型由數據提取轉換,X-Hive數據存儲,關聯規則挖掘以及結果展示四大模塊構成。數據提取轉換模塊部分負責將采集的多種格式數據提取轉換為需要的XBRL文檔格式,轉換成功后的XBRL數據存入X-Hive數據庫中,根據X-Hive數據庫格式進行數據挖掘,最后將挖掘的結果可視化展示出來供用戶使用。本文提出的數據挖掘模型將傳統數據挖掘方法與特殊的XBRL格式相結合,實現新的面向XBRL的數據挖掘,能充分利用XBRL數據格式的特點,對財務信息數據挖掘的研究具有現實應用意義。
參考文獻:
[1]劉聽:《基于XBRL的會計財務報告應用》,《財會研究》2010年第5期。
[2]趙利兵:《基于XBRL的網絡財務報告模式構建》,《財會通訊》(綜合·上)2015年第4期。
(編輯 陳 玲)
*本文系教育部人文社會科學研究青年基金“網絡信息披露機制下的海量金融數據挖掘模型研究”(項目編號:10YJCZH004)、云南財經大學校科研基金重點項目“金融數據在分布式環境中的數據挖掘模型研究”(項目編號:YC10A003)階段性研究成果。