萬峰
【摘要】在交通行業領域存在著很多的執行標準,這些標準基本上都是以word這種半結構化的數據而存在的。為了進行標準的快速檢索和一致性檢測,就需要自動化的提取word標準為結構化信息并存入數據庫,以便于后續知識數據元的提取進而進行標準比對,得到檢測報告。本文采用Jacob技術操作word文檔,抽取word為結構化信息并存入Mysql數據庫。
【關鍵詞】半結構化數據,數據抽取,Jacob,數據存儲,Mysql
【中圖分類號】TP311.13 【文獻標識碼】A 【文章編號】1672-5158(2013)04-0161-02
引言
我們知道交通系統是一個涉及面非常廣,領域非常多的龐雜的信息系統。對于這樣一個系統要進行正確而又權威性的管理,建立相應各個方面的執行標準進而為我們的交通管理提供一個執行標準是一個項非常必要的工作。交通部作為全國的交通管理部門就成立了相應的標準管理委員會,并委托各個標準制定委員會去制定相應領域的標準以供執行。因為交通問題涉及的領域實在是太復雜了,不僅面廣,而且還存在著不同領域的交界信息,甚至同一領域內也存在很多模糊難以界定的問題。每一個標準制定委員會制定出很多的標準,而且各個標準的制定單位還不一樣,所以就出現了標準之間存在重復性規定,不一致性規定的問題。
標準的制定都遵從的是一個統一的總章規則,又是以word這種半結構化的數據存在的。所以我想做的就是把word文檔信息提取為結構化的信息并存儲到結構化數據庫當中。那么我們就可以通過比較自動的進行標準的沖突性檢測了,檢測出存在沖突性的標準并給出沖突檢測報告。這樣就可以給我們的標準檢索和為標準制定者的制定工作提供非常有意義的輔助工作。
1、提取技術
涉及到word格式內容的抽取。目前,用iava實現對word內容進行抽取的工具一般有兩種:Jacob和Apache的Poi。
因為要把word的內容抽取為格式化的信息并存入到數據庫中,所以首先要能夠抽取去整篇word文檔的結構化信息及標題結構存人數據庫,再抽取相應的文本信息到對應數據庫表中。Poi是Apache的一個項目,但是目前只能操作簡單的word文檔,復雜的、帶表格的都不行,不過,相信Apache對Poi的不斷完善,效果會有改觀。Poi是用純Java實現的。
Jacob是Java和Com的連接橋,連接Java和Com或者win32函數的一個中間件。Microsoft Word以一種專用格式存儲其文檔,它通過“組件對象模型(COM)”對象顯示其某些特征。Jacob允許任何JVM訪問COM對象,從而使Java應用程序能夠利用COM對象。所以我才用了Jacob的工具來實現對word文檔的信息抽取。
2、系統設計
通過對一篇word文檔的研究可以發現,每篇word文檔都是以一種統一的格式出現的。即為大標題,一級標題,二級標題,三級標題這樣的標題結構出現的,在最低級標題的下面都有相應的段落文本內容描述信息。所以我們也可以把word文檔看作是一種結構化的信息存人進數據庫中。我的做法就是先把word文檔的標題結構抽取出來存入進數據庫。再把文本信息當作整個字符串存入到相應的表結構中。拿一個word標準以作示例:
道路、水路貨物運輸地理信息基礎數據元
1、范圍
本標準規定了道路、水路貨物運輸地理信息數據元的基本概念、類目分組和表示,并給出了詳細的數據元目錄。
2、規范性引用文件
下列文件中的條款通過本標準的引用而成為本標準的條款。凡是注日期的引用文件,其隨后所有的修改單或修訂版均不適用于本標準,然而,鼓勵根據本標準達成協議的各方研究是否可使用這些文件的最新版本。
3、術語和定義
3.1 地理信息系統
geographic information system(GIS)
采集、存儲、檢查、操作、分析和顯示地理數據的系統。
4、總則
4.1 概述
貨物運輸地理信息數據元描述了在運輸過程中所需的地理信息系統(GIS)、衛星定位系統的屬性數據、影響貨物運輸的相關地理因素以及用于相關信息處理技術和設備的基本數據單元。貨物運輸地理信息數據元具有自身的特點。它的概念和結構遵循GB/T 18391.1規定的一般數據元的概念和結構。
4.2 數據元的類目分組
為方便用戶使用本標準,將貨物運輸地理信息數據元分為四個類目如下:
第1組:基礎地理信息——行政區域描述、地理位置描述、地理相關計量;
整篇文檔都是由標題結構組成的,所以先利用Jacob抽取文檔的標題結構到數據庫中。數據庫用的是Mysql。
這樣的話我們就把半結構化的word文檔存儲為了結構化的數據庫信息,為以后的檢索和一致性檢測工作做了重要的前提工作。
結束語
對于這種把非結構化或者半結構化的信息處理為結構化的信息并存儲到數據庫中,在很多實際項目開發中都要用到,因為如今信息時代的信息量實在是太龐雜了,獲取對自己有用的信息并存儲到數據庫中以供相關工作的開展具有重要的現實意義。