999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

抽取WORD文檔為結構化信息并存儲的方法

2014-01-03 02:09:40萬峰
中國信息化·學術版 2013年4期
關鍵詞:數據存儲

萬峰

【摘要】在交通行業領域存在著很多的執行標準,這些標準基本上都是以word這種半結構化的數據而存在的。為了進行標準的快速檢索和一致性檢測,就需要自動化的提取word標準為結構化信息并存入數據庫,以便于后續知識數據元的提取進而進行標準比對,得到檢測報告。本文采用Jacob技術操作word文檔,抽取word為結構化信息并存入Mysql數據庫。

【關鍵詞】半結構化數據,數據抽取,Jacob,數據存儲,Mysql

【中圖分類號】TP311.13 【文獻標識碼】A 【文章編號】1672-5158(2013)04-0161-02

引言

我們知道交通系統是一個涉及面非常廣,領域非常多的龐雜的信息系統。對于這樣一個系統要進行正確而又權威性的管理,建立相應各個方面的執行標準進而為我們的交通管理提供一個執行標準是一個項非常必要的工作。交通部作為全國的交通管理部門就成立了相應的標準管理委員會,并委托各個標準制定委員會去制定相應領域的標準以供執行。因為交通問題涉及的領域實在是太復雜了,不僅面廣,而且還存在著不同領域的交界信息,甚至同一領域內也存在很多模糊難以界定的問題。每一個標準制定委員會制定出很多的標準,而且各個標準的制定單位還不一樣,所以就出現了標準之間存在重復性規定,不一致性規定的問題。

標準的制定都遵從的是一個統一的總章規則,又是以word這種半結構化的數據存在的。所以我想做的就是把word文檔信息提取為結構化的信息并存儲到結構化數據庫當中。那么我們就可以通過比較自動的進行標準的沖突性檢測了,檢測出存在沖突性的標準并給出沖突檢測報告。這樣就可以給我們的標準檢索和為標準制定者的制定工作提供非常有意義的輔助工作。

1、提取技術

涉及到word格式內容的抽取。目前,用iava實現對word內容進行抽取的工具一般有兩種:Jacob和Apache的Poi。

因為要把word的內容抽取為格式化的信息并存入到數據庫中,所以首先要能夠抽取去整篇word文檔的結構化信息及標題結構存人數據庫,再抽取相應的文本信息到對應數據庫表中。Poi是Apache的一個項目,但是目前只能操作簡單的word文檔,復雜的、帶表格的都不行,不過,相信Apache對Poi的不斷完善,效果會有改觀。Poi是用純Java實現的。

Jacob是Java和Com的連接橋,連接Java和Com或者win32函數的一個中間件。Microsoft Word以一種專用格式存儲其文檔,它通過“組件對象模型(COM)”對象顯示其某些特征。Jacob允許任何JVM訪問COM對象,從而使Java應用程序能夠利用COM對象。所以我才用了Jacob的工具來實現對word文檔的信息抽取。

2、系統設計

通過對一篇word文檔的研究可以發現,每篇word文檔都是以一種統一的格式出現的。即為大標題,一級標題,二級標題,三級標題這樣的標題結構出現的,在最低級標題的下面都有相應的段落文本內容描述信息。所以我們也可以把word文檔看作是一種結構化的信息存人進數據庫中。我的做法就是先把word文檔的標題結構抽取出來存入進數據庫。再把文本信息當作整個字符串存入到相應的表結構中。拿一個word標準以作示例:

道路、水路貨物運輸地理信息基礎數據元

1、范圍

本標準規定了道路、水路貨物運輸地理信息數據元的基本概念、類目分組和表示,并給出了詳細的數據元目錄。

2、規范性引用文件

下列文件中的條款通過本標準的引用而成為本標準的條款。凡是注日期的引用文件,其隨后所有的修改單或修訂版均不適用于本標準,然而,鼓勵根據本標準達成協議的各方研究是否可使用這些文件的最新版本。

3、術語和定義

3.1 地理信息系統

geographic information system(GIS)

采集、存儲、檢查、操作、分析和顯示地理數據的系統。

4、總則

4.1 概述

貨物運輸地理信息數據元描述了在運輸過程中所需的地理信息系統(GIS)、衛星定位系統的屬性數據、影響貨物運輸的相關地理因素以及用于相關信息處理技術和設備的基本數據單元。貨物運輸地理信息數據元具有自身的特點。它的概念和結構遵循GB/T 18391.1規定的一般數據元的概念和結構。

4.2 數據元的類目分組

為方便用戶使用本標準,將貨物運輸地理信息數據元分為四個類目如下:

第1組:基礎地理信息——行政區域描述、地理位置描述、地理相關計量;

整篇文檔都是由標題結構組成的,所以先利用Jacob抽取文檔的標題結構到數據庫中。數據庫用的是Mysql。

這樣的話我們就把半結構化的word文檔存儲為了結構化的數據庫信息,為以后的檢索和一致性檢測工作做了重要的前提工作。

結束語

對于這種把非結構化或者半結構化的信息處理為結構化的信息并存儲到數據庫中,在很多實際項目開發中都要用到,因為如今信息時代的信息量實在是太龐雜了,獲取對自己有用的信息并存儲到數據庫中以供相關工作的開展具有重要的現實意義。

猜你喜歡
數據存儲
簡單的數據修復
文理導航(2017年2期)2017-02-16 13:18:46
大數據時代檔案信息建設的認識和實踐
淺談電力大數據平臺關鍵技術研究與應用
開源數據庫數據存儲的實現路徑分析
基于Android開發的APP數據存儲研究
哈希算法在物聯網數據存儲中的應用
空難事故跨媒體信息采集與檢索方法的研究
基于STM32的AD采集與SD卡數據存儲
淺談信息系統工程和POJO模型組件開發
基于MongoDB的調查決策系統數據存儲方案設計
主站蜘蛛池模板: 亚洲天堂视频在线观看免费| 欧美区在线播放| 国产产在线精品亚洲aavv| 伊人网址在线| 国产欧美视频一区二区三区| 欧美日韩高清在线| 国产成人精品视频一区视频二区| 国产在线观看一区精品| 五月天综合婷婷| 国产成人av一区二区三区| 色偷偷一区| 亚洲一区二区三区国产精华液| 黄片在线永久| 欧美三級片黃色三級片黃色1| 看你懂的巨臀中文字幕一区二区 | 国产一区二区三区免费观看| 国产成人亚洲欧美激情| 国产福利在线免费观看| 中文字幕一区二区人妻电影| 国产日本欧美亚洲精品视| 成人一区专区在线观看| 啦啦啦网站在线观看a毛片| 久久久久人妻精品一区三寸蜜桃| 免费大黄网站在线观看| 国产微拍一区二区三区四区| 午夜精品影院| 亚洲AV无码不卡无码| 谁有在线观看日韩亚洲最新视频| 国产农村1级毛片| 久久情精品国产品免费| 精品国产黑色丝袜高跟鞋| 欧美www在线观看| 天天综合网亚洲网站| 午夜高清国产拍精品| 色久综合在线| 四虎国产在线观看| 亚洲日韩国产精品综合在线观看| 欲色天天综合网| 9丨情侣偷在线精品国产| 国产亚洲精久久久久久久91| 亚洲第一成网站| 免费一级无码在线网站| 国产在线一二三区| 亚洲国产综合精品一区| 国产乱人免费视频| 色AV色 综合网站| 亚洲毛片网站| 在线a网站| 国产综合日韩另类一区二区| 国产H片无码不卡在线视频| 国产成人一区| 麻豆精品久久久久久久99蜜桃| 日本不卡视频在线| 精品国产Av电影无码久久久| 四虎免费视频网站| 精品国产Av电影无码久久久| 欧美天堂在线| 亚洲AⅤ无码日韩AV无码网站| 成人午夜网址| 国产在线拍偷自揄拍精品| 自拍偷拍欧美日韩| 色综合日本| 欧洲极品无码一区二区三区| 亚洲Av激情网五月天| 久久毛片基地| 日韩久草视频| 中国丰满人妻无码束缚啪啪| 国产精品女同一区三区五区| 亚洲精品777| 偷拍久久网| 欧美精品亚洲精品日韩专区| 亚洲国产天堂久久九九九| 国产人成午夜免费看| 欧美成人精品在线| 国产主播福利在线观看| 婷婷亚洲综合五月天在线| 国产97视频在线| 国产精品区网红主播在线观看| 日韩久久精品无码aV| 日本a级免费| 国产精品亚洲欧美日韩久久| 国产高清不卡|