999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多種類型文檔的數據處理

2017-03-19 20:00:16張繼琛
科學與財富 2017年6期
關鍵詞:數據處理內容

張繼琛

摘 要:pdf、word、txt等類型文檔在學習和辦公中的使用越來普遍,為了方便對這些文檔進行統一歸類、整理等必要的處理,在處理文檔的時候,那么就需要把文檔轉換成統一的格式進行處理,這就涉及到各種類型文檔的相互轉換。還需要提取關鍵詞等功能來幫助用戶對文檔分類或了解文檔的大概內容。

本文會講解在多種類型文檔進行數據處理時所采用的關鍵詞抽取的相關技術和數據格式轉換技術的調研和使用。擬用C/S結構開發,采用JAVA作為開發工具,在Eclipse環境下,實現對多種類型文檔進行數據處理的模擬。

關鍵詞:格式轉換;關鍵詞抽取

1 設計方案

1.1文檔格式轉換方案

因各類文檔的轉換方法類似,而word文檔轉換為pdf文檔是最常用的。所以設計方案用實現word文檔轉換為pdf文檔的作為例子,詳細方案如下。

方案1:

首先利用程序直接打開Word文檔,從原文檔中獲取文字和圖像的內容以及它們的相關屬性(因word文檔對文字和圖像的屬性設置過多,只能獲取部分關鍵屬性),再直接生成PDF文檔并按照Word文檔的對應屬性把對應的文字內容和圖像內容分別輸入到相應的位置上,最后關閉文件。

但是,因為需要從文檔中直接獲取其中的內容和對應屬性,如果要采用此方案,就必須精通Word以及PDF的文檔的結構。但是Word和PDF的文檔的結構非常復雜(單單文檔的規則就有幾千條,時間會浪費在閱讀和使用規則上)。這就意味著,在讀取Word文檔的時候不但要獲取Word文檔的文本內容,而且還要獲取到對應的字體格式、顏色、背景圖像以及表格的位置等等。又因為微軟的office軟件和Adobe Acrobat Professional都不是開源軟件,沒有它們的源代碼,就很難保證在定義Word和PDF文檔對應屬性、設置文檔格式時不會遇到非開源的部分。綜上所述,此方案體實現困難。

方案2:

對于方案1中存在的問題,微軟公司和第三方公司提供了操作Word、Excel和PDF的類庫、接口和組件,這就有了解決方案。第二種方案就是先制作一個中間件,即將word文檔先轉換成Ps文檔,然后再把Ps文檔轉換成PDF文檔。最終編寫圖形界面,上傳文檔并利用代碼使用這個中間件完成文檔轉換。

方案3:

為了提高多種類型文檔的數據處理的穩定性和安全性,本方案對方案2進行修改,取消使用件。方案2調用提供的相應組件和類庫的使用是在中間件中實現的,每當對中間件打包處理時,只能把中間件打包,而對于其中所調用的組件和類庫等無法打包,若用方案2開發模擬數據處理的模擬程序必受到軟件環境的制約。所以方案3放棄使用中間件,采用PDFBOX、POI類庫。考慮到需轉換的文檔具有很多的規范,且不易直接操作的特點,同時為了數據處理模擬程序的通用性,因此決定使用方案3進行模擬。

1.2關鍵詞抽取方案

在文檔被統一的轉換為同一類文檔后,接下來就需要對文檔進行關鍵詞抽取。

1.利用ANSJ中文分詞對轉換后文檔進行處理,將文檔中所有詞匯和詞性放入數組中存儲。

2.統計特征值。創建一個哈希表。里面需要有詞匯所在位置(標題,摘要,正文,句首,句尾)和出現總次數等等。

3.從正文的開始處,若開頭不是虛詞也不是符號,若相連的兩個詞都不是,計算這兩個詞連續出現的次數。如果計算的次數大于設定的閾值,就把這兩個詞或者合并到一起并修正詞性為new(表示為名詞),再從這個重新組成的詞作為開始,循環以上操作;若相連兩個詞的出現的次數小于設定的閾值,或有虛詞、符號,則跳過。然后尋找下一個不是虛詞或者符號的實詞。直至正文內容的結尾。

4.根據修改的數組重新遍歷。重新整理哈希表的信息。修改原來的新詞匯new和里面的特征值。

以上步驟能夠重新切分出一些新詞。這些新詞可以作為關鍵詞提取的一個特征值,它們會起很大的作用。

2 程序模擬

按照方案3進行程序模擬的結果如下圖所示:

參考文獻

[1] 田學軍.PDF文件格式及其轉化方法探討[J],荊門職業技術學院學報,2005,(3):5-31.

[2] 鄭家恒,盧嬌麗,關鍵詞抽取方法的研究[J].計算機工程,2005,18(9):194-196.

[3] 宋艷娟,李金銘,陳振標.基于XSLT的PDF信息抽取技術的研究[J].計算機與數字工程,2008,36(5):156-159.

猜你喜歡
數據處理內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
MATLAB在化學工程與工藝實驗數據處理中的應用
Matlab在密立根油滴實驗數據處理中的應用
基于POS AV610與PPP的車輛導航數據處理
依托陸態網的GNSS遠程數據處理軟件開發
主站蜘蛛池模板: 国产噜噜噜视频在线观看 | 欧美日本在线| 伊人91视频| 国产在线八区| 免费三A级毛片视频| 国产青青操| 成人国产一区二区三区| 午夜国产不卡在线观看视频| 国产精品99r8在线观看| 免费观看无遮挡www的小视频| 午夜限制老子影院888| 久久这里只有精品免费| 精品福利网| V一区无码内射国产| 国产精品福利尤物youwu | 国产精品视频导航| 亚洲一区二区三区在线视频| 狠狠做深爱婷婷综合一区| 波多野结衣久久高清免费| 国产成人无码AV在线播放动漫| av尤物免费在线观看| 青草视频免费在线观看| 青草91视频免费观看| 日韩专区第一页| 亚洲侵犯无码网址在线观看| 国模沟沟一区二区三区| 欧美亚洲欧美区| 91av成人日本不卡三区| 一区二区三区四区精品视频 | 伊人久久福利中文字幕| 欧美日韩国产综合视频在线观看| 亚洲国产日韩一区| 四虎AV麻豆| 久久性妇女精品免费| 欧美一道本| 欧美黄网站免费观看| 亚洲精品无码AⅤ片青青在线观看| 亚洲色精品国产一区二区三区| 国产精品香蕉在线| 欧美日韩一区二区在线免费观看| 欧美国产综合色视频| 亚洲男人的天堂在线观看| 欧美中出一区二区| 亚洲人成在线免费观看| 久久永久免费人妻精品| 欧美不卡视频一区发布| 亚洲人成网址| 国产精品自在自线免费观看| 激情爆乳一区二区| 亚洲制服中文字幕一区二区| 免费A级毛片无码无遮挡| 中日韩欧亚无码视频| 国产麻豆精品在线观看| 婷婷五月在线| 国产成人av大片在线播放| 国产欧美视频综合二区| 午夜视频免费一区二区在线看| 久久久久青草大香线综合精品 | 亚洲性视频网站| 狠狠色婷婷丁香综合久久韩国 | 亚洲中文字幕97久久精品少妇| 国产精品久久久久久久伊一| 国产污视频在线观看| 国产精品自在在线午夜 | 91精品人妻一区二区| 中文字幕波多野不卡一区| 成人综合久久综合| 四虎AV麻豆| 免费国产高清视频| 欧美一区二区三区香蕉视| 国产成人综合亚洲欧洲色就色| 亚洲欧洲日产无码AV| 日韩小视频在线播放| 国产精品无码翘臀在线看纯欲| 亚洲男人的天堂久久香蕉网| 久久青青草原亚洲av无码| 福利姬国产精品一区在线| 国产成人狂喷潮在线观看2345| 亚洲国产欧美目韩成人综合| 亚洲精品欧美日韩在线| 欧美不卡视频一区发布| 国产一在线|