999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML的文件結(jié)構(gòu)化方法研究

2017-05-05 02:29:35高瑾宇王博甲
關(guān)鍵詞:文本結(jié)構(gòu)

高瑾宇 曹 平 陳 潤(rùn) 王博甲

(中航工業(yè)綜合技術(shù)研究所,北京 100028)

基于XML的文件結(jié)構(gòu)化方法研究

高瑾宇 曹 平 陳 潤(rùn) 王博甲

(中航工業(yè)綜合技術(shù)研究所,北京 100028)

針對(duì)航空產(chǎn)品單一型號(hào)研制過(guò)程中遇到的技術(shù)文件格式要求嚴(yán)格、編制工作量巨大、引用關(guān)系及技術(shù)指標(biāo)錯(cuò)綜復(fù)雜等問(wèn)題,提出了基于XML的文件結(jié)構(gòu)化存儲(chǔ)方法,建立了文件結(jié)構(gòu)特征描述,研究了文件結(jié)構(gòu)特征處理,討論了基于XML的文件存儲(chǔ)和讀取技術(shù)。最后,通過(guò)一個(gè)實(shí)例驗(yàn)證了所提方法的正確性。

Word;結(jié)構(gòu)化文件;智能編輯

隨著信息技術(shù)進(jìn)步與電子技術(shù)文檔編制復(fù)雜性增加,航空產(chǎn)品型號(hào)研制過(guò)程中,各類(lèi)型技術(shù)文件編制過(guò)程的標(biāo)準(zhǔn)化工作已經(jīng)成為一項(xiàng)艱巨任務(wù)。由于技術(shù)文件數(shù)量繁多,設(shè)計(jì)人員經(jīng)常要受困于這些技術(shù)文檔重復(fù)而繁瑣的編寫(xiě)工作。在現(xiàn)有技術(shù)條件下,通常針對(duì)此類(lèi)問(wèn)題的解決方案是對(duì)于每一個(gè)文件,做一個(gè)文件模板。這種方法在一定程度上緩解了該類(lèi)問(wèn)題,提高了文件編寫(xiě)效率。但是在文件模板編制工作上又花費(fèi)了大量精力,并且一旦標(biāo)準(zhǔn)發(fā)生更改對(duì)應(yīng)技術(shù)文件模板更改工作量很大。

本文提出了基于XML存儲(chǔ)技術(shù)的文件結(jié)構(gòu)化設(shè)計(jì)方法,將文件模板分別用文本文件和樣式文件存儲(chǔ)起來(lái)。這樣不但實(shí)現(xiàn)了模板中文本和樣式相分離,同時(shí)XML存儲(chǔ)技術(shù)使文本結(jié)構(gòu)可以結(jié)構(gòu)化存儲(chǔ),為文件內(nèi)容查找、重用、審查奠定了理論基礎(chǔ)。

1 基于XML的文件結(jié)構(gòu)特征描述

可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)是一種用于標(biāo)記電子文件,使其具有結(jié)構(gòu)性的標(biāo)記語(yǔ)言。通過(guò)此種標(biāo)記,文件模板中文字化內(nèi)容可以被結(jié)構(gòu)化表達(dá)。因此,基于XML的文件結(jié)構(gòu)特征描述有利于實(shí)現(xiàn)文件交換、傳遞和共享。

文件結(jié)構(gòu)特征是組成文件的基本單元,通過(guò)對(duì)文件內(nèi)容分析,將文件主要分為結(jié)構(gòu)要素、特征要素、編輯要素3大類(lèi),如圖1所示。其中:

結(jié)構(gòu)要素:任何一個(gè)整體可以看作是由若干結(jié)構(gòu)模塊組成,文件中結(jié)構(gòu)模塊稱(chēng)之為結(jié)構(gòu)要素。在一份具體的文件中,封面、目次、正文、附錄等要素就是一份文件具體的結(jié)構(gòu)要素。

特征要素:每一個(gè)結(jié)構(gòu)要素中,包含若干特征單元,稱(chēng)之為特征要素。在具體的文件中表格、圖片、文本等都稱(chēng)之為特征要素。

編輯要素:文件編輯過(guò)程中對(duì)文本的編輯操作統(tǒng)稱(chēng)為編輯要素。在具體操作中,列項(xiàng)、示例、注釋等都稱(chēng)為編輯要素。

一般來(lái)說(shuō),在一份完整文件中一定包含若干結(jié)構(gòu)要素、若干特征要素與若干編輯要素,并且結(jié)構(gòu)要素、特征要素與編輯要素是多對(duì)多關(guān)系,如圖2所示。

2 文件結(jié)構(gòu)特征的處理

在文件文本中,有一類(lèi)特殊文本內(nèi)容——圖、表特征要素,對(duì)于此類(lèi)特征要素,不能直接以文本格式存儲(chǔ)起來(lái),需要對(duì)其進(jìn)行格式轉(zhuǎn)換。

對(duì)于表格來(lái)講,要提取表格行列尺寸,單元格合并情況,以及表格填寫(xiě)情況等屬性,首先將表格屬性記錄下來(lái),再通過(guò)對(duì)表格單元格記錄完成表格存儲(chǔ)。讀取時(shí)首先通過(guò)解析表格屬性添加表,然后通過(guò)操作表格單元格完善表,最后通過(guò)填寫(xiě)表格單元格完成表。

對(duì)于圖片來(lái)講,Word圖片采用Base64編碼格式,要想對(duì)Word圖片進(jìn)行存儲(chǔ),首先要將Word圖片解碼處理并存放到一個(gè)指定文件夾,然后在文本中記錄圖片全路徑。讀取圖片時(shí),首先通過(guò)圖片全路徑找到對(duì)應(yīng)Word圖片,然后將Word圖片導(dǎo)入并設(shè)置相應(yīng)格式。

在文件文本中,為了方便處理文中多次出現(xiàn)并且頻繁需要修改的文本,引入一種特殊結(jié)構(gòu)特征——書(shū)簽。其最大特點(diǎn)是可以實(shí)現(xiàn)相同內(nèi)容書(shū)簽中文本統(tǒng)一,具體表現(xiàn)為某一位置書(shū)簽內(nèi)容發(fā)生修改,其他位置書(shū)簽同步修改。在具體處理中,將文中滿足此特點(diǎn)的文本用一組前綴相同的書(shū)簽封裝起來(lái)。并且在文件處理中,為了把一套文件中不同文件的基本信息統(tǒng)一,將記錄文件基本信息的書(shū)簽用一個(gè)XML文件保存起來(lái),以備其他文件使用,這樣大大提高了文件修改效率和統(tǒng)一性。

在具體結(jié)構(gòu)要素中,以封面要素為例,由于封面結(jié)構(gòu)布局固定且“編號(hào)”、“密級(jí)”、“標(biāo)題”等內(nèi)容術(shù)語(yǔ)在文中多處出現(xiàn)字段,所以可以利用表格技術(shù)來(lái)設(shè)計(jì)封面格式布局,利用書(shū)簽技術(shù)來(lái)填寫(xiě)相應(yīng)文本內(nèi)容。這種類(lèi)型的結(jié)構(gòu)要素稱(chēng)作為表格型結(jié)構(gòu)要素。

以普通文本內(nèi)容為例,將每一個(gè)段落看作是一個(gè)最小文件元。在進(jìn)行文件存儲(chǔ)時(shí),首先判斷文件元中是否有特殊格式文本,如果沒(méi)有,提取文本格式信息,并將格式記錄;如果有,則需要進(jìn)行特殊格式轉(zhuǎn)化,將特殊格式轉(zhuǎn)化為可存儲(chǔ)文本,然后再進(jìn)行格式記錄。這種類(lèi)型的結(jié)構(gòu)要素稱(chēng)作結(jié)構(gòu)型結(jié)構(gòu)要素。

以目次為例,由于目次內(nèi)容是提取文件中大綱級(jí)別層級(jí)來(lái)自動(dòng)生成,這種類(lèi)型的結(jié)構(gòu)要素稱(chēng)作創(chuàng)生型結(jié)構(gòu)要素。

3 基于XML的結(jié)構(gòu)化設(shè)計(jì)

根據(jù)上述對(duì)文件結(jié)構(gòu)特征的描述和處理,對(duì)于一份文件,基于XML的存儲(chǔ)原理可按照3級(jí)結(jié)構(gòu)來(lái)存儲(chǔ)。一級(jí)結(jié)構(gòu)存儲(chǔ)文件結(jié)構(gòu)要素構(gòu)建文件整體框架,二級(jí)結(jié)構(gòu)存儲(chǔ)文件文本屬性,三級(jí)結(jié)構(gòu)存儲(chǔ)文本內(nèi)容。

在一級(jí)結(jié)構(gòu)中,將文件中各個(gè)結(jié)構(gòu)要素依次存儲(chǔ),在各個(gè)節(jié)點(diǎn)屬性中設(shè)置結(jié)構(gòu)要素的名稱(chēng)、書(shū)簽等屬性。在二級(jí)結(jié)構(gòu)下,存放每個(gè)結(jié)構(gòu)要素整體架構(gòu),并規(guī)定架構(gòu)特征屬性。在三級(jí)結(jié)構(gòu)下,將文件結(jié)構(gòu)要素中具體內(nèi)容依次存放。

因此,將Word文件轉(zhuǎn)換為XML結(jié)構(gòu)化文件時(shí),首先需要縱觀全文提煉文件結(jié)構(gòu)要素,其次判斷結(jié)構(gòu)要素類(lèi)型。如果是表格型結(jié)構(gòu)要素,需要確定表格的行、列、行寬、列寬、合并單元格、是否填寫(xiě)內(nèi)容等基本屬性,并且在需要修改的地方添加書(shū)簽;如果是結(jié)構(gòu)型結(jié)構(gòu)要素,需要先確定文本結(jié)構(gòu)層級(jí),并確定每一層級(jí)樣式及書(shū)簽位置;如果是創(chuàng)生型結(jié)構(gòu)要素,需要記錄其在文本中存放位置,并且記錄文本與內(nèi)容的關(guān)聯(lián)關(guān)系。

在文本存放中,主要采用節(jié)點(diǎn)式存放方式,將文件中每一個(gè)段落看作是一個(gè)最小單元,節(jié)點(diǎn)內(nèi)容存放文本內(nèi)容,節(jié)點(diǎn)屬性存放文本樣式,如果遇到特殊格式的表格、圖片就在節(jié)點(diǎn)下按照表格、圖片的存放方式來(lái)進(jìn)行存放。

在XML文件解析時(shí),首先要事先打開(kāi)該文件所對(duì)應(yīng)的dot文件,然后基于根節(jié)點(diǎn)循環(huán)。在每個(gè)結(jié)構(gòu)要素節(jié)點(diǎn)下,通過(guò)循環(huán)其中子節(jié)點(diǎn)將結(jié)構(gòu)要素內(nèi)的內(nèi)容依次輸出,然后根據(jù)具體屬性將文本刷新編輯,這樣按節(jié)點(diǎn)將文件全部輸出,就形成了一份符合標(biāo)準(zhǔn)的結(jié)構(gòu)化模板。

4 實(shí)例驗(yàn)證及結(jié)果分析

根據(jù)以上描述,本文以GJB/Z 170.2-2013 《軍工產(chǎn)品設(shè)計(jì)定型文件編制指南 第2部分:設(shè)計(jì)定型審查意見(jiàn)書(shū)》為例。

通過(guò)對(duì)文件結(jié)構(gòu)的分析和處理,確定文件結(jié)構(gòu)要素分別為封面、簽署頁(yè)、目錄、目次、附錄,并且文件第1章有特殊格式圖片、文件第6章有特殊格式表格,因此導(dǎo)出的結(jié)構(gòu)化模板如圖3所示。

從圖3中可以清楚地看出,文件結(jié)構(gòu)化模板結(jié)構(gòu)要素清晰,可閱讀性強(qiáng),這樣既有利于文件內(nèi)容重復(fù)利用,又方便文件模板修改。并且通過(guò)對(duì)結(jié)構(gòu)化模板解析,同樣可以得到與之前模板一樣的Word模板。

5 總結(jié)展望

本文以文件結(jié)構(gòu)化的存儲(chǔ)和讀取為研究目標(biāo),著眼于實(shí)際應(yīng)用需求,分析了現(xiàn)有解決方案的不足,提出了基于XML的文件結(jié)構(gòu)化存儲(chǔ)方案,討論了其主要技術(shù)路線,并給出了關(guān)鍵問(wèn)題的解決方案,最后用一個(gè)實(shí)際案例證明了方案的可行性。利用該技術(shù)開(kāi)發(fā)出來(lái)的文件模板,體積小、格式準(zhǔn)確、編寫(xiě)效率高、調(diào)用速度快,明顯提高了文件編制和管理效率。

雖然基于XML的文件結(jié)構(gòu)化存儲(chǔ)方案,在文件編制過(guò)程中大大提高了編制效率,但是要想完全實(shí)現(xiàn)文件智能編輯,需要引入知識(shí)重用和挖掘,而結(jié)構(gòu)化的文件設(shè)計(jì)可以完全解決文件中關(guān)鍵字搜索這一技術(shù)難點(diǎn)。因此,在后續(xù)研究中可以將知識(shí)挖掘考慮進(jìn)來(lái),使得文件編輯更加智能化。

[1] 曹平,楊文宏,朱亮. 基于XML的開(kāi)放電子文檔標(biāo)準(zhǔn)分析[J]. 航空標(biāo)準(zhǔn)化與質(zhì)量,2011(6).

[2] 關(guān)巍. 利用VSTO實(shí)現(xiàn)文檔的智能化[J]. 開(kāi)發(fā)應(yīng)用,2006(6).

[3] 惠怡靜,邵學(xué)彬,程旭. 基于VSTO的Word數(shù)據(jù)自動(dòng)化提取及報(bào)告生成系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)[J]. 計(jì)算機(jī)光盤(pán)軟件和應(yīng)用,2013(19).

[4] 宋向瑛,朱嘉賢. 基于VSTO的文檔格式處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦編程技巧與維護(hù),2013(10).

[5] 王瑾. 基于VSTO的文檔智能化實(shí)現(xiàn)[J]. 科技咨詢(xún)導(dǎo)報(bào),2007(18).

[6] 關(guān)巍. 基于VSTO自動(dòng)批量生成WORD文檔的設(shè)計(jì)與實(shí)現(xiàn)[J]. 信息與電腦,2010(11).

[7] 程旭輝. GJB 0《軍用標(biāo)準(zhǔn)文件編制工作導(dǎo)則》實(shí)施指南[M]. 北京:國(guó)防工業(yè)出版社,2002.

[8] 張方紀(jì),劉洪星. 結(jié)構(gòu)化自動(dòng)化Word文檔的集成化應(yīng)用技術(shù)[J]. 電腦知識(shí)與技術(shù),2011(28).

(編輯:勞邊)

T-65

C

1003-6660(2017)01-0045-03

10.13237/j.cnki.asq.2017.01.011

[收修訂稿日期] 2016-11-23

猜你喜歡
文本結(jié)構(gòu)
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
論結(jié)構(gòu)
在808DA上文本顯示的改善
新型平衡塊結(jié)構(gòu)的應(yīng)用
模具制造(2019年3期)2019-06-06 02:10:54
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
論《日出》的結(jié)構(gòu)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長(zhǎng)
主站蜘蛛池模板: 中文字幕免费视频| 免费va国产在线观看| 六月婷婷激情综合| 欧美国产日韩另类| 日韩天堂视频| 国产成人无码AV在线播放动漫| 亚洲精品国产精品乱码不卞| 免费国产黄线在线观看| 欧美综合中文字幕久久| 不卡的在线视频免费观看| 国产导航在线| 激情五月婷婷综合网| 国产精品久久精品| 国产成人精品一区二区三区| 欧美一级在线| 免费无码AV片在线观看中文| 午夜无码一区二区三区| 秋霞午夜国产精品成人片| 国产天天色| 情侣午夜国产在线一区无码| 综合五月天网| 91精品专区| 99精品影院| 国产成人精品18| 国产精品亚洲一区二区三区在线观看| 免费在线色| 国产精品成人AⅤ在线一二三四 | 激情综合网激情综合| 成人在线观看不卡| 少妇高潮惨叫久久久久久| 亚洲三级a| 欧美劲爆第一页| 97国产在线观看| 亚洲国产天堂在线观看| 爱色欧美亚洲综合图区| 丰满人妻久久中文字幕| 日韩免费中文字幕| 午夜精品一区二区蜜桃| 国产成人精品一区二区不卡| av午夜福利一片免费看| 精品国产www| 亚洲色图欧美在线| 久久香蕉国产线看观看精品蕉| 2020久久国产综合精品swag| 精品一区二区三区视频免费观看| jizz亚洲高清在线观看| 日韩亚洲高清一区二区| 超清无码一区二区三区| 亚洲欧州色色免费AV| 美女被操黄色视频网站| 97国产精品视频自在拍| 亚洲黄色成人| 中文字幕在线看视频一区二区三区| 国产一区二区三区在线精品专区| 久久精品国产999大香线焦| 亚洲αv毛片| 女人18毛片一级毛片在线| 在线a网站| 最新亚洲人成无码网站欣赏网| 又猛又黄又爽无遮挡的视频网站| 久久国产V一级毛多内射| 99视频在线免费看| 狠狠v日韩v欧美v| 精品国产自| 99精品高清在线播放| 亚洲欧美在线综合一区二区三区| 国产AV无码专区亚洲精品网站| 久久男人资源站| 欧美第二区| h视频在线观看网站| 日本成人不卡视频| 久久精品人人做人人综合试看| 亚洲男人的天堂视频| 国产sm重味一区二区三区| 亚洲啪啪网| www欧美在线观看| 亚洲福利片无码最新在线播放| 国产福利小视频高清在线观看| 精品国产自在现线看久久| 国产三级国产精品国产普男人| 免费观看成人久久网免费观看| 日韩精品免费一线在线观看 |