999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微軟復合文檔的數據修復技術

2018-04-09 11:22:40耿浩然
電子技術與軟件工程 2018年5期
關鍵詞:存儲

耿浩然

摘 要 隨著科學技術和信息技術不斷發展,復合文檔廣泛應用于我們的工作生活中,其在給我們帶來便利的同時,也經常碰到文件損壞的問題,甚至造成重要數據丟失。本文以微軟復合文檔作為研究對象,針對其文件格式不同的損壞形式進行分析,并提出物理修復、邏輯修復、內容修復等方法,經實驗驗證本文提出的方法能在一定程度上有效地修復出關鍵數據。

【關鍵詞】復合文檔 文件格式 數據修復 存儲

1 復合文檔的文件格式

文件格式是指計算機中存儲文件的特殊編碼方式,用于計算機操作系統識別不同的文件類型,比如程序、文字、圖片、視頻等文件,每一種文件格式通常會關聯一個或多個擴展名,但也可能不關聯固定的擴展名。微軟復合文檔(以下簡稱復合文檔)是微軟公司制定的文件格式, 廣泛應用于Word、Excel、PowerPoint等辦公文檔中,單一的復合文檔可以包含多個文本、圖形、聲音、視頻、電子表格數據等各種多媒體信息。

復合文檔的物理結構由文件頭和扇區組成,文件頭就是復合文檔最前面的512字節,描述了復合文檔的文件簽名標識、扇區大小等結構信息,是整個文檔最關鍵的部分;復合文檔的其余部分被劃分為大小相等的存儲空間,每一個存儲空間叫做一個扇區(通常為512字節)。復合文檔的扇區分配表相當于FAT32文件系統中的FAT表,用于對分配使用的所有扇區進行編號和標識;每一個數據流都可以在扇區分配表中按照順序找到其存儲位置。扇區分配表的前109個扇區編號存放在文件頭中,當扇區分配表多于109個扇區,需要附加主扇區分配表存儲,文件頭中已經標識了主扇區分配表的第一個扇區編號和扇區總數。

復合文檔的邏輯結構類似一個小型的文件系統,其由目錄和數據流組成;數據流相當于文件系統中的文件,數據流存儲在目錄中;目錄和數據流都有名字,一個目錄可以有多個子目錄和多個數據流,同一目錄下的子目錄和數據流不能重名;每個復合文檔都有一個叫做“Root Entry”的根目錄。每一個目錄和數據流都有一個索引,這些索引存儲在一個單獨的流中,這個流就叫做全局索引流。全局索引流由一系列的索引節點組成。每一個索引節點表示一個目錄或數據流;索引節點固定為128個字節,每個扇區可以包含4個索引結構。

當一個數據流的大小小于指定值(通常為4096字節),就叫做短流,短流具有特殊的尋址方式,所有的短流存儲在一個大的數據流中,其存儲空間被劃分為更小的扇區(通常為64字節),由短流扇區分配表進行編號和標識。

2 復合文檔的數據修復

根據復合文檔的文件格式,針對其不同的損壞方式,數據修復一般分為物理修復、邏輯修復和內容修復。

2.1 物理修復

文件頭修復。當復合文檔的文件頭損壞時,復合文檔無法正常使用。文件頭結構體中大多數內容比較容易修復,比如扇區大小、短流大小、標準流最小值等,比較難修復的是扇區總數、短扇區總數、目錄流的首扇區編號、扇區分配表的前109個扇區編號等,單純的文件頭損壞,可以根據復合文檔后面的完整部分計算并修復文件頭結構體。

扇區分配表修復。扇區分配表損壞對復合文檔的結構完整性破壞最大,其修復難度也是最大的。最簡單的修復方法就是先判斷損壞的扇區,然后將損壞的扇區修復為-1,即標識為未分配的扇區。判斷依據就是扇區分配表中的扇區編號(每4個字節組成的有符號32位整數),其取值范圍必須小于扇區總數,或者大于-4。

2.2 邏輯修復

邏輯修復主要針對全局索引流,根據全局索引流扇區鏈和索引節點的損壞可以分為兩種情況。當全局索引流扇區鏈損壞而索引節點完整時,修復原理同上,可以掃描出所有的索引節點所在的扇區,再根據其編號構造扇區鏈。當索引節點損壞而全局索引流扇區鏈完整時,可以參照正常的復合文檔修復目錄,因為在所有的Word、Excel、PowerPoint文件中,這些目錄的索引節點都是相對固定的;但是當索引節點是數據流時,其扇區鏈首扇區編號和大小是最關鍵的信息,直接影響修復內容的正確率,可以通過掃描扇區分配表識別所有的數據流,再根據經驗嘗試所有的可能性。

2.3 數據流內容修復

復合文檔的數據流內容和短流內容損壞,并沒有破壞復合文檔結構的完整性,一般都可以正常打開,但是復合文檔的內容已經破壞。以Word2003創建的Word文件為例,其中數據流“Data”中存儲圖片、視頻等數據,數據流“1Table”中存儲表格,數據流“CompObj”中存儲對象數據,數據流“WordDocument”中存儲文字內容,數據流“SummaryInformation”中存儲Word文檔的摘要信息,數據流“DocumentSummaryInformation”中存儲Word文檔的屬性信息。“Data”數據流存儲所有的圖片,每個圖片存儲在一個圖片結構體中,圖片結構體的前4個字節表示結構體大小,圖片結構體頭部偏移d1H處,就是該圖片實體文件的文件頭。假如word文件中有部分圖片文件損壞,可以按照這種方法導出所有的圖片文件,并對損壞的圖片文件進行進一步修復。

3 復合文檔數據修復下一步研究方向

對于文件格式和結構化數據的研究一直都是數據修復技術的重要發展方向之一,本文在國外有關開源項目研究的基礎上,對復合文檔的數據修復技術進行了探討,并利用該技術實現了復合文檔的物理修復、邏輯修復和內容修復。本文的研究還處于復合文檔數據修復技術研究的初步階段,下一步的研究重點是復合文檔的自動受損評估和修復機制。

參考文獻

[1]https://baike.baidu.com/item/復合文檔.

[2]http://sc.openoffice.org/compdocfileformat.pdf.

作者單位

徐州擷秀中學高三(3)班 江蘇省徐州市 221000

猜你喜歡
存儲
檔案管理中電子文件的存儲探究
條形碼技術在涂裝生產中的應用
云計算與虛擬化
結構化電子病歷的設計及應用
淺敘國產存儲技術之發展
某醫院數據中心虛擬化的設計與實現
煙臺新型自動氣象站數據本地存儲的設計及實現
關于SQL語言及存儲過程
大型機電設備出口包裝防護
基于Hadoop的業務過程模型管理方法研究
主站蜘蛛池模板: 免费jizz在线播放| 视频一区亚洲| 亚洲欧美成人在线视频| hezyo加勒比一区二区三区| 99视频在线观看免费| 国产不卡国语在线| 国产凹凸一区在线观看视频| 国产亚洲一区二区三区在线| 99久久国产综合精品2020| 夜夜操天天摸| 精品欧美一区二区三区久久久| 国产jizz| 2021天堂在线亚洲精品专区| 2020精品极品国产色在线观看| 一本色道久久88| 成人综合在线观看| 日本91视频| 国产成人喷潮在线观看| 日韩欧美视频第一区在线观看| 亚洲自拍另类| 久久久久免费看成人影片| 性视频一区| 日韩精品毛片| 亚洲第一极品精品无码| 四虎影视库国产精品一区| 最新午夜男女福利片视频| 亚洲午夜18| 中文字幕久久亚洲一区| 99久久亚洲精品影院| 波多野结衣亚洲一区| 日本在线免费网站| 四虎永久在线精品影院| 99999久久久久久亚洲| 国产精品亚洲а∨天堂免下载| 亚洲色中色| 国产精品一区不卡| 91精品啪在线观看国产91九色| 成人免费午夜视频| 538国产视频| 日韩专区第一页| 成人欧美日韩| 国产在线一二三区| 国产成人一区在线播放| 91亚洲国产视频| 免费一级无码在线网站 | 国产福利小视频在线播放观看| 最新加勒比隔壁人妻| 国外欧美一区另类中文字幕| 野花国产精品入口| 99在线观看免费视频| 国产精品综合久久久| 中文字幕资源站| 亚洲欧美成aⅴ人在线观看| 亚洲区一区| 狠狠色狠狠色综合久久第一次| 在线免费不卡视频| 国产精品30p| jizz国产在线| 曰AV在线无码| 国产高清在线观看91精品| 天堂av高清一区二区三区| 欧美日韩专区| 国产成人高清精品免费| 18禁黄无遮挡网站| 天堂网国产| 麻豆精品在线| 亚洲最新在线| 黄色a一级视频| 久久精品视频一| 亚洲一级色| 尤物在线观看乱码| 久久鸭综合久久国产| 精品99在线观看| 欧美一级特黄aaaaaa在线看片| 亚洲国产成人久久精品软件| 青青操视频在线| 天堂亚洲网| 中文字幕在线永久在线视频2020| 国产性精品| 国产成人精品男人的天堂下载| 国产不卡一级毛片视频| 片在线无码观看|