999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

企業級非結構化數據中心存儲組織形式探究

2014-09-29 01:29:02王延田肖少輝姜傳鑫
電力勘測設計 2014年1期
關鍵詞:分類模型系統

王延田,肖少輝,姜傳鑫

(1.中國電力工程顧問集團公司,北京 100120 2.北京洛斯達數字遙感技術有限公司,北京 100120)

1 概述

在大型企業中,日常處理的業務數據按類型可分為為結構化數據和非結構化數據。結構化數據通常是指可以用二維表結構來邏輯表達實現的數據,如目前管理信息系統中最常使用的關系型數據庫就屬于結構化數據。非結構化數據通常是相對于結構化數據而言,不方便用二維表結構來表現的數據,包括以WORD、PDF、EXCEL和JPG等格式組成的各類辦公文檔、報表憑證,以及圖像和音頻/視頻等數據文件均為非結構化數據。也有將介于界定嚴格的結構化數據和完全無結構的數據之間的數據形式稱之為半結構化數據,這類數據有HTML頁面、XML、XBRL等。

在企業信息化應用過程中產生的數據,能夠采用關系型數據庫處理的結構化數據約占企業數據總量的20%,而其他80%的非結構化數據無法完全采用關系型數據庫來處理。

科學管理和合理應用這些非結構化數據已經成為企業正確決策、增強核心競爭力的關鍵。2010 年,由中央辦公廳、國務院辦公廳聯合下發《電子文件暫行管理辦法》(廳字[2009]39號),明確要求大型企業電子文件管理需要滿足統一管理、全程管理、規范標準、便于利用、安全保密五大要求。

以上要求為企業級非結構化數據中心的建立提出了明確的指導方向,如何設計和構建一套滿足非結構化數據中心統一管理、面向服務的數據存儲組織形式,成為亟待研究和解決的問題。該組織形式的研究直接影響到數據中心面對海量非結構化數據的承載能力、擴展能力以及面向多業務系統的服務能力。

2 研究目標與路線

2.1 研究目標

針對以上的需求描述,此次的研究目標以現有成熟存儲技術為基礎,結合現有非結構化數據理論知識,最終形成非結構化數據的存儲規劃,建立非結構化數據元數據模型、屬性關系模型以及分類對象模型。通過這些模型的建立,優化非結構化數據的存儲,方便數據的快速檢索和有效管理。

2.2 研究路線

根據研究建設目標,采用先期調研、方案設計和原形系統建設的研究路線推進非結構化數據存儲方案的研究,驗證存儲方案的有效性和易用性。

圖1 課題研究路線

(1)先期調研階段:首先調研企業現有基礎設施、存儲能力以及非結構化數據數據應用情況。然后收集現有非結構化數據處理理論和成熟技術,結合本企業實際情況,制定數據存儲的初步方案。

(2)方案設計階段:基于先期調研及數據存儲初步方案的基礎上,重點研究非結構化數據的存儲規劃、元數據模型、屬性關系模型以及分類對象模型等關鍵技術。利用這些知識體系支撐非結構化數據的存儲、檢索和對外標準服務應用。

(3)原形系統建設階段:根據先期確定的研究目標,按照方案設計階段形成的技術方案,進行原形系統建設。原形系統能夠對非結構化數據實現物理存儲、屬性檢索、全文檢索和對外標準化服務功能,實現并驗證方案設計階段所建立的存儲規劃理論和各種模型理論。

3 存儲設計

3.1 存儲規劃設計

存儲規劃主要考慮將非結構化數據的物理存儲與邏輯存儲進行分離,因此采用SAN網絡存儲與數據庫存儲相配合的模式進行,并將檢索與文本內容進行有效分離、合理分布。每一個非結構化數據分配一個唯一ID,將其對應的邏輯信息,如文件名稱、文件大小、所屬分類、文件存放路徑等,一并存儲到數據庫中。而文件的存放的路徑盡量縮短,由過去的樹狀存儲模式轉換為扁平模式,以提高海量文件訪問速度。同時,生成伴生文件,存儲數據庫中存放的邏輯信息,便于文件的日后遷移和索引處理。

圖2 存儲規劃圖

3.2 元數據模型設計

通過對非結構化數據的分析,可以得出數據擁有系統屬性和擴展屬性兩類。系統屬性即為文件自身所包含的自然屬性,例如名稱、大小、創建日期、創建人等。但非結構化數據除了自然屬性外還會有業務擴展屬性,例如會議紀要就包含了會議時間、會議地點、議題、參會人員等。同時,元數據和擴展屬性的數量也會隨著人們對事物認識的不斷提升而增加,因此需要增加元數據描述文件對元數據進行定義,在數據分類中增加擴展屬性描述的信息。對元數據模型的認識是屬性關系模型和分類對象模型的基礎,也決定了非結構化信息提取的方式和解析算法。

3.3 屬性關系模型設計

在系統元數據和擴展屬性中,屬性之間存在一定的關聯關系,這些關系相互結合形成關系網絡,在每個關系上設置權重,便可構成以任一節點為中心橫向親屬網絡圖。通過該模型以及計算機圖形學與人工智能理論可以提供給非結構化數據查詢者一個建議的搜索路徑,便于其快速找到所關注的內容。例如,通過會議地點來查詢資料的用戶很可能同樣系統通過會議時間來進行進一步檢索。同時,通過該模型還可以提供查詢結果的動態展示,突出顯示查詢者重點關注的屬性信息。

圖4 屬性關系模型圖

3.4 分類對象模型設計

因企業內部應用的需要,非結構化數據有著明顯的業務分類需要。該分類可能影響到文件數據的存儲位置,分類也代表著某些屬性的聚合。例如文件分類包含了系統屬性,會議分類除了包含系統屬性外包含了與會議相關的屬性集合。因此,分類對象模型是一個倒金字塔形的分類模型,位于上部的分類繼承位于下部分類的部分或者全部屬性。該金字塔結構反映了人類對事物認識演化過程,隨著認識的逐步深入而是分類更加細化,構成了屬性關系的縱向網絡。

圖5 分類對象模型示意圖

4 原形系統應用情況

隨著原形系統的實施和應用,正逐漸成為某企業非結構化數據中心,并且相繼接入了門戶系統、OA系統、生產經營統計平臺、電網規劃平臺等多個業務系統。原形系統為上述業務系統提供了內容存儲服務、內容訪問服務和內容管理及挖掘服務等。降低其他系統在非結構化數據管理方面的開發費用和時間成本,更專注于其自身業務需求。進一步提升了非結構化數據中心的應用價值,形成了很好的集約效益。

5 小結與展望

本次課題研究成果很好地解決了企業級非結構化數據的存儲組織形式問題,使得非結構化數據在企業內部得到高效存儲和便捷應用,也為企業級非結構化數據中心進行數據集中存儲、統一管理、標準服務奠定了堅實的基礎,已成為企業信息化建設的重要組成部分。

[1]張志剛,姚偉.海量非結構化數據存儲問題初探[J].中國檔案,2009,(8).

[2]陳靜,尚鮮連,顧晨宇.基于SOA的非結構化信息檢索的模型研究[J].自動化術與應用,2009,(11).

[3]程志華,倪時龍,黃文思,龔賀.企業級非結構化數據管理平臺研究及實踐[J].電力信息化,2012,(03).

[4]李未,浪波.一種非結構化數據庫的四面體數據模型[J].中國科學,2010,40(8).

猜你喜歡
分類模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
分類算一算
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 欧美在线网| …亚洲 欧洲 另类 春色| 中文字幕自拍偷拍| 996免费视频国产在线播放| 日本高清在线看免费观看| 欧美中文字幕第一页线路一| 国产免费网址| 国产精品无码影视久久久久久久| 欧美日本二区| 中文字幕va| 欧美天天干| 日韩av在线直播| 亚洲a级在线观看| 日韩人妻少妇一区二区| 国产69精品久久久久孕妇大杂乱| 一级毛片免费高清视频| 四虎永久在线精品国产免费| 午夜精品影院| 伊人网址在线| 久久男人视频| 波多野结衣无码中文字幕在线观看一区二区| 欧美一级在线看| 国产一级毛片yw| 亚洲无码高清一区二区| 国产高清国内精品福利| 伊人久久精品亚洲午夜| 欧美日韩久久综合| 九九九久久国产精品| 另类欧美日韩| 在线a视频免费观看| 欧美亚洲另类在线观看| 免费人成黄页在线观看国产| 99久久亚洲综合精品TS| 国产精品一线天| 国产综合精品一区二区| 国产精品亚欧美一区二区三区| 亚洲三级网站| 国产裸舞福利在线视频合集| 五月婷婷导航| 国产精品久久久久久久久久久久| 无码免费视频| 女人18毛片一级毛片在线| 一本大道视频精品人妻| 国产精品hd在线播放| 国产视频一区二区在线观看| 日本免费新一区视频| 亚洲一道AV无码午夜福利| 人妻丰满熟妇av五码区| 欧美国产视频| 精品无码一区二区三区电影| 日本妇乱子伦视频| 毛片在线播放a| 日本成人在线不卡视频| 久久亚洲国产最新网站| 激情综合五月网| 国产SUV精品一区二区| 久久精品无码专区免费| 在线观看免费人成视频色快速| 精品视频在线一区| 久久国产精品夜色| 亚洲啪啪网| 一级爱做片免费观看久久| 孕妇高潮太爽了在线观看免费| 久久永久视频| 久久婷婷综合色一区二区| 久久亚洲中文字幕精品一区| av尤物免费在线观看| 91麻豆国产视频| 亚洲无码四虎黄色网站| 国产精品无码AV中文| 精品视频一区二区观看| 成人福利在线视频| 亚洲侵犯无码网址在线观看| 国产性生大片免费观看性欧美| 国产精品女主播| 71pao成人国产永久免费视频| 精品国产91爱| 自偷自拍三级全三级视频| 一级福利视频| jijzzizz老师出水喷水喷出| 国产91线观看| 国产亚洲高清视频|