王延田,肖少輝,姜傳鑫
(1.中國電力工程顧問集團公司,北京 100120 2.北京洛斯達數字遙感技術有限公司,北京 100120)
在大型企業中,日常處理的業務數據按類型可分為為結構化數據和非結構化數據。結構化數據通常是指可以用二維表結構來邏輯表達實現的數據,如目前管理信息系統中最常使用的關系型數據庫就屬于結構化數據。非結構化數據通常是相對于結構化數據而言,不方便用二維表結構來表現的數據,包括以WORD、PDF、EXCEL和JPG等格式組成的各類辦公文檔、報表憑證,以及圖像和音頻/視頻等數據文件均為非結構化數據。也有將介于界定嚴格的結構化數據和完全無結構的數據之間的數據形式稱之為半結構化數據,這類數據有HTML頁面、XML、XBRL等。
在企業信息化應用過程中產生的數據,能夠采用關系型數據庫處理的結構化數據約占企業數據總量的20%,而其他80%的非結構化數據無法完全采用關系型數據庫來處理。
科學管理和合理應用這些非結構化數據已經成為企業正確決策、增強核心競爭力的關鍵。2010 年,由中央辦公廳、國務院辦公廳聯合下發《電子文件暫行管理辦法》(廳字[2009]39號),明確要求大型企業電子文件管理需要滿足統一管理、全程管理、規范標準、便于利用、安全保密五大要求。
以上要求為企業級非結構化數據中心的建立提出了明確的指導方向,如何設計和構建一套滿足非結構化數據中心統一管理、面向服務的數據存儲組織形式,成為亟待研究和解決的問題。該組織形式的研究直接影響到數據中心面對海量非結構化數據的承載能力、擴展能力以及面向多業務系統的服務能力。
針對以上的需求描述,此次的研究目標以現有成熟存儲技術為基礎,結合現有非結構化數據理論知識,最終形成非結構化數據的存儲規劃,建立非結構化數據元數據模型、屬性關系模型以及分類對象模型。通過這些模型的建立,優化非結構化數據的存儲,方便數據的快速檢索和有效管理。
根據研究建設目標,采用先期調研、方案設計和原形系統建設的研究路線推進非結構化數據存儲方案的研究,驗證存儲方案的有效性和易用性。

圖1 課題研究路線
(1)先期調研階段:首先調研企業現有基礎設施、存儲能力以及非結構化數據數據應用情況。然后收集現有非結構化數據處理理論和成熟技術,結合本企業實際情況,制定數據存儲的初步方案。
(2)方案設計階段:基于先期調研及數據存儲初步方案的基礎上,重點研究非結構化數據的存儲規劃、元數據模型、屬性關系模型以及分類對象模型等關鍵技術。利用這些知識體系支撐非結構化數據的存儲、檢索和對外標準服務應用。
(3)原形系統建設階段:根據先期確定的研究目標,按照方案設計階段形成的技術方案,進行原形系統建設。原形系統能夠對非結構化數據實現物理存儲、屬性檢索、全文檢索和對外標準化服務功能,實現并驗證方案設計階段所建立的存儲規劃理論和各種模型理論。
存儲規劃主要考慮將非結構化數據的物理存儲與邏輯存儲進行分離,因此采用SAN網絡存儲與數據庫存儲相配合的模式進行,并將檢索與文本內容進行有效分離、合理分布。每一個非結構化數據分配一個唯一ID,將其對應的邏輯信息,如文件名稱、文件大小、所屬分類、文件存放路徑等,一并存儲到數據庫中。而文件的存放的路徑盡量縮短,由過去的樹狀存儲模式轉換為扁平模式,以提高海量文件訪問速度。同時,生成伴生文件,存儲數據庫中存放的邏輯信息,便于文件的日后遷移和索引處理。

圖2 存儲規劃圖
通過對非結構化數據的分析,可以得出數據擁有系統屬性和擴展屬性兩類。系統屬性即為文件自身所包含的自然屬性,例如名稱、大小、創建日期、創建人等。但非結構化數據除了自然屬性外還會有業務擴展屬性,例如會議紀要就包含了會議時間、會議地點、議題、參會人員等。同時,元數據和擴展屬性的數量也會隨著人們對事物認識的不斷提升而增加,因此需要增加元數據描述文件對元數據進行定義,在數據分類中增加擴展屬性描述的信息。對元數據模型的認識是屬性關系模型和分類對象模型的基礎,也決定了非結構化信息提取的方式和解析算法。

在系統元數據和擴展屬性中,屬性之間存在一定的關聯關系,這些關系相互結合形成關系網絡,在每個關系上設置權重,便可構成以任一節點為中心橫向親屬網絡圖。通過該模型以及計算機圖形學與人工智能理論可以提供給非結構化數據查詢者一個建議的搜索路徑,便于其快速找到所關注的內容。例如,通過會議地點來查詢資料的用戶很可能同樣系統通過會議時間來進行進一步檢索。同時,通過該模型還可以提供查詢結果的動態展示,突出顯示查詢者重點關注的屬性信息。

圖4 屬性關系模型圖
因企業內部應用的需要,非結構化數據有著明顯的業務分類需要。該分類可能影響到文件數據的存儲位置,分類也代表著某些屬性的聚合。例如文件分類包含了系統屬性,會議分類除了包含系統屬性外包含了與會議相關的屬性集合。因此,分類對象模型是一個倒金字塔形的分類模型,位于上部的分類繼承位于下部分類的部分或者全部屬性。該金字塔結構反映了人類對事物認識演化過程,隨著認識的逐步深入而是分類更加細化,構成了屬性關系的縱向網絡。

圖5 分類對象模型示意圖
隨著原形系統的實施和應用,正逐漸成為某企業非結構化數據中心,并且相繼接入了門戶系統、OA系統、生產經營統計平臺、電網規劃平臺等多個業務系統。原形系統為上述業務系統提供了內容存儲服務、內容訪問服務和內容管理及挖掘服務等。降低其他系統在非結構化數據管理方面的開發費用和時間成本,更專注于其自身業務需求。進一步提升了非結構化數據中心的應用價值,形成了很好的集約效益。

本次課題研究成果很好地解決了企業級非結構化數據的存儲組織形式問題,使得非結構化數據在企業內部得到高效存儲和便捷應用,也為企業級非結構化數據中心進行數據集中存儲、統一管理、標準服務奠定了堅實的基礎,已成為企業信息化建設的重要組成部分。
[1]張志剛,姚偉.海量非結構化數據存儲問題初探[J].中國檔案,2009,(8).
[2]陳靜,尚鮮連,顧晨宇.基于SOA的非結構化信息檢索的模型研究[J].自動化術與應用,2009,(11).
[3]程志華,倪時龍,黃文思,龔賀.企業級非結構化數據管理平臺研究及實踐[J].電力信息化,2012,(03).
[4]李未,浪波.一種非結構化數據庫的四面體數據模型[J].中國科學,2010,40(8).