□何思龍
由于近幾年各項業務不斷發展,臺里內部產生了大量的非結構化數據,類型主要包括圖片、音視頻、文檔數據、合同電子件等,這些數據分散保存在每個員工的辦公電腦、OA 系統及作為郵件附件保存在郵件服務器上,數據存儲太分散。在這種激增的非結構化數據面前,數據管理中心應運而生,數據管理中心采用分布式架構,解決了數據存儲的容量問題、安全問題;通過權限分配、流程審核解決了數據的管理問題;通過分享管理、API 接口,解決了數據共享問題。
數據管理中心還提供了PC 客戶端、手機客戶端、Web客戶端,方便使用者隨時對數據進行管理、分享。
(一)數據可視化。本系統采用可視化的視覺及操作設計,實現了數據可視化、流程可視化、文件可視化以及人機交互工程。通過對上傳文件的信息,按路徑、文件類型、文件信息、時間信息等要素進行存儲、分析、建立索引,形成基于文件目錄、文件分類、文件檢索為一體的立體多維可視化。同時,系統針對不同情況下的需要,設計了按文件名、時間、大小和名稱解析的排序方式。
(二)擴展性。本系統在各個層級都進行了可擴展性的支持:1.在文件系統層,采用了分布對象文件系統,支持水平擴容,性能不隨系統的擴容而下降;2.數據庫支持水平擴展;3.轉碼集群及搜索引擎均支持擴展;4.在對外提供的應用服務器中,支持無限制條件的服務器擴展。因此面對不斷增長的控件與計算需求,系統都可通過擴容擴展的方式進行滿足。
(三)安全性。整個系統節點采用全冗余硬件架構設計(風扇、電源),包含掉電保護模塊,數據的安全策略均采用1 比1 備份方式,系統的單節點安全性相當高。系統的文件底層采用了糾刪碼策略,即使有硬盤或服務器出現損壞,也能通過該策略恢復。在數據庫上采用了雙機熱備的形式,以保證數據的安全性,在丟失和損壞的情況下亦能回復。在通信方面采用身份認證的方式,確保數據訪問的安全性。
(四)可靠性。 本系統由多個節點組成,每個節點均可提供獨立的服務,在使用過程中,即使有節點因為種種原因產生故障,也不會影響系統的整體使用。當故障排除后,重啟節點,故障節點又會重新加入節點集群中。
(五)易用性。本系統在設計上以易用性為重要考慮方向,在功能設計及使用操作上,采用了接近桌面系統的設計模式,減少學習成本,增快上手時間。同時,為滿足用戶基于不同終端的訪問需求,系統研發了WEB 網頁端、WINDOWS PC 程序端、安卓 APP 端及 IOS APP 端,最大程度滿足用戶在不同使用環境下的訪問需求。
在邏輯架構上,廣西廣播電視臺數據管理系統主要由文件管理、權限管理、轉碼模塊、流程引擎、搜索引擎、日志模塊分組成。系統采用B/S 架構完全建立了以上六個模塊,同時采用C/S 模式構建了文件管理、轉碼模塊、流程引擎、搜索引擎,利用不同架構的優勢,滿足用戶不同終端的需求,各個模塊之間具有穩定、易用、易維護等特性。在數據存儲上,同時使用結構化數據庫和非結構化數據庫,利用彼此的優點構建安全、高效的數據架構。數據傳輸上,則采用RESTFUL 構建接口,使用JSON 數據格式進行傳輸,接口應用于各個終端數據交互。
(一)文件管理模塊。 本系統可建立公共空間,實現數據隔離。建立文件夾,實現路徑管理。統配備文件特征識別模塊,開啟后可對進入系統的文件進行類型識別及過濾識別。系統同時支持編目模板配置,幫助文件管理員對文件進行編目管理。此外,系統還可以通過智能目錄對文件文件夾進行編目,通過對構建條件的選擇和排序,可以根據需求生成各種規則及路徑的臨時目錄,并重組目錄中的文件。系統的文件管理模塊中還提供了文件的在線預覽功能,使用戶無需下載文件即可在線瀏覽文件。
(二)權限管理模塊。系統通過四層權限體系對用戶進行權限管理,實現了權限管理的安全性與易用性:第一層是媒資空間外層權限,確保僅有媒資空間內的人員才可訪問文件;第二層是媒資空間內部權限,該權限由管理員指定,可為不同的人員、角色分配不同權限,人員角色之間權限會進行疊加;第三是個人隱私權限,確保用戶自己的文件不被別人訪問;第四層是分享權限,通過加密的分享,打通以上三個層面的權限閉環,允許將各個層面的訪問使用權限臨時分配給無權限人員。而在系統的管理上采用了兩種權限劃分:業務管理及系統管理權限。業務管理權限負責管理系統的日常維護,如機構、機構、空間、轉碼配置的管理維護等;系統管理權限則負責對整個系統的控件、容量、文件特征、內外網控制等進行管理維護。
(三)流程引擎。流程引擎模塊應用于流程的發起和審批,流程環節采用配置方式,可根據需求修改。流程引擎支持角色化配置,人員與角色脫離,增加了冗余性,同時在流程步驟中獨特地開創了并聯式審批及串聯式審批,靈活度大大提高。流程引擎可分空間布置,不同的空間擁有自己獨立的流程引擎模塊。
(四)轉碼模塊。轉碼模塊是由轉碼集群及消息隊列構成,是對上傳文件進行離線轉碼,從而支持跨終端的在線瀏覽以及離線文件處理。轉碼任務由系統根據用戶的請求或是系統對文件的類型判別自動生成,任務生成后加入消息隊列,以確保轉碼任務的可靠性與公平性。轉碼集群可以由N 轉碼機器組成,每臺機器可根據自身的配置情況進行N 種轉碼任務執行,轉碼集群從消息隊列中獲取任務,并執行轉碼任務,到完成前會一直提交任務的完成進度。轉碼集群支持水平擴展,可滿足不斷擴張的算力需求。系統目前支持圖片、音頻、視頻、文本的轉碼,其中視頻還支持了抽幀、打點、合并、轉碼等功能。
(五)搜索引擎。搜索引擎是數據管理中心的核心模塊之一,系統會將收集到的數據初步識別和處理后,傳輸給搜索引擎服務器,搜索引擎則為這些數據建立索引,向用戶提供文件管理服務。目前搜索引擎支持多種維度檢索,包括:名稱檢索、大小檢索、創建日期檢索、編目檢索及編目二次過濾。通過對檢索出的文件進行預覽、編輯、分享、刪除、打開所在位置等,從而滿足各種數據檢索需求。
(六)日志模塊。用戶在空間所進行的大部分操作都會留下日志記錄,僅有空間的管理員以上權限可進行日志查詢,日志記模塊僅增強了空間使用規范性,還可通過日志模塊刪除文件恢復的功能,將誤刪或惡意刪除的文件恢復,大大增強了空間的安全性。
(一)基于路徑和編目的智能目錄。系統可以將任意文件夾進行智能目錄視圖轉換,轉換智能目錄視圖后,系統會對該目錄下的所有文件夾及文件進行分析,提取其中的關鍵屬性,組成視圖的組成參數,用戶可對這些參數進行不同順序的選擇和組合,生成各種臨時路徑視圖。不同用戶面對同一目錄,可建立不同的智能目錄視圖,如圖所示。

(二)高效文件索引數據庫。 系統沒有用傳統的數據庫方式來建立數據的索引,因為數據庫的字表結構固定不易擴展,非結構化數據的超大數據規模更適合Hash 表 K/V 索引。系統匯總集成了智能搜索引擎,它主要實現信息采集、處理、檢索功能;結合分布式對象存儲的無限屬性的特性,可以靈活地實現非結構化數據的高維檢索、復雜條件檢索、模糊搜索、范圍搜索等功能,并且具備搜索結果分類、檢索摘要等功能為用戶提供體驗更好、相關性和準確度更高的結果。
(三)無限級編目。系統中允許用戶設定無限層級的編目,并可組裝中模板。與其他系統的編目相比,該編目具有極大的靈活性,可構建與層級、重復度無關的編目;編目支持多種常用空間;極具特色的編目組建方式十分方便,同時可以滿足各種不通需求的編目結構。
(四)轉碼集群。系統的轉碼集群自研而成,支持圖片、視頻、文本、音頻的離線處理及轉碼。該集群采用微服務架構,可根據不同機器啟用不同的轉碼服務,最大限度利用配置高低不同的機器。該集群還支持擴展,當算力不足時,可無縫添加機器加入轉碼集群。