胡輝 胡松 黃思博 曾德方 蔡昭權
摘要:隨著計算機技術的發展和互聯網的普及,高清視頻、圖片、下載、音樂、網頁內容越來越豐富,這些圖像和視頻等多媒體信息的獲取和傳播越來越方便快捷,因此,如何在浩如煙海的數據中準確無誤地查詢所檢索的信息;在海量的數據面前有不同的媒體數據展現形態,如何進行數據檢索、收集、匯總、分析,從而得出智能化的推論。一種新型的數據分析方法,如對物體示例搜索、基于Hadoop的圖像檢索和網絡視頻中熱點事件聚類3個方面進行交叉研究,主要工作是針對數據形態,文本數據、視頻數據以及文本與視頻跨態數據,構建各自的相似度塊矩陣,文本模態、視頻模態以及文本與視頻間的跨模態,將多模態融合的相似度矩陣和譜聚類算法結合起來,在熱點事件視頻數據庫中進行聚類效果的分析,實驗驗證了方法的有效性,從而獲得市場或者決策依據。
關鍵詞:數據分析;跨媒體數;數據索引;索引優化;數據智能分析系統
隨著市場經濟和科學技術水平的不斷發展以及互聯網技術的不斷更新,由海量多媒體信息形成的大數據急需一種更加高效靈活的處理方式,即大數據建模方法,跨媒體數據統一識別、數據關聯推理、數據深度挖掘、信息綜合搜索方式、數據內容集成整合等,都需要跨媒體數據研究向智能化、大型化深入發展。
1 跨媒體檢索的含義和演進
麥格克早在1976年就告訴我們:人類對一個整體事物的一個概念性理解,需要人腦跨越和綜合不同感官信息來判斷和識別外界信息。跨媒體檢索就是這樣一個過程,就是常說的跨媒體信息檢索。它適應當前信息檢索的需要,受到國內外學術界的廣泛關注,其檢索特點是將相同內容、相同語言意義作為一個研究對象,是一種復雜類型的媒體信息檢索技術。它識別檢索的不僅僅是文字,還包括圖像、音頻等廣義上的文件或者文件包,因此,需要一個內嵌的中央處理器(CPU)進行分析運算。
2 對跨媒體數據進行智能化處理的前提
首先要設計一種支持多模態檢索的方法,實現從一種模態的媒體對象檢索出另一種模態媒體對象的功能,這樣才能有一個數據底層識別的標準。
跨媒體識別標準設立的意義。由于跨媒體內容形式多樣,識別的難度自然加大,需要處理和分析匯總的運算能力就要高效、快速、精確,否則無法進行精準的識別。為了實現這個目標,對信息智能化處理的前提是需要打造一個支持多模態、高緯度的信息檢索中心,運用多模檢索、高緯度識別技術就可以實現檢索目的。
其次應用高維索引技術,對數據信息進行檢索分析。高維索引技術已經有20年的運用歷史,在索引檢索、歸類、匯總上作用巨大。一般采用樹形索引,利用空間分片、化區的辦法進行歸類索引,如Rtree及其變種是最常用的,但樹形檢索只適用于少維度的空間,對于多維度的檢索需要首先進行數據降層轉化,然后按層級處理。
再次是對原始向量采用近似的方法表示,如IQ-tree和VAfile之類向量就只能用近似模式來體現。這種檢索方法可以加速按順序檢索數據信息,但也有很多弊端,由于模糊的方法在有的時候顯示出來的效果會南轅北轍、答非所問,影響檢索效果。
最后是如何對數據進行降層、降緯度處理的問題。當前使用最多的辦法就是先對信息進行維度降低,把高維度的信息統統進行轉化,通過將高維數據轉化為一維數據進行高維查詢,包括NB-Tree和Distance等。
總之,要形成一個衡量系統的標準體系,然后根據識別標準設計出合理的檢索辦法,對跨媒體數據進行數據檢索、收集、匯總、分析。
3 數據檢索引擎的建立
數據檢索、收集、匯總、分析,根據跨媒體數據類型進行分類統一,然后進行建模,構建了跨媒體基元生成模型,還建立了跨媒體數據的局部特征和全局特征之間的映射機制,從多媒體數據表現出的底層特性出發,建立了相應的數據索引結構。經過一系列算法運算之后為圖像內容相似度匹配模型,采用基于改進的語音識別算法實現了音頻內容的模板匹配過程,完成了圖像與音頻的互檢索,初步形成了從一種媒體類型檢索到另一類媒體的設計過程,建立相應的跨媒體索引。整個系統運作過程就是一個數據分析引擎。
4 對跨媒體數據進行智能化處理的方法
通過分析不同模態的信息或者數據內容的特征以及它們各自在統計意義上的典型相關性,然后通過它們各自在二維空間跨媒體數據的各自維度,整合修正拓撲結構,解決了特征向量的異構性問題,從而結合相關反饋中的先驗知識,提出數據分析模型。
4.1 數據查詢與優化問題
首先會遇到幾個難題:
(1)如何實現實時檢索。實時檢索可以使數據最大可能地表現真實性。
(2)查詢會導致系統內存不足。內存是系統數據處理的倉庫,頻繁查詢會加大系統運算所使用內存的容量。
(3)會產生數據冗余。數據冗余會導致數據庫中數據的重復出現,占用大量的存儲空間,在使用中導致不便,在系統設計中要盡可能降低數據冗余,達到數據的簡潔、易用。
(4)數據替換速度如何解決?
(5)數據容錯、糾錯速度。容錯就是當由于各種原因,假如在系統中出現了數據、文件損壞或丟失時,系統能夠自動將這些損壞或丟失的文件和數據恢復到發生事故以前的狀態,使系統能夠連續正常運行的一種技術。容錯有很多種形式,比較常用的有硬件容錯、軟件容錯、整機容錯、全線容錯等,在容錯技術中提高系統工作可靠性的方法主要有系統自檢技術和冗余技術。
要解決上述一系列問題,首先需要組建數據分發服務器機群,包括多臺數據分發服務器,用于將需要創建的數據拆分,并分發給創建數據索引服務器;創建數據索引服務器機群,包括多臺創建數據索引服務器,接收數據分發服務器分發的數據并為數據創建索引;檢索服務器機群,根據索引過程中需要完成的功能對服務器進行分配,避免搶資源。其次是建立一個數據庫查詢倉庫。數據庫索引如同翻閱書籍的目錄一樣,通過檢索索引,就可以輕松查到所需的內容,提高數據庫的查詢速度,因此數據庫查詢倉庫的建立是不可或缺的。4.2數據庫設計完善和優化的方法
海量數據處理的一個熱點是數據庫(尤其是MySQL)性能優化方法。MySQL數據庫優化需要完成以下方面設計。
首先,要千方百計地提升優化索引的性能辦法,對數據庫的寫操作(插入、更新、刪除等)盡量用短字節,查詢邏輯越簡單越好。
其次,充分發揮和利用配置緩存來降低數據庫查詢讀取次數,這樣可以大大緩解和釋放數據庫服務器的壓力。
再次,日志分析要靈活使用。數據庫長期運行會積累大量的LOG日志,其信息量巨大,我們通過日志分析就能找到系統性能的關鍵,從而進一步提出系統優化方案。
最后,要優化索引數據庫模型。特別是聚集索引,用處更為卓越,具有兩個最大的優勢:以最快的速度縮小查詢范圍,時間就是效率,效率就是金錢;以最快的速度進行字段排序。
4.2 衡量海量跨媒體數據優化的標準
首先是數據要易于分析。如果數據查詢僅僅看到結果是不夠的,當管理決策者對結果有疑問時,要能從多個角度、多條路徑去分析為什么會這樣。只有這樣,才能找到問題的原因,才能讓管理決策者更有針對性地提出改善措施,從而提高管理決策水平。數據易于閱讀。大數據的一個關鍵價值就是化繁為簡,所以要將數據簡化為幾個關鍵的KPI,讓管理決策者通過幾個數字就能知道經營的情況。同時,數據的可視化也至關重要。一堆密密麻麻、信息量龐大的表格,是無法讓管理決策者一眼就發現問題與趨勢的,合理地利用儀表盤與圖表,就可以讓數據動起來。
其次生成的數據要易于獲取。目前大家一般在電子表格中處理數據,電子表格EXCEL的功能雖然很強悍,能夠熟練應用的人也很多很廣泛,但電子表格EXCEL無法完成的一個功能是無法集成為一個完整的平臺,無法讓所有人通過一個平臺去調取數據或者能夠調取的也只能是一個個單一無法聯通的數據。如果沒有辦法解決平臺化的問題,即大家無法在一個平臺上獲取數據,而是一個個獨立的EXCEL文件,這樣管理決策者獲得的信息是單一的,其結果還需要一個研發或者設計一個新的整合這些數據的軟件,造成了數據無法體現其應有的價值。當前,隨著移動互聯技術越來越成熟,管理決策者越來越習慣在移動設備上辦公,所以如何讓管理決策者充分利用移動設備訪問數據,是使數據發揮價值的重要原因。總之,數據獲取的便捷、快速是衡量海量跨媒體數據智能分析系統優劣的一個重要指標。
最后是如何打造一個扁平化數據,但又不能讓所處理數據的原有價值貶值。如果太過去扁平化處理數據,會毀掉原始結構中所表達的重要對應關系。很多用戶希望數據呈現的狀態可以和可視元素進行交互,從而很清晰明了地得到他們正在尋找的答案。如果數據扁平、過濾次數太多、數據失真,信息會失去原來的價值。這是一個兩難的境地。海量跨媒體數據智能分析系統就需要在兩難中艱難取舍。
5 大數據、云數據的處理
5.1 數據打包和轉移
大數據很“大”,如果打包轉移,負擔太重。不能將數據提取出來,要將數據處理成一個個數據集市和數據立方,如果“提取”數據,就意味著轉移數據,將給數據維護、系統網絡性能附加處理器等造成一系列紛亂龐雜的問題,還會出現兩個邏輯上相同的備份。解決這個問題,目前應用的最直接的解決辦法是利用BI系統,先讓BI深入更底層運行數據,做好數據的分析比對,這就是大數據萌發的最初動力。
5.2 數據安全防護問題
眾所周知,數據泄露事件頻繁發生,要保證數據的安全穩妥,就要選擇能夠利用現有安全模型的BI工具。依靠Ranger、Sentry、Knox等綜合性安全系統,使云技術、大數據實現數據安全變得更加容易,現在就連Mongo數據庫都有了令人驚嘆的安全架構。所有那些模型都允許插入權限、將用戶信息一路傳播到應用層、實施可視化的授權和提供與該授權相關的數據志。請記住:數據安全就是服務,就是價值。
5.3 充分利用智能工具、智能軟件、智能技術
要利用這些智能工具,我們可以從用戶和數據與可視圖的交互中獲得大量實時信息,再通過現代智能工具整合、匯總、分析,然后得出結論,就可以輕松地讓信息為我們服務。
如今的大數據系統因為預測分析能力而著稱。相關性、預測和其他功能使企業用戶比以往任何時候都能更便捷地進行高級分析,不需要編程經驗就能處理大數據的可視化技術使分析師們如有神助,超越了基本分析的范疇。為了實現其真正的潛力,大數據不應該依賴于每個人都變成R預言程序員。人類非常善于處理可視化信息,我們必須更加努力地將可視化信息呈現在人們眼前。
6 打造跨媒體海量數據智能分析系統
打造海量跨媒體數據智能分析系統,要對系統分析、系統預測、系統評估、系統運行管理等整個流程進行一一梳理,對數據的發現、分析、識別、評價和預警等方面分別做出反應動作。
跨媒體海量數據智能分析對數據系統分析、預測和評估,是一個連貫的過程。利用數據挖掘進行數據分析常用的方法有數據分類法、時間回歸分析法、數據統一歸類法、根據數據相互關聯規則、數據差異特征、數據相互變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數據進行挖掘。一般來說,系統分析是要對數據進行處理,目前使用最多的辦法是時間序列分析法、移動平均模型、指數平滑模型、趨勢預測、季節指數預測。
系統評估就是對處理數據經過分析和預測后得出的結論。目前應用最廣泛的評估辦法是系統自動仿真評估。
系統運行管理方面,首先要指定完善的系統運行管理制度,這樣可以使系統能夠安全可靠地運行下去,要明確各個位置、各方的職責,做好妥善的安排和規劃布局。
總之,海量跨媒體數據智能分析系統的打造,需要龐大的資金、技術以及場地等,并非一朝一夕就可以實現,因此我們要進行跨媒體智能系統的研究,盡早打造一個可以進行數據分析、匯總,然后提出預警信息。可以預計,在不遠的將來我們預計數據處理速度將會變得越來越快。一個典型方法是聯機分析處理(OLAP)立方,本質上就是把數據轉移到預計算緩存,從而加快數據處理的速度。