王垚++鄧逸鈺

DOI:10.16661/j.cnki.1672-3791.2017.25.002
摘 要:隨著科技的發(fā)展和信息技術(shù)的進(jìn)步,我國(guó)的媒體行業(yè)得到了快速發(fā)展,由此產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)包括用戶(hù)信息、媒資數(shù)據(jù)等,在分析和處理的過(guò)程中需要使用到大數(shù)據(jù)技術(shù),這樣才能讓媒體產(chǎn)業(yè)得到更好的轉(zhuǎn)型。在本文中對(duì)基于媒體大數(shù)據(jù)的智能服務(wù)平臺(tái)技術(shù)進(jìn)行了分析和闡述,以期能更好地推進(jìn)該平臺(tái)的應(yīng)用。
關(guān)鍵詞:媒體 大數(shù)據(jù)技 智能服務(wù)平臺(tái)
中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)09(a)-0002-02
隨著科技的發(fā)展和信息技術(shù)的進(jìn)步,人類(lèi)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,人們生活的方方面面都已經(jīng)融入了大數(shù)據(jù)。對(duì)于媒體行業(yè)來(lái)說(shuō),它是主要的信息消費(fèi)陣地,擁有海量的用戶(hù)數(shù)據(jù)和音頻信息。隨著媒體產(chǎn)業(yè)和互聯(lián)網(wǎng)的不斷融合,它已經(jīng)成為了大數(shù)據(jù)應(yīng)用的主戰(zhàn)場(chǎng)。媒體大數(shù)據(jù)一般有三方面的來(lái)源:一是互聯(lián)網(wǎng)媒體大數(shù)據(jù);二是媒體資源數(shù)據(jù);三是用戶(hù)行為數(shù)據(jù)。通過(guò)采集整理和分析海量的媒體大數(shù)據(jù),能將用戶(hù)和用戶(hù)間、用戶(hù)和內(nèi)容間、內(nèi)容和內(nèi)容間的關(guān)聯(lián)打通,以此來(lái)支撐媒體的制作、播出和營(yíng)銷(xiāo)等。
1 系統(tǒng)架構(gòu)
基于媒體大數(shù)據(jù)的智能服務(wù)平臺(tái)系統(tǒng)架構(gòu)主要包括四個(gè)部分,它們分別是:多元數(shù)據(jù)采集引擎、海量數(shù)據(jù)存儲(chǔ)引擎和高性能的數(shù)據(jù)處理引擎。媒體數(shù)據(jù)采集子系統(tǒng)包括的模塊是分布式采集框架、大數(shù)據(jù)志愿計(jì)算獲取技術(shù)等,主要是全面采集媒體的大數(shù)據(jù)。將用戶(hù)興趣模型建立起來(lái),進(jìn)行個(gè)性化推薦、搜索和聚合大眾動(dòng)態(tài)內(nèi)容的關(guān)鍵技術(shù)研究工作,將集用戶(hù)需求和興趣于一體的跨終端多媒體內(nèi)容呈現(xiàn)技術(shù)研發(fā)出來(lái)。
2 關(guān)鍵技術(shù)
2.1 采集海量異構(gòu)媒體數(shù)據(jù)
在大數(shù)據(jù)時(shí)代背景下,強(qiáng)調(diào)的重點(diǎn)已經(jīng)由原先的樣本分析轉(zhuǎn)移到了數(shù)據(jù)分析上,所以各大媒體大數(shù)據(jù)平臺(tái)都需要擁有及時(shí)而完整的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)采集方式明顯不能滿(mǎn)足該要求,所以系統(tǒng)需要將互聯(lián)網(wǎng)的分布式大數(shù)據(jù)獲取技術(shù)應(yīng)用其中。
2.1.1 互聯(lián)網(wǎng)分布式大數(shù)據(jù)獲取技術(shù)
該系統(tǒng)采用的是志愿計(jì)算技術(shù),通過(guò)分布式采集方式,將特定的客戶(hù)端安裝上,這樣每一個(gè)互聯(lián)網(wǎng)用戶(hù)都能將計(jì)算資源和網(wǎng)絡(luò)志愿貢獻(xiàn)出來(lái)。這樣千千萬(wàn)萬(wàn)的用戶(hù)就分擔(dān)了數(shù)據(jù)的獲取任務(wù),因此獲得數(shù)據(jù)的機(jī)器更多,同時(shí)將數(shù)據(jù)源站遭到封殺的可能性降至最低,大大提高了數(shù)據(jù)采集效率[2]。
2.1.2 分布式采集框架
對(duì)于分布式采集框架來(lái)說(shuō),在設(shè)計(jì)其程序的過(guò)程中主要采用的是控制和方法分離的思想,采集框架上僅僅是控制和爬取的方法,通過(guò)每個(gè)網(wǎng)站的配置來(lái)描述每個(gè)網(wǎng)站的控制。采集框架主要包括控制、配置、輸入、輸出等模塊。其運(yùn)行結(jié)構(gòu)如圖1所示。
通過(guò)對(duì)每一個(gè)網(wǎng)站進(jìn)行必要的配置,使得分布式采集框架的服務(wù)能力進(jìn)一步提升,有效滿(mǎn)足了媒體大數(shù)據(jù)下智能服務(wù)平臺(tái)的基本需求,進(jìn)而為后續(xù)信息數(shù)據(jù)的獲取、匯總以及分析工作的開(kāi)展創(chuàng)造了條件。
2.2 管理海量異構(gòu)媒體數(shù)據(jù)
2.2.1 預(yù)處理數(shù)據(jù)
媒體數(shù)據(jù)處理和傳統(tǒng)的數(shù)據(jù)預(yù)處理的流程是類(lèi)似的,它也是包括提取數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)和加載數(shù)據(jù)三個(gè)步驟。
2.2.2 分布式文件系統(tǒng)及相關(guān)技術(shù)
分布式文件系統(tǒng)是云存儲(chǔ)系統(tǒng)的核心存儲(chǔ)引擎,它同時(shí)還對(duì)網(wǎng)絡(luò)軟硬件形成的存儲(chǔ)資源池進(jìn)行管理,將統(tǒng)一的文件訪問(wèn)服務(wù)提供給外界。
2.2.3 分布式負(fù)載均衡技術(shù)
一般來(lái)說(shuō),系統(tǒng)在任務(wù)分配模塊的搭建過(guò)程中會(huì)采用集成化的方式,這樣就不會(huì)出現(xiàn)單點(diǎn)失效的問(wèn)題。相較于單一節(jié)點(diǎn),它能將處理任務(wù)的效率提高,使得任務(wù)分配更具有實(shí)時(shí)性。
2.2.4 關(guān)聯(lián)和挖掘異構(gòu)媒體數(shù)據(jù)
將結(jié)構(gòu)化數(shù)據(jù)的存取地址和非結(jié)構(gòu)化數(shù)據(jù)的存取地址結(jié)合組成一個(gè)索引目錄,一旦有數(shù)據(jù)存取要求到達(dá),可以將不同格式的數(shù)據(jù)地址快速?gòu)臄?shù)據(jù)索引中取出,進(jìn)而訪問(wèn)相應(yīng)數(shù)據(jù)。
2.3 分析海量異構(gòu)媒體數(shù)據(jù)
2.3.1 分析網(wǎng)絡(luò)媒體行為
通過(guò)對(duì)主流網(wǎng)站數(shù)據(jù)、自有數(shù)據(jù)進(jìn)行采集和分析、建立互聯(lián)網(wǎng)第三方平臺(tái)和自有賬戶(hù)等來(lái)支撐系統(tǒng)的流程優(yōu)化、性能優(yōu)化、第三方內(nèi)容引進(jìn)等各種業(yè)務(wù)形態(tài),將全新的節(jié)目評(píng)價(jià)系統(tǒng)建立起來(lái)。
2.3.2 推薦技術(shù)
根據(jù)WEB評(píng)論的特點(diǎn),可以用自監(jiān)督情感分析模型來(lái)對(duì)其進(jìn)行分析。該模型主要用于虛擬對(duì)WEB評(píng)論的整體情感進(jìn)行打分,表情符號(hào)和文本漢字是這些WEB評(píng)論的主要內(nèi)容。
2.4 智能推薦
通過(guò)基于媒體大數(shù)據(jù)的智能服務(wù)平臺(tái),可以在智能導(dǎo)視引擎時(shí)實(shí)現(xiàn)用戶(hù)至上的理念,用戶(hù)通過(guò)社交推薦和智能推薦能發(fā)現(xiàn)自身所需的個(gè)性化內(nèi)容,用戶(hù)通過(guò)電視、電腦屏幕即可享受大數(shù)據(jù)時(shí)代所帶來(lái)的個(gè)性化娛樂(lè)生活。
2.4.1 實(shí)時(shí)適配多屏格式
系統(tǒng)可以采用云轉(zhuǎn)碼技術(shù),在轉(zhuǎn)碼過(guò)程中可以采用云存儲(chǔ)的分布式并行方法,如果用戶(hù)有視頻文件的請(qǐng)求,可以將終端類(lèi)型進(jìn)行自動(dòng)適配,將文件實(shí)時(shí)轉(zhuǎn)換成為需要的目標(biāo)類(lèi)型,對(duì)于用戶(hù)來(lái)說(shuō)這是完全透明的。
2.4.2 智能推薦引擎
智能推薦引擎會(huì)根據(jù)用戶(hù)的需求,通過(guò)社交推薦和算法推薦等為用戶(hù)帶來(lái)其所需的個(gè)性化服務(wù)內(nèi)容,這樣就將用戶(hù)的喜好與內(nèi)容過(guò)于豐富間的矛盾很好地解決了。
3 創(chuàng)新成果
3.1 服務(wù)模式創(chuàng)新
通過(guò)SAAS、PAAS等模塊系統(tǒng)可以在全行業(yè)推廣媒體大數(shù)據(jù)服務(wù),整個(gè)影視媒體行業(yè)可以由此獲得跨越式的創(chuàng)新和發(fā)展。
3.2 關(guān)鍵技術(shù)創(chuàng)新
3.2.1 分布式互聯(lián)網(wǎng)數(shù)據(jù)采集模式
通過(guò)分布式的互聯(lián)網(wǎng)數(shù)據(jù)采集模式,系統(tǒng)可以將統(tǒng)一的任務(wù)調(diào)度和分發(fā)系統(tǒng)建立起來(lái),將每個(gè)用戶(hù)采集到的數(shù)據(jù)進(jìn)行收集,這樣的數(shù)據(jù)采集可以更加精準(zhǔn)、實(shí)時(shí)。
3.2.2 互聯(lián)網(wǎng)數(shù)據(jù)采集框架
互聯(lián)網(wǎng)數(shù)據(jù)采集框架是基于規(guī)則庫(kù)的模型,對(duì)于規(guī)則庫(kù)來(lái)說(shuō),它統(tǒng)一采用的是XML格式,通過(guò)對(duì)規(guī)則庫(kù)的合理配置,可以實(shí)現(xiàn)目標(biāo)網(wǎng)站的適配。
3.2.3 對(duì)于計(jì)算數(shù)據(jù)平均房屋間隔可以采用遺忘特性算法
在數(shù)據(jù)的平均訪問(wèn)間隔過(guò)程中可以采用遺忘特性算法,對(duì)數(shù)據(jù)價(jià)值函數(shù)可以進(jìn)一步加入歷史訪問(wèn)信息和預(yù)估策略來(lái)進(jìn)行調(diào)整,這樣可以有效抑制訪問(wèn)數(shù)據(jù)與定義的價(jià)值函數(shù)的時(shí)變性,同時(shí)還對(duì)數(shù)據(jù)訪問(wèn)的隨機(jī)性進(jìn)行有效抑制。
4 結(jié)語(yǔ)
在當(dāng)前的大數(shù)據(jù)時(shí)代,媒體產(chǎn)業(yè)與大數(shù)據(jù)的融合勢(shì)在必行,智能服務(wù)平臺(tái)的研發(fā)具有重要的意義。收集和分析媒體大數(shù)據(jù),能有效打通用戶(hù)與用戶(hù)間、用戶(hù)與內(nèi)容間的關(guān)聯(lián),更好地支撐起媒體內(nèi)容的制作和播出,它的應(yīng)用具有極大的社會(huì)價(jià)值和商業(yè)價(jià)值。
參考文獻(xiàn)
[1] 鄒麗丹.大數(shù)據(jù)助力搭建七大全媒體服務(wù)平臺(tái)[J].傳媒評(píng)論,2014(4):67-68.
[2] 張翔.超融合數(shù)據(jù)服務(wù)平臺(tái)在融合媒體的應(yīng)用[J].廣播與電視技術(shù),2016(6):45-50.
[3] 楊輝龍.淺談智能用電服務(wù)在廣電數(shù)據(jù)平臺(tái)的應(yīng)用前景[J].中國(guó)高新技術(shù)企業(yè),2016(11):44-46.endprint