紀 海,曹三省
(中國傳媒大學 a.中國傳播能力建設協同創新中心;b.新媒體研究院;c.信息工程學院,北京 100024)
基于互聯網融合媒體的大數據應用技術分析
紀 海a,c,曹三省a,b
(中國傳媒大學 a.中國傳播能力建設協同創新中心;b.新媒體研究院;c.信息工程學院,北京 100024)
大數據技術作為一種新的數據處理解決方案,能夠很好地完成對類型繁多、規模龐大的海量數據的處理與價值挖掘工作?;ヂ摼W與傳統廣播電視相融合而形成的媒體形態,作為重要的媒體傳播領域與媒體數據源泉,大數據應用將對其產生深刻影響。通過對“大數據時代”下互聯網融合媒體的發展與特點的闡述,揭示了大數據在互聯網融合媒體中應用的重要性與必要性。同時,對大數據在互聯網融合媒體中的應用技術進行了簡要分析。
大數據;互聯網融合媒體;Hadoop
繼云計算、物聯網、移動互聯網之后,“大數據”已經成為全球關注的新熱點,正在引領新一輪的數據技術革新的浪潮。大數據尚未具有統一認同的合適定義,但是公眾普遍認同其具有的4個特點能很好地對其進行描述,分別是Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。目前,大數據技術已經橫跨多個技術領域,從云計算、虛擬化和數據存儲,到數據庫管理、數據挖掘與處理等。這使得大數據的應用價值得到極大的提升,并且已經對包括醫療衛生、教育服務、電子商務、媒體輿論等在內的各個領域產生了深遠的影響。面對規模不斷擴大、種類不斷增加的海量數據,公眾已經深刻地感受到大數據時代的到來[1-5]。
互聯網作為媒體傳播的重要領域,對于社會發展、輿論導向、國家安全而言具有重要意義。傳統廣播電視在實現面向互聯網的技術轉型之后,與互聯網融合形成了包括IPTV、OTT、網絡視頻、網絡電視臺、APP手機電視等多種融合媒體形態。伴隨大數據時代的到來,互聯網融合媒體利用虛擬化的媒體信息傳播技術和交互技術已經成為數據產生的重要源泉,由此也衍生了眾多的新型數據。利用大數據對互聯網融合媒體領域進行數據管理與數據挖掘具有重要的科研價值與實際意義。
互聯網融合媒體,通常是指廣播電視機構利用國際互聯網信息傳播平臺,將文字、聲音、圖像、視頻等各種形式的數據進行數字化處理后,在計算機、手機、平板電腦等終端上進行傳播的媒體形式。其具有數字化、交互性、全球性、易存儲、易檢索、多媒體化等特點。伴隨大數據時代的到來,互聯網融合媒體正在經歷新的技術變革,由此也展現出新的特點:
1)數據增長日益趨向非結構化
伴隨互聯網技術的不斷發展,網絡數據正在朝向非結構化方向發展,更加多樣的文本格式、豐富的音視頻與圖像展示等,已經顯示非結構化數據已經成為互聯網融合媒體的重要數據源。然而,如何實現文本文檔、PDF文檔、XML、圖像和音視頻等非結構化數據有效分析一直都是數據分析中的難題,大數據作為全新的數據存儲與處理技術,能夠提供新的解決方案。
2)信息量增長更快
互聯網融合媒體在交互技術與移動互聯網技術的發展下,用戶已經實現了在任何地方、任何時間訪問互聯網進行信息發布、交流互動等操作。這促進了網絡信息的增加速度不斷加快,數據規模不斷增大。
3)信息檢索難度加大
隨著數據規模的擴大與數據異構問題的日益嚴重,互聯網信息檢索難度在不斷增大,準確度也在下降。
大數據的出現不但引領數據技術的革新,同時也在應用領域建立一個新的生態體系——大數據生態系統。該系統包括數據設備、數據采集者、數據匯總者以及數據使用者和消費者。數據設備主要包括產生與收集數據的相關設備;數據采集者主要包括從相關設備和客戶端進行數據獲取的實體;數據匯總者主要負責對數據進行分析與處理,提取大數據所蘊含的價值與規律;數據使用者/消費者主要對具有價值的數據分析結果進行使用和消費。在互聯網融合媒體中運用大數據,將可以更好地實現海量網絡數據處理和分析,完成用戶行為分析、輿情監測,為互聯網融合媒體的健康有序發展提供指導性的建議。
大數據在互聯網融合媒體中的應用技術主要包括大數據獲取技術、大數據分析技術與Hadoop平臺。
2.1 大數據獲取技術
大數據的數據類型結構主要分為結構化數據、半結構化數據和非結構化數據,如圖1所示。

圖1 大數據結構類型
1)結構化數據
互聯網融合媒體中的動態結構化數據具有更高的研究價值,能夠更好地分析用戶行為,總結數據中的潛在價值。對其采用查找平臺動態數據源、解析數據源、正則表達式匹配數據進行抓取,如圖2所示。

圖2 數據抓取方式
2)非結構化數據
對于互聯網融合媒體中的非結構化數據,可采用PHP5所提供的Simple HTML DOM解析類庫對頁面進行HTML解析,通過元素的id、class、tag等來進行信息定位,利用find函數來查找HTML文檔中的元素,并返回一個包含對象的數組,完成數據獲取。
2.2 大數據分析技術
面對互聯網融合媒體帶來的快速增長的數據量,為了更好地分析和利用這些海量的數據資源,必須利用有效的數據分析平臺和技術。運用大數據帶來的理念與技術革新對數據資源進行深入的處理,挖掘數據內部所存在的潛在價值,對互聯網融合媒體發展進行有效的指導。
1)大數據分析平臺
大數據帶來了更加復雜的數據結構和類型,以及更加龐大的數據資源,對于大數據分析平臺提出了更高的要求。因此,其具有新的技術特點。分別是:
(1)規模達到Pbyte級別的高容量存儲空間,擁有線性擴展能力;
(2)高效快速的運算能力,提供低延遲的訪問、搜索和分析等處理;
(3)具有集成分析環境,進行更加高級的分析處理和建模。
2)大數據分析方法
基于大數據挖掘的主要分析方法有:
(1)聚類分析(K-means算法),利用相似度對數據進行分組,找到數據中的共性;
(2)回歸分析,確定輸入變量與結果之間的關系,主要有線性回歸與邏輯回歸;
(3)關聯規則分析,尋找行為之間的關系,主要有Apriori、FP-growth算法;
(4)分類,對處理對象進行標簽處理,主要有決策樹、樸素貝葉斯等。
2.3 Hadoop大數據支撐平臺
Hadoop作為Apache基金會旗下的一個開源分布式計算平臺,為用戶提供了系統底層的分布式基礎架構。具有高可靠性、高擴展性、高效性以及高容錯性,利用計算機集群進行數據存儲與運算。數據能夠在節點之間動態移動,確保節點的動態平衡,同時,平臺允許進行節點擴展,增加平臺容量。因此,Hadoop是一種適合進行大數據存儲與處理的平臺。
Hadoop基于Linux系統搭建的數據運算平臺,擁有2個核心系統,分別是分布式文件系統(HDFS)和MapRe?duce系統。
1)HDFS系統
HDFS基于Java語言開發,采用主從結構模型(Mas?ter/Slave),任何支持Java的機器都可以搭建該系統。一個HDFS集群是由一個主服務器(NameNote)和若干個從節點(DataNote)組成。其中主服務器負責管理文件系統的命名空間和客戶端對文件的訪問操作,DataNote管理存儲的數據。
2)MapReduce系統
MapReduce是一種并行編程模式,可以用一種高容錯的方式并行數據大規模的數據資源。主要是由一個單獨運行在NameNote上的JobTracker和運行在集群DataN?ote上的TaskTracker共同組成。當Job提交,JobTracker接收Job并進行信息配置,同時將配置信息分發給從節點,然后調度任務并監控TaskTracker的執行。
伴隨互聯網領域內的持續創新和傳統廣播電視機構新媒體技術應用能力的提升,兼具廣播電視與互聯網基因的互聯網融合媒體正在經歷快速發展的階段,大數據結構更加復雜化,數據規模更加龐大化。大數據能很好地實現對互聯網融合媒體數據的海量存儲、高效處理、無延遲搜索以及分析建模,挖掘大數據背后的潛在價值和規律,為互聯網融合媒體健康有序的發展提供指導。
[1] 周寶曜,六維,范承工.大數據戰略·技術·實踐[M].北京:電子工業出版社,2013.
[2]陸嘉恒.Hadoop實戰[M].北京:機械工業出版社,2011.
[3] 鐘瑛,張恒山.2013年:大數據驅動下的傳媒轉型[J].新聞與寫作,2013(12):11-13.
[4]閆城榛,宋迪.“大數據”時代或將引爆傳媒發展新格局[J].中國傳媒科技,2012(19):64-65.
[5] 張彥華.大數據時代國內傳媒產業的挑戰與機遇[J].現代傳媒,2013(11):22-26.
Analysis of Big Data App lication Technology Based on Internet Fusion M edia
JI Haia,c,CAO Sanxinga,b
(a.China Broadcast Capacity Build Collaborative Innovation Center; b.New Media Institute,Communication University of China,Beijing 100024,China)
Big data technology as a new data processing solution,can process and mine massive various and valuable data. The media formed by Internet and the traditional broadcast TV,as an important field of media broadcast and media data source,can be impacted by big data applications.Through the discussing of characteristics and development of fusion media based on"big data era",the importance and necessity of media data fusion application on the internet are revealed.At the same time,the big data fusion application technologies in the Internet fusion media are briefly analyzed.
big data;internet fusion media;Hadoop
TN948
A
?? 京
2014-05-05
【本文獻信息】紀海,曹三省.基于互聯網融合媒體的大數據應用技術分析[J].電視技術,2014,38(21).