999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)斷層分析在廣播電臺數(shù)據(jù)處理中的應(yīng)用

2016-11-09 01:11:25夏驕雄周時(shí)強(qiáng)
關(guān)鍵詞:用戶分析檢測

徐 俊 夏驕雄 周時(shí)強(qiáng)

1(上海廣播電視臺技術(shù)運(yùn)營中心 上海 200051)2(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院 上海 200444)3(上海市教育委員會信息中心 上海 200003)

?

數(shù)據(jù)斷層分析在廣播電臺數(shù)據(jù)處理中的應(yīng)用

徐俊1,2夏驕雄2,3周時(shí)強(qiáng)2

1(上海廣播電視臺技術(shù)運(yùn)營中心上海 200051)2(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院上海 200444)3(上海市教育委員會信息中心上海 200003)

隨著大數(shù)據(jù)技術(shù)的不斷升溫,數(shù)據(jù)斷層現(xiàn)象的分析與處理已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域重要的方式與手段。數(shù)據(jù)斷層理論作為描述數(shù)據(jù)對象之間發(fā)生局部位移趨勢的分析理論,對于數(shù)據(jù)預(yù)處理過程具有十分重要的指導(dǎo)性意義。在初步描述數(shù)據(jù)斷層理論基本概念的基礎(chǔ)上,以上?!皠?dòng)感101”音樂電臺的移動(dòng)客戶端應(yīng)用日志數(shù)據(jù)為例,構(gòu)建數(shù)據(jù)斷層理論分析系統(tǒng)來處理電臺數(shù)據(jù)中所存在的數(shù)據(jù)斷層現(xiàn)象,提高了數(shù)據(jù)對象預(yù)處理的質(zhì)量,得到了有效的電臺決策輔助信息,從而充分說明了數(shù)據(jù)斷層理論的科學(xué)性和有效性,為進(jìn)一步研究奠定了堅(jiān)實(shí)基礎(chǔ)。

數(shù)據(jù)斷層數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理日志數(shù)據(jù)分析移動(dòng)客戶端應(yīng)用

0 引 言

在大數(shù)據(jù)時(shí)代,眾多信息的迅速傳播正由平面媒體轉(zhuǎn)向以互聯(lián)網(wǎng)為代表的先進(jìn)移動(dòng)終端媒體[1]。通過把握這一契機(jī),在手機(jī)、平板電腦等移動(dòng)設(shè)備平臺上開發(fā)一系列應(yīng)用程序,并通過網(wǎng)絡(luò)載體主動(dòng)地推送到用戶面前,將極大提高人們獲取有用信息的效率。用戶訪問應(yīng)用時(shí),服務(wù)器將產(chǎn)生大量的日志文件,包括用戶的IP地址、訪問時(shí)間、終端類型號等。對于這些日志文件進(jìn)行數(shù)據(jù)挖掘,可以得到日志數(shù)據(jù)的總體特征,及時(shí)掌握與日志文件產(chǎn)生有關(guān)的應(yīng)用程序使用情況,并可以進(jìn)一步預(yù)測該應(yīng)用程序未來的發(fā)展趨勢,從而為決策支持提供支撐[2,3]。

與應(yīng)用程序配套的日志文件信息是按照一定格式存儲的,屬于半結(jié)構(gòu)化的數(shù)據(jù),其中包含著一些不完整的、冗余的、錯(cuò)誤的數(shù)據(jù)。同時(shí),根據(jù)不同用戶的需求,也有可能存在大量的不相關(guān)數(shù)據(jù)。這些數(shù)據(jù)造成了數(shù)據(jù)斷層現(xiàn)象,對數(shù)據(jù)挖掘的準(zhǔn)確性有著一定的負(fù)面影響[4]。因此,對這類數(shù)據(jù)斷層進(jìn)行分析和處理,是更好獲取應(yīng)用程序使用情況的有效途徑。

1 數(shù)據(jù)斷層

文獻(xiàn)[5]結(jié)合大數(shù)據(jù)環(huán)境,借鑒地質(zhì)學(xué)的理論,首次在數(shù)據(jù)挖掘領(lǐng)域提出數(shù)據(jù)斷層的理論體系。通過數(shù)據(jù)斷層剖面的分析,系統(tǒng)闡述了數(shù)據(jù)預(yù)處理過程中的數(shù)據(jù)斷層現(xiàn)象,并給出數(shù)據(jù)斷層在顯隱斷層、內(nèi)間斷層之間相互轉(zhuǎn)化的規(guī)則和算法。初步說明了數(shù)據(jù)斷層理論體系的基礎(chǔ)。

定義1數(shù)據(jù)斷層大數(shù)據(jù)環(huán)境中,各個(gè)數(shù)據(jù)對象之間的性質(zhì)隨著各種主題、結(jié)構(gòu)、時(shí)效屬性等維度變化而變化所產(chǎn)生相關(guān)性描述的具體表象,稱為數(shù)據(jù)斷層。

按照不同的分類原則,數(shù)據(jù)斷層有不同的分類。根據(jù)數(shù)據(jù)斷層的表現(xiàn)形式,可以將其劃分為數(shù)據(jù)顯斷層和數(shù)據(jù)隱斷層。

定義2數(shù)據(jù)顯斷層相對于大數(shù)據(jù)環(huán)境,常存在于數(shù)據(jù)庫與數(shù)據(jù)庫之間,受到主題、結(jié)構(gòu)、時(shí)效等因素影響而發(fā)生變化的數(shù)據(jù)斷層稱為數(shù)據(jù)顯斷層。

定義3數(shù)據(jù)隱斷層相對于大數(shù)據(jù)環(huán)境,常存在于數(shù)據(jù)庫內(nèi)部,受到結(jié)構(gòu)、成分、數(shù)據(jù)關(guān)系等因素影響而發(fā)生變化的數(shù)據(jù)斷層稱為數(shù)據(jù)隱斷層。

本文引入數(shù)據(jù)庫中的孔隙定義,用于描述造成顯斷層的問題數(shù)據(jù)對象。

定義4孔隙數(shù)據(jù)庫中存在的各種無關(guān)用戶主題的異常數(shù)據(jù)對象,包括噪聲數(shù)據(jù)對象、空白數(shù)據(jù)對象、重復(fù)數(shù)據(jù)對象等,統(tǒng)稱為孔隙。

定義5孔隙度某一特定主題的數(shù)據(jù)資源中,存在的孔隙數(shù)量與數(shù)據(jù)對象總數(shù)量之間的比值,稱為孔隙度。

孔隙度反映數(shù)據(jù)資源中數(shù)據(jù)對象關(guān)于特定主題的緊密程度。顯然,孔隙度越小,數(shù)據(jù)質(zhì)量越高。事實(shí)上,實(shí)際應(yīng)用中的數(shù)據(jù)庫所包含的孔隙往往不能完全被消除,在數(shù)據(jù)對象不斷更新的情況下,對孔隙的處理只能以盡可能地減少孔隙為目標(biāo),從而減小孔隙對數(shù)據(jù)對象分析的影響。為了進(jìn)行正常的數(shù)據(jù)分析和處理工作,必須對數(shù)據(jù)庫進(jìn)行孔隙檢測,剔除盡可能多的孔隙。

定義6數(shù)據(jù)壓實(shí)了減小孔隙對數(shù)據(jù)分析結(jié)果的影響而對數(shù)據(jù)對象進(jìn)行各種處理操作的過程,包括處理空白數(shù)據(jù)對象、轉(zhuǎn)換格式不一致的數(shù)據(jù)對象、刪除重復(fù)數(shù)據(jù)對象等,稱為數(shù)據(jù)壓實(shí)。

同樣,對于隱斷層數(shù)據(jù)對象,可以將其提取出來進(jìn)行分析;若是無用數(shù)據(jù)對象,則需要使用數(shù)據(jù)壓溶技術(shù)對數(shù)據(jù)對象進(jìn)行處理。

定義7數(shù)據(jù)壓溶對與用戶需求不相關(guān)的數(shù)據(jù)進(jìn)行處理得到有用信息的過程稱為數(shù)據(jù)壓溶。

2 應(yīng)用背景

廣播電臺是公共媒介的一種重要表現(xiàn)形式。通常情況下,人們收聽電臺廣播都是通過傳統(tǒng)方式(即利用無線電波向一定區(qū)域的聽眾傳送聲音節(jié)目信號方式),利用收音機(jī)等設(shè)備接收信號[6]。20世紀(jì)90年末期,通過互聯(lián)網(wǎng)收聽廣播電臺節(jié)目的方式應(yīng)運(yùn)而生[7]。只要在能夠訪問互聯(lián)網(wǎng)的地方,用戶就能夠在計(jì)算機(jī)或者各種先進(jìn)移動(dòng)終端上收聽到全世界范圍內(nèi)的廣播電臺節(jié)目。

本文以“全亞洲頂尖華語音樂電臺”——上?!皠?dòng)感101”移動(dòng)客戶端為例,研究用戶訪問的日志數(shù)據(jù),構(gòu)建數(shù)據(jù)斷層理論分析系統(tǒng)來分析并處理日志中存在的數(shù)據(jù)斷層,獲取有關(guān)決策支持信息。

“動(dòng)感101”自1992年以來,一直是上海市收聽率第一的電臺。進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,“動(dòng)感101”也于2011年9月與時(shí)俱進(jìn)地推出了移動(dòng)客戶終端應(yīng)用程序(如圖1所示)。移動(dòng)終端用戶可以通過Android或IOS系統(tǒng)的移動(dòng)設(shè)備訪問該應(yīng)用程序,不僅可以隨時(shí)隨地地收聽廣播節(jié)目,更融合了錄音、歌曲查詢、一鍵互動(dòng)、在線評論等一系列實(shí)用功能。

圖1 “動(dòng)感101”應(yīng)用程序界面

數(shù)據(jù)斷層理論分析系統(tǒng)的數(shù)據(jù)來源于“動(dòng)感101”電臺移動(dòng)客戶端的日志訪問記錄,分別從IP為222.XXX.YYY.167、222.XXX.YYY.207、222.XXX.YYY.208三臺服務(wù)器下載用戶訪問的日志信息。選取從2012年5月28日0時(shí)到2012年6月3日24時(shí)的日志數(shù)據(jù)用于分析,日志文件大小為3.63 GB。日志文件中每條記錄分別為一個(gè)切片,每個(gè)切片代表用戶訪問了十秒鐘的時(shí)長。

日志文件分析主要是通過分析日志數(shù)據(jù),獲得用戶的行為模式和各種數(shù)據(jù)資源之間的關(guān)聯(lián)關(guān)系,以便了解用戶對哪些數(shù)據(jù)資源比較感興趣。然后根據(jù)數(shù)據(jù)挖掘的結(jié)果來預(yù)測未來發(fā)展趨勢及行為,做出前瞻性決策,改善服務(wù)器的性能,提高服務(wù)質(zhì)量[8]。

通過數(shù)據(jù)斷層理論分析系統(tǒng)對電臺日志文件進(jìn)行分析,不僅可以掌握用戶收聽“動(dòng)感101”的情況,而且可以針對現(xiàn)有情況做出調(diào)整,從而提高電臺客戶端的實(shí)用價(jià)值和廣播節(jié)目的收聽率。分析日志數(shù)據(jù)必然涉及統(tǒng)計(jì)數(shù)據(jù)環(huán)節(jié),本文案例中需要統(tǒng)計(jì)的信息主要有三個(gè)方面:一周內(nèi)每天收聽節(jié)目的總時(shí)長和聽眾人數(shù);一周內(nèi)每天收聽觀眾的地區(qū)分布情況;一周內(nèi)每個(gè)時(shí)段的收聽總時(shí)長和聽眾人數(shù)。

3 數(shù)據(jù)斷層理論分析系統(tǒng)構(gòu)建

針對“動(dòng)感101”電臺日志文件數(shù)據(jù)的特點(diǎn)和用戶的實(shí)際需求,數(shù)據(jù)斷層理論分析系統(tǒng)設(shè)計(jì)了如圖2所示的總體結(jié)構(gòu)圖。主要分為四個(gè)模塊,即日志集中模塊、日志存儲模塊、日志處理模塊和日志分析模塊。系統(tǒng)主要在日志處理模塊和日志分析模塊中對顯斷層和隱斷層的數(shù)據(jù)進(jìn)行重點(diǎn)分析。

圖2 數(shù)據(jù)斷層理論分析系統(tǒng)的具體架構(gòu)

在日志集中模塊、日志存儲模塊和日志處理模塊主要使用C#和SQL Server數(shù)據(jù)庫方式實(shí)現(xiàn)數(shù)據(jù)存儲、處理算法和數(shù)據(jù)統(tǒng)計(jì)等功能。在日志分析模塊結(jié)合Excel、Matlab等工具進(jìn)行分析。通過使用多種工具,較好地完成了利用移動(dòng)客戶端收聽“動(dòng)感101”電臺節(jié)目日志文件數(shù)據(jù)對象的數(shù)據(jù)斷層分析和處理工作。

用戶利用移動(dòng)客戶端收聽“動(dòng)感101”電臺節(jié)目時(shí),用戶的移動(dòng)設(shè)備會自動(dòng)連接到一個(gè)虛擬的IP地址。虛擬IP地址接受到用戶的請求后,根據(jù)各服務(wù)器的負(fù)載量,“動(dòng)感101”電臺負(fù)載均衡LVS(Linux Virtual Server)選擇調(diào)度算法,將用戶的請求路由連接到最適合的服務(wù)器上。

移動(dòng)客戶端收聽“動(dòng)感101”電臺節(jié)目的原始日志數(shù)據(jù)數(shù)量巨大,涉及十個(gè)以上的數(shù)據(jù)屬性,但是并不是所有的數(shù)據(jù)屬性都屬于日志數(shù)據(jù)分析的范疇。為了減小存儲空間,在日志數(shù)據(jù)文件導(dǎo)入SQL Server數(shù)據(jù)庫的過程中,數(shù)據(jù)斷層理論分析系統(tǒng)只選擇了部分?jǐn)?shù)據(jù)屬性(如表1所示選擇了五個(gè)數(shù)據(jù)屬性),按照固定格式制作規(guī)范化文檔。然后在導(dǎo)入程序中引用格式文檔,導(dǎo)入后的數(shù)據(jù)狀態(tài)可以由半結(jié)構(gòu)化狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化狀態(tài),實(shí)現(xiàn)了數(shù)據(jù)屬性的約簡。這樣不僅有利于對日志數(shù)據(jù)的管理,而且為后續(xù)的數(shù)據(jù)處理和分析提供了極大的便利條件。

表1 SQL Server數(shù)據(jù)庫中數(shù)據(jù)屬性所表示的含義

數(shù)據(jù)斷層理論分析系統(tǒng)的SQL Server數(shù)據(jù)庫中,按照服務(wù)器的不同可以分為三個(gè)數(shù)據(jù)對象集合。三臺服務(wù)器的數(shù)據(jù)對象按照格式化文檔導(dǎo)入,有相同的格式,所以三個(gè)數(shù)據(jù)對象集合在屬性上是相同的,且都屬于同一主題的數(shù)據(jù)庫,消除了宏觀數(shù)據(jù)斷層中結(jié)構(gòu)不一致的問題。但在數(shù)據(jù)數(shù)量和數(shù)據(jù)內(nèi)容上仍然存在差異,屬于微觀數(shù)據(jù)斷層范疇。

4 數(shù)據(jù)顯斷層的分析與處理

日志處理模塊主要采用數(shù)據(jù)斷層理論的四種處理方法,即孔隙檢測、數(shù)據(jù)壓實(shí)、隱斷層檢測和數(shù)據(jù)壓溶。對顯斷層數(shù)據(jù)和隱斷層數(shù)據(jù)的檢測和處理并無嚴(yán)格意義上的先后順序,但是為了保證顯斷層數(shù)據(jù)的處理不會影響隱斷層數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。因此,數(shù)據(jù)斷層理論分析系統(tǒng)采用“先處理顯斷層數(shù)據(jù),后分析隱斷層數(shù)據(jù)”的模式。

顯斷層數(shù)據(jù)分析分為孔隙檢測和數(shù)據(jù)壓實(shí)兩個(gè)步驟。

4.1孔隙檢測的處理與分析

數(shù)據(jù)斷層理論分析系統(tǒng)按照以下步驟對孔隙進(jìn)行檢測。

1) 以其中一臺服務(wù)器的數(shù)據(jù)對象集合為樣本例,按照日期將整個(gè)數(shù)據(jù)對象集合分為7個(gè)分區(qū),分別命名為{p1,p2,…,p7},其中p1代表2012年5月28日的日志數(shù)據(jù),依次類推。

2) 對分區(qū)內(nèi)的所有數(shù)據(jù)對象進(jìn)行層次聚類。

(1) 將分區(qū)內(nèi)的每個(gè)數(shù)據(jù)對象看作一個(gè)類,若兩個(gè)數(shù)據(jù)對象的值相等,則直接歸并為一類,否則計(jì)算各類之間的相關(guān)能。由于數(shù)據(jù)對象屬于非數(shù)值型數(shù)據(jù),所以按照文本的長度作為計(jì)算能量的標(biāo)準(zhǔn)。

(2) 將相關(guān)能最大且滿足閾值條件的兩類歸并為一類,不滿足閾值條件的歸為另一類。

(3) 重新計(jì)算新類和其他類之間的相關(guān)能。

(4) 重復(fù)執(zhí)行步驟(2)和步驟(3),直到分區(qū)內(nèi)所有數(shù)據(jù)對象都經(jīng)過閾值條件驗(yàn)證為止。

3) 若經(jīng)過步驟2)的層次聚類后的分區(qū)只有一個(gè)類,則該分區(qū)不包含異常數(shù)據(jù),將該分區(qū)剪除。

4) 在剩余的分區(qū)內(nèi)重復(fù)步驟2)和步驟3),直到7個(gè)分區(qū)都被檢測,保留存在異常數(shù)據(jù)的分區(qū)作進(jìn)一步分析和處理。

一般情況下,若分區(qū)越多,則執(zhí)行這樣步驟的孔隙檢測方法的效率將越高。數(shù)據(jù)斷層理論分析系統(tǒng)對移動(dòng)客戶端收聽“動(dòng)感101”電臺節(jié)目的原始日志數(shù)據(jù)按日期分區(qū),每天的數(shù)據(jù)數(shù)量巨大,且每個(gè)分區(qū)都存在孔隙,所以沒有剪除分區(qū)操作。

通過孔隙檢測,數(shù)據(jù)斷層理論分析系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)的孔隙主要有三種。

一是缺失數(shù)據(jù)。在數(shù)據(jù)屬性ts中,存在部分記錄顯示為空,此類記錄為訪問內(nèi)部IP地址222.XXX.YYY.168,并沒有下載或上傳任何信息。

二是噪聲數(shù)據(jù)。在數(shù)據(jù)屬性mobile中,存在部分記錄顯示為LiveRadioEncoder,該記錄為內(nèi)部編碼器向服務(wù)器發(fā)送音頻切片文件的訪問記錄;另外還有部分記錄顯示為ChinaCache,這些記錄對數(shù)據(jù)對象集合而言是一種噪聲數(shù)據(jù)。

三是重復(fù)數(shù)據(jù)。數(shù)據(jù)庫中每個(gè)數(shù)據(jù)屬性都相同的記錄屬于重復(fù)數(shù)據(jù),多見于訪問頁面的記錄,而下載ts流量的重復(fù)數(shù)據(jù)相對較少。

由以上分析可知,影響數(shù)據(jù)質(zhì)量的訪問記錄大多數(shù)產(chǎn)生于內(nèi)部IP地址對應(yīng)用程序的訪問,所以在數(shù)據(jù)統(tǒng)計(jì)和分析之前需要對這些孔隙進(jìn)行相應(yīng)的處理。

存儲的日志數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),相對于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)而言,存在的顯斷層數(shù)據(jù)比較少。在數(shù)據(jù)斷層理論分析系統(tǒng)中,通過孔隙檢測檢測出來的孔隙,三臺服務(wù)器一周的總孔隙數(shù)量達(dá)到1 902 949條記錄,相對于總切片數(shù)量20 867 199條記錄來說,孔隙度大約在9%左右。

通過統(tǒng)計(jì)每一天的孔隙度,可以在一定程度上了解電臺日志數(shù)據(jù)的訪問情況。在數(shù)據(jù)斷層理論分析系統(tǒng)中,工作日(2012年5月28日至2012年6月1日)的日志數(shù)據(jù)孔隙度結(jié)果如圖3所示,維持在比較穩(wěn)定的水平,在8%~10%之間波動(dòng),而周末兩天(2012年6月2日至2012年6月3日)的孔隙度明顯提高。這說明在內(nèi)部系統(tǒng)對應(yīng)用程序訪問量不變的情況下,用戶對應(yīng)用程序的訪問量減少,從而導(dǎo)致孔隙度增加。針對以上各種孔隙類型,結(jié)合數(shù)據(jù)斷層理論分析系統(tǒng)的實(shí)驗(yàn)需求,需要對孔隙進(jìn)行數(shù)據(jù)壓實(shí)操作。

圖3 電臺數(shù)據(jù)的孔隙度

4.2數(shù)據(jù)壓實(shí)的處理與分析

缺失數(shù)據(jù)和噪聲數(shù)據(jù)主要是由應(yīng)用程序內(nèi)部訪問服務(wù)器所產(chǎn)生的。不同IP地址代表不同的用戶,但相同IP地址未必是同一用戶,所以重復(fù)數(shù)據(jù)可能是因?yàn)槎鄠€(gè)設(shè)備收聽節(jié)目時(shí)使用的是同一個(gè)公網(wǎng)IP地址,基于端口轉(zhuǎn)換的NAT、代理、防火墻等都有可能導(dǎo)致多個(gè)用戶使用同一個(gè)公網(wǎng)IP地址進(jìn)行訪問。根據(jù)以上分析,數(shù)據(jù)斷層理論分析系統(tǒng)的數(shù)據(jù)壓實(shí)步驟中主要采用刪除的方法,便可以較好地處理數(shù)據(jù)顯斷層。

數(shù)據(jù)斷層理論分析系統(tǒng)中顯斷層分析系統(tǒng)界面如圖4所示,選擇需要處理的時(shí)間段和服務(wù)器,然后按照孔隙檢測方法執(zhí)行檢測,最后對孔隙進(jìn)行數(shù)據(jù)壓實(shí)操作。

圖4 顯斷層分析界面

5 數(shù)據(jù)隱斷層的分析與處理

完成顯斷層數(shù)據(jù)的處理,日志處理模塊將對隱斷層數(shù)據(jù)進(jìn)行分析和處理。隱斷層數(shù)據(jù)分析分為隱斷層檢測和數(shù)據(jù)壓溶兩個(gè)步驟。

5.1隱斷層檢測的處理與分析

數(shù)據(jù)對象集合中存在的隱斷層數(shù)據(jù)隨著用戶需求的不同而會有不同的結(jié)果。根據(jù)“動(dòng)感101”電臺的需求,數(shù)據(jù)斷層理論分析系統(tǒng)中需要檢測的隱斷層類型主要有四種:

第一種為確定用戶收聽情況時(shí),不是從服務(wù)器下載ts流量的記錄不屬于分析范圍;

第二種為北京時(shí)間2:00-6:00屬于“動(dòng)感101”電臺停播時(shí)間段,此段時(shí)間數(shù)據(jù)記錄屬于隱斷層數(shù)據(jù);

第三種為檢測服務(wù)器發(fā)生故障、主持人變更等突發(fā)狀況發(fā)生時(shí)產(chǎn)生的隱斷層數(shù)據(jù);

第四種為檢測用戶的地區(qū)分布差異引起的隱斷層數(shù)據(jù)。

針對以上四種隱斷層類型檢測內(nèi)容,需要制定不同的檢測方法。簡單的隱斷層數(shù)據(jù)不需要算法便可以檢測出來;有的隱斷層數(shù)據(jù)則需要通過計(jì)算其信息熵,再與用戶閾值條件進(jìn)行比較才能確定隱斷層的實(shí)際狀態(tài)。例如:通過觀察法可知,第一種隱斷層數(shù)據(jù)還包括網(wǎng)頁訪問和圖片下載的記錄;第二種隱斷層數(shù)據(jù)就是停播時(shí)間段內(nèi)的數(shù)據(jù);第三種和第四種隱斷層數(shù)據(jù)的發(fā)現(xiàn)相對復(fù)雜,需要一系列步驟進(jìn)行檢測。

1) 用戶地區(qū)分布差異的獲取

數(shù)據(jù)斷層理論分析系統(tǒng)以第四種隱斷層數(shù)據(jù)為例,設(shè)計(jì)移動(dòng)客戶端收聽“動(dòng)感101”電臺節(jié)目地區(qū)分析系統(tǒng),展示隱斷層數(shù)據(jù)檢測的方法。將一周內(nèi)訪問“動(dòng)感101”電臺應(yīng)用程序的IP地址做無重復(fù)的數(shù)據(jù)統(tǒng)計(jì),可以獲得一周的用戶人數(shù),將這些數(shù)據(jù)對象看作一個(gè)數(shù)據(jù)空間,對數(shù)據(jù)空間里的所有數(shù)據(jù)對象通過統(tǒng)計(jì)、計(jì)算信息熵和斷層概率的方法進(jìn)行隱斷層檢測。

由于“動(dòng)感101”在不同地區(qū)的知名度并不一樣,所以用戶的地區(qū)分布必然存在著差異性。地域相差較遠(yuǎn)的不同省市之間存在數(shù)據(jù)斷層是一種客觀現(xiàn)象,而數(shù)據(jù)斷層理論分析系統(tǒng)通過處理方法檢測數(shù)據(jù)斷層是針對同一區(qū)域內(nèi)的。所以需要先對數(shù)據(jù)對象進(jìn)行分區(qū),然后逐步細(xì)化分析,最后確定隱斷層數(shù)據(jù)產(chǎn)生的原因。

(1) 匯總需要檢測的數(shù)據(jù)對象

本文實(shí)驗(yàn)以中國地區(qū)的數(shù)據(jù)對象為主要研究對象,所以需要對國外訪問的數(shù)據(jù)對象進(jìn)行溶蝕操作,即提取每天不重復(fù)的IP地址,查詢其歸屬地區(qū),然后將國外的訪問記錄分離出去。

(2) 統(tǒng)計(jì)IP地址數(shù)量

圖5是數(shù)據(jù)斷層理論分析系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)所在的一周內(nèi)每天訪問服務(wù)器的IP地址數(shù)量。在這一周內(nèi)數(shù)據(jù)波動(dòng)并不顯著,初步可以看出前四天的IP地址數(shù)量比較平衡地微微增加,周四達(dá)到最高值,而周末兩天訪問IP地址的數(shù)量明顯下降。這種變化與人們的生活作息習(xí)慣、周末電臺節(jié)目的變化等多種因素密切相關(guān)。

圖5 一周內(nèi)每天訪問IP數(shù)量圖

由于中國地區(qū)數(shù)量較多,每個(gè)地區(qū)依次分析需要投入較大的工作量。因此數(shù)據(jù)斷層理論分析系統(tǒng)根據(jù)“數(shù)據(jù)空間進(jìn)行初步分區(qū)”的思想,采取先對IP地址按地區(qū)分為多個(gè)集合,然后進(jìn)行統(tǒng)計(jì)和分析。由于“動(dòng)感101”是屬于上海的電臺,其在傳統(tǒng)收聽模式下的知名度和支持度就較高,上海的用戶眾多是必然的。另外,江蘇和浙江與上海毗鄰,“動(dòng)感101”節(jié)目在江蘇和浙江的用戶數(shù)也不在少數(shù)。所以東部沿海地區(qū)的用戶數(shù)量遠(yuǎn)遠(yuǎn)高于其他地區(qū)也屬正常情況,并進(jìn)而導(dǎo)致東部沿海地區(qū)與其他地區(qū)之間在用戶數(shù)量上產(chǎn)生了明顯的斷層。

2) 用戶地區(qū)斷層分布的獲取

盡管通過分析可以判斷出東部沿海地區(qū)數(shù)據(jù)存在著斷層,但并不是所有的案例都有如此明顯的數(shù)據(jù)特征。所以必須通過科學(xué)方法來計(jì)算與驗(yàn)證,增強(qiáng)說服力,進(jìn)一步反映數(shù)據(jù)斷層的狀態(tài)。數(shù)據(jù)斷層理論分析系統(tǒng)采取的方法是:先根據(jù)定義計(jì)算各個(gè)地區(qū)集合的信息熵,找出斷層最為顯著的地區(qū);然后計(jì)算該地區(qū)內(nèi)各個(gè)數(shù)據(jù)對象的斷層概率,確定數(shù)據(jù)斷層數(shù)據(jù)所對應(yīng)的省份;最后分析該省存在數(shù)據(jù)斷層的原因。

(1) 計(jì)算各地區(qū)集合的信息熵

圖6 地區(qū)分析程序界面

(2) 計(jì)算集合對象的斷層概率

通過計(jì)算各地區(qū)集合的信息熵從而確定了數(shù)據(jù)斷層存在的區(qū)域之后,需要進(jìn)一步追蹤該區(qū)域的重點(diǎn)數(shù)據(jù)對象,獲得相應(yīng)的斷層概率分布。在確定東部沿海地區(qū)是存在數(shù)據(jù)斷層的地區(qū)之后,追蹤東部沿海地區(qū)所包含的城市,查看IP地址數(shù)量,獲得各個(gè)省市的斷層概率。例如:上海市的用戶人數(shù)為24 895人,斷層概率為0.5302;浙江省的用戶人數(shù)為1286人,斷層概率為0.2887;江蘇省的用戶人數(shù)為2648人,斷層概率為0.2415等。

5.2數(shù)據(jù)壓溶的處理與分析

根據(jù)實(shí)際情況,不同的隱斷層有著不同的處理方式。有的隱斷層正好是被分析的數(shù)據(jù)對象,有的隱斷層則需要進(jìn)行數(shù)據(jù)壓溶處理。對于以用戶分布情況為例的隱斷層檢測結(jié)果,由于電臺方面的需求只為了解分布情況和哪些地區(qū)存在斷層情況,所以并不需要進(jìn)行數(shù)據(jù)壓溶。

通常情況下,圍繞系統(tǒng)用戶的需求,類似案例中可能需要進(jìn)行數(shù)據(jù)壓溶的處理內(nèi)容主要有三方面。

一是那些不是ts流的數(shù)據(jù)對象。因?yàn)閲@統(tǒng)計(jì)用戶收聽時(shí)間的需求,訪問頁面的aspx相關(guān)內(nèi)容并不在分析范圍之內(nèi),只需要統(tǒng)計(jì)用戶從服務(wù)器下載的ts流數(shù)據(jù)即可。

二是處理那些收聽不超過10秒的切片。因?yàn)槿裟硹l記錄在連續(xù)時(shí)間里只出現(xiàn)一次,訪問應(yīng)用的時(shí)間不超過10秒,很可能是用戶操作失誤或無意訪問應(yīng)用造成的。這些數(shù)據(jù)信息會對統(tǒng)計(jì)結(jié)果產(chǎn)生一定的誤差,不利于有用信息的獲取。

三是處理那些每天停播時(shí)間段的數(shù)據(jù)對象。因?yàn)楸本r(shí)間凌晨兩點(diǎn)到六點(diǎn)是沒有節(jié)目的,而這段時(shí)間內(nèi)若存在大量數(shù)據(jù)對象,則需要將這些數(shù)據(jù)對象單獨(dú)提取出來進(jìn)行分析。

6 統(tǒng)計(jì)數(shù)據(jù)結(jié)果的斷層分析與處理

經(jīng)過斷層處理的數(shù)據(jù)對象相比原始數(shù)據(jù)對象而言,其數(shù)量將明顯減少,而且會更加符合用戶需求,對這些數(shù)據(jù)對象進(jìn)行分析得出的結(jié)果將有助于得到更加準(zhǔn)確的信息。對于不同的需求,有著不同的統(tǒng)計(jì)結(jié)果數(shù)據(jù)斷層分析思路。針對數(shù)據(jù)斷層理論分析系統(tǒng)而言,斷層分析的主要需求包括三個(gè)方面。

6.1每天的ts切片數(shù)量和IP數(shù)量

通過數(shù)據(jù)斷層理論分析系統(tǒng)統(tǒng)計(jì)每天的ts切片數(shù)量和IP數(shù)量,可以計(jì)算出收聽的總時(shí)長和平均收聽時(shí)長。

為了對比斷層處理后的數(shù)據(jù)對象與原始數(shù)據(jù)對象之間的差別,通過統(tǒng)計(jì)原始數(shù)據(jù)對象和斷層處理后數(shù)據(jù)對象的相關(guān)內(nèi)容,得到的結(jié)果如表2和表3所示。

表2 原始數(shù)據(jù)對象的統(tǒng)計(jì)表

表3 斷層處理后數(shù)據(jù)對象的統(tǒng)計(jì)表

其中,總切片數(shù)是指導(dǎo)入的所有記錄數(shù)量,包括ts切片、aspx切片以及其他記錄數(shù)據(jù);總IP數(shù)是指對所有訪問的IP地址進(jìn)行的數(shù)量統(tǒng)計(jì);下載(ts)切片數(shù)是指只有下載ts流的記錄數(shù)量統(tǒng)計(jì);收聽IP數(shù)是指下載ts切片的IP地址數(shù)量統(tǒng)計(jì);收聽時(shí)長是指ts切片數(shù)的10倍除以3600得到的小時(shí)數(shù)。通過分析表2和表3,斷層處理后壓實(shí)了孔隙,有助于清楚地了解實(shí)際收聽情況。

6.2每小時(shí)的切片數(shù)和收聽時(shí)間

若需要了解每檔節(jié)目的收聽情況,就不可避免地需要統(tǒng)計(jì)每小時(shí)的數(shù)據(jù)對象。通過對這些數(shù)據(jù)對象一周內(nèi)的波動(dòng)情況,了解某個(gè)節(jié)目的收聽趨勢,從而做出相應(yīng)地調(diào)整。

通過數(shù)據(jù)斷層理論分析系統(tǒng),可以得到所選的服務(wù)器在00:00-24:00之間每個(gè)小時(shí)的統(tǒng)計(jì)數(shù)據(jù)。一周內(nèi)不同時(shí)間段的數(shù)據(jù)是三臺服務(wù)器統(tǒng)計(jì)數(shù)據(jù)的總和。因此,分別統(tǒng)計(jì)三臺服務(wù)器的數(shù)據(jù),然后進(jìn)行匯總,得到如表4所示的統(tǒng)計(jì)結(jié)果。

表4中,北京時(shí)間22:00-24:00時(shí)間段的平均收聽時(shí)長占比較低,而在該時(shí)間段內(nèi)的收聽時(shí)長和用戶(聽眾)數(shù)量卻處于較高水平。這說明總時(shí)長增長的比率遠(yuǎn)遠(yuǎn)趕不上用戶(聽眾)增長的比率,較多的用戶(聽眾)在該時(shí)間段內(nèi)通過移動(dòng)設(shè)備收聽節(jié)目,但收聽時(shí)間較短。平均收聽時(shí)長占比最高的19:00-20:00區(qū)間上,收聽時(shí)長不高,但是用戶(聽眾)人數(shù)明顯下降,所以收聽時(shí)長占比反而提高。

綜合分析表4,在北京時(shí)間15:00和23:00左右,用戶通過移動(dòng)客戶端收聽電臺的收聽時(shí)長和用戶(聽眾)數(shù)量達(dá)到較高峰。這兩個(gè)時(shí)間點(diǎn)分別對應(yīng)于接近下班的時(shí)間和臨睡覺的時(shí)間,人們通過手機(jī)等智能移動(dòng)客戶端設(shè)備收聽電臺,也符合當(dāng)前人們的生活作息時(shí)間。盡管北京時(shí)間2:00-6:00是節(jié)目停播時(shí)間,但是仍然存在有用戶收聽的情況,原因在于用戶在移動(dòng)設(shè)備上沒有關(guān)閉動(dòng)感101的客戶端。即便此時(shí)沒有節(jié)目信息,應(yīng)用程序仍然在后臺運(yùn)行,從服務(wù)器下載的切片處于忙碌狀態(tài)。

表4 一周不同時(shí)間段的統(tǒng)計(jì)表

續(xù)表4

6.3其他情況

除了以上情況之外,還存在著其他各種數(shù)據(jù)斷層的情況,例如三臺服務(wù)器出現(xiàn)故障的情況,可能的原因是編碼器到流媒體服務(wù)器的網(wǎng)絡(luò)中斷或者流媒體服務(wù)器服務(wù)中斷。具體在日志文件中會有所體現(xiàn),即一段時(shí)間內(nèi)沒有新的ts流文件被下載。但是服務(wù)器出現(xiàn)故障的情況一年不會超過5次,屬于特殊情況,本論文不作詳細(xì)分析。

7 結(jié) 語

本文以上?!皠?dòng)感101”電臺移動(dòng)客戶端的日志訪問記錄數(shù)據(jù)為分析對象,構(gòu)建了數(shù)據(jù)斷層理論分析系統(tǒng)。分四個(gè)模塊對數(shù)據(jù)對象進(jìn)行處理和分析,檢測數(shù)據(jù)對象中存在的顯、隱斷層。然后進(jìn)行數(shù)據(jù)壓實(shí)和數(shù)據(jù)壓溶操作,得到高質(zhì)量的數(shù)據(jù)對象。最后針對不同的需求,對數(shù)據(jù)對象進(jìn)行分析得到有用的決策輔助信息。

數(shù)據(jù)斷層理論分析系統(tǒng)的具體實(shí)踐表明,在廣播電臺數(shù)據(jù)這樣實(shí)時(shí)性較強(qiáng)的數(shù)據(jù)處理應(yīng)用中,數(shù)據(jù)斷層理論具有較好的科學(xué)性和有效性。

[1] Yi Sun,Yang Guo,Xiaobing Zhang,et al.The Case for P2P Mobile Video System over Wireless Networks:A Practical Study of Challenges for A Mobile Video Provider[J].IEEE Network,2013,27(2):22-27.

[2] Francesco Bonchi,Fosca Giannotti,Cristian Gozzi,et al.Web Log Data Warehousing and Mining for Intelligent Web Caching[J].Data and Knowledge Engineering,2001,39(2):165-189.

[4] 夏驕雄.?dāng)?shù)據(jù)資源的聚類預(yù)處理[M].上海:上??茖W(xué)普及出版社,2011.

[5] 夏驕雄,汪晶玲,嚴(yán)琛瓊,等.?dāng)?shù)據(jù)斷層現(xiàn)象的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(8):9-13,77.

[6] Philippe Perebinossoff,Brian Gross,Lynne Schafer Gross.Programming for TV,Radio,and the Internet:Strategy,development,and evaluation[M].Burlington,MA:Focal Press,2005.

[7] Gene Youngblood.Secession from the Broadcast:The Internet and the Crisis of Social Control[J].Millennium Film Journal,2013(58):174-189.

[8] Naga Lakshmi,Raja Sekhara Rao,Sai Satyanarayana Reddy.An Overview of Preprocessing on Web Log Data for Web Usage Analysis[J].International Journal of Innovative Technology and Exploring Engineering,2013,2(4):274-279.

APPLICATION OF DATA FAULTAGE ANALYSIS IN RADIO DATA PROCESSING

Xu Jun1,2Xia Jiaoxiong2,3Zhou Shiqiang2

1(Technical Center,Radio and Television Shanghai,Shanghai 200051,China)2(SchoolofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China)3(InformationCentre,ShanghaiMunicipalEducationCommission,Shanghai200003,China)

With the increasing heating up of big data,analysis and process on data faultage phenomena has become the important ways and means in data mining field.Data faultage theory,as the analysis theory describing the tendency of partial displacement between data objects,has the extremely instructive significance on data preprocessing.Based on the preliminary description on the rationale of data faultage theory,we took the log data of mobile client application on “Shanghai Music Radio FM 101.7” as an example and built an analysis system of data faultage theory to deal with the data faultage phenomena in radio log data so as to improve the quality of data objects preprocessing,and gained the effective auxiliary information of radio decision-making.Therefore,the scientific property and effectiveness of data faultage theory are fully explained,this lays the sound foundation for further studies.

Data faultageData miningData preprocessingLog data analysisMobile client application

2015-04-06。國家自然科學(xué)基金項(xiàng)目(40976108,61303097);上海市重點(diǎn)學(xué)科建設(shè)項(xiàng)目(J50103);上海大學(xué)研究生創(chuàng)新基金項(xiàng)目(SHUCX070037,SHUCX120105)。徐俊,工程師,主研領(lǐng)域:數(shù)據(jù)挖掘,智能決策支持系統(tǒng)。夏驕雄,研究員。周時(shí)強(qiáng),助理工程師。

TP311.131G202

A

10.3969/j.issn.1000-386x.2016.09.009

猜你喜歡
用戶分析檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應(yīng)用
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 欧美精品1区2区| 2020亚洲精品无码| 不卡网亚洲无码| 美女国内精品自产拍在线播放| 99在线视频免费观看| 亚洲国产精品一区二区第一页免| 毛片网站免费在线观看| 丁香五月婷婷激情基地| 亚洲精品无码AV电影在线播放| 国产av色站网站| 波多野结衣一区二区三区四区视频| 国产在线八区| 不卡无码网| 国产成人一区二区| 日韩精品无码免费一区二区三区| 18黑白丝水手服自慰喷水网站| 免费一级全黄少妇性色生活片| 亚洲va精品中文字幕| 香蕉eeww99国产在线观看| 国产精品自在在线午夜区app| 国产欧美成人不卡视频| 美女扒开下面流白浆在线试听 | 亚洲中文字幕在线一区播放| 伊人狠狠丁香婷婷综合色| 美女无遮挡免费网站| 毛片在线播放a| 欧美特级AAAAAA视频免费观看| 亚洲永久精品ww47国产| 在线国产91| 欧美精品伊人久久| 成人久久精品一区二区三区| 亚洲午夜片| 播五月综合| 国产大片黄在线观看| 午夜国产理论| 午夜日韩久久影院| 日韩在线播放中文字幕| 欧美亚洲欧美| 国产精品亚洲一区二区三区z| 综合成人国产| 四虎亚洲精品| 久久青草免费91观看| 91精品aⅴ无码中文字字幕蜜桃| 九九九九热精品视频| 亚洲人在线| 亚洲欧洲一区二区三区| 日本道综合一本久久久88| 国产成人精品一区二区三区| 欧美α片免费观看| 久久网综合| 亚洲男女天堂| www.youjizz.com久久| 人妻无码AⅤ中文字| 國產尤物AV尤物在線觀看| P尤物久久99国产综合精品| 亚洲不卡网| 国产成人喷潮在线观看| 免费看美女自慰的网站| 呦女亚洲一区精品| 欧美激情视频一区二区三区免费| 国产欧美专区在线观看| AV网站中文| 久久精品aⅴ无码中文字幕| 国产日韩欧美中文| 亚洲第一极品精品无码| 97综合久久| 日韩免费毛片视频| 国产小视频a在线观看| 久久伊人操| 久久男人视频| 国产高清在线观看91精品| 成年午夜精品久久精品| 成人综合网址| 国产精品免费p区| 18禁黄无遮挡网站| 亚洲欧美天堂网| 亚洲一区精品视频在线| 亚洲男人天堂久久| 国产一区二区免费播放| 久久久四虎成人永久免费网站| 99久久国产自偷自偷免费一区| 亚洲V日韩V无码一区二区|