吳紅
(首都經(jīng)濟貿(mào)易大學,北京 100070)
基于移動互聯(lián)網(wǎng)的數(shù)據(jù)挖掘概述
吳紅
(首都經(jīng)濟貿(mào)易大學,北京 100070)
隨著移動互聯(lián)網(wǎng)的不斷發(fā)展,海量移動互聯(lián)網(wǎng)數(shù)據(jù)不斷涌現(xiàn),由于數(shù)據(jù)本身的價值,針對移動互聯(lián)網(wǎng)數(shù)據(jù)的挖掘更為重要。分析了移動互聯(lián)網(wǎng)信息價值,介紹了數(shù)據(jù)挖掘以及LBS在數(shù)據(jù)挖掘中的應(yīng)用,最后從數(shù)據(jù)量、安全性和數(shù)據(jù)質(zhì)量三方面對移動互聯(lián)網(wǎng)數(shù)據(jù)存在的問題進行了闡述。
移動互聯(lián)網(wǎng) 數(shù)據(jù)挖掘 信息價值 LBS
隨著各種移動設(shè)備、物聯(lián)網(wǎng)和云存儲等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄。與互聯(lián)網(wǎng)不同的是,在移動互聯(lián)網(wǎng)中的核心網(wǎng)絡(luò)節(jié)點是人,不再是網(wǎng)頁。隨著數(shù)據(jù)大爆炸時代的到來,怎樣挖掘這些數(shù)據(jù),同樣面臨著技術(shù)與商業(yè)的雙重挑戰(zhàn)。對于數(shù)據(jù)挖掘來說,移動互聯(lián)網(wǎng)的特殊性首先在于它能夠鎖定一個特定用戶,其次在于它能夠獲取用戶地理位置信息,再次是在于移動互聯(lián)網(wǎng)上的時空信息等多樣化的數(shù)據(jù)種類。而因為這三點,導(dǎo)致移動互聯(lián)網(wǎng)上的數(shù)據(jù)數(shù)量會比傳統(tǒng)互聯(lián)網(wǎng)更大,形式也比傳統(tǒng)互聯(lián)網(wǎng)更加豐富,從而也有更高的價值。
2.1 移動互聯(lián)網(wǎng)數(shù)據(jù)形式
移動互聯(lián)網(wǎng)數(shù)據(jù)形式多種多樣,在互聯(lián)網(wǎng)上存在的各種數(shù)據(jù)類型只是移動互聯(lián)網(wǎng)上的一個子集。同樣的互聯(lián)網(wǎng)信息,在移動端訪問的方式也使內(nèi)容變得更加豐滿。同樣是都是圖片,但是在移動設(shè)備中存在的與位置相關(guān)的圖片要比單存在于互聯(lián)網(wǎng)上的圖片價值高很多,或者說同樣都是一句評論,但是有場景的評論和場景的評論相比前者更有挖掘的價值。
與傳統(tǒng)互聯(lián)網(wǎng)的數(shù)據(jù)不同的是,在移動互聯(lián)網(wǎng)的數(shù)據(jù)中,文字以外的其他信息占到更加重要的比例。從數(shù)據(jù)的屬性上來講,移動互聯(lián)網(wǎng)上的數(shù)據(jù)比傳統(tǒng)互聯(lián)網(wǎng)更加復(fù)雜,其中一個原因是這些數(shù)據(jù)包含了大量的時間和空間的信息,也就是需要把數(shù)據(jù)挖掘延伸到時空數(shù)據(jù)挖掘的領(lǐng)域(Spatio-temporal Data Mining)。因為多了一個維度,時空數(shù)據(jù)挖掘的復(fù)雜度比一般的數(shù)據(jù)挖掘又深了一層,雖然說研究方法和算法還是類似的。
2.2 移動用戶價值
從本質(zhì)上,在移動互聯(lián)網(wǎng)上的挖掘的目的和傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)挖掘的目的是一樣的:都是為了從原始數(shù)據(jù)上找出有用的信息,進而轉(zhuǎn)化成可用的知識。但移動互聯(lián)網(wǎng)有其特殊性,即移動互聯(lián)網(wǎng)的某一個終端通常是由同一個個體使用的,所以用戶在移動終端上的所有行為是具有一定延續(xù)性的,通過收集用戶信息,可以建立用戶檔案(Profile)。
在移動互聯(lián)網(wǎng)上,即使沒有Cookie,依然可以鎖定用戶,即使因為隱私和用戶規(guī)則等原因,我們不主動獲取用戶的個人信息資料,但至少可以知道用戶是否和之前的某個訪客是同一個個體。這樣能夠通過移動互聯(lián)網(wǎng)應(yīng)用獲取用戶當前的位置信息和參加活動的一些信息,并把這些信息記錄收集下來,從而積累成關(guān)于某個用戶的豐富檔案信息。這些信息積累將是一大筆財富,從一些位置信息中可以分析出用戶的大概活動范圍,經(jīng)常出差還是常住,甚至可以預(yù)測用戶此刻需要什么。
2.3 移動互聯(lián)網(wǎng)地理位置信息價值
通過分析移動互聯(lián)網(wǎng)的數(shù)據(jù),可以真正實現(xiàn)用戶的行為定向,通過用戶使用各種應(yīng)用的習慣與場景,還原用戶屬性,了解用戶興趣和喜好,預(yù)測用戶消費習慣和消費意圖,實現(xiàn)真正的精準定向。基于移動互聯(lián)網(wǎng)地理位置信息,可以推薦針對某一人群的服務(wù),比如可以再節(jié)假日之前提供北京往返機票和優(yōu)惠禮品券,在平時提供商務(wù)人員需要的個性化產(chǎn)品等。
LBS(Location-Based Service)是與位置相關(guān)的軟件服務(wù)的英文縮寫,指的是一類利用和控制與位置與時間相關(guān)的計算機軟件服務(wù)。LBS通常是在移動終端實現(xiàn)的,現(xiàn)在很多原本只是在互聯(lián)網(wǎng)上的應(yīng)用都有了LBS服務(wù)。基于位置的數(shù)據(jù)挖掘非常具有挑戰(zhàn)力,如幫助用戶尋找他所在地附近可能有用的商業(yè)地點,并按照一定的規(guī)則排序,實現(xiàn)并不那么容易。
任何與位置相關(guān)的數(shù)據(jù)挖掘的工作必不可少的第一步就是搜集關(guān)于地點的可靠數(shù)據(jù)。在這個過程中,常會面對多個不同的數(shù)據(jù)源,有些來自互聯(lián)網(wǎng),而有些來自于線下,所以第一步面臨的常常就是數(shù)據(jù)的整合與清理。與位置相關(guān)的數(shù)據(jù)量常是在GB字節(jié)上下,對于這個量級的數(shù)據(jù)頻繁的整理、提取、集成和存儲都有一定的難度,但目前有一些框架和應(yīng)用工具解決此問題,如Hadhoop和HBase等。各個地點之間的關(guān)聯(lián)性是需要通過數(shù)據(jù)挖掘才能完成的任務(wù)。每個地點都有多種屬性,而地點之間的關(guān)聯(lián)度是根據(jù)他們各自的屬性匹配所得到的。目前有一些相關(guān)挖掘領(lǐng)域及算法,如利用PU(Learning from Positive and Unlabeled examples)學習算法做文本挖掘,利用相似匹配算法做地點挖掘等。
LBS應(yīng)用最有價值的地方在于藉此能夠?qū)τ脩糇鼍珳实牡赜蚨ㄏ颍@樣的廣告價值相對要高很多。如一家餐館可以對它周圍1公里的用戶發(fā)送折扣券,一個搬家公司可以選擇對它周圍10公里的用戶發(fā)送廣告,等等。
移動互聯(lián)網(wǎng)有它的特殊性,而移動互聯(lián)網(wǎng)上的數(shù)據(jù)除了它的特殊價值之外,也有和傳統(tǒng)互聯(lián)網(wǎng)不完全相同的問題。下面從數(shù)據(jù)量、安全性和數(shù)據(jù)質(zhì)量三方面分別介紹了移動互聯(lián)網(wǎng)數(shù)據(jù)存在的問題。
4.1 數(shù)據(jù)量
移動互聯(lián)網(wǎng)可能產(chǎn)生的數(shù)據(jù)量是一個需要考慮的問題。據(jù)統(tǒng)計,在中國,2012年約有不到6億移動互聯(lián)網(wǎng)用戶,其中有約1.8億是手機應(yīng)用商店的使用者,而且這個數(shù)字正在飛速增長之中。每個用戶產(chǎn)生的所有數(shù)據(jù),包括即時的位置信息、路徑信息、訪問信息等都需要實時分析,那么處理數(shù)據(jù)過程的負擔就加大。
4.2 安全性
互聯(lián)網(wǎng)安全性一直是關(guān)注的熱點,那么移動互聯(lián)網(wǎng)上的安全因素也需要考慮和解決。在移動互聯(lián)網(wǎng)上有很多惡意的應(yīng)用程序,這些應(yīng)用程序侵入用戶的移動設(shè)備來竊取個人信息。另外,移動終端和個人身份信息密切相關(guān),在移動互聯(lián)網(wǎng)上更加要重視個人隱私問題。
4.3 數(shù)據(jù)質(zhì)量
移動互聯(lián)網(wǎng)的數(shù)據(jù)價值顯而易見,但數(shù)據(jù)質(zhì)量卻令人擔憂。移動互聯(lián)網(wǎng)行業(yè)結(jié)構(gòu)目前并不明朗,盈利模式也不清晰。大量的移動應(yīng)用通過刷量來沖擊移動互聯(lián)網(wǎng)應(yīng)用排行榜以追求投資人的青睞。大量移動互聯(lián)網(wǎng)公司付費給水軍來給自己的移動應(yīng)用發(fā)五星好評,給競爭對手的應(yīng)用打一星差評。這些數(shù)據(jù)所占據(jù)的比例過高,已經(jīng)嚴重干擾了數(shù)據(jù)的準確性,而這些行為實際上大大降低了移動互聯(lián)網(wǎng)數(shù)據(jù)的整體價值。所以提高數(shù)據(jù)質(zhì)量問題不容忽視。
移動互聯(lián)網(wǎng)不斷發(fā)展,從而產(chǎn)生大量數(shù)據(jù),海量數(shù)據(jù)中包含著重要信息,對各行業(yè)都有不可估量的價值。本文分析了移動互聯(lián)網(wǎng)信息價值,介紹了數(shù)據(jù)挖掘以及LBS在數(shù)據(jù)挖掘中的應(yīng)用,最后從數(shù)據(jù)量、安全性和數(shù)據(jù)質(zhì)量三方面對移動互聯(lián)網(wǎng)數(shù)據(jù)存在的問題進行了闡述。基于移動互聯(lián)網(wǎng)的數(shù)據(jù)挖掘意義重大,本文希望能為以后在移動互聯(lián)網(wǎng)方面針對數(shù)據(jù)挖掘的研究打下一定的基礎(chǔ)。
[1]Goh,Jen and Taniar,David.An Efficient Mobile Data Mining Model:Parallel and Distributed Processing and Applications. Springer Berlin,2005.
[2]趙占純,李濤,戚帥.移動互聯(lián)網(wǎng)信息挖掘的實現(xiàn)及應(yīng)用淺析[J].郵電設(shè)計技術(shù).2012(8).
[3]Nafiseh Shabib,John Krogstie.The use of data mining techniques in location-based recommender system.in Processing WIMS’11 Proceedings of the International Conference on Web Intelliengence,Mining and Semantics,2011.
[4]梁曉音.2012年中國移動互聯(lián)網(wǎng)應(yīng)用趨勢預(yù)測[J].硅谷,2012(16).
[5]蔡梓鏵.2012年移動互聯(lián)網(wǎng)初探[J].軟件工程師,2012(Z1).