999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互聯網信息的游客網絡局部社區挖掘

2019-11-17 04:05:19王碩
電腦知識與技術 2019年26期
關鍵詞:旅游

王碩

摘要:為了解決游客社會網絡中游客分類的問題,本文利用互聯網信息中的圖片,文本,數值多種類型的數據進行基于旅游的游客社會網絡的權值計算,并利用修改后的PageRank算法和修改后的局部社區適應度函數來進行中心點的選取和局部社區的拓展。得到了基于旅游的游客社會網絡和游客局部社區,得到的游客局部社區可以有效地發現游客間的社會關系,同時也為數據挖掘在旅游業上的應用提供了新思路。

關鍵詞:互聯網信息;旅游;游客社會網絡;局部社區挖掘

中圖分類號:TP311? ?文獻標識碼:A

文章編號:1009-3044(2019)26-0023-04

開放科學(資源服務)標識碼(OSID):

Abstract: in order to solve the visitors' social network classification problem, this paper use the Internet information in images, text, numerical multiple types of data to calculate the tourists social network weights based on developing and using the modified PageRank algorithm and the modified local community fitness function to the center point of the selection and the local community. Based on the tourist's social network and tourist's local community, the tourist local community can effectively discover the social relationship between tourists, and also provides a new idea for data mining in tourism application.

Key words: Internet information; Tourism; Tourist social network;? local community mining

1 引言

隨著社會和經濟的發展,人民的生活水平逐漸提高,生活內容也日漸豐富。隨著人民的生活變得豐富多彩,人們開始喜歡走出家門出去看看,“旅游”成為現代生活的一個熱門話題。在傳統的旅游業中,人們對旅游景點的接觸,大多來自旅行社和電視上播放的旅游廣告,消息來源匱乏,這樣一來人們往往得不到自己想要的信息和想去的旅游景點。而在旅游景區這方面,游客的信息資源利用率較低,分析手段匱乏,導致旅游景區對景區未來的規劃和發展沒有足夠明智的目標,這是傳統旅游業的一個痛點。

伴隨著互聯網的普及和國家大力發展互聯網+,互聯網+傳統產業開始興起,在這樣的背景下,互聯網+旅游在這幾年也開始興起。為給游客們提供越來越人性化的服務,給旅游公司和部門提供景區發展的指導和景區興衰的分析,不少人開始對互聯網+旅游進行研究。樊瑋等[1]通過旅游公司提供的游客信息:兩個游客的共游次數、兩個游客共同旅游的平均消費金額、兩個游客平均兩次共同旅游時間差,利用社會網絡分析方法和改進的PageRank算法,提出了一種新的旅游游客社會網絡局部社區挖掘方法,利用這個方法可以有效地發現游客之間的局部社區關系。張子昂等人[2]利用互聯網數據,基于新浪微博的簽到數據,對景區旅游活動時空行為特征進行研究。通過劃分性別和地域兩種游客屬性,利用“橫向”“縱向”時間分層法,借助核密度函數對景區內部游客活動時空特征進行了分析,從而可以發現不同性別,不同地域游客活動的時空演變規律。廉同輝等人[3]基于信息內容對微博信息中的旅游主題進行了分析。高新波等[4]基于社會媒體對當今的“互聯網+旅游”進行了總結,分析和討論了目前“互聯網+旅游”的研究背景和發展歷程,分析了目前社會媒體中旅游數據的特點和“互聯網+旅游”背景下的熱點研究應用和難點,在難點方面,互聯網數據中數據種類繁多,包括,圖片、視頻、文本、數值等多種存在形式。

文獻[1,2]中對互聯網數據的利用僅在于文本數據,即新浪微博的簽到數據和旅游微博發布的文本消息。而實際互聯網上的數據不只有文本,微博也涵蓋了圖片,視頻,音頻等多種數據,游客發布的微博不僅有文本消息,還可能有會圖片和視頻等。二者的研究中都沒有使用這些數據,僅僅利用了文本數據。所以分析出的結果的參考價值會比利用多用數據形式的分析出的結果的參考價值低很多。

本文結合上述文獻的研究方法,提出了利用多種互聯網信息對游客社會網絡進行局部社區挖掘的方法,將互聯網數據中的圖片數據結合傳統的文本數據,數值數據,利用不同游客間景區的重疊數量,不同游客照片的相似度,對游客社會網絡的各節點間邊的權值設計一個新的算法,重新定義局部社區拓展時的適應度函數,來進行旅游社會網絡游客的局部社區挖掘。和文獻[1]的研究相比較,本文的權值計算公式是利用互聯網數據,互聯網的數據量要比傳統記錄的數據量要大得多,分析的結果的參考的價值也就要大,在局部社區的拓展公式中,本文提出了以權值為基礎的適應度函數,而文獻[1]所利用的是以節點度數為基礎的適應度函數,在權值越大,兩個節點越有可能有關系的前期下,本文提出的適應度函數更加的適用,且得到的社區也更加的合理;本文多種數據存在形式,和利用單一的數據相比,分析出的結果更具價值,得到的信息也更加的值得參考。

綜上所述,本文將利用互聯網信息生成基于旅游的游客社會網絡,并通過修改后的PageRank算法進行中心度排名并選取中心節點,利用改進的適應度函數進行局部社區拓展,最終得到基于旅游的游客局部社區。

2 基于旅游的社會網絡生成

文章采用了文獻[1]中的社會網絡定義及相關概念?;诼糜蔚纳鐣W絡指的是游客社會網絡,游客社會網絡是一種以游客為節點,游客間的社會關系作為邊的網狀結構。以下便是對游客社會網絡的生成,其中InformationList表存儲的是游客的信息,NodeList表存儲的是游客社會網絡的節點信息,EdgeList表存儲的是游客社會網絡中節點間邊的信息,具體的游客社會網絡生成過程如下:

2.1 數據來源說明

本文所采用的數據均來自某App,采集的數據包括游客的賬號ID,游客的基本信息,如:性別,年齡,姓名等,游客旅游過的景點的信息,以及旅游過的景區所拍攝的照片及其信息。

2.2 數據預處理

由于得到的數據結構混亂,存在冗余信息和較多的無價值信息,需要對得到的數據進行預處理,預處理的條件如下:

(1) 去除沒有景區記錄的游客賬戶信息及其相關數據。

(2) 去除一年之內沒有登陸的賬戶信息及其相關數據。

(3) 去除最近一個月內注冊的賬戶信息及其相關數據。

(4) 只有賬戶的ID,其余信息,如:性別,年齡,姓名等全部缺失的賬號,需要去除。

經過以上的預處理,將原本收集到的9076條游客信息記錄篩選到4396條。

2.3 游客社會網絡節點的生成

游客社會網絡中每一個節點代表的是一個游客,一個節點包括,游客賬號信息、游客的姓名、游客旅游過的景區的信息,這些節點存儲在NodeList表。圖1是對游客社會網絡的節點的生成步驟。

2.4 游客社會網絡邊的生成和權值的計算

2.4.1 游客社會網絡的邊

游客社會網絡的邊表示游客間存在之間的關系,如果兩個或者兩個以上的游客所旅游過的景區存在重合的部分,則表示他們在同一旅游地旅游過,在本文中,認為如果兩個游客旅游過的景區的并集不為空,則表示他們之間很可能存在關系,且如果符合篩選條件,則在游客社會網絡中,用一條邊,把這兩個節點聯系起來。

2.4.2 游客社會網絡邊的權值信息

在游客社會網絡中,給節點和節點間的邊賦一個權值,用來表示兩個節點間的聯系的緊密程度。在本文中認為,在旅游活動中,如果兩個游客旅游過的景區交集越大,且旅游過的同一景區的照片的相似度越大,說明這兩個游客間的關系越緊密。和傳統的利用旅游公司的信息來計算權值不一樣,本文利用互聯網中的游客信息,結合圖片,文本信息多種數據類型,來計算游客間邊的權值w。其中權值w的定義如下:

其中:n代表兩個游客游覽經歷的相似度, [xa]表示a游客游覽過的景區,[xb]表示b游覽過的景區。m代表游客間的照片相似度, d表示不同游客在同一景區內相似度大于給定閾值的照片數量,c表示某一景區擁有較少照片的游客的照片數。

在(1)式中,如果數據量過大,可能會出現n值大于0但是卻很小的情況,這樣可能會出現一個節點和大量的節點存在有邊的關系的情況,這種情況下如果再計算m值的話,會大大地增加運算的負擔,所以在生成邊的時候,給定一個值α,用來篩選邊的數量,減輕運算的負擔。

2.4.3 游客社會網絡邊的生成

對于邊的生成需要對之前公式(1)的n值做判斷,給定一個值α如果n的值小于α則不生成邊。經過數據測試,α的取值在0.1~0.3之間取值得到的邊數據較為理想,本文α的取值為0.21。游客社會網絡節點間邊的生成流程如圖2所示:

最后利用得到的數據生成了一個含有29363條邊的無向加權網絡,節點的平均度數為6.68,如圖3所示:

3 中心點的選取和局部社區的拓展

3.1 局部社區

局部社區的定義在目前沒有統一的標準[5,6],本文采用文獻[1]中的相關定義。

3.2 中心點的選取

在一個游客旅游社會網絡中,游客和游客之間是存在一定的社會關系的。這些關系可是同事、同學、朋友、家人等,這些社會關系在社會網絡中通常表現為一個局部社區。局部社區是由一些中心節點和他們周圍的一些跟隨者所組成的一個群體,所以要找到游客網絡中 的一個局部社區結構,首先需要把這個局部社區的中心節點找出來。游客社會網絡是一個無標度網絡,其典型特征是在這個網絡當中只有很少的節點才與非常多的節點連接,大部 分節點之間的連接是稀疏的,而即網絡中節點的中心度是服從冪率分布的[6]。那么可以假設每一個節點至少屬于一個局部社區,即可以確定每一個局部社區都有一個中心節點。

選取中心節點的傳統方法是隨機選擇,這種選擇方法往往會得到錯誤的中心點,進而得到錯誤的局部社區[6]。本文采用改進的PageRank算法選擇中心點。

初始的網頁排名算法 PageRank把互聯網當成一個有向無權網絡,而游客網絡是一個 無向加權網絡[7]。通過對PageRank進行修改,使之適用于無向網絡的節點中心度排名。修改后的算法如下:

(1) 對一個含有n個節點的網絡,給所有節點的中心度賦值為1/n;

(2) 選擇操作的闕值τ;

(3) 在閾值τ內,對節點中心度值做以下更新規則:設G={V,E,ω}是一個無向加權網絡,任意節點i的中心度NodeCen定義為

每個節點將自己當前的中心度值按照與它鄰接的每一個節點之間邊的權值相對于所有鄰接節點邊的權值之和的比例進行分配,每個節點按照它獲得的中心度值的總和更新它的中心度值。

其中,n是社會網絡中節點的總個數,ωij是節點i和節點j所在邊的權值,egi[j]是與節點j所相鄰的節點的集合。s是縮放因子[8],為了加速算法的收斂而且防止網絡中有孤立的節點而導致算法無法收斂,通常取值在0.8~0.9之間。閾值τ可以定義為運行次數 也可以是一個規則,本文采用的是定義為運行次數,對網絡內的節點中心度計算迭代超過30次時,迭代完畢。

此算法是基于文獻[1]對PageRank算法改進的描述所寫的。和PageRank算法一樣,其結果將最終收斂于一組極限值,且s值一定時,這組極限值具有唯一性,這組極限值是取決于比例因子的s的。

在選取中心點的時候,為了避免中心度節點過于集中,便于局部社區的劃分。規定每次選取的中心度最大的中心節點,且該節點不能包含在之前的任何一個已發現的局部社區內。

3.3 局部社區擴張

局部社區的擴張需要一個適應度函數,在上一步已經選取了中心節點,接下來只需要一個適應度函數來夸張局部社區,直到沒有一個函數可以使適應度函數增大位置。目前被廣泛采納的適應度函數是Lancichinetti等[9]提出的適應度函數。具體定義如下:

式中[kgin]表示局部社區g內部的內部節點度數之和,[kgout]表示局部社區g內部節點與外部節點連接的度數之和,[?]是個正實數,它主要控制局部社區規模的大小。

本文在之前表述過,認為在旅游活動中,如果兩個游客旅游過的景區交集越大,且旅游過的同一景區的照片的相似度越大,權值也就越大,游客和游客間更有可能存在社會關系。而(5)式中所提到的適應度函數,是利用局部社區g內部的節點度數之和和局部社區g內部節點與外部節點連接的度數之和來計算適應度的。但是在本文是利用互聯網數據來對游客旅游社會網絡進行局部社區挖掘,在旅游活動中,游客信息記錄中,記錄了多個景區。在不同的游客之間,景區很可能有交集,所以很可能會產生一個游客和其他很多游客的景區有交集,也就是一個節點和多個節點之間都邊連接,但是該游客和其他游客之間并沒有社會關系。所以局部社區g內部的內部節點度數之和和局部社區g內部節點與外部節點連接的度數之和計算而來的公式,對游客間社會關系分析沒有太多價值。上文也提到連接游客節點和游客節點的邊權值越大,那么這兩個游客之間的存在社會關系的幾率越大,而局部社區就是為了分析游客和游客間的社會關系的。所以本文對(5)式進行了修改。具體定義如下:

(6)式中[hgin]表示局部社區g內部的內部節點權值之和,[hgout]表示局部社區g內部節點與外部節點連接的權值之和,[?]是個正實數,它主要控制局部社區規模的大小。通過多次對已知社區結構的社會網絡進行實驗,得出當[?]=0.9時所擴張的局部社區規模達到最優。

節點適應度指的是節點A加入局部社區g之后,對適應度函數的貢獻,即

(7)式中,[fg+{A}]表示節點A加入之后局部社區g的適應度值,[fg-{A}]表示節點A沒有加入局部社區g之前局部社區g的適應度值。

有了節點中心度排名和局部社區擴張的適應度函數,就可以進行局部社區擴張了,步驟如下:

(1) 選擇當前下標的中心度節點,判斷該節點是否被已發現的局部社區所包含,如果沒有被包含,則作為局部社區g,如果已被包含則下標下移,重新檢測選擇的節點是否被包含。

(2) 獲取所有與g內部節點作為直接鄰居的外部節點。

(3) 從獲取的直接鄰居節點中,選擇一個節點適應度最大且為正的節點加入社區g。

(4) 回到步驟2,直到社區g沒有直接鄰居節點,或者所有的鄰居節點適應度都為負的時候停止擴張。

不斷地重復如上的步驟,直到社會網絡中的每一個節點都至少屬于一個局部社區,最后可以發現覆蓋整個網絡的所有局部社區。根據上述的操作,將2中得到的無向加權網絡進行上述操作后,便可得到該游客社區網絡的局部社區分析。

4 結束語

在互聯網+時代,互聯網+旅游也逐漸成為一個熱門的話題,面對海量的互聯網旅游數據,我們可以從多種角度才分析旅游信息,利用這些旅游數據,可以為游客提供個性化的旅游服務,給旅游公司對景區的開發和維護給予參考。本文利用軟件中每一個的用戶的所游覽過的景區和在瀏覽的景區中所記錄的照片來進行旅游游客局部信息挖掘。

和利用傳統的旅游數據中的游客消費情況和游客旅游時間不一樣的是,本文采用的是互聯網數據,采用了互聯網數據中的數組、文本和圖片,利用多種數據資源進行篩選分析并計算出權值。然后利用改進的PageRank算法和節點適應函數計算出節點中心度排名,并選取合適的節點作為局部社區的初始節點,然后拓展出整個局部社區。利用本文的方法可以有效地發掘出旅游游客的局部社區。

參考文獻:

[1] 樊瑋, 陳旭光. 旅游游客社會網絡局部社區挖掘方法[J]. 計算機工程與設計, 2016, 37(6): 1505-1509.

[2] 張子昂, 黃震方, 靳誠,等. 基于微博簽到數據的景區旅游活動時空行為特征研究[J]. 地理與地理信息科學, 2015, 31(4): 121-126.

[3] 廉同輝, 余菜花, 袁勤儉. 基于內容分析法的旅游微博主題研究[J]. 現代情報, 2016, 36(4): 85-89.

[4] 高新波, 沈鈞戈. 基于社會媒體的旅游數據挖掘與分析[J]. journal of Data Acquisition and Processing, 2016, 31(1): 18-27.

[5] 汪永旗, 王惠嬌. 旅游大數據的MapReduce客戶細分應用[J]. 華 僑 大 學 學 報 (自 然 科 學 版 ), 2015, 36(3): 292-296.

[6] 潘磊,金杰,王崇駿. 社會網絡中基于局部信息的邊社區挖掘[J] .電子學報,2012,40 (11) : 255-262.

[7] Alexandra Marin, Barry Wellman.Social network analysis:An introduction[M] // Forthcoming int Handbook of Social Network Analysis. 2010:430-433.

[8] Maksim Tsvetovat, Alexander Kouznetsov.社會網絡分析:方法與實踐 [M].王薇,王成軍,王穎,譯.北京:機械工業出版社,2013: 6-7.

[9] Mejia-Iigo R, Barilla-Perez M E, Montes-Venegas H A. Color-based texture segmentation for vehicle detection[C] //6th International Conference on Electrical Engineering, Computing Science and Automatic Control. IEEE, 2009:1-6.

【通聯編輯:梁書】

猜你喜歡
旅游
我們一起“云旅游”
少兒科技(2022年4期)2022-04-14 23:48:10
旅游驚魂
童話世界(2020年25期)2020-10-27 02:01:10
一起去旅游
童話世界(2019年29期)2019-11-23 09:05:26
自己去旅游
小A去旅游
好孩子畫報(2018年7期)2018-10-11 11:28:06
旅游助脫貧 同步奔小康
鄉村地理(2018年2期)2018-09-19 06:43:54
旅游
以茶為媒 促旅游開發
湖南農業(2015年5期)2015-02-26 07:32:24
旅游的最后一天
從旅游看人的自我超越
主站蜘蛛池模板: 无码综合天天久久综合网| 亚洲人成人无码www| 四虎成人精品在永久免费| 久久大香香蕉国产免费网站| 亚洲无码视频喷水| 欧类av怡春院| 国产精品视频公开费视频| 久久国产拍爱| 久久香蕉国产线看精品| 美女被操黄色视频网站| 国产免费久久精品99re不卡| 亚洲国产精品VA在线看黑人| 黑人巨大精品欧美一区二区区| 一级毛片免费的| 红杏AV在线无码| 亚洲精品你懂的| 精品国产香蕉伊思人在线| 成人欧美在线观看| 亚洲欧美成人综合| 久久久精品久久久久三级| 在线观看国产网址你懂的| 亚洲人成网站色7777| 第九色区aⅴ天堂久久香| 免费一级毛片完整版在线看| 色哟哟国产精品一区二区| 在线播放91| 99激情网| 亚洲中文字幕在线观看| 99re66精品视频在线观看| 国产黄网永久免费| 永久天堂网Av| 亚洲Va中文字幕久久一区 | www.91中文字幕| 免费看a级毛片| 中文字幕乱码中文乱码51精品| 亚洲天堂高清| 无码网站免费观看| 日韩毛片免费观看| 国产精品林美惠子在线观看| 日韩午夜片| 欧美日韩激情在线| 久久毛片网| 国产va在线观看免费| 人人妻人人澡人人爽欧美一区 | 麻豆国产在线不卡一区二区| 一本视频精品中文字幕| 91国内在线观看| 毛片免费在线视频| 亚洲国产综合精品一区| 精品精品国产高清A毛片| 国产精品福利社| 色一情一乱一伦一区二区三区小说| 老色鬼欧美精品| 欧美日韩高清在线| 国产精品福利导航| 国产成人高清在线精品| 狠狠色丁香婷婷综合| 91热爆在线| 日韩国产精品无码一区二区三区| 97久久超碰极品视觉盛宴| 亚洲嫩模喷白浆| 久一在线视频| 在线国产欧美| 亚洲综合在线最大成人| 国产欧美一区二区三区视频在线观看| 亚洲国产精品一区二区高清无码久久| 狠狠色婷婷丁香综合久久韩国| 久久久久青草大香线综合精品 | 激情六月丁香婷婷| 日本人妻一区二区三区不卡影院| 国产中文一区a级毛片视频| 97精品国产高清久久久久蜜芽| 青青操视频在线| 99爱视频精品免视看| 亚洲无码一区在线观看| 伊人91视频| 国产成人高清精品免费软件| 亚洲人成网站色7799在线播放| 欧美日韩亚洲国产主播第一区| 一本无码在线观看| 亚洲日韩第九十九页| 精品成人一区二区|