999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合地理標簽數據的個性化信息服務應用研究

2019-11-07 09:28:42陳氫馮進杰
現代情報 2019年10期
關鍵詞:區域旅游

陳氫 馮進杰

摘 要:[目的/意義]社交媒體網站的飛速發展為我們貢獻了海量數據,通過對這些數據的進一步挖掘,可以實現個性化服務推薦。[方法/過程]本文利用地理標簽中的豐富的元數據信息,結合基于密度的DBSCAN聚類算法和TF-IDF的統計方法,來提取和識別當地的景點區域,然后結合季節來計算景點的熱度,最后運用基于混合過濾的推薦算法,為游客實現個性化旅游服務推薦。[結果/結論]通過Flickr網站爬取到的Geo-tagged數據集驗證了本文提出方法的有效性。

關鍵詞:地理標簽數據;DBSCAN聚類;旅游;個性化服務推薦

DOI:10.3969/j.issn.1008-0821.2019.10.003

〔中圖分類號〕G251 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)10-0024-08

Abstract:[Purpose/Significance] The rapid development of social media websites has contributed a lot of data to us.Through further mining of these data,we can realized the personalized recommendations service.[Method/Process]This paper used the metadata information in the geo-tagged dataset,combined with the DBSCAN clustering algorithm based on density and the TF-IDF statistical method to extract and identify the local spots,and then calculated the hot of the local spots in combination with the seasons.At last,we used Hybrid filtering algorithm to achieve personalized travel recommend services.[Result/Conclusion]The Geo-tagged dataset from the Flickr website proved the effectiveness of the papers extraction method.

Key words:geo-tagged data;DBSCAN clusters;travel;personalized service recommendation

近年來,伴隨著計算機通訊技術的發展,很多傳統行業逐漸與移動互聯網融合,獲得新的發展機遇,旅游行業就是其中之一。隨著物資水平的極大提高,旅游已經成為人們的基本生活方式,是消費閑暇時光的最好選擇之一。與此同時,隨著交通工具的快速發展,出行方式已經開始由傳統的跟團旅游逐漸轉變為由游客自行主導的自駕游或者自助游,游客也開始更加注重旅游的質量[1]。然而對于自駕游和自助游,還存在著諸多的不便之處,例如面對一個陌生的旅游目的地,游客需要考慮諸多因素,像景點的可玩性,交通的便利性,游玩的時間以及門票的價格等等,這無疑會消耗游客大量的時間和精力來進行決策[2]。同時,龐大的旅游市場也給政府和公共服務部門帶來了巨大的壓力,面對人山人海的黃金周,如何緩解人流壓力,這已然成為現代旅游發展需要突破的瓶頸。

伴隨著移動互聯網和4G通訊技術的發展,傳統旅游行業迎來的新的發展契機。Facebook、Flickr、馬蜂窩等社交分享網站的出現,每天可以產生海量的游客照片和旅游攻略,這些照片和旅游攻略中含有豐富的元數據信息,包括地理位置信息、拍攝的時間以及用戶的情境等等[3],我們將這種包含地理標注信息的照片稱之為地理標簽數據。通過對地理標簽數據的處理和挖掘,可以提取游客的游玩軌跡和景點停留時間以及游玩時的情境信息,這些地理標簽數據為研究游客的行為偏好,以及城市的旅游特征提供了豐富的一手數據。

因此,本文以地理標簽數據為研究對象,利用DBSCAN的聚類算法和TF-IDF方法來挖掘和識別景點區域,結合旅游淡旺季來綜合計算景點區域的熱度,按照旅游時間來建立景點區域數據庫,最后使用基于混合過濾推薦算法為用戶進行個性化旅游路線推薦,減輕用戶的信息困擾和決策壓力。

1 相關研究

移動智能終端的普及,使地理標簽數據爆炸式涌現在我們面前,這給我們的個性化推薦研究帶來海量的數據資源,因為包含地理位置、時間、文本等信息,逐漸成為眾多學者研究的熱點。國外早就將地理標簽數據應用于建立用戶旅游偏好模型以及重建游客的旅行軌跡。Pladino S等[4]利用地理標簽數據對幾個著名的旅游景點的吸引力進行了量化,得出了景點的熱度排名;Crandall D等[5]首先提取了地理標簽數據中地理位置信息,然后采用基于支持向量機算法來對含有地理位置的的非地理標簽照片進行分類,最后結合均值偏移算法來計算當地的景區熱點區域和相關排名;Majid A等[6]提出利用照片的時間戳結合互聯網資料來獲取旅游當地氣候,法律,人文等相關上下文消息,構建了基于地理標簽數據的個性化推薦模型,Lu X等[7]通過聚類的方式從地理標簽數據中提取出熱門的旅行路線,并將旅游的持續時間和旅游成本進行綜合考慮,幫助游客進行旅游路線的選擇。

國內在地理標簽數據的研究尚處于初步階段。朱金悅等[8]利用從Flickr中的地理標簽數據,結合核密度的聚類方法對海南省的游客時空行為進行分析;武傳表等[9]利用1997-2014年的地理標簽數據研究了赴大連市游客的時空行為特征,發現游客的旅游時間季節性和時段性特征明顯,而且游客的游玩目的地呈現多樣性;馬麗君等[10]對江蘇省入境及國內游客的空間聚集性進行了分析;楊興柱等[11]對南京市內部旅游客流空間分布格局進行了實態模擬。國內專家學者大多利用地理標簽數據來分析游客的游覽軌跡和行為特征,將其應用在個性化推薦方面的研究尚少。因此,本文嘗試構建基于地理標簽數據的個性化旅游服務模型,首先獲取景點的熱點區域(Hot of Location,HOL),然后集合旅游的季節來獲得景點區域的熱度,建立景點區域的數據庫,最后結合用戶的偏好和旅游情境,為用戶實現個性化景點和游玩線路推薦。

2 研究重點與模型建立

2.1 景點區域的提取和識別

目前關于景點區域的提取有多種方法,比較成熟的有基于k均值聚類(K-mean)和基于均值漂移(Mean-shift)的聚類算法,還有基于核密度的聚類方法。然而采用最多還是基于密度的DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法來對景點區域進行聚類[12]。DBSCAN算法的核心思想是將緊密相連的樣本點定義為同一類,一般會預先設立1個閾值,樣本的密度大于該閾值,則可視為同一類。DBSCAN算法可以在空間數據中發現任何形狀的簇,而且可以自動去除離群的數據點,受噪聲數據的影響較小,不需要預先設置聚類的個數,在對海量樣本數據進行聚類時有較好的效果,因此本文采用DBSCAN算法對地理標簽數據進行聚類來提取景點區域。

我們利用DBSCAN算法進行景點聚類時,有兩個核心的參數(參數ε和參數MitPts),它們兩個是用來描述樣本集的緊密程度。其中參數ε用來描述樣本領域的閾值,即聚類的半徑;參數MitPts用來描述某一個樣本的距離為ε的領域中樣本個數的閾值(每一類簇中最少的照片數量)[13]。

利用DBSCAN算法進行景點聚類主要流程分為兩步:1)掃描每個樣本點p,如果p沒有被掃描過,則檢查p距離為領域中照片的個數,如果MitPts值大于閾值,則p為核心對象,如果MitPts值小于閾值,則視為噪點,舍棄;2)若p為核心對象,將p放入聚類中心簇c中,將p的領域內所有樣本點q加入候選集,進行下一步的掃描中。依次遍歷所有的點,直至所有樣本點都被訪問到,具體流程如圖1所示。例如取MitPts的閾值為5,紅色的點即為核心對象,圖2中用綠色箭頭連起來的即為景點的區域。

通過DBSCAN算法提取到景點的區域后,景點區域的名稱可能與實際名稱并不相符。還需要到景點區域進行識別,對聚類后的景點區域進行命名。筆者這里采用TF-IDF的統計方法,TF-IDF算法認為一個詞的重要性與其在文檔中出現的頻率成正比,與其在語料庫中出現的頻率成反比,利用TF-IDF算法對照片的文本標簽進行挖掘,提取文本標簽中詞頻最高的詞語作為景點區域的名稱。

2.3 景點區域數據庫

在確定了景點的區域和景點的熱度后,我們在進行景點的個性化服務推薦時還需要考慮游客游玩的天氣、季節以及景點的門票價格等其他因素的影響,因為有些景區在某些季節是不對外開放的,為了便于更好地為游客進行個性化服務推薦,我們建立基于本體的數據庫。

對于景點L,我們首先要確定有多少用戶訪問過該景點,然后根據每個用戶拍攝的照片進行排序,對于同一個用戶的拍攝同一景點區域的照片,我們可以設立1個閾值θ,如果兩張照片的時間戳小于閾值θ,則可以記為1次旅程,記用戶的旅玩時間為。為了便于后續對用戶偏好的分析,本文按照事務型方式來建立數據庫,我們將游客的游玩事件記為V=(vu,vl,vt),我們可以利用游玩的時間戳通過互聯網獲取游客的情境信息,以及游玩天氣等基本信息,為了便于分析,本文將游客游玩的時間戳轉換成用戶游玩的情境,具體記錄信息如表1所示。

2.4 個性化服務推薦模型

基于地理標簽的游客個性化服務的研究方法就是先通過社交媒體網站上獲取到地理標簽數據后,我們通過對地理標簽進行信息挖掘,發現當地的景點區域,景點區域的熱度,同時建立景點的數據庫,

3 實驗過程與結果分析

3.1 數據的采集和預處理

Flickr是雅虎旗下的一家基于Web2.0的照片分享網站,通過共享照片讓用戶可以相互交流,上面有全世界網友分享的海量照片,使我們獲得地理標簽數據的最佳選擇之一,并且Flickr網站提供開放的api接口,注冊成為其開發者會員,就可以爬取網站上的數據[15]。

Flickr網站提供支持多種語言的api接口工具包,筆者采用目前使用最為成熟的基于Python腳本語言Beejs Python Flickr API工具包對地理標簽數據進行采集。根據本文的研究需求,選取文本標簽為Wuhan,時間從2008年1月1日到2018年12月31日的所有數據,從數據集中提取用戶的id、照片的id、照片的地理位置(經緯度)以及照片的文本標簽,照片的拍攝時間等信息,如表2所示,共計得到23 856條記錄。

剛從Flickr網站上獲取到的地理標簽數據并不能直接用于DBSCAN聚類分析,我們要對采集到的數據進行預處理,去除其中部分沒有價值的數據。利用數據的清洗可以用來剔除與主題無關的數據信息,如收集到的與景點無關的照片。為了地理標簽的質量,我們制定以下清洗規則。

1)對于照片的地理標簽與實際圖片內容不匹配的照片,經分析后,應該是設備定位功能不準確導致的,由于客戶在1天之內的活動范圍有限,對于此類數據,我們只能視為無效數據,進行剔除處理。

2)對于景點的同一位置,在同一時間或者短時間內具有多張相同的照片,經分析發現,是因為用戶習慣于拍攝多張照片以便于從中篩選出最合適的照片這種行為導致,為了消除大量重復照片對景點區域識別的干擾,我們從時間id和地點id相差不大的照片選取其中1張作為代表,刪除其他照片。

3)對于與景點無關的數據,例如個人自拍照、家庭聚會照、事故現場等與景點無關的照片,會干擾景點區域的識別,也只能進行剔除處理。

通過對地理標簽數據的預處理,最后得到包含有435個用戶的18 652張照片,來進行下一步的信息挖掘。

3.2 景點區域提取及熱度排名

進行景點區域的聚類時,DBSCAN算法中的聚類半徑ε和聚類中心簇范圍內照片的數量MitPts影響著景點區域的識別準確與否。為了選擇合適的聚類半徑和MitPts,本文選取了100個用戶的4 523張照片,進行不同權重的對比,具體結果見圖4。

[5]Crandall D,Backstrom L.Mapping the Worlds Photos[C]//In Proceedings of the International Conference on World Wide Web(WWW 09)ACM.New York,2009:168-181.

[6]Majid A,Chen L,Chen G,et al.A Context-aware Personalized Travel Recommendation System Based on Geotagged Social Media Data Mining[J].International Journal of Geographical Information Science,2013,27(4):1-23.

[7]Lu X,Wang C.Generating Travel Routes from Geo-Tagged Photos for Trip Planning[C]//In Proceedings of the 18th ACM International Conference on Multimedia.Italy,2010:143-152.

[8]朱金悅,胡濤.基于地理標記照片的游客空間分布特征研究——以海南省為例[J].旅游論壇,2016,9(6):17-22.

[9]武傳表,向慧容.基于地理標記照片的赴大連游客時空行為特征研究[J].遼寧師范大學學報:自然科學版,2017,40(3):387-394.

[10]馬麗君,孫根年.江蘇省國際國內旅游的空間聚集性及成因分析[J].商業研究,2009,(2):170-174.

[11]楊興柱,蔣鍇,陸林.南京市游客路徑軌跡空間特征研究——以地理標記照片為例[J].經濟地理,2014,34(1):181-187.

[12]Schmidt B,Laamanen H.Location-based Mobile Tourist Services-first User Experiences[J].Information and Communication Technologies in Tourist,2003:115-123.

[13]肖政.基于空間數據挖掘的個性化旅游景點推薦系統研究[D].武漢:華中師范大學,2016.

[14]Lee I,Cai G.Exploration of Geo-tagged Photos Through Data Mining Approaches[J].International Journal Expert Systems with Applications,41:397-405.

[15]王楠.基于地理標簽的旅游信息服務研究[D].西安:陜西師范大學,2016.

[16]百度百科“信息熵”詞條[EB/OL].https://baike.baidu.com/item/信息熵,2018-10-08.

[17]陳氫,馮進杰.多維情境融合的移動情境感知服務系統構建研究[J].情報理論與實踐,2018,41(8):115-119,160.

[18]王楠.基于地理標簽的旅游信息服務研究[D].西安:陜西師范大學,2016.

[19]Majid A.基于地理標簽的社會媒體數據挖掘的智能旅游推薦研究[D].杭州:浙江大學,2012.

(責任編輯:孫國雷)

猜你喜歡
區域旅游
我們一起“云旅游”
少兒科技(2022年4期)2022-04-14 23:48:10
永久基本農田集中區域“禁廢”
今日農業(2021年9期)2021-11-26 07:41:24
分割區域
小A去旅游
好孩子畫報(2018年7期)2018-10-11 11:28:06
旅游
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
旅游的最后一天
出國旅游的42個表達
海外英語(2013年8期)2013-11-22 09:16:04
主站蜘蛛池模板: 在线观看亚洲精品福利片| 国产精品午夜电影| 中文字幕无码电影| 亚洲天堂视频在线观看| 亚洲男人的天堂网| 久久精品电影| 亚洲男人的天堂在线观看| 久久精品人妻中文系列| 一级爆乳无码av| 国产精品一区二区国产主播| 一级香蕉人体视频| 新SSS无码手机在线观看| 亚洲 日韩 激情 无码 中出| 青青国产视频| 中国丰满人妻无码束缚啪啪| 亚洲av无码片一区二区三区| 久久中文字幕2021精品| 91欧美在线| 国产微拍一区| 婷婷色一区二区三区| 欧美天堂久久| 欧美特黄一级大黄录像| 欧美日韩亚洲综合在线观看| 高清精品美女在线播放| 欧美日韩导航| 女人一级毛片| 国产亚洲精品yxsp| 日本三级欧美三级| 欧美成人a∨视频免费观看| 国产精品播放| 在线欧美a| 久久亚洲国产一区二区| 91网站国产| P尤物久久99国产综合精品| 国产91小视频在线观看| 97国产一区二区精品久久呦| 又污又黄又无遮挡网站| 亚洲首页在线观看| 日韩欧美中文在线| 中文无码伦av中文字幕| 国内丰满少妇猛烈精品播| www.91在线播放| 亚洲成网777777国产精品| 98精品全国免费观看视频| 久久综合伊人77777| 免费xxxxx在线观看网站| 中日韩一区二区三区中文免费视频 | 人妻无码中文字幕第一区| 国产男女免费视频| 国产XXXX做受性欧美88| 亚洲欧洲自拍拍偷午夜色| 无码中文字幕精品推荐| 99热国产在线精品99| 欧美日韩专区| 2021无码专区人妻系列日韩| 无码国内精品人妻少妇蜜桃视频| 久久国产亚洲偷自| 美女无遮挡免费视频网站| 精品国产自在现线看久久| 日韩美毛片| 亚洲欧美一区二区三区蜜芽| 97se亚洲综合| 国产精品手机在线播放| 国产xx在线观看| 黄色网址免费在线| 欧美成人免费一区在线播放| 香蕉色综合| 88av在线| 国产精品网址你懂的| 久99久热只有精品国产15| 国产视频大全| 潮喷在线无码白浆| 久久国产V一级毛多内射| 色哟哟国产精品一区二区| 在线视频亚洲欧美| 日本欧美成人免费| 久久精品电影| 国产亚洲欧美在线人成aaaa| 国产精品成人不卡在线观看| 日韩精品一区二区三区免费| 亚洲三级a| 全免费a级毛片免费看不卡|