999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡簽到地點分類

2017-04-15 15:01:58左甜甜
福建質量管理 2017年4期
關鍵詞:分類用戶語言

左甜甜

(沈陽理工大學 遼寧 沈陽 110159)

?

社交網絡簽到地點分類

左甜甜

(沈陽理工大學 遼寧 沈陽 110159)

隨著4G和Wi-Fi技術的發展,越來越多的定位技術被運用到網絡和智能終端中,對已簽到的地理位置進行分類(如餐廳、商店等)成為基于地理位置的服務應用的重中之重。以Python爬取的新浪微博簽到及互動數據為基礎,以假設的未分類樣本作為對象,將經緯度數據輸入基于Java的改進DBSCAN密度聚類算法,輸出其地理范圍,用基于R語言的機器學習中KNN分類算法建立模型,實現社交網絡簽到地點的分類。

簽到地點;分類;DBSCAN;KNN

位置可以是絕對的地理位置,如經緯度;也可以是相對意義的地理位置,如XX路XX號XX商場附近100米處;還可以是語義上的地理位置,如某某商場。本文以經緯度為切入點,結合已知的簽到地點分類信息對未知的簽到地點進行分類。

其中兩個地點之間的距離采用公式:

C=sin(LatA)*sin(LatB)*cos(LonA-LonB)+cos(LatA)*cos(LatB)

Distance=R*Arccos(C)*Pi/180

LatA、LonA是A點的經度、緯度,LatB、LonB是B點的經度、緯度,R為地球半徑取6371km,Pi取3.14。

一、基于DBSCAN的地點聚類

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度的聚類算法,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,并可在有“噪聲”的數據中發現任意形狀的聚類。

(一)DBSCAN算法流程

1.如果一個點p的ε鄰域包含多于m個對象,則創建一個p作為核心對象的新簇;

2.尋找并合并核心對象直接密度可達的對象;

3.沒有新點可以更新簇時,算法結束。

(二)對簽到地點數據中的經緯度應用DBSCAN算法

以遼寧省沈陽市的44914個樣本為例,在做過數據清洗之后剩余40967個樣本,取經緯度兩個特征,并將二級分類信息粗劃為一級分類共11種。(參考美團、大眾點評分類信息進行歸類)。由于Java以及R語言對中文處理敏感,因此將一級分類標號1~11替換文字,作為DBSCAN算法的待輸入數據。由于DBSCAN是將候選服務集每一個對象作為核心對象進行密度聚類,但是該應用場景不需要,只需要將未知地點分類的對象作為核心對象即可,所以,應用用Java語言編寫的改進DBSCAN算法。

二、基于KNN的簽到地點分類

KNN(k-NearestNeighbor)鄰近算法,其主要思想是給定測試樣本,基于某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然后基于這k個“鄰居”的信息來進行預測,通常,在分類任務中可使用“投票法”,即選擇這k個樣本中出現最多的類別標記作為預測結果;在回歸任務中可使用“平均法”,即將這k個樣本中出現最多的類別標記作為預測結果;還可基于距離遠近進行加權平均或加權投票,距離越近的樣本權重越大。該場景應用“投票法”。

(一)KNN算法流程

1.計算距離:通常采用歐氏距離與曼哈頓距離。

2.k值的選取:通常取訓練集樣本數量的平方根,或通過實驗的準確率確定k值。

3.準備數據:通常對數據進行0-1標準變換或z-score標準變換。

(二)對未簽到地點數據應用KNN算法

以假設的未知的簽到地點分類樣本作為對象,通過上述DBSCAN算法確定其地理范圍,然后應用基于R語言的KNN算法,通過R語言的CrossTable()命令輸出交叉校驗表,由此表可看出真實分類與預測分類的對比情況以及分類準確率。

通過將遼寧省沈陽市的40967個樣本中抽取4338個樣本作為訓練樣本,將余下樣本分成10份作為測試集進行測試,其平均準確率達到96.7%,由此證明了模型的優秀。

三、分類模型的現實意義

(一)個性化位置推薦。流行位置推薦雖然可以給用戶推薦相應的位置,但這些位置并沒有考慮用戶的個性化信息,即對所有用戶推薦的都是相同的位置。通過找到與自己相似性高的用戶,再根據這些用戶訪問的位置進行推薦網。也可以通過得到位置間的相關性,再根據與用戶經常訪問的位置相關性大的位置進行推薦。

(二)位置活動推薦。當用戶指定一個位置時,可以給用戶推薦在這個位置上發生的最流行的活動,當用戶指定一種活動時,也可以給用戶推薦進行這種活動的最流行的位置叫。可通過矩陣來描述每個位置發生的每種活動的情況,但由于在每個位置可以進行的活動是有限的,而活動的種類卻是非常多的,因此這個矩陣是非常稀疏的,而進行推薦的主要依據就是矩陣中每個元素的數值。

(三)商店位置選擇。為一個新的商店選擇最好的位置是一個很有意義的問題。與傳統的方法不同,基于LBSN中收集到的描述用戶移動的細粒度數據和位置的流行性,給出問題的形式化定義,并從不同特性的角度進行商店位置預測,如密度特性、竟爭特性、區域的流行性等。

[1]楊帆,徐建剛,周亮.基于DBSCAN空間聚類的廣州市區餐飲集群識別及空間特征分析[J].經濟地理,2016,36(10):110-116.

[2]杜蓉.基于豆瓣同城活動的線上線下社交影響研究[J].計算機學報,2014,37(1):238-245.

[3]黃文,王正林.數據挖掘:R語言實戰[M].電子工業出版社,2014:111-120.

[4]BrettLantz.機器學習與R語言[J].2015:82-95.

[5]Java獲取Map地圖經緯度與所處地理名稱相互轉化.http://yegshine.blog.163.com

左甜甜(1993-),女,滿族,遼寧鐵嶺市人,工科碩士,沈陽理工大學通信與信息系統專業,研究方向:移動無線網絡技術。

猜你喜歡
分類用戶語言
分類算一算
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
分類討論求坐標
數據分析中的分類討論
讓語言描寫搖曳多姿
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
累積動態分析下的同聲傳譯語言壓縮
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产精品私拍在线爆乳| 国产91av在线| 欧美激情视频二区| www.91中文字幕| 午夜人性色福利无码视频在线观看| 国产精品深爱在线| 中文无码精品A∨在线观看不卡 | 日本国产一区在线观看| 一本大道无码日韩精品影视| 亚洲天堂区| 国产偷国产偷在线高清| 国产精品久久久久无码网站| 午夜福利免费视频| 毛片一级在线| 久久国产拍爱| 欧美国产在线看| 亚洲一级色| 伊人欧美在线| 亚洲成人一区二区三区| 大乳丰满人妻中文字幕日本| 老司机久久99久久精品播放| 人妻一区二区三区无码精品一区| 性欧美精品xxxx| 毛片网站在线播放| 狠狠v日韩v欧美v| 亚洲中文无码h在线观看 | 日本一区二区三区精品国产| 亚洲女同一区二区| 老司机精品一区在线视频| 一级片一区| 天天做天天爱夜夜爽毛片毛片| AV在线天堂进入| 99er这里只有精品| jizz在线免费播放| 国产精品永久不卡免费视频| 美女亚洲一区| 狠狠操夜夜爽| 亚洲人精品亚洲人成在线| 粉嫩国产白浆在线观看| 五月婷婷丁香综合| 亚洲不卡av中文在线| 亚洲色图在线观看| 在线观看91精品国产剧情免费| 国产污视频在线观看| 欧美69视频在线| 久久久久国产精品嫩草影院| 亚洲91在线精品| 国产成人精品男人的天堂下载| 国产乱子伦视频在线播放| 超碰91免费人妻| 国产精品v欧美| 欧美日本不卡| 九色在线视频导航91| 日韩欧美国产另类| 国产日韩欧美精品区性色| 国产美女久久久久不卡| 最新日韩AV网址在线观看| 成人午夜网址| 中文字幕无线码一区| 性色生活片在线观看| 51国产偷自视频区视频手机观看| 午夜福利免费视频| 免费欧美一级| 最新国产在线| 欧美色视频在线| 91精品啪在线观看国产60岁 | 97狠狠操| 久久鸭综合久久国产| 在线欧美日韩| 人妻少妇久久久久久97人妻| 欧美视频在线播放观看免费福利资源 | 中文字幕在线观看日本| 欧美a级完整在线观看| 在线免费观看AV| 精品国产成人高清在线| 国产男人的天堂| 日韩毛片免费| 蝌蚪国产精品视频第一页| 毛片久久网站小视频| 人禽伦免费交视频网页播放| 国产一区二区免费播放| 欧美天堂在线|