999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

幾種不同的方法在GPS大數據探查中的應用分析

2016-12-06 12:54:32劉鑫張馳劉汝濤
電腦與電信 2016年8期
關鍵詞:模型

劉鑫 張馳 劉汝濤

(山東科技大學測繪科學與工程學院,山東 青島 266590)

幾種不同的方法在GPS大數據探查中的應用分析

劉鑫 張馳 劉汝濤

(山東科技大學測繪科學與工程學院,山東 青島 266590)

GPS定位系統對車輛的運行調控以及擁堵性分析具有重要意義。但定時采樣的GPS數據難免存在壞點的情況,而壞點的存在對分析結果容易產生較大錯誤,從而影響交通管理決策。本文通過高斯混合模型、K-均值聚類分析以及SOM自組織神經網絡三種方法完成對原始數據時間段劃分、字段提取以及壞值清理的操作。這三種方法主要用于對數據進行聚類分析,根據分析結果識別孤立點從而進行清理。結果顯示,高斯聚類與K-均值聚類算法的壞點識別精度小于SOM自組織神經網絡,但前兩種算法的運行效率較后者高。

壞點;GPS;模型處理;神經網絡

1 引言

城市公共交通服務評價是城市公共交通系統建設的重要組成部分,是公交運營效率提升的重要內容。在我國城市化進程帶來的諸多問題中,交通是是影響最大,同時也是最受重視的一個方面,這是由于城市的經濟、生活等各個方面都與交通息息相關。而目前我國一些城市的交通擁堵現象相當嚴重。目前我國除北京、上海、深圳等特大城市外,交通擁堵現象已比較頻繁地出現于其他一些大中城市,而擁堵現象并不僅僅體現在交叉口等節點處,城市大面積的擁堵現象也時有發生,道路容量已經趨于飽和。據有關資料顯示,每年我國因交通問題造成的損失高達數千億元。對于運輸企業,管理和規劃部門,傳統的公交車站,線路和換乘樞紐的規劃數據只是根據主管部門收集的統計資料和人工庫存,而在自動采集技術日益發達的今天,如果能夠自動分析居民出行需求,利用公交系統數據、公交卡消費數據、地鐵卡消費數據和出租車定位數據,對現有的公交規劃設施服務(包括常規公交車站和地鐵站)進行動態評價,可以顯著提高傳統公交規劃、設計和管理的工作效率和質量。

2 數據的預處理

由于IC卡數據和GPS定位信息在進行數據采集時,受到設備技術條件(主要是儀器系統誤差造成)以及傳輸條件的影響,采集到的數據難免存在一定的問題,即壞點的存在,因此,必須對采集到的原始數據進行預處理工作,從而保障數據的完整和準確。

對數據的預處理主要包括三個方面,分別為選擇分析時段,數據字段選擇以及錯誤數據清理。本文對數據預處理選擇不同的方法主要集中在第三步錯誤數據清理上,對于前兩步方法并未有太大變化,僅依靠時間段對數據進行時段劃分以及選取相應的數據字段即可,本文主要講述第三步的處理。

受設備以及傳輸條件的限制,所采集的數據源通常會產生錯誤數據,對于數據字段中的錯誤數據進行清理或者修正,從而保證數據挖掘的質量。本文給出錯誤數據清理的三種模型,分別為高斯混合模型、SOM自組織神經網絡模型,以及K均值聚類模型。模型具體介紹及優缺點分析如下。

3 具體方法簡述

3.1 高斯混合模型

3.1.1 算法原理

高斯混合模型通俗來講,就是用高斯密度函數來對數據進行量化表示,從而將一群雜亂無章的數據描述為一個基于概率密度函數形成的模型。

從數學上講,我們認為這些數據的概率分布密度函數可以通過加權函數表示:

其中

表示第j個單高斯模型SGM的概率密度函數。

令φj=(aj,μj,Cj),高斯混合模型GMM共有M個SGM,現在,我們就需要通過樣本集X來估計GMM的所有參數:?=(φ1,…,φM)T,樣本X的概率公式為:

3.1.2 算法的求解

第一步:協方差矩陣Cj0設為單位矩陣,每個模型比例的先驗概率aj0=1/M;均值μj0設為隨機數。

第二步:估計步驟(E-step)

令aj0的后驗概率為

第三步:最大化步驟(M-step)

3.2 SOM自組織神經網絡

SOM自組織神經網絡的運行分為訓練和工作兩個階段。訓練時,隨機輸入訓練集中的樣本,對于某個特定的輸入模式,輸出層會有某個結點產生最大響應而獲勝。網絡通過自組織方式,用大量訓練樣本調整網絡權值,最后使輸出層各節點成為對特定模式類敏感的神經元,對應的內星權向量成為各輸入模式的中心向量。

輸入模式主要通過獲勝神經元確定,獲勝神經元確定公式為:

其中X為當前輸入模式向量。

獲勝神經元自身權值的調整公式為:

其中0≤α≤1為學習效率,α在此處訓練取為0.1,其值隨著學習的進展而減小,即調整的程度越來越小,趨向于聚類中心。

3.3 K-均值聚類

3.3.1 算法原理

K均值聚類算法的原理是首先對輸入數據根據位置參數隨機生成聚集中心,然后計算各數據點與聚集中心的距離,根據最近鄰原則進行該數據點的屬性劃分,依次進行直到所有數據點均存在唯一的類屬關系。在完成初始類屬劃分后,各聚集中心又重新進行計算,即二次迭代運算過程,直到達到預先設定的終止條件才完成迭代過程,本文給定的終止條件是所有數據點均無類屬關系的變動,即聚集中心再無變化,誤差平方和達到最小。

3.3.2 算法的求解

A、設需要聚類的數據樣本集數為n,I=1,選取K個初始聚類中心:Zj(I),j=1,2,,,k。

B、計算每一個數據樣本和聚類中心的距離:D(xi,Zj(I)),i=1,2,,,n;j=1,2,,,k;若D(xi,Zk(I))=min{D(xi,Zj(I))},i,=1,2,,,n,那么就有該樣本就屬于該類。

C、一般情況下,采用誤差平方和作為衡量聚類質量的目標函數:

4 結果分析

本文以深圳市2015年8月12號統計的公交車GPS及IC卡數據為例,選用部分數據作為研究數據,利用Matlab將上述算法過程進行編程實現,以研究數據的經緯度坐標為輸入數據,得到結果為:

圖1 三種算法結果比較

以上三種方法均適用于對錯誤信息的剔除,這是由于錯誤信息一般指噪聲點信息,主要是由于儀器自身或者操作者使用不當造成的,其主要特點是與其他數據差距比較大,即以孤立點的形式存在,三種方法均是聚類分析的經典算法,因此可以依據聚類的思想將孤立點選擇出來。不同的是,高斯混合模型適用于大量具有較為明顯的類間關系的數據,對本文數據的預處理效果最好,這是由于本文數據噪聲信息主要以GPS經緯度錯誤信息為主,由于公交車具有一定的集群性,因此在進行類間屬性查找時相對容易。缺點是若噪聲信息分布較為散亂或者分布與原始數據差異較小,則不利于進行探查,需要更進一步的類屬性劃分。

SOM自組織神經網絡模型是無導師學習的智能神經網絡算法,其對數據的聚類主要由歐式距離進行劃分,以拓撲神經元進行距離測量,可以很明顯地對類間錯誤數據進行識別與剔除,結果顯示比較明了,但對于大數據,受到步長條件的限制,若進行高精度的錯誤數據探查則需要加大步長,這樣會造成分類數量增大,對錯誤數據的查找比較困難,建議步長設置為10左右或者進行分批處理。

K均值聚類模型算法設計原理是基于概率密度進行的,可以較為準確地對原始數據進行識別,并且隨著分類數量的增加可以對錯誤數據的挖掘更加準確,缺點是算法同樣適用于具有很強類間屬性的分類,對于差異很小或者融合噪聲處理效果較差。

5 結論

本文通過對三種算法應用于GPS公交大數據分析可以得出,三種方法均是可以進行壞點剔除的,各種方法均有其優缺點。對于大數據處理而言,若對識別精度的要求并不是很高,可以考慮采用高斯聚類與K均值聚類算法,相反,若對精度要求要求較高的話,可以采用SOM自組織神經網絡算法進行壞點識別與剔除。

[1]Longhua Chen,Lingen Bian,etc.Antarctic and neighboring regions temporal variation of temperature. Chinese Science(D Series).June.1997.

[2]Xiaohua Yang,Lingquan Kong,etc.Authoritative Guide on MATLAB[M].China Machine Press.August 2013.

[3]Pin Zhou.MATLAB neural network design and application[M].Tsinghua University Press.March.2013.

Analysis of theApplication of Several Different Methods in GPS Big Data Exploration

Liu Rutao Liu Xin Zhang Chi
(Shandong University of Science and Technology,Qingdao 266000,Shandong)

It is significant for the GPS positioning system to control the vehicle and analyzes the congestion.But there are bad values in GPS sampling data,easy to produce large error on the analysis results,thus affecting the traffic management decision.This paper completes the original data segment,field extraction and bad values cleaning using Gauss mixture model,K-means clustering analysis and SOM self-organizing neural network separately.Thees three methods are mainly used for data clustering analysis,cleaning the isolated points according to the results.The results show that the recognition accuracy of Gauss clustering and K-clustering algorithm is less than SOM self-organizing neural network,but the operating efficiency of the first two algorithms is better than the latter.

bad value;GPS;model procession;neural network

TP311.13

A

1008-6609(2016)08-0074-03

劉鑫,男,山東煙臺人,本科,研究方向:地理信息系統開發等研究。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 少妇露出福利视频| 精品国产91爱| 97视频在线观看免费视频| 亚洲国产成人久久精品软件| 久久黄色视频影| 71pao成人国产永久免费视频| 免费全部高H视频无码无遮掩| 男女男免费视频网站国产| 久久黄色影院| 91青青在线视频| 婷婷激情亚洲| 国产原创演绎剧情有字幕的| 国产区福利小视频在线观看尤物| 制服丝袜 91视频| 九色视频线上播放| a级毛片毛片免费观看久潮| 国产精品分类视频分类一区| 国产乱子伦精品视频| 国产欧美专区在线观看| 国产农村妇女精品一二区| 国产毛片一区| 国产精品成| 国产精品对白刺激| 丁香六月激情婷婷| 伊人国产无码高清视频| 国产精品内射视频| 91青草视频| 中国国产一级毛片| 国产成人AV综合久久| 欧美日韩国产一级| 亚洲精品波多野结衣| 沈阳少妇高潮在线| 狠狠做深爱婷婷综合一区| 很黄的网站在线观看| 久久久四虎成人永久免费网站| 欧美亚洲一区二区三区在线| 国产美女精品人人做人人爽| 国产制服丝袜91在线| 国产成人综合亚洲网址| 日本尹人综合香蕉在线观看| 欧美国产中文| 欧美国产精品不卡在线观看| 亚洲乱码在线播放| 91在线丝袜| 美女扒开下面流白浆在线试听| 久久天天躁狠狠躁夜夜躁| 国产精品极品美女自在线网站| 一本一本大道香蕉久在线播放| 日韩专区欧美| 一区二区三区四区日韩| 日韩精品亚洲精品第一页| 国产精品刺激对白在线| 五月天综合网亚洲综合天堂网| 国产麻豆va精品视频| 亚洲人成色在线观看| 国产剧情国内精品原创| 日本一区二区三区精品视频| 日韩欧美国产精品| 国产经典在线观看一区| 亚洲AⅤ波多系列中文字幕| 亚洲资源站av无码网址| 中文无码毛片又爽又刺激| 一区二区三区高清视频国产女人| 欧美一区精品| 女人18毛片久久| 蜜臀AVWWW国产天堂| 欧美啪啪网| 伊人久久大香线蕉aⅴ色| 国产黑丝视频在线观看| 四虎国产精品永久一区| 亚洲最猛黑人xxxx黑人猛交| 91精品啪在线观看国产60岁| 国产亚洲精久久久久久无码AV| 国产一区二区精品高清在线观看| 久久久久亚洲av成人网人人软件 | 老司国产精品视频91| 色综合手机在线| 日本一区高清| 日韩 欧美 小说 综合网 另类| 精品国产91爱| 久久午夜夜伦鲁鲁片无码免费| 国产国产人免费视频成18|