朱天元
摘要:近些年,國內社會有了很大發展,各種先進技術和理念不斷得到應用和發展,機器學習算法就是一種新型算法,在各行各業中都有很大作用。本文主要對機器學習算法在數據挖掘中的應用進行詳細研究,首先借助大量移動終端數據,對GSM網絡的戶外終端進行有效定位,提出三個階段的定位算法,進而使定位速度和精度有很大提高。
關鍵詞:機器學習算法;數據挖掘;戶外定位
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)03-0166-01
1 數據挖掘概述
在數據挖掘算法內,機器學習與統計算法是比較常見的兩種,第一種是借助人工智能技術,可以在大量的樣本集訓練與學習之后,自動的找到運算所需的模式和參數,第二種是借助判別和概率分析、聚類和相關性分析等開展運算,不同的算法也有不同對應的目標和領域,這些算法可以獨自進行使用,也能夠互相結合。
機器學習算法內人工神經網絡這種方法應用范圍比較廣泛,具備很好的處理數據能力與自組織學習的能力,還可以進行準確的識別,進而有利于對分類型問題數據進行處理。可以借助建模進行工作,模型比較多樣,可以對不同的需求進行滿足,從整體出發,這一方法的模型具有較高精度,魯棒性比較好,描述能力也比較強,進行應用時不需要借助專家的支持,但是也有一些缺陷,訓練數據時需要花費較多時間,對知識進行理解時也不是很智能,伸縮性和開放性也存在局限。
2 以機器學習算法為基礎的GSM網絡定位
(1)定位問題的建模。以支持向量機定位方式為基礎,把定位區域柵格化,較小的柵格區域被抽象成類別,然后在定位區域中收集大量終端測量信息,如果要對移動終端進行定位,就需要利用計算對接收測量報告,然后對柵格內村練技術劃分收集報告相似性或者距離度量,進而對待定位移動終端柵格進行判斷,使用機器學習對這一分類現象進行求解。
(2)采集數據和預處理。此次研究仿真數據都來自某一周邊長是10km的城市,在這一區域的內部有4個時間不同的短路,測量得出4批數據,為了確保以機器學習方法進行定位的有效性,把利用線所測的3批數據當做訓練數據,最后得到的數據集當做定位數據,對這批數據周圍10米內,有前3組訓練數據的集中數據進行刪除。在得到待定位的數據之后,需要把不同時間的間隔當做依據,對然后把一致通話內相鄰的定位數據進行合并,求取出相同通話內同一基站接受電平與多個相鄰定位數據的經緯度平均值。把這一數值作為新的定位數據,因為在相同通話相鄰的測量報告內,存在很強相關性,所以需要對其進行合并,然后進行定位,這樣能夠去噪,還可以極大的降低定位所需的數據量,進而有效提升定位精度和速度。
(3)以基站的經緯度為基礎的初步定位。以機器學習為基礎的移動終端定位計算的復雜性和使用機器學習的程度和定位區域的面積有正相關的關系,區域的面積越大,回歸模型和分類也就更復雜,在定位移動終端時,就要對函數計算有更多的決策,所使用機器學習算法時,增加定位地區的面積,能夠極大提升這一算法定位和訓練時需要的時間復雜度。以基站的經緯度為基礎進行初步定位,具體的步驟如下,需要把邊長是10千米的正方形分成1千米的小柵格,如果對定位數據集內的數據進行定位操作,就把主服務小區的基站經緯度為基礎對邊長為1千米的柵格開展計算,因為時區中移動終端和主服務小區的基站一般有不超過500米的距離,如果要獲取邊長1千米的柵格,就說明定位中心是柵格邊長是1千米的2千米柵格內,所以這是機器學習算法定位階段定位的區域。
(4)以向量機為基礎的二次定位。在進行初步定位后,選擇一個2千米邊長的正方形,因為第一級支持向量機定位的范圍是400米,第二季向量機對100米柵格的待定數據進行輸出,定位結果的輸出也就是以100米柵格為核心的經緯度。和一級向量機的定位相比較,二級向量機在定位時計算的復雜度比較小,在分類后對向量機進行計算時主要是決策函數計算與待分類樣本點所有類別向量機計算,如果得到的分類和全部向量機都有n數據,就要同時利用成對分類方法對眾多分類問題進行處理。定位的精度會隨柵格的變小而更高,因為增加分類的問題總量,定位的復雜度也得到增加,第一級向量機進行定位對柵格的大小進行選擇時,要對第二級柵格的大小決定后,把第一級與第二級分類的問題總量的最小化為根據進行選擇,保證在最小定位的階段對總量進行計算。
(5)以K-近鄰法為基礎的三次定位。首先要確定定位的區域,在二次輸出后輸出經緯度,借助經緯度選擇,選擇邊長區域,這是定位的基礎。接著是定位模型的訓練,K-近鄰法定位方法在訓練階段需要集中訓練的數據,以大小為參考依據進行合并,能夠有效的減少定位運算的次數,但是選擇的合并區域越大,定位的精度也就越低。
3 結語
綜上所述,機器學習算法在數據挖掘中的應用具有重要意義,能夠有效提升定位的速度和精度,因此需要引起相關人員的重視,不斷對其進行改進與完善,切實發揮出機器學習算法的作用,進而解決戶外移動終端的定位問題。
參考文獻
[1]陳小燕,CHENXiaoyan.機器學習算法在數據挖掘中的應用[J].現代電子技術,2015, v.38;No.451(20):11-14.
[2]李運.機器學習算法在數據挖掘中的應用[D].北京郵電大學,2014.
[3]莫雪峰.機器學習算法在數據挖掘中的應用[J].科教文匯,2016(7):175-178.