摘 要隨著科學技術(shù)的快速發(fā)展,各種新鮮的事物和理念得到了廣泛的應(yīng)用。其中機器學習算法就是一則典型案例——作為一種新型的算法,其廣泛應(yīng)用于各行各業(yè)之中。本篇論文旨在探討機器學習算法在數(shù)據(jù)挖掘中的具體應(yīng)用,我們利用龐大的移動終端數(shù)據(jù)網(wǎng)絡(luò),加強了基于GSM網(wǎng)絡(luò)的戶外終端定位,從而提出了3個階段的定位算法,有效提高了定位的精準度和速度。
【關(guān)鍵詞】學習算法 GSM網(wǎng)絡(luò) 定位 數(shù)據(jù)
移動終端定位技術(shù)由來已久,其主要是利用各種科學技術(shù)手段定位移動物體的精準位置以及高度。目前,移動終端定位技術(shù)主要應(yīng)用于軍事定位、緊急救援、網(wǎng)絡(luò)優(yōu)化、地圖導航等多個現(xiàn)代化的領(lǐng)域,由于移動終端定位技術(shù)可以提供精準的位置服務(wù)信息,所以其在市場上還是有較大的需求的,這也為移動終端定位技術(shù)的優(yōu)化和發(fā)展,提供了推動力。隨著通信網(wǎng)絡(luò)普及,移動終端定位技術(shù)的發(fā)展也得到了一些幫助,使得其定位的精準度和速度都得到了全面的優(yōu)化和提升。同時,傳統(tǒng)的定位方法結(jié)合先進的算法來進行精準定位,目前依舊還是有較大的進步空間。在工作中我選取機器學習算法結(jié)合數(shù)據(jù)挖掘技術(shù)對傳統(tǒng)定位技術(shù)加以改進,取得了不錯的效果,但也遇到了許多問題,例如:使用機器學習算法來進行精準定位暫時無法滿足更大的區(qū)域要求,還有想要利用較低的設(shè)備成本,實現(xiàn)得到更多的精準定位的要求比較困難。所以本文對機器學習算法進行了深入的研究,希望能夠幫助其更快速的定位、更精準的定位,滿足市場的需要。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫知識篩選中非常重要的一步。數(shù)據(jù)挖掘其實指的就是在大量的數(shù)據(jù)中通過算法找到有用信息的行為。一般情況下,數(shù)據(jù)挖掘都會和計算機科學緊密聯(lián)系在一起,通過統(tǒng)計集合、在線剖析、檢索篩選、機器學習、參數(shù)識別等多種方法來實現(xiàn)最初的目標。統(tǒng)計算法和機器學習算法是數(shù)據(jù)挖掘算法里面應(yīng)用得比較廣泛的兩類。統(tǒng)計算法依賴于概率分析,然后進行相關(guān)性判斷,由此來執(zhí)行運算。
而機器學習算法主要依靠人工智能科技,通過大量的樣本收集、學習和訓練,可以自動匹配運算所需的相關(guān)參數(shù)及模式。它綜合了數(shù)學、物理學、自動化和計算機科學等多種學習理論,雖然能夠應(yīng)用的領(lǐng)域和目標各不相同,但是這些算法都可以被獨立使用運算,當然也可以相互幫助,綜合應(yīng)用,可以說是一種可以“因時而變”、“因事而變”的算法。在機器學習算法的領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)是比較重要和常見的一種。因為它的優(yōu)秀的數(shù)據(jù)處理和演練、學習的能力較強。
而且對于問題數(shù)據(jù)還可以進行精準的識別與處理分析,所以應(yīng)用的頻次更多。人工神經(jīng)網(wǎng)絡(luò)依賴于多種多樣的建模模型來進行工作,由此來滿足不同的數(shù)據(jù)需求。綜合來看,人工神經(jīng)網(wǎng)絡(luò)的建模,它的精準度比較高,綜合表述能力優(yōu)秀,而且在應(yīng)用的過程中,不需要依賴專家的輔助力量,雖然仍有缺陷,比如在訓練數(shù)據(jù)的時候耗時較多,知識的理解能力還沒有達到智能化的標準,但是,相對于其他方式而言,人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢依舊是比較突出的。
2 以機器學習算法為基礎(chǔ)的GSM網(wǎng)絡(luò)定位
2.1 定位問題的建模
建模的過程主要是以支持向量機定位方式作為基礎(chǔ),把定位的位置柵格化,面積較小的柵格位置就是獨立的一種類別,在定位的位置內(nèi),我們收集數(shù)目龐大的終端測量數(shù)據(jù),然后利用計算機對測量報告進行分析處理,測量柵格的距離度量和精準度,然后對移動終端柵格進行預估判斷,最終利用機器學習進行分析求解。
2.2 采集數(shù)據(jù)和預處理
本次研究,我們采用的模型對象是我國某一個周邊長達10千米的二線城市。在該城市區(qū)域內(nèi),我們測量了四個不同時間段內(nèi)的數(shù)據(jù),為了保證機器學習算法定位的精準性和有效性,我們把其中的三批數(shù)據(jù)作為訓練數(shù)據(jù),最后一組數(shù)據(jù)作為定位數(shù)據(jù),然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓練數(shù)據(jù)的相關(guān)信息進行清除。一旦確定某一待定位數(shù)據(jù),就要在不同的時間內(nèi)進行測量,按照測量出的數(shù)據(jù)信息的經(jīng)緯度和平均值,再進行換算,最終,得到真實的數(shù)據(jù)量,提升定位的速度以及有效程度。
2.3 以基站的經(jīng)緯度為基礎(chǔ)的初步定位
用機器學習算法來進行移動終端定位,其復雜性也是比較大的,一旦區(qū)域面積增加,那么模型和分類也相應(yīng)增加,而且更加復雜,所以,利用機器學習算法來進行移動終端定位的過程,會隨著定位區(qū)域面積的增大,而耗費更多的時間。利用基站的經(jīng)緯度作為基礎(chǔ)來進行早期的定位,則需要以下幾個步驟:要將邊長為十千米的正方形分割成一千米的小柵格,如果想要定位數(shù)據(jù)集內(nèi)的相關(guān)信息,就要選擇對邊長是一千米的小柵格進行計算,而如果是想要獲得邊長一千米的大柵格,就要對邊長是一千米的柵格精心計算。
2.4 以向量機為基礎(chǔ)的二次定位
在完成初步定位工作后,要確定一個邊長為兩千米的正方形,由于第一級支持向量機定位的區(qū)域是四百米,定位輸出的是以一百米柵格作為中心點的經(jīng)緯度數(shù)據(jù)信息,相對于一級向量機的定位而言,二級向量機在定位計算的時候難度是較低的,更加簡便。后期的預算主要依賴決策函數(shù)計算和樣本向量機計算。隨著柵格的變小,定位的精準度將越來越高,而由于增加分類的問題數(shù)量是上升的,所以,定位的復雜度也是相對增加的。
2.5 以K-近鄰法為基礎(chǔ)的三次定位
第一步要做的就是選定需要定位的區(qū)域面積,在二次輸出之后,確定其經(jīng)緯度,然后依賴經(jīng)緯度來確定邊長面積,這些都是進行區(qū)域定位的基礎(chǔ)性工作,緊接著就是定位模型的訓練。以K-近鄰法為基礎(chǔ)的三次定位需要的是綜合訓練信息數(shù)據(jù),對于這些信息數(shù)據(jù),要以大小為選擇依據(jù)進行篩選和合并,這樣就能夠減少計算的重復性。當然了,選擇的區(qū)域面積越大,其定位的速度和精準性也就越低。
3 結(jié)語
近年來,隨著我國科學技術(shù)的不斷發(fā)展和進步,數(shù)據(jù)挖掘技術(shù)愈加重要。根據(jù)上面的研究,我們證明了,在數(shù)據(jù)挖掘的過程中,應(yīng)用機器學習算法具有舉足輕重的作用。作為一門多領(lǐng)域互相交叉的知識學科,它能夠幫助我們提升定位的精準度以及定位速度,可以被廣泛的應(yīng)用于各行各業(yè)。所以,對于機器學習算法,相關(guān)人員要加以重視,不斷的進行改良以及改善,切實的發(fā)揮其有利的方面,將其廣泛應(yīng)用于智能定位的各個領(lǐng)域,幫助我們解決關(guān)于戶外移動終端的定位的問題。
參考文獻
[1]陳小燕,CHENXiaoyan.機器學習算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù),2015,v.38;No.451(20):11-14.
[2]李運.機器學習算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京郵電大學,2014.
[3]莫雪峰.機器學習算法在數(shù)據(jù)挖掘中的應(yīng)用[J].科教文匯,2016(07):175-178.
作者簡介
楊金勞(1982-),女,山西省運城市人。碩士學位。現(xiàn)為山西運城農(nóng)業(yè)職業(yè)技術(shù)學院講師。研究方向為數(shù)據(jù)庫、數(shù)據(jù)挖掘、軟件開發(fā)。
作者單位
山西運城農(nóng)業(yè)職業(yè)技術(shù)學院 山西省運城市 044000