楊曉娟
(河南牧業經濟學院,河南 鄭州 450000)
數據挖掘技術是從海量、龐大的數據庫中,篩選和提取具有價值的信息數據,并對信息數據進行深入挖掘和分析。另外,在綜合應用物聯網技術和云計算技術的基礎上,完成對數據挖掘模型的構建,確保該模型具有功能運行良好、結構穩定可靠等特點,確保各種統計學因素進行有效的融合[1],從而實現對物聯網數據的高效化、智能化處理,使得物聯網數據處理成本降到最低。所以,充分發揮和利用數據挖掘技術的應用優勢,如何科學地設計數據挖掘模型是技術人員必須思考和解決的問題。
1.1.1 物聯網概念
物聯網作為一種重要網絡,可以將不同物體進行相連相通,有效突顯出信息時代特點。物聯網使用原理是借助智能感知技術,融會貫通處理網絡[2],保證物物相連的穩定性和可靠性,同時,還要有效地延伸和擴大互聯網客戶端。物聯網主要適用于智能交通、環境保護、智能家居等領域。
1.1.2 物聯網特點
物聯網主要具有以下幾個特點:(1)感知能力強。通過綜合運用多種傳感器,可以實現對多種實時數據的獲取,這些實時數據在形式、內容呈現上具有一定的差異。(2)智能化處理能力強。通過將物聯網與傳感器的有效結合,可以獲得較高的智能化處理能力,然后,從海量信息數據中,可以深入分析和挖掘出有價值的信息數據,從而滿足用戶的實際使用需求。
1.2.1 信息融合技術概念
信息融合技術又叫數據融合,主要通過運用計算機技術,對多種傳感器信息進行綜合化分析和處理,從而獲得有用的信息數據。另外,也可以融合處理多個傳感器信息,將多個信息源進行綜合化處理,從而獲得需要的信息數據[3]。然后,在關聯處理信息的基礎上,對身份信息和位置信息進行估計和確定。整個過程表現出一定的創新性和時效性,有利于后期數據結果的實時化更新和發布。
1.2.2 信息融合技術的基本方法
信息融合技術基本方法如圖1所示,可以看出,該技術基本方法主要包含以下幾種:(1)小波分析法。該方法除了可以直接分析分布特征信息外,還能分析分布特征信號。(2)加權平均法。通過加權平均法對傳感器收集的信息進行處理,并獲得相應的融合值,該融合值屬于平均值,是信息融合技術的典型應用[4]。(3)概率論法。通過概率論法對不同傳感器信息源進行分析和整理,有針對性地刪除錯誤信息、低水平信息,如果將先驗概率直接設置為已知條件,可以采用貝葉斯概率法獲得最終信息融合結果。(4)卡爾曼濾波法。該方法主要適用于傳感器冗余信息處理。線性系統在實際運行時,一旦產生的傳感器噪聲符合設置的建模條件,通過利用卡爾曼濾波法可以實現融合值的提取和統計,無需占用太大存儲空間,促使信息數據處理向高效化、實時化發展。(5)D-S證據理論方法。該方法主要適用于專家系統、人工智能等領域,可以實現對概率論的有效擴充。(6)模糊邏輯理論法。該方法內部主要用到多數據邏輯處理技術,在實際推理過程中,該方法可以真實、有效地突顯傳感器的隨機性和不確定性[5],被廣泛地應用于多傳感器信息融合領域,取得了良好的應用效果。(7)貝葉斯信息融合法。在融合處理多傳感器信息時,要使用概率,精確地表示不同傳感器傳遞的隨機性和不確定性,利用獨立決策,科學地劃分和處理樣本空間,最后,嚴格按照系統決策的相關標準和要求,獲得最終有價值的信息數據。

圖1 信息融合技術基本方法
物聯網與云計算兩種先進技術的有效結合是信息時代發展的必然趨勢。基于云計算的數據挖掘模型,如圖2所示,為后期高效化處理物聯網數據提供重要的技術支持。在具體設計中,數據挖掘模型除了用到挖掘算法的并行運行模式[6],還用到推薦算法的分布運行模式。另外,數據挖掘模型的設計,運用了分層設計思想,有效地保證物聯網數據處理的可靠性和有效性,使得物聯網數據處理效率得以顯著提升。數據挖掘模型主要包含以下幾個層次。

圖2 基于云計算的數據挖掘模型
云計算支撐平臺層設計,為用戶提供充足的數據存儲空間,使得模型具有較高的數據計算能力,因此,該層次被視為數據處理模型的“骨架”。在該模型中,主要用到第三方挖掘算法。整個模型業務運作方式主要利用云計算平臺[7],有效地突出物聯網的智能性和便捷性。
數據挖掘能力層設計為整個模型提供強大的數據挖掘功能。在具體設計中,該層次要從服務管理、數據并行處理等環節入手,保證框架處理水平,使得整個數據挖掘模型表現出較高的數據挖掘云服務能力。通常情況下,數據挖掘能力大小,對云計算服務性能和物聯網的服務能力產生明顯的影響。
數據挖掘云服務層通常會用到多種封裝接口,如對象訪問協議接口、XML接口、程序編程接口。物聯網技術的應用優勢是借助信息化技術為用戶提供更加優質的智能化服務體驗,而云計算技術的應用優勢是不斷地提高模型的服務能力[8]。在設計云服務層時,要利用這兩種技術的優勢,結合用戶實際需求,不斷地提高整個模型的服務水平。同時,通過設計云服務層,可以方便用戶快速地訪問各種數據庫查詢語句,促使數據在實際處理期間,表現出強大的語言轉化能力。
在整個物聯網中,通過運用不同種類的傳感器,對所需數據進行采集,發現采集到的數據主要以實時數據流為主,因此,在進行物聯網數據處理時,技術人員除了要重視對實時數據流的處理[9],還要重視對實時數據流的加工。本文以某出租車數據集為研究對象,將采集和處理好的出租車交通相關定位數據呈現在用戶面前,便于用戶全面、實時地了解和掌握當前城市實際交通狀況。此外,技術人員還要重視對原始系統的搭建,為后期和加工處理物聯網實時數據提供一定的便利。
在獲取傳感數據時,要利用出租車GPS技術,完成對行車軌跡信息的全面化獲取和整理,同時,還要做好原型系統的搭建,并對數據挖掘模型進行科學驗證。在采集某城市交通數據時,采集到的交通信息主要涉及8 000輛以上出租車當天行駛軌跡數據信息,采集到的傳感數據相對較多,為1 900萬條。為保證數據處理質量,技術人員要重點做好對以下兩種問題的處理:(1)交通狀況始終處于不斷變化的狀態,通過對重要數據的實時化、有效化處理,可以確保交通狀況信息的完整性和可靠性。(2)城市中的所有出租車在實際行駛時,均采用隨機行駛的方式,同時,所采集的數據在時空緯度上呈現的狀態特點為均勻性、稀疏性,這些數據主要分布于不同的道路中。所以,在實時估算法的應用背景下,可以完成對物聯網實時數據處理平臺的搭建和開發[10]。
為避免出現估算缺失值現象,技術人員要在構建多元線性回歸模型的基礎上,運用在線算法,精確地計算出相關系數。
vit=β0+β1v1t+β2v2t+...+βmvmt+μt
(1)
公式(1)中的vit表示出租車于t時刻,在ri區域內所對應的交通條件;vkt,k={1,2,3...m},表示出租車于t時刻,在rk中對應的交通條件;βk表示vit和vkt兩者之間的偏相關系數;μ表示隨機誤差項。
(2)
通過公式(2)可以精確地計算出系數估計值,在交通缺失情況下的估計算法。
通過geohash法(地址編碼方法)對地球表現經緯度進行科學化分割,并在指定的緯度、經度上,對地球經緯度進行不斷迭代二分處理,直到獲得最終精度位置即可。在原始二進制的應用背景下,可以實現對位置精度信息的安全化存儲和操作,同時,還能對geohash進行轉化,使其全部轉化為相應的浮點數,便于用戶結合所獲得的浮點數自動存儲和訪問需要的數據。另外,在geohash法的應用背景下,可以將二進制的字符串一一映射到浮點數中。在某個城市,確定的研究區域始終保持不變,運用二進制,獲得的字符串完全相同,在某出租車GPS數據集中,前10位字符串保持一致。此時,采用截斷的方式,對相同部位的字符串進行截斷處理,并對需要的數據進行壓縮處理,這為后期計算提供重要依據和參考。通過采用移位操作的方式,對有效位進行處理,可以獲得需要存儲的浮點數。為實現對整個運算流程的優化,需要將整個區域劃分為9個矩形,然后,獲得8個估算樣本參考區。結合確定好的估算速度方向,確定出空缺區域值,然后結合最終獲得的交通信息,開展相關估算工作。
在實時處理數據期間,出租車相關行駛軌跡數據按照設置好的時間順序,集中分布于消息隊列中。為保證實時數據處理效率和效果,在驗證原型系統結構時,需要重視對一種Spout業務和3種Bolt業務邏輯關系的處理。其中,在處理Bolt業務邏輯關系時,要做好對各條原始數據的切分處理,確保原始數據被直接處理為一種典型的標準化數據結構。在整個樣本區域中,當geohash劃分工作完成后,要重視對業務的聚合操縱處理,確保數據傳感速度顯著提升,如果采用傳統數據庫處理模式,會降低數據傳感速度。因此,在儲存數據時,要提高數據內存利用率,不斷縮短數據處理時間。另外,為提高實時數據處理水平,要利用5臺臺式計算機,完成集群運行環境的搭建,同時,將需要使用的操作系統安裝和固定于節點上,然后,利用Web頁面,將這些數據形象、直觀地呈現在用戶面前,保護用戶交互效率和效果。
通過靈活運用上述算法,完成分布式計算框架的設計,并結合當前計算機設備運行環境需求,突出數據處理的時效性。另外,在進行交換和訪問數據時,需要將計算單元時延設置為ms級,總之,原型系統結構經過驗證,發現在處理實時數據方面具有一定的可行性和可操作性。
綜上所述,在科學技術的不斷普及和推廣下,人們對網絡性能提出了更高的要求,本文通過綜合運用物聯網和云計算技術,完成對數據挖掘模型的科學化設計,并驗證該模型的有效性和可靠性。結果發現,與傳統數據處理模式相比,本文設計的數據挖掘模型具有較高的拓展性,不僅可以提高數據處理效率,還能保證數據處理準確度,為用戶提供更加優質的服務。