朱宏列 戚欣
摘? 要: 利用數據挖掘技術能夠從智慧城市建設產生的海量數據中挖掘出有價值的信息,有效地推動智慧城市的建設和發展。文章主要論述了數據挖掘技術的基本概念和技術分類,介紹和分析了數據挖掘技術在智慧城市建設中城市規劃、氣象預警、交通、電網的應用。
關鍵詞: 數據挖掘; 智慧城市; 城市規劃; 應用
中圖分類號:TP399? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)10-40-03
Abstract: The application of data mining technology can tap valuable information from the massive data generated in the construction of smart city, and effectively promote the construction and development of smart city. This paper discusses the basic concept and technical classification of data mining technology, introduces and analyzes the application of data mining technology in urban planning, meteorological early warning, transportation and power grid in the construction of smart city.
Key words: data mining; smart city; urban planning; application
0 引言
目前,城市越來越傾向于使用專門技術來解決社會、生態等問題,而隨著物聯網技術和大數據興起,促使智能建筑、智慧小區、智慧城市等新概念被提出。智慧城市利用信息和通信技術將經濟、文化、交通、娛樂等方面都與數字信息緊密的聯合在一起,城市數據的激增為城市的設計和管理帶來了新的可能性,而通過數據挖掘技術處理大數據,可以極大地促進城市結構、可持續性和宜居性方面的發展。
1 數據挖掘的概念與技術
數據挖掘是從大型數據庫中抽取出未知的、有意義的關系、趨勢、和模式的過程,是數據庫研究中具有重要價值的研究領域,其廣泛應用在金融、醫療、電信、人工智能等領域[1]。
數據挖掘技術主要涉及關聯規則、分類、聚類、偏差、序列模式等。
⑴ 關聯規則:關聯規則是目前數據挖掘應用中運用最廣泛的方法,主要是描述數據庫中兩個或多個對象之間存在的某種聯系[2]。
⑵ 分類:分類是根據數據集的特性構造分類器,將樣本對象劃分到給定類別之中的方法。該過程分為兩步,構造分類器和利用分類器對數據進行分類。分類是一種有監督學習,在分類之前就已經確定了劃分的類別。
⑶ 聚類:聚類是將大量數據分成若干組或簇,使得每個類之間的相似性最小,每個類中的數據相似性最大。聚類是一種非監督學習,要劃分的類別是未知的。
⑷ 偏差:在海量數據中會出現個別數據與其他數據之間存在很大誤差,這類數據在處理時往往被舍棄,但是誤差數據在某些特定問題分析上具有重要作用,被廣泛應用到金融市場風險預測。
⑸ 序列模式:序列是描述數據庫中數據項之間存在的時間規律或者其他關系。序列模式與關聯規則相比較,其重點考慮數據之間的時序關系。序列模式廣泛應用在DNA序列分析,Web日志序列模式挖掘,自然災害預測等。
2 數據挖掘在智慧城市中的應用
2.1 城市規劃
城市規劃是智慧城市建設、管理與發展的重要依據,而智慧城市是一個多元化空間結構,故在構建城市結構、功能區域劃分時,應當注重以人為本和環境保護,以建設服務型城市為根本。但是目前城市規劃面臨著老工業區遷入和劃分、商業區與居住區的功能升級、城中村改造等問題[3]。基于智慧城市的大數據,數據挖掘技術可以從中挖掘出城市變化規律與人們的生活規律、市場變化等,這對城市規劃起著重要作用。
針對城市建設規劃問題,謝榕[4]提出基于數據倉庫的城市規劃決策支持系統的基本框架,為規劃部門提供全局范圍戰略決策和有效分析提供支持。
在功能區識別方面,韓昊英等[5]以數據挖掘技術構建了城市功能區識別模型,利用北京市公交刷卡數據,實現對其功能區的快速識別,對把握城市結構和規劃具有時間價值。
陳世莉等[6]利用時空語義挖掘方法對廣州市6個區的GPS以及興趣點數據進行挖掘并建立狄利克雷模型,為研究人類活動對城市建設的影響提供新的視角。
2.2 氣象環境預警
近年來,我國極端天氣頻發,暴雨、暴雪、高溫、大風、冰雹等天氣都會對城市基礎服務設施以及建筑造成嚴重破壞,經濟損失極大,所以提高氣象環境預警的準確性成為智慧城市建設的重點。氣象數據龐大,蘊含大量氣象規律,傳統預警方法在處理氣象數據上顯得力不從心,而基于數據挖掘技術的氣象環境預警,大大提高了氣象災害預警時效性。
Bartok等[7]介紹了數據挖掘對預測大霧和低云量的參數化模型以及運行預測模型、訓練模型和挖掘數據所需的分布式氣象數據的集成方法,能夠高效預測天氣變化。
Vathsala等[8]選取36個變量作為印度夏季風降水的可能預測因子,將關聯規則挖掘應用于36個變量的屬性選擇,對印度地區、中西部地區和半島地區的降水進行預測,具有較好的效果。在文獻[9]中,Vathsala又提出了一種數據挖掘與統計技術相結合的算法,利用關聯規則選擇預測器,然后對預測器進行聚類,利用印度熱帶氣象研究所的數據,驗證了該方法的精準度。
2.3 智慧交通
近年來,城市人口不斷增加,城市交通壓力也隨之增加,隨著城市經濟的不斷發展,城市居民對于出行體驗也越來越重視。智慧交通是以GPS數據、客流數據、視頻監控數據為基礎,充分利用信息技術、傳感技術、物聯網技術等實現對交通管理、交通監控的應用,而智慧交通的引用成為減緩交通壓力的重要措施,也使得智慧交通成為智慧城市建設的重要部分。但是智慧交通中的數據越來越龐大,面對交通管理中產生的海量數據,傳統技術已無法從中獲得有利信息,因此數據挖掘技術可以更好地應用到智慧交通中來。
在智能交通系統(ITS)中,張汝華等[10]提出將信息融合與數據挖掘技術集成到系統中,以優化系統結構與數據處理能力,為交通系統運行提供決策支持。
Sinha等[11]提出了一種新的路徑選擇方法,利用網絡模型和無監督機器學習來對現有的路徑規劃算法進行改進,利用網絡和支持向量機,為每個分區網格生成路由表,并確定有效的導航路徑。
Madani等[12]提出了一種識別感興趣區域的新算法,通過實驗證明該算法能夠抵抗各種相機分辨率、交通量、光照條件、相機抖動等情況,并簡化大規模開放式攝像機交通視頻挖掘任務的整體設計。
2.4 智慧電網
近年來,隨著綠色能源、節能減排、可持續發展等理念的提出,我國開始關注能源問題,將信息技術和通信技術應用到電網建設中以優化能源效率成為一大熱點。智能電網作為一種現代化的輸電網絡,運用挖掘技術發現可用信息來調整電力生產和分配、優化電力系統的管理成為一種需求。
牛東曉等[13]針對負荷數據預處理提出基于模糊分類器和灰色關聯分析的數據挖掘技術,再由SVM預測系統對短期負荷進行預測,有效提高了預測精度。
Saleh等[14]提出一種基于數據挖掘技術的負荷預測策略,采用基于距離的異常值抑制、混合特征選擇以及結合NB和KNN算法的負載估計方法,有效提高了電力負荷預測的精度、靈敏度、準確性等。
3 結束語
就目前的情況來看,大數據已經成為了智慧城市建設的重要依托,數據挖掘技術成為智慧城市規劃與建設的重要技術手段。現階段智慧城市建設被廣泛關注,其面臨諸多問題如數據海量化、碎片化、種類多,如何在不同問題上選擇并優化挖掘算法是目前的研究重點,未來應研究城市智能一體化框架,將多方面城市建設匯集在一個平臺上實現數據共享,并堅持“以人為本”的思想,保證數據隱私安全,切實提高智慧城市的服務質量。
參考文獻(References):
[1] 王光宏,蔣平.數據挖掘綜述[J].同濟大學學報(自然科學版),2004.32(2):246-252
[2] Tan PN, Steinbach M, Kumar V. 數據挖掘導論[M].人民郵電出版社,2011.
[3] 牟乃夏,張恒才,陳潔等.軌跡數據挖掘城市應用研究綜述[J].地球信息科學學報,2015.17(10):1136-1142
[4] 謝榕.數據倉庫及其在城市規劃決策支持系統中的應用探討[J].武漢測繪科技大學學報,2000.25(2): 172-177
[5] 韓昊英,于翔,龍瀛.基于北京公交刷卡數據和興趣點的功能區識別[J].城市規劃,2016.40(6):52-60
[6] 陳世莉,陶海燕,李旭亮等.基于潛在語義信息的城市功能區識別——廣州市浮動車GPS時空數據挖掘[J].地理學報,2016.71(3):471-483
[7] Bartok J, Habala O, Bednar P, et al. Data Mining and Integration for Predicting Significant Meteorological Phenomena[J]. Procedia Computer Science,2010.1:37-46
[8] Vathsala H, Koolagudi SG. Closed Item-set Mining for Prediction of Indian Summer Monsoon Rainfall a Data Mining Model with Land and Ocean Variables as Predictors[J]. Procedia Computer Science,2015.54:271-280
[9] Vathsala H, Koolagudi SG. Prediction Model for Peninsular Indian Summer Monsoon Rainfall Using Data Mining and Statistical Approaches[J].Computers & Geosciences,2017.98:55-63
[10] 張汝華,楊曉光,嚴海.智能交通信息特征分析與處理系統設計[J].交通運輸系統工程與信息,2003.3(4):27-33
[11] Sinha S, Nirala MK, Ghosh S, et al. Hybrid Path Planner for Efficient Navigation in Urban Road Networks Through Analysis of Trajectory Traces[C]//2018 24th International Conference on Pattern Recognition (icpr), Piscataway: Ieee,2018: 3250-3255
[12] Madani A, Kumar S, Nguyen LB, et al. A Robust Road Region of Interest Identification Scheme for Traffic-video Data Mining[C]//2019 International Conference on Computing,Networking and Communications (icnc), Piscataway: Ieee,2019: 905-910
[13] 牛東曉,谷志紅,邢棉等.基于數據挖掘的SVM短期負荷預測方法研究[J].中國電機工程學報,2006.26(18):6-12
[14] Saleh AI, Rabie AH, Abo-al-ez KM. A Data Mining Based Load Forecasting Strategy for Smart Electrical Grids[J].Advanced Engineering Informatics,2016.30(3):422-448