摘 要:相似性度量在聚類算法設計中起關鍵作用,使用合適的距離度量函數能夠反映數據對象間的相似性。本文對聚類算法中數據對象間相似性度量的特征進行了系統性歸納總結,通過MapReduce編程模型實現對各種相似性度量聚類算法的實驗比較分析,將為聚類分析研究者提供參考。
關鍵詞:聚類;相似性度量;MapReduce
中圖分類號:TP311.13;TP391.1 文獻標識碼:A 文章編號:2096-4706(2018)11-0010-03
Research on Similarity Measurement Analysis of
Clustering Algorithm Based on MapReduce
PENG Tianhao,PAN Youshun,YANG Shenglin
(Moutai Institute,Department of Brewing Engineering Automation,Renhuai 564507,China)
Abstract:The similarity measure plays a key role in clustering algorithms. Using appropriate distance measure function can reflect the similarity between data objects. This paper aims to conduct a systematic summary on data objects similarity measure in clustering algorithms. The paper will also implement comparative analysis on various similarity measure clustering algorithms by MapReduce programming model,which can provide references to researchers on clustering algorithms.
Keywords:clustering;similarity measure;MapReduce
0 引 言
聚類分析的研究已有很長歷史,是數據挖掘、模式識別等方面的重要研究內容之一,已經廣泛應用于電子商務、圖像識別、文本分類、Web搜索及生物信息等領域。聚類是一個把數據對象劃分成子集的過程[1],是一個無監督的分類[2],在數據對象分類分組中發揮著重要作用,分類后同一個類中的數據對象盡可能相似,不同類中數據對象盡可能相異。典型的聚類分析過程包括如下三個步驟。
第一,特征選擇和特征提取。特征選擇是指從原始數據集中,選擇質量好最有效的特征,以此作為進一步分析的數據對象。特征提取是指在特征選擇基礎上,通過對已經選擇好的特征進行某種轉換后產生的突出特征。該步驟非常重要,能夠提升聚類算法的執行效率,特別是在對復雜數據和高維數據進行聚類時更能突顯其重要性。
第二,聚類算法設計。選擇合適的聚類算法進行聚類,聚類算法要給出具體的數據對象間距離度量函數及構建相應的目標函數,根據實際應用來選擇確定距離度量函數,這 將直接影響聚類效果。……