




摘 要:為了解決社交網絡隱式用戶行為數據挖掘過程中關聯相似性計算較為困難的問題,提出了基于決策樹的社交網絡隱式用戶行為數據挖掘方法。將社交網絡視為包含不同維度的向量空間,計算特定維度上用戶的興趣空間和興趣點。確定樣本屬性集后,根據已知行為數據建立測試分支,計算該分支下子集的屬性權重,不斷迭代直至挖掘到同等屬性的數據點為止。測試結果表明:該方法可對不同種類隱式用戶行為精準挖掘,目標行為數據查找效果較好,實用性較強。
關 鍵 詞:決策樹;社交網絡;隱式用戶行為;向量空間;屬性集;數據挖掘;權重值;屬性元素
中圖分類號:TP399.8 文獻標志碼:A 文章編號:1000-1646(2024)03-0312-06
隨著數字化技術的蓬勃發展,電子信息和數字技術已經完全融入人們的生活中。社交網絡的不斷發展給人們的生活創造了更多便利條件[1]。社交網絡占據了人們信息生活的重要組成部分,加快了社會行為向網絡行為、現實社會關系向網絡社交關系的轉化[2]。作為信息化技術的載體,社交網絡中包含大量數據信息,且隨著網絡用戶數量的不斷增加,數據量逐漸增大,造成了信息爆炸現象。此外,社交網絡的迅速發展產生了大量帶有時空信息的短文本數據[3],不可避免地會造成社區漏洞、黑客入侵和木馬病毒等現象。為了提高網絡運營的安全性,對網絡社區用戶進行數據盤查具有重要意義。
不同于固定模式網絡,社交網絡中存在大量用戶隱式數據,雖然可以通過觀測用戶在瀏覽網絡時所選取的動作來獲取隱式反饋數據[4],但這種數據缺少一定的聚類中心屬性,其他屬性也難以被直接定義,導致其存在挖掘困難的問題。相關學者針對這一問題提出了一系列解決方法。陳萬志等[5]在采集用戶行為數據基礎上捕捉特征關鍵字,再利用關鍵字在網絡社區中查找上網總時長、總流量等行為數據。然后采用映射擴展法對行為特征進行密度聚類和譜聚類,將聚類結果作為遺傳算法的初始輸入值進行相關預測和挖掘,該方法整體運算過程較為復雜,每個步驟之間關聯性較弱,容易產生計算偏差。閆永君[6]根據時間特性挖掘信息用戶行為特征,通過計算滑動窗口內的數據均值獲得起始序列向量,然后將用戶行為劃分成若干等值時間片,通過取樣統計用戶行為,再以平均查詢頻率為指標,提取用戶查詢行為特征,該方法未考慮用戶行為的多樣性,特征計算過程過于單一,易導致誤差較大。