陳恩紅,陳玉瑩,潘 鎮,李 徵
(中國科學技術大學 計算機科學與技術學院 大數據分析與應用安徽省重點實驗室,安徽 合肥 230027)
近幾十年來,伴隨著整個社會對移動互聯網的廣泛接受,用戶產生的數據呈現出爆炸式增長[1],如新浪的日活微博超過1.34億,Twitter的總用戶量已經超過5億.與此同時,人們利用信息技術進行生產和搜集數據的能力也大幅度提高[2].遍布各個行業的海量數據包含大量和用戶相關的信息,利用機器學習、數據挖掘的建模方法可以對用戶的行為數據進行深度分析,挖掘出用戶行為數據背后隱藏的興趣愛好、消費傾向,為企業在市場競爭中留住已有用戶、吸引潛在用戶提供重要的技術支撐.因此,用戶行為分析成為工業界和學術界廣泛關注的課題[3-4].
在現實世界中,用戶在很多場景中的行為是序列化的,很多信息呈現序列特征[5-6],這種序列數據在用戶行為分析中也得到了極大的體現.例如:現代電商平臺的用戶瀏覽購買數據包含了長期和短期兩種不同模式的興趣愛好[7-8];基于社交媒體的微博數據往往是以時間線的形式呈現,用戶在不同時刻產生的文本等內容往往在主題和情感上各不相同[9];基于在線學習平臺的學生數據往往以周期形式變化,學生在不同學習階段的學習內容和知識水平也會各不相同[10].因此,序列信息成為用戶行為分析中十分重要的影響因素.圍繞該領域的相關研究中,一個主要的挑戰就是……