數據挖掘旨在利用機器學習等智能數據分析技術,發掘數據對象蘊含的知識與規律,為任務決策提供有效支撐.國務院印發的《新一代人工智能發展規劃》中明確指出,數據挖掘是建立新一代人工智能關鍵共性技術體系的基礎支撐.在大數據時代背景下,數據挖掘技術已廣泛應用于金融、醫療、教育、交通、媒體等領域.然而,隨著人工智能、移動互聯網、云計算等信息技術的快速發展,數據挖掘研究在理論、方法、應用等多個層面均面臨新的挑戰.
為及時反映國內同行在數據挖掘方面的前沿研究成果,《計算機研究與發展》本次推出“數據挖掘與知識發現”專題,以進一步推動我國數據挖掘及相關領域的創新發展.本專題得到了國內同行的廣泛關注,經公開征文共收到投稿74篇.此外,專題組稿與第八屆中國數據挖掘會議(CCDM 2020)合作,從285篇會議投稿中遴選出5篇高質量論文.特約編輯先后邀請多位數據挖掘及相關領域的專家參與審稿工作,稿件評審歷經4個月,最終有18篇論文入選本專題.
首先,發展適于大數據特性的數據挖掘理論與方法,是大數據時代數據挖掘與知識發現研究的基礎.
丁成誠等人的論文“一種三參數統一化動量方法及其最優收斂速率”針對現有動量方法存在的需固定迭代步數和無約束等限制,提出了一種含三參數的統一化動量方法TPUM,證明了該方法在求解有約束非光滑凸優化問題時具有最優的平均收斂速率,并推廣至隨機情況.王婕婷等人的論文“消除隨機一致性的支持向量機分類方法”針對傳統支持向量機學習過程存在的隨機一致性問題,給出了從準確度中消除隨機一致部分的純準確度指標,并提出了基于純準確度指標的支持向量機模型PASVM.賀一笑等人的論文“蒙德里安深度森林”針對增量場景下構建基于不可微模塊的深度模型問題,提出了具有逐層處理能力的蒙德里安深度森林,通過級聯森林結構和自適應機制逐層提升預測性能.鞠卓亞等人的論文“基于選擇性模式的貝葉斯分類算法”針對如何減弱樸素貝葉斯網絡中的屬性條件獨立假設限制問題,將選擇性模式區分能力引入貝葉斯分類算法,結合特定模式與聚合單層依賴分類器從而平衡模式內外屬性間的依賴關系.孟銀鳳等人的論文“線性正則化函數Logistic模型”面向函數型數據的二分類問題,通過對基于函數樣例的似然函數與控制模型復雜度的正則化項進行線性加權組合,提出了一種線性正則化函數Logistic模型.夏冬雪等人的論文“基于鄰域多核學習的后融合多視圖聚類算法”面向基于圖譜理論的多視圖聚類問題,提出了一種基于鄰域多核學習的后融合多視圖聚類算法,并給出了相似圖構建、多核組合、類指示生成矩陣生成的協同優化方案.劉艷芳等人的論文“基于自適應鄰域嵌入的無監督特征選擇算法”針對基于k近鄰的無監督特征選擇方法忽略數據分布不均的問題,通過考察樣本的分布稠密程度構造樣本相似矩陣,提出了自適應鄰域嵌入無監督特征選擇算法ANEFS.
其次,數據驅動是數據挖掘與知識發現的基本特性,研究特定類型數據挖掘與分析技術具有重要意義.
鄭憶美等人的論文“一種度修正的屬性網絡隨機塊模型”面向屬性網絡社區檢測任務,提出了一種基于隨機塊模型的屬性網絡社區檢測方法,在節點鏈接生成過程中引入度修正提升屬性網絡社區檢測性能.陳可佳等人的論文“條件變分時序圖自編碼器”面向動態網絡表示學習問題,提出了一種基于時序圖卷積和條件變分自編碼器的動態網絡表示學習方法TS-CVGAE,實現動態網絡局部結構與時間演化模式的同步學習.陳亦琦等人的論文“基于復合關系圖卷積的屬性網絡嵌入方法”針對無監督屬性網絡嵌入問題,提出了一種考慮屬性網絡構造節點與其屬性間復合關系的圖卷積網絡模型,從而保留網絡中豐富的屬性信息.朱穎雯等人的論文“基于隨機投影的高維數據流聚類”面向高維數據流聚類問題,通過結合隨機投影與自適應諧振理論,提出了一種僅具有線性復雜度且僅包含單個魯棒超參數的高效聚類算法RPFART.孫肖依等人的論文“基于列表級排序的深度生成推薦方法”針對基于變分自編碼器的推薦方法,在隱式反饋數據上為用戶生成個性化排序推薦列表,提出了一種應用列表級排序學習方法的深度生成推薦模型.劉興波等人的論文“基于雙向線性回歸的監督離散跨模態散列方法”針對跨模態檢索問題,通過采用雙向映射矩陣描述散列矩陣與標簽矩陣關系,提出了一種保持散列碼與標簽語義相關性的有監督離散跨模態散列方法SDCH.
此外,數據挖掘技術在交通、教育、醫療、金融等諸多領域具有廣泛的應用價值.
杜圣東等人的論文“一種基于序列到序列時空注意力學習的交通流預測模型”針對城市交通流預測問題,通過集成序列到序列深度學習結構、卷積LSTM網絡以及時空注意力機制,提出了一種面向多通道多變量序列數據的交通流預測模型.李夢瑩等人的論文“基于雙路注意力機制的學生成績預測模型”通過分析學生個體差異性以及不同因素對學生成績的影響程度,提出雙路注意力機制充分學習各屬性特征與成績間的關系信息,在提升預測性能的同時具有良好的可解釋性.鄭值等人的論文“基于多源情境協同感知的藥品推薦”采用主題模型將患者的情境信息表示為情境主題分布,提出了一種整合多源異構情境信息的藥品推薦方法,并在真實電子病歷數據集上驗證了方法的有效性與魯棒性.陳彥敏等人的論文“基于層級注意力機制的互聯網用戶信用評估框架”針對互聯網用戶信用評估問題,提出了一種基于互聯網用戶畫像的層級注意力機制信用評估模型,體現用戶屬性層次結構關系并挖掘不同粒度屬性的重要程度.林培光等人的論文“SCONV:一種基于情感分析的金融市場趨勢預測方法”通過融合語義分析與帶卷積的LSTM模型,將原始金融交易數據與股民評價作為模型輸入,提出了一種基于情感分析的價格預測深度學習模型.
本專題主要面向數據挖掘及相關領域的研究人員,反映了我國學者在數據挖掘等領域研究的前沿進展.在此,特別感謝《計算機研究與發展》編委會對專題工作的指導和幫助,感謝編輯部各位老師在征稿啟示發布、論文評審與意見匯總、論文定稿、修改及出版各個階段付出的辛勤工作,感謝專題評審專家及時、耐心、細致的評審工作.此外,我們還要感謝向本專題踴躍投稿的作者對《計算機研究與發展》的信任.
最后,希望本專題能夠對相關領域的研究工作有所裨益.