數據挖掘旨在利用智能數據分析技術,從海量數據中提取或挖掘潛在的知識和規律,為決策任務提供有效支撐.在大數據時代背景下,數據挖掘技術已在工業、金融、醫療、教育、交通、媒體等領域取得廣泛應用.然而,大數據的復雜多樣性也為數據挖掘研究在理論、方法、應用等多個層面提出了新的挑戰.
為及時反映國內同行在數據挖掘方面的研究進展,促進該領域的學術交流,并推動我國數據挖掘領域的創新發展,《計算機研究與發展》本次推出“數據挖掘前沿進展”專題.本專題得到了國內同行的廣泛關注,經公開征文共收到投稿65篇,審稿過程歷經2個月,每篇投稿由數據挖掘及相關領域的2位專家進行評審,3位特約編輯參考初審意見進行復審,最終有10篇優秀稿件入選本專題.此外,專題與第九屆中國數據挖掘會議(CCDM 2022)合作,所有專題錄用稿件在CCDM 2022會議報告交流.
首先,基于機器學習的智能數據分析技術是數據挖掘研究的基礎,同時也是熱點.姜高霞等人的論文“面向回歸任務的數值型標簽噪聲過濾算法”證明了針對回歸任務中數值型標簽噪聲數據的泛化誤差界,由此提出一種可解釋的噪聲過濾框架,并結合相對噪聲估計方法提出一種具體的相對噪聲過濾算法RNF;在標準數據集和年齡估計數據上的實驗結果表明,RNF算法不僅能夠適應各類噪聲數據,而且能夠顯著提升模型泛化能力.梁新彥等人的論文“多粒度融合驅動的超多視圖分類方法”針對現有融合算子在視圖數增多時面臨的諸多挑戰,采用由易到難建模視圖特征間關系的多粒度策略,提出了一種多粒度融合的超多視圖分類方法.劉兆清等人的論文“面向特征繼承性增減的在線分類算法”針對開放動態環境,提出了一種可處理特征繼承性增減的在線分類算法OFID,從理論上證明了OFID的損失上界,并通過大量的實驗驗證其有效性.任嘉睿等人的論文“基于元圖卷積的異質網絡嵌入學習算法”通過基于元圖的異構鄰接矩陣融合多條元路徑上的不同語義的計算,提出了一種基于元圖卷積的異質網絡嵌入學習算法MGCN,能夠挖掘節點間的高階間接關系,并降低圖卷積方法的嵌入維數,減少計算時間;在公開異質網絡數據集上的實驗表明,MGCN在節點分類、聚類任務上能獲得更好的性能且需更少的訓練時間.馬昂等人的論文“基于強化學習的知識圖譜綜述”對基于強化學習的知識圖譜相關研究進行了全面綜述,介紹了基于強化學習的知識圖譜方法如何應用于智能推薦、對話系統、游戲攻略、生物醫藥、金融、安全等領域,并對知識圖譜與強化學習相結合的未來發展方向進行了展望.
其次,研究特定類型數據挖掘技術在大數據時代具有重要意義.魏秀參等人的論文“面向增量分類的多示例學習”針對多示例學習下的增量數據挖掘任務,提出一種基于注意力機制和原型分類器映射的多示例增量數據挖掘方法,能夠在多示例學習下以極低的存儲代價保留模型的舊知識,有效地進行增量數據挖掘.武越等人的論文“點云配準中多維度信息融合的特征挖掘方法”針對點云配準任務,提出一種新穎的基于多維度信息融合的特征挖掘網絡,充分挖掘點云中的高維全局和低維局部信息,有效彌補了點云配準的全局特征提取階段局部特征的缺失;ModelNet40數據集上的大量實驗表明,該方法可獲得更高的精度,同時對噪聲具有較強的魯棒性.郭正山等人的論文“面向知識超圖鏈接預測的生成對抗負采樣方法”針對知識超圖鏈接預測任務,提出了生成對抗負采樣方法HyperGAN,無需預訓練,通過對抗訓練生成高質量負樣本以解決“零損失”問題,在性能與效率方面均優于已有方法.范偉等人的論文“基于時空Transformer的社交網絡信息傳播預測”針對社交網絡信息傳播預測任務,提出了一種基于時空Transformer的新模型STT,首先使用圖卷積網絡從由社交網絡圖和動態傳播圖組成的異構圖中學習用戶的結構特征,然后使用Transformer融合用戶的時序特征和結構特征,從而進行信息傳播預測.姚麗等人的論文“基于校園上網行為感知的學生成績預測方法”收集構建了一個同時包含學生校園上網行為和成績數據的真實數據集,并通過分析揭示了兩者之間存在一定的關聯性,由此提出一種端到端的雙層自注意力網絡DEAN,并通過結合多任務學習策略解決了面向不同專業的學生成績預測問題;實驗結果表明,提出方法DEAN具有更好的預測精度.
本專題主要面數據挖掘及相關領域的研究人員,反映了我國學者在數據挖掘等領域的前沿進展.在此,我們要特別感謝《計算機研究與發展》編委會對專題工作的指導和幫助,感謝編輯部各位老師在專題征文、論文評審與意見匯總、論文定稿、修改及出版各個階段付出的辛勤工作和汗水,感謝專題評審專家及時、耐心、細致的評審工作.此外,我們還要感謝向本專題踴躍投稿的作者對《計算機研究與發展》的信任.最后,感謝專題的讀者們,希望本專題能夠對相關領域的研究工作有所促進.