在當前大數(shù)據(jù)時代,海量數(shù)據(jù)的挖掘和分析尤為重要,數(shù)據(jù)挖掘技術(shù)在媒體、金融、醫(yī)療、交通、電商等領(lǐng)域都取得了廣泛的應(yīng)用.但是,大數(shù)據(jù)的復雜多樣性以及數(shù)據(jù)挖掘技術(shù)在各行業(yè)應(yīng)用的特殊性也為數(shù)據(jù)挖掘領(lǐng)域提出了新的理論和技術(shù)挑戰(zhàn).為及時反映國內(nèi)同行在數(shù)據(jù)挖掘領(lǐng)域的最新研究成果,《計算機研究與發(fā)展》本次推出“數(shù)據(jù)挖掘前沿進展”專題征文,以進一步推動我國數(shù)據(jù)挖掘領(lǐng)域的創(chuàng)新發(fā)展.
本專題得到了國內(nèi)同行的廣泛關(guān)注,經(jīng)公開征文共收到稿件55篇.特約編委邀請多位數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的專家參與審稿工作,每篇稿件都由2位專家進行初審,2位特邀編委參考初審意見進行了復審,從中選擇出了11篇優(yōu)秀稿件.此外,專題與第7屆中國數(shù)據(jù)挖掘會議(CCDM 2018)合作,從333篇會議投稿中遴選出了6篇高質(zhì)量稿件納入本專題.最終共有17篇稿件入選本專題.
首先,在大數(shù)據(jù)時代背景下,研究面向特定應(yīng)用領(lǐng)域的數(shù)據(jù)挖掘方法與技術(shù)具有重要意義.
史玉良等人的論文“基于用電特征分析的竊電行為識別方法”對獲取的用戶竊電行為數(shù)據(jù)進行分析、處理,提出一種基于用電特征分析的竊電行為識別方法,實現(xiàn)對竊電嫌疑用戶的篩查;謝娟英等人的論文“蝴蝶種類自動識別研究”發(fā)布了一個同時包含標本照片和生態(tài)照片的蝴蝶圖像數(shù)據(jù)集,并提出基于深度學習技術(shù)的蝴蝶種類自動識別系統(tǒng),包含對蝴蝶的位置自動檢測和物種鑒定;杜航原等人的論文“基于網(wǎng)絡(luò)節(jié)點中心性度量的重疊社區(qū)發(fā)現(xiàn)算法”基于搜索密度峰值的聚類思想,設(shè)計了一種網(wǎng)絡(luò)節(jié)點的中心性度量模型,并提出了一種重疊社區(qū)發(fā)現(xiàn)算法;梁吉業(yè)等人的論文“面向短文本分析的分布式表示模型”提出了一種詞對主題句向量模型(BTPV),該模型將詞對主題模型(BTM)得出的主題信息融入Paragraph Vector中;崔婉秋等人的論文“面向微博短文本的社交與概念化語義擴展搜索方法”融合文本語義和標簽等社交結(jié)構(gòu)信息,用社交語義對文本做進一步擴充,在此之下挖掘微博文本之間更多的潛在語義關(guān)系,提高微博短文本搜索的準確性;朝魯?shù)热说恼撐摹白冹禺嬒瘢阂环N數(shù)量級壓縮物端數(shù)據(jù)的多粒度信息模型”提出了一種數(shù)量級壓縮物端數(shù)據(jù)的多粒度信息模型——變熵畫像(VEP),并設(shè)計實現(xiàn)了一種基于時間序列分解原理,且滿足VEP理論的物端數(shù)據(jù)存儲原型——TSR-VEP;鐘志權(quán)等人的論文“基于卷積神經(jīng)網(wǎng)絡(luò)的左右眼識別”利用一個深度卷積神經(jīng)網(wǎng)絡(luò)提出并驗證了一種能夠自動判別左右眼的新方法;吳建盛等人的論文“基于快速多示例多標記學習的G蛋白偶聯(lián)受體生物學功能預(yù)測”利用快速多示例多標記學習方法,基于新的混合特征,對G蛋白偶聯(lián)受體的基因本體學分子功能和生物學過程進行了預(yù)測;郭穎婕等人的論文“基于U統(tǒng)計量和集成學習的基因互作檢測方法”提出了一種基于U統(tǒng)計值與集成學習器的假設(shè)檢驗框架GBUtrees,通過構(gòu)造統(tǒng)計量用于表征疾病性狀與2個基因之間關(guān)系偏離加性模型的程度,檢測以基因為單位的基因-基因相互作用.
此外,作為實現(xiàn)智能化的核心技術(shù),基于機器學習的智能數(shù)據(jù)分析是數(shù)據(jù)挖掘領(lǐng)域研究的熱點.
朱斐等人的論文“一種最大置信上界經(jīng)驗采樣的深度Q網(wǎng)絡(luò)方法”在傳統(tǒng)深度Q網(wǎng)絡(luò)中引入優(yōu)先級概念,提出基于最大置信上界的采樣算法,通過獎賞、時間步、采樣次數(shù)共同決定經(jīng)驗池中樣本的優(yōu)先級,提高所采樣本的多樣性;王倩等人的論文“密集異構(gòu)網(wǎng)絡(luò)中基于強化學習的流量卸載算法”將強化學習的思想引入流量卸載算法中,提出了一種異構(gòu)網(wǎng)絡(luò)中基于強化學習的流量卸載算法;綦小龍等人的論文“一種可度量的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習方法”提出了一種通過互信息排序的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習方法,該方法包括度量信息矩陣學習和“偷懶”啟發(fā)式策略2部分;鄒麗等人的論文“語言值直覺模糊概念格及其應(yīng)用”定義了語言值直覺模糊形式背景,構(gòu)造了語言值直覺模糊概念格,研究了語言值直覺模糊概念之間以及語言值直覺模糊概念格之間的貼近度,并提出了語言值直覺模糊概念格的模式識別方法,將其應(yīng)用于中醫(yī)疾病診斷識別中;王博等人的論文“布爾Game的核求解算法”研究了以布爾Game為輸入的核求解問題;宋攀等人的論文“基于神經(jīng)網(wǎng)絡(luò)探究標簽依賴關(guān)系的多標簽分類”基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提出了一種探究標簽之間依賴關(guān)系的算法,用以提升多標簽分類算法的性能;田澤等人的論文“稀疏約束下快速低秩共享的字典學習方法及其人臉識別”在字典學習中采用降維和字典聯(lián)合進行學習的方式,同時施加低秩約束獲得共享字典,并將其應(yīng)用于人臉識別中;楊曉慧等人的論文“基于符號語義映射的知識圖譜表示學習算法”提出了一個基于符號語義映射的神經(jīng)網(wǎng)絡(luò)模型用于學習圖分布式表示,并且通過為圖中的每個關(guān)系類型引入一個逆關(guān)系鏡像,使得模型能夠適應(yīng)多種不同類型的(同構(gòu)或異構(gòu))網(wǎng)絡(luò)的關(guān)系推理任務(wù).
本專題主要面向數(shù)據(jù)挖掘及其相關(guān)領(lǐng)域的研究人員,在一定程度上反映了我國學者在數(shù)據(jù)挖掘等領(lǐng)域研究的前沿進展.在此,我們要特別感謝《計算機研究與發(fā)展》編輯部對專題工作的指導與幫助,感謝編輯部在征文發(fā)布、論文評審與意見匯總、論文定稿、修改及出版工作中所付出的辛勤努力和汗水,感謝所有稿件評審專家及時、認真的評審工作.此外,我們還要感謝諸多踴躍投稿的作者,感謝他們對專題工作的支持和對《計算機研究與發(fā)展》的信任.
最后,感謝專題的讀者們,希望本專題能夠?qū)ο嚓P(guān)領(lǐng)域的研究工作有所促進.