王一賓 ,鄭偉杰 ,程玉勝* ,曹天成
(1.安慶師范大學(xué)計算機(jī)與信息學(xué)院,安慶,246133;2.安徽省高校智能感知與計算重點實驗室,安慶師范大學(xué),安慶,246133)
大數(shù)據(jù)時代,文本數(shù)據(jù)分類[1]是當(dāng)前的研究熱點,因文本數(shù)據(jù)中含有多個主題,所以語義信息[2]的挖掘是主要研究的問題.多標(biāo)簽文本數(shù)據(jù)具有豐富的語義空間,語義空間的挖掘大多數(shù)應(yīng)用在標(biāo)簽空間.在多標(biāo)簽算法中,特征與標(biāo)簽之間的聯(lián)系與應(yīng)用是近幾年研究的熱點,研究者們通過將標(biāo)簽對應(yīng)幾組特征、特征間與標(biāo)簽間的相關(guān)性信息等方法挖掘標(biāo)簽空間中語義信息,進(jìn)而提升算法的性能.
大多數(shù)多標(biāo)簽數(shù)據(jù)具有維數(shù)較高的特征與標(biāo)簽空間,如何獲取空間中的內(nèi)在信息是面臨的主要問題.針對這一問題,Huang et al[3]提出將特征與標(biāo)簽空間縮小到低維空間,從低維的特征空間獲取潛在標(biāo)簽空間中的信息.標(biāo)簽嵌入[4]同樣是獲取標(biāo)簽空間中的內(nèi)在信息主要方法,Kumar et al[5]提出將特征與標(biāo)簽分組對應(yīng)投影到低維空間,標(biāo)簽向量嵌入到低維空間可保證各個組的稀疏性不變.特征間與標(biāo)簽間的相關(guān)性信息是特征與標(biāo)簽空間中的主要信息,許多研究者提出較好的學(xué)習(xí)方法.Cheng et al[6]利用均值漂移聚類[7]方法獲得特征空間中的隱藏信息,并利用信息熵度量標(biāo)簽的相關(guān)性,采用一種非平衡化標(biāo)簽補(bǔ)全的方法重塑標(biāo)簽空間.但上述研究中,研究者們未能將特征與標(biāo)簽可能存在的先驗分布信息用于提升算法的性能……