趙 煜 蔡皖東 樊 娜 劉 念
摘要:針對(duì)短篇幅文本數(shù)據(jù)稀疏的特性,提出了一種利用外部語(yǔ)料庫(kù)知識(shí)提高短篇幅文本分割準(zhǔn)確率的方法。該方法分2個(gè)步驟完成:①利用Gibbs采樣方法估計(jì)語(yǔ)料庫(kù)對(duì)應(yīng)的潛在狄利克雷分配(LDA)模型,并利用該模型推斷目標(biāo)文本的潛在語(yǔ)義結(jié)構(gòu)信息;②通過(guò)定義語(yǔ)義段落內(nèi)凝聚性和語(yǔ)義段落間發(fā)散性2個(gè)目標(biāo)函數(shù),將文本分割問題轉(zhuǎn)化為多目標(biāo)優(yōu)化問題。采用一種針對(duì)文本分割的并行遺傳算法,獲得全局最優(yōu)解。通過(guò)實(shí)驗(yàn),在文本數(shù)據(jù)稀疏的情況下,該算法在準(zhǔn)確率方面優(yōu)于多元判別分析(MDA)方法和基于LDA的文本分割方法,對(duì)于提高文本分割的準(zhǔn)確率是可行和有效的。