999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)LDA模型的離群評(píng)論選擇

2018-02-01 05:04:24董振濤
軟件導(dǎo)刊 2018年1期

董振濤

摘要:評(píng)論文本中的詞符合冪律分布,使LDA模型詞的分布偏向高頻詞,導(dǎo)致主題相似度大,表達(dá)能力下降。提出冪函數(shù)加權(quán)LDA(Latent Dirichlet Allocation)模型以提高低頻詞的表達(dá)能力。使用iForest算法,選擇出與眾不同且具有價(jià)值的評(píng)論集合。實(shí)驗(yàn)結(jié)果表明,選擇的評(píng)論子集特征覆蓋率較高,且有較高的平均信息量。

關(guān)鍵詞:LDA;iForest;特征覆蓋率;平均信息量

DOIDOI:10.11907/rjdk.172218

中圖分類號(hào):TP301

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)001003803

Abstract:The words in review text conform to the power law distribution, which makes the distribution of LDA model tends to highfrequency words. Topics similarity is large and expression ability drops. Therefore, a power law function weighted LDA (Latent Dirichlet Allocation) model is proposed to improve the expressive power of lowfrequency words. Finally, iForest algorithm is used to select a different and valuable set of comments. Experimental results show that the feature coverage of selected comment subsets is higher and it has higher average information.

Key Words:LDA; iForest; feature; coverage; average information

0引言

網(wǎng)絡(luò)購物已成為人們生活不可或缺的一部分。用戶在購買商品前,往往喜歡瀏覽商品評(píng)論,從而了解商品的具體信息。但隨著評(píng)論數(shù)量的急劇增長,用戶瀏覽并分析這些信息變得不現(xiàn)實(shí)[1],大量的評(píng)論造成信息過載[2]。因此,從大量的評(píng)論中選出一組具有代表性的評(píng)論子集展示給用戶變得愈加重要,評(píng)論選擇也成為學(xué)者的研究熱點(diǎn)。Tsaparas等[3]把評(píng)論選擇轉(zhuǎn)化為一個(gè)最大特征覆蓋率問題,使用改進(jìn)的貪心算法[4]選擇評(píng)論子集,但容易選擇出內(nèi)容過長的評(píng)論。Ganesan等[5]提出基于ngram模型獲取評(píng)論總結(jié),從大量的評(píng)論中總結(jié)出具有代表性和可讀性的短語,此種方式結(jié)果過于簡潔,反映的信息較片面。有學(xué)者提出根據(jù)商品的特征評(píng)分和獲得支持的得分對(duì)評(píng)論進(jìn)行質(zhì)量排名,取TopN個(gè)評(píng)論作為評(píng)論子集,確保其質(zhì)量優(yōu)良[6],但也不能完全排除選中長評(píng)論的可能。上述方法易受高頻詞的影響,忽視低頻且重要的詞,因此本文提出冪函數(shù)加權(quán)LDA模型的評(píng)論選擇方法,提高低頻詞的表達(dá)能力,從而找出一組較特殊的且信息量較高的評(píng)論推送給用戶。

1問題定義

本文提出的冪函數(shù)加權(quán)LDA模型,將評(píng)論文本轉(zhuǎn)化為空間向量,使用高效的IForest算法找出特殊的、有意義的、與眾不同的評(píng)論子集。

定義R為評(píng)論集,R={r1,r2,…,rn},n為評(píng)論個(gè)數(shù),這些評(píng)論涵蓋了用戶關(guān)注的全部商品特征A={a1,a2,…,am},m為給定的特征詞個(gè)數(shù)。評(píng)論選擇的任務(wù)就是從R個(gè)評(píng)論中選擇K個(gè)評(píng)論作為子集,S={r1,r2,…,rk},SR且kn。

圖2中,AAI表示全部評(píng)論特征詞的平均信息量。SAAI表示評(píng)論子集中特征詞的平均信息量。引入冪函數(shù)特征詞加權(quán)后,評(píng)論子集特征詞的平均信息量高于SAAI,說明評(píng)論子集包含更多的低頻特征詞。在相同的

主題數(shù)下,隨著σ增大,平均信息量不一定增加。未引入加權(quán)函數(shù)和擴(kuò)充系數(shù)時(shí),評(píng)論子集的平均信息量與主題個(gè)數(shù)無關(guān)。引入加權(quán)函數(shù)和擴(kuò)充系數(shù)后,每個(gè)擴(kuò)充系數(shù)都對(duì)應(yīng)一個(gè)較優(yōu)的主題數(shù),使評(píng)論子集平均信息量最大。

4結(jié)語

傳統(tǒng)LDA模型難以兼顧有意義且重要的低頻特征詞,因此提出一種冪函數(shù)加權(quán)LDA模型用于評(píng)論選擇。引入特征加權(quán)函數(shù)和擴(kuò)充系數(shù),調(diào)整詞頻權(quán)重,兼顧了低頻特征詞,不僅提高了評(píng)論子集的平均信息量,而且提高了特征覆蓋率。

參考文獻(xiàn):

[1]LAPPAS T, CROVELLA M, TERZI E. Selecting a characteristic set of reviews[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM,2012:832840.

[2]NGUYEN T S, LAUW H W, TSAPARAS P. Review selection using microreviews[J]. Knowledge & Data Engineering IEEE Transactions on,2015,27(4):10981111.

[3]TSAPARAS P, NTOULAS A, TERZI E. Selecting a comprehensive set of reviews[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, Ca, Usa, August. DBLP,2011:168176.

[4]LU Y, ZHAI C X, SUNDARESAN N. Rated aspect summarization of short comments[C]. Rated Aspect Summarization of Short Comments Yue,2009:131140.

[5]GANESAN K, ZHAI C X, VIEGAS E. Micropinion generation:an unsupervised approach to generating ultraconcise summaries of opinions[EB/OL]. http://academic.research.microsoft.com/ 2012:869878.

[6]余文喆,沙朝鋒,何曉豐,等.考慮觀點(diǎn)多樣性的評(píng)論選擇問題[J].計(jì)算機(jī)研究與發(fā)展,2015,52(5):10501060.

[7]張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2013,33(6):15871590.

[8]張小平,周雪忠,黃厚寬,等.一種改進(jìn)的LDA主題模型[J].北京交通大學(xué)學(xué)報(bào),2010,34(2):111114.

[9]LIU F T, KAI M T, ZHOU Z H. Isolationbased anomaly detection[J]. Acm Transactions on Knowledge Discovery from Data,2012,6(1):139.

[10]LIU F T, KAI M T, ZHOU Z H. Isolation forest[C]. Eighth IEEE International Conference on Data Mining. IEEE,2008:413422.

(責(zé)任編輯:杜能鋼)

主站蜘蛛池模板: 日本爱爱精品一区二区| 国产国产人在线成免费视频狼人色| 亚洲丝袜中文字幕| jizz在线免费播放| 国产凹凸一区在线观看视频| 午夜精品一区二区蜜桃| 亚洲成aⅴ人片在线影院八| 亚洲欧美一区在线| 亚洲欧美极品| 天堂中文在线资源| 人妻中文字幕无码久久一区| 国产成人午夜福利免费无码r| 欧美激情,国产精品| 国产精品一线天| 国产成年女人特黄特色大片免费| 18禁黄无遮挡免费动漫网站| 国产在线自乱拍播放| 91外围女在线观看| 国产精品美女自慰喷水| 日韩无码精品人妻| 国产黄在线免费观看| 在线欧美a| 无码区日韩专区免费系列| 五月天福利视频| 精品一区二区三区自慰喷水| 亚洲制服丝袜第一页| 蜜桃视频一区二区| 国产91特黄特色A级毛片| 91精品国产自产91精品资源| 国产成人无码播放| 欧美在线视频不卡第一页| 91精品国产情侣高潮露脸| 中文成人在线| 91尤物国产尤物福利在线| 亚洲欧美自拍视频| 在线视频97| 精品视频在线观看你懂的一区| 国产日本欧美在线观看| 国产91av在线| 91精品视频在线播放| 亚洲国产精品不卡在线| 免费 国产 无码久久久| 另类欧美日韩| 国产无码高清视频不卡| 中文字幕在线免费看| 国内熟女少妇一线天| 欧美国产综合视频| 色综合天天操| 女人一级毛片| 亚洲国产成人久久精品软件| 高清无码不卡视频| 99热精品久久| 久久视精品| 亚洲人人视频| 成年免费在线观看| 国产亚洲高清在线精品99| 亚洲成人网在线播放| 日韩一级二级三级| 免费国产不卡午夜福在线观看| 97亚洲色综久久精品| 欧美国产视频| 亚洲综合中文字幕国产精品欧美 | 午夜精品久久久久久久99热下载| 欧美一级黄色影院| 久久精品无码国产一区二区三区| 免费看黄片一区二区三区| 色婷婷亚洲综合五月| 国产男女免费视频| 亚洲视频在线网| 强奷白丝美女在线观看 | 亚洲第七页| 中文字幕天无码久久精品视频免费 | 中文字幕人妻av一区二区| 青青青视频91在线 | 中文字幕精品一区二区三区视频 | 天天操精品| 久久黄色一级片| 国产97视频在线| 日韩视频福利| 亚洲无限乱码一二三四区| 欧美啪啪视频免码| 久久人搡人人玩人妻精品一|