999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于弱監(jiān)督迭代法的情感傾向分析

2014-06-20 17:49:30封二英龐靈
無線互聯(lián)科技 2014年3期

封二英 龐靈

摘 要:針對(duì)目前情感傾向分析過于依賴現(xiàn)有經(jīng)驗(yàn)和大規(guī)模語料庫的不足,本文提出基于弱監(jiān)督迭代法的情感傾向分析模型。本模型以較少的種子情感詞匯做引導(dǎo),通過弱監(jiān)督迭代計(jì)算,不斷更新、擴(kuò)充情感詞典。在此基礎(chǔ)上完成情感傾向分析任務(wù)。并將該模型應(yīng)用到評(píng)論情感傾向分析中,驗(yàn)證了方法的有效性。

關(guān)鍵詞:情感傾向分析;弱監(jiān)督;迭代模型;產(chǎn)品評(píng)論

1 相關(guān)工作

有監(jiān)督的機(jī)器學(xué)習(xí)方法,無監(jiān)督算法以及半監(jiān)督算法是目前情感傾向分析的主要方法。龐博[1]等使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法進(jìn)行文本情感分類工作。宇弘[2]等選用若干極性較強(qiáng)的形容詞作為情感詞,構(gòu)成一個(gè)種子情感詞集合,采用無監(jiān)督算法判斷句子的情感傾向。唐輝豐[3]等利用基于EM的半監(jiān)督學(xué)習(xí)算法,對(duì)文本進(jìn)行分類。

2 基于弱監(jiān)督迭代法的情感傾向分析模型

2.1 數(shù)據(jù)預(yù)處理模塊

首先對(duì)評(píng)論進(jìn)行分詞、詞性標(biāo)注、分句、劃分帶狀區(qū)域等預(yù)處理,然后選擇合適的候選情感詞(選取至少出現(xiàn)在兩篇或以上文章中、句子中或帶狀區(qū)域中的詞語),在此基礎(chǔ)上構(gòu)建情感詞典。其中,分詞基于簡(jiǎn)單的二元切分的方法,分別以結(jié)構(gòu)助詞、非漢字、標(biāo)點(diǎn)符號(hào)等作為分隔符;句子切分一般以標(biāo)點(diǎn)符號(hào)作為分隔符;帶狀區(qū)域的劃分以中英文逗號(hào)加上分句采用的標(biāo)點(diǎn)符號(hào)作為分隔符。

2.2 情感傾向分析模塊

首先根據(jù)情感詞典中情感詞的情感傾向判斷帶狀區(qū)域的情感傾向(如果該帶狀區(qū)域中積極的情感詞個(gè)數(shù)大于消極的情感詞個(gè)數(shù),則該帶狀區(qū)域?yàn)榉e極的,如果消極的情感詞個(gè)數(shù)大于積極的情感詞個(gè)數(shù),則該帶狀區(qū)域?yàn)橄麡O的);然后由一個(gè)句子所包含的所有帶狀區(qū)域的情感傾向判定出該句子的情感傾向;最后由該篇評(píng)論所包含句子的情感傾向判定得出整篇評(píng)論的情感傾向性。

2.3 情感詞典更新模塊

根據(jù)情感詞的出現(xiàn)頻率計(jì)算情感分?jǐn)?shù)。使用情感詞和情感分?jǐn)?shù)更新情感詞典。

①人工挑選出極少的情感詞作為種子情感詞匯,構(gòu)成最初的情感詞典。該步對(duì)情感詞典的更新工作只在初次計(jì)算評(píng)論文本情感傾向之前執(zhí)行一次。

②當(dāng)候選情感詞difference值符合閾值條件時(shí)成為情感詞,計(jì)算它的情感分?jǐn)?shù)。當(dāng)情感詞典中已存在該情感詞時(shí),直接更新該詞情感分?jǐn)?shù)。否則,將該情感詞和它的情感分?jǐn)?shù)同時(shí)存入情感詞典。當(dāng)候選情感詞difference值不符合閾值條件時(shí),查找該詞語是否存在情感詞典中,如果存在則從情感詞典中刪除該詞語和它的情感分?jǐn)?shù)。

2.4 迭代算法

本文提出以少量種子情感詞匯開始,經(jīng)過迭代計(jì)算情感詞的情感分?jǐn)?shù),來不斷更新、擴(kuò)充和完善情感詞典。最終達(dá)到對(duì)評(píng)論進(jìn)行判定的目的。該算法主要包括以下幾個(gè)步驟:⑴讀取評(píng)論作為輸入數(shù)據(jù);⑵對(duì)評(píng)論進(jìn)行分詞、分句以及劃分帶狀區(qū)域操作;⑶選擇候選情感詞;⑷從候選情感詞中選擇種子情感詞匯,并設(shè)置情感分?jǐn)?shù),構(gòu)成最初的情感詞典;⑸迭代執(zhí)行以下步驟來訓(xùn)練情感傾向分析模型:1)由當(dāng)前的情感詞典計(jì)算出所有zone的情感傾向;2)由所有zone的情感傾向計(jì)算出所有句子的情感傾向;3)由所有句子的情感傾向計(jì)算出所有評(píng)論的情感傾向;4)通過統(tǒng)計(jì)候選情感詞的出現(xiàn)頻率,選擇符合條件的候選情感詞作為情感詞。計(jì)算情感詞的情感分?jǐn)?shù),并更新情感詞典;5)判斷是否滿足迭代終止條件,若不滿足則轉(zhuǎn)1);否則迭代終止。⑹輸出當(dāng)前情感傾向分析模型對(duì)所有評(píng)論的判定結(jié)果。

3 模型在產(chǎn)品評(píng)論中的應(yīng)用

本文采用的數(shù)據(jù)集是淘寶網(wǎng)上與連衣裙相關(guān)的中文評(píng)論性文章。本文對(duì)連衣裙數(shù)據(jù)集中的1489篇評(píng)論情感傾向進(jìn)行了人工標(biāo)注。其中1375篇為積極的評(píng)論,114篇為消極的評(píng)論。采用準(zhǔn)確率、精確度、召回率、三個(gè)指標(biāo)進(jìn)行性能評(píng)價(jià)。本文采用的迭代終止條件是迭代次數(shù)達(dá)到閾值。實(shí)驗(yàn)結(jié)果顯示:第1次迭代后三個(gè)指標(biāo)分別為0.68、0.91、0.72,隨著迭代次數(shù)的增加,三個(gè)指標(biāo)也隨著提高,當(dāng)?shù)螖?shù)達(dá)到閾值16次時(shí),準(zhǔn)確率為0.87、精確度為0.92、召回率為0.94。通過分析數(shù)據(jù)可得,該模型在評(píng)論文本中的表現(xiàn)較好,具有較高的準(zhǔn)確率。

[參考文獻(xiàn)]

[1]龐博,等.使用機(jī)器學(xué)習(xí)技術(shù)的情感分類[C].自然語言處理中的實(shí)證方法,ACL-02會(huì)議,2002:79-86.

[2]宇弘,等.關(guān)于從觀點(diǎn)中分離事實(shí)的研究[C].EMNLP-03,2003:129-136.

[3]唐輝豐,等.使用標(biāo)注和未標(biāo)注文檔進(jìn)行文本分類[J]2000,39(2-3):103-134.

主站蜘蛛池模板: 午夜视频在线观看免费网站| 国产精品一老牛影视频| 久久精品嫩草研究院| 真实国产乱子伦高清| 女人一级毛片| 精品亚洲国产成人AV| 青草精品视频| 欧美一区二区精品久久久| 欧美精品成人一区二区在线观看| 精品人妻无码区在线视频| 丁香婷婷激情网| 精品国产女同疯狂摩擦2| 亚洲综合婷婷激情| 亚洲视频在线观看免费视频| 中字无码精油按摩中出视频| 亚洲美女操| 强奷白丝美女在线观看| 国产成人精品高清不卡在线| 超薄丝袜足j国产在线视频| 伊人久久精品无码麻豆精品| 小蝌蚪亚洲精品国产| 欧美啪啪一区| 久久精品女人天堂aaa| 伊人久久精品无码麻豆精品 | 久久99久久无码毛片一区二区| 亚洲欧美精品一中文字幕| 全色黄大色大片免费久久老太| 99re免费视频| 欧美一级在线| 久久视精品| 亚洲成a人片在线观看88| 国产精品成人观看视频国产| 国产丝袜啪啪| 久久人搡人人玩人妻精品一| 日本免费高清一区| 国产99精品久久| 人妻免费无码不卡视频| 欧美一区二区三区国产精品| 亚洲国产清纯| 中字无码精油按摩中出视频| 欧美日韩精品一区二区在线线| 伊人丁香五月天久久综合| 在线观看国产精品第一区免费| 午夜三级在线| 人妻丰满熟妇αv无码| 中国一级特黄视频| 谁有在线观看日韩亚洲最新视频| 在线观看欧美精品二区| 日韩无码黄色网站| 日本精品视频一区二区| 日韩成人在线一区二区| 网久久综合| 色老头综合网| 亚洲高清无在码在线无弹窗| 一本色道久久88亚洲综合| 中文字幕在线视频免费| 一级全黄毛片| 精品欧美一区二区三区在线| 国产女同自拍视频| 超清人妻系列无码专区| 亚洲国产中文欧美在线人成大黄瓜| 欧美爱爱网| 最新国产午夜精品视频成人| 日本免费精品| 亚洲成人高清在线观看| 99久久99这里只有免费的精品| 亚洲最新地址| 91小视频在线观看| 国产欧美精品专区一区二区| 无码久看视频| 欧美日韩国产在线人成app| 伊人久久青草青青综合| 久久婷婷国产综合尤物精品| 欧美日韩精品一区二区视频| 成人午夜天| 国产一级二级在线观看| 亚洲色欲色欲www在线观看| 久久精品人妻中文系列| 久久久久青草大香线综合精品| 国产一线在线| 麻豆精品国产自产在线| 国产sm重味一区二区三区|