999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線評(píng)論詞向量表征的產(chǎn)品屬性提取

2018-12-05 12:04:12李良強(qiáng)唐小我
系統(tǒng)工程學(xué)報(bào) 2018年5期
關(guān)鍵詞:特征文本方法

李良強(qiáng),袁 華,葉 開,錢 宇,唐小我

(電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,四川成都611731)

1 引 言

隨著Web 2.0技術(shù)的廣泛采用,消費(fèi)者很容易通過互聯(lián)網(wǎng)發(fā)表和分享他們對(duì)于產(chǎn)品,服務(wù)以及公司等方面的看法.這些評(píng)論都以文本的方式在線發(fā)布,其中蘊(yùn)含的信息具有很高的電子商務(wù)應(yīng)用價(jià)值,如形成網(wǎng)絡(luò)口碑,提升賣家和廠商的聲譽(yù)[1,2]以及幫助企業(yè)進(jìn)行商務(wù)策略的設(shè)計(jì)等[3].這使得從在線評(píng)論中抽取用戶評(píng)論的特征,以及對(duì)這些特征進(jìn)行屬性歸類成為文本分析領(lǐng)域中的一個(gè)熱門研究話題[4,5].

面向網(wǎng)絡(luò)評(píng)論內(nèi)容的屬性抽取,旨在從客戶評(píng)論中挖掘出備受關(guān)注的特征(屬性)信息,并且總結(jié)基于這些特征的觀點(diǎn)[6].在以往的研究中,學(xué)者們提出了各種各樣的特征抽取方法.比較典型的有人工標(biāo)注方法[7];從名詞和名詞短語中抽取[4];從依賴(搭配)關(guān)系進(jìn)行抽取[8-11];使用機(jī)器學(xué)習(xí)方法進(jìn)行抽取[12-14]以及使用話題模型進(jìn)行特征抽取[15,16].在文本分析研究的初期階段,人工標(biāo)注是一個(gè)非常精確的屬性抽取方法,但是它的效率低下[7].另外,在利用名詞和名詞短語進(jìn)行特征抽取方面的研究,Hu等[4]通過在名詞候選特征詞中引入關(guān)聯(lián)規(guī)則挖掘的方法,做出了開創(chuàng)性的工作.后續(xù)出現(xiàn)很多該方法的改進(jìn)研究[17,18]:Popescu等[19]抽取評(píng)論中頻繁出現(xiàn)的名詞和名詞短語作為候選產(chǎn)品特征,同時(shí)借助搜索引擎計(jì)算互信息值來對(duì)候選特征進(jìn)行評(píng)估.Li等[20]提出了基于頻繁名詞和名詞短語的特征抽取方法.李實(shí)等[6]改進(jìn)了關(guān)聯(lián)規(guī)則并應(yīng)用于中文評(píng)論中的產(chǎn)品特征挖掘,也取得了較好的效果.

如果抽取出的特征很多,那么對(duì)這些特征詞進(jìn)行歸類可為用戶提供更為具體和有價(jià)值的信息.Carenini等[21]使用WordNet獲得的詞語相似性矩陣來進(jìn)行特征歸類.Guo等[22]提出了mLSA無監(jiān)督算法.Zhai等[14]提出了一種半監(jiān)督的SC-EM算法進(jìn)行特征歸類,并通過實(shí)驗(yàn)證明了該算法的可行性和優(yōu)異性.楊源等[23]在SC-EM算法上進(jìn)行了改進(jìn),用權(quán)重標(biāo)準(zhǔn)化SimRank計(jì)算不同特征之間的相似度,得到了更好的分類結(jié)果.這些研究都是沿著先度量特征詞的相似性,然后基于相似程度實(shí)施歸類或者融合[24]的方法展開.近年來,由于話題模型(topic model)能同時(shí)識(shí)別出文本中描述產(chǎn)品特征的詞語,并在一定程度上對(duì)語義相近的詞語進(jìn)行聚類.因此,眾多學(xué)者開始引入話題模型用于文本中的特征挖掘[5,15,16,25],特別是針對(duì)產(chǎn)品屬性特征的挖掘[13,26,27]和社會(huì)媒體中的話題特征抽取[28].

可以看出,以往的方法都利用了詞的共現(xiàn)和相似關(guān)系.但是,在通常的電商評(píng)價(jià)環(huán)境中,不同背景的評(píng)論者都可以按照自己的想法發(fā)布評(píng)價(jià)內(nèi)容[29].因此,在這樣生成的海量數(shù)據(jù)中抽取用戶評(píng)論的產(chǎn)品屬性將面臨兩方面挑戰(zhàn).首先,評(píng)論者形式各異的寫作習(xí)慣,決定了評(píng)論文本多樣化的句法選擇以及句子長度等.其次,不同的評(píng)論者針對(duì)同一個(gè)特征使用的表達(dá)方式或詞語內(nèi)容可能會(huì)不一樣[23].例如在某些評(píng)論情境下,“造型”和“形狀”都會(huì)指向手機(jī)的“外觀”屬性.甚至錯(cuò)字和別字,如“蘋果”和“平果”也是指向同一個(gè)評(píng)論對(duì)象.在通常的語境中,這些特征詞應(yīng)該被歸為同一個(gè)屬性類別.在以往的研究中,按照原始詞義相似性進(jìn)行特征歸類能夠部分地解決這個(gè)問題[21,24].但是,在線評(píng)論中的很多情景語義相似的特征詞其原始詞義并不一定相同或相似,例如手機(jī)的“形狀”和“外觀設(shè)計(jì)”.在用戶評(píng)論用詞模式具有隨意性和多樣(稀疏)性的情況下,簡單使用傳統(tǒng)的方法不但會(huì)降低特征抽取的準(zhǔn)確度,而且使得歸類后的同組特征詞在語義的理解上非常困難.因此,需要更綜合全面的方法來解決這個(gè)問題.針對(duì)上述問題,本文提出一種基于詞向量表征的產(chǎn)品屬性抽取方法,將著力于提高抽取結(jié)果的準(zhǔn)確性和歸類結(jié)果的可理解性.

本文首先在文本處理過程引入詞向量的神經(jīng)語言模型[30].該模型可以有效地將文本中的詞單元訓(xùn)練成高維空間上的向量,這些向量的取值同時(shí)考慮了詞在語料庫中的分布和情景語義關(guān)系.其次提出一個(gè)由表征詞向量和K-means聚類相結(jié)合的方法進(jìn)行產(chǎn)品屬性歸類.該方法無論在海量文本的屬性抽取,還是在歸類屬性的語義保持上都有較好的表現(xiàn).

2 產(chǎn)品屬性抽取方法

圖1給出了本文研究方法的整體框架.該框架主要包括數(shù)據(jù)處理,詞向量訓(xùn)練和特征歸類等工作.數(shù)據(jù)預(yù)處理先從網(wǎng)頁中抽取出評(píng)論文本數(shù)據(jù)集T,接著將文本內(nèi)容進(jìn)行分詞等處理得到語料庫D,最后使用語言模型對(duì)語料庫中的數(shù)據(jù)進(jìn)行訓(xùn)練,得到所有詞匯的表征向量集V(D).而特征歸類的任務(wù)是先從D中分離出潛在特征詞集合F,同時(shí)從表征向量集V(D)中得到這些詞的表征向量值V(F),并利用其將特征歸類成組.

圖1 研究框架Fig.1 The research framework

1)文本預(yù)處理

首先,系統(tǒng)使用爬蟲程序從電子商務(wù)網(wǎng)站中抓取出消費(fèi)者的在線評(píng)論數(shù)據(jù)集T.然后,再對(duì)評(píng)論文本進(jìn)行必要的分句,分詞以及去除無意義符號(hào)等處理[31].最后,數(shù)據(jù)集中第i個(gè)評(píng)論文本Si,i=1,2,...,|T|被表示成多個(gè)有序詞元素sij的集合

2)表征詞向量訓(xùn)練模型

分詞之后,為了實(shí)現(xiàn)特征詞之間關(guān)系的可計(jì)算性,將詞元素用向量表示是文本分析中的重要方法.文本分析中最常見的詞向量是one-hot representation方法.這種表示方法一個(gè)最大的問題是無法捕捉詞與詞之間的相似度;此外,還容易發(fā)生維數(shù)災(zāi)難[32].Hinton[33]在1986年提出了一種distributed representation的詞向量表示方法,其基本思想是將語料庫中每個(gè)詞sj映射到一個(gè)K維實(shí)數(shù)向量空間中去.其中每個(gè)詞在向量空間中的位置可以通過優(yōu)化或者近似一個(gè)定義在原始文本上的目標(biāo)函數(shù)來得到.例如最大化某個(gè)詞與其鄰居詞匯在同一句子中出現(xiàn)的似然概率.這個(gè)優(yōu)化過程被稱為“訓(xùn)練”.

通過神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法來獲得詞表征向量是文本挖掘領(lǐng)域的最新研究內(nèi)容.其中Word2Vec[34]是最受關(guān)注的研究成果之一.Word2Vec有CBOW模型和Skim-gram模型兩種訓(xùn)練方法:對(duì)每一個(gè)詞sj,CBOW模型是用其周圍的詞來預(yù)測(cè)sj出現(xiàn)的概率;而Skim-gram模型是用sj來預(yù)測(cè)其周圍詞出現(xiàn)的概率.一般地,用于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型有三層結(jié)構(gòu):輸入層,隱藏層和輸出層.但是輸入層和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型不同,其輸入的每一個(gè)節(jié)點(diǎn)單元是一個(gè)維度為K的向量,而且該向量的每一個(gè)值均為變量,訓(xùn)練過程中要對(duì)其進(jìn)行更新.訓(xùn)練達(dá)到穩(wěn)定狀態(tài)時(shí),這個(gè)向量就是詞所對(duì)應(yīng)的表征向量.詞向量訓(xùn)練過程如下:

(a)將語料里的所有詞隨機(jī)初始化為K維向量;

(b)選一個(gè)適當(dāng)?shù)拇翱谥底鳛檎Z境(context);輸入層讀入預(yù)測(cè)詞附近窗口內(nèi)的詞,并將它們的向量疊加;

(c)輸出層是一個(gè)巨大的二叉樹,葉節(jié)點(diǎn)代表所有的詞.對(duì)某個(gè)詞sj,給定語境,訓(xùn)練的目標(biāo)是使得預(yù)測(cè)詞sj的二進(jìn)制編碼概率最大.

基于此,人們可以從大量未標(biāo)注的普通文本數(shù)據(jù)中無監(jiān)督地訓(xùn)練出詞向量.影響訓(xùn)練模型復(fù)雜性的因素包括輸入詞數(shù),神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn)數(shù),語料庫詞數(shù)和詞向量維度等[35].經(jīng)過神經(jīng)語言模型訓(xùn)練后,語料庫中的詞元素sj可以被表征為一個(gè)K維的數(shù)字向量(該向量也稱為sj的表征向量)

詞向量訓(xùn)練是在語料庫中對(duì)聚合全局詞與詞共現(xiàn)的統(tǒng)計(jì)基礎(chǔ)上進(jìn)行的,特別是在指定語料里一個(gè)詞與其它詞共現(xiàn)的頻率關(guān)系[30].因此,這類方法在尋找相關(guān)詞和同義詞工作中具有相當(dāng)?shù)膬?yōu)勢(shì).

3)特征詞過濾

從海量文檔中挖掘出用戶評(píng)論的特征詞,頻繁項(xiàng)集挖掘是最通用且簡單的方法.但是,如果直接應(yīng)用該方法于在線評(píng)論的特征詞挖掘,則會(huì)受到數(shù)據(jù)集和方法本身的限制.

數(shù)據(jù)集的限制來自于兩方面,其一是在線評(píng)論文本中,并不是所有的名詞都是用來描述實(shí)體(特征);其二是很多特征是所謂的隱含特征[36],典型的評(píng)論如“(外觀)非常漂亮!(系統(tǒng))運(yùn)行流暢.”中用戶評(píng)價(jià)的產(chǎn)品“外觀”和“系統(tǒng)”特征就沒有直接表述出來.對(duì)于數(shù)據(jù)集的問題,考慮到名詞和名詞短語在特征抽取中的重要作用[4],以名詞在評(píng)論文本中的搭配模式為基礎(chǔ)進(jìn)行分析是一個(gè)可行的思路.用戶在線評(píng)論的典型文本內(nèi)容主要涉及到評(píng)價(jià)對(duì)象名詞和動(dòng)名詞兩類名詞的搭配模式.對(duì)象名詞一般和觀點(diǎn)詞搭配較多,例如“屏幕漂亮”.而動(dòng)名詞則和短語動(dòng)詞搭配較多,例如“用來打游戲不錯(cuò)”.對(duì)于搭配模式的識(shí)別,需要人工標(biāo)注結(jié)果作為先驗(yàn)知識(shí).如果完全使用機(jī)器學(xué)習(xí)的方法,則容易受到分詞效果的影響.

頻繁集挖掘方法本身的限制主要是閾值的設(shè)定.如果閾值太大,所保留的特征詞信息有限;如果閾值太小,則計(jì)算復(fù)雜度相對(duì)較高,而且低頻詞中也包含著較多的噪音.所以對(duì)于方法的限制,可以通過設(shè)定不同的閾值來實(shí)施探索計(jì)算,并結(jié)合最終抽取效果評(píng)價(jià)的方法來尋找合適的閾值.

4)特征詞聚類

聚類方法可分為:基于劃分方法,基于層次方法以及基于密度方法等.也有將混沌社會(huì)演化算法[37]用于文本聚類.常用的K-means是劃分聚類方法的代表之一.但是它需要先給定聚類數(shù)目,這限制了使用的靈活性.而基于層次和基于密度的聚類算法除了計(jì)算復(fù)雜外,在確定聚類數(shù)目時(shí)也需要額外的計(jì)算開銷.

本研究選擇二分K-means方法作為聚類算法,因?yàn)樗诖髷?shù)據(jù)集中實(shí)施簡單,計(jì)算速度快,并且可依據(jù)循環(huán)計(jì)算過程中聚類效果的變化確定合理的聚類數(shù)目.研究表明,二分K-means具有與層次方法相同的聚類質(zhì)量,且其時(shí)間復(fù)雜度優(yōu)于層次聚類[38].為了減少人為干擾,每次迭代計(jì)算過程中可使用詞向量sj和簇Ci的質(zhì)心ci之間的余弦相似性總和(sum of cosine similarity,SCS)來測(cè)量聚類效果

計(jì)算過程見算法1.其中3~7行進(jìn)行特征詞過濾,8~16行用二分K-means對(duì)向量表征的詞進(jìn)行聚類.

算法 1(特征詞聚類算法)

算法1由模式匹配和二分K-means聚類構(gòu)成.其中,模式匹配的時(shí)間復(fù)雜度為O(|D|×模式集大小),二分K-means的時(shí)間復(fù)雜度為O(|V(F)|).在海量文本數(shù)據(jù)庫中,模式集的大小可以控制在1 000以內(nèi),而|D|的值一般在百萬級(jí)以上,是本方法復(fù)雜性的主要影響因素.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)描述

本文使用的評(píng)論數(shù)據(jù)抓取自B2C商業(yè)購物平臺(tái)京東商城(JD.com).使用Python編寫網(wǎng)絡(luò)爬蟲工具,抓取了71種手機(jī)產(chǎn)品從2013–01~2015–01共計(jì)487 818條在線評(píng)論.其中最長的評(píng)論為1 265個(gè)漢字,最短的為2個(gè)漢字,平均長度33.8個(gè)漢字.統(tǒng)計(jì)數(shù)據(jù)表明用戶在JD.com發(fā)布了大量的評(píng)論,但是大多是短文本評(píng)論,長評(píng)論并不多見.

數(shù)據(jù)預(yù)處理過程中,系統(tǒng)先對(duì)多句構(gòu)成的評(píng)論文本按照標(biāo)點(diǎn)位置進(jìn)行整句截?cái)?隨后引入分詞程序把文本分割成基本的詞元素.抓取的全部評(píng)論中總共使用了54 850個(gè)詞元素,其中名詞為26 010個(gè).把分詞后的所有詞和名詞按照其詞頻分別排序,其分布結(jié)果見圖2.可以發(fā)現(xiàn)JD.com中的在線評(píng)論使用的詞語分布很稀疏.在這類數(shù)據(jù)集中實(shí)現(xiàn)特征抽取和屬性歸類,對(duì)抽取和分類算法都是一個(gè)巨大的挑戰(zhàn).

圖2 JD.com在線評(píng)論中的用詞分布Fig.2 The frequency distribution of words on JD.com

3.2 特征詞模式及過濾

在特征詞過濾階段,首先處理了數(shù)據(jù)集的問題.對(duì)于數(shù)據(jù)集的第一種限制,系統(tǒng)需要從語料庫D過濾出一些代表性的名詞作為用戶在線評(píng)論中的候選特征詞[4].在候選特征詞的篩選過程中,結(jié)合用戶的寫作習(xí)慣,先采用“名詞+觀點(diǎn)詞”的搭配模式來過濾評(píng)論對(duì)象名詞.有兩種典型模式:一是“名詞(+副詞)+形容詞”模式,如“屏幕+漂亮”;二是“(副詞)+形容詞+名詞”模式,如“很+難看+的+包裝”.進(jìn)一步,把“動(dòng)詞+動(dòng)詞+名詞”模式中的后兩者(如“用來+看+電影”中的“看電影”),以及“動(dòng)詞+名詞+觀點(diǎn)詞”的前兩者(如“聽+音樂+不錯(cuò)”中的“聽音樂”)挑選出來,并將那些在全部語料中出現(xiàn)頻率較高的組合識(shí)別為動(dòng)名詞.對(duì)于第二種限制,經(jīng)過對(duì)典型用戶在線評(píng)論的內(nèi)容分析發(fā)現(xiàn),用戶之所以會(huì)隱含評(píng)價(jià)特征,是因?yàn)槠湓u(píng)價(jià)的對(duì)象是眾所周知的,不會(huì)引起理解混亂.這類特征一般都是高頻特征,無需特別處理.

在傳統(tǒng)的頻繁集挖掘工作中,閾值的設(shè)定依賴于專家的經(jīng)驗(yàn)和問題的管理需求.在缺乏先驗(yàn)知識(shí)的情況下,分別計(jì)算了最小頻繁度閾值(minsupp)為10(0.002%),20(0.004%),40(0.008%),60(0.012%),80(0.016%)和100(0.020%)的情況下的挖掘效果.這里主要對(duì)比了不同閾值情況下,最大CS(largest CS),平均CS(average CS)以及CS總和(sum of CS)的三類聚類指標(biāo)的變化,結(jié)果見圖3.通過比較三項(xiàng)指標(biāo)結(jié)果,最終選用60(0.012%)作為頻繁模式挖掘過程中的支持度閾值.

3.3 表征詞向量訓(xùn)練

已有人提出深度神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等可用于學(xué)習(xí)詞的表征向量.但是這些方法最主要的問題是需要花很長的時(shí)間來訓(xùn)練模型.在本實(shí)驗(yàn)中,使用Google開發(fā)的開源工具軟件Word2Vector1http://code.google.com/p/word2vec/來進(jìn)行詞向量訓(xùn)練.Word2Vector是一種用于高效學(xué)習(xí)海量文本中詞的分布式表示的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),訓(xùn)練輸出的結(jié)果是一個(gè)詞表,其中的每個(gè)詞由一個(gè)向量來表示.由于Word2Vector可以在不需要人工干預(yù)的情況下創(chuàng)建特征(包括詞的上下文特征).因此,如果有足夠多的數(shù)據(jù),Word2Vector能夠基于一個(gè)詞在語料中的出現(xiàn)情況,高度精確地預(yù)測(cè)它的詞義.作為一種工程化方法,Word2Vector的訓(xùn)練過程也需要考慮一些參數(shù)的影響.

圖3 不同閾值下余弦相似性(CS)變化趨勢(shì)Fig.3 Trends of CS Under different thresholds

向量維度K:向量維度對(duì)訓(xùn)練結(jié)果有較大影響.但是在Word2Vec模型分析中并沒有對(duì)其給出理論上的優(yōu)化結(jié)果[35].一般建議維度在50以上,考慮到訓(xùn)練的時(shí)間成本問題普遍認(rèn)為100~300較好.

語境窗口大小:神經(jīng)語言模型中要充分考慮到情景的因素,它決定了與某個(gè)核心詞相關(guān)的周圍詞的數(shù)量.Cui等[39]的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)高階N-gram能提高文本(情感)分類的準(zhǔn)確率.但是,考察真實(shí)文本句子的表達(dá)發(fā)現(xiàn),訓(xùn)練效果并不是窗口越大越好,較大的窗口也可能以更大的概率引入噪音.

本研究中Word2Vector工具的參數(shù)都是在經(jīng)典文獻(xiàn)推薦的范圍內(nèi)進(jìn)行探索計(jì)算,最終參數(shù)的設(shè)定采用在計(jì)算的時(shí)間成本和屬性抽取結(jié)果之間一個(gè)較平衡的值.其中,維度參數(shù)K設(shè)置成100.結(jié)合實(shí)驗(yàn)數(shù)據(jù)的文本平均長度,語境窗口大小設(shè)置為5.

3.4 特征詞聚類

利用SCS的變化趨勢(shì)來確定一個(gè)合適的聚類數(shù)目k.當(dāng)余弦距離和的測(cè)量值變化率趨弱(穩(wěn)定)時(shí),聚類過程可以結(jié)束.圖3的結(jié)果顯示:當(dāng)閾值在40以上時(shí),SCS的變化趨勢(shì)比較相似.因此,本試驗(yàn)采用閾值為60時(shí)的結(jié)果,對(duì)應(yīng)的聚類數(shù)目k根據(jù)SCS的變化趨勢(shì)(圖3(d))以及決策需要可以取值在10~20之間.

表1展示了k=10時(shí),屬性歸類結(jié)果以及與這些類相關(guān)的代表性屬性特征詞(同一個(gè)類中的詞,按照詞頻降序排序).從表1中可以看到同一個(gè)簇類抽取出來的特征詞與其它簇類的詞相比具有更加緊密的語義相似性.這里的語義相似性計(jì)算是基于上下文情境的.這樣,就優(yōu)于那些僅僅依靠特征詞的原始語義相似性的計(jì)算結(jié)果.換句話說,表1的聚類結(jié)果具有較好的可理解性.

表1 抽取出的屬性及其特征詞Table 1 Extracted attributes and the associated feature words

3.5 結(jié)果評(píng)價(jià)

本文提出的詞表征向量聚類方法(K-means+Word2Vec)與三種典型的在線評(píng)論特征挖掘方法LDA[7],s-LDA[15]和HLDA[16]進(jìn)行了比較.在實(shí)驗(yàn)過程中,從整個(gè)語料庫中隨機(jī)抽取10%的評(píng)論作為測(cè)試集.困惑度(perplexity)和宏平均準(zhǔn)確度(macro average accuracy rate,MAAR)被用來作為衡量特征總結(jié)的效果指標(biāo).

1)困惑度

困惑度指標(biāo)在自然語言處理中用來衡量訓(xùn)練出的語言模型的好壞[7].如果T是測(cè)試集,則困惑度計(jì)算公式為

困惑度能夠在不需要人工干預(yù)的情況下對(duì)詞聚類的結(jié)果進(jìn)行有效的測(cè)量.通過圖4的結(jié)果,可以推斷,在同樣話題數(shù)目的情況下,本文提出的方法的困惑度要小于LDA,s-LDA,和HLDA這三個(gè)模型.因此,本文提出的方法優(yōu)于話題模型.

2)平均準(zhǔn)確度

如果用a表示正確分配的數(shù)目,b為錯(cuò)誤分配的數(shù)目,則準(zhǔn)確率為

假設(shè)共有|C|個(gè)簇,pj為第j簇的正確率.為了正確計(jì)算各簇中的特征詞的正確數(shù)目,宏平均準(zhǔn)確率(MAAR)被引入到本實(shí)驗(yàn)中,即

在Top5,Top10,Top15,Top20和Top25這幾個(gè)水平上,通過使用配對(duì)t–檢驗(yàn)對(duì)本文提出的方法及基準(zhǔn)方法的MAAR進(jìn)行比較,表2中展示了不同方法的宏平均準(zhǔn)確率.結(jié)果顯示本文提出的方法在MAAR指標(biāo)上顯著大于其它三個(gè)用于比較的基準(zhǔn)方法(統(tǒng)計(jì)顯著性指標(biāo)p值遠(yuǎn)小于0.05).

圖4 困惑度比較Fig.4 Comparison of perplexity

表2 宏平均準(zhǔn)確度結(jié)果比較Table 2 Average MAAR

綜合關(guān)于困惑度和MAAR這兩個(gè)指標(biāo)的實(shí)驗(yàn)結(jié)果,可以看出本文提出的方法無論是在評(píng)論特征抽取還是特征聚類方面都具有更好的表現(xiàn).

4 結(jié)束語

Web2.0的發(fā)展使得消費(fèi)者能通過互聯(lián)網(wǎng)渠道發(fā)表在線評(píng)論,這些評(píng)論中蘊(yùn)含著豐富的價(jià)值,在電子商務(wù)活動(dòng)中起著重要的作用.要更好地利用在線評(píng)論中的隱藏價(jià)值,文本特征抽取與屬性歸類是基礎(chǔ)性研究工作.但是,由于在線評(píng)論用詞的稀疏性和表達(dá)方式的自由性,經(jīng)典的特征抽取方法在抽取時(shí)往往會(huì)丟掉詞序和語義等方面的內(nèi)容.

基于詞向量模型在詞語的序列和語義表達(dá)方面的優(yōu)勢(shì),本文提出了一種結(jié)合詞向量表征和二分K-means聚類的特征提取和屬性歸類方法.該方法首先利用評(píng)論中名詞的搭配關(guān)系形成特征詞的候選集合,進(jìn)而引入同時(shí)考慮了語義特性和位置分布的詞向量來表征這些候選詞,并用高效的聚類方法將其迅速歸類.為了檢驗(yàn)方法的可行性,實(shí)驗(yàn)抓取了真實(shí)B2C電商網(wǎng)站上近49萬條用戶生成的評(píng)論文本作為實(shí)驗(yàn)數(shù)據(jù)集.在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法能有效提升海量文本中屬性抽取結(jié)果的準(zhǔn)確性和可理解性.同時(shí),與LDA話題模型及類似方法相比較,本文提出的方法無論是在困惑度還是在宏平均準(zhǔn)確度上都有更好的表現(xiàn).

猜你喜歡
特征文本方法
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何快速走進(jìn)文本
主站蜘蛛池模板: 亚洲色图综合在线| 亚洲综合激情另类专区| 亚洲天堂视频在线观看| 久久久久无码精品| 亚洲精品无码抽插日韩| 亚卅精品无码久久毛片乌克兰| 亚洲国产欧美自拍| 免费高清a毛片| 久久久久亚洲AV成人人电影软件| 在线国产欧美| 国产成人精品综合| 蝴蝶伊人久久中文娱乐网| 欧美精品亚洲精品日韩专区| 亚洲欧洲自拍拍偷午夜色无码| 91精品专区国产盗摄| 特级精品毛片免费观看| 久综合日韩| 2020精品极品国产色在线观看| 一本大道视频精品人妻| 91美女视频在线| 色AV色 综合网站| 免费看的一级毛片| 欧美三级视频在线播放| 毛片视频网| 亚洲91精品视频| 国产国拍精品视频免费看| www.亚洲天堂| 国产美女久久久久不卡| 日韩欧美国产区| 久久99国产精品成人欧美| 在线亚洲精品自拍| 日韩色图在线观看| 91久久偷偷做嫩草影院| 国产传媒一区二区三区四区五区| 九九视频在线免费观看| 午夜爽爽视频| 日韩久草视频| 国产精品久久自在自2021| 欧美综合区自拍亚洲综合绿色| 啪啪永久免费av| 亚洲无码91视频| 91视频青青草| 国产视频久久久久| 黄片一区二区三区| 亚洲男女天堂| 欧美中文字幕一区| 亚洲av日韩av制服丝袜| 亚洲成A人V欧美综合| 色婷婷综合激情视频免费看| 日本欧美精品| 婷婷色一二三区波多野衣| 99视频国产精品| 国产在线一区视频| 69av免费视频| a亚洲视频| 小蝌蚪亚洲精品国产| 蜜臀AV在线播放| 精品亚洲麻豆1区2区3区| 三级欧美在线| 福利一区三区| 日韩在线成年视频人网站观看| 久久久四虎成人永久免费网站| 精品伊人久久久香线蕉 | 中文字幕乱码中文乱码51精品| 岛国精品一区免费视频在线观看| 老司国产精品视频91| 欧美日韩国产系列在线观看| 精品人妻一区二区三区蜜桃AⅤ| 亚洲综合亚洲国产尤物| 久久精品只有这里有| 91网站国产| 无码有码中文字幕| 青草午夜精品视频在线观看| 欧美日韩午夜| 亚洲欧洲日产无码AV| 欧美亚洲网| 久久国产精品无码hdav| 亚洲欧美不卡视频| 老色鬼欧美精品| 在线视频一区二区三区不卡| 久久久久九九精品影院| 2024av在线无码中文最新|