欒 杰,劉利軍,馮旭鵬,黃青松,3
1(昆明理工大學 信息工程與自動化學院,昆明 650500) 2(昆明理工大學 教育技術與網絡中心,昆明 650500) 3(云南省計算機技術應用重點實驗室,昆明 650500)
隨著微博的流行,使用微博的人也越來越多,大量的評論數據也隨之產生.然而,由于新浪微博的信息發布門欄較低、平臺管理松散,使得這些評論的質量良莠不齊,既影響了通過評論對博主進行需求挖掘的準確性和可信性[1],也加大博主獲取高質量評論信息的難度.由此可見對微博評論進行質量評估找出博主關注的高質量評論至關重要.
目前國內外對于評論質量評估的研究主要集中在商品評論上,Mudambi等[2]使用回歸分析對商品評論進行質量評估.使用評論所獲得的投票的歸一化值作為商品評論質量的固有值.吳等[3]則使用分類的方法將商品評論分為“有用”和“無用”兩類,以人工標注的數據來驗證分類的準確性,將分類的結果作為評論質量的評估.而李等[4,5]則在此基礎上加入了評論者的社交網絡信息,以此來提高評估的準確度.
然而上述研究忽略了兩個重要的問題.
1)在評論質量評估過程中未考慮到個體的差異性.因為評論質量是一個主觀的概念,不同的人對評論質量高低的衡量標準也不一樣[6].(有的人認為飽含情感的評論是高質量的評論[7,8],而有的人則更注重評論的語法特征[9,10])所以在對評論進行質量評估時應該定量的分析.選取某一個人作為評估人,以評估人的角度的來考慮其對評論質量的衡量標準,而不是簡單的以全局的角度考慮所有人對評論質量的衡量標準.
2)以投票作為參照物(無論是將投票的歸一化值作為回歸參照物還是將投票按高低劃分作為分類的參照物)存在誤差性.因為不同的評論所獲得的投票不僅僅只受評論質量的影響,還受一些其他因素影響.例如研究表明,得到投票多的評論更容易得到更多的投票,發布早的評論容易得到更多的投票[6].所以在選取參照物時應盡量避免這種誤差[11].
綜上所述,考慮微博評論.對于問題1,每條微博只可能有一個博主,但是其評論者卻可以有很多,而且不同的微博可能有相同的評論者.因此選取評論者作為評估人可能會導致重復工作.另一方面由于本文是為了找出博主關注的評論,所以本文選取博主作為評論質量的評估人.對于問題2,評估人確定之后,參照物的選取應盡量避免誤差.一方面,在微博中如果一個評論獲得了博主的回復,那么無論這個評論的字數還是情感極性,這個評論在博主眼中必定是值得回復的.與那些沒有被回復的評論相比,這個評論在博主眼中是更重要的,是其更為關注的評論.另一方面,回復行為與博主直接相關,是博主關于評論質量衡量標準的一個直接體現,能有效避免誤差.所以本文選取被博主回復的評論作為高質量評論的參照物.
基于上述分析,本文提出了一種基于最大熵的評論質量評估模型.首先對博主進行分析和研究定義特征,使用爬蟲和詞向量抽取評論特征,以被博主回復的評論作為高質量評論的參照物.采用監督學習的方式訓練出符合博主衡量標準的最大熵分類模型(通過不同博主的不同回復習慣訓練出不一樣的特征組合)并通過測試數據驗證所提模型分類的準確性,最后將分類概率值(這里該文選取分類為回復評論的概率值)作為微博評論的質量評估值.
為提高提取性能[12-14],盡可能降低隱藏特征(特征定義中未發現的分類特征)對分類模型效果的影響,該文使用最大熵模型對微博評論進行分類,將微博評論分為回復評論類和未回復評論類.最大熵模型的主要思想是在給定約束條件下,對未知情況不做任何假設.在這種情況下,概率分布越均勻,概率模型的熵越大,預測的風險也越小[15].
最大熵模型的計算公式如下:
(1)
(2)
其中y為分類結果,x為評論特征,Zw(x)稱為規范化因子,wi是特征的權重,f(x,y)是特征函數,其定義為:
(3)
式中x0表示某一評論特征值,y0表示某一分類值.
特征定義是分類的關鍵步驟,不同的博主其關注的評論特征點(在博主眼中認為哪些評論特征是重要的)也不同,所以在定義特征時應盡可能全的考慮所有博主可能會關注的評論特征,然后再通過監督學習的方式訓練出不同博主對應的特征組合.對此該文依據自然人的兩面性(共性和個性)定義兩類特征,將博主作為自然人集體中的一員考慮,他具有集體共有特性即與集體有著共有的評論特征關注點定義其為共性特征.將博主作為一個單獨的自然人考慮,他相比于集體中的其他自然人有一些私有特性即一些個性的評論特征關注點定義其為個性特征.
先前的研究結果表明,表1中的評論特征在評論質量評估時是重要的即都是集體的評論特征關注點.因此本文將這些特征歸入共性特征.
表1 共性特征匯總
Table 1 Summary of common features

特 征描 述研究論文相似特征評論與產品描述之間的相似度.(在微博中為評論與博文的相似度)Lin[6]情感特征評論的正負情感傾向.或者是通過評論正負情感詞的數量來表示評論的情感強度.Hao[7]元數據特征評論所獲得的投票數,評論發布的時間.Lin[6]統計特征評論的句子長度,詞數量等.Lu[16,17]評論者特征評論者是否是活躍用戶(即活躍度).Lin[6]
個性特征的提出是基于一系列的假設,具體假設的成立與否要通過實驗來驗證,見表2.
表2 個性特征匯總
Table 2 Summary of specific characteristics

特 征描 述假 設關系特征博主與評論者的關系(關注,無).博主關注的人中可能有博主的同學朋友等,相比于一些其他的評論者,親朋好友的評論更有可能引起博主的關注.提醒特征評論者在評論中是否@了博主.微博中,當評論者在評論中@博主時,該評論會在博主登陸微博時以一個醒目的方式提醒博主.與其他評論相比,該評論獲得博主關注的概率更大.回復特征評論是否是回復博主的評論.回復博主的評論表明評論者很有可能是在與博主進行對話.此類評論獲得博主關注的概率更大.
有些特征的抽取可直接通過爬蟲或統計量化完成,有些則需要經過一系列模型運算.在此對于能直接量化的特征以表格的方式匯總如表3.
表3 量化特征表
Table 3 Quantitative characteristic table

特 征描 述表 示元數據特征投票數F1評論發布時間與博文發布時間的差值F2統計特征單詞數F4句子長度F5提醒特征是否@博主,是:1,否:0F6回復特征是否是回復博主的評論,是:1,否:0F7關系特征互關注:2,粉絲:1,無:0F8
對于不能直接量化的特征描述如下:
1)相似特征
相似度計算一直以來都是學術界研究的熱點,但是微博的評論動輒上萬以上,考慮到評估模型的實用性.該文的相似度特征(F3)抽取使用簡單高效的word2vec[18-20]進行計算,計算方法.公式如下:
(4)
(5)
F3=cos(v(blog),v(review))
(6)
其中word2vec表示詞向量,i為該詞標記,n為博文或評論的詞數,v(blog)表示博文所對應的句向量,v(review)表示評論所對應的句向量.
2)情感特征
情感特征(F9)使用評論的情感傾向來表示,正面:1,負面:0.通過工具包構建情感分析模型,將模型分析出來的值作為評論的情感特征值.
3)評論者特征
評論者特征中評論者的活躍度(F10)的計算方法使用孫[21]的研究中表現良好的AHP層次分析法,通過觀察研究評論者在微博上的信息.構建活躍度評分指標體系,其結構如圖1.

圖1 活躍度評分指標體系結構Fig.1 Index system structure of active degree
依據上述結構,得出其活躍度計算公式如下:
(7)
其中wi,vi分別表示第i個評分指標(如圖1所示i為1表示的是微博數這個評分指標)的組合權重(通過AHP計算出來的組合權重)和歸一化值.
實驗數據主要包括兩個數據集(DA,DB),DA是通過對COAE2013中傾向性分析評測數據文本進行預處理獲得的數據,DB是在新浪微博上隨機抽取三個博主進行爬蟲獲得的數據.(為使實驗簡潔明了,現將博主作如下標記博主1:iG電子競技俱樂部、博主2:安徽省教育廳、博主3:樂蜂網)詳情如表4所示.
表4 數據詳情表
Table 4 Data details

數據集類別數目DA正面1000負面1000數據集博主抓取微博抓取評論回復評論未回復評論DB博主1博主2博主3397313275278811129317221360498854275211079516367
其中回復評論即是獲得博主回復的評論,反之則是未回復評論.
特征抽取實驗主要分為三個部分,針對的是不能直接量化的特征,通過實驗驗證抽取方法的有效性.實驗結果如表5所示.
表5 相似度特征抽取實驗
Table 5 Similarity feature extraction experiment

博 主博 文 內 容 評論內容相似度博主1#i?趣事#小軒在不在,我是態妹啊[doge][doge]rookie在不在,我是zz態.對對對對我是態妹.0.9264好可愛?0.1427博主2#2016高考#【普通文理科本科第二批次投檔分數及名次公布】理工:ht?tp://t.cn/RtbFZtA;文史:http://t.cn/Rtbem3l.7月26?28日,本科第二批次高校平行志愿錄取.7月30日10:00?16:00,符合條件的考生填報征集志愿和降分征集志愿.7月31日,本科第二批次高校征集志愿及降分錄取.[傻眼]坐等征集志愿出來!!!0.7231嘿嘿,發現你對這方面好了解啊-0.59博主3#高蜂論談#來說說你都被哪些廣告臺詞洗過腦[哈哈][doge](轉發+評論@樂蜂網既有機會獲得精美禮物一份哦!)#高蜂論談#杯裝奶茶開創者,連續六年銷量領先.一年賣出七億多杯,連起來可繞地球兩圈!@樂蜂網0.7921么么噠-0.1066
表5的內容為相似度特征抽取實驗的示例(即隨機抽取每個博主的一條微博,并找出與該微博相似度最高和最低的評論展示出來),從示例中可以看出使用詞向量對評論與博文的相似度進行計算是有效可行的.
表6 情感特征抽取實驗
Table 6 Sentiment feature extraction experiment

數據訓練測試比分類結果PRFDA1:1正面86.06%93.8%89.76%1:1負面93.17%84.8%88.79%
從上頁表6中實驗結果可以看出情感分析的準確率在86%以上,召回率在84%以上,達到了實驗要求的標準.
表7 評論者特征抽取實驗
Table 7 Reviewer feature extraction experiment

微博數認證粉絲數關注數活躍度173275116270926460.870613401118688665340.7675269971396085030.676418439035681160.2451201280.0
表7展示的是數據集DB中部分評論者的信息,可以看出活躍度的計算符合基本的客觀認知.
考慮到方法的應用,最大熵模型的參數訓練使用LBFGS.分類的實驗數據包括兩部分,訓練數據和測試數據.從1類和2類評論(將數據集DB中回復評論作為1類評論,未回復的評論作為2類評論)中各選出100條作為測試數據,將余下的評論放在一起作為訓練數據.由于訓練數據中樣本不平衡(1類評論和2類評論的數目存在量級上的差距),對此,實驗采用權重調整的方式解決樣本不平衡問題.后續實驗不作特殊說明所使用的數據皆通過上述方法處理得到.實驗中為了評估模型的效果,采用準確率,召回率,F值(P,R,F)三個指標進行評判.由于該文是通過分類將1類評論的概率值作為評論的質量評估值,因此僅展示1類評論即博主關注的評論的P,R,F.
先前的研究表明分類的特征并不是越多越好[22],因此需要對文中定義的特征進行選擇實驗,找出分類效果最好的特征組合.考慮到模型分類的效果,本文使用Wrapper方式進行特征選擇.首先定義一個基于文本特征的基礎分類系統,隨后在文本特征的基礎上依次引入其他特征,依據分類結果篩選特征,再對篩選出來的特征進行組合加入到文本特征分類中,選出分類效果最好的特征組合.
基礎分類系統使用的文本特征為特征F4和F5[16].為了驗證本文提出的個性特征的有效性,將特征選擇實驗分為兩部進行,共性特征選擇實驗和個性特征選擇實驗.共性特征引入實驗結果如表8所示.
表8 共性特征引入實驗
Table 8 Common characteristics of the introduction of the experiment

特 征博主1博主2博主3PRFPRFPRFF4,F557.6%72%64%53.51%99%69.47%54.6%89%67.68%F4,F5+F152.76%86%65.4%63.36%83%71.86%54.25%83%65.61%F4,F5+F264%80%71.11%72.48%79%75.6%52.17%72%60.5%F4,F5+F357.6%72%64%53.51%99%69.47%54.88%90%68.18%F4,F5+F956.1%69%61.88%56.88%91%70%54.19%84%65.88%F4,F5+F1057.36%74%64.63%53.51%99%69.47%54.88%90%68.18%
對于博主1,從實驗結果可以看出:對模型有提升效果(根據F值判斷)的特征有F1,F2和F10,沒有提升效果的有F3,對模型產生反效果的有F9.因此將F9去除,對F1,F2,F3,F10進行組合加入文本特征分類中進行特征選擇實驗(雖然F3在當前環境中沒有產生提升效果,但也沒有產生反效果,不確定其在后續實驗中是否有作用.因此暫時保留).依次類推對于博主2,共性特征選擇實驗是將F1,F2,F3,F9,F10進行組合加入文本特征分類中進行實驗.對于博主3,共性特征選擇實驗是將F3,F10進行組合加入文本特征分類中進行實驗.共性特征選擇實驗的實驗結果如表9所示.
由于博主2的組合數過多不便展示,只展示效果最好的組合.從實驗結果可以看出,對于博主1,效果最好的特征組合為F4,F5,F1,F2和F4,F5,F1,F2,F3.模型的F值為71.62.對于博主1,對比表8和表9可以發現任何特征組合在引入F3之后效果都是沒有提升(對比F4,F5,F1和F4,F5,F1,F3等),甚至有些特征組合會有所下降(對比F4,F5,F10和F4,F5,F3,F10).同樣對于博主2,也是如此(對比F4,F5,F1,F2和F4,F5,F1,F2,F3).因此后續的實驗中當出現引入特征之后效果沒有提升則將該特征篩選出去.對于博主1其共性特征組合為{F4,F5,F1,F2}.對于博主2其共性特征組合為{F4,F5,F1,F2}.博主3共性特征組合為{F4,F5,F3,F10}.對每個博主進行個性特征引入實驗.實驗結果如表10所示.
表9 共性特征選擇實驗
Table 9 Common feature selection experiment

特 征PRF博主1F4,F5+F1,F263.56%82%71.62%F4,F5+F1,F352.76%86%65.4%F4,F5+F1,F1053.37%87%66.16%F4,F5+F2,F364%80%71.11%F4,F5+F2,F1060.87%84%70.59%F4,F5+F3,F1057.03%73%64.04%F4,F5+F1,F2,F363.57%82%71.62%F4,F5+F1,F2,F1058.82%90%71.14%F4,F5+F1,F3,F1053.37%87%66.16%F4,F5+F2,F3,F1060.87%84%70.59%F4,F5+F1,F2,F3,F1058.82%90%71.15%博主2F4,F5+F1,F269.92%86%77.13%F4,F5+F1,F2,F366.92%86%77.13%博主3F4,F5+F3,F1055.15%91%68.68%
表10 個性特征引入實驗
Table 10 Specific characteristics of the introduction of the experiment

特 征PRF博主1F4,F5,F1,F2+F664.34%83%72.49%F4,F5,F1,F2+F763.57%82%71.62%F4,F5,F1,F2+F863.08%82%71.3%博主2F4,F5,F1,F2+F670.4%88%78.22%F4,F5,F1,F2+F777%77%77%F4,F5,F1,F2+F869.92%86%77.13%博主3F4,F5,F3,F10+F665.19%88%74.89%F4,F5,F3,F10+F751.77%73%60.58%F4,F5,F3,F10+F854.19%84%65.88%
與表9對比可發現引入F7,F8之后三個博主的模型的F值都沒有提升.只有F6的引入對模型產生了提升效果.因此將F7和F8篩選出去.得到博主1的特征組合為{F4,F5,F1,F2,F6}、博主2的特征組合為{F4,F5,F1,F2,F6}、博主3的特征組合為{F4,F5,F3,F10,F6}.特征組合確定之后分類的實驗結果也可確定即該特征組合對應的實驗結果.
為了驗證最大熵分類在微博評論分類中的有效性,該文使用其他分類方法與之對比.對比實驗中由于有些分類方法在實現時難以對模型進行權重調整,因此將分類對比實驗分為兩步來做.對不可以進行權重調整的方法使用重采樣的方式來解決數據不平衡問題.同樣與之對比的最大熵也使用相同的數據進行實驗,重采樣的特征選擇和權重調整的特征選擇使用的方法一致.實驗得出特征組合為博主1:{F4,F5,F2,F9,F8}、博主2:{F4,F5,F1,F2}、博主3:{F4,F5,F1,F9,F6}.對比試驗結果如表11所示.
表11 分類對比實驗
Table 11 Comparison experiment of classification

方 法處理方式博主1博主2博主3PRFPRFPRFF平均值最大熵權重調整64.34%83%72.49%70.4%88%78.22%65.19%88%74.89%75.2%支持向量機權重調整60.45%81%69.23%65.93%60%62.83%65.35%66%65.67%65.91%最大熵重采樣68.87%73%70.87%69.3%79%73.83%68.81%75%71.77%73.88%AdaBoost重采樣62.6%82%71%68.38%80%73.73%61.07%80%69.26%71.33%迭代決策樹重采樣64.29%72%67.92%64.71%66%65.35%69.16%74%71.5%68.26%
從F值上可以看出,無論是權重調整還是重采樣,與其他分類模型相比,最大熵分類的效果都是高于其他分類方法的(當處理方式為重采樣時,雖然AdaBoost方法在博主1上分類效果要高于最大熵,但在博主2和3上最大熵分類效果是高于AdaBoost的,且從F值的平均值上看,最大熵分類的平均值是高于AdaBoost的.所以總的來說,在處理該文分類問題上,最大熵分類是優于AdaBoost的).其次,觀察表11可以發現.當處理方式為權重調整時,對于不同的博主,最大熵分類的F值均達到72%以上.證明了最大熵分類對于不同的博主來說都是有效的.分類的有效性獲得驗證之后,微博質量的評估值也可確定即分類中1類評論的概率值.
該文致力于站在博主角度上對微博評論進行質量評估,提出一種基于詞向量與最大熵的評論質量評估方法.以被博主回復評論作為高質量評論參照物,通過監督學習的方式訓練分類模型,實驗證明分類模型的平均P、R、F可達到66.64%、86.33%、75.2%.最后將分類為1類評論的概率值作為博主眼中微博評論質量的評估值.計算出的評估值,一方面可以為評論的排序提供依據,將博主最關心的評論靠前展示,解決信息過載的問題.另一方面可以通過評估值將博主不關注的評論剔除出去,為基于評論的博主需求挖掘提供有用的數據.
雖然該文所提的評估模型經過實驗證明是有效的,但是由于該文是以被博主回復評論作為高質量評論的參照物,針對沒有回復習慣的博主,模型難免會出現冷啟動的問題.所以接下來將考慮將協同過濾融合進評論質量評估模型中,解決冷啟動的問題.
[1] Jiang Wei,Zhang Li,Dai Yi,et al.Analyzing helpfulness of online reviews for user requirements elicitation[J].Chinese Journal of Computers,2013,36(1):119-131.
[2] Mudambi S M,Schuff D.What makes a helpful online review? a study of customer reviews on amazon.com[J].Mis Quarterly,2010,34(1):185-200.
[3] Wu Han-qian,Zhu Yun-jie,Xie Jue.Detection model of effectiveness of Chinese online reviews based on logistic regression[J].Journal of Southeast University,2015,45(3):433-437.
[4] Li Yu-qiao,Fu Hong-guang.Fake comments recognition based on social network graph model[J].Journal of Computer Applications,2014,34(s2):151-153,158.
[5] Wu F,Shu J,Huang Y,et al.Social spammer and spam message Co-Detection in microblogging with social context regularization[C].ACM International on Conference on Information and Knowledge Management,ACM,2015:1601-1610.
[6] Lin Yu-ming,Wang Xiao-ling,Zhu Tao,et al.Survey on quality evaluation and control of online reviews[J].Journal of Software,2014,25(3):506-527.
[7] Hao Yuan-yuan,Ye Qiang,Li Yi-jun.Research on online impact factors of customer reviews usefulness based on movie reviews data[J].Journal of Management Science in China,2010,13(8):78-88.
[8] Park D,Sachar S,Diakopoulos N,et al.Supporting comment moderators in identifying high quality online news comments[C].CHI Conference,2016:1114-1125.
[9] Zhang Z,Varadarajan B.Utility scoring of product reviews[C].ACM CIKM International Conference on Information and Knowledge Management,Arlington,Virginia,Usa,November,2006:51-57.
[10] Kim S,Chang H,Lee S,et al.Deep semantic frame-based deceptive opinion spam analysis[C].The ACM International on Conference on Information and Knowledge Management,2015:1131-1140.
[11] Mishra A,Rastogi R.Semi-supervised correction of biased comment ratings[C].International Conference on World Wide Web.ACM,2012:181-190.
[12] Hu M,Liu B.Mining and summarizing customer reviews[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August,2004:168-177.
[13] Popescu,AnaMaria,Etzioni,et al.Extracting product features and opinions from reviews[M].Natural Language Processing and Text Mining,Springer London,2007:9-28.
[14] Zhuang L,Jing F,Zhu X Y.Movie review mining and summarization[C].Acm International Conference on Information & Knowledge Management,2006:43-50.
[15] Li Hang.Statistical learning method[M].Beijing:Tsinghua University Press,2012.
[16] Lu Jun,Hong Yu,Lu Jian-jiang,et al.Automatic reviews quality evaluation based on global user intent[J].Journal of Chinese Information Processing,2012,26(5):79-87.
[17] Dewang R K,Singh A K.Identification of fake reviews using new set of lexical and syntactic features[J].Sixth International Conference on Computer and Communication Technology,Allahabad,India,September,2015:115-119.
[18] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Computer Science,2013.
[19] Kusner M J,Sun Y,Kolkin N I,et al.From word embeddings to document distances[J].Journal of Machine Ceurning Research,2015,37:957-966.
[20] Zhang Jian,Qu Dan,Li Zhen.Recurrent neural network language model based on word vector features[J].Pattern Recognition and Artificial Intelligence,2015,28(4):299-305.
[21] Sun Nai-li.Design and implementation of personalized advertising system based on micro blog opinion_leader[D].Beijing:Beijing University of Posts and Telecommunications,2012.
[22] Zhang Yu-xiang,Sun Wan,Yang Jia-hai,et al.Feature importance analysis for spammer detection in SinaWeibo[J].Journal on Communications,2016,37(8):24-33.
附中文參考文獻:
[1] 姜 巍,張 莉,戴 翼,等.面向用戶需求獲取的在線評論有用性分析[J].計算機學報,2013,36(1):119-131.
[3] 吳含前,朱云杰,謝 玨.基于邏輯回歸的中文在線評論有效性檢測模型[J].東南大學學報(自然科學版),2015,45(3):433-437.
[4] 李雨橋,符紅光.基于社交圖譜模型的虛假評論識別[J].計算機應用,2014,34(s2):151-153,158.
[6] 林煜明,王曉玲,朱 濤,等.用戶評論的質量檢測與控制研究綜述[J].軟件學報,2014,25(3):506-527.
[7] 郝媛媛,葉 強,李一軍.基于影評數據的在線評論有用性影響因素研究[J].管理科學學報,2010,13(8):78-88.
[15] 李 航.統計學習方法[M].北京:清華大學出版社,2012.
[16] 陸 軍,洪 宇,陸劍江,等.基于全局用戶意圖的評論自動估價方法研究[J].中文信息學報,2012,26(5):79-87.
[20] 張 劍,屈 丹,李 真.基于詞向量特征的循環神經網絡語言模型[J].模式識別與人工智能,2015,28(4):299-305.
[21] 孫乃利.基于微博意見領袖的個性化廣告投放系統的設計與實現[D].北京:北京郵電大學,2012.
[22] 張宇翔,孫 菀,楊家海,等.新浪微博反垃圾中特征選擇的重要性分析[J].通信學報,2016,37(8):24-33.