趙澤青
(四川大學計算機學院,成都610065)
隨著互聯網技術的發展,越來越多的人通過網絡表達自己對某事件、商品、電影的觀點、態度、意見等,因此發現評論中有用的觀點,對于個人、企業或者政府機構都是非常有決策價值的參考信息,例如:個人在購買某件商品的時候可能會去看該商品對應的一些評價,有的人會比較關注商品的整體評價,而有的人會比較關注商品某些屬性的評價;挖掘到評論的觀點,對于企業來說也可以根據用戶的需求來調整自己的服務、銷售策略等;目前是自媒體時代,對于網絡上傳播的任何事情,人們都可以自行的轉發和評論,挖掘到大眾對于熱點事件的態度,政府機構可以根據事件的走向做出相應的決策。
目前網絡評論觀點挖掘主要研究的是商品評論的觀點挖掘、豆瓣電影評論的觀點挖掘、旅游評論的觀點挖掘以及某些熱門事件的觀點挖掘,對于商品評論而言,內容多樣、格式不固定、語句口語化,但是這些評論的觀點比較明顯;相對商品而言,電影的評論較為正式、比較容易判斷所表達的情感。
觀點挖掘很多研究者又將其稱為意見挖掘或者情感分析。主要是識別出觀點的持有者、評價對象、觀點表達的內容以及其情感傾向性。
該層次的觀點挖掘主要是將一個文本看作一個統一的單元,對這個整體進行觀點的挖掘,然后將其觀點所表達的正面、負面、中性情感傾向性作為文檔的分類類別。該層次的分析是假設每篇文檔只表達出對一個單一的實體的觀點。
主要的思想是對于給定的一篇文檔,利用相應的分類技術將其分到相應的類別中。該層次的觀點挖掘主要是提取文章的主題,然后分析該主題表達的情感傾向性。主要流程是,首先,能夠識別出文章適用的情感詞或者短語;其次,識別出該情感詞的傾向性;最后,判斷文章的整體情感傾向性。主要使用的方法分為一下4 個類別:①基于文本分類的情感極性分析方法;②基于語義規則的情感極性分析方法;③基于情感詞典的情感極性分析方法;④基于深度學習的情感極性分析方法。
(1)基于文本分類的情感極性分析方法
該方法主要是將文本的情感極性判斷看傳統的文本分類問題,類似于主題文本分類的方法,在主題模型的文本分類方式下,主題詞對于文本的類別影響比較大,而文本的情感詞對于文本的情感極性判斷影響比較大。使用比較多的算法是樸素貝葉斯方法、最大熵方法以及支持向量機方法。
林江豪等人提出一種基于二次情感特征提取算法,首先使用依存關系書對微博文本提取情感特征,然后再使用情感詞典提取情感特征,建立了一個樸素貝葉斯分類器,用于微博文本的情感分類[1]。蔣婉婷等人結合Hadoop 與樸素貝葉斯算法對微博情感分類[2]。謝麗星等人對比了處理微博文本分類的三種方法,實驗結果表示基于SVM 的方法效果最好[3]。徐軍等人使用樸素貝葉斯共和最大熵方法進行新聞評論的情感分析,實驗結果表明基于機器學習的情感文本分類取得不錯的效果,他們所選擇的特征項是具有情感傾向特征,并且還考慮到了否定詞對于情感分析的影響[4]。
(2)基于語義規則的情感極性分析方法
該方法主要是使用語義模式作為文檔的特征,通過語義模式可以體現文檔的語義信息,常用的語義模式為:
語義模式=<主體><行為><受體>,<語義傾向值>
其中的<主體><行為><受體>稱為語義模式的部件,通常對應句子的主語、謂語和賓語;<語義傾向值>表示語義模式的語義傾向權重,使用該方法提取的文本特征是語義模式。
趙天奇等人考慮了微博情感詞特征與表情元素的加權處理,語義規則部分基本涵蓋了常用的幾種句型[5]。趙文清等人結合微博文本的特性,考慮了程度副詞、否定詞、表情符號等影響情感的因素,將他們加入到情感傾向性判斷中[6]。李繼東等人通過詞典的擴展和語義規則來進行微博情感的分類,主要是構建基礎的情感詞典,然后通過PMI 算法擴展詞典[7]。
(3)基于情感詞典的情感極性分析方法
該方法是根據情感詞的傾向性來判斷文本的情感傾向性,主要的優點是所有主題使用同一個分類器,實現簡單,運行速度快,但是局限性是情感詞典固定,尤其是對于網絡評論而言,經常出現一些網絡用語是情感詞典中沒有包含的。因此有些研究者就提出根據不同的領域構建領域詞典,并且監測網絡用語,不斷更新詞典。李繼東等人就根據微博評論的特性構建了基礎詞典、微博表情詞典、否定詞典、程度詞詞典、連詞詞典,并且還通過PMI 算法更新基礎詞典[7]。朱軍等人集成Word2Vec 作為特征提取方法的支持向量機(SVM)分類方法結合基于情感詞典的樸素貝葉斯分類方法,該集成方法比其他的機器學習方法的分類效果好[8]。
(4)基于深度學習的情感極性分析方法
深度學習在計算機視覺[9]、語音識別[10]、機器翻譯[11]等領域取得了不錯的效果。首次提出了使用CNN 進行句子分類[12];之后的研究者有對其進行,提出了動態CNN 模型[13],并且還提出了基于序列分類的CNN 模型。但是基于深度學習的方法用于文本的情感傾向性分類存在的問題是沒有加入情感信息,因此文獻[14]提出在詞向量中加入情感信息,使得文本的詞向量表示也有情感信息。
以上四類方法的優缺點總結如表1 所示。

表1 方法優缺點對比
該層次的觀點挖掘是將每一個句子看作一個基本的單元,首先需要判斷句子的主觀性,然后再分析句子表達的情感極性,其實很多的評論都是屬于句子級的觀點挖掘。該層次的觀點挖掘相對文檔級而言,句子比較短,因此包含的信息比較少,對于情感極性判斷比較難實現。并且該層次的觀點挖掘也和文檔級一樣,假設每個句子只對一個實體進行評價,我們也只挖掘句子所表達的觀點或情感極性。
該層次的研究主要還是商品的評論方面,分析句子的情感極性,主要是使用依存關系分析句子的關系作為其特征[15]。文獻[16]使用一種基于樹核函數的句子級別情感分類方法,該方法使用支持向量機作為分類器。文獻[17]使用LDA 主題模型和詞共現的方法將文檔級降到句子級分類,實現酒店和手機評論的句子級情感傾向性分析。Kalchbrenner 等人[18]使用動態卷積神經網絡進行句子級的語義建模。
該層次的觀點挖掘主要是針對實體的某個屬性,挖掘出該屬性表達出的觀點信息。屬性級觀點挖掘主要的流程是實體屬性的提取,基于屬性的觀點內容的提取,觀點的情感極性分析,觀點的總結這四個過程,相對而言比較重要的是實體的屬性提取和基于屬性的觀點內容的提取。
(1)實體屬性提取
實體的屬性指所評價實體的最小單位,該方面的研究主要集中于評論方面,屬性的提取方法可以分為帶監督的學習方法、無監督的學習方法和半監督的學習方法,Jiang 等人[19]使用樹核的方法提取屬性,該方法再特征選擇的時候比較簡單,該模型依賴于樹核的定義,但是樹核的定義比較困難。Poria 等人[20]使用深度模型的卷積神經網絡模型實現屬性的提取,結合了CNN、詞向量和詞性標注,該模式比較適合于處理大量的數據,但是模型參數的敏感性問題是一個難以解決的問題。Chinsha等人結合規則、依存關系和評價詞典,實現復雜句的屬性提取。劉鴻宇等人[21]等人基于語義的方法實現高頻屬性、短語以及邊界的識別。Wang 等人[22]使用LDA 加種子詞的方法能夠學習屬性信息,降低人為干涉,但是該方法主要是依賴于選擇的種子詞。
(2)基于屬性的觀點內容提取
在上一部分提取出屬性的前提下,基于該屬性提取觀點表達的內容,其實質就是提取出一個二元組的模式:<方面,觀點>。該內容的觀點提取方法主要有:①基于規則的方法;②基于統計模型的方法;③基于深度模型的方法。基于規則的方法主要有基于語料庫的方法和基于詞典的方法;基于統計模型的方法需要人工進行標注數據集,然后使用該數據集進行模型的訓練;基于深度模型的方法主要是使用詞向量(Word Em?bedding)作為模型的輸入來進行模型的訓練,不需要特征的提取,不需要具備領域知識,該過程為一個自動化的過程。這三種方法的優缺點對比如表2 所示。

表2
朱嫣嵐等人[23]使用知網情感詞典和語義相似度以及詞頻的方法實現觀點的挖掘,該方法簡單,但是依賴于情感詞典和選擇的基準詞典。Kim 等人[24]實現基于少量數據人工標注,能夠實現詞典擴充的方法,使用的技術是句法依存樹加詞典。目前基于統計模型的方法主要使用的技術有LDA 加貝葉斯[25],結合句法分析、LDA、HMM 以及最大熵的技術[26],也有單獨使用LDA[27]、CRF[28]等技術實現觀點挖掘的研究。而深度模型使用比較多的是DCNN[29]和BLSTM[30],DCNN 比較適合于變長句子的建模,不需要其他的特征,該模型能夠理解語義關系。而BLSTM 模型適合于復雜句的分析,能夠區分出文本中的重點句子。文獻[31]認為DCNN 和BLSTM 模型的詞向量僅僅只表示出了語義關系,沒有包含情感,因此他們提出一種以Skip-Gram 作為基礎框架,將情感信息加入到有監督的情感信息學習中,開發了兩個基于Skip-Gram 的神經網絡模型,整合了語義和情感信息的詞向量表示。
前面介紹了三種層次的觀點挖掘,每種層次都有相應的研究,句子級別的觀點挖掘相對較少;下表是這三個層次觀點挖掘的優缺點對比,如表3 所示。

表3 不同層次觀點挖掘優缺點比較
總結了目前使用比較的、比較權威的情感詞典,如表4 所示。

表4 情感詞典總結
以上三種粒度的觀點挖掘,基本涵蓋了網絡評論觀點挖掘的研究,針對不同的需求,根據觀點挖掘的粒度,使用不同的方法實現觀點的挖掘,每一種觀點挖掘的層次有其自己的優點和缺點,而每一種方法也有其自己的優缺點。接下來的研究是基于屬性的觀點挖掘實現網絡評論細粒度的觀點挖掘。