宋偉偉 李權
【摘要】本文主要探討了決策支持系統的應用結構、數據倉庫、數據挖掘技術分析等技術方面的內容。對數據挖掘在中文網絡產品評論中的應用進行了全面深入的探討,介紹了挖掘系統的通用框架,然后對產品特征提取、主觀句定位、用戶態度提取、態度極性判斷、挖掘結果等五個任務進行了詳細闡述。顯然,數據挖掘在評論挖掘中的廣泛應用對于網上購物各方面的進一步推進具有借鑒價值。
【關鍵詞】網絡中文評論;數據挖掘;通用框架;應用
![]()
1 引言
這篇文章旨在探討了數據倉庫、數據挖掘的定義和相關概念,提出了網絡產品評論挖掘的研究背景以及步驟和方法,并在用戶產品評論分析的基礎上,進一步對產品特征提取、主觀句定位、用戶態度提取、態度極性判斷進行分析,更全面的介紹了數據挖掘在各方面的應用和作用。
2 數據倉庫和數據挖掘的技術分析
2.1數據倉庫
數據倉庫系統會隨著時間而發生改變,包括數據倉庫的創建、設計以及使用;縱向上所呈現的是數據倉庫的管理體系,它最終是通過元數據對整個數據倉庫系統進行了管理[1]。數據具有單向流動性,在存儲過程中還具有層次性。數據經由源數據進入數據倉庫,接著在分析處理后進入用戶界面。
2.2 數據挖掘技術分析
基于數據倉庫的通用數據挖掘系統的結構是基于傳統的結構框架以及數據倉庫的特點所分析出來的,適用于不同的數據挖掘。對網絡產品有用評價信息的挖掘分為用戶產品評論語料庫構建、數據預處理、產品評論挖掘和挖掘結果分析四個步驟。
3 挖掘技術在產品評論中的應用
產品評論挖掘是文本挖掘研究領域中最近幾年興起的研究熱點。以Web上發表的用戶產品評論作為挖掘對象,采用自然語言處理技術,從大量文本中發現用于對該產品各方面性能的評價。目前產品評論挖掘分為產品特征提取、主觀句定位、用戶態度提取、態度極性判斷和分析挖掘結果五個子任務。
3.1 在產品特征提取中的應用
在產品特征方面,生產廠商一般會給出關于相關產品各方面性能的說明文件,但是產品評論挖掘一般不從這樣的說明性文件中提取產品特征,主要原因之一是生產廠商和用戶對產品特征的關注度不一樣,用戶關注的是對于產品的相關的特征信息,而生產廠商提供的產品特征更多的專注于一些技術細節,對于這樣的細節用戶一般不感興趣。其次產品評論中對特征的描述是一個開放性的問題。產品特征提取是在分詞和詞性的基礎上,首先提取出全部的名詞,找出出現頻率比較高的名詞作為候選詞匯,之后通過人工定義,得到用戶關注產品特征集合F1,假設產品規格說明書中提取的產品特征集合設定為F1,則最終產品特征集合為F=F1∪F2。
3.2 在主觀句定位中的應用
判定主觀句的方法主要是查看語句中是否出現了主觀性特征,主觀性特征包括可以表示主觀性的動詞、形容詞、名詞短語、文本模式或人工定義的詞匯表,主觀性特征的獲取分為人工定義和自動獲取兩種方式。根據李存青給出的4種漢語評論常用語法模式基礎上[2],單曉紅給出了9種語法模式:名詞+形容詞、名詞+動詞、名詞+副詞+形容詞、名詞+副詞+動詞、名詞+副詞+副詞+形容詞、名詞+副詞+副詞+動詞、動詞+名詞、副詞+動詞+名詞、形容詞+的+名詞,在分詞和詞性標注的基礎上,對于每一條產品評論句子Ri,構造其語法模式集合[14],來作為產品評論中主觀句定位的方法。
3.3 在用戶態度提取中的應用
Kobayashi、Inui和Matsumoto 建立了形容詞的用戶態度詞匯表(比如:comfortable,tight,supportive)[3]。Li Zhuang從人工標注的數據中尋找了1093 個詞匯作為正性詞匯,780個詞匯作為負性詞匯,無論評論語句中出現了正性還是負性詞匯,那么都將該詞匯作為表示了用戶態度的詞匯[8]。Bing Liu和Mingqing Hu提取句法分析樹中修飾作為產品特征的名詞和名詞短語的形容詞或副詞作為用戶態度[4]。Kim和Hovy不進行句法分析而是直接定義一個窗口,將在窗口中出現的形容詞作為用戶態度和使用文本模式提取用戶態度,將出現在文本模式中的形容詞作為用戶態度。
3.4 在態度極性判定中的應用
文本的態度分析分為詞語、短語、句子、篇章等多個層次,篇章層次的態度極性的判斷多用于基于情感的多文本摘要等領域,極性詞匯表的建立分為人工定義和自動獲取兩種方法。Turney[5]采用互信息和信息檢索結合(PMI-IR)的方法判定詞匯極性,該方法假設同一篇文章中出現的詞語具有相同的情感極性方向,首先建立7個單詞構成的正性詞匯集Pwords和7個單詞構成的負性詞匯集Nwords,對需要進行極性判斷的詞匯Uword,分別計算Uword 與Pwords和Nwords中的每個極性詞匯的互信息(PMI:Point Mutual Information),下面的公式采用IR方法計算兩個詞的互信息:
PMI(Word1,Word2)=Log2(
)
小結
隨著網上交易信息的快速發展,伴隨著對數據分析工具的需求,近年來產品評論挖掘研究對數據挖掘技術的研究呈逐步增長趨勢。本文主要探討了決策支持系統的應用結構、數據倉庫、聯機分析處理技術、數據挖掘技術,分析了網絡產品評價挖掘步驟以及挖掘技術在產品評論挖掘過程中的應用分析。
參考文獻:
[1]數據倉庫與數據挖掘技術.孫水華、趙釗林、劉建華編著.清華大學出版社.P5
[2]李實,葉強,李一軍,Rob Law.中文網絡客戶評論的產品特征挖掘方法研究.管理科學學報,2009,12(2):142-151.
[3]Kobayashi N,Lida R,Inui K,etal.Opinion mining as extraction of attribute-value relation[C]//The 19th Annual Conference of JSAI,Japan,2005.
[4]Hu Mingqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of Nineteeth National Conference on Artificial Intelligience,San Jose,USA,2004.
[5]Kim S M,Hovy E.Automatic detection of opinion bearing words and sentences[C],2005.