999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡產品評論細粒度意見挖掘研究綜述

2018-07-25 09:10:32顏端武楊雄飛南京理工大學經濟管理學院信息管理系江蘇南京210094
現代情報 2018年7期
關鍵詞:分類特征文本

顏端武 江 蕊 楊雄飛 鞠 寧(南京理工大學經濟管理學院信息管理系,江蘇 南京 210094)

互聯網的快速發展推動著人類交流方式的變革,人們越來越熱衷于在網絡媒介上發表、交流和傳播關乎社會、政治、經濟、文化等不同層面事件的看法,網絡已成為人們發表口碑信息的主陣地。同時,這些口碑信息中往往蘊含著豐富的個人情感,對其進行監測分析有助于企業或政府部門實時把握輿論態勢,必要時可及時采取有效措施,避免口碑危機發生。

意見挖掘技術的發展可為網絡口碑的監測分析提供有效技術支撐,近年來得到了較多關注。所謂意見挖掘(Opinion Mining)又可稱為情感分析,是對人們針對諸如產品服務、組織、個體、事件、主題等實體的觀點、情緒、態度等做出有效地挖掘和分析,然后進一步對挖掘出來的信息進行歸納和推理的一類技術。意見挖掘主要采用自然語言處理、文本分析和情感計算等相關技術對互聯網中海量的產品評論、微博、博客和論壇帖子等文本進行意見抽取或情感分類,總的說來,意見挖掘屬于文本挖掘的一個細分研究領域[1]。

目前,基于處理文本粒度的不同,意見挖掘可分為篇章級、句子級、短語級等研究層次,而按照分析粒度的不同,可將意見挖掘分為粗粒度意見挖掘和細粒度意見挖掘[2]。粗粒度意見挖掘一般從整體上來判斷文本的情感極性,而細粒度意見挖掘則深入到產品特征層面,能夠提取到評價信息中涉及的評價對象、評價詞以及對應的評價傾向等意見要素[3]。一般情況下,篇章級和句子級的意見挖掘屬于粗粒度的意見挖掘,但在大數據時代背景下,這種整體情感傾向性的分析已經滿足不了人們的需求,尤其對于企業和消費者來說,他們開始追求更加細致和精準的分析挖掘。企業希望從評論中獲取自身產品服務在具體特征或屬性上的口碑信息,幫助進行針對性的改善或提高,從而為消費者提供更加滿意的產品和服務,進一步鞏固自身在行業中的競爭地位,也能避免口碑危機的發生。消費者則希望從評論中獲取符合自身個性化要求的相關產品或服務信息,進而做出購買決策。細粒度的意見挖掘相比而言更加能夠滿足企業和消費者的現實需求,有效幫助他們減輕信息過載和認知成本等問題,因此在近年來得到了學者們的廣泛關注。本文的研究流程如圖1所示:

圖1 研究流程圖

1 文獻來源及分布

為了從整體上了解產品評論細粒度意見挖掘研究的發展情況,本文以“細粒度意見挖掘”、“細粒度情感分析”以及“產品評論挖掘”、“產品評論分析”為關鍵詞在中國知網上進行相關中文文獻的檢索,分別檢索到相關文獻75篇和558篇;相應的以“Fine-grained Opinion Mining”、“Fine-grained Sentiment Analysis”以及“Product Reviews Mining”、“Product Reviews Analysis”為關鍵詞在Web of Science上進行相關外文文獻的檢索,分別檢索到相關文獻213篇和804篇。根據中外相關文獻的年代分布對比(見圖1)可以看出,產品評論挖掘、細粒度意見挖掘在近年來逐步成為研究熱點,國內外的相關文獻數量都有著較快增長,其中國外相關研究的開展起步較早,研究成果也較國內更為豐富。總的來說,該領域研究有著較好的發展前景,尤其在大數據時代愈加受到國內外學者的關注。

圖2 中外相關文獻年代分布

2 相關研究進展

2.1 意見挖掘

意見挖掘往往又被稱為情感分析,而在實際過程中意見挖掘是在評價要素抽取的基礎上再進一步進行情感分析,因此從嚴格意義上來講,情感分析應屬于意見挖掘的組成內容。總的來說,意見挖掘主要是運用自然語言處理、信息抽取、數據挖掘等技術方法對目標文本信息進行主客觀分析以及進一步對主觀性文本進行情感分析,從而幫助抽取出文本信息中有價值的意見信息或知識。從文本粒度出發,意見挖掘任務可劃分為篇章級、句子級以及短語級,而根據挖掘范圍和程度的不同,總體上可以分為粗粒度意見挖掘和細粒度意見挖掘。從挖掘任務來看,產品評論細粒度意見挖掘主要涉及主客觀分類、主題識別、意見評價者識別、情感傾向性分析等方面。

意見挖掘簡言之就是從評論信息中抽取出有價值的意見信息,本質上屬于信息抽取的范疇,目前國內外學者關于意見挖掘已經開展了一系列研究。國外學者中,Pak等通過建立情感分類模型,從整體上分析Twitter用戶的評論語料的情感傾向,從而獲得用戶針對產品或服務的意見態度和情感傾向[4]。Taboada等提出了一種基于詞典的方法從文本中提取情感,利用SO-CAL模型進行情感極性分類[5]。Hu等運用關聯規則技術抽取出評論信息中高頻出現的名詞和名詞性短語并進一步進行冗余過濾,進而識別出語料中受到廣泛關注的評論對象及其屬性[6]。Somprasertsri等結合句法特征和語義信息,根據句子成分間的依存關系設計了5種抽取模板幫助提取出產品評論中的評價特征和觀點詞對[7]。國內學者中,潘艷茜等基于SVM模型提出一種結合微博和汽車評論語料的分類方法,以解決微博中用戶觀點句和非觀點句不平衡的問題[8]。祝振媛基于特征詞向量空間和關鍵詞提取,構建形成一套基于信息分類的英文網絡書評內容挖掘方法體系[9]。根據對已有研究成果的總結可以發現,意見挖掘的研究呈現出從傳統的粗粒度意見挖掘向細粒度意見挖掘發展轉變的趨勢。

在大數據背景下,意見挖掘技術的發展順應了時代對海量數據價值挖掘的需求,因此吸引了大量的研究者對其展開研究。同時,意見挖掘研究也開始逐步面向電商平臺建設、網絡輿情監測、網絡口碑分析、競爭情報分析以及新產品市場預測等相關領域,旨在幫助企業了解消費者的喜愛偏好、改善企業經營模式以及提高自身產品和服務水平,同時也為消費者做出購買決策提供有效的參考。

2.2 粗粒度意見挖掘

粗粒度意見挖掘主要是對文本進行整體的情感傾向性分類,即首先判斷出文本是否具有傾向性,再對具有傾向性的文本進行極性分類,一般分為正面和負面,或者是褒義、中性和貶義等。國內外學者分別從不同角度開展了一些具體的研究。國外研究中,Yu等提出了一個貝葉斯分類器用于新聞評論的正負面觀點分類,實驗證明其分類性能非常高,精確度和召回率高達97%[10]。Jiang等運用五折交叉驗證的方法對推文進行主客觀分類,然后擴展情感詞典對主觀推文進行情感分類,取得了較好的實驗結果[11]。國內研究中,丁晟春等借助SVM模型,使用句式特征、句內特征和隱性特征對中文微博文本進行主客觀識別和情感傾向性分析,并通過實驗證明了所提方法的可行性和有效性[12]。李本陽等將篇章級的情感傾向性分析劃分成兩層,在分析過程中引入句子級的情感傾向性分析,利用交叉驗證進一步構建了單層標注級聯模型[13]。

在粗粒度意見挖掘相關研究中可以發現,很多研究者嘗試將文本分類器應用到文本的情感分類上,但實際分類效果存在一定的差異,同時分類器的分類性能除了與分類特征的選擇有關,與領域文本特征也有很大關系。

2.3 細粒度意見挖掘

粗粒度的意見挖掘只能從整體上判斷文本的情感傾向性,而不能深入挖掘用戶對于具體評論對象及其相關屬性的情感態度。以產品為例,產品往往存在不同的特征屬性,消費者對其整體的情感傾向不能代表消費者對其局部特征屬性方面也持有相同的情感傾向,同時消費者在對產品進行評價或進行同類型產品對比時,往往會從具體的產品特征及屬性的角度發表觀點意見。不管是消費者還是企業都希望在了解產品的整體情感傾向的同時,對于自身所關注的產品特征的情感傾向也能有所掌握。基于這樣的現實需求,細粒度意見挖掘成為意見挖掘領域的新熱點,并且主要應用于企業產品或服務評論的分析挖掘。

細粒度意見挖掘在粗粒度意見挖掘的基礎上進一步深入,具體到產品的特征層面,運用信息抽取技術抽取出評論文本中的評論主體、評價特征、評價詞以及文本情感傾向等意見要素,為現實應用提供有價值的細節信息[3]。目前,面向產品評論的細粒度意見挖掘主要涉及產品特征抽取、評價詞識別、評價特征與評價詞搭配抽取、情感計算等方面研究內容。隨著細粒度意見挖掘研究的興起,國內外學者從不同的角度出發開展了各自的研究工作,取得了一定的研究成果,下文將從主要任務和關鍵技術兩個方面對相關研究成果分別進行總結。

3 細粒度意見挖掘的主要任務和關鍵技術

3.1 細粒度意見挖掘的主要任務

Medhat等認為基于產品評論的細粒度意見挖掘具體包括4個步驟,分別是情感識別、產品屬性選擇、情感分類和情感極性識別,從而總結出細粒度意見挖掘的主要任務是特征識別和情感分類[14]。徐冰等指出細粒度意見挖掘的主要任務是分析提取情感傾向以及與之相關聯的各要素,包括評價對象、傾向極性和強度等[15]。萬琪等指出評價對象識別,抽取情感的表達、觀點持有者等是細粒度意見挖掘的主要任務[16]。

通常情況下,細粒度意見挖掘實際分為3個步驟進行:①評論文本的主客觀分類;②評論對象的特征或屬性及對應情感詞的識別;③評論對象特征或屬性的情感極性分類,即依據事先定義的情感詞的極性值進行情感傾向分類,例如分類為正向極性或負向極性[17]。因此,細粒度意見挖掘的主要任務可以具體總結為:①文本的主客觀分類;②評價對象、評價詞及兩者間搭配等評價要素的抽取;③面向評價對象的情感極性計算這3個方面。其中,評價要素的抽取是細粒度意見挖掘的關鍵任務。

3.2 細粒度意見挖掘的關鍵技術

3.2.1 主客觀分類

網絡文本可分為主觀性文本和客觀性文本,其中客觀性文本只是針對評論對象的客觀性描述,往往不帶有感情色彩,而主觀性文本是對評論對象的意見觀點的集合,帶有個人的主觀情感[18]。換句話說,主觀性文本是真正意義上的評論句,也是意見挖掘的主要對象,因此,在對文本進行意見挖掘時,首先需要對評論文本進行主客觀分類,即識別出其中的主觀性文本,從而幫助縮小范圍,減少干擾。

主客觀分類的主要目的是幫助提高評價要素抽取的效率和準確性,為此,國內外學者嘗試不同的方法實現評論文本的主客觀分類。Toprak等人基于詞語特征、詞性特征以及詞典信息特征(主要是情感詞典),利用SVM分類器實現基于監督學習模型的文本主觀性分類,實驗發現詞典信息特征能夠顯著幫助提高分類任務的召回率[19]。Lambov等人在構建跨領域的分類模型時,提出和評估了一種融合高層次特征(如情感詞的極性強度)和低層次特征(如TF-IDF信息)的協同訓練方法,其實驗結果的精度水平達到了86.4%,表明了該方法能夠顯著提高主觀分類的準確率[20]。對于中文文本的主客觀分類問題,郭云龍等人根據構建的詞語字典與詞性字典,分析支持向量機、樸素貝葉斯、K最近鄰等分類模型,并利用證據理論結合多分類器對中文微博的觀點句進行識別[21]。張博等人基于SVM分類器對中文句子主客觀分類的特征選擇進行了研究,提出了情感詞、指示性動詞、指示性副詞、語氣詞及語氣標點符號等語義層面的特征,還對N-POS、N-Gram等語法層面的特征加以探討,通過選擇不同的特征維數,找到了使性能達到最優的特征組合形式,最終達到了令人滿意的分類結果[22]。

總的來說,主客觀文本的分類目前主要是以情感詞為主,結合文本類型和文本特征表示方法加以實現,如何從更深層次的角度選取評論文本特征以幫助提高分類的準確性是眾多學者正在尋求突破的地方。

3.2.2 評價要素抽取

1)評價特征的識別

評價特征的識別往往也被稱為評價對象的抽取。國外學者中,Hu等根據評價特征往往以高頻詞或短語的形式出現的規律,采用基于關聯規則的挖掘方法識別出評論句中的評價特征[6]。Goldensohn等運用基于統計和規則的方法幫助識別餐館、酒店等服務評論語料中的評價特征[23]。Qiu等采用雙向傳播的方法進行觀點詞擴充和評價特征的識別[24]。一些研究者還將主題計算模型引入到意見挖掘研究中。Titov等利用LDA模型獲取到產品特征,在此基礎上對相似的特征進行主題聚合[25]。Zhai等提出了帶約束的LDA模型來實現商品特征抽取及分組[26]。彭云等根據產品評論詞語間的語義關系,提出語義關系約束的主題模型SRC-LDA,以發現細粒度特征詞、情感詞及之間的語義關聯性[27]。游貴榮等使用詞性路徑匹配模板檢測評論中的評價句,并加入自定義評價詞詞典進行評價特征識別工作[28]。王榮洋等則基于CRFs模型提出了一種面向產品評論的評價特征識別方法[29]。

已有研究中進行評價特征識別的方法主要有基于頻率、基于模板規則、基于圖論、基于條件隨機場、基于深度學習等諸多方法。其中,基于頻率的方法較為常見,但只能抽取頻繁出現的評價特征,對于非頻繁出現的評價對象還需要采取其他技術手段;基于規則模板的方法無需大量標注語料且算法時間復雜度低,但受限于句法分析器的性能而表現差強人意;基于圖論的方法假設評價特征為名詞或名詞性短語和評價詞為形容詞,利用評價特征和評價詞的共現強化來實現兩者的聯合抽取,但在句子中無形容詞性的評價詞的情況下存在一定的問題;基于條件隨機場的方法可以較為精確地抽取出評價特征,但是該方法需要大量的訓練集,對語料標注的質量要求也比較高;基于深度學習的方法近年來深受歡迎,其避免了大量特征方面的工程工作,能在一定程度上從語義角度分析評價對象,但是在實際研究中面臨模型訓練時間復雜度高和領域遷移困難等問題。

2)評價詞的識別

評價詞即評論中帶有觀點色彩的詞,部分研究者也將其稱為情感詞。目前大部分研究都采用基于詞典的方法和基于語料庫的方法進行評價詞的識別。基于詞典的方法常通過計算候選詞與情感種子集中的情感詞的關聯度來進行評價詞識別,如國外Kim等通過構建種子詞語,使用WordNet計算新詞的情感傾向性[30],國內朱嫣嵐等利用HowNet對中文詞匯語義的傾向性進行計算[31]。Turney等基于評論語料庫,通過點互信息方法計算出候選詞與種子詞在語料庫中的PMI值,進而分析出候選詞的傾向性[32]。王振宇等則將情感詞典和語料庫兩種方法相結合,用以計算出新詞的傾向性[33]。

總體來看,目前評價詞識別技術的效果取決于情感詞典和語料庫的詞匯收錄規模和情感標注質量,因此存在很大的局限性,尤其是在進行領域遷移時面臨很大的問題。部分研究者開始嘗試從句子本身出發,通過分析句子成分間的依賴關系和詞性特征識別出評價詞,如王娟等從評價詞的詞性出發,找出其在句子中可能的句法位置,利用評價詞與其他句子成分間的依存關系制定了一系列抽取規則,幫助識別出評價詞[34]。

3)評價對象與評價詞的搭配抽取

過往的評價對象與評價詞搭配的抽取常采用基于窗口的方法,以評價對象或者評價詞為中心,在特定范圍查找識別出相應的評價詞或評價對象,進而實現兩者搭配的抽取。目前,部分研究者嘗試通過其他方法來實現對評價搭配的抽取工作。國外研究中,Lakkaraju等利用機器學習并結合依存句法分析,使用HMM模型實現評價搭配的抽取[35]。Feng等基于人工標注評價對象和評價詞,然后根據句法分析制定句法規則并根據規則抽取評價搭配[36]。Somprasertsri等在句法及語義分析基礎上提出基于依存關系模板的評價搭配抽取方法[7]。國內研究中,郭沖等則利用情感本體樹和先驗知識模板匹配算法幫助識別出評論句中的評價搭配[3]。方明等采用基于最大熵模型的方法實現對酒店評論文本中的評價搭配抽取[37]。

傳統的評價搭配抽取方法對于一些句式表達較為復雜或特殊的句子難以保證抽取的準確率,借助依存句法分析,根據句子成分間的語義依賴關系進行評價搭配的抽取能夠進一步提高抽取結果的準確率,因此在近年來得到了較多研究者的關注。

3.2.3情感極性計算

早期的評論情感計算主要實現情感傾向的定性判斷,即識別出評論句的感情色彩是正面還是負面,或者是褒義、貶義還是中性,一般常采用分類器實現文本的傾向分類。后來部分研究者又進一步嘗試在定性判斷的基礎上實現定量計算,即計算出情感傾向的強度值,如用[-1,1]區間內的值來表示強度值大小。目前,國內外學者在不同方面上都取得了一定的研究成果。國外研究中,Wang等基于無監督的學習方法,利用EM算法和樸素貝葉斯分類器優化進行文本傾向分類,實驗結果表明分類正確率較高[38]。Socher等提出基于遞歸自動編碼的半監督情感句分析模型,構建短語樹并提取短語節點特征預測句子情感極性[39]。國內研究中,萬常選等認為影響句子情感傾向值的詞性包括形容詞、動詞、副詞和名詞,其通過分析句子成分間的不同依存關系對句子情感值的影響,設計了6種情感計算的規則,結合實驗證明了規則的有效性[40]。王中卿等則設計開發了一種用于抽取中文觀點句和識別情感極性的系統—Suda_SAM_OMS系統,取得不錯的效果[41]。

總的說來,情感計算的研究由最初的定性判斷逐步向定量計算發展,不再局限于情感傾向的二分類,即正面和負面,開始嘗試更細粒度的極性值計算。一方面,研究者們在構建情感詞典時嘗試賦予情感詞一個量化的情感值,對于影響情感值的副詞、否定詞等賦予相應的影響因子;另一方面,根據句子成分的依存關系等特征設計具體計算規則,得到具體的情感強度數值。

4 總結和展望

本文圍繞網絡產品評論細粒度意見挖掘這一主題對國內外研究成果進行了研究綜述。首先,對意見挖掘的基礎理論進行介紹,包括基本概念、主要內容及分類,并按照粒度層次,對粗粒度意見挖掘和細粒度意見挖掘的研究現狀分別進行論述;在此基礎上,著重針對細粒度意見挖掘的主要任務和關鍵技術方法進行研究梳理。通過對已有研究成果的總結可以發現,細粒度意見挖掘作為網絡產品評論挖掘的重要發展方向,已經受到來自情報學、計算機科學、管理學等不同背景學者越來越多的研究關注。

目前,國內外學者在網絡產品評論細粒度意見挖掘方面已經取得相當不錯的研究成果。但是,由于自然語言的復雜性、文字表述的多樣性和靈活性,如何提升細粒度意見挖掘的性能是目前該領域研究面臨的重要問題。從研究發展趨勢來看,如何將多來源的、異構同性的產品評論進行匯聚和對比,結合細粒度意見挖掘開展比較意見挖掘研究,以幫助企業和消費者更好的進行市場和購物決策,是目前值得進一步研究的課題;在技術應用方面,目前的研究大多以方法模型和實驗研究為主,加快實施和大力推進網絡產品評論細粒度意見挖掘在口碑監測、市場分析、客戶服務等方面的實際應用,無疑具有重要現實意義。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一级爆乳无码av| 久久精品亚洲热综合一区二区| 国产导航在线| 日韩视频精品在线| 狠狠色香婷婷久久亚洲精品| 欧美成a人片在线观看| 99在线视频精品| 欧美成人精品在线| 久久夜色精品| 亚洲中文字幕日产无码2021| 国产精品欧美亚洲韩国日本不卡| 久久狠狠色噜噜狠狠狠狠97视色 | 午夜视频在线观看免费网站 | 国产精品夜夜嗨视频免费视频 | 精品无码国产自产野外拍在线| 白浆免费视频国产精品视频| 中文字幕波多野不卡一区| 91精品网站| 久久婷婷六月| 久久这里只有精品23| 香蕉视频在线观看www| 婷婷午夜天| 青青草国产一区二区三区| 99在线视频免费观看| 色噜噜中文网| 亚洲成A人V欧美综合天堂| 最新亚洲人成网站在线观看| 免费无码又爽又刺激高| 女人天堂av免费| 亚洲伦理一区二区| 成人午夜亚洲影视在线观看| 91亚瑟视频| 97国产在线观看| 日韩高清欧美| 久久综合亚洲鲁鲁九月天| 国产手机在线观看| 无码在线激情片| 五月天久久综合| 国产精品久久自在自2021| 欧美精品一区在线看| 波多野结衣中文字幕一区二区| 伊人久久大线影院首页| 一区二区自拍| 久久黄色视频影| 成人伊人色一区二区三区| 99在线国产| 欧洲精品视频在线观看| 成人欧美日韩| 日韩精品一区二区三区大桥未久| 亚洲熟妇AV日韩熟妇在线| 97狠狠操| 国产网友愉拍精品| 久久一日本道色综合久久| 永久免费AⅤ无码网站在线观看| 午夜欧美理论2019理论| 国产福利在线免费观看| 精品一区二区久久久久网站| 丰满人妻被猛烈进入无码| 午夜国产不卡在线观看视频| 国产原创演绎剧情有字幕的| 黄色福利在线| 欧美有码在线| 999国内精品视频免费| 毛片最新网址| 免费在线色| 亚洲精品视频免费| 中国毛片网| 四虎综合网| 亚洲无码高清视频在线观看| 欧美人在线一区二区三区| 国产综合无码一区二区色蜜蜜| 在线观看精品自拍视频| 国产国产人在线成免费视频狼人色| 婷婷亚洲视频| 亚洲水蜜桃久久综合网站| 亚洲国产天堂在线观看| 色婷婷亚洲十月十月色天| 国产高清在线观看91精品| 又大又硬又爽免费视频| 国产va在线| 国产自在线播放| 狠狠色婷婷丁香综合久久韩国|