999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向手機網絡評論的意見挖掘技術研究

2018-10-10 11:11:16郭放
數字技術與應用 2018年7期

郭放

摘要:本文主要研究針對手機網絡評論的意見挖掘技術。為實現手機網絡評論的主題提取,本文首先構建了手機領域本體;在領域本體的基礎上,選取多個TF-IDF值作為閾值,每個閾值可構成一個簡單的分類器,利用集成的思想將訓練得到的單個分類器組合為最終的分類器,在此過程中獲得文本的主題。隨后對主題與手機相關的文本進行情感分析,利用FP-growth頻繁項集發現算法,創建一個手機領域相關的情感詞典,最終計算整體的好評率和差評率。

關鍵詞:意見挖掘;領域本體;主題提取;情感分析

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2018)07-0111-04

1 綜述

網絡評論文本是消費者對相關產品的評價,包含正面或負面的情感傾向,反映出商品的外觀、功能性價比等信息。但這些網絡評論數量龐大、內容復雜、結構隨意,需要對它們進行整理并分類,以滿足不同群體和商家的需求。面對網絡上海量、復雜的評論文本,采用人工查詢和分類的方法顯然不符合實際,人們希望能有一種快速高效的方法對這些信息進行分類統計。

意見挖掘(Opinion mining)技術的出現滿足了這一要求[1]。根據Soo-Min Kim和Eduard Hovy提出的意見的定義,將意見描述為四元組:[Topic,Holder,Claim,Sentiment][2]。其中Topic表示意見評論的對象;Holder表示意見的發表者;Claim表示意見的內容;Sentiment表示意見的情感傾向。意見挖掘的過程就是識別網絡評論文本中以上四部分內容,分析意見主觀傾向性[3],過程可概括如下:(1)抓取網絡上的產品評論文本,輸入分詞器進行分詞,并過濾掉文本中的停用詞;(2)對分詞后的網絡評論文本進行主題提取,方法主要包括基于語義分析的方法、基于統計的方法,以及基于領域本體的方法;(3)識別出評論文本中帶有情感傾向的主觀性表述,過濾無關內容;(4)對網絡評論文本進行情感分析。本文主要對主題提取和情感分析兩個方面進行了改進。以下進行詳細說明。

2 面向手機網絡評論的主題提取

2.1 方法概述

本文意見挖掘的對象,是手機領域的用戶評論文本。在這些評論文本中,存在大量的手機領域的相關術語或概念描述,本文利用領域本體的概念構建針對手機領域的本體樹,在領域本體的基礎上,利用TF-IDF原理計算文本樣本集中各樣本的本體相關度。選取多個TF-IDF值作為閾值,每個閾值可構成一個簡單的分類器,通過閾值將樣本集合中文本定義為兩類:判定大于閾值的為主題相關文本,小于閾值的為非相關文本,根據分類結果的錯誤率確定每個分類器的權重,最后將訓練得到的單個分類器組合為最終的分類器,同時在此過程中獲得文本的主題。

2.2 手機領域本體構建

在計算機科學與信息科學領域中,本體是指一種形式化的,對于共享概念體系的明確而又詳細的說明[4]。常見的本體構成要素包括:個體、類、屬性及其關系。個體或稱為實體,指基礎的或 “底層的”對象;類,指集合、概念、對象類型或者說事物的種類;屬性,指對象和類可能具有的屬性、特征、特性、特點和參數;關系,指類與個體之間的彼此關聯所可能具有的方式。常用的構建方法有七步法、骨架法、、、法等。

本文基于上述本體一般結構以及構建方法,人工構建手機領域本體的術語集合或稱為詞表。手機領域本體部分如圖1所示。

2.3 TF-IDF集成算法設計

是一種統計方法,用以評估詞條對于文本集合中某篇文本的重要性。詞條的重要性隨著它在文本中出現的頻率(Term Frequency)的增大而升高,隨著它在語料庫中出現頻率(Inverse Document Frequency)的增大而降低。

根據上文中給定的本體概念集合,可以分為四個關鍵詞:“三星”“電池”“的”“待機時間”。假如某篇網絡評論文本d的總詞數為50個,其中“三星”出現1次,“電池”出現2次,“的”出現10次,“待機時間”出現2次,那么它們的詞頻分別為0.02,0.04,0.2,0.04。那么指定短語“電池的待機時間”在文本d中的詞頻就是0.3(四個詞的詞頻之和)。在四個詞中,“的”所含的信息量最低,但詞頻最高,所以在實際應用中應當忽略這類停用詞,過濾干擾后指定短語的詞頻為0.1。而在剩余的三個詞中,“三星”與本文所涉及的手機領域相關性最大,因此在判斷文本主題時,應當給每個詞賦予權重信息,權重越大,表示相關性越大。在相關研究中,使用最多的權重是逆向文本頻率IDF。

逆向文件頻率IDF(Inverse Document Frequency)計算公式為,其中,為文檔總數,為含有詞語t的文檔數目。例如,設集合中文本總數為=100,手機領域品牌名稱“三星”在其中10個網頁中出現過,即=10,則它的權重為 =log10=1,又假設“電池”在30個網頁中出現過,“待機時間”在15個網頁中出現,它們的權重分別為和;對于停用詞“的”,因為每個文本中都會出現,所以其權重為。即詞語“的”與指定文本的主題無關,詞語“三星”對指定文本的重要性最高。

結合詞頻TF和文檔頻率IDF,短語“三星電池的待機時間”重要性度量公式為:

本文中算法過程如下:

設在準備階段爬取到的文本集合大小為M,上一小節中構建的本體概念集合為N,

(1)計算本體概念集合中每個詞條(n=1,2,···,N)在文本集合中的TF*IDF值,并存儲;(2)順序讀取文本集某條評論文本(m=1,2,···,M)中所有詞,判斷是否包含本體概念集合中的詞條;(3)若包含,則計算的在文本中的詞頻TF,并計算TF*IDF值;(4)讀取結束時計算與本文構建的手機領域本體的相關性:

在進行以上運算時,應當考慮三個方面:首先,對于評論文本,標題位置的詞語所占權重理論上應大于正文的權重,可在原有權重的基礎上,對標題權重乘以1.5,即標題權重為正文權重的1.5倍;其次,手機產品名稱或手機系列名稱能夠作為文本的確定主題,而手機組件或產品屬性,只有在產品或系列名稱出現的條件下,才能夠作為確定的主題,如上述例7所描述。因此,手機品牌或系列名稱的權重應當是其組件或屬性的1.5倍;最后,公式(3.2)的計算結果表明了文本與本體概念集合的相關性,但不能明確表示是否相關,一般的方法是確定一個閾值x,當公式(3.2)的結果大于或等于閾值時,判定文本與給定的領域本體相關,若小于閾值,則無關。這種方式的局限性表現在,相關性得分小于閾值的文本,也有可能是需提取的與領域相關的評論文本。可以選取多個閾值,每個閾值可構成一個簡單的分類器:判定大于閾值的為主題相關文本,小于閾值的為非相關文本,根據分類結果的錯誤率確定每個分類器的權重,最后將訓練得到的單個分類器組合為最終的分類器。

以下為具體算法:

本文采用分類器集成算法的思想,給定已分類的文本樣本集,計算每個文本的TF-IDF值,給定閾值的初始值為,設樣本集合大小為M,每個樣本權重D的初始值為[5],計算過程如下(接上文第(4)步):(5)計算樣本集中文本的TF-IDF值,按照降序排列后存儲在數組中,設初始閾值=;(6)對樣本集中的文本進行分類:閾值,則屬于主題相關文本集合(+1類);閾值,則屬于非主題相關文本集合(-1類);(7)驗證分類結果,并計算錯誤率:,當=0時可直接退出計算[6];(8)根據錯誤率為當前分類器重新分配權重:[5],錯誤率越大,分類器的權重越小,可以理解為性能越差的分類器,話語權越小;(9)更新每個樣本的權重D:對分類正確的樣本降低權重:;對未正確分類的樣本增加其權重:,以此改變數據分布[5];(10)依次取得數組中的元素作為閾值,計算分類錯誤率,如果當前錯誤率較小,則存儲此次運算結果并重復(8)(9);

最后,當錯誤率小于0或循環結束后得到n個分類器,按權重疊加獲得最終結果:,其中,為符號函數,即;+1或-1,+1表示屬于主題相關文本集合,-1表示屬于非主題相關文本集合;為最終結果。

3 面向手機網絡評論的情感分析

情感分析(Sentiment analysis),又稱傾向性分析,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[7],如從評論文本中分析用戶對“手機”的“機身厚度、像素、待機時間、屏幕大小、價格、運行速度”等屬性的情感傾向。意見挖掘中情感分析任務的主要目的就是識別網絡評論文本的情感傾向。它有三個方面的要求:(1)判斷評論文本的主客觀性;(2)判斷篇章、句子、詞語的情感極性;(3)分析情感傾向性強弱。本文主要討論情感極性的判斷,提出了基于領域本體情感詞典情感極性分類算法。

頻繁項集是指那些通常在一起出現的實物集合[8],可解釋為經常在手機領域評論文本集合M中出現的詞典N中詞語的集合。頻繁項集可以用支持度來解釋:支持度定義為查找項在數據集所有集合中所占比例,如在10條記錄中,有2條包含{手機,耐用},則{手機,耐用}的支持度為1/5。在實際操作中,要找到大于預設支持度(假設為0.5)的所有項集,需列舉出事物所有的組合,然后對所有組合統計它們出現的次數,當事物集合很大時,上述方法非常慢。于是學者們提出了Apriori原理,其主要思想可簡化為頻繁項集的子集也是頻繁的,反過來也是成立的,即某個項集是非頻繁的(如{手機,和藹可親}),那么所有包含它的項集也是非頻繁的(如{電池,手機,和藹可親})。Apriori原理在一定程度上縮減了頻繁項集查找時間,但在計算過程中每增加一個頻繁項都需遍歷整個數據集,于是研究人員提出算法:基于Apriori原理,將數據集合中的各個元素項按照支持度排序后,把每個支持度大于預設值的元素項插入到一棵以為根結點的樹中,稱為頻繁模式樹(Frequent Pattern Tree,),同時在每個結點處記錄該結點的支持度[9]。

本文基于領域情感詞典的情感極性分類算法具體過程如下:

(1)對第三章中獲得的手機領域相關文本進行分詞處理,過濾掉停用詞和重復的詞,剩余的詞在計算機中以字典的形式存放。如表1所示。

(2)計算每個字典里詞語出現的頻率,去掉不滿足最小支持度的元素項。過濾后,對余下的詞語進行重新排列,排列的基礎是詞語出現的頻率。如表2所示。

(3)構建樹,抽取頻繁項集:定義一棵樹,和存儲單個頻繁項集的頭指針字典headList:def FPTree(numTimes,minSupport=2): headList={},樹的參數為詞語出現的次數numTimes和最小支持度minSupport;循環執行headList[item]=headList.get(item,0) +numTimes[trans],錄入每一項出現的次數;錄入完成后,刪除支持度小于最小支持度minSupport=2的元素:for k in headList.keys():if headList[k]

(4)對每一個頻繁項集,根據其前綴路徑,以相同的方式構建它的條件樹。如:構建頻繁項集“像素”的條件樹:條件模式基:{手機,電池,耐用}:1,{手機}:1最小支持度:2(手機),過濾掉:電池,耐用,重復第(3)步,構建“像素”的條件樹。

(5)重復步驟(3)(4),直到所構建的條件樹中沒有元素為止。

(6)獲得與手機領域本體概念集合中的名詞經常一起出現的評價詞集合,通過與基礎情感詞典和評價詞典比較,判斷中詞語的極性。

實驗中發現通過情感詞典或評價詞典對手機領域常用詞進行極性分類,不能覆蓋全部的詞語,如“耗電”“少”在基礎詞典中沒有出現,需要對分類后剩余的詞進行人工標注。其次,雖然在有了手機領域的情感詞典后,能夠較準確的計算文本情感極性,但對于情感極性與上下文關聯度高的詞語,仍不能進行準確計算,例如把上文中兩個詞“耗電”和“少”歸為負面評價詞典,那么“手機耗電量少”這句話的情感得分為(-1)+(-1)=-2,顯然結果錯誤。因此需要對算法一進行改進:當兩個情感詞連續出現時看做整體,將兩個詞的極性相乘后,判斷極性分類,再進行同類累加,如:例句“手機耗電量少”的情感得分在改進后為(-1)*(-1)=1,為正面評價,是正確的。

4 總結和展望

4.1 工作總結

本文主要研究意見挖掘技術在手機網絡評論中的應用,重點工作包括主題提取和情感分析。本文工作過程如下:(1)利用Python的urllib2模塊抓取淘寶、京東等電子商城的用戶評論以及各手機論壇的留言和帖子,以抓取到的文本為輸入,經分詞器進行分詞。(2)在分詞的基礎上,對手機網絡評論文本進行主題提取。本文引入領域本體的概念,人工構建手機領域本體,采用TF-IDF算法,計算每個評論樣本與手機領域本體的相關度,并選取多個文本的TF-IDF值作為閾值,每個閾值可構成一個簡單的分類器,結合集成思想將訓練得到的單個分類器組合為最終的分類器。(3)隨后對主題與手機相關的文本進行情感分析,抽取出對產品手機整體、某組成部分或屬性的主觀評價,并判斷感情極性。本文在已有的基礎評價詞典和情感極性詞典的基礎上,利用FP-growth頻繁項集發現算法,創建一個手機領域相關的情感詞典。在此手機領域情感詞典的基礎上,計算每個情感詞的情感極性得分,分別得出正面評價和負面評價的分值,最終計算整體的好評率和差評率。

通過實驗統計得出,領域本體概念的引入能有效的提高主題提取的準確率,為用戶提供更有價值的信息,同時采用TF-IDF與集成思想結合的方法能夠降低閾值選擇局限性所帶來的主題提取錯誤概率,使得相關性得分較少的文本,正確提取主題的概率增大,提高了整體的正確率;采用基于領域本體情感詞典的情感極性分類算法,可以有效提高針對手機組件或屬性的評論文本的情感分類準確率和查全率。

4.2 工作展望

綜合目前意見挖掘的研究及方法,本文工作可以在以下方面進行改進:在主題提取任務中,其主要難點有:主題提取需處理各種不規范的、復雜的評論內容,如網絡熱詞、中英文混用以及各種同義詞的使用,同時實體的命名方式也在不斷的改變中;其次,同一評論文本可能包含多個主題。因此有效的主題提取方法,不應存在主題遺漏,對于針對不同產品或同一產品不同型號間比較的文本,進行主題提取時,應注意比較特征詞,從而為同類產品不同品牌間對比或相同品牌不同系列間對比做準備;另外,評論文本可能存在歧義性描述。因此,應先定義相關領域的命名實體詞典,以便在主題提取前的文本分詞階段,能夠識別出漢字、英文、數字混合的命名實體,從而能有效提高主題提取的準確度,如本文中引入領域本體的概念,人工構造手機領域的本體概念集合,消除命名實體中的歧義性;最后,應當注意評論的實效性問題:抓取的文本源應在不斷更新中,能緊隨特定產品更新換代的頻率。

因此,處理好產品間的比較、評論實效性問題以及復雜多變的評論內容陳述方式,對于改善主題提取的效果有很大幫助。

參考文獻

[1]姚天昉,程希文,徐飛玉,等.文本意見挖掘綜述[J].中文信息學報,2008,22(3),72-80.

[2]Kim S, Hovy E. Determining the Sentiment of Opinions[A].In: Proceedings of COLING conference (COLING 2004)[C].Geneva, 2004:1376-1373.

[3]沈陵峰.網上產品評價的意見挖掘模型研究[D].中國科學技術大學,2010.

[4]Gruber T R. A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,5(2):199-221.

[5]Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[D].1996:1-35.

[6]胡文靜.基于語義理解與PLSA的文本情感分類研究[D].天津:天津師范大學,2012:1-59.

[7]樊興華,吳昊.意見領袖識別中的文本傾向性研究[J].計算機應用研究,2013,(09):2613-2615+2636.

[8]李銳,李鵬,曲亞東,王斌,譯.Harrington P. Machine Learning[M].北京:人民郵電出版社,2013:200-239.

[9]楊云,羅艷霞.FP-Growth 算法的改進[J].計算機工程與設計,2010,31(7):1506-1509.

主站蜘蛛池模板: 国产成人亚洲精品色欲AV| 欧美不卡二区| 精品福利国产| 91午夜福利在线观看精品| 精品国产网| 日韩av高清无码一区二区三区| 伊人成人在线| 亚洲免费黄色网| 2019年国产精品自拍不卡| 91蝌蚪视频在线观看| 国产麻豆另类AV| 99草精品视频| 996免费视频国产在线播放| 中文字幕一区二区人妻电影| 91精品情国产情侣高潮对白蜜| 91口爆吞精国产对白第三集| 97国产在线视频| 午夜福利视频一区| 亚洲香蕉在线| 久久综合伊人77777| 天堂va亚洲va欧美va国产| 99免费视频观看| 人妻出轨无码中文一区二区| 国产成人无码播放| 青青操国产| 在线中文字幕网| 亚洲天堂.com| 国产噜噜噜| 无码专区在线观看| 国产一区二区三区精品欧美日韩| 国产一区二区免费播放| а∨天堂一区中文字幕| 在线日本国产成人免费的| 欧美三级自拍| 国产精品.com| 黄色成年视频| 波多野结衣一区二区三区四区视频| 欧美日韩国产高清一区二区三区| 欧美一级在线| 黄片在线永久| 国产综合色在线视频播放线视 | 欧美亚洲国产一区| 男女男精品视频| 成年网址网站在线观看| 亚洲av无码人妻| 91在线高清视频| 九九这里只有精品视频| 亚洲日本在线免费观看| 亚洲国产精品无码AV| 日本人妻丰满熟妇区| 99精品国产自在现线观看| 色综合成人| 中文无码精品A∨在线观看不卡| 精品无码视频在线观看| 91色爱欧美精品www| 九九精品在线观看| 色窝窝免费一区二区三区| 91免费国产高清观看| 欧美成人一级| 中文字幕无码电影| 亚洲—日韩aV在线| 国产午夜精品鲁丝片| 欧美色99| 免费xxxxx在线观看网站| 国产激情在线视频| 2020国产在线视精品在| 国产黄在线观看| 女人18毛片久久| 亚洲欧洲日韩综合| 中国国产一级毛片| 制服丝袜亚洲| 亚洲av无码片一区二区三区| 蝴蝶伊人久久中文娱乐网| hezyo加勒比一区二区三区| 思思99热精品在线| 欧美一级片在线| 四虎国产在线观看| 国产国语一级毛片| 亚洲久悠悠色悠在线播放| 欧美色图第一页| 国产女同自拍视频| 色综合天天操|