曾寰 胡運(yùn)全 李金忠 戴貞明 龍滿生
摘要:本文基于網(wǎng)絡(luò)評(píng)論觀點(diǎn)挖掘相關(guān)理論分析,對(duì)觀點(diǎn)挖掘的實(shí)現(xiàn)過程進(jìn)行設(shè)計(jì)和分析,以期通過網(wǎng)絡(luò)評(píng)論觀點(diǎn)的挖掘,了解網(wǎng)絡(luò)用戶行為與觀點(diǎn)傾向,掌握網(wǎng)絡(luò)用戶觀點(diǎn)表達(dá)規(guī)律。
關(guān)鍵詞:網(wǎng)絡(luò);評(píng)論觀點(diǎn);挖掘
隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),信息與數(shù)量快速增長(zhǎng)。在各種信息中,網(wǎng)絡(luò)評(píng)論觀點(diǎn)信息發(fā)揮著重要作用。通過對(duì)網(wǎng)絡(luò)評(píng)論觀點(diǎn)的挖掘,可為網(wǎng)絡(luò)輿情、電子商務(wù)等諸多領(lǐng)域帶來(lái)重要價(jià)值。[1]對(duì)網(wǎng)絡(luò)評(píng)論觀點(diǎn)進(jìn)行挖掘,需依托大數(shù)據(jù)來(lái)展開,了解網(wǎng)絡(luò)用戶行為和觀點(diǎn)傾向。
1 針對(duì)網(wǎng)絡(luò)評(píng)論的觀點(diǎn)挖掘理論分析
網(wǎng)絡(luò)評(píng)論中的文字多表現(xiàn)出一定的主觀傾向,對(duì)網(wǎng)絡(luò)評(píng)論觀點(diǎn)態(tài)度進(jìn)行挖掘,主要是從評(píng)論信息資源中對(duì)用戶觀點(diǎn)與態(tài)度加以提取,并通過容易理解的形式對(duì)其展現(xiàn)。[2]當(dāng)前網(wǎng)絡(luò)評(píng)論的觀點(diǎn)挖掘,在任務(wù)上主要包括三點(diǎn):一是主觀性分析,即對(duì)一個(gè)特定本文的客觀性進(jìn)行判斷,明確其屬于客觀性,還是帶有主觀極性;二是極性分析,對(duì)主觀性的正面還是反面以及極性強(qiáng)度等信息進(jìn)行分析;三是觀點(diǎn)總結(jié),針對(duì)觀點(diǎn)信息加以整理與展示。對(duì)于本文來(lái)說,涉及的評(píng)論信息資源均為文本形式,因此,我們?cè)谟^點(diǎn)挖掘方面所涉及的主要為文字信息,如產(chǎn)品評(píng)論亦或者博客日記等,聲音、圖片等不在本文研究范疇中。
2 網(wǎng)絡(luò)評(píng)論挖掘?qū)崿F(xiàn)的設(shè)計(jì)過程
2.1 對(duì)數(shù)據(jù)進(jìn)行收集與處理
對(duì)網(wǎng)絡(luò)評(píng)論觀點(diǎn)挖掘進(jìn)行研究,就必然會(huì)涉及評(píng)論語(yǔ)料集,因此需要先對(duì)數(shù)據(jù)進(jìn)行收集,本研究用到的數(shù)據(jù)均源自網(wǎng)上。針對(duì)收集的初始數(shù)據(jù),需給予篩選和清洗,對(duì)無(wú)用數(shù)據(jù)進(jìn)行去除。網(wǎng)絡(luò)上的評(píng)論信息等,多以網(wǎng)頁(yè)形式存在,需將無(wú)用的網(wǎng)頁(yè)標(biāo)記加以去除,使其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。
2.2 分詞與標(biāo)準(zhǔn)
在一個(gè)文檔中,多由句子和詞匯組成,計(jì)算機(jī)對(duì)于人類的語(yǔ)言當(dāng)前并不能理解,針對(duì)整個(gè)無(wú)結(jié)構(gòu)的文本,需對(duì)其進(jìn)行轉(zhuǎn)化,使其成為結(jié)構(gòu)化的數(shù)據(jù)形式。當(dāng)前較為常用的方法為,使文本以詞匯為特征的向量集形式表示出來(lái)。該過程可由計(jì)算進(jìn)行自動(dòng)完成,即自動(dòng)分詞。整個(gè)過程需基于信息處理需要,在文本的劃分上需根據(jù)分詞單位以特定規(guī)范加以劃分。在一個(gè)句子中,可能包含多種切分方式,為確保自動(dòng)分詞的高效性,需對(duì)準(zhǔn)確的分詞詞典進(jìn)行建立,滯后基于語(yǔ)義分析對(duì)匹配算法及消岐算法加以建立,實(shí)現(xiàn)分詞目的。[3]然后進(jìn)入詞性標(biāo)準(zhǔn)階段,該過程是針對(duì)切分得到的詞語(yǔ),對(duì)相應(yīng)的詞性進(jìn)行標(biāo)注。通常來(lái)說名詞與形容詞分別標(biāo)注為n、a,動(dòng)詞與連詞分別標(biāo)注為v、c,對(duì)于副詞則標(biāo)準(zhǔn)為d 等,來(lái)使符號(hào)實(shí)現(xiàn)統(tǒng)一。在詞匯中,詞性為其重要語(yǔ)義特征之一,這一過程可以采用自動(dòng)標(biāo)注器來(lái)進(jìn)行詞性標(biāo)注。在文本表示中,分詞與標(biāo)準(zhǔn)僅為第一步過程,完成以上工作后即需對(duì)研究納入的文本內(nèi)容進(jìn)行處理。可對(duì)java 開發(fā)環(huán)境加以使用,同時(shí)可對(duì)中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)出的漢語(yǔ)分詞類庫(kù)編寫分詞及標(biāo)注程序做好評(píng)論文本內(nèi)容方面的處理。通過分詞與標(biāo)準(zhǔn),可得到新的涉及詞性標(biāo)注的詞語(yǔ)集合數(shù)據(jù)。
2.3 對(duì)評(píng)論文本進(jìn)行挖掘
該環(huán)節(jié)主要包括三點(diǎn)內(nèi)容。首先是特征選擇方法,對(duì)于文本特征來(lái)說,主要指文本元數(shù)據(jù),主要包括描述性特征與語(yǔ)義性特征,前者主要包括文本名稱、大小及日期等,后者主要包括文本標(biāo)題、內(nèi)容及作者等。雖然分詞能夠使文本機(jī)構(gòu)化,但僅經(jīng)過切分會(huì)得到龐大的數(shù)據(jù),難以進(jìn)行處理。因此,需要對(duì)文本數(shù)據(jù)特征加以確定,以此來(lái)排除無(wú)用詞語(yǔ),將有用詞語(yǔ)留下。針對(duì)約簡(jiǎn)選擇特征過程,多會(huì)對(duì)一個(gè)評(píng)價(jià)函數(shù)進(jìn)行構(gòu)造,對(duì)每個(gè)詞語(yǔ)的函數(shù)值進(jìn)行計(jì)算,對(duì)達(dá)到閾值的詞語(yǔ)加以選擇,將其作為文本特征。[4]本文采用詞頻方法,基本思想在于對(duì)于低于詞頻率閾值的詞,均將其去掉,將剩余詞條作為特征保留下來(lái)。其次是數(shù)據(jù)表示方法,我們所選擇的數(shù)據(jù)類型均為文檔類,在數(shù)據(jù)的表示過程上,主要是將文檔通過選出的特征實(shí)施結(jié)構(gòu)化表示。在常用的模型上,主要為布爾模型、布爾模型等,不管采用哪一種模式求出權(quán)值,在最終目的上均是為了使文本數(shù)據(jù)得到有效的表示,從而為進(jìn)一步的文本挖掘方法的使用提供便利。再次是挖掘分析。主要通過關(guān)聯(lián)分析法對(duì)一些頻繁一起出現(xiàn)的特征詞進(jìn)行分析,明確其關(guān)聯(lián)性與相互關(guān)系。然后采用文本分類器對(duì)文檔實(shí)施分類,通過無(wú)監(jiān)督的聚類分析促使文本自動(dòng)聚為幾類,繼而對(duì)文本潛在規(guī)律加以發(fā)現(xiàn)。在文本挖掘結(jié)果上,需以列表或圖形化形式加以展示,在結(jié)論分析基礎(chǔ)上得出有用的知識(shí)。
2.4 觀點(diǎn)識(shí)別和總結(jié)
在人們表達(dá)觀點(diǎn)的過程中,其對(duì)象主要為被評(píng)價(jià)事物及其特征,通過對(duì)自然語(yǔ)言處理技術(shù)的使用,在語(yǔ)義分析下,即可對(duì)評(píng)論文本中出現(xiàn)的特征進(jìn)行挖掘。在評(píng)論觀點(diǎn)中,其特征多表現(xiàn)為極性詞及其對(duì)應(yīng)的特征。根據(jù)每個(gè)句子,可通過在正面和反面極性數(shù)量方面的比較對(duì)句子的語(yǔ)義導(dǎo)向加以確定。在網(wǎng)絡(luò)觀點(diǎn)導(dǎo)向識(shí)別過程中,必須對(duì)否定詞重點(diǎn)考慮,如無(wú)“不”、“沒有”等否定詞,則多表示語(yǔ)義相反。[5]在將前面工作均完成后,可以將結(jié)果以圖表等直觀形式呈現(xiàn)出來(lái),在比較分析下對(duì)不同物品及特征特點(diǎn)進(jìn)行整理,在這一總結(jié)下,網(wǎng)絡(luò)評(píng)論中關(guān)于客戶的知識(shí)即可顯現(xiàn)出來(lái),便于我們使用。網(wǎng)絡(luò)評(píng)論觀點(diǎn)挖掘,為近年來(lái)新興研究熱點(diǎn),其以文本挖掘及Web挖掘?yàn)榛A(chǔ),對(duì)計(jì)算機(jī)技術(shù)及自然語(yǔ)言處理技術(shù)等加以使用,開辟了數(shù)據(jù)挖掘領(lǐng)域新方向。不過,該方面的研究當(dāng)前還處于起步階段,在應(yīng)用范圍上還較為有限,仍需進(jìn)一步研究。
參考文獻(xiàn):
[1]于堯.網(wǎng)絡(luò)評(píng)論的規(guī)律與工作機(jī)制研究[J].課程教育研究,2018(6):7778.
[2]韓忠明,李夢(mèng)琪,劉雯,等.網(wǎng)絡(luò)評(píng)論方面級(jí)觀點(diǎn)挖掘方法研究綜述[J].軟件學(xué)報(bào),2018,(2):417441.
[3]陳巧紅,孫超紅,賈宇波.文本數(shù)據(jù)觀點(diǎn)挖掘技術(shù)綜述[J].工業(yè)控制計(jì)算機(jī),2017,30(2):9495.
[4]高松,王洪偉,馮罡,等.面向在線評(píng)論的比較觀點(diǎn)挖掘研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2016,32(10):112.
[5]涂慧明.文本觀點(diǎn)挖掘和情感分析的研究[J].電腦知識(shí)與技術(shù),2016,12(5):235237.
基金項(xiàng)目:吉安市社會(huì)科學(xué)研究項(xiàng)目(18GH113)
作者簡(jiǎn)介:曾寰(1990),男,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘;胡運(yùn)全(1976),男,碩士,講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘;李金忠(1976),男,碩士,副教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí);戴貞明(1968),男,碩士,副教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí);龍滿生(1977),男,博士,副教授,主要研究方向?yàn)閳D像分析與虛擬仿真。