999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習視域下融合情感元素的社交網絡信息交互度量化分析

2021-08-23 05:24:36郝志遠
情報學報 2021年7期
關鍵詞:文本情感用戶

馬 捷,郝志遠

(1.吉林大學管理學院,長春 130022;2.吉林大學信息資源研究中心,長春 130022)

1 引 言

隨著互聯網技術的發展、數字時代的到來,社交網絡愈發成為用戶進行信息交互的主要載體。基于社交網絡開放性的特點,用戶能夠不受限于時間和地點的約束,快速便捷地進行信息交流以及熱點話題的討論[1]。社交網絡的便捷性與開放性促進了信息的傳播,與此同時,也成為了影響話題輿論走向的主要因素。信息行為是情報學的核心研究領域之一,“交互”也已成為移動互聯網時代用戶共享多元信息資源的普遍性行為。對于社交網絡上傳播的熱點話題信息,不同用戶對待話題信息的情感傾向性不同,即同一個話題可能存在多個不同的情感傾向解讀視角。根據研究表明,用戶針對話題信息所產生的不同解讀傾向與用戶自身的性別、性格、喜好以及教育背景等有關。話題所附屬的解讀傾向種類越多,話題熱議程度則越高,因此,輿論走向就更應得到正確的引導。

本文從交互與信息行為的角度出發,以網絡用戶產生的情感傾向性作為基本切入點,采用機器學習中的密度峰值聚類算法對熱點話題的用戶評論數據進行傾向性分類。同時,參考已有的情感極性值計算方法,融入方差加權信息熵的策略,并將所得解讀傾向映射到計算結果中,提出衡量話題熱議程度,量化話題信息價值的信息交互度計量方法。信息交互度概念的提出為網絡監管提供了合理的度量參考,交互度數值變化具象地反映了輿論的演化趨勢,通過信息交互度把控謠言形成時機,對促進互聯網的健康文明發展具有重要的理論意義。

2 相關研究

2.1 信息交互相關研究

移動互聯網時代,信息是不同個體間進行交流與聯系的必要連接媒介。而隨著互聯網技術的發展以及用戶信息需求所呈現的多元化趨勢,使得“交互”越發成為網絡用戶群體間一種具有社會普遍性的信息行為方式。信息交互行為作為一種基于信息技術的更迭發展而衍生的具有豐富內涵的跨領域概念,國內外學者以不同的研究視角對信息交互行為進行了歸納與闡述。國外學者Costello等[2]從信息交互的應用層面出發,研究了血液透析患者在面對健康信息時所發生的信息交互行為,分析了不同場景對信息交互行為的影響。Buijs等[3]基于信息檢索與人機交互的研究視角,將異步社會搜索作為一種新的、直觀的信息搜索方法在論文中進行呈現,并通過這種方法實現用戶在信息檢索中的交互過程。Bronstein等[4]研究了用戶的自身判斷能力以及自我效能對信息交互行為產生的影響,進而提出了一種新的信息交互行為模型。此外,國內學者鄧小詠等[5]針對網絡用戶信息交互行為的特征類型以及影響因素等方面進行研究,多角度地探究了信息交互行為的相關理論與思想。馬捷等[6]認為,信息存在包括新聞、語錄等在內的多種表現形式,而信息交互則旨在實現多元信息的傳播過程與信息主體的情感宣泄。楊璐伊等[7]將信息交互行為解釋為不同信息體間信息流相向傳播的一種信息反饋過程,每一次信息的接收與反饋都能對信息體雙方產生相應的映射效應,并影響雙方接收與反饋的信息價值,進而滿足信息流傳播過程的延續性。孫璐等[8]基于網絡技術層面論述了信息交互過程中實現信息價值提升的相關理論,并以此實現信息一致和信息增值。王晰巍等[9]從計算機與信息技術的角度出發,以用戶的信息需求為基本導向,探析了信息技術以及相關工具對信息交互行為的影響。有相關學者基于信息交互的類型[10]、基于信息交互的內部規律[11-12]、基于交互的方法[13-14]以及基于交互的對象[15]等不同方面對信息交互行為進行了分析與研究。上述學者對信息交互內容的研究,主要是針對交互與信息行為這一具體過程展開的論述,忽略了隨著信息交互行為的產生而引發的對社交網絡輿情走向的影響,本文將信息交互行為作為基本落腳點,深入剖析了信息交互對輿情演化趨勢的影響作用。

2.2 情感分析與輿情分析相關研究

情感分析是基于自然語言處理以及文本挖掘等相關技術,針對具有個體主觀感情傾向的文本內容或圖片內容進行分類、抽取以及挖掘等操作以滿足個體信息需求的分析過程。同時,也是一種綜合多領域研究方法的交叉內容,相關研究始于學者Pang等[16]融合SVM(support vector machines)等有監督機器學習算法對電影評論數據進行的情感分類。隨著信息技術的更迭發展,越來越多的學者致力于情感分析的研究中,按照研究文本對象的粒度劃分,情感分析包括篇章級、句子級和詞語級,如國外學者Berka[17]針對篇章級文本對象情感分類問題的準確性,在情感分析過程中引入人工智能基于規則推理和基于案例推理的策略,以實現篇章文本情感的準確分類。Sharma等[18]以Twitter用戶評論數據為研究對象,分析相關評論的情感極性。與國外學者對于情感分析多以英文為研究對象相比,由于中文句式,語義等對比英文更為復雜,國內學者則更多對中文相關文本內容進行研究。例如,楊鵬等[19]針對細粒度情感分類問題,提出了基于注意力機制的交互式神經網絡模型,通過該模型對上下文語義和方面詞語義進行建模,提高分類的準確性。林敏鴻等[20]為解決多模態情感分類任務中的信息冗余問題,在張量融合方案的基礎上提出了基于注意力神經網絡的多模態情感分析方法。徐健等[21]從情感分歧角度出發,通過提出情感分歧度量化算法,為網絡用戶評論情感分析提供了新的研究方法和視角。

輿情是指在信息的傳播過程中,隨著用戶與信息之間交互行為的進行,用戶群體基于自身的情感、心理等因素的影響,對該話題信息所產生的不同評論傾向以及解讀視角的集合。對社交網絡輿情走向進行正確的引導,能夠為政府相關部門提供有效的策略支持。目前,針對社交網絡下的輿情研究,Fang等[22]通過對不同用戶群體在不同熱點話題中的評論傾向性進行研究,提出一種新的輿情理論。Stewart等[23]為了對輿情進行相關測算,采用社會調查的方法對輿情進行了度量分析。Rasmussen等[24]通過對社交媒體的相關數據進行分析,綜合度量了公眾輿情走向與政府部門政治決策間的關系,建立了相應的度量模型。高俊峰等[25]通過多種不同角度對網絡輿情的發展趨勢進行了分析與探討,并提出一種新的輿情理論模型,為網絡輿情的監管與把控提供了合理的理論支持。陳福集等[26]結合案例分析的方法,通過對具體實例進行剖析,將網絡輿情的走向趨勢以及信息的傳播模式進行了針對性的分析與研究。王晰巍等[27]通過對新浪用戶的輿情情感演化進行研究分析,利用分類算法進行情感分類,進而提出一種用戶輿情情感預測模型,對加強相關部門的信息監管能力具有重要的促進意義。與此同時,還有其他學者基于信息的生命周期[28]、基于輿情傳播本質[29]以及基于網絡輿情意見領袖[30]等方面對輿情進行了研究分析。

2.3 信息交互度相關研究

綜上對信息交互行為的理解,本文所提出的社交網絡“信息交互度”是指在社交網絡環境中任意兩個或多個主體對象針對某一話題或信息體(信息源),以主體對象主觀感情傾向表現作為交互過程的信息反饋,通過量化信息反饋結果來反映話題或信息體(信息源)熱議程度的概念。探究話題或信息體的“信息交互度”,能夠為輿情演化分析以及廣告影評分析等相關內容提供全新的研究評測視角。

上文所述國內外學者的相關研究為本文的研究內容奠定了理論基礎,然而當前直接基于“信息交互度”這一概念的研究仍處于探索階段。劉雅婷[31]為研究空間規劃問題基于復雜網絡節點分析以及粒子群算法等提出了“城區信息交互度”的概念。苗壯等[32]針對目前校園網絡存在的問題,以某高校的校園網建設為研究對象,通過整合校園網絡資源,提出一種基于私有云計算的信息交互模型。趙洪鋼等[33]融合社會感知計算,提出了一種應用于無線傳感器網絡的信息交互模型。然而,一方面,上述“信息交互度”的有關研究內容主要針對計算機相關領域,著重于網絡技術與算法的探討分析,對于信息自身層面的研究與討論仍具有一定的局限性;另一方面,現階段國內外學者針對輿情分析以及情感分析的既有研究主要集中于單一的方法技術手段層面、純粹的情感極性值計算和傾向分類層面以及輿情演化機理和引導策略層面等幾個研究視角進行論證分析,所述內容更多以信息作為實驗研究載體,過于強調用戶主體性和用戶情感的功能性。現有研究大多或利用相關算法進行情感分類,通過情感傾向類別與情感極性值分布研判輿情走勢;或只將信息作為實驗樣本數據(輸入變量)突出技術方法的可行性與先進性;或根據輿情特征分析輿情演化機理進而提出相應的政策方針,然而,這極大程度上忽視了信息本身在網絡用戶意見(情感)反饋過程中應具備的主體屬性。社交網絡信息交互過程實際上是網絡用戶信息的接收與再發出過程,在接收-發出過程中,信息作為中介主體承載用戶的情感反饋,這就導致整個交互過程中信息量是浮動變化的。與此同時,輿情監管的本質是對社交網絡言論、話題等信息進行的監測和管理過程,監管的直接對象是信息本身,而非用戶情感分布,文章所提信息交互度以信息本身內涵為主導,通過浮動變化的信息量大小量化話題的信息價值來衡量話題的熱議程度,不但充分體現了信息的主體效應,而且能更貼切、更直接地服務于網絡監管人員對輿論導向和謠言時機的精準把控。因此,本文充分考慮社交網絡用戶與網絡話題信息在信息傳播過程中存在的交互關系,并將情感分析與信息交互行為相關聯,從定量的角度出發,對基于用戶信息行為的交互過程進行量化計量,進而為互聯網監管部門以及網絡的健康文明發展提供行之有效的度量參考。

3 研究框架

本文從定量的角度分析社交網絡話題信息與用戶的交互關系,通過融入用戶主體的情感傾向構建信息交互度這一計量概念,以明確的信息交互度數值變化,厘清社交網絡話題的輿情演化趨勢,具體研究框架如圖1所示。

圖1 社交網絡信息交互度計量模型研究框架

3.1 關鍵詞提取與語詞相似度計算

3.1.1 文本關鍵詞提取

本文所分析的實驗數據,是長短不一的文本內容,所以文章首先通過“結巴”中文分詞組件對獲取的微博話題評論內容進行分詞處理,同時進行去除停用詞處理,再結合TF-IDF(term frequency-in‐verse document frequency)算法計算分詞之后的特征詞的權重,以獲取樣本數據的標簽集合。

TF-IDF算法作為一種測算特征詞權重的算法,常被應用于度量某個具體詞條在一個既定文本中的作用程度[34]。TF-IDF算法中TF(term frequency)叫作詞頻,IDF(inverse document frequency)叫逆文檔頻率,計算結果為

其中,Ni表示一條評論中某一個詞出現的次數;Nn表示當前評論中所有詞的個數;Dn表示所有有效評論的總數;Di表示具有該詞的評論數目。

3.1.2 改進的文本語詞相似度計算

上文通過TF-IDF算法抽取每一條用戶評論數據的若干關鍵詞,形成了相應的關鍵詞集合。若針對所得集合直接進行評論傾向分析,由于未厘清數據樣本間的潛在關系,則難以獲取準確的評論視角類別。為深入探析數據樣本的內在聯系,本文在原始Ochiai系數的基礎上,提出了改進的文本語詞相似度計算方法,進而確定數據樣本的相似度矩陣,為下文的聚類分析奠定基礎。原始Ochiai系數計算公式為

其中,Fij表示特征詞i與特征詞j在文本中共同出現的頻數;Fi表示特征詞i出現的頻數;Fj表示特征詞j出現的頻數。原始Ochiai系數在計算語詞文本相似度時過于強調公共詞條的詞頻情況,然而公共詞頻數的高低并不能準確反映該詞在文本中的作用程度,存在一定的局限性。因此,本文綜合各詞條在文本中的重要度,提出一種改進Ochiai系數的語詞文本相似度計算方法,即

其中,Fj′/Fi與Fi′/F分別表示j詞條對于i的重要度以及i詞條對于j的重要度。

3.2 密度峰值聚類算法

密度峰值聚類是一種基于數據點密度屬性進行數據分析的聚類算法,該算法于2014年發表于Sci‐ence雜志[35]。密度峰值聚類算法能夠高效快速發現數據樣本的密度分布,不局限于單一類型數據樣本的聚類分析,相較于傳統基于劃分,基于層次等聚類算法,具有明顯的優勢。該算法主要遵循以下兩個重要基本原則:①任意數據樣本點均存在局部密度,而聚類中心則處于局部密度較低的近鄰點中間;②針對余下數據點中存在局部密度較高的樣本,聚類中心與該點的距離相對更大。

首先,算法計算數據點i與數據點j的歐幾里得距離,即

其次,針對任意數據點i的局部密度,存在

最后,在算法對數據樣本點進行聚類分析時,還需計算距離變量:

其中,δi表示數據點i與密度較高的樣本點之間的最小距離。

3.3 信息交互度計量模型

本文認為,一個話題信息在用戶的接收和再傳播過程中,原始信息由于形成了與用戶之間的交互關系,進而產生了以用戶情感為載體的附加價值。信息的附加價值實際上就是由于交互過程中,用戶基于自身的文化背景、性格以及喜好等因素所產生對話題信息的不同解讀視角,并以不同情感傾向作為信息反饋所得的信息價值。因此,對于本文所論述的信息交互度概念主要有如下定義。

定義1:信息具備自身的內在價值以及面向對象的使用價值[36],根據馬捷等[6]所提出信息交互行為的相關概念,可以認為用戶在信息交互過程中,針對話題信息所表達的情感宣泄展現了該信息的使用價值。因此,信息交互度是指社交網絡用戶在獲取熱點話題信息使用價值的過程中,針對所獲取的信息使用價值形成自身情感反饋,并以此情感反饋衡量話題熱議程度以及監測輿情演化趨勢的量化概念。

由上文定義可知,當社交網絡話題信息交互度越高時,話題所具備的信息量越大,話題的熱議程度則越高;反之,則話題的熱議程度越低。綜合上述內容,通過借鑒已有學者關于信息價值的度量研究[36],構建出本文所研究的信息交互度計量模型,基本思路如圖2所示。

圖2 信息交互度計量模型思路圖

受徐健等[21]進行情感分歧度算法研究的啟發,本文引入方差加權信息熵的策略進行信息交互度的量化研究。方差作為衡量隨機變量與期望值之間的離散程度,在文章中用來反映不同情感極性值與平均情感之間的波動情況,當方差越大時,說明該話題下社交網絡用戶的情感反饋差別越大,因此,更容易對輿情的發展產生不良的導向影響。信息熵是用來度量話題信息所包含的信息量大小,對于社交網絡話題而言,該話題的信息熵越高,話題所蘊含的信息量越大,更容易引起社交網絡用戶交互行為的產生。因此,本文將方差加權信息熵理論作為信息交互度計算的基本思想,信息熵的基本概念模型為

其中,H表示信息熵;pi表示某一個隨機事件的概率分布。對于本文所提基于方差加權信息熵的信息交互度計量模型具體表示為

其中,PComScorei表示第i條評論的情感極性值出現的概率;n表示不同情感極性值的個數;Dtopic表示該話題所有評論的情感極性值的方差。max(ItDopic)表示所計算的方差加權信息熵的最大值;Rn(θ)表示一個影響因子余項,余項的作用是將所有信息交互度計算結果歸一化到(0,1)區間。ComScorei表示第i條評論的情感極性數值;E(topic)表示該話題所有評論的情感極性值的期望值。

由上述公式可知,當NtDopic越大時,話題的信息交互度越高,則反映話題能引起的熱議程度越高;反之,則話題能引起的熱議程度越低。這恰好符合實際情況中對交互概念的理解,用戶信息的交互度越高,說明用戶所獲取話題信息的使用價值實現增值,即用戶更容易產生情感反饋進行情感宣泄。因此,本文所提信息交互度的概念正好可以用來說明話題信息的熱議程度。

4 實證分析

為驗證所提信息交互度概念在量化分析熱點話題受熱議程度以及輿情演化趨勢方面的有效性,本文通過選取新浪微博熱搜話題的真實用戶評論作為實驗數據,采用上文所述信息交互度計量模型計算該社交網絡話題的信息交互度,并對實驗結果進行對比分析。

4.1 數據來源

2020年7月5日,“杭州來女士神秘失蹤”案件發生后,該案件引起了網絡用戶的持續關注,一時間“來女士去哪兒了”成為了微博熱搜話題。本文選取頭條新聞、央視新聞、澎湃新聞、新浪新聞等官方微博發布的相關話題內容的用戶真實評論作為實驗數據源,并利用爬蟲工具從該話題用戶評論內容中爬取7月18日—7月25日共計26932條評論數據,爬取的內容字包括用戶ID、評論內容和點贊數等,實驗數據統計如表1所示。

通常情況下孕婦的生產方式有兩種:自然分娩和剖腹產分娩,分娩過程中會產生出血現象,一般我們認為難治性婦產科大出血是指自然分娩出血超過500ml,剖腹產分娩出血超過1000ml的情況。其中自然分娩的產婦分娩后的出血癥狀比較不易被察覺,因為順產過程中胎兒通過產道產出以后,產婦會產生子宮收縮乏力的情況,這時胎盤的血竇不能及時閉合,就會有大出血的現象發生。若產婦分娩后陰道血流量達到200ml,該產婦患此病的幾率將大大增加,由于在收集或實測的過程中,會造成產婦流失不必要的血流,一般狀況下產婦的估測失血量僅占實際失血量的二分之一,所以很容易發生分娩后出血的狀況,所以通常情況下沒有引起重視。

表1 實驗數據統計表

4.2 話題解讀視角確定

4.2.1 文本特征詞權重計算

為將微博用戶的文字評論內容進行聚類分析處理,本文采用了TF-IDF算法對實驗內容進行了特征權重的計算。所獲取的評論字段中存在一些與該話題內容相關性較低的文本數據,比如,微博ID為7152678733發布的符號評論,微博ID為5643869270發布的廣告評論等,針對這些與需求信息不相關的內容字段,本文將進行篩選過濾處理。通過篩選之后的剩余數據樣本為22163條,對預處理后的文本內容再進行分詞處理以及去停用詞處理,得出情感詞、否定詞以及程度副詞等,再利用TF-IDF算法計算出分詞之后的TF*IDF值。將計算所得的TF*IDF值權重集合通過第3.1.2節中所提出的改進文本語詞相似度計算方法以形成相似度矩陣,進而進行密度峰值算法的聚類分析。

4.2.2 基于密度峰值算法的聚類分析

本文利用MATLAB軟件進行聚類分析,在計算得出相似度矩陣后,將矩陣代入到密度峰值聚類算法中作為實驗輸入。針對實驗樣本數據,聚類中心選取的決策圖如圖3所示,根據上文所論述的密度峰值聚類算法原理,通過判斷γ值大小,選取具有局部密度值和距離均相對較大的數據樣本點作為聚類中心點,γ值的計算公式為

圖3 數據樣本聚類中心決策圖

γ值越大,該點成為聚類中點的可能性就越大;同時,根據圖4可知,非聚類中心點的γ值處于平緩趨勢。

圖4 γ數值變化趨勢圖

結合上文對解讀視角的聚類分析可知,對于評論數據,社交網絡用戶所進行的解讀視角或話題的主體對象主要分為3類:“丈夫”“來女士”和“警察”,所有評論內容基本圍繞這3類對象展開,根據每一類對象的高頻詞進行可視化分析,具體如圖5所示。

圖5 3類主體對象可視化展示圖

4.3 信息交互度計算

表2 7月18日—7月25日各主體對象信息交互度計算結果

圖6 各主體對象信息交互度可視化展示圖

4.4 結果分析

本文融合情感元素提出信息交互度概念旨在實現輿情的量化分析,通過具象的數值變化反應社交網絡輿情的演化趨勢,為互聯網相關部門提供一種新的輿情評判視角。從圖6可以明顯看出,3類主體對象中,“警察”主體的信息交互度最低,一方面,是因為在事件的起始階段,社交網絡用戶的注意焦點更多的聚集于案件的當事人,即失蹤的來女士身上,而警察作為案件的偵查人員及通報人員,用戶認為相關調查行為均為警察自身任務所在,因此不會過多聚焦于警察主體。另一方面,由于案件進展相對緩慢,結合圖5的詞云可視化也可以得出,用戶對警察更多持以懷疑、不理解的情感認知,因此,與警察相關的語詞文本是“猶豫”“浪費警力”“遲疑”“效率低下”等。

對于“丈夫”主體而言,結合圖5的詞云可視化,網絡用戶對于這一主體的情感傾向由懷疑向指責發展,與此同時,由于眾多網絡用戶始終認為來女士的神秘失蹤與丈夫有關,因此,“丈夫”主體的信息交互度均相對較高。此外,根據圖6可知7月18日—7月21日“丈夫”主體信息交互度低于“來女士”主體信息交互度;而7月22日—7月25日“丈夫”主體信息交互度又反超“來女士”主體信息交互度,這是因為在起始階段,來女士的蹤跡更能聚焦用戶的關注點,而隨著時間的推移,越來越多的證據顯示是丈夫殺害了來女士,網絡用戶則開始更多的聚焦于“丈夫”這一主體對象,結合圖5的詞云可視化也可以發現與丈夫相關的文本更多出現“惡魔”“魔鬼”“有問題”“虛偽”等關鍵詞。

對于“來女士”主體,從表2和圖6中可以看出,7月18日—7月21日的3類主體對象中,“來女士”信息交互度最高,因為在案件初期,網絡用戶對于“來女士如何突然消失”“來女士到底去哪兒了”這一類的話題充滿興趣,用戶進行信息交互的焦點是“來女士”這一主體,這就使得前期的信息交互一直處于較高的程度。然而,隨著案件的深入調查,來女士的神秘失蹤終于揭開了謎底,網絡用戶在關注這一主體的同時,附帶的情感傾向也是由開始的好奇向最終的惋惜和同情發展,結合情感分析和圖5的詞云可視化也可以得知,與“來女士”相關的關鍵詞文本多為“遺憾”“可憐”“惋惜”等關鍵詞。

就該話題整體而言,社交網絡用戶以自身情感反饋作為該話題的交互結果,并將情感值融入信息交互度的概念中,通過信息交互度的變化分析話題的輿情演化趨勢,本文為驗證所提概念的有效性,將話題整體的信息交互度變化趨勢與該話題的百度指數搜索趨勢進行比較分析,如圖7和圖8所示。根據圖示內容可以知,在7月18日—7月25日該話題生命周期區間內,話題整體的信息交互度變化趨勢與百度指數的搜索趨勢總體吻合,這就意味著信息交互度在一定程度上能夠反映社交網絡熱點話題的輿情演化趨勢。結合該案件真實進展,7月23日警方確認來女士已經遇害,并且嫌疑人為來女士丈夫,這一消息更是聚焦了大量網絡用戶的注意力,信息交互度與搜索指數在7月23日均呈現大幅度的上升。與此同時,該話題的信息量更大,網絡用戶更能產生較強的交互行為,而這就為謠言的傳播或者網絡爭端事件的發生提供了可乘之機。綜合實際情況也可以得知,7月23日警方也對多數網絡謠言進行了辟謠。

圖7 話題整體信息交互度可視化展示圖

圖8 話題信息百度指數趨勢圖

綜合來看,通過分析基于用戶情感視角所構建的社交網絡熱點話題信息交互度能夠反映該話題的輿情演化趨勢,同時,量化的數值變化更能具象化呈現輿情的走勢發展,根據不同階段社交網絡信息交互度的具體數值,有利于網絡監管人員對輿論導向的精準把控以及謠言散布時機的有效預警,進而為互聯網監管部門以及網絡的健康文明發展提供行之有效的度量參考。

5 結語

本文以社交網絡用戶的交互與信息行為作為基本研究出發點。在理論層面上,為對文本數據進行特征詞提取,結合了TF-IDF特征詞權重計算算法,同時,為將共現矩陣更好地轉化為相似性矩陣,本文針對原始Ochiai系數存在的局限性,提出了一種改進的相關系數計算方法。為實現對文本數據樣本的聚類分析,一方面,本文引入密度峰值聚類算法,將計算所得的相似性矩陣輸入到密度峰值聚類算法中,得出該樣本數據的聚類決策圖和γ數值變化圖,進而確定該數據樣本的聚類中心以及最終的聚類數目[37-38]。另一方面,為將交互與信息行為研究從量化的角度進行分析,本文融合情感元素,定義了信息交互度的基本理念,并引入方差加權信息熵的策略思想構建了信息交互度的概念模型[39]。在實踐層面上,本文選取“杭州女子失蹤”這一微博話題,通過對微博用戶的評論內容進行信息交互度模型的實例研究,結合百度指數關鍵詞搜索趨勢對信息交互度模型所得的結果走勢進行佐證,旨在證明該模型的理論可行性和有效性。本文所進行的研究,在輿情分析過程中突出信息自身的直接效應和主導作用,規避了以單一情感類別和情感值分布作為輿情分析評判指標容易產生的誤導性,深度契合了以信息本身為直接目標對象的輿情監測過程,對加強相關網絡部門的網絡信息監管,通過信息的量化趨勢精準把控話題信息的輿情走向,促進互聯網的健康文明發展,具有重要的現實意義。

當然,本文也存在一定的局限性。第一,本文采用的TF-IDF算法更注重詞條在文本中的頻數,對特征詞條內部潛在的語義關系無法更好的體現出來;第二,在將特征詞權重集合的共現矩陣進行相似性矩陣轉化時,本文采用的改進相似性計算方法仍存在一定的局限性,這對后續聚類分析的結果精確性會產生一定的影響;第三,本文的初衷是希望通過對比百度指數話題趨勢線的整體走勢,印證信息交互度在輿情分析中所具有理論可行性與實踐有效性。另外,百度指數所呈現的是話題關鍵字的搜索量,屬于搜索過程的頻數反饋,強調的是一種數量上的趨勢研究,而本文所提信息交互度量化模型是以信息量大小映射信息價值,衡量話題熱議程度,承載了人主體(用戶)的情感認知反饋,信息量不等于關鍵字的搜索量,兩者從本質上還是存在區別的。再者,考慮到百度指數所具有的企業特殊性和技術限制性,本文無法在有限的篇幅內對兩者進行深入合理的對比分析。這些將會在下一步研究中繼續進行完善與改進。

猜你喜歡
文本情感用戶
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 996免费视频国产在线播放| 又黄又湿又爽的视频| 国产一区在线视频观看| 91po国产在线精品免费观看| 狠狠躁天天躁夜夜躁婷婷| 无码一区中文字幕| 欧美劲爆第一页| 国产靠逼视频| 精品亚洲欧美中文字幕在线看| 久久综合一个色综合网| 国产毛片基地| 久久精品一品道久久精品| 国产一级做美女做受视频| 狼友av永久网站免费观看| 精品小视频在线观看| 青青青国产免费线在| 天堂中文在线资源| 亚洲中文字幕久久精品无码一区| 欧类av怡春院| 亚洲无线一二三四区男男| 911亚洲精品| 成人永久免费A∨一级在线播放| 国产成人亚洲毛片| 国产精品人成在线播放| 色成人综合| 亚洲人成色在线观看| yy6080理论大片一级久久| 青青青视频蜜桃一区二区| 四虎成人在线视频| 国产91特黄特色A级毛片| 欧美日韩精品一区二区在线线| 国产亚洲精品精品精品| 日韩天堂网| 国内视频精品| 亚洲欧美日韩动漫| 青青操国产视频| 福利视频一区| 亚洲精品波多野结衣| 国产高清免费午夜在线视频| 欧美亚洲综合免费精品高清在线观看| 9久久伊人精品综合| 欧美翘臀一区二区三区| 欧美成人精品在线| 久热99这里只有精品视频6| 国产成人亚洲综合A∨在线播放| 精品欧美一区二区三区在线| 日韩一二三区视频精品| 操美女免费网站| 丁香婷婷久久| 国产精品污污在线观看网站| 日本黄色不卡视频| 亚洲91在线精品| 婷婷综合亚洲| 亚洲最新地址| 亚国产欧美在线人成| 欧美国产菊爆免费观看| 日韩av在线直播| 国产毛片不卡| 国产高清毛片| 国产在线观看一区精品| 91免费国产高清观看| 精品国产Av电影无码久久久| 国产精品不卡永久免费| 国产99在线| 国产三区二区| 麻豆精品在线视频| 亚洲有无码中文网| 日本高清视频在线www色| 欧美日韩亚洲国产| 伊人激情久久综合中文字幕| 91精品啪在线观看国产91九色| 国产剧情伊人| 91网在线| 国产伦片中文免费观看| 亚洲成年网站在线观看| 亚洲午夜国产片在线观看| 久久亚洲国产视频| 六月婷婷精品视频在线观看| 亚洲视频三级| 99热这里只有精品免费| 四虎国产永久在线观看| 久久午夜夜伦鲁鲁片不卡|