999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡評論的文本挖掘與情感傾向分析

2023-07-04 04:56:35楊嘉雯石媛媛閆安
互聯網周刊 2023年11期
關鍵詞:文本挖掘

楊嘉雯 石媛媛 閆安

摘要:目的:基于五家旅游平臺上北京地區18家一級博物館評論的數據分析,挖掘影響游客滿意度因素,了解游客差評原因,對提升北京地區博物館服務具有重大意義。方法:通過詞云圖、語義網絡特征關聯分析、LDA主題模型特征分析,并建立語義情感詞典進行情感傾向分析。結論:根據文本挖掘與情感傾向分析結果,提出北京地區博物館服務建議。創新基于現實數據,采用數據挖掘方法分析北京地區博物館游客情感傾向,為游客情感影響因素識別提供科學研究范式。

關鍵詞:文本挖掘;語義網絡;文本情感分析;北京地區博物館

引言

游客平臺網站評價是游客對體驗的真實表達。通過挖掘網絡文本,了解游客看法,對完善博物館體系,提升游客體驗具有重要意義。對于挖掘網絡文本和分析情感傾向方法,已有眾多學者深入研究。莫紀燦等(2021)[1]使用ROSTCM6軟件對網師園網絡評論進行網絡語義分析,歸納游客感情特征;孫明慧等(2021)[2]構建語義網絡,提取高頻詞,對消極情緒進行扎根理論編碼分析,建立鄉村書店游客負面情緒影響因素模型;鄭凇尹等(2022)[3]使用方面級情感分析方法,使用模型情感分類,歸納影響用戶滿意度的因素。

梳理文獻得出,國內外在研究博物館游客體驗方面缺少對網絡文本的利用。因此本研究創新基于從去哪兒網、大眾點評等點評類網站抓取網絡評價,運用詞頻統計、語義網絡特征關聯分析、LDA主題模型分析、建立詞典情感分析等方法分析北京地區博物館游客體驗的影響因素,提出可持續發展的相關建議。

1. 北京地區博物館游客評論的特征分析

1.1 數據的來源與預處理

1.1.1 數據來源

本研究的評論數據選取大眾點評、驢媽媽、去哪兒網、攜程網、途牛網5家網站從2019年1月至2022年12月對北京地區18家國家一級博物館的評論。博物館分為8家文物博物館:中國國家博物館、恭王府博物館、清華大學藝術博物館、故宮博物院、中國人民抗日戰爭紀念館、首都博物館、周口店北京人遺址博物館、北京魯迅博物館;8家行業博物館:中國農業博物館、北京天文館、北京汽車博物館、中國印刷博物館、中國電影博物館、中國科學技術館、北京自然博物館、中國人民革命軍事博物館、中國航空博物館、中國地質博物館。

1.1.2 數據預處理

運用軟件收集網站一級評論,內容包括評論內容、評論日期及用戶名,共83264條評論,由于存在無關數據,如重復評論、無效無關數據等,無法直接分析,所以進行初步處理,去除2020年1月前全部評論、重復評論、顏表情、無用符號,最終獲得53319條有效評價數據。使用Jieba分詞,Jieba詞典庫不夠完整,本研究根據實際情況對停用詞添加刪除,建立適合的停用詞表,分詞結果更加顯著。

1.2 文本特征提取

TF-IDF方法在分詞后對分詞結果進行遍歷[4],挖掘文檔中關鍵詞,評估某詞組對文檔的重要程度,TF-IDF值越高表明該內容的重要性越強[5-6]。根據TF-IDF結果,得到詞頻統計前20個詞及TF-IDF排名前20個特征詞,如表1所示。詞頻統計和TF-IDF中“電影”均占榜首,可見游客對數字化技術的關注。詞頻統計與TF-IDF結果基本相同,說明詞頻數和TF-IDF值間存在一定正向關系。但詞頻統計中“小朋友”位于靠前位置,但TF-IDF中為靠后位置,表明詞頻數越高不能表示重要性一定高。

1.3 基于詞云圖的特征可視化分析

基于分詞結果,在Jupyter Notebook環境內生成詞云圖,通過可視化轉化數字表格,直觀展現評價高頻詞與游客體驗重點,利于建議提出,為結果展現的重要方法之一[7],如圖1所示。

出現頻率較高的高頻詞,即圖中字體更大的詞組,如“電影”“歷史”“展廳”“門票”“小朋友”等,突出游客關注內容。

根據圖1,結合整段評價分析:

(1)游客選擇博物館時考慮預約模式及開放時間,如是否有預約網站、是否需提前關注搶票進展、博物館預約開放時間,增加體驗滿意度。

(2)游客偏向更具新奇體驗的博物館,更多年輕人選擇主題豐富博物館出行;博物館可在展覽建設中注入創新力量,例如數字化劇場覆蓋率,提高回頭率。

(3)游客看重展館受眾及主題內容,家長會優先小朋友選擇有教育意義的博物館;年輕人為充實自身文化底蘊,會選擇有文化氣息的博物館。

(4)游客會被建筑外觀吸引,如故宮保留中國歷史的建筑物群、魯迅博物館特色的館內環境和風格;博物館可在展覽風格及館內環境投入精力,提高好評率。

1.4 基于語義網絡的特征關聯分析

詞頻統計對影響游客體驗因素初步分析,但對影響因素間的關系仍無法說明。語義網絡分析可直觀分析主要特征詞間的關聯關系以及語義網絡的中心節點,找尋文本特征[8]。運用ROSTCM6軟件對已處理數據進行社會網絡與語義分析[9]。生成共現矩陣,如表2所示,網絡語義分析圖如圖2所示。

圖2看出影響體驗因素間的關系具有包圍結構,分為三個層面。交通、門票、展廳等高頻詞與其他高頻詞聯系最緊密,構成第一層核心圈,也是影響游客體驗重要因素。第二層主要由小朋友、電影、停車場、展品等高頻詞組成,為次要因素,反映博物館提供的項目服務,如停車場、電影等。最外層主要由科技、文化、樂園等組成,反映游客對博物館文化內涵的關注,對博物館的整體印象等。結合共現矩陣及網絡語義分析,影響博物館游客情感因素總結出以下方面:交通、門票、展廳、服務、文化、展覽。

1.5 基于LDA主題模型的特征分析

語義網絡已找到影響游客情感傾向的因素關系,繼以通過LDA[10]三層貝葉斯主題模型,通過無監督學習方法發現文本中隱含的主題信息[11-12]。本研究利用比較困惑度[13]進行主題識別。經python算出主題數目為5時,LDA模型困惑度最小。自然語言處理導出主題—關鍵詞分布后,得到游客評論的5個研究主題并每個主題提取20個特征詞。LDA主題分析生成主題、特征詞及權重如表3所示,展示每個主題及其關鍵詞和重要性。

分析表3中特征詞,各主題含義如下:主題一,游客關注博物館概況,如門票性價比、環境等;主題二,游客在疫情時代注重博物館的整體服務水平;主題三,游客重視博物館逐漸提高的數字化發展;主題四,游客更注重博物館的內在文化知識,博物館為公共教育場合,可在此感受到在其他場合無法了解到的知識文化;主題五,強調多以親子出游為主。綜合以上五個主題,游客比較關心博物館周邊環境、整體服務、數字化建設及北京地區獨有內在文化建設等。

2. 游客情感傾向分析

2.1 詞典的建立

本文分析游客情感傾向時,采用基于語義的情感詞典方法[14]。構建程度副詞詞典、情感詞詞典和否定詞詞典。分析文本計算情感分數值,將情感傾向分類。

參考文獻,情感詞典及其賦值如表4所示。

情感詞詞典只可表明情感傾向,無法體現程度區別,因此建立程度副詞詞典,參考知網研究及前人研究,最終以周知等[15]研究為參考,劃分出6個等級并賦予權值,如表5所示。

當否定詞存在時,情感傾向會改變,因此附加否定詞詞典。目前研究對此設置無固定模板,據相關文獻建立否定詞詞典,如表6所示。

2.2 情感值計算算法設計

結合具體情況及參考文獻,本研究算法邏輯如下:

(1)對網絡評價文本數據進行預處理;

(2)建立好詞典,即程度副詞詞典、情感詞詞典和否定詞詞典,導入數據集;

(3)程序運行中遍歷尋找評論中情感詞,確定基礎情感分數值;

(4)以確定情感詞為查找中心,查找前面一個詞,判斷是否存在程度副詞,若有,在詞典中確定程度級別,根據權重賦值運算;

(5)再次以(3)中情感詞為查找中心查找,判斷是否存在修飾中心情感詞的否定詞,若有,分數置反;

(6)計算原始每條評論的情感分數值。對確定的情感詞計算所有權重后加和;

(7)最后統計游客評論的情感傾向占比。

2.3 結果分析

根據算法結果將評價情感傾向分為好評4509條評論、中性4398條評論、差評3872條評論,共53319條評論。

分析圖3,極高的好評率說明北京市地區博物館建設可觀;中性評價表明建設不夠吸引游客、跟進時代;差評存在,說明博物館有急需整改之處,可能是影響北京地區文化發展的障礙。

分析表7、圖4,好評中高度好評最多,中度其次,說明游客認可程度極高,博物館建設可觀;差評中輕度差評最多,中度其次,可見博物館雖存不足,反饋并不強烈。高度差評占比不高,可知發展中所存問題尚不嚴重,但仍須加強對其部分改進。

結語

本研究以9家旅游網站中北京地區18家一級博物館游客評論文本數據為例,使用語義網絡關聯分析、詞云圖分析、LDA主題模型特征分析對評論文本進行特征分析,采用建立情感詞典并賦予其相關分值,python計算每條評論情感得分。根據研究結果為北京地區博物館的游客體驗發展提出以下建議:

(1)數字化發展。北京地區博物館大多普及了數字化系統,但部分博物館維護不足,如評論中頻繁出現的熒屏熄滅等,因此維修與防護工作應加強。博物館具有文化傳播的社會功能,應強化網絡上知識教育,實現文化遺產的網絡化展示,應用科技使更多游客了解其內涵。

(2)文創服務。博物館衍生文創產品,如故宮冰淇淋、汽車博物館同款汽車掛墜等。文創產品應貼合游客興趣點,關聯游客生活,體現創新性與經濟價值,使文創產品更實用。

(3)文化傳播。博物館為重要文化陣地,應加強推廣,增添咨詢渠道,擴大影響力,進一步增加游客選擇博物館出行的可能性。統計游客流量數據,為后續宣傳工作提供支撐。

(4)整體服務。博物館具有極強社會屬性,是全民旅游陣地,但研究表明,游客主要群體為親子及青少年,缺少老年游客。應加強員工培訓,提高服務質量,貼近老年思想,使博物館旅游全年齡發展。優化內在設計,突出本館特色,側重文化內涵展示,傳播好所代表的歷史文化;優化館內服務,清晰門票購買細則,避免出現游客無法及時購票的情況;盡量設置停車場,或標記附近停車場的位置,提供便捷交通。

參考文獻:

[1]莫紀燦,張青萍.基于網絡文本分析的蘇州古典園林活化策略研究——以網師園為例[J].資源開發與市場,2021,37(5): 629-635.

[2]孫明慧,陳少華.文化旅游視角下基于網絡評論的鄉村書店形象感知分析——以先鋒書店(鄉村店)為例[J].出版科學,2021,29(02):66-78.

[3]鄭淞尹,王萍,丁恒,等.基于方面級情感分析的博物館數字化服務用戶體驗研究[J].情報科學,2022,40(4):171-178.

[4]林振榮,黃虹霞,舒偉紅,等.基于TF-IDF與用戶聚類的推薦算法[J].計算機仿真,2022,39(6):341-345.

[5]邵欣欣.TI-FastText自動商品分類算法[J].計算機科學,2022,49(S1):206-210.

[6]曾金,張耀峰,黃新杰,等.面向用戶評論的主題挖掘研究——以美團為例[J].情報科學,2022,40(11):78-84.

[7]師榮蓉,張教萌.中國經濟高質量發展的社會評價:基于微博情感分析的視角[J].統計與決策,2021,37(24):180-184.

[8]張公讓,鮑超,王曉玉,等.基于評論數據的文本語義挖掘與情感分析[J].情報科學,2021,39(5):53-61.

[9]葉佳鑫,熊回香,楊滋榮,等.關鍵詞詞頻及語義特征對科技文獻聚類的影響研究[J].情報科學,2021,39(8):156-163.

[10]孫瑞英,陳宜泓.基于LDA主題模型的國內智慧閱讀研究熱點及發展導向研判[J/OL].圖書館建設:1-21[2023-04-20].http://kns.cnki.net/kcms/detail/23.1331.G2.20221221.1311.002.html.

[11]陳芳,沈芮宇.基于文本挖掘的空中危險接近事件致因研究[J].安全與環境學報,2022,22(6):3280-3287.

[12]李倩,王帥.LDA模型下我國公共圖書館微信平臺閱讀推廣內容主題研究[J].圖書情報工作,2022,66(8):72-83.

[13]李雅倩,孫玉玲,趙婉雨.基于主題模型和時間序列分析的新興主題識別與特征關聯研究[J].知識管理論壇,2022,7(3):229-247.

[14]林振宇,解吉波,楊騰飛,等.旅游多主題情感詞典的構建方法[J].地理與地理信息科學,2021,37(4):22-27.

[15]周知,王春迎,朱佳麗.基于超短評論的圖書領域情感詞典構建研究[J].情報理論與實踐,2021,44(9):183-189.

作者簡介:楊嘉雯,本科,研究方向:物流管理;閆安,本科,研究方向:計算機與科學技術;石媛媛,本科,研究方向:經濟學。

項目基金:數字賦能文旅融合高質量發展研究(編號:202310004145)。

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 国产制服丝袜91在线| 久久久黄色片| 性喷潮久久久久久久久| a毛片在线免费观看| 91探花国产综合在线精品| 午夜久久影院| 亚洲 欧美 日韩综合一区| 97国产精品视频自在拍| 四虎国产永久在线观看| 第九色区aⅴ天堂久久香| 99免费在线观看视频| a级毛片一区二区免费视频| 高清色本在线www| 免费国产小视频在线观看| 国产毛片高清一级国语 | 国产免费看久久久| 青青青视频91在线 | 看看一级毛片| 最新国产麻豆aⅴ精品无| 黄色网在线| 欧类av怡春院| 热re99久久精品国99热| 中文毛片无遮挡播放免费| 欧美日韩国产精品va| 日本三级欧美三级| 久久黄色影院| 风韵丰满熟妇啪啪区老熟熟女| 国产成+人+综合+亚洲欧美| 成人免费网站久久久| 日本一区二区三区精品国产| 国产99精品久久| 国产一区在线观看无码| 国内精品九九久久久精品| 欧美在线天堂| 国产专区综合另类日韩一区| 欧洲成人免费视频| 国产丝袜第一页| 精品国产网| 毛片免费在线| 91免费观看视频| 免费无码AV片在线观看中文| 欧美伊人色综合久久天天| 亚洲无码电影| 免费一级无码在线网站| 午夜免费视频网站| 久久久久亚洲精品成人网 | 国产视频一区二区在线观看| 91久久国产成人免费观看| a级毛片一区二区免费视频| 国产精品99在线观看| 97国产在线播放| 久久精品亚洲中文字幕乱码| 国产欧美专区在线观看| 国产不卡在线看| 国产成人亚洲精品无码电影| 91精品国产情侣高潮露脸| 全免费a级毛片免费看不卡| 色偷偷综合网| 色婷婷亚洲十月十月色天| 亚洲午夜天堂| 综合色在线| 久久五月天综合| 蝴蝶伊人久久中文娱乐网| 国产制服丝袜91在线| 国产成人亚洲精品蜜芽影院| 午夜日b视频| 国产精品林美惠子在线观看| 人人91人人澡人人妻人人爽| 亚洲精品人成网线在线| 国产免费高清无需播放器| 精久久久久无码区中文字幕| 亚洲日韩久久综合中文字幕| 天天综合色网| 欧美日韩北条麻妃一区二区| 黄色网页在线播放| 欧美亚洲国产精品久久蜜芽| 中文字幕在线观看日本| 久久国产乱子伦视频无卡顿| 91色综合综合热五月激情| 国产日韩欧美黄色片免费观看| 精品国产亚洲人成在线| 视频国产精品丝袜第一页|