999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習方法的游客評論數據智能分析技術研究

2021-06-27 03:25:54馬騫
電子設計工程 2021年12期
關鍵詞:分類文本情感

馬騫

(西安航空職業技術學院,陜西西安 710089)

隨著互聯網技術的快速發展與普及,電子商務逐漸被應用于貨幣交換、商品買賣與旅游服務等多個領域[1-2]。在這些領域中,由于旅游行業嚴重依賴于資金流動、信息傳遞與流通,所以如何利用高效率的信息引導普通的游客,是旅游景點提高經濟效益的重要環節[3-7]。而在與互聯網融合的背景下,通過借鑒淘寶等商品平臺,攜程網或途牛等旅游服務平臺也逐漸引入針對旅游目的地的游客評價等功能,從而優化其相應旅游目的地的服務產品。然而,隨著游客數量的快速增加,對于評論數據的情感分析也逐漸成為旅游服務平臺亟待解決的技術問題[8]。目前,國內外的學者提出一些經典的解決方法,例如:Bo Yang 等學者通過引入機器學習方法,對互聯網上的觀眾影評進行了準確度較高的情感分析[9];Sanjiv Das 等學者針對投資者對股票走勢的評價,建立了情感分析的計算模型[10]。然而,這些研究所提出的分析模型依然存在準確度較低的問題,難以應用到大規模的旅游服務平臺中。

為了進一步提高游客在旅游服務平臺上的分析準確度,基于支持向量機等機器學習分類算法[11],文中提出了針對游客評論數據的智能分類與分析技術。使用數據的自動抓取技術,實現了旅游服務平臺的數據獲取與預處理操作,通過引入支持向量機技術,文中提高了分析模型的泛化能力,實現具有較高準確度的情感分析技術。相關仿真結果表明,基于機器學習方法的游客評論數據分析技術優于傳統的語義分析方法。

1 情感分類技術

在數學領域中,情感分類是一個映射過程。令a表示由多種數據組成的待分類集合,b表示經過精確分類之后的類別集合,則情感分類f,可用式(1)表達。

在當前研究中,情感分類技術主要可分為語義分析[12-14]與機器學習[15-16]兩類,其簡介如下:

1)基于語義分析的情感分類技術,是通過對詞語的語義傾向進行分析的情感分類方法,該方法需要提取、表示與統計詞語的語義特征。其分類流程如圖1 所示。

圖1 基于語義分析的情感分類流程圖

2)基于機器學習的情感分類技術需要使用統計學,比較當前數據與已定義的分類特征向量的相似程度,從而完成文本數據的情感分類。其分類流程如圖2 所示。

圖2 基于機器學習的情感分類流程圖

一般而言,基于機器學習的常用情感分類技術,主要包括支持向量機(SVM)、K 近鄰與樸素貝葉斯算法等。在基于語義分析與機器學習的情感分類技術中,由于支持向量機技術具有準確度較高的分類效果,故文中選用該技術對游客的評論數據進行智能分析。

2 支持向量機技術

2.1 數據抓取

在智能分析技術中,鑒于用戶數量與關注度均較高,所以文中的訓練集與測試集數據均來自于攜程網的數據庫。為快速獲取大量的數據,利用Java語言在Eclipes 平臺上,分別編寫了網頁抓取程序Crawler 與解析數據程序Parse。利用抓取程序與用戶數據,建立了由旅游景點信息與評論信息組成的數據表。其中,旅游景點信息主要由城市序號、城市名稱、游客人數、綜合評分、景點評分、評論數量與評價時間等組成;評論信息主要由評論序號、城市序號、城市名稱、評論內容、游客評分、評價時間與游客姓名等組成。

2.2 預處理

為便于機器學習方法的分類與計算,文中還需要對原始的評論數據進行必要的預處理。其中,數據預處理過程又可分為訓練集與測試集、文本清理與初始分類流程,其詳細內容如下。

1)訓練集與測試集

在數據預處理的過程中,文中需要對數據庫中的原始數據進行反復地調整與運算,從而選取出由大量游客評論數據組成的訓練集;同時,選擇出由一定數量評論數據與分類結果組成的測試集。利用數據的自動抓取程序,文中從攜程網平臺上獲取了10個旅游景點的在線評論數據。經過反復地訓練與測試,文中對多個分類器的參數進行了優化與改進。

2)文本清理與初始分類

在旅游服務平臺上,原始數據的自動抓取程序是直接復制相應的評論內容,導致了抓取的數據中包含較多英文、符號等額外信息。所以,文中需要對原始的抓取數據進行一定的“過濾”,該過程主要由以下行為組成。

①剔除無意義的游客評論數據。其中,無意義的評論數據主要包括3 種數據,即外文或符號等無法判別內容、特別簡略而無法判斷情感傾向的內容、包含大量廣告的評論內容;

②精簡有意義的游客評論數據。在具有參考意義的評論數據中,大量的英文單詞或怪異的表情符號等內容較難反映游客的真實情感傾向,需要進行一定的精簡與優化。

為了實現更加精確的評論自動分類,文中需要對經過清理的文本數據進行人工初始分類,即將文本的評價內容簡單分成積極正面評價與消極負面評價內容,從而盡量提高分類的準確度。

2.3 情感分類

當完成原始數據的預處理后,基于機器學習的評論數據分類技術還需要執行特征表示、特征提取與分類計算等多個流程,其詳細介紹如下。

1)特征表示

由于機器學習算法無法直接對文本數據進行處理與運算,所以文中利用向量空間模型表示文本數據。

一般而言,向量空間模型是使用具有權值的特征向量空間表示文本的方法。在所有文本數據中,每個文本d均由n維向量空間V的一個點來表示,即V(d)=(w1,…,wn)。其中,向量空間的分量wi(1 ≤i≤n)均表示文本數據在特征向量空間中的權重值。利用該方式,文中即可將游客的文本數據逐一匹配到n維的特征向量空間。

2)特征提取

由于中文的詞語總數較多,所以經過特征表示的特征向量,仍需要進行特征提取,從而降低特征向量的維度。目前,針對中文文本的常用特征提取方法主要有:文檔頻率統計、信息增益計算與交互信息統計等。其中,因為機器學習方法被用于分類計算,所以文中選用信息增益計算的方法來完成特征提取。

通常,信息增益計算是廣泛用于機器學習領域的特征提取方法,令t表示文檔詞語,c表示文檔類別,s表示文檔的類別數量,p(c)表示c類文檔在中文語料集合中的出現概率,而p(t)與表示文檔詞語t在中文語料集合中的出現與不出現的概率,分別表示文檔詞語t在c類文檔中出現與不出現的概率。則文本特征提取的計算結果I(t)如式(2)所示。

3)分類計算

為了提高評論數據的分析準確度,文中選用支持向量機(SVM)技術,作為評論文本數據的主要分析工具。在概率論與數理統計原理的基礎上,以結構風險最小化為運算基準原則,SVM 的學習泛化能力更高,解決了傳統機器學習算法始終存在的非線性與過學習等問題。其基本思想為利用監督學習的方法,對文本數據進行二元線性分類。

而樣本集F的所有點(xi,yi)滿足以下不等式:

而在數據空間Rd中,樣本數據x到分類超平面距離l的計算方法,如式(5)所示。

通常而言,為了實現更加精確的分類,文中需要尋找最優的分類超平面,而這一問題可以轉化為支持向量機二次規劃的數學計算模型。其中,該數學模型的目標函數obj(w)如式(6)所示。

對于樣本數據集F={(xi,yi)},令i=1,2,…,s,則該數學模型的約束條件如式(7)所示。

此外,令ai表示第i個樣本對應的拉格朗日算子,文中分別將目標函數與約束條件細化為式(8)與式(9):

根據庫恩塔克爾定理,通過一定的推導可知,上述數學模型的優化解必然滿足以下條件,如式(10)所示。

其中,在大部分樣本數據的求解過程中,ai=0 。而當ai≠0 時的少部分樣本即為支持向量,通過推導與求解可得分類判別函數D(x,y),如式(11)所示。

3 仿真結果與分析

為驗證文中提出的智能分析方法的有效性,利用攜程網的游客評論內容,分別對基于語義分析與機器學習的智能分析方法進行了仿真與分析。在仿真過程中,文中采用卡方檢驗的方法衡量這兩種文本分析方法的優劣。需要說明的是,所有的仿真均采用相同的樣本數據與檢驗條件。經過多種訓練集與測試集等樣本數據的測試和分析,文中得到了測試集的分類正確率結果。其中,當訓練集樣本數據的數量分別為50、100、200 與400 時,這兩種方法的測試集分類正確率,如表1 所示。

表1 測試集評論數據分類正確率結果

由表1 可知,在同樣的仿真條件下,基于機器學習方法的智能分析技術具有較高的正確率,顯著優于傳統的語義分析方法,證明了文中所提分析技術的優越性。

4 結束語

針對游客評論文本的數據分析問題,文中基于機器學習方法提出了一種文本智能分析技術。通過引入支持向量機的數據處理方法,這種智能分析技術顯著提高了游客評論數據的分類正確率,具有一定的借鑒與參考意義。然而,由于仿真條件的限制,文中并沒有對這種技術進行大規模的仿真與分析,該技術的穩定性表現無法判定,下一步將致力于解決這一問題。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 2021天堂在线亚洲精品专区| 久久久无码人妻精品无码| 久久久久久高潮白浆| 日韩在线影院| 熟妇丰满人妻| 欧美成人手机在线观看网址| 欧美在线视频不卡第一页| 四虎永久在线视频| 久久精品人人做人人综合试看| 国产在线专区| 91国内视频在线观看| 亚洲男人的天堂视频| 久久精品国产国语对白| 亚洲欧美另类日本| 黄色成年视频| 尤物午夜福利视频| 午夜激情福利视频| 不卡无码网| 久久www视频| 一级毛片免费观看不卡视频| 久久午夜夜伦鲁鲁片不卡| 99精品免费在线| 午夜欧美理论2019理论| 无码精品一区二区久久久| 亚洲精品国产综合99久久夜夜嗨| 激情视频综合网| 国产人碰人摸人爱免费视频| 国产凹凸视频在线观看| 亚洲美女视频一区| 国产午夜看片| 久草视频中文| 亚洲午夜片| 午夜啪啪福利| 制服无码网站| 国产自无码视频在线观看| 国产一级二级三级毛片| av一区二区三区在线观看| 日本国产在线| 人妻无码中文字幕第一区| 国产不卡国语在线| 无码日韩视频| 日韩资源站| 一级全黄毛片| 伊在人亚洲香蕉精品播放 | 天堂岛国av无码免费无禁网站| 精品无码一区二区三区在线视频| 伊人久久久久久久| 国内熟女少妇一线天| 九九这里只有精品视频| 老司机午夜精品网站在线观看| 国产成人精品18| 中国毛片网| 亚洲精品无码av中文字幕| 国产H片无码不卡在线视频| 国产精品观看视频免费完整版| 高h视频在线| 国产精品自在拍首页视频8| 亚洲欧美日韩中文字幕在线一区| 国产浮力第一页永久地址| 欧美在线三级| 无码'专区第一页| 狠狠久久综合伊人不卡| 亚洲人成网站观看在线观看| 亚洲精品图区| 在线观看亚洲成人| 日韩东京热无码人妻| 天天干伊人| 美女被操91视频| 无码电影在线观看| a毛片在线免费观看| 草草线在成年免费视频2| 国产另类乱子伦精品免费女| 99精品伊人久久久大香线蕉| 91在线一9|永久视频在线| 色悠久久综合| 狠狠色狠狠综合久久| 久久综合丝袜长腿丝袜| 成人一区专区在线观看| 大陆精大陆国产国语精品1024| 国产精品第一区| 亚洲无码高清免费视频亚洲| 色综合综合网|