999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時空大數據挖掘的網絡輿情研判方法研究

2021-05-12 03:00:08解仲秋
電子設計工程 2021年8期
關鍵詞:單詞分類文本

解仲秋

(西安航空職業技術學院,陜西西安 710089)

隨著互聯網的迅速發展,網絡媒體作為一種新型的信息傳播形式,正成為表達公眾情感、暢通社會交流、凝聚公眾智慧的重要渠道。互聯網作為一種新型的媒體,由于具有自由、開放、互動等特點,比報紙、廣播、電視及其他媒體更容易吸引公眾參與輿論討論。

對于熱門話題與緊急情況,眾多的互聯網用戶通過網絡渠道表達其觀點。新聞評論、BBS 與博客已成為互聯網用戶傳播和表達公眾信息的主要方式。當前,中國正處于社會轉型的關鍵時期,網絡輿情的影響力越來越大。若無法正確識別或引導出現偏見或負面輿論,將會構成極大的公共安全威脅。大學生是我國網民的主體,大學生對社會問題的參與度高,極易受到新思想的影響。因此,有效收集、監測與分析網絡中大學生輿情成為亟待解決的重要問題[1]。

數據挖掘與機器學習作為動態處理大量數據的有效工具[2]。文中借助這兩項工具研究了網絡輿情熱點檢測,對各種民意的相互作用結構進行自然分組,并進行全面、及時的描述,實現了動態監測熱點意見。

1 系統分析與架構

在網絡環境下,輿情信息來源于評論、BBS、博客與各式聊天軟件[3],不同的信息來源具有不同的特征。系統框架如圖1 所示。首先,使用Web 搜尋器獲取有關網絡數據的最新信息,在刪除重復的url后,將數據以Html 源文件的形式存儲到硬盤中[4]。隨后預處理源文件,將Html 文件轉換為文本,提取信息主體與文件的網頁地址,并發布時間、作者等信息[5]。在此基礎上通過字典對提取的數據進行分析,得到文本信息的特征集合,提取關鍵詞并統計關鍵詞的出現頻率[6]。使用專業詞典與關鍵詞進行比較,并提取相關事件,形成輿情信息數據庫。最終,根據所需的類型、發布時間、源出處等實現對網絡輿情的實時監控。

圖1 輿情研判系統框架

該系統涉及的關鍵技術包括Web 爬蟲技術[7]、主題詞提取技術[8]、自動文本分類技術[9]。

1.1 Web爬蟲技術

文中設計的Web 爬蟲策略基于無主題搜索的廣度優先[10]與深度優先策略[11]。基于深度優先策略,Web 爬蟲程序搜索含有起始頁面的所有頁面。然后,選擇一個鏈接頁面,繼續爬完此頁面上的所有鏈接頁面。基于深度優先策略,Web 爬蟲程序從起始頁面開始,遍歷到所有鏈接的子鏈接,一直處理到網頁目錄盡頭。隨后,Web 爬蟲程序繼續跟隨下一個起始頁面。廣度優先策略可以保證網絡爬蟲并行處理,提高數據搜尋效率;深度優先策略確保數據挖掘成本。文中根據需求混合使用兩種網絡爬蟲的搜索策略,以提高鏈接的準確性,減少計算時空復雜性。

1.2 主題詞提取技術

主題詞提取技術的關鍵要點包括通用分詞與POS 標記、識別與多詞短語分組的新字符串、同義詞與近義詞的合并、基于結構和統計信息的關鍵詞提取[12]。

文中使用中國科學院ICTCLIS 系統構建通用分詞與POS 標記技術,并使用統計算法對關鍵詞進行詞頻分析[13]。考慮到互聯網語言中存在較多新詞與未知詞,文中通過計算相鄰詞組串的互信息,選擇超過某個閾值的單詞作為候選單詞[14]。

2 數據挖掘算法構建

在上文建立的識別框架下,系統需提取輿情數據的特征。選擇過程基于文檔頻率,通過互信息或信息增益的方法以減少單詞的數量,從而獲得有用的信息。在網絡文本意見的分類過程中,將區分某種文本意見的重要單詞提取出來(定義為功能單詞),在檢測網絡意見熱點時使用,這些詞稱為功能單詞[16]。

功能單詞有兩種功能:全字功能與詞干功能,全字功能從文中按原樣提取,詞干功能只提取詞組的詞干。考慮到輿情檢測與分析的完整性和準確性,文中使用全字功能。通過使用常用術語加權TFIDF,結合術語頻率(TF),乘以反向文檔頻率(IDF),用于衡量一個詞組的信息性。文中使用K-means 聚類與SVM 分類器對Web 文本進行分類。

2.1 K-means聚類

K-means 是解決聚類問題時最樸素的無監督學習算法之一。其算法流程如圖2 所示。

圖2 K-means算法流程

算法通過預先設置的一定數量的聚類(假設k個聚類)對給定數據集進行分類。定義k個質心,這些質心隨機存在于多維空間中。為保證聚類的準確性,將k個質心放置在盡可能遠的距離。在一次迭代的基礎上,重新計算k個新質心,將其作為上一步所產生簇的重心,然后依據相同數據集點與最近的新質心之間的距離重新進行運算。經過上述迭代,直至k個質心不再移動位置為止。文中使用的目標函數如式(1)所示。

式中,J是在數據點與聚類中心之間的距離度量,表征了n個數據點到其各自聚類中心的距離度量。

運算周期內獲得的互聯網輿論,通過特征選擇與降維,如式(2)所示。

其中,Di表示文本輿情,Ti表示特征,wj表示特征權重。式(2)用作K-means 聚類輸入的數據集,該數據集將被聚集成k組,每個聚類的中心主題是最接近集群理論中心的熱點。

2.2 SVM分類

由于網絡輿論熱點的數量尚不確定,因此是一個多分類問題。文中通過非線性函數將輸入空間轉化為高維空間。在高維空間中,構造線性判別函數以實現對原始文本空間的非線性判別,得到分類決策函數f(x)如式(3)所示。

其中,k(xi,x)為選擇徑向基函數,作為內積核函數,其形式如式(4)所示。

該節還使用SVM 來實現熱點預測,為預測當前時間段的輿情熱點分布,將最近時間段獲得的歷史數據輸入到SVM 模型中。在此基礎上,使用K-means 方法與當前時間段的聚類結果監督學習工具的SVM 輸出。訓練后的SVM 通過輸入從當前數據中獲得的數據,來對下一個時間段進行預測。假設當前時間段是si,輸入si的表征向量,并將輸出設置為K-means 的聚類結果。在此基礎上訓練SVM,最終得到si時刻的預測值。

3 實驗驗證

硬件體系結構如圖3 所示。總體上分為服務器端與客戶端,通過TCP/IP 協議進行通信。客戶端主要搭載遠程控制器應用程序,允許用戶使用自然語言規范與鼠標等控件調用命令。此外,用戶可以選擇在客戶端使用麥克風與揚聲器,通過語音命令對系統進行調控。服務器端由Mentor 與Mitsubishi 服務器組成,Mentor 服務器使用Pentium III 450/ 128 Mb PC 直接控制,Mitsubishi 服務器使用Pentium II 400/128 Mb Windows NT PC。每個服務器可以共享一些模塊,包含對象的數據庫保存在單個計算機中,并由屬于該項目的任何服務器共享。

圖3 硬件系統結構

為了評估該方法對文本數據的分類結果,下面分別使用宏平均精度、宏平均召回率與宏平均F1 量度3個參數進行評價,其形式分別如式(5)~(7)所示。

Macro_P是系統所有預測的正確分類占實際正確數據的比例,可由Macro_P=TP/(TP+FP)得出。Macro_R是預測的正確數據占所有實際正確數據的比例,可由Macro_R=TP/(TP+FN)得出。Macro_F1是精度與召回率的諧波平均值,可由式(7)得出。

3.1 K-means聚類驗證實驗

為驗證K-means 的聚類效果,文中選取來自互聯網論壇網站的數據,內容包括財經、人文、生活、娛樂等。

K-means 算法的一個不足是需要預設k。因此,文中的K-means 聚類分析針對一組k個值,計算出相同的向量空間模型所需的介于5~10 之間的k值。表1 給出了不同k值下的VSM(向量空間模型)值。分析表1 可知,該方法足以獲得良好的準確性。在輿情監控的應用場景下,選取k=9 時以獲得最佳聚類效果。K-means 聚類效果如表2 所示。

表1 不同k值下算法效果實驗

表2 K-means聚類實驗

3.2 K-means與SVM比較研究

文中從表3 給出的6 個不同類別Web 文本中選擇1 000 個文檔,通過篩選,使用其中692 個文檔用于訓練神經網絡,120 個文檔用于測試。

表3 分類測試的Web文本數據庫

由于中文文本中單詞之間未有明顯的空格,因此,首先需要對文檔加注標點符號。在刪去停用詞與輔助詞減少了文本無用特征后,采用TFIDF 構建識別構架輸入功能,得出表4 所示的特征維度。最終的分類實驗結果如表5 所示。對比可知,5 類文本信息下SVM 的Macro_F1 度量優于K-means。

表4 文本特征維度

表5 兩種方法的F1量度實驗結果

4 結論

文中設計了一個互聯網輿情研判檢測與分析模型。根據網絡輿情的文本屬性,引入VSM來表達文本輿論。根據實際應用場景,從一些新網站中選取文本語料庫。對收集的文本文檔進行K-means 聚類與SVM 分類,通過實驗結果證明了該方法的有效性。

此外,未來工作的研究方向如下:深入開展網絡輿情檢測研究,細化文中互聯網輿情研判方法的每個步驟,以加強對高校輿情的引導,預防輿情危機的出現。建設動態監視技術,既能夠實時監視網站,又可以省去時間、經濟成本高昂的數據清理工作。此外,網絡輿情檢測不能止步于詞頻分析,如何確定聚類算法的最優k值、如何提高海量數據的處理速度,也是未來工作的主要研究內容。

猜你喜歡
單詞分類文本
分類算一算
單詞連一連
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
看圖填單詞
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲男人的天堂久久香蕉| 91精品国产一区自在线拍| 欧美视频二区| 欧美激情综合一区二区| 成人福利在线视频| 91在线中文| 思思热在线视频精品| 日韩福利在线视频| 欧美精品一区二区三区中文字幕| 国产成人在线小视频| 久久国语对白| 亚洲香蕉在线| 亚洲综合九九| 精品国产一区二区三区在线观看 | 色老二精品视频在线观看| 国产精品亚洲精品爽爽| 国产日韩精品一区在线不卡| 国产女人在线视频| 国产亚洲精品91| 久久久久久尹人网香蕉| 国产无遮挡猛进猛出免费软件| 国产日韩精品一区在线不卡| 国产午夜看片| 播五月综合| 国产青榴视频在线观看网站| 免费高清自慰一区二区三区| 精品国产福利在线| 99久久国产综合精品女同| 波多野结衣在线se| 亚洲男人的天堂在线| 女人爽到高潮免费视频大全| 欧洲极品无码一区二区三区| 波多野结衣久久高清免费| 亚洲国产一区在线观看| 免费国产一级 片内射老| 欧美一级高清视频在线播放| 亚洲AV电影不卡在线观看| 萌白酱国产一区二区| 丁香婷婷综合激情| 88国产经典欧美一区二区三区| 岛国精品一区免费视频在线观看| 五月婷婷丁香综合| 久久视精品| 国产乱人伦AV在线A| 亚洲浓毛av| 热久久国产| 成人中文在线| 亚洲第一成年网| 国产成人AV男人的天堂| 亚洲精品无码专区在线观看| 91青青草视频| 国产成人h在线观看网站站| 91在线无码精品秘九色APP| 亚洲二三区| a在线观看免费| 亚洲无码免费黄色网址| 亚洲最大看欧美片网站地址| 国产成人久视频免费| 亚洲欧美国产高清va在线播放| 99无码中文字幕视频| 欧美日韩精品一区二区在线线 | 中国精品久久| 午夜精品久久久久久久无码软件| 欧美一区二区自偷自拍视频| 久久亚洲高清国产| 六月婷婷激情综合| 欧美一级99在线观看国产| 欧美中文字幕在线播放| 亚洲无码高清一区二区| 午夜激情婷婷| 免费欧美一级| 啪啪永久免费av| 91精品国产丝袜| 免费欧美一级| 亚洲无码熟妇人妻AV在线| 日韩福利视频导航| 8090成人午夜精品| 99久久国产综合精品2020| 青青草原国产| 91精品aⅴ无码中文字字幕蜜桃 | 亚洲国产综合精品中文第一| 欧美成人精品高清在线下载|