999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯網時代輿情信息的搜集與分類管理研究

2020-12-08 09:30:18劉羽
魅力中國 2020年21期
關鍵詞:搜索引擎檔案管理文本

劉羽

(鄭州升達經貿管理學院,河南 鄭州 450000)

一、輿情數據收集是檔案信息收集的基礎

當前,互聯網輿情數據收集系統主要包含三種數據收集技術:人工收集、搜索引擎收集和第三方互聯網機構定向收集。人工收集是指通過人工瀏覽網絡平臺,通過人工監測獲取有價值的數據和信息,經匯總、分析后觀察社會輿論走勢。人工收集是當前檔案管理人員較常用的輿情數據檔案信息收集方式之一。

搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據CNNIC 發布的《2018 年中國網民搜索行為研究報告》顯示:百度日均搜索量超過50 億人次,截至2018 年12 月,搜索引擎是中國網民的最基礎應用,百度搜索滲透率為97.4%,使用率略遜于即時通信。人工收集和搜索引擎收集是當前比較常用的互聯網輿情收集技術,但是這兩種收集方式的缺點是可提取關鍵信息的文本內容都比較短,容易因為數據稀疏導致在做相關運算時出現準確率和推薦召回率不高的狀況。克服這一技術難題的方法借助第三方互聯網輿情機構定向采集,通過對核心詞的外拓實現了準確率和推薦召回率的同步提升。

二、輿情數據預處理是檔案信息收集的前提。

第一,對文本進行預處理。文本預處理是對通過輿情采集器收集的未加工的Web 網頁進行初步處理,再對經初步處理過的網頁文本進行發現話題和數字建模,文本預處理最重要的環節是進行特征選擇和中文分詞。中文分詞對命名實體進行識別,采用 ICTCLAS 系統對所獲語料標注詞性和進行中文分詞,基于詞頻提煉出web模型的特征向量對中文分詞后的文本語料庫進行向量化分析。分詞技術是針對提交查詢的關鍵詞串進行處理,將收集到的網頁文本內容轉化為結構化向量。

第二,對話題進行檢測。對文本經過預處理后的文本語料庫形成了擴展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對文本進行話題檢測和聚類,對文本內容分析的深度決定了聚類技術的效果,聚類技術的功能在于挖掘熱點話題。一般情況下,可提取關鍵信息的文本內容都比較短,容易因為數據稀疏導致在做相關運算時出現準確率和推薦召回率難以權衡的狀況。克服這一技術難題的方法就是引入詞擴展技術,通過對核心詞的外拓實現了準確率和推薦召回率的同步提升。詞擴展技術是指利用特定算法對原始文本向量進行處理,使原始數據中的鄰近對象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進一步劃分為多個“微簇”,利用特定算法,對“微簇”進行二次聚類,用滿足一定的閾值要求、質量較高的核心對象代表“微簇”。

第三,利用話題綜合評價標準對話題進行過濾。運用語義識別技術,對之前采集的數據信息進行更深一步的過濾識別,通過對數據信息中句子的結構、語法及部分關鍵詞的詞義進行過濾處理,從而將信息轉化為人們常用的語言,將大量復雜的信息簡單化。從進行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進行組合,通過結構化分析獲取中心詞組,計算中心詞組所涉及的文本數量,運算模塊根據文本參數進行加權計算,統計熱門關鍵詞組的文本數量,獲取熱門關鍵詞組的熱度值。

三、加強互聯網輿情數據檔案信息跨維度動態管理

(一)構建互聯網輿情數據檔案信息管理跨維度互動模式。

“趨勢與定向判斷是網絡輿情分析與分類的核心,是應對與引導的依據,根據匯總到的輿情信息,通過系統的分析,做出關于輿情發展趨勢與走向的基本判斷,這一判斷主要是在定量基礎上得出的定向判斷?!睓n案管理人員應將互聯網輿情大數據檔案管理與互聯網內容治理相結合,讓數據流顯現關聯;將互聯網輿情大數據檔案管理與政府科學決策相結合,讓信息流暢通無阻;將互聯網輿情大數據檔案管理和輿情日常管理相結合,讓輿情流和諧運轉。

(二)構建互聯網輿情數據檔案信息多元管理模式

傳統檔案管理結構模式中公眾的參與度比較低。大數據時代為輿論的快速形成和公眾對公共事務話語權的表達提供了討論空間,由單一主體治理變為多元主體治理,多元主體治理的基本結構體現了混合的特點,多元主體治理的邊界與范圍不是簡單的信息關聯和多元混合。互聯網和大數據技術拓寬了檔案管理的內容,改變了檔案管理人員和民眾的連接與互動方式,因此需要尋求一種新的檔案管理模型和良性互動的連接機制來消解傳統檔案管理成長的困境。

(三)構建互聯網輿情數據檔案信息管理回應指標體系

警惕輿情動態在復雜的演進過程中出現的不和諧因素,準確界定輿情等級,通過級別劃分、輿情聚類、有效處置和事后評估構建輿情回應的指標體系,通過行為干預及早進行有效處置,匯編典型事件檔案庫。檔案管理人員應從追問事實到反思制度,從線上輿論和線下互動的有效對接到挖掘方法和社會洞察的有效結合,構建互聯網輿情檔案管理回應指標體系,改進和完善檔案管理中的制度性、結構性問題。

猜你喜歡
搜索引擎檔案管理文本
在808DA上文本顯示的改善
檔案管理中的電子檔案管理
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
檔案管理與企業內部控制關系的思考
消費導刊(2017年24期)2018-01-31 01:29:20
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
健康檔案管理的“云”前景
中國衛生(2014年11期)2014-11-12 13:11:34
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 黄色网在线| 亚洲成A人V欧美综合| 国产国产人成免费视频77777| 国产精品亚洲va在线观看| 国产精品福利尤物youwu| 九色视频在线免费观看| 国产91高清视频| 亚洲大学生视频在线播放| 日本不卡视频在线| 熟妇丰满人妻| 五月天丁香婷婷综合久久| 国产精品成人不卡在线观看| 干中文字幕| 欧美区一区| 国产人成在线视频| 午夜激情婷婷| 熟妇无码人妻| 亚洲码在线中文在线观看| 凹凸国产分类在线观看| 免费a级毛片视频| 色久综合在线| 99人体免费视频| 欧美亚洲激情| 亚洲人成成无码网WWW| 国产精品999在线| 久草性视频| 67194在线午夜亚洲| 波多野结衣AV无码久久一区| 婷婷综合缴情亚洲五月伊| 精品久久久久久成人AV| 欧美日在线观看| 日本www色视频| V一区无码内射国产| 二级特黄绝大片免费视频大片| 亚洲乱伦视频| 91在线一9|永久视频在线| 亚洲精品自在线拍| 日本不卡在线| 中国一级特黄大片在线观看| 天堂成人av| 精品国产Av电影无码久久久| 激情综合五月网| 国产精品毛片一区视频播| 18禁影院亚洲专区| 国产精品30p| 亚洲综合片| 三上悠亚一区二区| 久久久久久久97| 亚洲天堂成人| 强乱中文字幕在线播放不卡| 国产精品19p| 久久a级片| 亚洲码在线中文在线观看| 亚洲AⅤ永久无码精品毛片| 国产精品亚洲一区二区三区z | 一级毛片免费观看久| 成人在线不卡| 欧美日韩激情在线| h网站在线播放| 凹凸精品免费精品视频| 人与鲁专区| 自拍欧美亚洲| 国产在线自在拍91精品黑人| 亚洲第一中文字幕| 午夜限制老子影院888| 秋霞国产在线| 日韩成人免费网站| 久久久久亚洲AV成人网站软件| a级毛片一区二区免费视频| 国产麻豆永久视频| 久草国产在线观看| 综合色婷婷| 亚洲视频无码| 日韩AV无码一区| 夜夜拍夜夜爽| 1024国产在线| 国产精品lululu在线观看 | 九月婷婷亚洲综合在线| 久久精品国产91久久综合麻豆自制| 亚洲精品国产精品乱码不卞| 伊人五月丁香综合AⅤ| 18禁不卡免费网站|