999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微博信息的輿情語料庫構建與應用研究*

2016-12-27 09:15:20楊麗英
辦公自動化 2016年22期
關鍵詞:用戶信息研究

楊麗英

(山西大學商務學院信息學院太原030031)

基于微博信息的輿情語料庫構建與應用研究*

楊麗英

(山西大學商務學院信息學院太原030031)

隨著互聯網技術的成熟以及Web的飛速發展,微博,微信等社交網絡已經成用戶情緒反饋、情感溝通的重要輿論渠道,因此社交網絡輿情的分析處理成為國內外研究熱點之一。針對微博內容以及在線評論進行語料收集和初步整理,構建微博輿情語料庫,并且對語料庫的應用方面進行了探討。.

微博文本 輿情信息 語料庫構建

一、引言

隨著我國民主化進程的推進,國內外發生的一般或重大突發事件,都能夠在互聯網上引起絕大多數網民的持續關注,公眾對某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點形成一定的輿情。因此,網絡輿情已經成為影響社會治理的一支重要力量。網絡輿情是主要通過微博,BBS論壇、新聞跟貼、轉貼,微信公眾平臺等實現并加以強化。對微博輿情的研究不斷擴大,有情報學方面的研究,也有計算機語言處理方面的研究。

語料庫和詞典作為自然語言信息處理方向重要的基礎資源,與信息技術之間有著相輔相成的關系。中文語料庫經過近幾年的發展,在建設與應用方面都做了大量的工作。同時,由于社交網絡的出現,短文本形式的信息大量涌入人們的生活中。這就意味著傳統的語料庫已經不足以應付現在的理論研究,傳統的研究方法在短文本分類上也體現出缺陷和不足[1]。而大規模的短文本語料涵蓋了人們對各種化會現象中的各種立場與觀點,因此在輿情調查、熱點話題題的挖掘發現、新詞發現、話題識別等領域有著重要的應用前景。所以,微博輿情語料庫的構建對于信息處理領域是一個十分重要的研究方向。

本文針對各種專業短文本語料庫和通用短文本語料庫的缺少,構建小規模的微博輿情信息實驗語料庫。通過新浪API獲取微博短文本數據,搜集微博信息。并對語料庫進行一定的加工處理,如分類類別、主題和內容建模構建等工作。最后,對構建的語料庫應用進行探討。

二、微博輿情語料庫的構建分析

1、微博及微博輿情含義

微博,又稱微型博客,是一個基于社交網絡關系的信息獲取、分享和傳播的平臺。用戶以140字(含標點字符)為限更新信息,以互聯網和關注機制為基礎,實現信息的即時發布和快速傳播。

微博輿情是指個人或者各種社會群體、組織,通過微博平臺對自己關心或與自身利益緊密相關的各種公共事務所表達的多種情緒、態度和意見的總和[1]。一系列如“山東疫苗案”、“魏則西事件”以及“南海仲裁案”等微博輿情事件,若不能及時被識別和引導,將會對網絡環境甚至社會穩定造成嚴重危害。

2、建設微博輿情語料庫的意義

微博等社交網絡已經成為媒體傳播、信息發布、用戶情緒反饋、情感溝通的重要渠道,越來越多的用戶喜歡發布微博來分享他們的觀點和情感,龐大的用戶群以及由此產生的海量信息蘊含著巨大的社會價值和商業價值,同時也為自然語言處理研究帶來了新的機遇和挑戰。

微博輿情語料庫的建立是適應城市信息化建設的需求。第一,通過該語料庫可以盡早地、準確地、全面地掌握微博輿情發生情況和發展趨勢,為相關政府及時采取應急措施以及引導輿論方向等提供科學決策依據;第二,為計算語言學等自然語言處理關于微博信息的研究提供語料資源。

三、微博輿情語料庫的組織

1、微博輿情語料的收集

本文研究的微博語料庫,選取新浪微博內容作為原始標注語料,相對于其他語料庫,本文微博語料文本的選擇原則是所屬領域無關,事件分布面廣。在選取的過程中從2016年1月至2016年12月,共12個月的數據中進行隨機選取,同時每個月選取的微博數量大致相同,結合人工處理,留下格式較為規范的微博作為原始標注語料

對于挖掘處理、數據分析,自然語言處理而言,數據的提取都是首要一步。數據抓取技術目前有很多,主要的web數據抓取技術[2]有:

(1)基于API進行數據采集,一般來說,各網站提供的API的語言支持有多種類型,如Java Script API、C語言python script API等,同時包含的類別豐富,每個類別的使用方法和屬性都有詳細的文檔介紹。目前,提供網絡接口API來共享數據的形式也成為數據共享的一個典型代表;

(2)網絡爬蟲,爬蟲技術能夠智能的提取并挖掘網絡數據,網絡爬蟲的工作原理是通過程序獲取頁面的源文件,然后采用其中一個URL作為起點再逐一的獲取各網頁上的數據內容,即通過從某一頁面捕獲數據的同時也獲取頁面上的其他鏈接。然后重復之前的操作過程,直到將所有的網頁都抓取完成。

本文通過新浪API提供的各種接口結合網絡爬蟲獲取短文本微博數據。

2、微博輿情信息分類原則

分類對于語料庫建設來說是必不可少的一部分,對每篇文檔進行類別標注首先要規定整個語料庫的類別。本語料庫分為9個類別:娛樂、體育、政治、科技、音樂、房產、環保、醫療健康、其它等。

3、微博采集內容

以新浪微博作為研究平臺,分析知微博中的信息主要劃分為兩大類:一類是用戶信息,另一類是微博信息。其中,用戶信息主要包括用戶所在地,用戶擁有粉絲數,用戶所發微博數,用戶的認證類別;微博信息是指微博用戶發表的一篇微博的信息集合,包括微博正文、微博屬性信息、微博引用信息。其中微博的屬性信息包括微博發布時間、發布渠道、微博轉發及評論次數;這里發布渠道指發布微博的各類終端,包括各類手機客戶端,計算機網頁客戶端,例如:iPhone,Android等;轉發次數為數字表示,記錄的是該微博被直接轉發的次數;評論次數也是數字表示,是針對該微博發表評論的用戶數目;微博的引用信息是微博引用的原始微博項的信息,包含被引用微博的除時間和發布渠道外的其他信息。具體內容如表1所示。

表1 微博內容

4、微博輿情語料編碼

編碼是對信息進行分類標引和檢索的工具,本文的編碼從微博特點和語料庫兩方面入手,并參考了《中文新聞信息分類及代碼》以及人民日報語料庫編碼規則[3],以方便計算機檢索、計算和管理。

一篇微博信息的完整編碼為:類目編碼+微博編碼,全部代碼共12位,具體為:分類號(1位字母)+日期編號(8位數字)+微博編號(3位數字)。例如:編號為A20160314000的新聞語料。它表示娛樂類(A)中微博,發布時間是2016年3月14日,文檔編號000表示是此事件的第一篇微博。

5、微博輿情語料的加工處理

微博語料的加工處理數據的預處理需要進行分詞,詞性標注,采用已有的分詞工具進行,還需要清除網頁上的噪音數據,例如:用戶賬號:表情符號,URL,最后通過進行詞頻統計,去除停用詞等。具體過程如圖1所示。

四、突發事件新聞語料庫的典型應用

1、微博輿情話題識別和追蹤方法研究數據支撐

根據微博輿情語料庫,可以構建話題模型,調整話題特征項,進而對突發事件進行在線識別;可以訓練文本識別模型,從自動學習和統計規律等研究。另外,語料庫的構建可以為推薦系統、信息挖掘系統、智能決策系統、檢索工具等提供第一手數據資料和實踐基礎。

2、微博輿情語料庫在城市智能信息研究中的應用探討

作為一種嘗試,在My Eclipse平臺上,采用Java語言,建設微博輿情話題識別和追蹤平臺,通過語料庫的實現了:用可視化的方法實現了數據的獲?。徊⑶彝ㄟ^微博輿情話題和追蹤平臺進行微博輿情監測,獲悉微博輿情的發展,進行有效引導、掌控其發展態勢,引導微博熱點話題的走向,及時發現微博輿情危機,最大程度減少社會負面影響,緩和微博輿情不良形勢,穩定社會安全,促進我省和諧社會的建設和發展

五、結語

本文以微博輿情信息為背景,把中文信息處理技術、智能信息檢索與機器學習方法結合在一起,研究了微博語料庫的組織、加工處理方法、分類體系和編碼等內容。研究結果對語料庫的建設、以及為相關政府及時采取應急措施并引導輿論方向等提供科學決策依據。

[1]李明德,張宏邦.微博輿情:模式、表征與趨勢[J].情報雜志,2013(7):49-53.

[2]吳文岫.短文本分類語料庫的構建及分類方法的研究[D].安徽大學,2015.

[3]俞士汶,段慧明,朱學峰,等.北京大學現代漢語語料庫基本加工規范[J].中文信息學報,2002,16(5):49-64.

[4]陳向陽,陳麗萍,姜振國.基于API接口的騰訊微博數據挖掘[J].現代計算機(專業版),2015,09:47-50.

[5]黃斯琪.基于微博平臺的社交網絡輿情分析方法[D].南京郵電大學,2015.

[6]莫祖英.微博信息研究熱點分析[J].圖書館學研究,2015,06:2-8.

Research on the Establishment and Applications of Public Sentiment Corpus Based on Micro-blog Information

Yang Liying
(Information Faculty,Business College of Shanxi University Taiyuan 030031)

With the rapid development of Internet technology and Web,micro-blog,WeChat,etc,social networks have become an important source for public users emotional feedback,emotional communication.The social network public opinion analysis has become one of the hot research both at home and abroad.In this paper,according to the micro-blog content and online reviews,collection and reorganize data,build micro-blog public opinion corpus,discuss the application of the corpus.

Micro-blog textPublic sentiment information Corpus construction

G206

A

161103-7411

1、2015年山西大學商務學院科研基金項目《面向微博高校網絡輿情熱點話題識別方法研究》(2015010)

2、2016年山西省重點研發計劃項目《微博輿情話題識別與追蹤方法研究及平臺構建》(201603D321112).

楊麗英(1982~),女(漢族),山西省太原市人,山西大學商務學院教師,碩士學位,研究方向:計算機應用技術。

猜你喜歡
用戶信息研究
FMS與YBT相關性的實證研究
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲五月激情网| 色精品视频| 手机在线免费不卡一区二| 亚洲国产精品VA在线看黑人| 婷婷综合亚洲| 色成人综合| 无遮挡国产高潮视频免费观看| 中文字幕中文字字幕码一二区| 91美女视频在线观看| 国产精品无码翘臀在线看纯欲| 日韩a在线观看免费观看| 亚洲区一区| 色综合久久综合网| 免费看黄片一区二区三区| 国产精品第一区在线观看| 免费福利视频网站| 成人在线观看一区| 谁有在线观看日韩亚洲最新视频| 亚洲成网站| 91国内外精品自在线播放| 久久a毛片| 韩国v欧美v亚洲v日本v| 欧美成人综合在线| 在线国产欧美| 国产内射一区亚洲| 亚洲黄网视频| 午夜啪啪网| 国产成人综合日韩精品无码不卡| 黄片在线永久| 日韩美毛片| 91福利免费| 茄子视频毛片免费观看| 91免费片| 91国内在线视频| 国产亚洲精品在天天在线麻豆| 热re99久久精品国99热| 国产va在线观看免费| 青青久视频| 亚洲第一成年网| 国产97公开成人免费视频| 国产高清不卡视频| 亚洲精品另类| 欧美笫一页| 国产午夜不卡| 三级视频中文字幕| 中文字幕永久视频| 免费毛片视频| 欧美日韩另类在线| 亚洲女同一区二区| 久久影院一区二区h| 色综合天天视频在线观看| 毛片手机在线看| 在线免费无码视频| 久久精品国产国语对白| 一级香蕉人体视频| 国产网站一区二区三区| 亚洲不卡无码av中文字幕| 久久久久国产一区二区| 国产麻豆精品在线观看| 午夜国产在线观看| 青草视频在线观看国产| 国产亚洲欧美日本一二三本道| 57pao国产成视频免费播放| 91av成人日本不卡三区| 2022国产无码在线| 国产69精品久久久久妇女| 国产精品 欧美激情 在线播放| 日韩午夜片| 国产一区二区三区在线精品专区| 亚洲成A人V欧美综合| 伊人无码视屏| 亚洲国产成人在线| 日韩免费视频播播| 国产99热| 亚洲日本精品一区二区| 91小视频版在线观看www| 四虎永久免费地址| 乱人伦视频中文字幕在线| 久久精品国产一区二区小说| 亚洲视频二| 国产乱人乱偷精品视频a人人澡| 久久精品人妻中文系列|