景悅誠, 黃征
(上海交通大學 信息安全與工程學院,上海 200240)
基于語言特征的輿情事件抽取
景悅誠, 黃征
(上海交通大學 信息安全與工程學院,上海 200240)
隨著社交媒體技術的快速發展,人們越來越喜歡在微博這個社交平臺上發布信息。在這僅僅140個字的消息當中,蘊藏著大量嘈雜而有價值的文本信息。尋找一個有效的輿情事件抽取方法也越來越受到人們的關注,事件抽取也成為一個熱門的研究領域。本文采用了一系列的方法用于事件抽取。主要是采用新浪微博作為語料數據,選取金融輿論事件作為事件語料,使用條件隨機場對事件元素生成模型。并在預測結果中加入參數,使得抽取結果的準確率有所提高。
事件抽取;內容安全;中文微博;自然語言處理;條件隨機場
社交網絡在最近幾年得到了飛速發展。如美國的Facebook、Twitter,中國的人人、新浪微博,人們通過這些社交平臺發布他們的想法,共享他們的信息。成立于2009年8月的新浪微博是目前中國最大的微博平臺,目前其擁有的注冊用戶數超5億,月活躍用戶數1.67億[1]。龐大的用戶群背后是每天數以億記的微博信息。微博的操作便利性、低門檻性使得其成為人們日常發布信息的一個途徑。作為現實社會與網絡社會的重要媒介節點,微博中蘊含著海量的信息,分析微博的語義信息、挖掘微博熱點話題、研究微博信息處理技術具有重要的理論意義。在政府管理領域、政策風險評估、網絡輿情分析、商業廣告應用等領域中都有著重要的實用價值。……