999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞性對新聞以及微博網絡話題檢測的影響研究

2015-08-09 09:39:06繆俊芳
新媒體研究 2015年3期
關鍵詞:特征文本檢測

繆俊芳

(河源廣播電視臺,廣東河源 517000)

話題檢測是一項信息處理技術,它所關心話題是某個具體事件。其目標在于對新話題進行檢測,然后對后續報道進行收集。隨著互聯網飛速發展,話題線索往往會散布在各類網絡平臺上,而不同網絡平臺線索特征不同,傳統新聞文本檢測方法不能完全適用于各網絡平臺,需用詞性檢測方法來適應現代網絡發展。

1 詞性標注與數據處理

1.1 詞性標注

進行實驗需選取相對權威的標注集,目前我國比較權威的詞性標注集主要有北京大學、復旦大學以及中國科學院的文本詞性標注集。根據收集的數據情況,本文選取的是復旦大學漢語文本詞性標注集。然后,需用此標注集標注微博語料與新聞語料。基于命名實體自身特征,本文將其標記為特殊詞性。微博中常用特殊符號有“@”等,為了探究這些符號對話題檢測是否有影響,本文也將這一類符號作為特殊詞性特征。細分詞性有利于文本深層處理,但是詞性特征過細也會影響話題檢測,因而本文處理合并了以上詞性,合并后的詞性如表1所示。

1.2 處理數據過程

根據實驗目的,主要選取新聞和微博兩個數據集作為研究對象。新聞數據集來自于搜狗實驗室,新聞篇數為953,其中108個話題經過了人工標記。微博數據集主要來自數據堂,微博篇數為4 257,其中16個話題被人工標記。新聞語料選用搜狐2008年版本中特別版相關數據進行研究,從而構建新聞數據集,數據集只包含文本內容。微博語料對2013年8月6日到19日的微博數據進行了收集,預處理過程中,對微博正文所有內容進行了保留,然后對各條微博進行標記。

表1 合并后的復旦大學漢語文本詞性標注集

完成語料預處理后,實驗根據以上兩種語料特點,構建了2個詞性空間。進行數據處理首先需利用FudanNLP對兩個數據集中每篇報道進行分詞處理,去掉文本中的標點、運算符以及表情符,當然,包含特殊符號的標點和其他符號不能去掉,對兩個數據集的報道詞集進行構建。然后,需標注報道詞集中的詞,標注時需根據表1中合并詞性進行。最后,按照詞性將2個語料集分成16個不同文檔集,用一種詞性來表示每個文檔中各篇報道。

2 實驗過程以及實驗結構分析

2.1 詞性特征在2種數據集上分布情況

統計2組語料詞性結果表明名詞詞數比例在2組數據集中比例最大。對比每種詞性詞數比例可得出:數次、介詞、連詞、量詞、定位詞、助詞詞性在微博數據集上所占比例低于新聞,其他詞性詞數比例無明顯區別。單從數量分析,各個詞性在單一網絡數據集所占比重與話題劃分后的平均詞數比例基本一致,由此可見,詞性特征分布不隨檢測話題改變。

2.2 網絡話題檢測性能評價方法

本文對話題進行檢測采用的是經典聚類算法。為了保證實驗數據相對準確,設定了108個新聞文檔集類聚個數,16個微博文檔集類聚個數。報道集中文檔被劃分到正確話題的優劣程度是其主要評價方法。本文采用表4方法對話題檢測性能進行評價,其中A、B、C、D表示4種情況下文檔數量。

輸出類-話題類矩陣表

根據評價需求,確定召回率(recall)、準確率(precision)以及宏平均F。它們之間關系為:Recall=A/(A+C),if(A+C)>0;否則無定義。Precision=A/(A+B),if(A+B)>0;否則無定義。F=2×Recall×Precision/(Recall+Precision)

2.3 單一詞性特征對網絡話題檢測影響

根據前面提到的評價方法可以計算出召回率,準確率和F值,得出新聞與微博話題檢測會受詞性特征影響,如果只保留名詞,話題檢測效果最好。命名實體對話題檢測結果和對全部詞性進行保留的檢測結果基本相同,但是其詞數在全部詞性所占比重僅在5%左右,因此,用命名實體檢測話題可以有效降低話題檢測特征維度。同時,動詞對新聞話題檢測的影響比微博話題檢測影響大;量詞、數詞和時間短語對微博話題檢測的貢獻比新聞稍低;形容詞對微博話題檢測的貢獻比新聞要略高;特殊符號和網址可以對微博數據話題進行區分,但是不能對區分新聞報道話題;命名實體和名詞對兩者的話題檢測貢獻度都較大。

根據以上分析,只選取某一種詞性作為文本詞性時,名詞對話題的區分能力最強,命名實體僅次于名詞。動詞對新聞話題進行區分的能力比對微博話題進行區分的能力強,形容詞則對于微博話題的區分能力更強。其他詞性特征雖然也會對以上2種話題產生影響,但是卻遠遠比不上以上這4種詞性。

2.4 組合詞性特征對網絡話題檢測的影響

研究組合詞性對話題檢測的影響目的在于找到一組最佳詞性特征組合,在保證實驗效果的基礎上,最大化降低文本特征緯度。研究組合詞性與話題檢測關系采用的方法是波士頓圖分析法,它可以顯示多種特征在不同標準下對話題的區分能力。為了找到最佳詞性組合,將選取的基準詞性確立為單一詞性中研究效果最好的名詞和命名實體,將波士頓分析過程中區分能力較高的詞性與這兩種詞性進行組合。利用哈爾濱工業大學停用詞表對將這些組合進行停用詞處理,可得出相關檢測結果,即通常情況下,兩個詞性組合成的詞組對話題的區分能力比單一詞性強,但效果不明顯,但兩兩組合詞性區分話題能力又不如多組詞性組合。

通過以上研究可得出如下結論:選取詞性組合檢測話題,名詞或命名實體、時間短語、量詞、數詞以及形容詞的組合對新聞話題檢測具有較好效果,而名詞或命名實體、量詞、形容詞、數詞以及特殊符號與網址的組合對微博語料的檢測效果較好。

3 結束語

綜上所述,無論是單一詞性還是組合詞性都會在一定程度上對新聞和微博這兩類網絡話題的檢測結果造成影響,但是不同詞性以及不同詞性組合對其造成影響的程度又不同。

[1]崔瑞飛,于洪濤,楊赟,等.基于評論樹的微博社區熱門話題檢測方法[J].計算機應用研究,2014(12):3776-3779,3827.

[2]劉瑋,王麗宏,李銳.面向話題的微博網絡測量研究[J].通信學報,2013(11):171-178.

[3]方然,苗奪謙,張志飛.一種基于情感的中文微博話題檢測方法[J].智能系統學報,2013(03):208-213.

猜你喜歡
特征文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 综合亚洲网| 国产97色在线| 亚洲欧美日韩另类| 国产在线精品99一区不卡| 综合亚洲网| 国产精品女熟高潮视频| 精品国产aⅴ一区二区三区| 亚洲男人天堂久久| 99热这里只有成人精品国产| www.亚洲国产| 亚洲欧美精品一中文字幕| 91精品日韩人妻无码久久| 国产色图在线观看| 亚洲swag精品自拍一区| 婷婷亚洲最大| 国产一级毛片网站| 亚洲免费黄色网| 亚洲人在线| 再看日本中文字幕在线观看| 老汉色老汉首页a亚洲| 91丝袜在线观看| 热伊人99re久久精品最新地| 精品亚洲国产成人AV| 视频二区国产精品职场同事| 波多野吉衣一区二区三区av| 亚洲人妖在线| 无码丝袜人妻| 97视频在线精品国自产拍| 亚洲欧美日韩天堂| 亚洲欧美成人综合| 色老二精品视频在线观看| 理论片一区| 99中文字幕亚洲一区二区| 91po国产在线精品免费观看| 亚洲乱码精品久久久久..| 日韩毛片在线播放| 国产91高跟丝袜| 久久综合结合久久狠狠狠97色| 国产成人艳妇AA视频在线| 波多野结衣无码中文字幕在线观看一区二区| а∨天堂一区中文字幕| 伊人福利视频| 欧美人在线一区二区三区| 免费高清a毛片| 中文字幕色站| 欧美怡红院视频一区二区三区| 亚洲成a人片7777| 亚洲精品中文字幕午夜| 老司国产精品视频91| 久久国产香蕉| 久久伊人色| 国产精品高清国产三级囯产AV| 萌白酱国产一区二区| 国产簧片免费在线播放| 亚洲欧美日韩精品专区| 欧美三級片黃色三級片黃色1| 2021国产乱人伦在线播放| 久久中文电影| 成人免费视频一区二区三区| 久久天天躁狠狠躁夜夜2020一 | 亚洲va精品中文字幕| swag国产精品| 午夜无码一区二区三区| 精品撒尿视频一区二区三区| 久久久精品久久久久三级| 丁香五月亚洲综合在线| 亚洲色精品国产一区二区三区| 1级黄色毛片| 蜜芽国产尤物av尤物在线看| 色婷婷久久| 国产亚洲精品资源在线26u| 国产色伊人| 日韩无码白| 久久香蕉国产线看观看亚洲片| 亚洲美女一区| 久久综合九色综合97婷婷| 任我操在线视频| 日本一区二区三区精品国产| 日韩成人在线网站| 国产浮力第一页永久地址| 欧美精品在线观看视频| 欧美色视频网站|