999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞性對(duì)新聞以及微博網(wǎng)絡(luò)話題檢測(cè)的影響研究

2015-08-09 09:39:06繆俊芳
新媒體研究 2015年3期
關(guān)鍵詞:特征文本檢測(cè)

繆俊芳

(河源廣播電視臺(tái),廣東河源 517000)

話題檢測(cè)是一項(xiàng)信息處理技術(shù),它所關(guān)心話題是某個(gè)具體事件。其目標(biāo)在于對(duì)新話題進(jìn)行檢測(cè),然后對(duì)后續(xù)報(bào)道進(jìn)行收集。隨著互聯(lián)網(wǎng)飛速發(fā)展,話題線索往往會(huì)散布在各類網(wǎng)絡(luò)平臺(tái)上,而不同網(wǎng)絡(luò)平臺(tái)線索特征不同,傳統(tǒng)新聞文本檢測(cè)方法不能完全適用于各網(wǎng)絡(luò)平臺(tái),需用詞性檢測(cè)方法來適應(yīng)現(xiàn)代網(wǎng)絡(luò)發(fā)展。

1 詞性標(biāo)注與數(shù)據(jù)處理

1.1 詞性標(biāo)注

進(jìn)行實(shí)驗(yàn)需選取相對(duì)權(quán)威的標(biāo)注集,目前我國(guó)比較權(quán)威的詞性標(biāo)注集主要有北京大學(xué)、復(fù)旦大學(xué)以及中國(guó)科學(xué)院的文本詞性標(biāo)注集。根據(jù)收集的數(shù)據(jù)情況,本文選取的是復(fù)旦大學(xué)漢語文本詞性標(biāo)注集。然后,需用此標(biāo)注集標(biāo)注微博語料與新聞?wù)Z料?;诿麑?shí)體自身特征,本文將其標(biāo)記為特殊詞性。微博中常用特殊符號(hào)有“@”等,為了探究這些符號(hào)對(duì)話題檢測(cè)是否有影響,本文也將這一類符號(hào)作為特殊詞性特征。細(xì)分詞性有利于文本深層處理,但是詞性特征過細(xì)也會(huì)影響話題檢測(cè),因而本文處理合并了以上詞性,合并后的詞性如表1所示。

1.2 處理數(shù)據(jù)過程

根據(jù)實(shí)驗(yàn)?zāi)康模饕x取新聞和微博兩個(gè)數(shù)據(jù)集作為研究對(duì)象。新聞數(shù)據(jù)集來自于搜狗實(shí)驗(yàn)室,新聞篇數(shù)為953,其中108個(gè)話題經(jīng)過了人工標(biāo)記。微博數(shù)據(jù)集主要來自數(shù)據(jù)堂,微博篇數(shù)為4 257,其中16個(gè)話題被人工標(biāo)記。新聞?wù)Z料選用搜狐2008年版本中特別版相關(guān)數(shù)據(jù)進(jìn)行研究,從而構(gòu)建新聞數(shù)據(jù)集,數(shù)據(jù)集只包含文本內(nèi)容。微博語料對(duì)2013年8月6日到19日的微博數(shù)據(jù)進(jìn)行了收集,預(yù)處理過程中,對(duì)微博正文所有內(nèi)容進(jìn)行了保留,然后對(duì)各條微博進(jìn)行標(biāo)記。

表1 合并后的復(fù)旦大學(xué)漢語文本詞性標(biāo)注集

完成語料預(yù)處理后,實(shí)驗(yàn)根據(jù)以上兩種語料特點(diǎn),構(gòu)建了2個(gè)詞性空間。進(jìn)行數(shù)據(jù)處理首先需利用FudanNLP對(duì)兩個(gè)數(shù)據(jù)集中每篇報(bào)道進(jìn)行分詞處理,去掉文本中的標(biāo)點(diǎn)、運(yùn)算符以及表情符,當(dāng)然,包含特殊符號(hào)的標(biāo)點(diǎn)和其他符號(hào)不能去掉,對(duì)兩個(gè)數(shù)據(jù)集的報(bào)道詞集進(jìn)行構(gòu)建。然后,需標(biāo)注報(bào)道詞集中的詞,標(biāo)注時(shí)需根據(jù)表1中合并詞性進(jìn)行。最后,按照詞性將2個(gè)語料集分成16個(gè)不同文檔集,用一種詞性來表示每個(gè)文檔中各篇報(bào)道。

2 實(shí)驗(yàn)過程以及實(shí)驗(yàn)結(jié)構(gòu)分析

2.1 詞性特征在2種數(shù)據(jù)集上分布情況

統(tǒng)計(jì)2組語料詞性結(jié)果表明名詞詞數(shù)比例在2組數(shù)據(jù)集中比例最大。對(duì)比每種詞性詞數(shù)比例可得出:數(shù)次、介詞、連詞、量詞、定位詞、助詞詞性在微博數(shù)據(jù)集上所占比例低于新聞,其他詞性詞數(shù)比例無明顯區(qū)別。單從數(shù)量分析,各個(gè)詞性在單一網(wǎng)絡(luò)數(shù)據(jù)集所占比重與話題劃分后的平均詞數(shù)比例基本一致,由此可見,詞性特征分布不隨檢測(cè)話題改變。

2.2 網(wǎng)絡(luò)話題檢測(cè)性能評(píng)價(jià)方法

本文對(duì)話題進(jìn)行檢測(cè)采用的是經(jīng)典聚類算法。為了保證實(shí)驗(yàn)數(shù)據(jù)相對(duì)準(zhǔn)確,設(shè)定了108個(gè)新聞文檔集類聚個(gè)數(shù),16個(gè)微博文檔集類聚個(gè)數(shù)。報(bào)道集中文檔被劃分到正確話題的優(yōu)劣程度是其主要評(píng)價(jià)方法。本文采用表4方法對(duì)話題檢測(cè)性能進(jìn)行評(píng)價(jià),其中A、B、C、D表示4種情況下文檔數(shù)量。

輸出類-話題類矩陣表

根據(jù)評(píng)價(jià)需求,確定召回率(recall)、準(zhǔn)確率(precision)以及宏平均F。它們之間關(guān)系為:Recall=A/(A+C),if(A+C)>0;否則無定義。Precision=A/(A+B),if(A+B)>0;否則無定義。F=2×Recall×Precision/(Recall+Precision)

2.3 單一詞性特征對(duì)網(wǎng)絡(luò)話題檢測(cè)影響

根據(jù)前面提到的評(píng)價(jià)方法可以計(jì)算出召回率,準(zhǔn)確率和F值,得出新聞與微博話題檢測(cè)會(huì)受詞性特征影響,如果只保留名詞,話題檢測(cè)效果最好。命名實(shí)體對(duì)話題檢測(cè)結(jié)果和對(duì)全部詞性進(jìn)行保留的檢測(cè)結(jié)果基本相同,但是其詞數(shù)在全部詞性所占比重僅在5%左右,因此,用命名實(shí)體檢測(cè)話題可以有效降低話題檢測(cè)特征維度。同時(shí),動(dòng)詞對(duì)新聞話題檢測(cè)的影響比微博話題檢測(cè)影響大;量詞、數(shù)詞和時(shí)間短語對(duì)微博話題檢測(cè)的貢獻(xiàn)比新聞稍低;形容詞對(duì)微博話題檢測(cè)的貢獻(xiàn)比新聞要略高;特殊符號(hào)和網(wǎng)址可以對(duì)微博數(shù)據(jù)話題進(jìn)行區(qū)分,但是不能對(duì)區(qū)分新聞報(bào)道話題;命名實(shí)體和名詞對(duì)兩者的話題檢測(cè)貢獻(xiàn)度都較大。

根據(jù)以上分析,只選取某一種詞性作為文本詞性時(shí),名詞對(duì)話題的區(qū)分能力最強(qiáng),命名實(shí)體僅次于名詞。動(dòng)詞對(duì)新聞話題進(jìn)行區(qū)分的能力比對(duì)微博話題進(jìn)行區(qū)分的能力強(qiáng),形容詞則對(duì)于微博話題的區(qū)分能力更強(qiáng)。其他詞性特征雖然也會(huì)對(duì)以上2種話題產(chǎn)生影響,但是卻遠(yuǎn)遠(yuǎn)比不上以上這4種詞性。

2.4 組合詞性特征對(duì)網(wǎng)絡(luò)話題檢測(cè)的影響

研究組合詞性對(duì)話題檢測(cè)的影響目的在于找到一組最佳詞性特征組合,在保證實(shí)驗(yàn)效果的基礎(chǔ)上,最大化降低文本特征緯度。研究組合詞性與話題檢測(cè)關(guān)系采用的方法是波士頓圖分析法,它可以顯示多種特征在不同標(biāo)準(zhǔn)下對(duì)話題的區(qū)分能力。為了找到最佳詞性組合,將選取的基準(zhǔn)詞性確立為單一詞性中研究效果最好的名詞和命名實(shí)體,將波士頓分析過程中區(qū)分能力較高的詞性與這兩種詞性進(jìn)行組合。利用哈爾濱工業(yè)大學(xué)停用詞表對(duì)將這些組合進(jìn)行停用詞處理,可得出相關(guān)檢測(cè)結(jié)果,即通常情況下,兩個(gè)詞性組合成的詞組對(duì)話題的區(qū)分能力比單一詞性強(qiáng),但效果不明顯,但兩兩組合詞性區(qū)分話題能力又不如多組詞性組合。

通過以上研究可得出如下結(jié)論:選取詞性組合檢測(cè)話題,名詞或命名實(shí)體、時(shí)間短語、量詞、數(shù)詞以及形容詞的組合對(duì)新聞話題檢測(cè)具有較好效果,而名詞或命名實(shí)體、量詞、形容詞、數(shù)詞以及特殊符號(hào)與網(wǎng)址的組合對(duì)微博語料的檢測(cè)效果較好。

3 結(jié)束語

綜上所述,無論是單一詞性還是組合詞性都會(huì)在一定程度上對(duì)新聞和微博這兩類網(wǎng)絡(luò)話題的檢測(cè)結(jié)果造成影響,但是不同詞性以及不同詞性組合對(duì)其造成影響的程度又不同。

[1]崔瑞飛,于洪濤,楊赟,等.基于評(píng)論樹的微博社區(qū)熱門話題檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2014(12):3776-3779,3827.

[2]劉瑋,王麗宏,李銳.面向話題的微博網(wǎng)絡(luò)測(cè)量研究[J].通信學(xué)報(bào),2013(11):171-178.

[3]方然,苗奪謙,張志飛.一種基于情感的中文微博話題檢測(cè)方法[J].智能系統(tǒng)學(xué)報(bào),2013(03):208-213.

猜你喜歡
特征文本檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产精品理论片| 国产丝袜啪啪| 亚洲欧美一区二区三区蜜芽| 亚洲一区无码在线| 她的性爱视频| 国产成人一区免费观看| 欧美一级特黄aaaaaa在线看片| 国产区免费| 欧美日韩北条麻妃一区二区| 女人18一级毛片免费观看| 久久久精品久久久久三级| 五月婷婷伊人网| 欧美三级日韩三级| 精品无码一区二区三区电影| 国产精品真实对白精彩久久| 在线观看亚洲国产| 91成人在线观看| 国产美女91呻吟求| 国产一在线| 国产美女久久久久不卡| 亚洲AV成人一区二区三区AV| 新SSS无码手机在线观看| 国产麻豆aⅴ精品无码| 超碰色了色| 中文无码毛片又爽又刺激| 国产毛片片精品天天看视频| 亚洲色欲色欲www在线观看| 欧美另类视频一区二区三区| 国产乱码精品一区二区三区中文| 国产亚洲欧美在线中文bt天堂| 国产XXXX做受性欧美88| 国产区成人精品视频| 青青草国产精品久久久久| 婷婷色丁香综合激情| 伊人色综合久久天天| 午夜国产大片免费观看| 午夜日b视频| 亚洲天堂高清| 欧美a在线看| 欧美视频免费一区二区三区| 四虎影视8848永久精品| 亚洲精品在线观看91| 夜夜高潮夜夜爽国产伦精品| 亚洲精品视频网| 亚亚洲乱码一二三四区| 国产电话自拍伊人| 国产黄色爱视频| 人妻一区二区三区无码精品一区| 久久亚洲精少妇毛片午夜无码| 免费a在线观看播放| 色天天综合| 91青青在线视频| 午夜国产精品视频| 亚洲天堂在线免费| 国产地址二永久伊甸园| 国产成人精品第一区二区| 奇米影视狠狠精品7777| 欧美第九页| 久久久波多野结衣av一区二区| 国产偷倩视频| 日韩精品无码一级毛片免费| 99国产在线视频| 免费va国产在线观看| 91麻豆精品视频| 色爽网免费视频| 五月天丁香婷婷综合久久| www.亚洲一区| 亚洲床戏一区| 在线国产欧美| 丝袜国产一区| 九九久久精品免费观看| julia中文字幕久久亚洲| 国产内射一区亚洲| 亚洲视频在线青青| 无码国产伊人| 97免费在线观看视频| 亚洲成a人片在线观看88| 国产69精品久久久久妇女| 免费a级毛片18以上观看精品| 操美女免费网站| 久久精品人人做人人爽电影蜜月 | 精品无码国产自产野外拍在线|