999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博話題發現技術國內外研究現狀

2022-01-01 16:25:38劉雅筠
科教導刊·電子版 2021年5期
關鍵詞:詞匯檢測模型

劉雅筠

(長沙南方職業學院 湖南·長沙 410208)

在眾多形式的在線社交網絡應用中,以微博為代表的社會化新媒體的發展更是舉世矚目。微博類應用以其快速的信息傳播能力,廣泛的用戶參與特性以及顯著的自媒體特征,為信息傳播掀起了劃時代的變革浪潮,形成了深遠的社會影響。例如近年來我國頻繁發生了多起突發公共事件,這些事件均能在微博中找到對應的第一手信息。另一方面,與及時發布的事件信息同時出現在微博這一平臺上的還有洶涌的輿論,即公眾對事件的看法、意見、態度等信息。社會輿論在微博上不斷匯集,逐漸形成了不可小覷的民意力量,進而又推動事件進一步向前發展,這在近年來發生的事件中屢見不鮮。現實世界中的事件與虛擬世界中的微博信息之間是如何相互作用、相互影響的,逐漸成為了一個重要且富有挑戰性的研究課題。

話題發現與跟蹤技術在國內外都有著長足的研究。社會的生產生活秩序由各行各業的緊密關聯所維系,因而處在社會一環的群體或個體都需要準確把握社會動態,其中尤為重要的是洞察和掌握公共事件的發生與發展。例如政府機構關注于突發的群體性事件以及可能引發它的重大輿情事件;公司企業關注于影響品牌市場的商業行為以及業務領域的最新動態等等。而了解和引導社會輿論的走向更是把握公共事件的重中之重,例如政府關注民生,問政于民,又如企業服務客戶,營銷品牌等,都離不開對公共事件中的社會輿論進行準確的分析。因此研究和分析公共事件和社會輿論對政治經濟生活都有重要的現實意義。

1 國外研究現狀

20世紀90年代末,由美國國防高等研究計劃署(Defense Advanced Research Projects Agency,DARPA)發起,馬薩諸塞大學阿莫斯特分校(University of Massachusetts at Amherst),卡耐基-梅隆大學(Carnegie Mellon University,CMU),Dragon Systems等研究機構共同參與制定和設計了話題檢測與跟蹤任務及評測體系(Topic Detection and Tracking,TDT)。

TDT將這些語料按照話題進行標注。為了盡可能消除概念上的歧義,TDT對話題、活動、事件做了如下非形式化的定義:

事件(Event):發生在特定時間、地點的事,有著必要的前提條件和不可避免的結果;

活動(Activity):具有共同焦點或目的,發生在特定時間、地點的相關事件的集合;

話題(Topic):一個事件或活動及直接與其相關的事件和活動。

這一定義明確了話題和事件的結構關系,認為話題是由相互關聯的事件構成的。但實際研究中由于話題這一概念的外延很難確定,有時會把話題與事件的概念不加區分地相互替代。例如在TDT的前瞻性研究(Pilot study)中,將話題這一概念進行了狹化,選擇了25個事件作為目標話題,因而研究中話題與事件的概念等同。

基于標注好的語料庫,TDT提出了多項基本任務。例如1996年基于TDT-Pilot語料庫,研究者提出的任務分別是:

(1)報道切分任務(The Segmentation Task):將連續的文本流依報道邊界進行切分;(2)事件檢測任務(The Detection Task):在目標事件信息未知的情況下檢測出事件;(3)回顧事件檢測(Retrospective Event Detection):檢測出語料庫新聞報道中的所有事件,即將新聞報道按事件進行劃分;(4)在線新事件檢測(On-line New Event Detection):在新聞報道流中檢測出新事件,即檢測討論了新事件的首篇新聞報道;(5)事件跟蹤任務(The Tracking Task):給定已知事件,檢測出所有討論相同事件的新聞報道。

隨著研究的深入,TDT研究任務也發生著變化。一些任務的內容發生微調,一些任務由于需求降低逐漸淡出,而又有一些新的任務被補充進來。例如基于TDT-4語料庫,研究任務主要劃分為:

(1)新事件檢測(New Event Detection):檢測報道流中每個話題的首次出現;(2)話題檢測(Topic Detection):檢測預先未知的話題;(3)話題跟蹤(Topic Tracking):在流中檢測出討論目標話題的報道;(4)關聯檢測(Link Detection):判斷兩篇報道是否討論同一話題。

2004年,基于TDT-5語料庫,研究者又引入了有監督的自適應話題跟蹤(Supervised Adaptive Topic Tracking)與層次式話題檢測(Hierarchical Topic Detection)兩項實驗性任務。前者旨在讓話題模型隨著話題的演化自動更新,后者則嘗試建立層次化的話題模型。

Trieschnigg等定義了層次式話題檢測這一任務,提出用XML描述有向無環圖的標準,并提出用話題的檢測損耗函數和圖中遷移邊的檢測損耗函數二者的加權平均值來度量檢測方法的優劣。Allan等基于TDT-3和TDT-5語料庫提出了一種可伸縮的層次式話題結構:首先從語料庫中采樣獲得種子文檔,然后通過種子文檔構建層次類簇結構,再通過優化代價函數得到種子文檔的二叉樹,最后將剩下的文檔聚攏到先前得到的層次結構中完成構建。

早期的研究中,報道的所有詞匯特征被同等對待,反映在同一個向量空間中。例如 Schultz等設計的話題跟蹤系統首先從單個報道或多個報道中選擇話題特征詞,利用tfidf特征值將報道映射到向量空間中,再通過計算向量與話題間的余弦夾角度量報道間的相似性。

很快研究者發現,單一的向量表示忽略了詞匯在報道中重要性及語義的差異,一些研究者遂將自然語言處理中的研究成果運用在話題模型的建立上。張曉艷等將自然語言處理中的命名實體識別技術引入到新事件檢測中,將每篇報道轉化為三種詞匯特征向量,一種只由報道中的命名實體構成,一種只由報道中的話題詞構成,一種由全部詞匯構成。通過三類特征訓練支持向量機,從而將新事件檢測轉化為二元分類任務。隨后又對全文詞匯向量,命名實體向量,非命名實體向量三種表達方式在TDT-3和TDT-4語料庫上進行了比較,發現命名實體在一些語料中起到很好的區分作用,而在另一些語料中則效果完全相反,提出“命名實體是一把雙刃劍”的論斷。Lavrenko等將單一的事件向量分解為四個子向量,用四種不同類型的詞匯表征,分別是:人物機構指示詞,地點位置指示詞,時間日期指示詞和事件指示詞。將時間表達式進行形式化,并利用本體知識對地點信息進行擴展,進而應用在話題檢測中。

2 國內研究現狀

2004年,基于TDT-5語料庫,研究者提出了層次式話題檢測(Hierarchical Topic Detection,HTD)這一新任務,任務的目標是將無結構的新聞報道組織成有向無環圖(Directed Acyclic Graph,DAG)的形式以表達話題。Tan等針對TDT-5語料庫中多來源多語種的語料采用了先從來自同一語種、同一來源的新聞流中采用1-NN的聚類方法抽取事件鏈,再采用凝聚式聚類方法將不同語種和來源的多條事件鏈按時間進行對齊和合并,構成層次結構。

大多數TDT方法都可用于離線處理,例如Zhang等提出以事件為核心的新聞報道產生式模型,從內容和時序兩個角度入手,抓住多個媒體會對同一事件發表許多冗余報道這一特點,依據概率分布特征發現事件,在語料中回顧式地檢測話題。而另一方面,適用于在線處理的方法相對較少,尤其是只有少數概率模型適用于在線處理,這一空缺成為近年來研究的熱點。例如吳斌等提出的在線文檔聚類的概率模型采用了狄里克萊過程對類簇的增長進行了建模,用英語語言模型判斷新類簇的產生。

微博是公眾廣泛參與的社交媒體平臺,若將微博流視為一種特殊的新聞報道流,則可以將很多TDT中的研究方法推廣到微博中。Lin等提出和比較了直接模型、兩步流水線模型和兩步混合模型等三種模型檢測Twitter中諸如奧巴馬獲得諾貝爾和平獎等具有爭議性的事件。

Deng等使用Tibetan網絡中的標簽訓練話題模型,利用分類器從微博流中鑒別話題。通過實驗對前景模型、背景模型的平滑技術和歷史信息的組織方式進行了評測。

Shiwen等在兩狀態自動機模型上加以改進,提出了一種話題多樣性的度量方法從檢測結果中提煉具有新聞報道價值的突發特征,又提出用上下文模型為突發特征賦以有意義的標簽,增強突發特征的可解釋性。

在Weng等針對Twitter的博文數據量大,噪音多的特點,提出了一種基于小波信號分析的事件檢測方法(EDCoW),首先應用小波分析方法對每個詞匯構造信號流,根據信號的相關性過濾掉瑣碎的噪音詞匯,再基于圖劃分技術將剩下的詞匯聚類構成事件。

Dou等提出基于內容相似度、事件近似度和文檔分布近似度三重因素對事件進行關聯,構造事件演化圖。

馬雯雯等提出一種隱含語義分析的微博話題發現方法,用無監督的隱式馬爾科夫方法建模出話題的線性序,但這一算法被證明只適用于地震、災害等結構簡單的話題。

在得到事件演化模型之后,研究者提出了一種新的應用方法稱為預期事件檢測(Anticipatory Event Detection,AED),其主旨是檢測出事件狀態發生遷移的時機。Pan等首先提出這一概念,并通過一種句子分類的方法自動發現NBA比賽的最終比分。Zhang等將突發特征檢測引入AED,提出突發向量空間模型,檢測事件遷移中的突發特征。He等也提出AED中由于檢測狀態遷移的二元分類模型無法找到具有很強區分能力的特征詞,因而將突發特征作為分類的依據以提升檢測能力。Zhang等以復雜網絡理論為基礎,基于評論詞語間的共現關系構建基于事件發展的子事件網絡,通過社群發現算法來識別子事件評論網絡中的話題社群。

綜上所述,盡管話題檢測與跟蹤(TDT)已經針對新聞報道等較長篇幅的語料提出了許多切實有效的方法,但對于充斥噪音,語言簡短,語法不規范,上下文結構松散的微博語料而言,依然面臨著嚴峻的挑戰。如何構建更好的檢測模型,提高微博話題發現的精度,可能成為目前研究的一個方向。

猜你喜歡
詞匯檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
本刊可直接用縮寫的常用詞匯
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人综合在线观看| 999精品在线视频| 四虎影视永久在线精品| 美女视频黄又黄又免费高清| 91在线视频福利| 欧洲高清无码在线| 亚洲综合激情另类专区| 久久中文无码精品| 在线中文字幕网| 亚洲成A人V欧美综合天堂| 宅男噜噜噜66国产在线观看 | 91亚瑟视频| 国内精品九九久久久精品| 亚洲欧洲日韩综合| 在线欧美一区| 亚洲热线99精品视频| h视频在线播放| 日本AⅤ精品一区二区三区日| 欧美色99| 成人免费网站在线观看| 中文字幕欧美日韩高清| 一区二区午夜| 欧美一级大片在线观看| 国产丝袜无码精品| 亚洲成人在线网| a毛片免费看| 国产真实乱了在线播放| 亚洲熟妇AV日韩熟妇在线| 国产黑人在线| 色呦呦手机在线精品| 97精品久久久大香线焦| 国产麻豆福利av在线播放| h网址在线观看| 久夜色精品国产噜噜| 五月激情婷婷综合| 欧美精品H在线播放| 一区二区无码在线视频| 456亚洲人成高清在线| 色欲色欲久久综合网| 久久婷婷色综合老司机 | www.91在线播放| 国产真实自在自线免费精品| 在线观看国产黄色| 亚洲天堂日韩av电影| 国产欧美日韩精品综合在线| 在线免费a视频| 日韩成人在线视频| 久久精品女人天堂aaa| 中文字幕免费播放| 国产国模一区二区三区四区| 精品国产www| 丁香六月综合网| 凹凸国产分类在线观看| 久久精品视频一| 91人妻日韩人妻无码专区精品| 77777亚洲午夜久久多人| 国产女人喷水视频| 国内熟女少妇一线天| 日韩毛片视频| 欧美国产日产一区二区| 欧美国产综合视频| 日韩精品无码免费一区二区三区| 亚洲成人黄色在线| 国产精品页| 91视频首页| 日本人妻丰满熟妇区| 日韩在线2020专区| 国产精品网址你懂的| 国产AV无码专区亚洲A∨毛片| 国产h视频在线观看视频| 亚洲欧洲日产无码AV| 极品私人尤物在线精品首页| 亚州AV秘 一区二区三区| 亚洲美女视频一区| 啦啦啦网站在线观看a毛片| 亚洲三级影院| 人妻丰满熟妇AV无码区| 亚洲天堂777| 污污网站在线观看| 中日韩欧亚无码视频| 亚洲另类色| 亚洲人成网18禁|