999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的論壇熱點(diǎn)問(wèn)題時(shí)變分析

2017-06-05 09:35:37柳,程愷,胡
軟件 2017年4期
關(guān)鍵詞:分析信息

吳 柳,程 愷,胡 琪

?

基于文本挖掘的論壇熱點(diǎn)問(wèn)題時(shí)變分析

吳 柳1,程 愷2,胡 琪2

(1. 江蘇海事職業(yè)技術(shù)學(xué)院,南京 210070;2. 解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院,南京 210007)

隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)論壇因其開(kāi)放性和自由性成為了輿論的發(fā)源地,真實(shí)地反映了當(dāng)前的新聞熱點(diǎn)和當(dāng)前民眾最關(guān)心的話(huà)題。本文基于網(wǎng)易論壇上的網(wǎng)上談兵欄目,對(duì)相關(guān)帖子進(jìn)行文本挖掘,通過(guò)改進(jìn)傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)指定論壇網(wǎng)頁(yè)進(jìn)行爬取,設(shè)計(jì)了關(guān)鍵詞權(quán)重計(jì)算公式提取關(guān)鍵詞,依據(jù)關(guān)鍵詞歸納總結(jié)熱點(diǎn)話(huà)題,提出話(huà)題匹配規(guī)則對(duì)話(huà)題帖子進(jìn)行定位匹配。通過(guò)分析熱點(diǎn)話(huà)題隨時(shí)間變化的趨勢(shì),把握網(wǎng)絡(luò)輿論的動(dòng)向,并對(duì)話(huà)題進(jìn)一步的發(fā)展趨勢(shì)做出一定預(yù)測(cè),為相關(guān)部門(mén)及時(shí)、準(zhǔn)確把握網(wǎng)絡(luò)輿論動(dòng)態(tài)走向提供了可靠依據(jù)。

網(wǎng)絡(luò)爬蟲(chóng);中文分詞;關(guān)鍵詞提取;熱點(diǎn)話(huà)題;時(shí)變分析

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)媒體因其方便快捷、互動(dòng)性強(qiáng)的特點(diǎn),逐漸成為繼報(bào)紙、廣播、電視之后的“第四媒體”,成為現(xiàn)在人們獲取信息的主要途徑。同時(shí),由于互聯(lián)網(wǎng)的普及,越來(lái)越多的人通過(guò)互聯(lián)網(wǎng)來(lái)表達(dá)一些自己對(duì)某些事件、現(xiàn)象、政策的看法和意見(jiàn)。網(wǎng)絡(luò)上的輿論反應(yīng)了人們真實(shí)的想法和建議,網(wǎng)絡(luò)輿情也被越來(lái)越多的人所關(guān)注[1-3]。

其中,網(wǎng)絡(luò)論壇發(fā)展到今天已成為互聯(lián)網(wǎng)的重要組成部分,網(wǎng)民通過(guò)瀏覽帖子、展開(kāi)討論,表達(dá)對(duì)熱點(diǎn)問(wèn)題的看法和意見(jiàn)。如果能夠及時(shí)分析論壇信息,對(duì)相關(guān)政府機(jī)構(gòu)準(zhǔn)確把握網(wǎng)絡(luò)輿論的動(dòng)態(tài)走向,從而進(jìn)行監(jiān)測(cè)、預(yù)警都具有重要意義[4-6]。然而面對(duì)網(wǎng)絡(luò)中的海量信息,傳統(tǒng)的人工方式分析已無(wú)應(yīng)對(duì)爆炸式的信息增長(zhǎng),需要采用數(shù)據(jù)挖掘、大數(shù)據(jù)等先進(jìn)技術(shù)手段[7-11],對(duì)論壇中熱點(diǎn)問(wèn)題討論的信息進(jìn)行有效地采集、分析,從數(shù)據(jù)中獲取有用的知識(shí)。

因此,本文研究了從網(wǎng)絡(luò)論壇內(nèi)容的獲取到數(shù)據(jù)預(yù)處理以及熱點(diǎn)話(huà)題篩選和時(shí)變分析等關(guān)鍵技術(shù),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)論壇熱點(diǎn)信息的采集,進(jìn)而分析熱點(diǎn)問(wèn)題在時(shí)間序列上的發(fā)展變化規(guī)律。通過(guò)對(duì)網(wǎng)易論壇上的網(wǎng)上談兵欄目進(jìn)行文本挖掘,了解各大軍事熱點(diǎn)問(wèn)題在時(shí)間序列上的走勢(shì),把握輿論動(dòng)向,根據(jù)得到的熱度曲線圖,挖掘有關(guān)話(huà)題信息,并預(yù)測(cè)下一步話(huà)題發(fā)展情況。

1 總體研究框架

基于文本挖掘的論壇熱點(diǎn)問(wèn)題時(shí)變分析主要包括信息獲取、信息處理、熱點(diǎn)話(huà)題匹配和時(shí)變分析四個(gè)步驟,其總體研究框架如圖1所示。

圖1 基于文本挖掘的論壇熱點(diǎn)問(wèn)題時(shí)變分析總體研究框架

1.1 網(wǎng)絡(luò)論壇信息的獲取

網(wǎng)絡(luò)論壇信息的獲取是將指定所關(guān)注的網(wǎng)絡(luò)論壇的URL,自動(dòng)地獲取論壇的帖子信息,并且按照一定的格式存儲(chǔ)這些信息。網(wǎng)絡(luò)論壇信息的獲取是數(shù)據(jù)預(yù)處理以及數(shù)據(jù)分析的前期準(zhǔn)備工作,涉及到網(wǎng)絡(luò)爬蟲(chóng)等網(wǎng)頁(yè)自動(dòng)訪問(wèn)和虛擬訪問(wèn)技術(shù),是研究的重點(diǎn)內(nèi)容之一。

1.2 網(wǎng)絡(luò)論壇信息的預(yù)處理

網(wǎng)絡(luò)論壇信息的預(yù)處理是將獲取并存儲(chǔ)得到的帖子進(jìn)行進(jìn)一步的分詞、詞頻統(tǒng)計(jì)、提取關(guān)鍵詞等處理。通常直接存儲(chǔ)的帖子信息數(shù)據(jù)量過(guò)于龐大,并且論壇信息的實(shí)時(shí)性強(qiáng),直接進(jìn)行分析不僅耗費(fèi)時(shí)間長(zhǎng),工作量大,而且無(wú)法及時(shí)追蹤分析熱點(diǎn)。對(duì)帖子信息進(jìn)行預(yù)處理相當(dāng)于用提取的關(guān)鍵詞來(lái)代替帖子內(nèi)容,減少了數(shù)據(jù)量,為后續(xù)數(shù)據(jù)分析提供方便。

1.3 網(wǎng)絡(luò)論壇信息的話(huà)題篩選

網(wǎng)絡(luò)論壇信息的話(huà)題篩選是基于對(duì)數(shù)據(jù)的預(yù)處理,通過(guò)對(duì)帖子關(guān)鍵詞以及相應(yīng)的權(quán)重按照權(quán)重由高到低進(jìn)行人工分析,得到具有跟蹤研究意義的話(huà)題系列。這一過(guò)程采用了傳統(tǒng)的人工選擇,是基于機(jī)器對(duì)于自然語(yǔ)言的理解能力受限考慮。在確定的話(huà)題系列基礎(chǔ)上,分析所有話(huà)題可能包括的內(nèi)涵以及在此話(huà)題中具有代表性的關(guān)鍵詞,為每一個(gè)話(huà)題建立關(guān)鍵詞向量,作為話(huà)題規(guī)則,從而進(jìn)一步對(duì)所有帖子進(jìn)行話(huà)題匹配,完成分類(lèi)。

1.4 網(wǎng)絡(luò)論壇信息的時(shí)變分析

網(wǎng)絡(luò)論壇信息的時(shí)變分析是對(duì)話(huà)題在時(shí)間序列上的熱度變化情況進(jìn)行分析的過(guò)程。將選擇出的話(huà)題系列從每個(gè)月抽取出來(lái)放到整個(gè)時(shí)間軸上,可以縱向觀察到話(huà)題的波動(dòng)情況。不同話(huà)題隨時(shí)間序列的發(fā)展情況不同,依據(jù)熱度曲線圖,分析峰值,可以挖掘出在某一時(shí)間段話(huà)題的聚焦情況。

2 關(guān)鍵技術(shù)

2.1 論壇爬蟲(chóng)技術(shù)

網(wǎng)絡(luò)論壇大多采用兩層的結(jié)構(gòu)來(lái)組織整個(gè)討論區(qū)的帖子話(huà)題,對(duì)于帖子本身來(lái)說(shuō),需要得到的僅僅是兩種類(lèi)型的頁(yè)面信息:話(huà)題索引頁(yè)面和帖子內(nèi)容頁(yè)面。話(huà)題索引頁(yè)面列出主帖的標(biāo)題、發(fā)帖人、發(fā)帖時(shí)間、最后回帖時(shí)間等基本信息,并且鏈接指向帖子內(nèi)容頁(yè)面。論壇網(wǎng)頁(yè)的結(jié)構(gòu)如圖2所示。

圖2 論壇網(wǎng)頁(yè)結(jié)構(gòu)

由于只需要獲取所有的帖子信息,所以不需要網(wǎng)絡(luò)爬蟲(chóng)大面積的抓取網(wǎng)頁(yè),也正由于此原因,爬蟲(chóng)在話(huà)題索引頁(yè)抓取回來(lái)的網(wǎng)頁(yè)除了與帖子有關(guān)的信息外,其余的都被看作是網(wǎng)頁(yè)噪音,需要進(jìn)一步過(guò)濾。并且采用類(lèi)似“寬度搜索”的爬行策略,從待抓取隊(duì)列中抽取一個(gè)URL后,抓取頁(yè)面上的所有鏈接,判斷抓取的URL在等待隊(duì)列和已訪問(wèn)隊(duì)列中是否已經(jīng)存在,且該鏈接必須以http開(kāi)頭,若符合,則將鏈接添加到等待抓取的隊(duì)列中。

從初始網(wǎng)址開(kāi)始,本文采用的網(wǎng)絡(luò)爬蟲(chóng)架構(gòu)如圖3所示。

2.2 關(guān)鍵詞提取技術(shù)

關(guān)鍵詞提取就是從文本里面把跟這篇文章意義最相關(guān)的一些詞抽取出來(lái),可以追溯到文獻(xiàn)檢索初期,在還不支持全文搜索時(shí)期,關(guān)鍵詞就可以作為搜索這篇論文的詞語(yǔ)。因此,目前依然可以在論文中看到關(guān)鍵詞這一項(xiàng)。簡(jiǎn)而言之,關(guān)鍵詞就是最能夠反映出文本主題或者意思的詞語(yǔ)。

關(guān)鍵詞提取大致有兩種方法:第一種為關(guān)鍵詞分配,是給定一個(gè)關(guān)鍵詞庫(kù),然后從詞庫(kù)里面找到幾個(gè)詞語(yǔ)作為將需要提取關(guān)鍵詞的文本的關(guān)鍵詞。第二種為關(guān)鍵詞抽取,是從文本中抽取一些詞語(yǔ)作為這篇文章的關(guān)鍵詞。

另外,從結(jié)果上看關(guān)鍵詞抽取也可以分兩種。第一種僅僅把詞語(yǔ)抽取出來(lái),實(shí)現(xiàn)較簡(jiǎn)單,比如FudanNLP、jieba、SnowNLP。另一種則是連詞和短語(yǔ)一起抽取出來(lái),這個(gè)還需要增加短語(yǔ)抽取這一個(gè)步驟,這一類(lèi)的實(shí)現(xiàn)包括ICTCLAS、ansj_seg等。可以把類(lèi)似于“智能手機(jī)”、“全面深化改革”、“非公有制經(jīng)濟(jì)”等短語(yǔ)抽取出來(lái)。對(duì)于聚類(lèi)或者分類(lèi)來(lái)說(shuō),很明顯短語(yǔ)比詞語(yǔ)更有參考價(jià)值。

關(guān)于關(guān)鍵詞抽取的算法,目前主要有TF-IDF算法、初代KEA算法、TextRank算法和ICTCLAS等。本文采用的是基于ICTCLAS的Ansj關(guān)鍵詞提取技術(shù),其基本原理為依據(jù)不同詞性詞語(yǔ)的初始權(quán)重,其中標(biāo)題中詞權(quán)重加倍,再結(jié)合詞在文中出現(xiàn)的位置和頻率調(diào)整后,得到每個(gè)詞的權(quán)重score。

由于本文需要通過(guò)關(guān)鍵詞的熱度來(lái)進(jìn)一步確定當(dāng)前的熱點(diǎn)話(huà)題,故結(jié)合帖子的瀏覽量對(duì)關(guān)鍵詞權(quán)重作進(jìn)一步改進(jìn)。具體改進(jìn)的公式如下:

最后生成的關(guān)鍵詞熱度從一定程度上既反映了帖子的基本內(nèi)容,同時(shí)也體現(xiàn)了在所有帖子中的受關(guān)注程度。

2.3 話(huà)題提取技術(shù)

網(wǎng)絡(luò)論壇熱點(diǎn)話(huà)題的獲取是指從大量的網(wǎng)絡(luò)論壇帖子中發(fā)現(xiàn)熱點(diǎn)話(huà)題并利用關(guān)鍵詞定位到具體的帖子的過(guò)程。本文所采用的熱點(diǎn)話(huà)題獲取方法是基于關(guān)鍵詞熱度的。熱點(diǎn)話(huà)題獲取是對(duì)所有帖子內(nèi)容中出現(xiàn)的關(guān)鍵詞進(jìn)行的一個(gè)統(tǒng)計(jì),關(guān)鍵詞熱度越高表明越受網(wǎng)民的關(guān)注。這種方法所發(fā)現(xiàn)的話(huà)題基本能夠反映出當(dāng)前的熱點(diǎn)問(wèn)題,話(huà)題發(fā)現(xiàn)的過(guò)程如圖4所示。

1. 讀入帖子的關(guān)鍵詞結(jié)果。

按照數(shù)據(jù)預(yù)處理模塊中對(duì)帖子信息進(jìn)行的分詞、關(guān)鍵詞生成結(jié)果,依次把詞語(yǔ)讀入暫存數(shù)組keywords[m]中,其中keywords[m]是一個(gè)字符型的一維數(shù)組,用來(lái)暫時(shí)存放某一條帖子的關(guān)鍵詞結(jié)果。例如標(biāo)題為“我國(guó)運(yùn)載火箭研制”的帖子提取關(guān)鍵詞之后的結(jié)果為“運(yùn)載火箭/176.81”,“研制/149.03”,“我國(guó)/53.72”, “全新/52.02”,“推力/50.14”,“現(xiàn)役/ 45.55”等,將這些詞語(yǔ)按權(quán)重順序依次讀入字符數(shù)字keywords[m]中,即keywords[0]=“運(yùn)載火箭”, keywords[1]=“研制”,keywords[2]=“我國(guó)”,……,依次類(lèi)推。此外,在讀入的同時(shí)自動(dòng)去除權(quán)重較低的詞語(yǔ)。

2. 確定進(jìn)一步研究的熱點(diǎn)問(wèn)題

結(jié)合關(guān)鍵詞結(jié)果、權(quán)重評(píng)分以及帖子瀏覽量的綜合考慮,人工分析得出需要進(jìn)一步研究的話(huà)題系列,分別設(shè)為不同的話(huà)題向量為Vector topics。將每個(gè)話(huà)題中出現(xiàn)頻率較高的關(guān)鍵詞依次讀入話(huà)題向量中,便于下一步對(duì)所有帖子進(jìn)行話(huà)題匹配。

3. 定位話(huà)題帖子

對(duì)于每一個(gè)帖子,遍歷其keywords[m],將其中存儲(chǔ)的關(guān)鍵與話(huà)題向量中的關(guān)鍵詞進(jìn)行比較,在滿(mǎn)足一定數(shù)量的相似度后,判定帖子是否屬于某一話(huà)題,若屬于,則存儲(chǔ)帖子的發(fā)帖時(shí)間,便于下一步對(duì)熱點(diǎn)話(huà)題進(jìn)行時(shí)變分析。具體判定步驟如圖5所示。

圖5 話(huà)題帖子判定算法流程

3 論壇熱點(diǎn)問(wèn)題時(shí)變分析

在論壇數(shù)據(jù)爬取階段,本文基于crawler4j實(shí)現(xiàn)了網(wǎng)絡(luò)爬蟲(chóng),并進(jìn)行了相應(yīng)功能的改進(jìn)[12][13]。通過(guò)抓取URL及頁(yè)面內(nèi)容,利用Jsoup解析和操作HTML,提取有關(guān)的帖子信息。在文本數(shù)據(jù)預(yù)處理階段[14],基于Ansj,利用NLP自然語(yǔ)言處理分詞對(duì)所有帖子內(nèi)容進(jìn)行分詞處理、詞頻統(tǒng)計(jì)、詞性標(biāo)注。依據(jù)不同詞性詞語(yǔ)的初始權(quán)重,其中標(biāo)題中詞權(quán)重加倍,再結(jié)合詞在文中出現(xiàn)的位置和頻率調(diào)整后,得到每個(gè)詞的權(quán)重score。在話(huà)題提取階段[15],根據(jù)得到的關(guān)鍵詞以及相應(yīng)的熱度值,篩選出五個(gè)具有研究?jī)r(jià)值的話(huà)題,分別為“朝核問(wèn)題”、“航母建設(shè)”、“臺(tái)灣問(wèn)題”、“領(lǐng)海問(wèn)題”、“釣魚(yú)島問(wèn)題”,由此設(shè)置不同的話(huà)題向量為Vector topics。將每個(gè)話(huà)題中出現(xiàn)頻率較高的關(guān)鍵詞依次讀入話(huà)題向量中作為話(huà)題匹配規(guī)則。依據(jù)話(huà)題匹配規(guī)則,對(duì)于每一個(gè)帖子,遍歷其keywords[m],將其中存儲(chǔ)的關(guān)鍵與話(huà)題向量中的關(guān)鍵詞進(jìn)行比較,在滿(mǎn)足一定數(shù)量的相似度后,確定其是否屬于需要研究的五個(gè)話(huà)題之一,若是,則將帖子的發(fā)帖時(shí)間、瀏覽量等信息存入數(shù)據(jù)庫(kù)中。

最后針對(duì)選取的“朝核問(wèn)題”、“航母建設(shè)”、“臺(tái)灣問(wèn)題”、“領(lǐng)海問(wèn)題”、“釣魚(yú)島問(wèn)題”的五個(gè)話(huà)題進(jìn)行分析,得到各個(gè)話(huà)題在時(shí)間維度下的熱度變化擬合曲線如圖6所示[16]。

圖6 熱點(diǎn)問(wèn)題擬合曲線圖

通過(guò)熱點(diǎn)問(wèn)題擬合曲線圖,依據(jù)各個(gè)話(huà)題所代表的曲線于2015年11月至2016年5月期間的熱度變化,分析其隨時(shí)間序列的走勢(shì)情況,可以得出以下幾點(diǎn)信息:

1. 臺(tái)獨(dú)問(wèn)題關(guān)注度持續(xù)居高。

從圖中可以清晰地看出:就五個(gè)話(huà)題而言,臺(tái)獨(dú)問(wèn)題的熱度一直處于較高的狀態(tài)。由此反映出祖國(guó)統(tǒng)一以及臺(tái)獨(dú)問(wèn)題始終是中國(guó)網(wǎng)民最關(guān)注的熱點(diǎn)問(wèn)題之一,寶島臺(tái)灣的一舉一動(dòng)更是一直沒(méi)有離開(kāi)廣大網(wǎng)民的關(guān)注視線。

隨著2016年臺(tái)灣地區(qū)領(lǐng)導(dǎo)人選舉的逐步推進(jìn),臺(tái)獨(dú)話(huà)題也是處于發(fā)酵狀態(tài)。在正式選舉(2016年1月16日)之前,話(huà)題熱度持續(xù)上升,據(jù)猜測(cè),不少網(wǎng)民就三位領(lǐng)導(dǎo)人當(dāng)選可能性展開(kāi)熱議。

其中,領(lǐng)導(dǎo)人正式選舉的時(shí)間與繪制的擬合曲線圖中臺(tái)獨(dú)問(wèn)題的峰值正好相當(dāng),說(shuō)明臺(tái)獨(dú)話(huà)題在大選這一重要時(shí)刻熱議程度達(dá)到巔峰,符合正常邏輯。

選舉結(jié)束后,隨著蔡英文當(dāng)選,雖然其一度表現(xiàn)出親美行徑,并且對(duì)兩岸關(guān)系含糊不清,但似乎網(wǎng)民對(duì)此雖然保持著一定的關(guān)注度,但并沒(méi)有顯示出過(guò)多的熱情,或許是在等待蔡英文的進(jìn)一步動(dòng)作,對(duì)于臺(tái)獨(dú)問(wèn)題還需要更長(zhǎng)時(shí)間的觀察。

因此,有關(guān)網(wǎng)民對(duì)于臺(tái)獨(dú)話(huà)題的熱度問(wèn)題,預(yù)測(cè)后期將會(huì)一直維持在較高的水平,并且隨著臺(tái)灣方面的動(dòng)作實(shí)時(shí)波動(dòng),屬于經(jīng)常性熱點(diǎn)話(huà)題。

2. 朝核問(wèn)題峰值期突發(fā)事件明顯。

從圖中可以清晰地看出:朝核問(wèn)題同樣在2016年1月產(chǎn)生了一個(gè)高峰,但與臺(tái)獨(dú)問(wèn)題不同的是,朝核問(wèn)題在其他時(shí)間段的關(guān)注度并不是很高。因此推斷在峰值期應(yīng)該有重大事件發(fā)生。事實(shí)上,在2016年1月6日,朝鮮宣布成功進(jìn)行了首次氫彈試爆。隨著這一消息的發(fā)布,朝核問(wèn)題迅速成為當(dāng)時(shí)的熱點(diǎn)話(huà)題。

朝核問(wèn)題這種隨著事件的發(fā)生推動(dòng)輿論爆發(fā)的情況極具典型性。有關(guān)部分應(yīng)當(dāng)在事件發(fā)生的第一時(shí)間對(duì)其進(jìn)行監(jiān)測(cè)追蹤,把握輿論的正確發(fā)展方向。

3. 領(lǐng)海問(wèn)題復(fù)雜多變。

在圖中可以看到,領(lǐng)海問(wèn)題的波動(dòng)性較大,但這與本文在提取領(lǐng)海問(wèn)題這一話(huà)題時(shí)的話(huà)題規(guī)則有一定的關(guān)系。由于本身領(lǐng)海問(wèn)題涉及面廣,包括與各國(guó)的南海問(wèn)題以及東海問(wèn)題等,無(wú)法準(zhǔn)確地對(duì)該話(huà)題進(jìn)行匹配。因此,對(duì)于領(lǐng)海問(wèn)題,本文不作過(guò)多分析。

從另一方面,領(lǐng)海問(wèn)題反映出了本文在話(huà)題匹配、帖子定位中可能遇到的問(wèn)題,是話(huà)題規(guī)則的不足之處。

4 結(jié)語(yǔ)

本文基于網(wǎng)易論壇上的網(wǎng)上談兵欄目,對(duì)其進(jìn)行了一系列的文本挖掘,包括網(wǎng)頁(yè)爬取、帖子信息獲取、數(shù)據(jù)預(yù)處理、話(huà)題提取、熱點(diǎn)問(wèn)題擬合曲線圖的繪制以及熱點(diǎn)話(huà)題的時(shí)變分析。

在網(wǎng)絡(luò)爬蟲(chóng)改進(jìn)、中文分詞、關(guān)鍵詞提取階段,能夠結(jié)合網(wǎng)絡(luò)論壇數(shù)據(jù)特點(diǎn),對(duì)相應(yīng)工具進(jìn)行了定制改進(jìn)。在話(huà)題提取階段,如何完成從關(guān)鍵詞到話(huà)題匹配的過(guò)程是一大難點(diǎn)。本文制定了話(huà)題匹配規(guī)則,雖然存在一定的匹配誤差,但基本完成了話(huà)題提取的任務(wù),為時(shí)變分析提供了基礎(chǔ)。最后,通過(guò) 對(duì)五大話(huà)題在熱點(diǎn)問(wèn)題擬合曲線上的展示以及時(shí)變分析,了解各大軍事熱點(diǎn)在時(shí)間序列上的走勢(shì),一定程度把握了輿論動(dòng)向,了解網(wǎng)民聚焦熱點(diǎn)問(wèn)題的具體情況,并且對(duì)話(huà)題發(fā)展趨勢(shì)做出了一定的預(yù)測(cè)。下一步可在以下兩個(gè)方面進(jìn)行改進(jìn):1.話(huà)題匹配規(guī)則不夠靈活,可結(jié)合語(yǔ)義及自然語(yǔ)言處理作進(jìn)一步優(yōu)化;2.曲線圖所表達(dá)的信息有限,可適當(dāng)增加可視化表現(xiàn)形式。

[1] 曹麗娜, 唐錫晉. 基于主題模型的BBS話(huà)題演化趨勢(shì)分析[J]. 管理科學(xué)學(xué)報(bào), 2014, 17(11): 109-121.

[2] 王允. 網(wǎng)絡(luò)輿情數(shù)據(jù)獲取與話(huà)題分析技術(shù)研究[D]. 鄭州: 解放軍信息工程大學(xué), 2010.

[3] 趙旭劍, 張立, 李波, 等. 網(wǎng)絡(luò)新聞話(huà)題演化模式挖掘[J]. 軟件, 2015, 36(6): 1-6.

[4] 張旭, 張振江, 劉云. BBS輿情系統(tǒng)爬蟲(chóng)模塊的研究[J]. 鐵路計(jì)算機(jī)應(yīng)用, 2010, 19(12): 18-21.

[5] 熊祖濤. 基于Web文本信息抽取的微博輿情分析[D]. 西安:西安科技大學(xué), 2013.

[6] 趙旭劍, 鄧思遠(yuǎn), 李波, 等. 互聯(lián)網(wǎng)新聞話(huà)題特征選擇與構(gòu)建[J]. 軟件, 2015, 36(7): 17-20.

[7] 韓家煒, 裴健, 范明. 數(shù)據(jù)挖掘技術(shù)與概念[M]. 機(jī)械工業(yè)出版社, 2012.

[8] Yanchang Zhao著, 陳健, 黃琰譯. R語(yǔ)言與數(shù)據(jù)挖掘最佳實(shí)踐和經(jīng)典案例[M]. 機(jī)械工業(yè)出版社, 2014.

[9] 郭世龍, 王晨升. 主題爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 軟件, 2013, 34(12): 107-109.

[10] 馬凱航, 高永明, 吳止鍰等. 大數(shù)據(jù)時(shí)代數(shù)據(jù)管理技術(shù)研究綜述[J]. 軟件, 2015, 36(10): 46-49.

[11] 程陳. 大數(shù)據(jù)挖掘分析[J]. 軟件, 2014, 35(4): 130-131.

[12] Joseph Adler著, 劉思喆, 李艦等譯. R語(yǔ)言核心技術(shù)手冊(cè)[M]. 電子工業(yè)出社. 2014.

[13] 宋金玉, 陳萍. 數(shù)據(jù)庫(kù)原理與應(yīng)用[M]. 清華大學(xué)出版社, 2011.

[14] Cay S. Horstmann, Gary Cornell著, 葉乃文等譯. JAVA核心技術(shù)[M]. 機(jī)械工業(yè)出版社, 2009.

[15] Liu Z, Chen X, Zheng Y, et al. Automatic keyphrase extraction by bridging vocabulary gap[C]. Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics, 2011: 135-144.

[16] Index. ggplot2 2. 0. 1[EB/OL]. [2017-03-25]. http://docs.ggplot2. org/current/.

Time Varying Analysis of Forum Hot Issues Based on Text Mining

WU Liu1, CHENG Kai2, HU Qi2

(1. Jiangsu Maritime Institute, Nanjing Jiangsu 210070, China; 2. College of Command Information Systems, PLA University of Science &Technology, Nanjing 210007, China)

With the popularity of the Internet, because of its openness and freedom the network forum has become the birthplace of public opinion. It is a true reflection of the current news hot spots. Based on the Netease forum text mining is adopted to handle the forum data. By improving the traditional web crawler technology, the designated forum pages are crawled. Design the keyword weight calculation formula to extract keywords. According to the key words summarize the hot Topics. Design topic matching rules on the topic forum data. By analyzing the trend of the hot topic of the military over time, grasp the trend of public opinion in the network and make some predictions on the further development of the topic. Thus, provide a reliable basis for the relevant departments to grasp the dynamic direction of the network public opinion.

Network crawler; Chinese word segmentation; Keyword extraction; Hot topic; Time varying analysis

TP311.13

A

10.3969/j.issn.1003-6970.2017.04.009

本文受江蘇省自然科學(xué)基金(BK20150720)資助

吳柳(1987-),女,碩士,研究方向?yàn)樾畔⒓夹g(shù),教育管理;程愷(1983-),男,博士,研究方向?yàn)閿?shù)據(jù)挖掘,數(shù)據(jù)工程;胡琪(1993-),女,碩士研究生,研究方向?yàn)樾畔⑾到y(tǒng)工程。

本文著錄格式:吳柳,程愷,胡琪. 基于文本挖掘的論壇熱點(diǎn)問(wèn)題時(shí)變分析[J]. 軟件,2017,38(4):47-51

猜你喜歡
分析信息
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
展會(huì)信息
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 亚洲欧洲综合| 国产打屁股免费区网站| 五月婷婷欧美| 女高中生自慰污污网站| 精品久久人人爽人人玩人人妻| 日韩在线网址| 国产粉嫩粉嫩的18在线播放91| 久久人体视频| 无码国产偷倩在线播放老年人| 女人爽到高潮免费视频大全| 超级碰免费视频91| 91精品啪在线观看国产91| 欧美在线国产| 香蕉久久国产超碰青草| 日韩黄色在线| 欧美综合中文字幕久久| 久久鸭综合久久国产| 欧洲日本亚洲中文字幕| 国产在线啪| 伊人欧美在线| 久久久久久久久久国产精品| 欧美一级特黄aaaaaa在线看片| 日韩欧美一区在线观看| 999精品在线视频| 久视频免费精品6| 国产精品久线在线观看| 亚洲欧美日本国产综合在线| 午夜老司机永久免费看片| 国产一区二区三区视频| 日本妇乱子伦视频| 一级爆乳无码av| 在线观看国产黄色| 久久国产av麻豆| 国产成人AV综合久久| 欧美国产日韩另类| 国产无人区一区二区三区| 久久精品女人天堂aaa| 亚洲精品在线影院| 亚洲人成网站18禁动漫无码| 国产在线91在线电影| 免费高清a毛片| 亚洲国产91人成在线| 久久久久亚洲av成人网人人软件 | 欧美日韩第三页| 亚洲成人手机在线| 久久久久久高潮白浆| 婷婷亚洲最大| 国产亚洲欧美另类一区二区| 国产成人精品视频一区二区电影| 97se亚洲综合在线韩国专区福利| 2021国产乱人伦在线播放 | h网址在线观看| 青青久视频| 精品无码日韩国产不卡av| 国产尤物视频在线| 人妻无码一区二区视频| 久久久波多野结衣av一区二区| 亚洲天堂久久| 亚洲大学生视频在线播放| 亚洲AV无码久久天堂| 五月婷婷精品| 色欲不卡无码一区二区| 国产免费精彩视频| 精品亚洲欧美中文字幕在线看| 国产97色在线| 日韩成人在线网站| 亚洲精品波多野结衣| 亚洲欧美日韩动漫| 97久久精品人人做人人爽| 国产一级二级三级毛片| 国产成人精品一区二区不卡| 无码日韩视频| 中文字幕色站| 免费人成在线观看视频色| 国产白丝av| 成人亚洲视频| 欧美成人综合视频| 亚洲福利片无码最新在线播放 | 精品国产免费观看一区| 国产91在线|日本| 欧美日韩第三页| 色综合婷婷|