〔摘要〕目的:在使用數據挖掘發現BBS熱點話題的過程中,標題的重要性經常被忽略。本文旨在論證和凸顯標題在BBS熱點話題挖掘中的重要作用,同時區別在BBS熱點話題挖掘時標題和文本內容作用的不同。 方法:以南京大學小百合BBS的每日10大熱門話題帖子的標題為數據樣本,采用凝聚式層次聚類法進行數據的聚類。結果:將270條樣本數據聚為單類,選取其中有代表性的前五組進行討論。結論:僅憑標題內容就能夠有效挖掘出在一段時間內BBS上的熱點主題,證明了標題在BBS熱點話題挖掘中的重要性。
〔關鍵詞〕BBS;熱點話題;數據挖掘;凝聚式層次聚類
〔中圖分類號〕G250.7〔文獻標識碼〕B〔文章編號〕1008-0821(2013)01-0162-04
隨著互聯網的快速發展,互聯網已經為我國鍛造出一個全新的輿情傳播機制,BBS是該機制中的重要元素之一。目前,幾乎所有國內門戶網站都開設有BBS論壇,全國BBS論壇數量己超過百萬個,位居全球之首[1]。大學是社會思想最先進而集中的地方,各個大學都擁有自己的BBS,從不同的主題角度為學生提供了思想交匯和討論的平臺。例如北京大學的未名BBS,清華大學的水木清華BBS,復旦大學的日月光華BBS,南京大學小百合BBS等等。截止到2012年7月,網民職業中,學生占比為28.6%,遠遠高于其他群體[2],他們在網上留下的言論和評論散布在網絡的各個角落,尤其集中在大學校園內的BBS上。正是由于這些原因,導致在海量的BBS信息中發掘熱點主題成為了一個值得研究的方向;而大學的校園BBS則成為理想的樣本采集場所。
對于熱點話題挖掘(Hot Topic Mining)的研究較早出現在話題識別與跟蹤(TDT,Topic Detection and Tracking)領域 [3]。近期的研究多是對BBS進行Web內容挖掘,文獻[1,4,5]都利用這個思想開發了管理BBS的輿情監控系統。但是,他們在系統設計的過程中都忽略了BBS系統中帖子標題獨具的特點。在這個快節奏的時代,一個引人注目的標題才是促使用戶瀏覽的關鍵。此外,BBS上想表達的主題觀點有時十分短小,也許只是一個問題的提出。比如,有的發帖者會將想表達的所有內容都集中在標題上,而帖子內容僅為“如題”。或者帖子的標題也可能僅僅是一個為了引起他人的關注的關鍵詞。這些特點更加說明了“標題”對于BBS內容和觀點的反映程度之高。因此某些模型中將帖子內容和標題賦予相同的權重會影響到聚類分析結果的準確性。
本文以南京大學小百合BBS為例,以“全站十大”的標題數據為基礎,嘗試通過層次聚類的方法識別熱點話題。
基于標題的BBS熱點話題挖掘1研究方法
1.1數據獲取
南京大學小百合BBS提供了“每日十大熱門話題”的統計功能:通過統計回帖的數量找出全站前十的帖子單獨列出供用戶閱覽。其歷史保存在bbslists版中。筆者通過基于httpClient和htmlParser開發的網頁數據抓取程序獲得數據,數據中包括發帖人、發帖版面、發帖時間以及其他用來輔助閱讀的提示信息。圖1為原始信息的格式。首行為該歷史記錄帖子的發帖日期。統計信息是第二天發出的,也就是說6月1日的“十大熱門話題”信息是在6月2日才張貼出來的。