劉嘉琪 齊佳音
?
基于社會系統響應函數的在線群體分類研究
劉嘉琪①齊佳音*②③
①(北京郵電大學經濟管理學院 北京 100876)②(北京郵電大學可信分布式計算與服務教育部重點實驗室 北京 100876)③(上海對外經貿大學工商管理學院 上海 201620)
該文致力于豐富在線群體的研究體系,為未來探索深層次科學問題提供支撐。討論了在線群體與在線話題的定義及常見分類方式。重點展現了一種全新的依據觀測社會系統響應函數的趨勢將在線話題分為4類的定性研究方法,即外源性首要傳播型話題、外源性次要傳播型話題、內源性首要傳播型話題和內源性次要傳播型話題,并且進一步以此區分討論不同類型話題的在線群體。同時,明確地提出了規范的使用步驟與實際操作時可能遇到的問題及解決方法。最后嘗試運用該方法來估計以“新浪微博”與“百度貼吧”為代表的在線社交網絡平臺中各類話題群體的分布情況。
社交網絡;在線群體;在線話題;定性分類;社會系統響應函數
1 引言
互聯網+時代,在線社交網絡的出現改變了傳統的信息交流方式,成為日常生活中獲取、傳播信息的主要平臺。在多學科融合的背景下,在線社交網絡已經逐漸成為學術研究的熱點之一。
近年來,與在線社交網絡中群體的相關研究中,出現了許多將其分類的標準,包括個體在網絡空間與現實空間中的交集、需求、行為、目標、商業營利性、互動內容的主題、合法性、異質性、對公共事件傳播關注的偏好、表達觀點時的態度、生存周期、要素穩定性、互動頻率、焦點/集中度、凝聚力和成員參與度等[1,2]。分類方式雖較廣泛,但出于網絡輿情監控視角,鮮見學者專注于以話題為基礎的群體分類研究。而話題作為一種組織信息的方式,恰恰是形成群體的重要方式之一。用戶發表的言論往往受到一段時期內直接相關的事件或活動影響,與特定主題緊密相關[3]。甚至不同的話題對于群體的影響力也不同[4]。可見話題的分類對于在線群體的研究領域來說十分必要。
縱觀近年文獻,不難發現在線話題研究大多屬于計算機領域,適用于技術層面的研究成果不斷涌現,如話題檢測、跟蹤、分析、存儲、預警和應急處理技術等。在涉及在線話題的分類研究中,學者們從不同的角度,結合實際場景需求提出了不同的分類方法。
從話題分類算法與技術的角度,學者們分別利用決策樹、層次聚類、LDA、主成分分析法、樸素貝葉斯、支持向量機、K-NN 算法、Ricchi算法、BP算法等方法提出了多元的網絡話題分類算法。
從網絡輿情預判的角度,有學者將話題作為網絡輿情萌芽初級階段的產物,將其分為事件型話題與觀點型話題。其中事件型分為可預見的和不可預見的,可預見型指一定會發生的事件,如“春節放假”,不可預見的事件往往是一些突發事件,如“墜機”等。
面向新聞報道類話題,文獻[11]根據新聞報道的特征將話題分為3類:重復性新聞話題、演化性新聞話題和評論性新聞話題。文獻[12]提出面向新聞TDT系統的話題分類方法,認為話題和話題核心文檔類別屬性一致。
從話題熱度評估的角度,文獻[11]定義了熱點話題,認為它不僅是被新聞網站報道和宣傳力度大的話題,同時也是受互聯網用戶關注程度大的話題。文獻[13]通過熱度計算,將熱點話題歸為3類:周期性熱點話題、臨時性熱點話題和長期性熱點話題。文獻[14]借助TF-IDF思想,利用狄利克雷信息檢索模型把話題分為長期話題和臨時話題。
從社會語言學的角度,文獻[15]基于漢語語法結構,估計出“微話題”中詞語、短語、句子分布情況,并指出話題內容主要涉及政治、體育、行業、生活、教育及影視6大方面,其中社會生活類占80%、影視評論類占10%。文獻[16]根據熱門話題的多元內容,將其歸納為社會新聞、娛樂名人資訊、定時性話題及微博營銷類話題。
綜上,現有在線話題分類方法或過于表面、不成體系,或過于繁復、不易操作,缺乏易于識別和判斷,并適用于在線群體的分類方法。為此,本文創新性地提出了一種有效的基于社會系統響應函數的在線話題分類方法。理論方面,引入系統動力學和新聞傳播的思想,將在線話題從動力、傳播兩個維度,分為外源性首要傳播型話題、外源性次要傳播型話題、內源性首要傳播型話題和內源性次要傳播型話題4類,同時以此將在線群體進行細分,彌補了現有在線群體理論研究領域的空白。應用方面,本文提出的分類方法也適用于網絡輿情分析。在線社交網絡為輿論自由化提供了開放環境的同時,也帶來了網絡謠言、暴力的隱患,甚至部分輿論給國家穩定和社會安全帶來嚴重的危害。因此,快速地判斷社會系統響應趨勢、及時地監控話題走向,有利于有效引導在線群體和積極解決潛在輿情危機,對維護社會穩定和促進國家發展具有重要的現實意義。
2 術語界定
2.1在線話題(online topic)
在明確在線話題的概念之前,首先應該明確話題的含義和在線社交網絡的范圍。
話題,在TDT(Topic Detection and Tracking)話題發現與跟蹤評測計劃中,是最基本的概念。在研究初期,事件和話題被認為有相同的含義,隨后話題被普遍解釋為一個核心事件或活動以及與之直接相關的事件或活動。相同地,洪宇等人[17]也認為話題是指由一個種子事件出發的一連串直接相關的事件或活動。
在線社交網絡(online social network),是由社會成員之間的相互交互所形成的相對穩定的社會結構,具有復雜的網絡結構和信息動態傳播機制[18]。根據功能與展現方式的不同,大致可分為3類。一是關系導向型網絡,基本為現實社交圈子的映射,如人人網、微信、Fackbook等。二是內容導向型網絡,用戶基于共同興趣,采用BBS論壇、博客等形式的互聯網應用,通過長期交流、互動形成的社交聚合,如天涯社區、百度貼吧等。三是媒體分享型網絡,用于發布、檢索和共享媒體資源,如Flickr、土豆網等。目前,各類網站的功能日益豐富,使得上述類型劃分日益模糊,如微博既包含關系導向型網絡又含有內容導向型網絡。本文將上述3種網絡及其各種組合,統稱為在線社交網絡。
在現有研究中,幾乎沒有發現在線話題的明確定義。具有一定參考意義的是,曾有學者對互聯網話題進行多層面界定。狹義視角認為互聯網話題形成于各大新聞門戶網站,新聞媒體會不定時發布新聞報道,來闡述和跟蹤現實社會中發生的事件;廣義視角認為互聯網話題形成于互聯網中各種各樣的應用,例如新聞網站、BBS論壇、微博、博客、社區網站等。借鑒其定義方法,從廣義層面,認為在線話題為:來源于各類在線社交網絡平臺,由一個種子事件、活動引發的與之直接相關的事件或活動。
2.2在線群體(online group)與網絡群體(network group)
在線群體的定義是本研究的基礎問題。通過查閱文獻發現,關于研究對象學者們提出了不同的說法,如“在線群體”、“網絡群體”、“網民”等。為避免模糊不清的用詞干擾后續研究,將對其進行明確界定。
網絡群體,存在于網絡虛擬社會中,和現實生活中社會群體所處的空間雖不同,但也有許多相同之處。學者們分別從與現實社會群體的延伸和重組關系、存在的基礎與環境、廣義與狹義范圍內的聚集動機、行為和過程等角度對其剖析。而在線群體,存在于在線社交網絡中。與傳統Web網絡最大的不同在于人作為主體,掌握了主動權,自主創造內容信息,并自由選擇希望接受的信息。文獻[19]認為在線群體是基于互聯網的大規模、自發形成的集體,其成員之間分享共同的興趣、經驗、信仰等。文獻[20]則認為其是具有目標導向的,有明顯群體邊界的,并且能夠社會化組織個體活動的系統。Matzat[21]曾定義在線群體為通過CMC(Computer Mediated Communication)工具,出于族群成員的共同利益,圍繞至少一個話題進行單向的傳播和雙向的交流的一群人。
在定義中,本文重點強調了兩者存在的基本條件的差異、存在目的和內部的交流互動。認為網絡群體為個體在網絡社會中因工作、興趣、價值取向、信仰、特殊需要或其他目的,通過網絡互動結合起來進行有目的的活動的集體;在線群體為個體在共同興趣、關注、需要、利益等因素驅動下,基于在線社交網絡,圍繞至少一個話題不斷交互而形成的網絡群體。可以這樣理解,后者是前者的一個子集,它的生存空間主要是在線社交網絡—網絡的子集中。
為了直觀,本文進一步將社會群體、網絡群體與在線群體間的關系可視化,見圖1。

圖1 社會群體、網絡群體和在線群體關系圖
3 基于社會系統響應趨勢的在線群體分類方法介紹
3.1理論基礎
以文獻[22]提出的在外源性(exogenous)與內源性(endogenous)沖擊推動下的圖書銷量分布函數為基礎,文獻[23]認為信息爆發現象是由于消息等待時間呈無尺度分布和信息呈級聯傳播這兩個因素導致,并建立了可分類度量社會系統響應的函數模型。在模型中作者不僅考慮了話題中事件的外源性因素和內源性因素,還根據話題在網絡中的傳播性,進一步將其細分為首要傳播性(critical)和次要傳播性(subcritical)。借助擁有500萬視頻資源的YouTube平臺數據,通過對評論及時間的定量分析,得出個體在接觸信息和產生響應之間的時間分布函數:

收看(視頻)的即時概率:

Kwak等人[24]于2010年發表了一篇經典論文,以所獲取的6058個Twitter話題的發展趨勢與生存周期為參考依據,作者進一步歸納出每類話題的表征,將此話題分類方式引向更深層次的探索。作者認為外源性首要傳播型話題主要指爆炸性或頭條新聞,外源性次要傳播型話題通常具有主題標簽,內源性首要傳播型話題具有持續性的本質,而內源性次要傳播型話題則在短暫期間內引起極少人的關注。此外,作者還對4類話題占比進行統計分析,具體結果,如表1所示。發現外源性首要傳播型話題的占比最大,而內源性次要傳播型話題占比最少。可見,一個話題的發生在大多數情況下需要很強的外源影響力及互聯網用戶的廣泛傳播才能保持其生命力。

表1文獻中4類話題分別占比[24](%)
將學者們定量分析不同性質的話題而總結出的分布規律,應用到在線群體的研究中,轉化為可識別其所屬分類的定性方法,即通過觀測社會系統響應函數的趨勢,判斷話題本身所具備的性質,進而對討論話題的群體進行分類,即基于外源性首要傳播型話題的在線群體、基于外源性次要傳播型話題的在線群體、基于內源性首要傳播型話題的在線群體、基于內源性次要傳播型話題的在線群體。這種方法在相關領域研究中罕有使用,角度較新穎。
3.2 關于內源性與外源性的解釋
尚未有文獻對外源性話題和內源性話題做出具體的定義,本文將對其內涵作出解釋。
在計量模型范疇內,根據變量的性質將其分為外生變量和內生變量。內生變量是其數值由計量經濟模型所決定的變量,即模型求解的結果,而外生變量是其數值由模型以外決定的變量。在經濟體系結構中,外生變量又稱政策性變量,指在經濟機制中受外部因素主要是政策因素影響;內生變量,又叫非政策性變量,是指在經濟機制內部由純粹的經濟因素所決定的變量。在管理學領域,認為工作壓力分為內源壓力和外源壓力。前者來自工作本身,由工作內容、工作標準等因素造成,后者來自工作活動以外由工作環境、人際關系等因素構成[25]。在心理學領域,文獻[26]將注意分為內源性注意和外源性注意。內源性注意指根據觀察者的行為目標或意圖來分配注意,外源性注意指觀察者的視野外部的信息所引起的注意定向。
本文廣泛著眼于不同專業領域,理解內源性和外源性的共通點,并結合話題的獨特性對其性質進行分析。根據系統思想的啟示,將討論同一個在線話題的討論者群體抽象為一個系統,即社會系統。一個話題在系統中流行度達到頂點的過程中,離不開內源動力與外源動力的推動。具備外源性的話題往往依靠系統外部不斷地輸入信息,來保持其生命力和新鮮感。圍繞話題的討論內容根據持續更新的發展狀況會不斷地衍化、豐富與擴展。這類話題一般指突發事件或突然引發熱議的公共事件等。而具備內源性的話題,往往受到本身屬性的影響,比如系統內部成員對話題內容的固有認知、體會和情感等。這些內生因素足以支撐其生存,所以稱之內源性話題。這類話題一般指非突發性的、具有穩定關注者的話題。
話題的動力機制對事件發展方向,影響力的形成有著至關重要,因此本文對討論不同類型話題的群體進行細分研究,在輿情監控領域確實是有益的嘗試。
3.3操作步驟
3.3.1社會系統響應函數趨勢及其觀測平臺選擇
響應(response function)是指信息源本身會帶來的影響。社會系統響應函數趨勢是指在線社交網絡中討論同一個在線話題的討論者群體由于網絡中的級聯影響,而產生動態分支的過程,表現為網絡中的響應變化。目前,可觀測社會系統響應函數趨勢曲線的平臺有很多,常用的比如百度指數、Google Trends和微指數。實際研究中,可根據資料的特殊性和適用性,來選擇恰當的社會系統響應趨勢觀測平臺。
3.3.2區分話題的外源性與內源性
在一個成熟的傳播網絡上,由于網絡外部或內部所產生的信息不斷輸入,其流行度會呈現明顯的趨勢變化。外源性話題表現出冪率上升指數下降的趨勢,內源性話題則呈指數上升指數下降的趨勢變化。通過兩個案例來展現其差別,如圖2中所示。圖2(a)為發生于2004年12月26日的災難性亞洲海嘯,圖2(b)為電影《哈利波特》。通過繪制互聯網搜索引擎中的搜索量變化圖來反映社會系統響應趨勢。圖2(a)為具備“外源性”的典型話題,突如其來的高峰與稍緩慢的下降代表在線社交網絡的突發響應,是“外源性”的標志。相比之下,圖2(b)體現了話題的“內源性”,趨勢具備明顯的增長預示,在最高峰后的下降與之前的上升部分幾乎是對稱的。由此特征可以判斷話題的主要動力來源。

圖2 文獻中外源性與內源性社會系統響應趨勢圖舉例[23]
3.3.3區分話題的首要傳播性與次要傳播性
文獻[23]模擬出4類話題每日搜索量,如圖3。發現在外源動力話題中,次要傳播型話題存在沒有前兆的快速增長,達到峰值后接近100%的快速下降;而首要傳播型話題,達到峰值后下降的速度比次要傳播型話題緩慢,持續時間較長,并且峰值的權重比例比次要傳播型話題稍小,約占80%。在內源動力話題中,首要傳播型話題的特點是具備明顯的增長前兆和緩慢衰減,這意味著峰值的權重占總體比例很小一部分,大約20%,并且明顯的前兆增長幾乎與隨后的緩慢下降對稱;而次要傳播型話題由于短期內的關注量較少,不易于形成明確的趨勢增長與衰退規律,但與內源性首要傳播型話題相較,可顯而易見發現區別,故可用排除法來確定此類話題。為了更清晰地明確識別過程,實際操作時可遵循圖4中流程。

圖3 文獻中4類話題每日累計峰值圖[23]

圖4 判斷在線話題分類的流程圖
4 在線社交網站中各類話題的分布研究
4.1話題選取
運用本文介紹的方法,討論在線社交網站中,不同平臺中話題的分布情況。選取了新浪微博與百度貼吧,并分別運用微指數、百度指數觀測話題趨勢。新浪微博中微話題的24小時話題榜選取11月9日的前500個話題。在百度貼吧提取11月7日-11月9日熱門貼吧的中心詞作為話題。
4.2 數據清洗
依次去掉(1)重復話題、(2)微指數和百度指數還未收錄的話題、(3)正處于上升階段即目前尚觀測不出完整趨勢的話題,分別剩余194個新浪微博話題和72個百度貼吧話題。
4.3 定性判斷
根據前文提出的流程方法,觀測每個話題完整的生命周期。
在具體操作時,最理想的情況是該話題擁有一個明顯清晰的趨勢曲線,在話題生命周期中,除主要波動期外的觀測期內沒有干擾判斷的波動,如圖5所示。

圖5 實際中理想情況舉例
但有時趨勢曲線并不明確或不易識別,因此,本文嘗試對這些情況進行分類討論:
(1)較易于判斷的趨勢情況如圖6所示,波動雖多,但是大部分波動極差較小可忽略不計。通過找到生命周期內極差最大且峰值最高的與眾不同的完整波動期,以此時間周期來判斷其話題性質較為精確。

圖6 實際情況舉例1
(2)在觀測時間范圍內,波動較多,且波動期內極差稍大不可忽略。但卻擁有明顯的高峰,可以分辨出峰值最高且觀測期內極差最大的周期(見圖7(a)),此時應以此周期為主要分析對象來判斷其類型;當最高峰值有多個且相鄰時,可將此連續高峰看成一個生命周期來進行后續判斷(見圖7(b))。

圖7 實際情況舉例2
(3)當觀測的時間范圍內,波動較多,擁有多個高峰,且峰值較接近,無法分辨出峰值最大的周期時(見圖8)。這種情況時,視為無明顯趨勢曲線。

圖8 實際情況舉例3
4.4研究結果
為驗證方法實用性,本研究運用上述方法對4類話題進行識別。同時邀請3位社交網絡分析領域專家,對話題進行人工分類。結果顯示,本方法的總準確率為0.632,其中對外源性首要傳播型話題識別的準確率為0.720,對外源性次要傳播型話題識別的準確率為0.525,對內源性首要傳播型話題識別的準確率為0.643,對內源性次要傳播型話題識別的準確率為0.476,準確率較為理想。另外,外源性首要傳播型話題的召回率為0.727,外源性次要傳播型話題的召回率為0.681,內源性首要傳播型話題的召回率為0.509,內源性次要傳播型話題的召回率為0.714,召回率比較理想。
最終得到4類在線話題的占比分別占比如表2所示。對比兩個在線社交平臺中的話題分布,發現兩者的分類比例略有不同。相同的是,(1)兩個平臺中首要傳播型話題均多于次要傳播型話題,驗證了話題的首要傳播性是維持其登上持續熱榜的重要因素;(2)內源性次要傳播型話題均占少量比例,可見缺乏爆發性與傳播性的話題只能引起小眾的討論,并不廣泛。

表2新浪微博和百度貼吧中4類話題分別占比
不同的是,新浪微博平臺中外源性話題較多,而百度貼吧中內源性話題較多,非常符合兩個平臺的定位與宗旨。新浪微博可以讓你“隨時隨地發現新鮮事!”,人們期待在這里看到最新、最全的咨訊內容,尤其對爆發性的突發事件感興趣,所以熱榜中外源性話題居多。文獻[27]也認為新浪微博是信息發布和分享、人際傳播交流的新渠道,面向熟悉的人或全體公眾快速地分享“即時”信息,在此興起的話題大多借助了外源推動力,因此外源性話題較多。而百度貼吧是“以興趣主題聚合志同道合者的互動平臺”,最熱門的討論內容恰恰是人們日常所熱愛、關心的事物,所以內源性話題較多。對此結果,其他學者也曾從不同角度論證過,如文獻[28]通過對粉絲文化變遷的解讀,將百度貼吧定位為一個為粉絲的聚集而誕生的快速、定向性強的渠道,在這里粉絲很容易找到與其興趣相同的“粉絲”;文獻[29]認為百度貼吧具備網絡趣緣群體的基本特征,在此聚集起來的群體有廣泛性、異質性、匿名性等特點,群體成員平時聯系不頻繁,很難建立起親密的關系,往往因為同一個話題而聚集在一起討論。可見,兩個平臺的網站定位十分不同,百度貼吧成員主要因為對話題本身的興趣而聚集起來,而新浪微博成員則是出于對新鮮話題的獵奇心態,由此,也造成了內外源話題得比例不同。
統計結果與文獻中提到的分類占比略有不同,主要差別是內源性首要傳播型話題數量明顯增長,外源性次要傳播型話題比例降低。造成差異的原因可能為本研究中話題均選擇于熱門話題中24小時熱門榜單和持續熱門的話題,上榜話題持續時間較長,因此次要傳播型話題相對較少,且話題數量基數不同。
5 結束語
依據國外學者們的定量實證研究,結合在線社交網絡的獨特性和所討論話題的差異性,本文介紹了基于社會響應函數的在線群體分類方法。簡單概括為首先根據話題趨勢圖中是否具備突如其來的快速增長來區分在線話題的內、外源性,再根據下降趨勢和持續時間來辨別其首要傳播性和次要傳播性,以此將在線群體分為4大類基于外源性首要傳播型話題的在線群體、基于外源性次要傳播型話題的在線群體、基于內源性首要傳播型話題的在線群體和基于內源性次要傳播型話題的在線群體。此外,提出了具體的操作流程框架,解析了可能遇到的常見狀況。
運用此方法抽樣估計出以新浪微博和百度貼吧為代表的在線社交網站中每類話題的分布情況,發現新浪微博平臺的用戶更加熱衷于討論新鮮感十足的外源性話題,而百度貼吧平臺的用戶更關注以自身興趣為中心的內源性話題。同時,驗證了話題的首要傳播性更利于幫助話題登上持續時間長的熱榜。
然而本文也存在一定的局限性,此方法雖然是基于之前學者們定量研究得出的結論,并采用與專家交流經驗的方法進行了實證運用,但是僅作為初步科學識別在線話題類型的定性研究方法。介紹此方法的目的在于能夠使研究人員快速地、便捷地對在線話題事件類型做出科學判斷。未來還需要在以下幾方面進行進一步研究:(1)目前觀測社會響應系統函數的平臺集中于少量互聯網搜索引擎提供的搜索指數查詢平臺,對在線話題的收錄數量有限,無法涵蓋全部在線話題,需進一步擴大觀測平臺的選擇范圍;(2)此方法對觀測數據要求較高,要求函數中必須可體現出一個完整的話題生命周期。下一步可嘗試結合定量分析,預測正處于發展階段的在線話題的未來發展趨勢;(3)由于定性方法的局限性,只能大致根據話題趨勢判斷出其性質,若在實際操作時遇到模棱兩可、無法確定的情況,還需考慮依據專家經驗來進一步明確,未來需通過大量基于此方法的實證研究來總結補充完善此方法,使之在快速有效的基礎上能夠更加精確細致、盡可能客觀周全。
[1] BON Gustave Le. The Crowd: A Study of The Popular Mind[M]. New York: The Macmillan Co., 1896: 11-43.
[2] ARMSTRONG A and HAGELIII J H. The real value of online communities[J]., 1996, 74(3): 85-95.doi: 10.12691/ijefm-2-2-2.
[3] 曹玖新, 陳高君, 吳江林, 等. 基于多維特征分析的社交網絡意見領袖挖掘[J]. 電子學報, 2016, 44(4): 898-905. doi: 10. 3969/j.issn.0372-2112.2016.04.021.
CAO Jiuxin, CHEN Gaojun, WU Jianglin,Multi- feature based opinion leader mining in social networks[J]., 2016, 44(4): 898-905.doi: 10.3969/ j.issn.0372-2112.2016.04.021.
[4] 吳信東, 李毅, 李磊. 在線社交網絡影響力分析[J]. 計算機學報, 2014(4): 735-752.
WU Xindong, LI Yi, and LI Lei. Influence analysis of online social networks[J]., 2014(4): 735-752.
[5] 李東方, 俞能海, 尹華罡. 一種Web 2.0環境下互聯網熱點挖掘算法[J]. 電子與信息學報, 2010, 32(5): 1141-1145.doi: 10. 3724/SP.J.1146.2009.00641.
LI Dongfang, YU Nenghai, and YIN Huagang. Mining hot topic on Internet under web 2.0[J].&, 2010, 32(5): 1141-1145. doi: 10. 3724 /SP.J.1146.2009.00641.
[6] ZHAO L, LI Y, LIU X,. A graph-based bursty topic detection approach in user-generated texts[C]. IEEE Web Information System and Application Conference, Tianjin, China, 2015: 273-278. doi: 10.1109/WISA.2014.57.
[7] ZHANG C, WANG H, CAO L,. A hybrid term-term relations analysis approach for topic detection[J].-, 2015, 93(11): 109-120.doi: 10.1016/j.knosys.2015.11.006.
[8] 劉權, 郭武. 基于核主成分分析的話題跟蹤系統[J]. 清華大學學報: 自然科學版, 2013(6): 865-868.
LIU Quan and GUO Wu. Topic tracking system based on kernel principal component analysis[J].:, 2013(6): 865-868.
[9] 謝麗星, 周明, 孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J]. 中文信息學報, 2012, 26(1): 73-83.
XIE Lixing, ZHOU Ming, and SUN Maosong. Sentiment analysis and feature extraction of Chinese micro-blog based on hierarchical structure[J]., 2012, 26(1): 73-83.
[10] REN Yafeng, WANG Ruimin, and JI Donghong. A topic- enhanced word embedding for twitter sentiment classification [J]., 2016, 24(7): 1031-1040.doi: 10. 1016/j.ins.2016.06.040.
[11] 劉玉新. Web2.0互聯網在線話題發現和熱度評估[D]. [碩士論文], 華南理工大學, 2013: 23-45.
LIU Yuxin. Web2.0 Internet online topic discovery and hotness evaluation[D]. [Master dissertation], South China University of Technology, 2013: 23-45.
[12] 龍志祎, 程葳, 沈俊輝. TDT中新發現話題的分類研究與實現[J]. 武漢理工大學學報: 信息與管理工程版, 2009, 5(5): 762-765.
LONG Zhiyi, CHEN Wei, and SHEN Junhui. Research and implementation of new detected topic classification in TDT technology[J].:&, 2009, 5(5): 762-765.
[13] 劉寶忠. 微博客在線社會網絡的特性研究[D]. [碩士論文], 西安理工大學, 2011: 32-35.
LIU Baozhong. The research on the characteristics of microblog[D]. [Master dissertation], Xi,an University of Technology, 2011: 32-35.
[14] 張永軍, 劉金嶺, 馬甲林. 中文短信文本信息流中多話題的分類抽取[J]. 現代圖書情報技術, 2014, 30(Z1): 101-106.
ZHANG Yongjun, LIU Jinling, and MA Jialin. Classification of multi topic extraction based on Chinese short information text message flow[J]., 2014, 30(Z1): 101-106.
[15] 易欣. “微話題”的社會語言學解讀[J]. 北方文學旬刊, 2013(6): 143-145.
YI Xin. A sociolinguistic interpretation of the “micro topic”[J]., 2013(6): 143-145.
[16] 張萌. 關于新浪微博熱門話題的分析研究[D]. [碩士論文], 山東大學, 2015: 11-24.
ZHANG Meng. The analysis of the hot topics on Sina microblog[D]. [Master dissertation], Shandong University, 2015: 11-24.
[17] 洪宇, 張宇, 劉挺, 等. 話題檢測與跟蹤的評測及研究綜述[J]. 中文信息學報, 2007, 21(6): 71-87.doi: 10.3969/j.issn.1003- 0077.2007.06.011.
HONG Yu, ZHANG Yu, LIU Ting,. Review on the evaluation and research of topic detection and tracking[J]., 2007, 21(6): 71-87. doi: 10.3969/j.issn.1003-0077.2007.06.011.
[18] ELLISON N B. Social network sites: Definition, history, and scholarship[J]., 2007, 13(1): 210-230.doi: 10.111/j.1083- 6101.2007.00393x.
[19] SPROULL L. Online Communities[M]. New York: Handbook of Computer Networks: Distributed Networks, Network Planning, Control, Management, and New Trends and Applications, 2012: 898-914.doi: 10.1002/047148296X. tie128.
[20] ALDRICH H E and RUEF M. Organizations Evolving[M]. London: SAGE Publications Ltd,2006: 121-123. doi: 10. 4135/9781446212509.
[21] MATZAT U. A theory of relational signals in online groups [J].&, 2009, 11(3): 375-394.doi: 10.1177/ 1461444808101617.
[22] SORNETTE D, DESCHATRES F, GILBERT T,. Endogenous versus exogenous shocks in complex networks:an empirical test using book sale rankings[J]., 2004, 93(22): 211-218.doi: 10.1103/PhysRevLett. 93.228701.
[23] CRANE R. Robust dynamic classes revealed by measuring the response function of a social system[J]., 2008, 105(41): 15649-15653.doi: 10.1073/pnas.0803685105.
[24] KWAK H, LEE C, PARK H,. What is twitter, a social network or a news media?[C].the 19th International World Wide Web (WWW) Conference,Raleigh, NC, USA, 2010: 591-600.
[25] 許小東. 管理者工作內源壓力與外源壓力的結構模型研究[J]. 管理工程學報, 2007, 21(1): 3-40.
XU Xiaodong. A structure modeling study on the job intrinsic stressors and extrinsic stressors of the managers[J]., 2007, 21(1): 3-40.
[26] POSNER M I. Orienting of attention[J]., 2007, 32(1): 3-25.
[27] 宋恩梅, 左慧慧. 新浪微博中的“權威”與“人氣”: 以社會網絡分析為方法[J]. 圖書情報知識, 2012(3): 43-54.
SONG Enmei and ZUO Huihui.“Authority” and “popularity” in micro-blog Sina: A social network analysis method[J].,&, 2012(3): 43-54.
LI Shanshan.Baidu Tieba 10 anniversary, for the interest and life-on the BBS ten years fans cultural changes[J]., 2014(10): 202-204.
LU Shuang.Analysis of the characteristics of the network interest margin group-Baidu Tieba posted as an example[J]., 2015(3): 47-48.
Research on Online Group ClassificationBased on the Response Function of Social System
LIU Jiaqi①QI Jiayin②③①
(Institute of Economic Management, Beijing University of Posts and Telecommunications, Beijing 100876, China)②(Key Laboratory of Trustworthy Distributed Computing and Service, Beijing University of Posts and Telecommunications, Beijing 100876, China)③(Institute of Business Administration, Shanghai University of International Business and Economics,Shanghai 201620, China)
Devoted to enriching the research system of online group, and laying the foundation for exploring deep scientific problem in the future, this paper discusses the definition of online group, online topic, common classification methods, and primarily introduces a new qualitative method of online topic classification based on observing the trend of a social system response function. Through this method, online topic discussed by online group can be divided into exogenous critical topic, exogenous subcritical topic, endogenous critical topic, and endogenous subcritical topic. The standardized steps to this method are put forward, and it is figured out that the problems may occur when applying it to the practice. What’s more, this method is tried to estimate the distribution of four types of topics in the two representatives of online social network platform “Sina microblog” and “Baidu Tieba”.
Social network; Online group; Online topic; Qualitative classification; Response function of social system
G206.3; TP311
A
1009-5896(2016)09-2141-09
10.11999/JEIT160515
2016-05-23;
2016-07-22;
2016-08-09
國家973基礎重大課題(SQ2012CB037347),國家自然科學基金(71231002)
The Major State Basic Research Development Program of China (973 Program)(SQ2012CB037347), The National Natural Science Foundation of China (71231002)
齊佳音 qijiayin@139.com
劉嘉琪: 女,1993年生,博士生,研究方向為社會網絡分析、在線用戶行為分析.
齊佳音: 女,1972年生,博士生導師,研究方向為在線用戶關系管理、非常規突發事件應急管理、互聯網輿情管理.