趙 華,章成志
利用作者主題模型進行圖書館UGC的主題發現與演化研究*
趙華,章成志
通過對在線社交網絡上圖書館用戶生成內容(UGC)的分析,可以從宏觀上更好地了解我國圖書館機構關注的熱點話題及其演化情況。文章以新浪微博為數據源,獲取一定時段我國圖書館微博的內容數據,依據作者主題模型獲取候選主題,通過對候選主題進行聚類確定合適的話題數,根據作者主題模型結果計算相鄰時間片主題之間的相似度,在此基礎上分析主題的演化,最終完成不同圖書館主題分布及演化的差異分析。實證研究結果表明:目前我國圖書館微博主要關注新書推薦、講座信息、圖書館服務、圖書信息等主題;各月份的關注主題差異不大;除了共同關注的圖書館服務、新書推薦等話題之外,上午時段關注音樂和大學生相關話題,下午關注講座信息和公益話題,晚上時段關注公益和大學生話題。
主題發現主題演化圖書館微博在線社交網絡用戶生成內容
引用本文格式趙華,章成志.利用作者主題模型進行圖書館UGC的主題發現與演化研究[J].圖書館論壇,2016(7):34-45.
微博是近年來新興的一種網絡信息傳播方式。自2006年Twitter問世以來,類似的服務如雨后春筍般在各個國家出現。由于其便捷性、即時性、互動性、裂變式傳播等特點,微博迅速成為公眾信息交流的新型平臺,世界各地越來越多的用戶在微博上表達自己的想法。截至2015 年6月,我國微博用戶規模為2.04億,其中使用新浪微博的用戶占69.4%[1];Twitter的活躍用戶為3.16億[2]。身處轉型過程之中的圖書館,正試圖在傳統的運作模式之外尋求一種新的發展方向[3],其中,服務模式的變革和創新是圖書館轉型的重要內容,而微博的應用正是拓展傳統圖書館服務模式和服務內容的一種新途徑,因此越來越多的圖書館開始提供微博服務[4]。通過比較分析在線社交網絡上圖書館用戶生成內容(User Generated Content,UGC)的主題演化,可以從宏觀上更好地了解我國圖書館機構關注的熱點話題及其演化情況。
縱觀現有的研究與應用,鮮有針對在線社交網絡上圖書館用戶生成內容的主題發現與演化研究。本文以圖書館微博為研究對象,從新浪微博平臺上抓取圖書館用戶的微博語料,使用作者主題模型(Author-Topic Model,ATModel)建模的方法抽取候選話題,對候選話題進行聚類,確定較為合適的話題數,然后再次采用作者主題模型進行話題建模以確定最終話題。在此基礎上,計算主題相似度,完成圖書館用戶發布內容的主題發現、圖書館微博話題演化分析以及不同時段話題分布的差異分析。結果發現,目前我國圖書館微博主要關注新書推薦、講座信息、圖書館服務、圖書信息等主題;各月份的關注主題差異不大;除此之外,上午時段主要關注音樂和大學生相關話題,下午以講座信息和公益話題為主,晚上時段的關注熱點聚焦于公益和大學生話題。
1.1圖書館微博的相關研究
作為社交網絡平臺的重要代表,微博廣受學界關注[5-11],有關圖書館微博的研究也越來越多。2010年,王妙婭使用統計分析的方法,以新浪微博上的13個圖書館用戶的微博信息為實驗數據,對圖書館微博的應用現狀進行了研究[12]。2011年,陳琳取樣分析新浪微博圖書館用戶的信息,對圖書館微博群組、微博賬戶、微博內容等現狀進行了揭示[13]。2012年,黃淑敏采集20個新浪微博認證的圖書館官方微博的實驗數據,通過微博數、關注數、粉絲數、注冊天數、原創率等指標分析圖書館微博的影響力[14]。2014年,李曉靜等將新浪微博認證的圖書館微博用戶分為個人用戶和官方用戶,通過網絡調查方法,對這兩種用戶的特征進行了研究,提出圖書館微博用戶發展策略[15]。同年,劉國敏對圖書館微博社區的用戶參與行為進行了研究[16]。目前國內外主要研究圖書館微博的概念、特征、優勢、作用、發布內容、現狀分析與發展策略、存在問題與解決途徑等[17],對圖書館微博內容方面的研究不夠深入。
1.2主題發現與演化的相關研究
話題的演化反映了一個話題從提出、發展、衰亡到最后結束的過程。2010年,單斌等根據引入時間方式的不同,總結了三種不同的演化方法:(1)將時間作為可觀測變量結合到LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)模型中;(2)在整個文本集合上用LDA模型生成話題,然后按文本的時間信息,根據話題后驗離散地分析話題隨時間的演化;(3)將文本集合先按一定時間粒度離散到相應的時間窗口,在每個窗口上運用LDA模型來獲取演化[18]。
國內外很多學者采取不同的方法來研究話題檢測及追蹤,并進行了實證研究。比如:2010年,Ramage等使用半監督的Labeled LDA對Twitter上1周的數據進行實驗研究,將話題分為四種類型,并對四類話題的強度差異進行了分析[19]。2011年,Wayne Xin Zhao等比較了Twitter和New York Times上話題的類型,對比分析兩種媒體上話題在分布、內容、覆蓋程度、轉發程度等方面存在的差異[20]。2012年,RuiLi等提出了一個基于Twitter的事件檢測分析系統(TEDAS),檢測新事件、分析事件的時空模式以及識別事件的重要性[21]。同年,Yuheng Hu等提出了聯合貝葉斯模型,并對該模型進行定量和定性評估[22]。2013年,Abdelhaq等開發了EvenTweet系統,根據用戶所發微博及其時空信息,檢測當地實時事件,跟蹤事件隨時間的演化,并進行了實證研究[23]。同年,史慶偉等基于AT和TOT(Topics over Time,主題演化)模型,構建了作者主題演化模型,從科技文獻中挖掘隱含主題、研究人員的研究興趣及其演化規律[24]。2014年,周振宇等從話題關注度、詞匯差異度、話題演化度三個方面對新浪新聞和新浪微博兩個平臺的差異性進行了對比分析[25]。同年,張玥等對突發事件在新浪微博和新浪新聞兩個平臺上輿情傳播的特征和規律進行了比較分析[26]。
綜上所述,目前大量研究都是針對微博平臺展開,但對圖書館微博內容的研究不夠深入,且缺少對圖書館微博主題發現及演化方面的研究。因此,本文用作者主題模型進行話題建模,以圖書館新浪微博為研究對象,研究圖書館微博的話題分布和話題演化,比較不同時段話題分布存在的差異,多角度地了解微博內容的主題分布情況,從宏觀上了解我國圖書館的關注熱點及其演化。
2.1研究框架
為了優化圖書館現有的信息服務,本文以新浪微博為研究平臺,以圖書館微博為實證對象,利用聚類的方法確定主題數;結合時間信息,使用作者主題模型建模的方法發現主題;并結合相似度計算的方法判斷主題間的演化關系。具體研究框架如圖1所示。

圖1 圖書館微博主題發現及演化研究框架圖
首先,從新浪微博上獲取圖書館微博用戶的微博語料,將微博語料分別以月份和時段為時間片進行劃分,對圖書館微博語料進行作者主題模型建模,挖掘候選主題;接著根據作者主題模型生成的“主題-詞項”矩陣計算得到同一時間片內主題間的相似度,對主題進行聚類,從而得到每一時間片較為準確的主題數;然后,根據得到的主題數對圖書館微博語料進行二次作者主題模型建模,計算相鄰時間片之間的主題相似度;最后對圖書館微博的主題及其演化進行分析。
本文使用的關鍵技術主要包括作者主題模型建模、主題數確定方法及話題演化關系確定方法,下一小節將對這些關鍵技術進行描述。
2.2關鍵技術描述
2.2.1作者主題模型
本文采用作者主題模型進行興趣抽取。作者主題模型能夠將文檔和作者結合起來,在一個統一的框架下同時在作者和文檔水平進行建模。
作者主題模型認為每個作者有一個主題概率分布θ,每個主題有一個詞項概率分布φ,模型如圖2所示。該模型的生成過程[27]如下:
(1)對于每個作者,抽取多項式概率分布θ;
(2)對于每個主題,抽取多項式概率分布φ;
(3)對文檔d中的每個詞項:(a)抽取一個作者x;(b)抽取一個主題z;(c)抽取一個詞項w;
抽取過程重復Nd次,形成文檔d。

圖2 作者主題模型圖
圖2中包含如下參數:θ、φ、α、β、ad、x、z、w、D、Nd、K、T。其中,θ為作者—主題概率分布;φ為主題-詞項概率分布;α為Dirichlet先驗參數,表示文檔-主題概率分布的先驗;β為Dirichlet先驗參數,表示主題-詞項概率分布的先驗;ad為作者集合上的均勻分布;x為作者;z為主題;w為詞項;D為文檔集合;Nd為重復采樣次數;K為作者的數量;T是主題的數量。
2.2.2主題數確定方法
不同時間片討論的主題存在著一些差異。為了較準確地確定每個時間片的主題個數,本文首先利用作者主題模型確定候選主題,然后根據作者主題模型所得的“主題-詞項”矩陣文檔計算各個時間片內主題間的JS距離(見公式1),接著使用AP聚類算法對候選主題進行聚類,將聚類的類簇數作為最終的主題數目。
其中,AP算法是根據N個數據點之間的相似度進行聚類的方法,不需要事先指定聚類數目,它將所有的數據點都作為潛在的聚類中心。AP算法[28-29]過程如下:將N個數據點之間的相似度組成N×N的相似度矩陣S;以S矩陣對角線上的數值s(k,k)作為k點能否成為聚類中心的評判標準,該值越大,表明這個點成為聚類中心的可能性也就越大,這個值又稱作參考度。聚類的數量受到參考度的影響,如果認為每個數據點都有可能作為聚類中心,那么參考度就應取相同的值。如果取輸入的相似度的均值作為參考度的值,得到聚類數量是中等的。如果取最小值,則得到類數最少的聚類。

其中,P(i)表示同一時間片內主題P中詞i的概率,Q(i)表示同一時間片內主題Q中詞i的概率。
2.2.3話題演化關系確定方法
本文通過計算相鄰時間片主題間的余弦相似度[30]來確定主題的演化情況,計算方法如公式2:

其中,Ai表示詞i在主題A中的概率,Bi表示詞i在主題B中的概率。
本文參照Jianyu Li等[31]的研究,根據主題之間的相似度來確定兩個主體之間是否具有演化關系。設置相鄰時間片不同主題之間的相似度的閾值為P0,如果相似度大于等于P0,就認為后一個時間片的主題是前一個時間片主題的延續,兩個主題之間具有演化關系。
3.1實驗數據
本文利用新浪微博上119家圖書館的新浪微博為數據源①,時間跨度為2013年1月1日至2013年12月31日。其中,微博數為65529條;經過分詞、詞性標注、去停用詞和對少于2個單詞的微博進行過濾等預處理后,得到的微博數為56726條。
以月份為時間片進行時間切割,得到各時間片的微博數及百分比,參見表1。從表1可發現,2013年新浪微博圖書館用戶各月的微博數在5.81%~11.19%之間波動,其中,2月和8月微博數最少,4月和5月微博數最多,總體分布比較均勻。
為了揭示不同時段圖書館微博話題分布的差異,以時段為時間片進行時間切割,將一天劃分為上午(03:00~12:00)、下午(12:00~19:00)、晚上(19:00~次日03:00)三個時段,各時段的微博數分布如下:上午22574條,下午23998條、晚上9363條②。
3.2實驗結果分析
本文對圖書館微博的實驗結果從主題總體分布、時段分布和月份分布及演化三個方面進行分析。使用作者主題模型獲取候選主題,采取開源的Gibbs Sampling為采樣工具,其參數設置如下:K設為50,模型參數α,β分別設為50/K和0.1。隨后,根據作者主題模型建模結果計算不同主題之間的JS距離,然后根據所得JS距離對主題進行AP聚類。

表1 2013年圖書館新浪微博數據

表2 基于作者主題模型的圖書館微博數據集上的8個中心主題
3.2.1圖書館微博主題的總體分布結果分析
本文對圖書館微博總體數據集建模結果進行AP聚類之后,得到8個中心主題,如表2所示。表2給出了利用作者主題模型計算得到的8個主題,并對主題進行了人工歸納總結,每個主題的描述包括兩個部分:(1)與主題最相關的前10個詞項;(2)與主題最相關的前10個作者。
從表2可以看出,這8個中心主題分別與“早安問候”(主題2)、“活動信息”(主題6)、“新書推薦”(主題8)、“講座信息”(主題10)、“清華文科”(主題15)、“圖書館服務”(主題24)、“圖書信息”(主題28)、“人生感悟”(主題48)相關。作者與主題有較好的對應關系,如“清華文科”主題的前三個作者中,清華大學圖書館、清華文科圖書館和浙江海洋學院圖書館與主題詞中的“清華大學”“清華”“文科”“人文”“浙江”“海洋學院”等密切相關。從主題的總體分布可以看出,三江學院圖書館、信陽師范學院圖書館等經常發布“早安問候”相關主題的微博;杭州圖書館經常發布“活動信息”“圖書館服務”方面的信息;上海圖書館信使側重發布“活動信息”“講座信息”“圖書館服務”“人生感悟”“新書推薦”等方面的信息;民間流動圖書館重視發布以“人生感悟”為主題的微博。

(續上表)
3.2.2圖書館微博主題的時段分布結果分析
將2013年的微博語料劃分為上午、下午、晚上三個時段,進行作者主題模型建模,建模結果如表3、表4和表5所示。其中,上午時段的主題數為10,通過二次AP聚類,得到5個中心主題,如表3所示。
從表3可以看出,圖書館微博上午時段的5個中心主題分別與“大學生”(主題1)、“音樂”(主題9)、“親子閱讀”(主題2)、“圖書館服務”(主題5)、“新書推薦”(主題10)相關。三峽大學圖書館漂流書屋、三峽大學圖書館讀者俱樂部等對“大學生”這個主題比較關注;北京市東城區圖書館、庫克音樂等比較側重“音樂”主題;悠貝親子圖書館、愛貝樂親子圖書館等對“親子閱讀”相關主題比較關心;廣東財經大學圖書館、重慶大學圖書館等注重“圖書館服務”話題;上海圖書館信使、華東交通大學圖書館等經常進行“新書推薦”。
從表4可以看出,圖書館微博下午時段的5個中心主題分別與“新書推薦”(主題1)、“講座信息”(主題3)、“親子閱讀”(主題4)、“圖書館服務”(主題5)、“公益”(主題2)相關。上海圖書館信使、民間流動圖書館等關心“新書推薦”主題;杭州圖書館、北京市東城區圖書館等注重“講座信息”的發布;悠貝親子圖書館、愛貝樂親子圖書館依舊把“親子閱讀”相關話題作為重點;四川大學圖書館、三峽大學圖書館漂流書屋等側重“圖書館服務”方面的信息;立人圖書館、閔行區圖書館等注重與“公益”相關的話題。

表3 圖書館微博上午時段數據集上的5個中心主題

表4 圖書館微博下午時段數據集上的5個中心主題
從表5可以看出,圖書館微博晚上時段的4個中心主題分別與“新書推薦”(主題1)、“親子閱讀”(主題3)、“公益”(主題4)、“大學生”(主題2)相關。順德圖書館、杭州圖書館等側重“新書推薦”;上海圖書館信使、悠貝親子圖書館等關注“親子閱讀”;立人圖書館、四川大學圖書館等對“公益”主題更為關注;三峽大學圖書館漂流書屋、重慶圖書館等關心與“大學生”相關的話題。

表5 圖書館微博晚上時段數據集上的4個中心主題
綜上可發現,上午、下午、晚上三個時段微博發布的內容既有共同點,也存在著差異。“親子閱讀”“新書推薦”的相關話題貫穿三個時段;“圖書館服務”的話題常在上午、下午兩個時段被提到;“公益”相關話題往往在下午、晚上兩個時段發布;“大學生”話題在上午、晚上兩個時段受到更多的關注;此外,“音樂”相關話題常出現在上午時段,“講座信息”相關話題則常在下午時段被提及。而且,從上面的分析可以看出,不同圖書館的話題各有側重。
3.2.3圖書館微博主題的月份分布及其演化結果分析
本文對所得候選主題進行AP聚類,以得到的類簇數作為主題數,進行二次主題建模。選取閾值P0為0.7來展示圖書館微博主題演化情況,包括主題的新生、合并、分裂和消亡,結果見附錄。附錄中每個方框中的一行代表一個主題,有連線關系的兩個主題間具有演化關系,箭頭末端的主題是箭頭始端的主題在下個月的演變結果。附錄給出了利用作者主題模型計算得到的主題,每個主題的描述包括三個部分:(1)主題名稱;(2)與主題最相關的前10個詞項;(3)與主題最相關的前4個作者(由于篇幅的限制,未給出主題詞詞項和作者的概率,且只給出前4個最相關的作者)。
從附錄可以看出,2013年1月,立人圖書館、上海圖書館信使、順德圖書館等發布較多與“公益”“新書推薦”和“圖書館服務”主題相關的微博。2月,“圖書館服務”是上海圖書館信使等的主要話題,而“星云大師”成為鑑真圖書館等的主要話題。3月,“新書推薦”“圖書館服務”“親子閱讀”成為上海圖書館信使、順德圖書館和立人圖書館等的熱議話題。4月,“講座信息”“親子閱讀”“圖書館服務”等成為立人圖書館、愛貝樂親子圖書館、四川大學圖書館等的話題熱點。5月,民間流動圖書館、杭州圖書館等延續了之前的“講座信息”“親子閱讀”“新書推薦”等話題,且出現了“圖書信息”“大學生”兩個新話題。6-7月和5月討論的話題大致相同,新增了“圖書館服務”的話題。8月,立人圖書館、華東交通大學圖書館等出現“志愿者”相關話題。9月,話題較單一,主要是上海圖書館信使等關注的“圖書館服務”相關話題。10月,“圖書信息”“親子閱讀”“活動信息”“講座信息”等主題依舊是重點。11月,延續了之前的熱點話題,除了“親子閱讀”“講座信息”“圖書信息”等話題,新增了上海圖書館信使等關心的“新書推薦”和三峽大學圖書館漂流書屋、三峽大學圖書館讀書俱樂部等發布的“大學生”相關話題。12月,“活動信息”和“大學生”相關話題成為熱點。
本文以新浪微博為數據源,獲取一定時段我國圖書館微博內容數據,然后依據作者主題模型獲取候選主題,通過對候選主題進行聚類,確定合適的話題數;接著根據作者主題模型結果計算相鄰時間片主題之間的相似度,在此基礎上分析主題的演化;最終完成不同圖書館主題分布及演化的差異分析。本文實證結果表明:目前我國圖書館微博主要關注新書推薦、講座信息、圖書館服務、圖書信息等主題;各月份的關注主題差異不大;除此之外,上午、下午以及晚上三個時段關注的話題各有側重。
本文只對不同圖書館在不同時間片的微博內容進行了粗略的分析,未能結合其他微博的信息進行更詳細的分析。因此,未來本研究團隊將把時段粒度劃分得更細,結合粉絲數、用戶評論、微博數量、時間、用戶行為特征等信息,更為全面細致地揭示圖書館微博的使用現狀,為圖書館用戶提供優化建議,以提高圖書館微博影響力。
注釋
①該微博數據由合肥學堂信息技術有限公司友情提供,在此表示感謝。
②在對時段數據預處理的過程中,進一步過濾了791條短微博。
[1]中國互聯網絡信息中心.第36次中國互聯網絡發展狀況統計報告[R/OL].[2015-09-01].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P02015 0723549500667087.pdf.
[2]Twitter Reports Second Quarter 2015 Results[R/OL].[2015-09-01].http://files.shareholder.com/downloads /AMDA-2F526X/0x0x841607/E35857E7-8984-48C1 -A33B-15B62F72A0F7/2015_Q2_Earnings_press_ release.pdf.
[3][4][17]王曼,張秋.國內外圖書館微博研究綜述[J].圖書情報工作,2012,56(23):135-140.
[5]Hend S.Al-Khalifa,Rasha M.Al-Eidan.An experimental system for measuring the credibility of news content in Twitter[J].International Journal of Web Information Systems,2011,7(2):130-151.
[6]Mike Thelwall,Kevan Buckley,Georgios Paltoglou.Sentiment in Twitter events[J].Journal of the American Society for Information Science and Technology,2011,62(2):406-418.
[7]Dhiraj Murthy,Scott A.Longwell.Twitter and disasters:TheusesofTwitter duringthe 2010 Pakistan floods [J].Information,Communication&Society,2013,16 (6):837-855.
[8]王曉光,袁毅,滕思琦.微博社區交流網絡結構的實證分析[J].情報雜志,2011,30(2):199-202.
[9]朱恒民,李青.面向話題衍生性的微博網絡輿情傳播模型研究[J].現代圖書情報技術,2012,(5):60-64.
[10]Sarah Vieweg,Amanda L.Hughes,Kate Starbird,et al.Microblogging during two natural hazardsevents:what twitter maycontribute to situationalawareness[C]// Proceedingsofthe SIGCHI conference on human factors in computing systems,Atlanta,Georgia,USA.New York:ACM,2010:1079-1088.
[11]AlexanderMills,RuiChen,JinKyuLee,etal.Web2.0 emergency applications:How useful can Twitter be for emergency response?[J].Journal of Information Privacy andSecurity,2009,5(3):3-26.
[12]王妙婭.國內圖書館微博應用現狀及建議[J].圖書館學研究,2010(12):39-41.
[13]陳琳.國內圖書館微博應用現狀研究[J].圖書館學研究,2011(24):30-33.
[14]黃淑敏.圖書館微博使用特征及發展策略研究[J].大學圖書館學報,2012(1):78-83.
[15]李曉靜,丁樹亭.新浪圖書館微博用戶特征研究[J].圖書館論壇,2014(1):62-66.
[16]劉國敏.圖書館微博社區的用戶參與行為研究[J].圖書館論壇,2014(1):57-61,73.
[18]單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學報,2010,24(6):43-49.
[19]Daniel Ramage,Susan Dumais,Dan Liebling.CharacterizingMicroblogswith TopicModels[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media.Washington DC,USA:AAAIPress,2010:130-137.
[20]Wayne Xin Zhao,Jing Jiang,Jianshu Weng,et al.Comparing Twitter and traditional media using topic models[C]//Proceedingsof the 33rd European conference on Advances in Information Retrieval.Berlin:Springer,2011:338-349.
[21]Rui Li,Kin Hou Lei,Ravi Khadiwala,et al.Tedas:ATwitter-basedeventdetectionandanalysissystem[C]// Proceedings of the 2012 IEEE 28th International Conference on Data Engineering.Washington,DC:IEEE,2012:1273-1276.
[22]Yuheng Hu,Ajita John,Fei Wang,et al.ET-LDA:Joint Topic Modeling for Aligning Events and their TwitterFeedback[C]//ProceedingsoftheTwenty-Sixth AAAI Conference on Artificial Intelligence July 22-26,2012,Toronto,Ontario,Canada.Palo Alto,CA:AAAIPress,2012:59-65.
[23]HamedAbdelhaq,Christian Sengstock,MichaelGertz.Eventweet: Online localized event detection from Twitter[C]//Proceedings of the VLDB Endowment.Riva del Garda,Trento,Italy:VLDB Endowment.2013:1326-1329.
[24]史慶偉,喬曉東,徐碩,等.作者主題演化模型及其在研究興趣演化分析中的應用[J].情報學報,2013,32(9):912-919.
[25]周振宇,李芳.特定事件微博與新聞報道話題對比研究[J].中文信息學報,2014,28(1):47-55.
[26]張玥,孫霄凌,朱慶華.突發公共事件輿情傳播特征與規律研究——以新浪微博和新浪新聞平臺為例[J].情報雜志,2014,33(4):90-95.
[27]Mark Steyvers,Padhraic Smyth,Michal Rosen-Zvi,et al.Probabilisitic author-topic models for information discovery[C]//Proceedingsof the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Seattle.Washington:ACM,2004:306-315.
[28]Brendan J.Frey,Delbert Dueck.Clustering by passing messages between data points[J].Science,2007,315 (5814):972-976.
[29]甘月松,陳秀宏,陳曉暉.一種AP算法的改進:M-AP聚類算法[J].計算機科學,2015,42(1):232-267.
[30]G.Salton,A.Wong,C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of theACM,1975,18(11):613-620.
[31]Jianyu Li,SanaMalik,Alison Smith,et al.TopicFlow:Visualizing Topic Alignment ofTwitter Data over Time [EB/OL].[2015-07-01].https://wiki.cs.umd.edu/ cmsc734_f12/images/0/05/TopicFlowFinalReport2.pdf.
(責任編輯:何燕)
附錄:我國圖書館新浪微博主題演化圖(2013年1月~2013年12月)
Topic Detection and Evolution of Library User Generated Content Based on Author-Topic Model
ZHAO Hua,ZHANG Cheng-zhi
Based on topic detection and evolution of library User Generated Content(UGC)from online social networks,one can observe the hot topics and their evolution from a macro perspective.In this paper,the authors extract library corpus from Weibo(microblog)in a certain period.Author-Topic model is used to obtain candidate topics.According to the results of topics clustering,the authors get an appropriate topic number.Then,the authors calculate the similarities between two neighbor topics according to time.Finally,the authors present a comparative analysis of topic evolution between different libraries.The experimental results show that:libraries in China focus on the topics of new arrivals,lecture information,library services,book information and others;topics vary little each month;library Weibos concern the issues about music and college students in the morning,lecture information and public service in the afternoon;public service and college students in the evening in addition to the common topics such as library service,new arrivals.
topic detection;topic evolution;library microblog;online social network;UGC


*本文系國家社會科學基金項目“在線社交網絡中基于用戶的知識組織模式研究”(項目編號:14BTQ033)和國家社會科學基金重點項目“大數據環境下社會輿情與決策支持方法體系研究”(項目編號:14AZD084)研究成果之一
趙華,女,南京理工大學情報學專業碩士研究生;章成志,男,博士,南京理工大學教授,博士生導師,通訊作者,E-mail:zhangcz@ njust.edu.cn。
2016-04-19