基于網絡中心節點的微博社區發現方法研究*

2018-07-09 06:45:02修揚，何莉

通信技術 2018年6期

關鍵詞：內容

修揚，何莉

（四川信息職業技術學院，四川廣元 628017）

0 引言

社會個體通過彼此之間的相互聯系，形成了一種相對穩定的社會體系，這種相對穩定的社會體系被稱為社會網絡[1]。現實生活中，存在很多人未察覺到的社會網絡，如整個城市的交通或者電力網、人們之間進行商品交易形成的交易網和通過人際關系形成的人際關系網等。隨著web2.0的發展，越來越多的網絡社交平臺相繼出現。國外的twitter、facebook在最近幾年迅速普及，國內的微博更是一個強大的社交平臺。相對于傳統的社交網站，微博具有明顯的發展優勢，主要源于微博方便快捷的操作方式和內容支持原創的特點。原創內容有助于用戶之間產生聯系，微博的關注功能、轉發功能和@功能也增強了微博用戶間的交互性。用戶通過微博的關注、轉發以及@等互動方式互動，逐漸形成了虛擬的社會網絡。虛擬網絡的發展，一定程度上反映了真實的社會關系。與其他社交平臺相比，微博具有“網絡社交”和“媒體”功能[2]。由此可見，微博在新聞輿論、信息傳播和網絡輿情等方面有著極其重要的作用。

近年來，研究者們主要從重疊社區的劃分和非重疊社區的劃分兩個方面研究社區的分類問題。本文將主要介紹研究者們在非重疊社區發現方面上的研究現狀。

在Girvan和Newman等人[3]最初的論文中，他們研究了Santa Fe研究所的研究人員組成的協作網絡，利用提出的方法能夠識別研究所不同部門的成員。

Blondel等人[4]研究了比利時電話運營商移動電話的交互網絡，研究的網絡節點達到260萬，通過使用一種模塊度優化的層次聚類算法將節點聚類，將節點劃分到6個層次，其中最高的一層由261個用戶組組成。這261個用戶組由100多個節點組成，而這100多個節點主要被劃分到兩個組，最終表現出了比利時人由于語言不同引起的顯著差異。

Tyler等人[5]研究了惠普實驗室工作人員間的交互網絡，通過最初的Girvan-Newman算法，可以衡量某個節點到某個社區的歸屬程度。算法的最終社區劃分結果與研究人員的部門組織結構相似。

國內各個研究機構也相繼展開了對網絡社區的發現研究。林友芳等人[6]針對目前社區劃分方法中較好的方法出現的時間復雜度過高和一些快速算法的社區劃分效果不佳等問題，提出了一種模型。該模型可使節點之間的聯系邊變得穩定，很大程度上能夠表達個體間的關系緊密度，實現了一種有效社區發現方法。實驗證明，作者提出的算法具有較快的速度，劃分的社區質量較高，還能夠適應于無權或者加權網絡。

Zhou等人通過在不同的社區間交換節點，最后通過優化Shaply值來優化社區結構獲得最終的社區。作者給出了此方法的理論實現，但是實際過程中算法的復雜度較高，難以實現[7]。

李孝偉等人分析出許多社區發現方法并未考慮網絡節點的屬性和節點之間的鏈接屬性，所以提出了一種新的解決方法。結合節點自身所具有的屬性與節點鏈接所具備的屬性，提出了基于這兩個因素的新的社區發現方法。新算法對相似權值進行了定義，通過運用聚合層次算法實現了對網絡社區的劃分[8]。

從現階段國內外研究組織結構對微博的研究可以看到很多不同的研究路徑，但是這些路徑總結起來主要包括以下幾類。

（1）微博結構和特征的研究

從微博整體結構來看，微博中的各個節點呈現出嚴重的異質性，整體來說是一個異構網絡；微博網絡沒有標度，具有小世界的特點[9]。從社會網絡的角度對微博進行分析，國內外的專家學者們主要是對微博的互動結構進行探索研究。

（2）微博用戶行為的研究

對微博用戶行為進行有效分析與把握，對企業營銷或者社會輿論導向具有極其重要的意義。對微博用戶行為的研究主要包括：微博行為的動機研究、微博的行為統計分析和微博的行為預測。此外，還包括微博行為所產生的各方面影響。從微博用戶的關注行為和被關注的行為來分析，最終得到用戶的關注數量呈現長尾分布，粉絲數量呈現冪律分布[10]。

（3）微博內容的研究

在字數少于200字的微博中，微博內容豐富，個人觀點也非常龐雜。對微博內容的分析主要是基于文本（摘要、關鍵詞等）對內容進行數據挖掘，用于分析時下流行熱點問題，進行決策支持；也可以在基于微博內容數據挖掘的基礎上，對用戶的情感進行分析。有學者研究微博內容的變化趨勢，并試圖分析內容變化趨勢背后的演化規則[11]。

（4）信息傳播的規律研究

微博是一種新的信息傳播方式，隨著微博的發展，信息的傳播方式也逐漸發生了變化。通過發布微博，用戶發出的信息可以無限制傳播，且在無限制傳播的同時，其傳播速度也相當驚人。所以，微博的發展，某種意義上促進了人與人之間的交流。在國內，人們研究微博傳播主要存在兩個方面，一是新聞傳播，二是營銷學。在統計分析的基礎上發現，微博傳播速率具有規律性，傳播路徑也非常典型。探究微博傳播規律，對阻止謠言的大肆傳播具有積極的意義。

在此背景下，本文提出了基于網絡中心節點的微博社區發現方法（Micro-blog Community Discovery）——簡稱為Micro-blogCD算法。對于該方法的實現，首先利用已有的節點度、緊密度和介數三種中心節點衡量指標，通過使用熵權法計算三者的權值，再利用三者加權形式，綜合考慮節點度、緊密度和介數來衡量網絡中的中心節點。在挖掘出中心節點后，利用節點之間的結構和微博內容主題相似度來挖掘以中心節點構成的微博網絡社區。此處結構相似度是指節點與節點之間共同關注和共同粉絲數量的相似程度。在計算節點間的主題相似度時，主要利用基于LDA的開源主題模型——Gibbslda++對數據集作主題抽樣，在此基礎上，利用節點的主題余弦相似度衡量節點的主題相似性。在沒有對節點主題進行提取前，先要對節點微博信息進行處理，處理的內容主要包括分詞、去除停用詞等。在挖掘中心節點時，本文以經典的網絡數據集和新浪微博真實數據作為數據源，對本文所用的中心節點挖掘方法的可行性和效率進行驗證分析。在獲取到由網絡中心節點構成的網絡社區后，通過使用高斯定理計算旁節點到各個社區的拓撲勢大小，將旁節點劃分到拓撲勢大的社區，從而得到微博網絡社區。

1 關于本實驗

1.1 中心節點的獲取

步驟1：計算網絡中節點的節點度值、緊密度值和介數值。

步驟2：利用熵權法對節點度值、緊密度值和介數值分配權值，得到α、β和γ。

步驟3：根據α、β和γ的取值，重新計算新的節點度值、緊密度值和介數值。

步驟4：根據

獲得本文所要求的加權綜合值，然后對節點的加權綜合值進行排序。

步驟5：根據加權綜合值的排序結果，取出加權綜合值最大的10個節點，從大到小依次為w[1]～w[10]，計算 w[1]～w[10]這 10 個數之間的增量去掉最大值和最小值，計算增量的平均值設立一個閾值為其中

步驟6：將w[1]對應的節點放入A中，w[2]～w[10]代替 w[1]～w[10]，使 B 中比 w[10]小的最大的一個節點代替w[10]，B集合的節點總數減1。

步驟7：重新數10個節點w[1]到w[10]，重新計算這10個數之間的平均值如果? d 有大于的，則將轉入步驟6。

步驟8：得到最終的中心節點數組。

熵權法。熵權法[12]客觀分配權值，熵權法依照各指標的差異度，利用信息熵原理計算各指標的熵權，然后利用熵權更改各指標的權重，得到各個指標中較為客觀的權重值。在使用熵權法確定權重值結果時，某個指標的作用越大，其對應的權重值也越大。

熵權法的具體步驟如下。

步驟1：選取m個節點、n個衡量指標形成原始矩陣：

其中aij表示的是第i個節點在第j個指標下的值。

步驟2：計算第i個節點第j個指標占整個j指標的權值：

步驟3：計算第i個指標的熵值：

步驟4：計算第j個指標的權重值：

1.2 中心節點的合并

社區發現是為了找到社會網絡中的中心子團，而中心節點之間本身之間就有較強的聯系。換句話說，它們本身很有可能屬于同一個社區。因此，在社區發現過程中，有必要找到中心節點后對相似度高的中心節點進行合并。本文將從以下2個方面考慮中心節點之間的相似程度。

（1）結構上的相似性。兩個中心節點之間共同擁有的粉絲數量越高，則可能說明這兩個節點屬于同一個機構的人員，比他們擁有共同的一位同事同時關注了他倆；如果兩個中心節點之間的共同關注數量較高，則這兩個節點在生活中可能有很多交集，或者這兩個人共同關注的內容很相似。中心節點之間的相似值為 ),( jis ，即：

（2）內容上的相似性。如果這兩個中心節點所發的微博內容主題很相似，很有可能說明這兩個中心節點的生活情趣或者生活態度相似。主題相似度的計算公式為：

對結構相似度值和主題相似度值分別設立閾值在兩個中心節點之間的結構上的相似性大于閾值且博文內容主題上的相似性大于閾值時，將兩個中心節點劃分到同一個社區。如果有3個節點A、B、C，3個節點兩兩相似，則把這3個節點劃分到一個社區中；如果只有A與B相似、B與C相似，那么將優先考慮節點之間的結構相似度值。實驗過程中只要結構相似，那么節點之間的主題相似度極高；反過來，如果兩個節點的主題相似度高，節點的結構相似度不一定高。

中心節點合并過程具體如下：

步驟1：聲明1.1節中得到的中心節點數組；

步驟2：計算中心節點數組中兩兩節點之間的值和值，并設立閾值φ1、φ2。

步驟3：找出所有的 ),(jis 值和 ),( jiSim 值中的最小值，如果兩個最小值均大于21φφ、，則轉步驟5；

步驟4：合并 ),(jis 值和 ),(jiSim 值均大于閾值21φφ、的節點，再計算剩余的中心節點之間的相似度，轉步驟3。

步驟5：返回最終合并的中心節點，構成n個社區。

1.3 歸并旁節點

數據場中，網絡被看做是一個擁有N個節點的物理系統。在這個物理系統中，每一個節點周圍都客觀存在一個作用范圍。相應地，每一個節點都會受到其他節點的聯合作用。隨著節點之間的網絡距離增大，節點之間相互作用的力度也會變小。在數據場勢的概念中，目前常用高斯勢函數來描述節點之間的相互作用關系，被稱為拓撲場勢[13]：

其中φ( j )表示節點j的拓撲勢；mi表示節點i的質量，本文中mi代表的是中心節點的WUIR值；di,j表示節點i與節點j的距離；σ表示影響因子，表示節點的拓撲勢的影響范圍。

本文將拓撲勢概念應用到微博網絡中，利用所得的WUIR值表示節點的質量，di,j表示節點i與節點j之間的最短距離。因此，微博網絡中節點離中心節點越近，所得的拓撲場勢越大。

歸并旁節點的過程如下：

步驟1：計算每個旁節點到所有中心節點的最短路徑距離；

步驟2：每一個中心節點都會對旁節點起作用，那么計算旁節點在每一個網絡社區中的場勢；

步驟3：利用高斯定理的轉化形式，最終將旁節點劃分到拓撲場勢最大的社區中。

由式（7）得知，網絡中的每一個節點對其他的節點都會產生作用，σ表示節點的影響范圍。根據6度空間理論，兩個陌生人之間間隔的人數不會高于6個。在本文的歸并旁節點算法中，本文取e=6。一個網絡中的節點用戶都是通過中心節點而聚集在一起的，如果兩個節點相隔太遠，說明兩個節點歸屬社區的中心節點也相差很遠。

1.4 算法流程描述

本文的1.1節至1.3節詳細介紹了本文提出的基于網絡中心節點的微博社區發現研究的各個步驟方法。本文提出基于網絡中心節點的微博社區發現方法——Micro-blogCD算法，能更好地適應微博網絡，提高微博社區發現效率。

Micro-blogCD算法的基本流程如下：

步驟1：根據1.1節內容獲取中心節點；

步驟2：根據1.2節內容合并中心節點；

步驟3：根據1.3節內容歸并旁節點。

2 實驗驗證

為了測試基于網絡中心節點的微博社區發現方法的有效性，本文將采用一個真實的的網絡數據集——Zachary空手道俱樂部作為測試數據，然后利用爬蟲得到的新浪微博數據集，對本文提出的社區發現算法進行進一步測試，以驗證算法的準確性和可行性。

2.1 Zachary空手道俱樂部實驗

表1列出了Zachary空手道俱樂部數據集的各個節點相關的介數值排序、緊密度值排序、節點度值排序、WUIR值的排序以及PageRank值排序。其中，在使用WUIR算法前，通過熵權法計算節點度、緊密度和介數的權值分別為α=0.165 2、β=0.008 5、γ=0.826 3。

表1 Zachary數據集中通過各種算法所得的節點值排序結果

從表1顯示的數據可以看出，節點度、緊密度和介數分別從各自的角度來衡量節點的重要性。這三種方法基本上都能衡量出節點中心，但是在衡量Zachary空手道俱樂部的網絡中心時，三種方式計算出的值存在較大差異性，如圖中的26號、17號、7號等節點。此外，緊密度值與其他兩者的值相差較大。

采用加權綜合法算法，節點的重要性不再靠單一的指標來衡量，而是綜合考慮三者因素的共同影響，全面考慮節點的重要性，避免了采用一種方法的單一性。從PageRank算法中可以看出，它的計算結果與節點度、緊密度和介數的差異很大。從表1可以看出，節點1的重要性明顯比5大，但是根據PageRank算法得出的結論是1的節點重要性最小，說明PageRank不適宜用來計算節點的重要性。從表1的數據還可以看出，基于加權綜合的方法獲得的節點重要性比PageRank算法更合理，且比單一因素考慮節點重要性時更全面。

從表1數據中也可以得出，節點1和節點34是Zachary網絡的中心節點。利用高斯定理歸并網絡中的旁節點，在俱樂部網絡中拓撲勢最大的節點是1和34。由于該網絡中的節點并沒有像微博用戶節點有微博內容，因此不再計算中心節點之間的結構相似性和微博內容相似性。在獲取到中心節點后，使用旁節點到各個中心節點構成的社區的拓撲勢大小對其余節點進行歸類。利用Micro-blogCD算法對社區進行劃分的結果，如圖1所示。

圖1 Zachary Micro-blogCD算法俱樂部實驗結果

從圖1可以看出，節點3與兩個社區中的節點連接的數目相同，處于兩個社區的連接地帶，因此利用場勢來歸并旁節點時，節點3的劃分存在歧義。

利用GN算法對Zachary網絡進行社區劃分，得到如圖2所示的結果。

圖2 Zachary空手道俱樂部——GN算法結果

從圖2可以得到，GN算法將Zachary俱樂部數據集劃分了4個社區，圖中不同的顏色表示不同的社區。比較圖1與圖2，GN算法只是把圖1得到的兩個社區又進行了結構劃分。從圖2還可以看出，節點3現在仍然處于3個社區的交界地帶，因此節點3的劃分仍然存在歧義。

由于GN算法需要計算每個節點之間的介數值，基于最短路徑的網絡的時間復雜度為o(m2n)，稀疏圖矩陣的時間復雜度為o(n3)。因此，時間的復雜度較大。從模塊度的角度來看，GN算法與Micro-blogCD算法得到的社區劃分模塊度大小相當。GN算法是公認的社區劃分效果較好的方法，因此Micro-blogCD算法對于社區劃分的效果較好。Micro-blogCD算法在對Zachary數據集進行社區劃分時，因為網絡中的中心節點的數目相對較少，所以在對這34個節點進行社區劃分的時間主要消耗在歸并旁節點的過程中。但是，在旁節點的歸并過程中，場勢的大小不會因為節點歸并改變，所以省略了拓撲場勢重復計算的過程。因此，這個過程中Micro-blogCD算法的時間消耗少于GN算法。

2.2 爬蟲獲取的新浪微博數據集實驗

為了測試本文提出的網絡社區發現算法的合理性和有效性，往往需要真實的數據作支撐。一般情況下，網絡上的數據可以通過爬蟲程序獲得。通常，在爬蟲程序中設置入口URL地址，程序通過一定的策略將網頁中自己所需的內容按照一定的格式對其進行保存，網頁中的有效地址將會作為下一次爬蟲的入口。本文采用Python+Selenium調用瀏覽器的形式獲取微博數據。本文從網絡中爬取了6 235個節點和7 334條關系數據，用于網絡中心節點的獲取和網絡社區的發現。

本文借助Pajek軟件將網絡中的節點的節點度排序、緊密度排序和介數值排序，以及使用PageRank算法、WUIR算法對節點的重要性進行排序，得到的結果如表2所示。

表2 新浪微博數據節點重要性排序結果

需要顯示的數據過多，導致數據顯示不清楚，因此表2只列出了節點度排序、PageRank排序和WUIR的排序結果。其中，利用熵權法得到微博數據中節點度、緊密度以及介數三者的權值分別為α=0.321 8，β=0.002 4，γ=0.675 8。

采用加權綜合法對節點的重要性進行計算，得到WUIR值（詳見2.2節）。通過使用中心節點獲取算法，最終識別94個中心節點，分別為 1834329297、1805982651、1341556070… 和2008019865、1618051664，編號分別為1～94。

對這94個中心節點的關注列表和粉絲列表進行整理，得到兩個數據文件，分別是focus.txt和follows.txt。在focus.txt文件中，共有94行數據，每一行代表一個中心節點的關注節點id。同樣地，在follows.txt文件中也有94行數據，分別對應94個用戶的粉絲節點id。圖3表示94個節點的關注列表截圖，此處省略了follows.txt文件截圖。為了合并結構相似的中心節點，本文要尋找到94個節點中兩兩節點的關注id交集和粉絲交集，然后利用式（5）計算兩兩節點的結構相似度。本文考慮到如果兩個用戶關注的節點id更多，那么兩個節點的興趣比較類似，所以在式（5）中，將對α、β分別賦值為0.8和0.2。

圖3 中心節點關注列表截圖

本文利用微博爬蟲程序爬取了這94個節點的原創微博內容，得到weibo-content-id.txt文件，文件內容截圖如圖4所示。該文件中共有94行數據，每一行代表一個節點的微博內容。

圖4 中心節點微博內容截圖

提取微博內容的主題前，需要對微博內容進行預處理。預處理的過程包括分詞和去除停用詞。分詞的目的是將內容劃分成序列特征的文檔。英文中，空格是英文詞匯天然的分割符號；中文中，詞與詞之間之間的分割比較模糊，中文詞的詞之間沒有類似英文中的空格的統一的分割符，因此需要更多的操作。目前，常用的有基于字符串匹配的中文分詞方法[14]、基于規則[15]以及基于統計[16]的中文分詞方法。市面上也存在很多中文分詞工具，其中反響較好的是中國科學院計算技術研究所研制的漢語詞法分析系統（Institute of Computing Technology，Chinese Lexical Analysis System），簡稱為ICTCLAS。該系統的主要功能不僅包括中文分詞、詞性標注和命名實體識別，還包括新詞識別、支持用戶詞典、支持繁體中文、支持GBK、支持UTF-8、支持UTF-7和支持UNICODE等多種編碼格式。此外，還有python結巴分詞工具。本文將采用結巴工具對節點的微博信息進行分詞處理，采用中心節點的原創微博內容作為數據源。圖5是94個節點的微博內容分詞結果截圖。

圖5 中心節點分詞去除停用詞截圖

為了得到中心節點的主題相似度，在對節點微博內容進行分詞去除停用詞后，本文將利用基于LDA模型的開源工具GibbsLDA++[17]對分詞后的數據做主題抽樣。該工具主要基于LDA（Latent dirichlet allocation）為文本數據進行建模獲得文本的主題分布。其中，LDA模型做主題抽樣的思想主要是：文檔是由一定概率的主題分布而成，而這些主題又以一定的概率選擇相應的詞語構成。有關LDA模型的詳細闡述可見《基于LDA模型的主題分析》一文[18]。GibbsLDA++工具有很多版本，本文采用該工具的C++版本。利用GibbsLDA++工具，本文最終得到了94個中心節點的主題概率分布，截圖如圖6所示。本文對微博內容共提取10個主題，圖中每行有10項數據，分別表示各個主題占微博內容的概率。利用式（6）計算兩兩節點的主題余弦相似度，即計算圖6截圖中行與行之間的余弦相似度。

圖6 中心節點微博主題相似度矩陣

在分別獲得中心節點的結構相似度和主題相似度后，合并這94個中心節。本文中結構相似度閾值取0.1，內容主題相似度閾值取0.9。如果兩個節點的結構相似度大于閾值0.1且內容主題相似度大于0.9時，將兩個中心節點劃分到一個社區，中心節點的合并結果如表3所示。

表3 新浪微博數據集中心節點合并結果

利用旁節點歸并方法將旁節點劃分到拓撲場勢大的網絡社區，得到最終的網絡社區劃分圖，如圖7所示。

圖7 新浪微博社區劃分結果

如圖7所示，具有相同顏色的節點屬于同一個社區，不同顏色的節點屬于不同的社區。MicroblogCD算法將新浪微博數據劃分出了多個網絡社區，本文共得到18個網絡社區。在這18個社區中，最大的社區節點數量達到683個，最小的社區中的節點數目大約只有最大社區節點數目的1/6，為113個。在每一個網絡社區中，社區內部都由少量的中心節點和大量的旁節點構成。中心節點起著連接各個網絡社區的作用，且作為各個社區的網絡核心，有著較大的活躍度。從圖7可以看出，基于歸并旁節點后，許多旁節點將處于幾個社區之間的過度地帶，且有些節點屬于兩個社區的重疊部分。屬于重疊社區中的節點的劃分是本文Micro-blogCD算法存在的不足，是今后需要改進的方向之一。

3 結語

本文詳細介紹了該算法的各個流程，利用網絡中真實的數據源和爬蟲獲得的微博數據集作為實驗數據源，對本文提出的社區劃分方法作出驗證。本文比較利用GN算法對Zachary數據集得出的結果與本文算法得出的結果，結論驗證了本文算法的合理性。此外，在對微博網絡社區劃分的過程中，由于結構相似度和微博主題相似度所設閾值的改變，可以根據閾值調節網絡社區的大小。

本文提出的基于網絡中心節點的微博社區發現算法，在整個實驗過程中體現了一些不足，主要有以下幾點：

（1）在中心節點的挖掘識別方面，本文采用人工方法尋找網絡的中心節點，沒有自動識別的方法。以后的工作中，采用自動識別的方法用以挖掘網絡的中心節點是需要改進的地方。

（2）在歸并旁節點的過程中，如果某一個節點在不同社區中的拓撲場勢相同，那么對于此類旁節點在微博社區中的劃分是有歧義的，需在歸并旁節點的方法上做出改進。

（3）本文在歸并旁節點的過程中，要計算每個旁節點到所有中心節點的最短路徑距離，所需時間較長，導致整個實驗時間復雜度較高。因此，在以后的工作中，可以尋找更好的計算最短路徑的方法。

[1] Streeter C L,Gillespie D F.Social Network Analysis[J].Journal of Social Service Research,1993,16(01-02):201-222.

[2] 苑衛國,劉云,程軍軍等.微博雙向“關注”網絡節點中心性及傳播影響力的分析[J].物理學報,2013(03):494-503.YUAN Wei-guo,LIU Yun,CHENG Jun-jun,et al.Analysis of the Centrality and Influence of Communication on Twodimensional “Follow-up” Network Nodes in Weibo[J].Acta Physica Sinica,2013(03):494-503.

[3] Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences,2002,99(12):7821-7826.

[4] Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics(Theory and Experiment),2008,2008(10):1-6.

[5] Tyler J R,Wilkinson D M,Huberman B A.E-mail as Spectroscopy:Automated Discovery of Community Structure within Organizations[J].The Information Society,2005,21(02):143-153.

[6] 林友芳,王天宇,唐銳等.一種有效的社會網絡社區發現模型和算法[J].計算機研究與發展,2012,49(02):337-345.LIN You-fang,WANG Tian-yu,TANG Rui,et al.An Effective Social Network Community Discovery Model and Algorithm[J].Journal of Computer Research and Dev elopment,2012,49(02):337-345.

[7] Zhou L,Lü K,Cheng C,et al.A Game Theory Based Approach for Community Detection in Social Networks[C].British National Conference on Databases,Springer Berlin Heidelberg,2013:268-281.

[8] 李孝偉,陳福才,劉力雄.一種融合節點與鏈接屬性的社交網絡社區劃分算法[J].計算機應用研究,2013,30(05):1477-1480.LI Xiao-wei,CHEN Fu-cai,LIU Li-xiong.A Community Partitioning Algorithm for Social Networks Combined with the Attributes of Nodes and Links[J].Application Research of Computer,2013,30(05):1477-1480.

[9] Java A,Song X,Finin T,et al.Why We Twitter:Understanding Microblogging Usage and Communities[C].Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis ACM,2007:56-65.

[10] 趙文兵,朱慶華,吳克文等.微博客用戶特性及動機分析——以和訊財經微博為例[J].現代圖書情報技術,2011,27(02):69-75.ZHAO Wen-bing,ZHU Qing-hua,WU Ke-wen,et al.An Analysis of User Characteristics and Motivations of Microbloggers-taking Weibo as an Example[J].New Technology of Library and Information,2011,27(02):69-75.

[11] Cheong M,Lee V.Integrating Web-based Intelligence Retrieval and Decision-making from the Twitter Trends Knowledge Base[C].Proceedings of the 2nd ACM Workshop on Social Web Search and Mining ACM,2009:1-8.

[12] 王祖儷,王娟,石磊等.基于客觀賦權法的多屬性社交網絡節點重要性排序[J].計算機應用研究,2016,33(10):2933-2936.WANG Zu-li,WANG Juan,SHI Lei,et al.Ranking of Node Importance of Multi-attribute Social Networks Based on Objective Weighting Method[J].Application Research of Computer,2016,33(10):2933-2936

[13] 赫南,李德毅,淦文燕等.復雜網絡中重要性節點發掘綜述[J].計算機科學,2007,34(12):1-5.HE Nan,LI De-yi,GAN Wen-yan,et al.An Overview of Important Node Mining in Complex Networks[J].Computer Science,2007,34(12):1-5.

[14] 常建秋,沈煒.基于字符串匹配的中文分詞算法的研究[J].工業控制計算機,2016(02):115-116.CHANG Jian-qiu,SHEN Wei.Research on Chinese word Segmentation Algorithm Based on String Matching[J].Industrial Control Computer,2016(02):115-116.

[15] 姚天順,張桂平,吳映明.基于規則的漢語自動分詞系統[J].中文信息學報,1990,4(01):37-43.YAO Tian-shun,ZHANG Gui-ping,WU Yingming.A Rule-based Automatic Chinese Word Segmentation System[J].Journal of Chinese Information Processing,1990,4(01):37-43.

[16] 傅賽香,袁鼎榮,黃柏雄等.基于統計的無詞典分詞方法[J].廣西科學院學報,2002,18(04):252-255.FU Sai-xiang,YUAN Ting-rong,HUANG Baixiong,et al.Non-dictionary Segmentation Method Based on Statistics[J].Journal of Guangxi Academy of Sciences,2002,18(04):252-255.

[17] Kai Yip.利用gibbslda做數據集主題抽樣[EB/OL].(2017-02-15)[2018-02-04].http://gibbslda.sourceforge.net/.Kai Yip.Using gibbslda for Data Set Topic Sampling[EB/OL].(2017-02-15)[2018-02-04].http://gibbslda.sourceforge.net/.

[18] 石晶,范猛,李萬龍.基于LDA模型的主題分析[J].Acta Automatica Sinica,2009,35(12):1586-1592.SHI Jing,FAN Meng,LI Wan-long.Thematic Analysis Based on LDA Model[J].Acta Automatica Sinica,2009,35(12):1586-1592.