尊敬的讀者朋友,您好!在作者和編輯老師的共同努力下,本專欄又和您見面了!文獻大數(shù)據(jù)分析和重疊社區(qū)發(fā)現(xiàn)是大數(shù)據(jù)與社會計算領(lǐng)域的研究熱點,也是本期關(guān)注的兩個主題。文獻大數(shù)據(jù)分析的研究目的之一,就是幫助廣大研究人員快速進入目標領(lǐng)域,敏捷追蹤其中的方向、方法和工具等,從而有效降低研究成本,縮短成果周期;重疊社區(qū)發(fā)現(xiàn)是復(fù)雜網(wǎng)絡(luò)挖掘領(lǐng)域的基礎(chǔ)性工作,成果應(yīng)用于社交網(wǎng)絡(luò)、通訊網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、代謝路徑網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等各種網(wǎng)絡(luò)的數(shù)據(jù)分析中,可服務(wù)于人力資源管理、新藥研制、交通規(guī)劃、傳染病防治、輿情控制等領(lǐng)域。
本期“數(shù)據(jù)分析與計算專欄”共推出2篇文章。
[JP2]第1篇是翟君偉等撰寫的“基于LDA主題模型的文獻特征項多重共現(xiàn)可視化方法”。共現(xiàn)網(wǎng)絡(luò)分析是文獻計量研究中分析文獻特征項數(shù)據(jù)關(guān)系的一種可視化方法,為解決多重共現(xiàn)網(wǎng)絡(luò)中節(jié)點過多、連線密度過大、不利于發(fā)現(xiàn)數(shù)據(jù)的價值以及可視化效果較低等問題,引入LDA主題模型,采用空間劃分的方法,將特征項全域可視化的問題轉(zhuǎn)化為子空間可視化問題。首先,使用SATI文獻題錄信息分析軟件抽取文獻關(guān)鍵詞,進行TF-IDF計算,以計算結(jié)果作為實驗數(shù)據(jù);其次,使用Python構(gòu)建主題模型,對目標文獻集合進行主題聚類分析;最后,使用Ucinet軟件對不同主題子空間文獻進行多重共現(xiàn)分析,并將子空間分析結(jié)果疊加和重構(gòu),完成多重共現(xiàn)可視化系統(tǒng)的結(jié)構(gòu)化表達。結(jié)果表明:與原多重共現(xiàn)可視化方法相比,基于LDA主題模型的多重共現(xiàn)可視化改進方法降低了共現(xiàn)網(wǎng)絡(luò)中的節(jié)點數(shù)量和節(jié)點間連線密度,使得多重共現(xiàn)可視化系統(tǒng)的結(jié)構(gòu)更為清晰,增加了數(shù)據(jù)的可讀性,突出了數(shù)據(jù)價值,有效提升了多重共現(xiàn)可視化效果。
第2篇是張妍等撰寫的“基于社區(qū)森林模型的分布式重疊社區(qū)發(fā)現(xiàn)算法”。針對傳統(tǒng)單機重疊社區(qū)發(fā)現(xiàn)算法已經(jīng)不適于大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘,以及不能支持網(wǎng)絡(luò)表示學(xué)習(xí)任務(wù)相關(guān)要求的問題,提出了一種基于社區(qū)森林模型的分布式重疊社區(qū)發(fā)現(xiàn)算法(distributed community forest model,簡稱DCFM算法)。首先,將網(wǎng)絡(luò)數(shù)據(jù)集存儲到分布式文件系統(tǒng),將數(shù)據(jù)分塊,使用分布式計算框架在每個數(shù)據(jù)分塊上執(zhí)行CFM算法;然后,執(zhí)行社區(qū)合并;最后,匯總社區(qū)劃分結(jié)果,使用真實的DBLP數(shù)據(jù)集將算法運行于Spark集群上,采用F均值和運行時間對算法進行評估。結(jié)果表明:DCFM算法的F均值稍遜于CFM算法,但其運算時間隨著節(jié)點的增加接近線性下降,在犧牲小部分F均值的同時,DCFM算法具備處理大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的能力;分割份數(shù)對計算時間的影響也很大,在com-dblp.ungraph.txt數(shù)據(jù)集上,CFM算法處理數(shù)據(jù)需要192 min,而DCFM算法在將數(shù)據(jù)分成6份時,需要約91 min,分成100份后僅需要約13 min。因此,在大數(shù)據(jù)平臺上采用分布式計算骨干度,進行社區(qū)劃分、合并的DCFM算法是一種可行的大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘方法,通過對網(wǎng)絡(luò)進行分割,可以大幅加快社區(qū)劃分速度,提高社區(qū)發(fā)現(xiàn)效率。
限于學(xué)術(shù)水平,以上文章定有可進一步完善之處,歡迎各位朋友不吝指正!
主持人簡介:
劉濱,男,1975年出生,教授,碩士生導(dǎo)師,河北科技大學(xué)大數(shù)據(jù)與社會計算研究中心主任,主要研究領(lǐng)域包括網(wǎng)絡(luò)新媒體、大數(shù)據(jù)、社會計算等。已發(fā)表學(xué)術(shù)論文100余篇,主持國家級科研課題2項、省級科研課題9項。