賀敏,徐杰,杜攀,程學旗,王麗宏
?
基于時間序列分析的微博突發話題檢測方法
賀敏1,2,徐杰2,杜攀1,程學旗1,王麗宏2
(1. 中國科學院計算技術研究所,北京 100080;2. 國家計算機網絡應急技術處理協調中心,北京 100029)
針對微博信息噪音大、新穎度難以判斷的問題,在動量模型的基礎上進行優化,提出了基于時序分析的微博突發話題檢測方法。通過動量模型提取候選突發特征后,對特征的動量時間序列分別借鑒信號頻域分析理論和股票趨勢分析理論進行建模,分析特征的頻域特性來識別頻繁偽突發特征,分析特征的新穎程度來識別間歇性偽突發特征,合并過濾后的有效突發特征形成突發話題。微博數據實驗表明,該方法有效提高了突發話題檢測的準確率和值。
突發話題;微博;突發特征;時序分析
近年來,隨著Web 2.0社交網絡的興起,微博以其方便快捷的優點迅速流行起來,現在已經發展成為網絡信息傳播的主要途徑。微博用戶數量眾多,每天產生的信息量非常龐大。在微博中,人人都是信息的生產者和傳播者,信息發布、轉發非常便捷,這使微博成為信息傳播速度最快的網絡媒體。社會上許多突發性話題,往往在微博平臺上首發,借助其好友轉發機制迅速傳播,引起廣泛的社會共鳴,進而波及傳統媒體如新聞、論壇、博客等,產生巨大的社會影響。因此,微博平臺上的社會突發話題檢測技術,對于社會熱點及時發現、網絡民意盡快感知、突發事件及早響應等方面都具有積極的現實意義。
這里的微博突發話題是指微博上新出現的可能在短時間內產生強大影響力的關于社會熱點事件的網絡話題。傳統的突發話題檢測方法主要面向新聞等長文檔數據,而且以突發特征的有效識別為基礎,擴展出突發話題。與傳統新聞話題相比,微博話題作為大眾媒體的產物,具有顯著的特點。
1) 話題的多樣性。同一時間微博上各種話題,如社會事件類話題、娛樂八卦類話題、個人生活瑣事等多種話題摻雜在一起,特別是一些生活瑣事類話題,可能表現出一些周期性的突發特點,如周一“不想上班”,周末“出游計劃”,月末“月光族”等話題。
2) 話題的間歇性。同一個話題,通常會隨著微博用戶的關注程度和時間的推移經歷一個產生、發展、成熟、衰退和消亡的完整生命周期。而且微博基于好友的轉發機制,導致海量的信息冗余,產生大量的滯后過期信息,這使話題表現出一定的間歇性特征。
微博信息表現出的這些特點,對于傳統的基于突發特征的突發話題發現方法提出了新的挑戰。
1) 對于眾多具有突發性特點的特征,如何過濾日常生活類的周期性突發特征,是提高突發話題準確性的一個關鍵問題。
2) 如何識別間斷性突發特征,是確保突發話題新穎性的另外一個關鍵問題。
本文針對上述挑戰,在有意義串動量模型識別突發話題[1]的基礎上,進一步優化識別方法,采用信號頻域分析的方法,分析頻繁特征的頻譜特性,區分社會性話題的突發特征與生活類話題的特征,過濾頻繁偽突發特征;采用股票趨勢分析的方法,利用趨勢性信息間接判斷突發特征的新穎度,過濾間歇性偽突發特征,提升突發特征識別的準確率,進而提高突發話題檢測的準確率。
話題檢測的研究主要包括3類方法,第1類是基于聚類的方法,有層次聚類、增量聚類等多種方法;第2類是基于矩陣分解的方法,有LSI、NMF等模型;第3類是基于概率生成的方法,有PLSI、LDA等模型。但是,突發話題的檢測方法主要是以突發特征的發現來驅動,再由突發特征映射到突發話題。Fung[1]首次提出了以特征為中心的話題聚類方法。該方法通過分析時間信息來獲取突發特征,然后根據突發特征的分布進行突發話題聚類。He[2]借鑒了Fung的方法,通過使用譜分析方法對詞語權重(如TF-IDF)隨時間變化的曲線進行分類,然后使用高斯模型和高斯混合模型分別對非周期性特征和周期性特征進行建模,尋找突發時間段,最后使用無監督的貪婪算法檢測發現周期性和非周期性突發話題。Kleinberg[3]提出的二狀態自動機方法具有開創性,該方法基于一個隱馬爾可夫模型(HMM),模型中的觀測數據是主題詞在不同時間點上的詞頻序列,隱變量是詞語所處的狀態(突發狀態或非突發狀態),利用參數解析度和狀態翻轉代價2個參數來觸發狀態轉移,發現突發態和突發特征。
近年來,在傳統方法的基礎上結合了社交網絡的新特性,提出了一些針對社交網絡突發話題檢測的新方法。Cui等[4]提出了將“#”作為Twitter突發事件的指示,根據“#”出現的位置、頻次分布、作者等信息定義了穩定性、名言的可能性、作者熵等屬性來檢測Twitter突發事件。Du[5]使用微博中用戶影響力、信息的點擊數、回復數、收藏數來綜合表示關鍵詞的能量,通過計算時間窗口內的平均能量發現突發關鍵詞,對突發關鍵詞進行相似度比較,合并發現突發話題。Shiva[6]提出了通過詞典學習的方法來識別新話題,如果當前時刻的文檔不能用從前一時刻文檔中提取的詞典線性表示,則將文檔判定為新穎文檔,再將所有新文檔聚類產生新話題。Zhu[7]把網絡論壇話題發現中2個有代表性的模型(TF-IDF和UF-ITUF)結合起來,從內容特征和用戶參與度兩方面計算主題和話題的相似度,由此來更新原話題和產生新話題。
上述方法中,Cui[5]和Du[7]的方法僅考慮了話題的突發程度,Shiva[6]和Zhu[7]僅考慮了話題的新穎程度。而微博信息紛繁復雜,充斥著大量的歷史過期信息和個人生活信息,需要將突發性與新穎性結合起來分析,才能更加準確地識別突發話題。本文在使用動量模型判斷特征突發程度的基礎上,進一步通過分析特征的時間序列判斷特征的頻繁程度和新穎程度,準確識別新穎的突發話題特征,有效檢測突發話題。
3.1 基于有意義串動量模型的微博突發話題檢測方法
基于有意義串動量模型的突發話題識別方法[8]中實時檢測有意義串,發現微博中不斷涌現的新詞,將新詞作為突發話題檢測的基本特征;利用動力學原理建模這些基本特征的動態變化特性,通過對特征變化的動量和加速度分析,衡量其變化趨勢和突發程度,識別微博的突發性特征,進而發現突發性話題。
有意義串提取[9]是一種回顧性檢測,具體的提取過程為:首先通過重復串發現得到候選字符串;然后計算重復串的上下文鄰接類別,來衡量候選串是否滿足語用多樣性;最后通過語言模型來判斷字符串的語義完整性,經過兩層過濾得到有意義串。有意義串在真實語境中大量使用,比詞語粒度更大,可以涵蓋正在使用的新詞和術語,能夠更加準確有效地反映實時微博話題的關鍵信息。
動態提取觀察時間窗口內微博信息的有意義串,作為局部微博信息的特征,借鑒動力學原理對特征進行建模,定義特征的“質量”、“位置”、“速度”、“加速度”、“動量”等基本屬性,來反映特征在事件發展過程中的變化趨勢及能量大小,進而識別突發特征。特征的若干物理學基本屬性的定義如下。
定義1 特征的“質量”指特征的重要性,它不隨時間變化,是特征的基本屬性,在一段較長時間內基本恒定。該值采用傳統的來衡量,通過統計特征在大量信息中的和計算得到。特征的質量。
定義2 特征的“位置”與時間相關,指特征在某一時刻的流通度或關注度,隨時間動態變化。該值與特征在時刻出現的頻次、文檔頻次、參與博主數等相關,計算式為

上述定義中,特征的“質量”是在大量信息中統計得到的,反映了特征在普通文本流中的重要性。特征的“位置”是與時間相關的值,反映了特征在時刻的熱度。由這2個基本的定義,可以計算特征在時刻的速度,動量和加速度。
根據動力學定義,動量反映了特征在時刻的能量大小及變化趨勢,加速度反映了特征在時刻與時刻的二階變化趨勢,即時刻的增長率與時刻的增長率相比是加快還是放緩。只有當特征的和都滿足一定條件時,表明特征在當前時刻的瞬時能量比較大,而且有迅速增長的趨勢,該特征才是突發特征。
最后,根據突發特征的共現情況對突發特征聚類,得到突發話題。
3.2 基于頻域分析的頻繁偽突發特征識別
在3.1節方法中,突發特征識別的準確率直接決定了突發話題檢測的準確率。動量模型雖然反映了特征的瞬時能量變化趨勢,但是不能體現特征在較長時間段的歷史能量情況。在真實微博信息中,存在這樣一類頻繁特征,如“工作人員”、“上半年”,“短信”等,它們周期性或者非周期性的頻繁出現,但每天出現的頻次不會特別高。由于語言的多樣復雜性,這類頻繁特征可以在多重語境中重復出現,偶爾呈現瞬時爆發增長趨勢,但實際上并非真正的突發話題關鍵特征,稱為頻繁偽突發特征。在這種情況下,動量模型將這些特征誤識別為突發特征,最終產生錯誤的突發話題。
為了識別上述頻繁偽突發特征,需要對特征在較長歷史時間段的頻繁程度及變化規律進行分析。而信號的頻域分析能夠直觀看到信號在不同頻率成份上的大小分布,直接反映了信號的頻繁程度,揭示了信號隨出現頻率的能量變化規律。因此,借鑒信號頻域分析的理論,對特征的動量時間序列建模,將特征在一段時間的動量時間序列看做離散時間信號,變換到頻域空間,來觀察特征的能量分布規律特性。從離散時間信號變換到離散頻域信號的方法從采用信號處理中應用廣泛的離散傅里葉變換,變換式如下

例如,通過3.1節方法發現在2013年10月的數據中發現了“事業單位”、“今天下午”、“墜入湄公河”、“暴力恐怖襲擊”這幾個突發特征,將特征連續28天的動量時間序列,通過離散傅里葉變換變換到頻域中,在不同頻率上的能量分布曲線如圖1所示。
從圖1中看出,“事業單位”、“今天下午”2個特征的能量分布曲線中,0頻率上的能量比較大,而其他頻率上的能量相對較小,曲線有較明顯的沖擊,而實際上它們是頻繁偽突發特征;“墜入湄公河”、“暴力恐怖襲擊”2個特征的能量分布曲線中,0頻率上的能量與其他頻率上的能量差距相對較小,曲線比較平緩,而它們是真正的突發特征。曲線中0頻率代表信號的恒定分量,它的大小反映出特征每天出現的穩定情況,曲線中的非0頻率代表信號的變化分量,它的大小反映出特征的變化情況。如果特征每天出現的頻次恒定,那么頻譜曲線中將只有0頻率的能量,其他頻率能量為0。為了區分頻繁偽突發特征和突發特征,利用上述特性給出能量比的定義。
定義3 信號的頻譜分布中,0頻率的能量與其他頻率能量平均值的比值稱為能量比,用符號表示

可作為特征是否為頻繁特征的度量,的值越大,特征是頻繁特征的可能性越大。實際應用中通過大量的標注數據訓練得到閾值S,采用與閾值比較的方法過濾掉頻繁偽突發特征。
3.3 基于趨勢分析的間歇性偽突發特征識別
話題呈現出一定的生存周期,有些話題的產生、發展、消亡是連續的,從話題產生開始到結束期間,每天都產生相關消息,但是有些話題的發展是間歇性的,話題產生后沉寂幾天才會有新的進展和消息,在話題存在的整個周期中,不一定每天都出現相關討論。因此,在3.1節方法中,存在一部分突發特征誤判,這類特征間歇性的出現,實際上是一個話題,但由于動量模型只判斷了瞬時的動量和加速度,尚未判斷特征更長時間段是否活躍,產生誤判。例如,圖2中所示的贛南臍橙被染色的話題中的特征“贛南臍橙”,最早在10月25日出現,在接下來的3天內討論比較少,而在10月29日又再次爆發,根據動量模型方法,它被再次識別為新的突發話題,而該話題實際上仍是10月25日話題的延續,并非新穎的話題。
為了識別間歇性偽突發特征,需要分析特征在一定周期內的新穎性。特征在一個話題周期內第一次大量出現稱為突發,而當特征在一個話題周期內再次出現時,即使表現出瞬時爆發,但是由于此次爆發與第一次真正的突發存在間歇期,從階段性趨勢來看,經過間歇期后的爆發點應該已經處于特征的下降趨勢范圍。股票趨勢分析方法就是針對一定時間段的價格變化進行平滑,分析價格在一定時間范圍的上漲或者下跌趨勢。因此,借鑒股票趨勢分析的方法,對話題周期內的特征動量進行平滑,分析其階段性的趨勢特點,進而判斷突發特征的新穎性,識別出間歇性偽突發特征。下面給出幾個定義。
定義4 指數移動平均(EMA, exponential moving average)將特征的動量時間序列進行天指數平均,平均后的動量值與前天的動量值相關,對于較近的動量值權重較大。

定義5 移動平均收斂發散(MACD, moving average convergencc-divergence)指標是由2條曲線構成:一條實線(稱為MACD線)與一條虛線(稱為signal線)。MACD線是較快的EMA線和較慢的EMA線的差值,它對于動量值變動的反應比較敏感。較快的EMA線與較慢的EMA線相比,取值更小,受影響的歷史區間更小,對當前值反應更快。signal線是MACD線是經過指數平均之后的另一條EMA線,它對于動量值變動的反應比較緩慢。計算式如下

(6)
當快速的MACD線穿越慢速的Signal線,動量的趨勢發生變化。用histogram來表示,它是MACD和signal的差值,計算式如下

擴大了特征的平均動量值和局部波動之間的差異,當>0時,表示動量處于上升趨勢,當<0時,表示動量處于下降趨勢。它可用來反映特征動量的變化趨勢,作為衡量特征新穎性的指標。在經過動量模型判斷特征是否突發后,再次根據特征的值是否大于0,來判斷特征是否是間歇性偽突發特征。間歇性突發特征在首次出現時,>0,動量呈現上升態勢,屬于突發特征;當間歇性特征在話題周期內再次出現時,<0,動量呈現下跌態勢,則表明特征在前期出現過大規模爆發,判斷該特征不是新穎的突發特征,該時間點不是突發點。例如,“贛南臍橙”的趨勢分析如圖3所示,表示特征的動量,在 10月29日時,雖然動量和加速度都比較大,但是值小于0,表明該特征不是新穎的特征,屬于間歇性的偽突發特征。
圖3 “贛南臍橙”趨勢分析
在突發特征的趨勢分析中,參數1、2、3的取值與話題周期相關。變化較慢的EMA線中2的取值為一個話題周期,因為間歇性偽突發特征的識別限定在一個話題周期內,對于時間超過一個話題周期的突發特征可能是真正的突發特征。參考股票趨勢分析方法的參數選取,1的取值為2的一半,3取值介于1和2之間,能夠反映出趨勢的變化情況。通過大量統計分析和訓練發現,大部分話題的生存周期在一周以內,1取值為3,2取值為7,3取值為5,對于間歇性突發特征的識別比較有效。對于具體領域的突發話題檢測,1、2、3的取值需要根據應用場景重新調整。
4.1 實驗數據及評價標準
本文通過互聯網采集新浪微博由1 000個加V活躍博主從2013年8月~11月發表的78萬余條微博信息作為實驗數據。實驗將8月~10月中旬兩個半月的數據作為訓練語料,將10月13日~11月9日的數據作為微博信息流檢測每天的突發話題。由2名輿情分析領域的專業人員對每天的數據進行標注,分別產生185和193個突發話題,取2人標注的交集共180個突發話題做為作為評價實驗結果的標準。根據標注結果計算突發話題的準確率、召回率和綜合指標值,以此評價算法。
4.2 實驗結果
由于微博文本高度稀疏,采用聚類的突發話題檢測方法在微博上效果較差,本實驗采用將內容與用戶結合起來的經典模型TF-IDF&UF-IUF[7]方法與動量模型方法、兩類改進型的動量模型方法來作對比。其中,2類改進型的動量模型方法是在動量模型基礎上通過對特征頻域分析和趨勢分析進行的優化。實驗結果如表1所示。

表1 突發話題檢測結果
從表1中看出,不管是動量模型方法,還是在其基礎上優化的頻域分析和趨勢分析方法,實驗結果的準確率和召回率都比TF-IDF&UF-IUF方法高很多。這是因為動量模型較好地反映了特征的瞬時能量變化,能夠快速發現突發特征。頻域分析方法和趨勢分析方法進一步對特征進行較長時間段能量變化分析,與動量模型方法相比,實驗結果對召回率的影響較小,準確率都有較大的提升。趨勢分析方法與頻域分析方法相比,準確率和召回率都略高,因為趨勢分析方法過濾掉的突發話題均為錯誤結果,對召回率沒有影響,準確率提高較多;而頻域方法在過濾掉大部分錯誤結果的同時,也將個別正確的突發話題過濾掉,在準確率提高的同時,對召回率有影響。實驗驗證了頻域分析方法能夠準確地識別頻繁偽突發特征,趨勢分析方法能夠準確地識別間歇性偽突發特征,有效地過濾了動量模型中的偽突發特征,進而減少了錯誤的突發話題發現結果。經過頻域分析和趨勢分析方法兩層過濾后,剔除了大部分的錯誤結果,突發話題發現的準確率已經高達96.27%。
為了進一步分析話題準確率提高的原因,表2顯示3種方法對于突發特征的識別結果對比。從表中看出,頻域分析在過濾掉一些頻繁偽突發特征的同時,也將一部分正確的突發特征當作頻繁特征錯誤過濾,但是過濾的頻繁偽突發特征比例仍高于誤判的正確突發特征比例,所以在突發特征準確率上仍有較大提升。雖然過濾掉一部分正確的突發特征,但是從表1看出,該步驟對正確突發話題的檢測數量只產生微小影響,這是因為檢測發現的多個突發特征最終對應一個正確的突發話題,只要尚未將一個突發話題對應的所有突發特征都過濾掉,仍然可以通過特征聚類產生該突發話題。例如,10月14日的數據中,“高考改革、分值、英語科目、北京高考”是一個突發話題,“分值”通過頻域分析方法作為一個頻繁特征被刪除,但是該話題的其他幾個突發特征仍然存在,合并后突發話題仍然可以準確識別。而“短信、客服”這樣的突發話題本來就是錯誤結果,對應的突發特征數量一般比較少,通過頻域分析能夠將其全部過濾。
從表2的結果可以看出:趨勢分析的方法能夠減少錯誤的突發特征數量,而準確的突發特征數量幾乎沒有下降,突發特征發現的準確率得到提升。因為趨勢分析方法僅將已經出現過的間歇性突發特征過濾,對于正確的突發特征發現影響很小。例如,對于圖2所示的話題,通過趨勢分析能夠在10月28日判斷出“贛南臍橙”和“催熟染色”這2個突發特征并非新穎特征,將其從突發特征中刪除。

表2 突發特征識別結果
本文針對動量模型方法對突發特征誤判的現象,提出了采用時間序列分析方法來過濾偽突發特征來檢測突發話題的優化方法。在動量模型的基礎上,對特征的動量時間序列分別借鑒信號頻域分析理論和股票趨勢分析理論進行建模,通過特頻域分析過濾掉頻繁偽突發特征,通過趨勢分析過濾掉間歇性偽突發特征,最終對有效的突發特征聚類產生突發話題。實驗中,在對突發話題檢測召回率影響較小的情況下,該方法相對動量模型方法將突發話題檢測準確率從87.71%提升到96.27%,能夠有效提升突發話題檢測的準確率和值。
基于特征時序分析的微博突發話題檢測方法有效提升了突發話題的準確率,但未來仍需在如下2個方向上繼續探索:1)優化突發特征的識別策略,采用學習方法或產生式策略加以整合識別;2)提升突發特征識別的召回率,通過利用好友關系、鏈接關系、轉發關系等豐富的關聯關系,彌補動量模型方法對突發特征識別的漏檢。
[1] FUNG G, YU J, YU P, et al. Parameter free bursty events detection in text streams[C]//Conference on 31th VLDB. Trondheim, Norway, c2005: 181-192.
[2] HE Q. CHANG K, LIM E. Analyzing feature trajectories for event detection[C]//Conference on 30th SIGIR. Amsterdam, c2007: 208-214.
[3] KLEINBERG J. Bursty and hierarchical structure in steam[C]// Conference on KDD’02. Edmonton, Alberta, Canada, c2002: 91-101.
[4] CUI A, ZHANG M, LIU Y, et al. Discover breaking events with popular hashtags in twitter[C]// Conference on CIKM’12. Maui, HI, USA, c2012: 1796-1798.
[5] DU Y Y, HE Y X, TIAN Y. Microblog bursty topic detection based on userrelationship[C]// 6th IEEE Information Technology and Artificial Intelligence Conference. Chongqing, China, c2011: 260-263.
[6] SHIVA P K, PREM M, ARINDAM B. Emerging topic detection using dictionary learning[C]//Conference on CIKM’11. Glasgow, Scotland, UK, c2011: 745-754.
[7] ZHU M L, HU W M, WU O. Topic detection and tracking for threaded discussion communities[C]// IEEE/WIC/ACM International Conferences on Web Intelligences and Intelligent Agent Technology. c2008: 77-83.
[8] 賀敏, 杜攀, 張瑾, 等. 基于有意義串動量模型的微博突發話題檢測方法[J]. 計算機研究與發展, 2015, 52(5): 1022-1028.
HE M, DU P,ZHANG J, et al. Microblog bursty topic detection method based on momentum model [J]. Journal of Computer Research and Development, 2015, 52(5):1022-1028
[9] 賀敏.面向互聯網的有意義串挖掘[D]. 北京:中國科學院計算技術研究所,2007.
HE M. Web-oriented Chinese meaningful string mining[D]. Beijing: Institute of Computing Technology, Chinese Academy of Sciences, 2007.
[10] ALAN R, MAUSAM, O E. Open domain event extraction from twitter[C]// Conference on KDD’12. Beijing, China, c2012: 1104-1112.
[11] ANDREW J, YASHAR M, JOEMON M. Building a large-scale corpus for evaluating event detection on twitter[C]// Conference on CIKM’13. San Francisco, CA, USA, c2013: 409-418.
[12] DIAO Q M, JIANG J, ZHU F D, et al. Finding bursty topics from microblogs[C]// The 50th Annual Meeting of the Association for Computational Linguistics. Jeju, Korea, c2012: 536-544.
[13] POPESCU A M, PENNACCHIOTTI M, PARANJPE D A. Extracting events and event descriptions from twitter[C]// Conference on WWW’11. Hyderabad, India, c2011: 105-106.
[14] LI C L, SUN A X, DATTA A. Twevent: segment-based event detection from tweets[C]// Conference on CIKM’12. Maui, HI, USA, c2012: 155-164.
Bursty topic detection method for microblog based on time series analysis
HE Min1,2, XU Jie2, DU Pan1, CHENG Xue-qi1, WANG Li-hong2
(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China; 2.National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)
Detecting bursty topics from microblogs was an important task to understand the current events attracting a large number of internet users. However, the existing methods suitable for news articles cannot be adopted directly for microblogs. Because microblogs have unique characteristics compared with formal texts, including diversity, dynamic and noise. A detection method for microblog bursty topic was proposed based on time series analysis, which was an optimization method of momentum model. The candidate bursty features were extracted by momentum model. The time series of feature’s momentum were modled by frequency domain analysis theory and stock trend analysis theory. The frequently pseudo-bursty features were filtered according to analysis results of frequency-domain characteristics. The intermittently pseudo-bursty features were filtered according to the novelty analysis result through stock trend theory. The bursty topics were finally emerged with combination of effective bursty features. The experiments are conducted on a real Sina microblog data set. It show that the proposed method improves the precision and-measure remarkably compared with the momentum modle.
bursty topic, microblog, bursty feature, time series analysis
TP391
A
10.11959/j.issn.1000-436x.2016052
2015-04-03;
2015-08-29
國家高技術研究發展計劃(“863”計劃)基金資助項目(No. 2014AA015203);國家科技支撐計劃基金資助項目(No. 2012BAH46B01)
The National High Technology Research and Development Program of China (863 Program)(No. 2014AA015203), The National Key Technology Support Program (No.2012BAH46B01)
賀敏(1982-),女,山西忻州人,中國科學院計算技術研究所博士生,主要研究方向為網絡信息安全、輿情分析、自然語言處理等。
徐杰(1982-),男,山西五寨人,博士,國家計算機網絡應急技術處理協調中心工程師,主要研究方向為網絡信息安全和多媒體技術。
杜攀(1981-),男,河南南陽人,中國科學院計算技術研究所助理研究員,主要研究方向為文本挖掘、信息檢索、機器學習等。
程學旗(1971-),男,安徽安慶人,中國科學院計算技術研究所研究員、博士生導師,主要研究方向為信息檢索、文本挖掘、社會計算等。
王麗宏(1967-),女,遼寧沈陽人,國家計算機網絡應急技術處理協調中心副總工程師、研究員,主要研究方向為網絡信息安全、輿情分析等。