翁雙卿
摘 要 主要研究熱點話題追蹤的方法及策略。首先,從熱點話題追蹤內容出發,對熱點話題追蹤過程中的注意事項進行研究。其次,在上述基礎上全面挖掘了聚類熱點話題追蹤和自適應熱點話題追蹤中的主要內容,結合實際案例深入分析了聚類追蹤報道及自適應追蹤報道的應用效益,望為新時期熱點話題追蹤工作的開展提供一定的參考。
關鍵詞 話題追蹤;內容;方法;應用
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2017)08-0163-02
信息作為人們生活中不可或缺的關鍵部分,直接影響著人們的生活質量和生產效益。隨著互聯網的不斷深入,信息已經越來越多樣化,面對快速更新的海量信息,如何形成高效的獲取技術,對熱點話題進行全面把握已勢在必行。話題追蹤技術能夠借助數據手段快速、高效地獲取相應信息,對熱點話題進行全面把握,對用戶獲取信息效益的提升具有至關重要的意義,已經成為人們關注的焦點。
1 熱點話題追蹤的主要內容
1.1 信息與熱點話題
熱點話題是圍繞熱點新聞、報道、事件、活動等形成且達到一定搜索量的話題。這種話題需圍繞一個種子事件、活動,或與一個種子事件、活動有間接的關系,即具有一定的關聯且能夠形成信息群。如2015年3月,“匈牙利展出肉身坐佛疑為三明20年前被盜文物”的帖子引起上億名網友關注,在大田縣吳山鄉陽春村村民找出許多當年這尊千年肉身坐佛曾經在此“生活”的蹤跡,兩方就肉身坐佛歸屬進行“爭論”。在這里面肉身坐佛就是信息的種子源,由此衍生了了大量的信息,中央電視臺、中國之聲、新華社、人民網等20多家中央、省、市媒體進行相關采訪報道,匈牙利華媒《歐洲論壇》等海外華文媒體也參與采訪調查,章公祖師、肉身坐佛等相關詞句成了熱門搜索的話題。
1.2 話題追蹤概述
我國話題追蹤起步較晚,在20世紀80年代才開始對話題追蹤進行重視,90年代現代化話題追蹤技術體系才初步形成。上述追蹤的過程中主要從數據信息出發,構建相應的數據庫,在該基礎上實施數據評估及處理,確定話題的相關性和時效性,對關聯話題的信息內容進行順序整理,從而為用戶提供完整的信息體系。
1.3 話題追蹤的內容
熱點話題追蹤技術應用的過程中需要全面把握熱點話題內容,做好報道分切、話題識別、事件發現、分層追蹤等,這樣才能夠對熱點話題進行全面把握。
報道分切:熱點話題追蹤的過程中需要對話題報道流進行處理,確定熱點話題的來源,做好話題的“分切”,依照具體來源形成歸類、整理,從而為話題追蹤奠定良好的基礎。報道分切過程中需做好信息分切、整理和標記。
話題識別:識別過程中可依照報道分切、整理和標記后的信息進行針對性分析,識別熱點話題的相關性,在該基礎上進行篩選。篩選完整后依照熱點話題時間對其進行排序,確定熱點話題中事件發展進程。
事件發現:熱點話題具有實時性、動態性和發展性。在話題追蹤的過程中需要從實時、動態和發展的角度對事件進行分析,做好新事件的發現,及時將新事件納入到話題整理內容中,從而提升熱點話題追蹤效益,為用戶提供完整的話題信息。
分層追蹤:熱點話題往往具有一定的層次性,在熱點話題追蹤的過程中需要做好分層話題追蹤,在報道分切及話題識別基礎上將原來的平面話題轉變為話題簇,由子話題節點、子話題簇豐富熱點話題內容,更熱點話題內容及發展狀況一目了然。
2 熱點話題追蹤的方法及策略
2.1 聚類追蹤報道分析
聚類追蹤報道主要從熱點話題內容出發,將熱點話題依照主題、內容等的差異劃分為不同的子集,在該子集基礎上實施熱點話題主題或核心內容的追蹤,形成相應的報道。該技術在處理的過程中需要對聚類操作進行合理把握,做好聚類指標的設置,在該基礎上嚴格依照話題內容實施處理,這樣才能夠保證熱點話題聚類子集的準確性和有效性。
熱點話題聚類追蹤的過程中需要對話題主題及內容等進行把握,總結出話題的“特征”,確定熱點話題中的線索,在該基礎上構建熱點話題的映射關系,從而實施相應聚類處理。上述處理的過程中必須要把握好話題主題和內容提出的準確性、代表性和獨立性。
常規聚類處理過程中主要依照熱點話題狀況實施扁平聚類和層次聚類。扁平聚類的過程中只能夠依照主題對話題進行劃分,不能夠確定話題內容之間層次性。K-means聚類算法就是依照二維平面聚類后熱點話題之間的距離狀況確定其相關性的,實施針對性劃分的方法。該算法運用的過程中計算內容較為簡單,聚類處理速度非???,只需要將熱點話題到范圍質心歐式距離平方值最小的熱點劃分為一類即可,對其進行標注。在K-means聚類算法處理的過程中話題追蹤時還需要對標注的主題和核心內容進行篩選即可,借助數據檢索技術就可以實現,操作非常簡單,實用性較廣。如在“韓春雨學術造假”熱點話題聚類處理過程中就可以將對采集到的信息在專家評論或智能評論基礎上實施二維平面分布,確定位置后通過K-means聚類算法確定平均值,最有平均值范圍內的話題即為所需的熱點話題關聯信息,開展后續報道。
而層次聚類既能夠顯示話題主題,又能夠分析話題內容,聚類的效果更佳明顯,話題追蹤結果更佳全面。凝聚式層次聚類過主要依照從上而下的原則將各項熱點話題內容整理和聚類,形成子話題簇,在算法分裂基礎上對各項內容進行分裂整理,為后續報道奠定了良好的基礎。該處理方法應用的過程中需要構建好話題層次的劃分,形成針對性權重,并結合專家評論或智能檢索結果將其與權重相乘,確定話題的關聯度。
2.2 自適應追蹤報道分析
自適應追蹤報道主要圍繞話題中的各項內容對話題進行追蹤,其借助自學習能力對話題進行分析和評價,確定話題是否符合核心內容,對其進行劃分,從而形成針對性報道內容。該技術在運用的過程中可以依照熱點話題狀況對其追蹤進行實施調整,借助內容和統計方法計算話題主體和內容的相似度,將后續話題報道的計算數值與上述相似度對比,確定兩者具有一定關聯后將后續報道與原話題內容整合,從而實現話題鏈的構建,完成后續報道的設定。
自適應熱點話題追蹤的過程中需要對追蹤模型的構建進行全面把握,做好參數的調整,這樣才能夠保證追蹤的可靠性和準確性。一般自適應話題追蹤的過程中主要通過調整閾值、相似度和特征詞的權重來滿足追蹤要求,實現熱點話題的科學“匯總”。
特征詞權重調整的過程中可以利用人工調節的方法對熱點話題的特征值權重進行設定,并依照具體的熱點話題內容對權重值進行調整,在調整過程中需要對報道和話題的相似度進行對比,依照上述相似度值對熱點話題追蹤內容進行修正。相似度調整的過程中主要依照計算數值的相似度確定目標話題與熱點話題之間的關聯狀況,上述相似度一般指內容相似頻率,由頻率參數確定兩者之間的關聯系數,進而實施熱點話題追蹤。除此之外,還需要通過閾值調整對熱點話題的時間信息進行分析,在話題創建時間和熱點信息報道拓展時間間隔基礎上分析相似度,從而保證自適應追蹤的可靠性和有效性,為后續報道提供良好的信息資料。在該過程中人員需要重視好熱點話題中的各項因素,尤其是要把握好地域因素、時間因素等對熱點事件追蹤報道的影響,依照上述因素把握好報道的相似度范圍,做好后續報道內容的篩選和跟進,形成系統化、層次化熱點話題追蹤報道體系,這樣才能夠從根本上改善熱點話題追蹤質量,形成實時、全面的熱點話題追蹤報道內容。
在新加坡航空公司航班墜毀熱點話題追蹤的過程中就可以通過自適應追蹤報道對其相關信息進行整理,確定飛機失事報道、傷亡狀況、損失狀況、航班目前狀態、事件處理結果等內容,在該基礎上依照特征詞劃分確定自適應追蹤中的子話題簇并確定各個話題的權重。追蹤過程中共發現802篇報道,依照報道和話題內容進行選擇后構建子話題簇模型和子報道模型后發現用戶對航班狀態、傷亡狀況、事件發生原因等較為重視。因此,在后續報道過程中就需要做好上述熱點話題的追蹤,依照事件時間、區域等做好后續航班信息報道內容的整理,形成相應的追蹤報道內容。
3 總結
熱點話題追蹤的過程中需要對話題主題和內容進行全面把握,依照追蹤需求合理選擇聚類追蹤報道或自適應追蹤報道,形成科學的熱點話題追蹤體系,從而全面提升話題追蹤效益。在聚類追蹤過程中需做好聚類算法的選擇,依照算法實施二次平面分布或層次權重構建,從而為聚類奠定良好的數據基礎;自適應追蹤過程中要對特征值、相關度、閾值進行把握,在上述基礎上實施模型數據與實際數據相似度的對比,找出報道與熱點話題的關聯度,從而實施相應的話題聚類追蹤。