摘要:新聞搜索分析服務平臺是面向媒體單位、新聞監管機構實現媒體數據搜索、分析的一種服務平臺。服務平臺為用戶提供了一個全新的搜索方式,匯聚了各大互聯網絡的媒體功能,集即時播報、網站新聞、綜合搜索、媒體監控于一體,提供多種格式的內容輸出。平臺采用多樣資源,關注來自全國的最新時事動態信息,掌握熱點新聞,提供熱點分析,建立報刊版面對比模式,具有高準確性、高查全率、更新快以及服務穩定的特點。平臺提供確切的分析干預化的視頻輸出,將新聞信息展現給用戶,真正滿足了用戶的各種業務的需求。
關鍵詞:新聞搜索;即時播報;媒體監控;熱點分析;分析干預化
中圖分類號:TP37文獻標識碼:A文章編號:1009-3044(2010)21-6039-03
1 新技術環境下,專題熱點追蹤為傳統媒體帶來的機遇
互聯網已成為現代人傳播和獲取信息的主要途徑,為此各媒體單位全力開發基于互聯網的新媒體技術,門戶網站、數字報、手機移動閱讀終端、戶外屏、數字標牌等應運而生。展示技術的革新適應了新時代媒體發展的需要,甚至爭取到了更多的受眾群體,但也給傳統追蹤新聞熱點、區域動態和讀者關心話題的技術帶來了挑戰和機遇。
本文中所述的新聞搜索分析平臺是面向媒體單位實現媒體數據搜索、分析的一種服務平臺,旨在互聯網條件下建立精品報道,打造精品媒體。平臺提供了一個全新的搜索方式,匯聚了各大互聯網絡的媒體功能,并提供PDF、WORD等格式的輸出。平臺采用了多樣資源,能夠實時關注來自全國的動態信息,具有準確性高、查詢全面、更新快、服務穩定的特點。通過提供確切的分析干預化的視頻輸出,平臺將新聞信息展現給用戶,真正滿足了用戶的各種業務的需求和生產。新聞搜索分析平臺的開發和應用,對提升媒體行業技術水平,曾強我國媒體競爭能力,促進信息產業的發展具有重要意義。
2新聞搜索分析服務平臺的技術架構
新聞搜索分析服務平臺由4大功能模塊組成(圖1):數據聚合模塊:即數據源部分,實現內容“抓取功能”;數據搜索模塊:即搜索部分,實現“搜索功能”;數據分析模塊:即分析部分,實現“分析功能”;數據展出模塊:即簡報部分,實現“簡報功能”。
3 新聞搜索分析服務平臺功能
3.1 基本功能
1)即時新聞:各大網站、報紙最新發布的新聞。通過新聞列表形式,列舉出最新各大媒體更新的新聞,列表中顯示標題、摘要、來源、時間等數據(新聞文件來源 — PS文件反解、網站、數字報、論壇、Blog上的數據)
2)新聞監測:根據不同的來源與分類,對新聞進行區分。方便各類用戶快速有效地找到各自所需的最新新聞。
① 行業新聞:對一些特定行業(經濟、貿易、制造業、服務業等等)新聞進行分類查詢。在行業列表中選擇行業名稱,可進入行業新聞查詢頁面。同時用戶可關注的特定行業添加到“個人中心”中行業收藏中。
② 地區新聞:對某一地區發生的新聞實時追蹤。在地區列表中選擇地區名稱,然后轉入查詢結果。可將關注地區添加到個人中心,以后在個人中心即可轉入地區新聞。
③ 傳統媒體新聞監測:對傳統媒體報道的新聞進行查詢。在傳統媒體列表中選擇相應地區相應媒體,進入查詢結果頁面。可將關注媒體添加到個人中心,以后在個人中心即可直接點擊媒體名稱進入媒體新聞中。
可查看到當前媒體發布的新聞數量,是否有獨家新聞,有則做出標記。
④ 網絡媒體新聞監測:對網絡媒體特別是各大網站報道新聞進行查詢。在網絡媒體列表中選擇相應地區相應媒體,進入查詢結果頁面。可將關注媒體添加到個人中心,以后在個人中心即可直接點擊媒體名稱進入媒體新聞中。
可查看到當前媒體發布的新聞數量,是否有獨家新聞,有則做出標記。
⑤ 領導人新聞監測:對設定的領導人相關新聞進行自動篩選,自動歸類,并提供新聞列表供用戶閱讀
3)熱點分析:對設定時間內的新聞進行分析,確定新聞出現的頻率,分析出哪些新聞是最近比較熱門的新聞(autonomy以熱區的形勢生成熱島圖,此熱島圖由Autonomy自動生成,僅提供參考)。在時間軸上的熱點,可由管理員對熱點分析結果進行人工干預,刪除系統生成不妥當的熱點。
4)報紙庫:提供所有收錄到報紙的列表,方便用戶查閱。
以報紙或版面為單位顯示該報紙下的所有新聞,每篇新聞后都會有數據顯示該新聞被其他網站轉載的次數,點擊后顯示所有轉載的新聞、網站的列表。
提供版面搜索。
提供新聞搜索:搜索到新聞后可顯示所在報紙版面。
5)報紙版面文章網站轉載統計:對于某一篇文章查詢出被網站轉載次數,在瀏覽版面或版面對比的結果中皆提供此功能,方便用戶了解。
6)資料中心:提供用戶查詢所有新聞數據。提供多種查詢條件,比如:網絡媒體新聞或報紙新聞(報紙新聞與版面圖效果)、時間、來源、分類、頻道等。
7)衛視視頻:提供國內絕大部分上星電視臺的視頻新聞,提供新聞列表及搜索功能。
8)門戶網站新聞頻道頭條:提供三大門戶(搜狐、網易、新浪)網站的新聞頻道首頁上關注的新聞
3.2 個性化功能
1)自定義追蹤:用戶可自定義自己感興趣的話題進行新聞追蹤。每個話題都要定義追蹤的關鍵字,根據輸入的關鍵字進行查詢。關鍵字定義好后自動保存到個人中心,以后用戶登錄可通過點擊關鍵字查詢。可自定義多個關鍵字。可人工干預搜索出的報道的正面性。數據保存于數據庫中。
2)版面對比:實時可在報紙庫中任意選取一個版面與另一個版面進行對比。可選擇由平臺保存對比結果,方便用戶再次查閱。列表方式:以列表的方式呈現比較結果,結果可分為兩部分,相似新聞列表和非相似新聞列表。
3)報紙對比:提供報社管理員預設幾份(整份)報紙對比的功能,服務平臺將每天定時進行對比并將結果存庫。分權限,權限高者可提出對未預設整份報紙進行實時對比。
4)獨家新聞分析:基于報紙對比功能中預先設置的報紙對比結果,獲取當前報紙相對于其他幾份報紙的獨家新聞。同時過濾如文學版、廣告版等非新聞類版面新聞。
5)漏稿分析:基于報紙對比功能中預先設置的報紙對比結果,獲取當前報紙相對于其他幾份報紙的可能存在的遺漏新聞。同時過濾如文學版、廣告版等非新聞類版面新聞。
6)剪報:用戶可使用自己收藏的新聞庫及收藏的新聞類型中的所有新聞。使用數字剪報拼版平臺制作個性化剪報,并可保存新聞剪報或與其他用戶交流。
7)報社本地化個性化視頻:提供報社自身所擁有的視頻搜索服務。
8)可視化搜索:對要進行搜索的關鍵字進行深化拓展搜索。
3.3 個人中心
1)個人信息管理:此為基本功能。提供對于個人基本信息進行設置,修改登陸密碼等。
2)收藏夾管理:此為基本功能。提供用戶在服務平臺上提供的各新聞類型及新聞的個人收藏管理。
3)新聞轉載:此功能屬于個性化功能。可根據報社需求提供如報業集團網站文章直接轉載接口。方便網站編輯直接從服務平臺發布新聞。
4)批量導出:此功能屬于個性化功能。搜索分析服務平臺使用統一的新聞數據結構,亦可為報社內資料中心等部門提供特殊要求的格式數據(如TRS,天宇等)。
3.4 服務平臺用戶權限等級
1)超級管理員:擁有所有操作權限,可管理報社客戶及可使用的服務。并負責報社管理員的管理。
2)報社管理員:管理及分配報社享受的個性化服務功能,管理報社工作人員[增、刪、修]。
3)報社工作人員:報社中記者、編輯或其他工作人員,所有用戶都可使用服務平臺的基本功能。而個性化功能則根據各家報社享有的服務與報社管理員分配給用戶的操作權限決定。
3.5 系統后臺管理功能
提供網站新聞抓取和電子報新聞抓取的配置工具,以圖形化方式地對網站和電子報紙的配置進行添加,修改和刪除;并可對管理員的配置進行試運行以檢查。
4 新聞搜索分析服務平臺特色
1)即時播報:匯聚了來自網站、報紙、電視、新華社、手機的最新新聞信息,按照一定的分類收集,統一的抓取和更新彰顯即時動態和豐富的視覺效果(圖2)。
2)網站新聞匯聚:通過各大網絡媒體,抓取各大網站的最新新聞,并根據不同的類別進行分類存儲,達到一種強大的視覺效果。
3)綜合搜索:提供多功能(分類、時間、來源)以及跨越平臺式的搜索選擇,將搜索到的數據以列表的形式呈現。
4)媒體監控:根據不同的媒體來源對新聞進行區分,方便用戶更快速的找到自己所需的新聞,同時對傳統媒體和網絡媒體新聞進行查詢,用戶可直接將關注媒體添加到媒體監控,同時提供相關業務操作(圖4)。
圖4 媒體監控應用效果示例
5)熱點分析
熱點新聞是由Autonomy自動分析熱點和主要門戶即時滾動組合生成,熱點分析功能則提供在不同的時間軸的熱點信息,在熱點圖形上模擬描繪出熱點區域,可由人工干預,修整出熱點新聞(圖5)。
分析平臺提供強有力的分析功能,支持xml輸出格式,包括報紙對比、版面對比、熱點分析等,在將新聞數據進行分析對比的同時,將對比的數據即時存庫,及時展現在用戶視野。同時相關的對比信息在后臺會有統一管理和操作,更有利從用戶體驗上考慮,以進行深加工處理。
6)版面對比:實時可在報紙庫中任意選取一版面與另一版面進行對比,分相似新聞和不相同新聞展示,對比結果以列表形式呈現。
7)報紙對比:針對新聞報道內容,提供給報社管理員預設幾份報紙對比功能,服務平臺將對比數據存庫,前臺顯示給用戶對比信息,以獨稿和漏稿顯示出來。
8)別出心裁的剪報功能:用戶可使用服務平臺已有的數據進行個性化剪報制作,可將自己收藏在收藏夾中的新聞生成相應的剪報,剪報格式主要以pdf等格式呈現(圖6)。
5 新聞搜素分析服務平臺帶來的效益
1) 對多元業務:實時更新,應對挑戰。從目前報社相關市場的競爭狀況還處于原始競爭狀態,行業性報紙主要是為行業服務,傳達信息,了解動態,指導工作等。隨行業的業務的發展,此類就更加不能適應其發展要求,最終轉入低潮。
新聞搜索平臺有利的避免了這一點,從搜索上:新聞目標明確,主要面向政府,媒體、企業。縱向滲透力較強,品牌定位鮮明,搜索數據多元化。從分析上:對收集到的新聞數據,采用人工干預和對比的效果,使之新聞更容易納入用戶視野,提高了瀏覽度。
新聞搜索服務平臺將作為激發潛在市場活力、應對挑戰的先行者。
2)對多元信息:細致分析,精心處理。新聞搜索分析平臺提供強有力的分析功能,支持xml輸出格式,包括報紙對比、版面對比、熱點分析等,在將新聞數據進行分析對比的同時,將對比的數據即時存庫,及時展現在用戶視野。同時相關的對比信息在后臺會有統一管理和操作,更有利從用戶體驗上考慮,以進行深加工處理。
3)對事業發展:奠定基礎,提供支撐。更重要的是,新聞搜索分析服務平臺通過投入使用,初步形成了報業數據的聚合搜索,并且對此進行有力的分析,為將來報業系統進一步擴展奠定了基礎。通過一期的解決方案,系統成功地實現了“多元化信息搜索,多式樣動態分析,多用戶視覺預覽,多格式文本輸出”的平臺集成優化,為報業集團節約了大量的人力成本和管理成本,并積累了寶貴的歷史資源。
6 結束語
系統成功地實現了“多元化信息搜索,多式樣動態分析,多用戶視覺預覽,多格式文本輸出”的平臺集成優化,為報業集團節約了大量的人力成本和管理成本,并積累了寶貴的歷史資源。從搜索上:新聞目標明確,主要面向政府,媒體、企業。縱向滲透力較強,品牌定位鮮明,搜索數據多元化。從分析上:對收集到的新聞數據,采用人工干預和對比的效果,使之新聞更容易納入用戶視野,提高了瀏覽度。
參考文獻:
[1] 劉臻.個性化新聞搜索系統的研究[J].浙江萬里學院學報,2005(4) .
[2] 何會民,韓東霞,周明姬.基于Lucene的網絡新聞搜索引擎研究與實現[J].商場現代化,2008(9).
[3] 于靜波,余敦一,陳秋月,等.互聯網新聞搜索設計[J].計算機系統應用,2008(7).
[4] 李紅梅,丁振國,周水生,等.搜索引擎中的聚類瀏覽技術[J].中文信息學報,2008(3).
[5] 吳文慶,郭偉偉.個性化搜索引擎與Web挖掘技術[J].中國科教創新導刊,2008(4).
[6] 趙哲.搜索引擎新聞組織模式淺析[J].科技資訊,2008(16).
[7] 李志杰.搜索引擎和RSS在體育信息檢索中的應用與比較[J].科技創新導報,2008(12) .
[8] 陳朝暉.網絡新聞搜索引擎Deja News研究[J].現代圖書情報技術,1998(6).
[9] 劉凱.有道搜索:搜索引擎的新生力量[J].西部論叢,2008(2).
[10] 張春元,康耀紅,伍小芹. Web新聞自動采集發布系統的設計與實現[J].計算機技術與發展,2009(9).
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文