摘要:現在許多傳統媒體都建立了自己的新聞網站,除及時發布自己媒體的新聞外,還需要采集其它一些專業新聞網站的新聞作為補充,文章通過ASPHTTP組件實現了網站新聞的遠程批量自動采集,提高了網絡編輯的發布效率,并為相關應用提供了一種快捷可行的思路和設計方案。
關鍵詞:新聞網站;內容發布;遠程采集;ASP編程;ASPHTTP組件
中圖分類號:TP393 文獻標識碼:A文章編號:1009-3044(2009)33-9525-02
Site News Automatic Acquisition System
XU Li
(Xiamen Media Group, Xiamen 360012, China)
Abstract: Now a lot of traditional media have established their own news site; in addition to release their own news without delay, they also need to collect news from other classified news sites as a supplement, articles with ASPHTTP components achieve the site's automated news collection, improve the release efficiency of the web editor, and provide a fast and feasible approach and design for related applications.
Key words:news site; content distribution; remote acquisition; ASP programming; ASPHTTP components
1 采集系統設計
廈門廣電集團網站作為地方性綜合網站,建立了站內新聞頻道,除每天及時通過內部稿件系統收集整理、再編輯、發布電視新聞欄目中播出過的地方新聞外,還每天在線發布“國際”、“國內”、“體育”、“娛樂”、“財經”、“科技”和“臺灣”等七大類約100條左右的其它新聞文字稿,新聞來源主要是通過上網收集其它國內權威新聞網站的內容,如新華網、中國新聞網等。這類網站的新聞真實性有保證,具有一定的權威性,同時輿論導向相對規范[1]。建站初期,每天安排兩名編輯通過上網瀏覽的方式,選擇合適的新聞,通過拷貝、粘貼到“廈視”網站的后臺發布平臺進行發布。根據測算,通過手工方式每天發布100條左右的新聞,大約需要2-3個小時左右,實踐證明,這種手工方式太費時費力,決定設計一套簡便易行的網站新聞自動采集系統[2]。
通過對國內一些大型新聞網站的觀察,發覺這類新聞網站大多會根據新聞類別和發布日期建立各類新聞的新聞目錄頁面,例如從http://www.chinanews.com.cn/china.shtml 頁面可以獲取“中國新聞網”當天發布的最新60條國內新聞的目錄及其鏈接網址,從http://www.chinanews.com.cn/scroll-news/gn/2009/1013/news.shtml 頁面可以獲取“中新網”2009年10月13日發布的全部國內新聞目錄及其鏈接網址,從http://www.chinanews.com.cn/scroll-news/ty/2009/1013/news.shtml 這個頁面可以獲得“新浪網――體育頻道”2009年10月13日發布的全部體育新聞目錄及其鏈接網址。不同類型的網站可以根據需要尋找不同的網站新聞源作為自己網站新聞的采集源[3]。
廈門廣電集團網站采用ASP編程[4],ASP本身不具備遠程采集功能,但ASP各種功能組件繁多,其中一款名為ASPHTTP[5]的組件能夠使你能夠使用http協議GET/POST/HEAD文檔,可以通過其遠程讀取其它網站頁面的能力[6],在該組件基礎上進行再次開發,實現網站新聞的遠程批量采集。ASPHTTP組件可在:http://www.serverobjects.com/comp/asphttp3.zip下載[7]。以下簡要說明設計思路。
首先,觀察獲得的中國新聞網七類新聞的目錄頁地址,并將這些頁面采集到本地計算機中[8]。
第二步,對采集到的目錄頁進行代碼分析,將新聞列表中包含的新聞標題和它們的具體鏈接地址整理出來,生成供編輯選擇的新聞列表表單,由網站編輯根據需要挑選新聞。對挑選出來的新聞條目,程序自動逐條采集網頁文本到服務器,再次通過代碼分析出采集下來的每條新聞的標題、來源、正文等文字內容,并自動記錄到數據庫形成一條條的新聞記錄[9]。
該文具體實現代碼包括三段ASP代碼,三段代碼的作用分別是:
代碼1的作用是提交需要采集的新聞目錄頁地址。
代碼2的作用有兩個,一是遠程讀取新聞目錄頁面,并采集到本地計算機;二是對采集下來的頁面進行分析,得到新聞列表中的新聞標題及其每條新聞的遠程網址,等待編輯人員的選擇。
代碼3的作用是在獲得多條新聞的網址后,逐一將這些新聞頁面采集到本地計算機,再一一分析,得出每條新聞的標題、正文等字段,最后記錄到服務器數據庫中。
具體代碼請見(http://www.xmg.com.cn/code.rar)。
2 結束語
通過采用這種思路和方式編寫的網站新聞采集系統,在實際應用中,廈門廣電集團網站每天外采新聞的發布工作,可以減少到由一名編輯在15分鐘內完成,大大提供了工作效率。以上方法和代碼中可能還有許多缺陷,還請讀者指正。期待有更多更好的設計思路可以用來解決網站新聞自動采集的問題,僅以該文拋磚引玉。
參考文獻:
[1] 吳定明,趙東巖.一種互聯網新聞網頁的采集分析方法[J].計算機工程與應用,2007(36):169-172.
[2] 馬志強,趙汐,賈鵬.基于網頁的站內信息采集技術的研究與實現[J].內蒙古大學學報:自然科學版,2009(2):203-207.
[3] 王煜.面向主題的網頁采集系統的設計與研究[J].計算機與數字工程,2008(4):78-80,93.
[4] Baidu百科.ASP百度百科[EB/OL].[2009-10-13].http://baike.baidu.com/view/117978.htm.
[5] netidea.AspHTTP的組件的獲取使用[EB/OL].[2006-11-08].http://hi.baidu.com/netidea/blog/item/4f7cc2c82b1782177e3e6f2c.html.
[6] 張秀虎.淺析新聞采集程序的技術核心[J].中國教育信息化,2007(4):55-58.
[7] 郭少友.元搜索引擎的原理與設計[J].情報科學,2005(2):245-248.
[8] 楊海霞,張永奎.網絡新聞數據可視化采集系統的設計及應用[J].山西科技,2006(5):34-35.
[9] 陳健瑜.網頁動態頁面采集關鍵技術研究[J].硅谷,2009(12):68.