999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網站新聞自動采集系統設計

2009-04-29 00:00:00
電腦知識與技術 2009年33期

摘要:現在許多傳統媒體都建立了自己的新聞網站,除及時發布自己媒體的新聞外,還需要采集其它一些專業新聞網站的新聞作為補充,文章通過ASPHTTP組件實現了網站新聞的遠程批量自動采集,提高了網絡編輯的發布效率,并為相關應用提供了一種快捷可行的思路和設計方案。

關鍵詞:新聞網站;內容發布;遠程采集;ASP編程;ASPHTTP組件

中圖分類號:TP393 文獻標識碼:A文章編號:1009-3044(2009)33-9525-02

Site News Automatic Acquisition System

XU Li

(Xiamen Media Group, Xiamen 360012, China)

Abstract: Now a lot of traditional media have established their own news site; in addition to release their own news without delay, they also need to collect news from other classified news sites as a supplement, articles with ASPHTTP components achieve the site's automated news collection, improve the release efficiency of the web editor, and provide a fast and feasible approach and design for related applications.

Key words:news site; content distribution; remote acquisition; ASP programming; ASPHTTP components

1 采集系統設計

廈門廣電集團網站作為地方性綜合網站,建立了站內新聞頻道,除每天及時通過內部稿件系統收集整理、再編輯、發布電視新聞欄目中播出過的地方新聞外,還每天在線發布“國際”、“國內”、“體育”、“娛樂”、“財經”、“科技”和“臺灣”等七大類約100條左右的其它新聞文字稿,新聞來源主要是通過上網收集其它國內權威新聞網站的內容,如新華網、中國新聞網等。這類網站的新聞真實性有保證,具有一定的權威性,同時輿論導向相對規范[1]。建站初期,每天安排兩名編輯通過上網瀏覽的方式,選擇合適的新聞,通過拷貝、粘貼到“廈視”網站的后臺發布平臺進行發布。根據測算,通過手工方式每天發布100條左右的新聞,大約需要2-3個小時左右,實踐證明,這種手工方式太費時費力,決定設計一套簡便易行的網站新聞自動采集系統[2]。

通過對國內一些大型新聞網站的觀察,發覺這類新聞網站大多會根據新聞類別和發布日期建立各類新聞的新聞目錄頁面,例如從http://www.chinanews.com.cn/china.shtml 頁面可以獲取“中國新聞網”當天發布的最新60條國內新聞的目錄及其鏈接網址,從http://www.chinanews.com.cn/scroll-news/gn/2009/1013/news.shtml 頁面可以獲取“中新網”2009年10月13日發布的全部國內新聞目錄及其鏈接網址,從http://www.chinanews.com.cn/scroll-news/ty/2009/1013/news.shtml 這個頁面可以獲得“新浪網――體育頻道”2009年10月13日發布的全部體育新聞目錄及其鏈接網址。不同類型的網站可以根據需要尋找不同的網站新聞源作為自己網站新聞的采集源[3]。

廈門廣電集團網站采用ASP編程[4],ASP本身不具備遠程采集功能,但ASP各種功能組件繁多,其中一款名為ASPHTTP[5]的組件能夠使你能夠使用http協議GET/POST/HEAD文檔,可以通過其遠程讀取其它網站頁面的能力[6],在該組件基礎上進行再次開發,實現網站新聞的遠程批量采集。ASPHTTP組件可在:http://www.serverobjects.com/comp/asphttp3.zip下載[7]。以下簡要說明設計思路。

首先,觀察獲得的中國新聞網七類新聞的目錄頁地址,并將這些頁面采集到本地計算機中[8]。

第二步,對采集到的目錄頁進行代碼分析,將新聞列表中包含的新聞標題和它們的具體鏈接地址整理出來,生成供編輯選擇的新聞列表表單,由網站編輯根據需要挑選新聞。對挑選出來的新聞條目,程序自動逐條采集網頁文本到服務器,再次通過代碼分析出采集下來的每條新聞的標題、來源、正文等文字內容,并自動記錄到數據庫形成一條條的新聞記錄[9]。

該文具體實現代碼包括三段ASP代碼,三段代碼的作用分別是:

代碼1的作用是提交需要采集的新聞目錄頁地址。

代碼2的作用有兩個,一是遠程讀取新聞目錄頁面,并采集到本地計算機;二是對采集下來的頁面進行分析,得到新聞列表中的新聞標題及其每條新聞的遠程網址,等待編輯人員的選擇。

代碼3的作用是在獲得多條新聞的網址后,逐一將這些新聞頁面采集到本地計算機,再一一分析,得出每條新聞的標題、正文等字段,最后記錄到服務器數據庫中。

具體代碼請見(http://www.xmg.com.cn/code.rar)。

2 結束語

通過采用這種思路和方式編寫的網站新聞采集系統,在實際應用中,廈門廣電集團網站每天外采新聞的發布工作,可以減少到由一名編輯在15分鐘內完成,大大提供了工作效率。以上方法和代碼中可能還有許多缺陷,還請讀者指正。期待有更多更好的設計思路可以用來解決網站新聞自動采集的問題,僅以該文拋磚引玉。

參考文獻:

[1] 吳定明,趙東巖.一種互聯網新聞網頁的采集分析方法[J].計算機工程與應用,2007(36):169-172.

[2] 馬志強,趙汐,賈鵬.基于網頁的站內信息采集技術的研究與實現[J].內蒙古大學學報:自然科學版,2009(2):203-207.

[3] 王煜.面向主題的網頁采集系統的設計與研究[J].計算機與數字工程,2008(4):78-80,93.

[4] Baidu百科.ASP百度百科[EB/OL].[2009-10-13].http://baike.baidu.com/view/117978.htm.

[5] netidea.AspHTTP的組件的獲取使用[EB/OL].[2006-11-08].http://hi.baidu.com/netidea/blog/item/4f7cc2c82b1782177e3e6f2c.html.

[6] 張秀虎.淺析新聞采集程序的技術核心[J].中國教育信息化,2007(4):55-58.

[7] 郭少友.元搜索引擎的原理與設計[J].情報科學,2005(2):245-248.

[8] 楊海霞,張永奎.網絡新聞數據可視化采集系統的設計及應用[J].山西科技,2006(5):34-35.

[9] 陳健瑜.網頁動態頁面采集關鍵技術研究[J].硅谷,2009(12):68.

主站蜘蛛池模板: 国产欧美高清| 欧美不卡视频在线| 91精品久久久无码中文字幕vr| 免费观看无遮挡www的小视频| 亚洲国产亚综合在线区| 国产极品美女在线观看| 人妻21p大胆| 无码一区中文字幕| 69av免费视频| 国产区人妖精品人妖精品视频| 国产成人亚洲精品无码电影| 四虎精品国产AV二区| 伊人五月丁香综合AⅤ| 日本精品中文字幕在线不卡| 国产福利观看| 国产成人无码Av在线播放无广告| 国产成人亚洲综合a∨婷婷| 亚洲第一视频网| 污网站免费在线观看| 国产高清在线精品一区二区三区 | 日韩一区二区三免费高清| 国产福利小视频在线播放观看| 日韩无码视频专区| 99re在线免费视频| 一本大道视频精品人妻 | 色婷婷丁香| 欧美日韩国产在线人成app| 国产日本欧美亚洲精品视| 一区二区影院| 97国产在线播放| 欧美h在线观看| 亚洲大学生视频在线播放| 色噜噜狠狠狠综合曰曰曰| 日本午夜在线视频| 亚洲区第一页| 国产日韩欧美精品区性色| 毛片久久网站小视频| 国产精品污视频| 欧美日韩高清| 谁有在线观看日韩亚洲最新视频| 久久久久亚洲av成人网人人软件| 欧美日韩成人在线观看| 国产导航在线| 韩日免费小视频| 国产在线视频自拍| 国产成人三级| 国产精品妖精视频| 高清码无在线看| 性欧美在线| 国产精品美人久久久久久AV| 99久久无色码中文字幕| 成年人视频一区二区| 99视频精品全国免费品| 在线一级毛片| 国产乱人激情H在线观看| 91国内在线观看| 午夜欧美理论2019理论| 国产成人毛片| 亚洲精品另类| 爆乳熟妇一区二区三区| 99福利视频导航| 亚洲首页在线观看| 久久精品丝袜高跟鞋| 免费毛片在线| 尤物精品视频一区二区三区| 亚洲一区二区三区中文字幕5566| 国产精品久久久久久久久久98 | 婷婷午夜影院| 经典三级久久| 午夜视频免费一区二区在线看| 日本亚洲国产一区二区三区| 国产欧美在线观看视频| 久久99国产综合精品1| 欧美激情第一区| 四虎亚洲国产成人久久精品| 人妻熟妇日韩AV在线播放| 国产啪在线| 偷拍久久网| 日韩精品一区二区三区中文无码| 五月天天天色| 丁香五月激情图片| 18禁黄无遮挡免费动漫网站|