999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動采集網站數據與反自動采集網站數據方法的研究

2015-04-20 21:25:06陳國耀
科技創新與應用 2015年11期
關鍵詞:研究

陳國耀

摘 要:網站安全問題一直都是網絡安全領域的技術人員研究的重點問題之一,其不僅包含網站受非法攻擊、入侵、服務器端代碼被篡改、被注入木馬等問題,而且包含被特定自動采集數據軟件自動采集網站數據等問題。若自動采集網站數據軟件長時間運行,必然對網站服務器造成巨大壓力,甚至直接導致網站服務器的崩潰。文章基于windows平臺下的JAVA編程語言如何實現自動采集網站數據以及如何反自動采集網站數據進行深入研究。

關鍵詞:自動采集;網站數據;反自動采集;研究

1 研究背景及意義

現代社會是一個信息社會,工作、生活越來越離不開信息的支撐,信息技術和信息產業在經濟、社會發展中的作用日益增強,并逐漸發揮著主導作用,成為比物質、能源更為重要的資源。數據已經成為一種商品進行交易,對數據進行再加工、提取、去噪、排序、整合后得出的數據往往具有非常高的商業價值,因為這些經過處理的數據能夠更有效地指導商業決策,以使得公司、企業能夠在競爭激烈的商業環境中處于不敗之地。比如要獲取某市年溫度、降雨量等信息,則從該市氣象局網站上獲取的數據較為權威、可信;要獲取某市的高新技術企業信息,則從該市負責注冊高新技術企業的政府網站獲取的數據較為準確;即準確的數據往往來自官方網站、權威性網站,而官方數據、權威數據的獲取往往具有一定的困難或限制,比如只能按條進行順序查詢,不能進行批量查詢,如果采用人工復制、采集的方式獲取完整的、大批量的數據,時間、開銷等各個方面均不允許,于是采用具有自動采集數據功能的軟件采集網站數據往往成為人們獲取官方、具有權威性、完整、大批量數據常用的手段。

目前比較流行的編程語言c++、c#、java、python等實現自動采集網站數據的原理類似,只是語法或所使用的組件不同,文章對基于windows平臺下的java編程語言實現自動采集網站數據以及反自動采集網站數據的方法進行探討。

2 自動采集網站數據的方法

通常由編程語言實現的自動采集網站數據均要通過模擬客戶端向服務器發送請求的方式,獲取服務器返回的數據,從中提取所需數據。

具體又分為兩類:

(1)模擬客戶端向網站服務器發送請求,直接獲取服務器返回的html格式的數據,并對該數據進行解析從中提取所需數據。采用java語言實現的核心代碼如下:

URL url = new URL(websiteAddress);

// websiteAddress為請求網址,為待查詢數據的查詢結果頁面

URLConnection connection = url.openConnection();

//創建與網站服務器的連接

connection.setDoOutput(true);

connection.setDoInput(true);

OutputStreamWriter out = new

OutputStreamWriter(connection.getOutputStream(), "GBK");

//根據網站服務器端操作系統編碼設置相應的請求參數編碼

out.write(otherRequestParams);

//otherRequestParams為請求附帶的參數

out.flush();

out.close();

//以下代碼用于接收、讀取服務器端返回的數據

InputStream l_urlStream=null;

l_urlStream = connection.getInputStream();

BufferedReader l_reader = new BufferedReader(new InputStreamReader(l_urlStream));

while ((sCurrentLine = l_reader.readLine()) != null) {

sTotalString += sCurrentLine;

}

然后采用Java提供的subString()函數或正則表達式對從服務器端獲取的字符串組合進行解析,從中提取所需數據。

(2)當網站服務器端對返回值進行一定的加密設置,或者通過其它手段使得客戶端獲取的響應內容無效等,即通過正常的請求、響應機制獲取不到服務器端后臺返回的數據。而通過在客戶端的瀏覽器中輸入請求網址,能夠正常獲取服務器端響應的html文件;即網站服務器返回數據并將其裝配成html文件返回到客戶端,在客戶端的瀏覽器中能夠讀取到該html文件,但是我們的后臺應用程序卻獲取不到服務器端返回的數據。此時可采用JAVA提供的Robot類進行相應的操作以獲取數據。

關于Robot類:此類用于為測試自動化、自運行演示程序和其他需要控制鼠標和鍵盤的應用程序生成本機系統輸入事件。Robot的主要目的是便于JAVA平臺實現自動測試。該類提供的模擬鍵盤、鼠標功能使得我們不僅能夠利用其開發自動測試應用程序,而且能夠開發其它無需手動控制、自動執行的“機器人”應用程序。采用java語言的Robot類實現的自動采集網站數據的核心代碼如下:

//通過模擬鍵盤按鍵在地址欄中輸入請求網址

Robot robot = new Robot();

robot.keyPress(KeyEvent.鍵值);

robot.keyRelease(KeyEvent.鍵值);

//通過復制、粘貼的方式獲取從網站服務器端返回的html頁面

robot.keyPress(KeyEvent.VK_CONTROL);

robot.keyPress(KeyEvent.VK_C);

robot.keyRelease(KeyEvent.VK_C);

robot.keyRelease(KeyEvent.VK_CONTROL);

//得到剪貼板中的內容

Transferable contents=sysc.getContents(this);

stringEachPageGet = (String) contents.getTransferData(DataFlavor.stringFlavor);

}

然后利用java語言的subString()函數或正則表達式對獲取的字符串進行解析,從中提取所需信息。

3 反自動采集網站數據的方法

針對上述基于windows平臺下的JAVA編程語言實現的自動采集網站數據的方法,我們可以采取以下方法進行應對,以防止網站數據被數據采集軟件自動采集:

(1)定期或隨機更改返回客戶端瀏覽器html文件的格式。目前網站服務器與客戶端間的通信基本上都是基于http協議,該協議是一個請求-響應式的協議,服務端返回的內容多為html文件。數據采集軟件依據html文件內容的格式對從服務端返回的內容進行解析,隨機改變返回html文件的格式就可以阻斷解析的過程,從而阻斷數據采集的過程。

(2)針對不同的瀏覽器,通過在服務器端返回的html頁面中加入防復制、禁止保存網頁等功能的JS代碼,可以阻斷自動采集網站數據軟件的采集過程。

猜你喜歡
研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側面碰撞假人損傷研究
關于反傾銷會計研究的思考
焊接膜層脫落的攻關研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 四虎影视8848永久精品| 成人在线视频一区| 日本不卡在线播放| 国产成人喷潮在线观看| 国产精品爽爽va在线无码观看| 亚洲成人网在线播放| 综合色88| 四虎成人在线视频| 亚洲欧洲国产成人综合不卡| 在线观看国产一区二区三区99| 国产欧美视频一区二区三区| 亚洲成人动漫在线观看| 99久久精品免费视频| 欧美不卡视频一区发布| 亚洲美女一级毛片| 精品国产福利在线| 播五月综合| 国产尤物视频网址导航| 国产成人免费观看在线视频| 亚洲三级电影在线播放| 国产精品高清国产三级囯产AV| 国产香蕉国产精品偷在线观看| 国产精品自在在线午夜| 久久精品人人做人人爽电影蜜月 | 精品無碼一區在線觀看 | 中文字幕乱码二三区免费| 国产成人亚洲无吗淙合青草| 九九精品在线观看| 人妻21p大胆| 国产成+人+综合+亚洲欧美| 欧美一级专区免费大片| 动漫精品中文字幕无码| 国产一级视频在线观看网站| 欧洲av毛片| 亚洲综合第一区| 亚洲男人的天堂在线观看| 青青草一区| 2020国产精品视频| 亚洲床戏一区| 国产欧美日韩免费| 一级毛片在线播放| 91久久偷偷做嫩草影院| 免费看a级毛片| 久久香蕉国产线看观看精品蕉| 午夜视频在线观看免费网站| 波多野结衣爽到高潮漏水大喷| 亚洲人成成无码网WWW| 久久精品嫩草研究院| 91无码国产视频| 亚洲91在线精品| 亚洲欧美日韩精品专区| 亚洲区视频在线观看| 国产视频 第一页| 国产又爽又黄无遮挡免费观看| 国产成人乱无码视频| 国产91精品久久| 国产波多野结衣中文在线播放| 特级aaaaaaaaa毛片免费视频| 免费无遮挡AV| 中文天堂在线视频| 97一区二区在线播放| 九色91在线视频| 欧美成人一区午夜福利在线| 噜噜噜久久| 国产区人妖精品人妖精品视频| 国产自无码视频在线观看| 亚洲一级毛片在线观播放| 成人午夜视频网站| 亚洲成人精品在线| 国产亚洲欧美在线中文bt天堂| 999福利激情视频| 国产小视频网站| 成人免费午夜视频| 在线无码九区| 欧美日本激情| 午夜爽爽视频| 性激烈欧美三级在线播放| 国产黄视频网站| 欧美日韩国产成人高清视频| 黄片在线永久| 亚洲三级视频在线观看| 国产精品原创不卡在线|