技術(shù)宅
平時(shí)我們使用百度搜索網(wǎng)站的時(shí)候,如果是惡意網(wǎng)站,會(huì)經(jīng)常彈出“檢測(cè)到××是不安全網(wǎng)址”的提示。這樣預(yù)先防范可以讓我們避開(kāi)對(duì)惡意網(wǎng)站的訪問(wèn),而此操作則是借助百度網(wǎng)址安全中心實(shí)現(xiàn)的。今天就讓我們一探究竟,看看這個(gè)安全中心究竟如何運(yùn)作,以及對(duì)于惡意網(wǎng)站的檢測(cè)又用到什么技術(shù)。
對(duì)付惡意網(wǎng)站 常見(jiàn)安全措施有這些
由于現(xiàn)在大部分威脅都來(lái)自網(wǎng)上,現(xiàn)在的惡意網(wǎng)站主要是釣魚(yú)網(wǎng)站和暗藏木馬、病毒網(wǎng)站。當(dāng)然前者也大多暗藏木馬、病毒,它的主要威脅是模仿網(wǎng)銀、在線(xiàn)支付等網(wǎng)站,給我們的財(cái)產(chǎn)帶來(lái)?yè)p失;后者則主要通過(guò)惡意腳本、代碼等對(duì)來(lái)訪者進(jìn)行侵襲。
對(duì)于這些惡意網(wǎng)站的防范,常規(guī)的方法是通過(guò)電腦安裝的殺毒軟件等安全軟件進(jìn)行檢測(cè),這些安全軟件會(huì)在我們打開(kāi)網(wǎng)址進(jìn)行訪問(wèn)的時(shí)候,在后臺(tái)自動(dòng)對(duì)訪問(wèn)的網(wǎng)址進(jìn)行檢測(cè),如果是惡意網(wǎng)站則會(huì)攔截瀏覽器對(duì)其的訪問(wèn)。這些常規(guī)的防范主要借助殺毒軟件更新的病毒庫(kù)進(jìn)行,但是現(xiàn)在這類(lèi)網(wǎng)站每天層出不窮,而且使用各種變種、難以查殺的代碼來(lái)繞過(guò)殺毒軟件的檢測(cè)。因此為了更好地保護(hù)網(wǎng)民的安全,現(xiàn)在百度、騰訊等公司則使用更為全面、先進(jìn)的網(wǎng)址安全中心服務(wù)來(lái)阻止我們對(duì)惡意網(wǎng)站的訪問(wèn)。如百度網(wǎng)址安全中心會(huì)對(duì)互聯(lián)網(wǎng)上數(shù)以?xún)|計(jì)的網(wǎng)站預(yù)先進(jìn)行檢測(cè),并將可能包含惡意代碼的網(wǎng)站在搜索結(jié)果中進(jìn)行標(biāo)注,這樣我們?cè)谑褂冒俣冗M(jìn)行搜索時(shí)就可以避免對(duì)這類(lèi)網(wǎng)站的訪問(wèn)(圖1)。
安全檢測(cè) 厚度網(wǎng)址安全中心背后的技術(shù)
大家知道現(xiàn)在網(wǎng)上惡意網(wǎng)站非常多,那么百度網(wǎng)址安全中心是怎么對(duì)其進(jìn)行鑒別?其背后又使用了哪些前沿技術(shù)?
首先對(duì)于互聯(lián)網(wǎng)上數(shù)以?xún)|計(jì)的網(wǎng)頁(yè),百度使用“搜索引擎爬蟲(chóng)”來(lái)進(jìn)行自動(dòng)訪問(wèn)。對(duì)于這些惡意網(wǎng)站的訪問(wèn),網(wǎng)絡(luò)爬蟲(chóng)并不是簡(jiǎn)單地在網(wǎng)站門(mén)口“瞄一眼”(建立網(wǎng)頁(yè)快照),因?yàn)楹芏鄲阂饩W(wǎng)站存在跳轉(zhuǎn)、加密,簡(jiǎn)單的表面訪問(wèn)并不能發(fā)現(xiàn)這些暗藏的危險(xiǎn)因素。爬蟲(chóng)在訪問(wèn)這些網(wǎng)站的時(shí)候會(huì)利用種種技術(shù)手段,把這些異常代碼、跳轉(zhuǎn)等全部記錄下來(lái)。
爬蟲(chóng)收集到所有網(wǎng)站的信息后會(huì)匯總到安全服務(wù)器,接下來(lái)就是對(duì)收集到的網(wǎng)頁(yè)進(jìn)行安全檢測(cè)。網(wǎng)址安全檢測(cè)的幕后功臣則是“網(wǎng)址安全檢測(cè)引擎”,它會(huì)針對(duì)不同種類(lèi)的惡意網(wǎng)址使用不同的方法進(jìn)行檢測(cè)。比如對(duì)于惡意掛馬網(wǎng)頁(yè)的檢測(cè)方式是使用特征代碼進(jìn)行檢測(cè),百度網(wǎng)址安全中心工程師利用類(lèi)似“沙盤(pán)”的虛擬系統(tǒng)將網(wǎng)頁(yè)打開(kāi)進(jìn)行測(cè)試,如果網(wǎng)址報(bào)警,則在搜索引擎數(shù)據(jù)庫(kù)中將這個(gè)網(wǎng)址標(biāo)注為紅色風(fēng)險(xiǎn)頁(yè)面,這樣用戶(hù)搜索時(shí)一看就知道是惡意網(wǎng)頁(yè)(圖2)。
對(duì)于惡意網(wǎng)址,百度網(wǎng)址安全中心則使用一種“TF-IDF算法”來(lái)進(jìn)行判定。該算法可以提取網(wǎng)頁(yè)內(nèi)表述網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞,找到在這個(gè)網(wǎng)頁(yè)中頻繁出現(xiàn)但其他網(wǎng)頁(yè)中并不普遍的詞匯,如某網(wǎng)址頁(yè)面頻繁出現(xiàn)那些粗俗、下流的關(guān)鍵字,則判定其為非法頁(yè)面(圖3)。
對(duì)于釣魚(yú)網(wǎng)站的鑒別則借助“SIMHASH算法”來(lái)判定,該算法把一個(gè)網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)換成一個(gè)64位的“特征字”(類(lèi)似文件的哈希值),如果兩個(gè)內(nèi)容的特征字距離小于規(guī)定值,那么就判定二者相似度極高。比如百度會(huì)先將工行網(wǎng)站首頁(yè)進(jìn)行識(shí)別并生成特征字,如果爬蟲(chóng)收集到的某個(gè)網(wǎng)址,經(jīng)過(guò)“SIMHASH算法”得出的特征字和工行很類(lèi)似,那么網(wǎng)址安全中心就會(huì)將其判定為工行釣魚(yú)網(wǎng)站,并在搜索結(jié)果中進(jìn)行標(biāo)注,從而可以讓大家不去訪問(wèn)。
不過(guò)除了模仿銀行的釣魚(yú)網(wǎng)站,還有相當(dāng)多虛假中獎(jiǎng)頁(yè)面并沒(méi)有模仿元素。對(duì)于這類(lèi)網(wǎng)址,百度安全中心使用“人工智能”技術(shù)進(jìn)行識(shí)別。人工智能的核心是訓(xùn)練機(jī)器來(lái)模擬人的判斷,從而讓機(jī)器擁有類(lèi)似人工的智能,可以對(duì)常見(jiàn)的惡意網(wǎng)頁(yè)擁有辨別的能力。如很多虛假的中獎(jiǎng)頁(yè)面大多具備如下特征:
網(wǎng)頁(yè)中的圖片比例很高,呈現(xiàn)瀑布流狀;
這類(lèi)網(wǎng)頁(yè)鏈接由于頻繁變動(dòng),經(jīng)常是一些和正常網(wǎng)址不一樣的奇怪域名;
這類(lèi)網(wǎng)站也會(huì)引用大量的外部鏈接。
這樣工程師把虛假中獎(jiǎng)頁(yè)面這些特征參數(shù)放到深度學(xué)習(xí)引擎中,機(jī)器通過(guò)學(xué)習(xí)大量的中獎(jiǎng)頁(yè)面后就可以自動(dòng)對(duì)爬蟲(chóng)搜集到的網(wǎng)址進(jìn)行鑒別,從而實(shí)現(xiàn)自動(dòng)的智能識(shí)別
寫(xiě)在最后 道高一尺魔高一丈 安全靠大家
俗話(huà)說(shuō)“道高一尺魔高一丈”。對(duì)于百度安全中心推出的各種安全檢測(cè)手段,惡意網(wǎng)頁(yè)的制作者也不會(huì)束手就擒。為了躲避類(lèi)似百度安全中心的檢測(cè),一些惡意網(wǎng)站將原來(lái)頻繁出現(xiàn)的關(guān)鍵字變化為圖片,從而躲過(guò)百度對(duì)關(guān)鍵字的檢測(cè)。對(duì)于這種變化,百度網(wǎng)址安全中心則使用OCR識(shí)別技術(shù)對(duì)圖片文字進(jìn)行識(shí)別,同時(shí)生成對(duì)應(yīng)的規(guī)則讓機(jī)器學(xué)習(xí),這樣通過(guò)強(qiáng)大的人工智能技術(shù)可以讓惡意網(wǎng)頁(yè)這種變化無(wú)所遁形。
不過(guò)現(xiàn)在網(wǎng)絡(luò)安全形式仍然十分嚴(yán)峻,類(lèi)似百度網(wǎng)址安全中心并不能完全保護(hù)我們的安全。一方面是安全中心并不能100%檢測(cè)到所有的惡意網(wǎng)頁(yè),每天在網(wǎng)上仍然會(huì)出現(xiàn)各種各樣的惡意網(wǎng)址:另一方面出于好奇,即使明知是風(fēng)險(xiǎn)頁(yè)面,很多朋友仍然會(huì)主動(dòng)嘗試打開(kāi),這大大增加中招的風(fēng)險(xiǎn)。因此要讓自己的電腦更加安全,平時(shí)我們就要養(yǎng)成良好的操作習(xí)慣。類(lèi)似支付寶、網(wǎng)銀等頁(yè)面,平時(shí)將其官網(wǎng)添加到收藏夾,訪問(wèn)時(shí)通過(guò)收藏夾進(jìn)行打開(kāi),這樣可以避免很多釣魚(yú)網(wǎng)站的攻擊!