李亞
摘?要:互聯網時代人們檢索信息的主要方式都是利用搜索引擎完成的,不管是通用的全文搜索引擎,還是分類別的垂直搜索引擎,面臨的主要行為就是作弊行為,網頁作弊成為當前搜索引擎面臨的一個重大挑戰,很多作弊者利用各種作弊技術來騙取虛假或排名。信息時代的不斷發展,作弊行為也各種各樣,而搜索引擎需要通過不斷的優化和完善內部排序算法來有效杜絕作弊行為。
關鍵詞:搜索引擎;反作弊技術;應用研究
優化網頁,自然排名才能夠有效地靠前,很多網頁通過騙術騙過搜索引擎,獲得絕佳排名,但是搜索引擎通過學會這些騙術,提高自己防騙能力,這就是反作弊算法。網絡作弊的直接后果就是導致搜索引擎的質量直線下降。在當前網頁作弊主要分為內容作弊,鏈接作弊和隱藏技術。網絡網頁作弊的大量泛濫會影響搜索引擎正常工作,也給用戶在獲取信息過程中帶來極大麻煩,因此通過研究各種網頁作弊的技術和方法。將當前反作弊技術分為三大類,分別是基于網頁特征分析方法,基于網絡鏈接分析方法和檢測各種隱藏技術的方法。
一、作弊網頁的危害概述
搜索引擎是通過收取網絡中主要信息進行索引,構建用戶的搜索請求提交給搜索引擎后,搜索引擎會通過搜索系統選出符合條件的網頁。網站的盈利就主要是借助于流量,網站流量越大,網站就可以拉到更多廣告投放,實現大面積的盈利,因此就有很多網站站長為了提高自身網站流量而進行作弊,利用一些非正常的手段提高網站搜索引擎內部排名[1]。作弊網頁的存在對搜索引擎的威脅是非常明顯的,它不僅會增加搜索引擎的負擔,而且嚴重降低了用戶對搜索引擎的信任程度。經過研究證明網頁作弊同時具備多樣性和復雜性的特點,這給搜索引擎帶來極大的困難。隨著時代的發展,網絡作弊具備多樣性和復雜性的特征,很多情況下是幾種作弊方式相互結合的情況,這給搜索引擎工作帶來了極大的困難。所以需要通過反作弊技術和算法做好一定的作弊檢測,減少作弊網頁的危害。
二、反作弊技術和算法的基本研究
反作弊技術主要分為基于網頁特征分析的方法,基于網絡鏈接分析的方法,以及檢測各種隱藏技術的方法。
(一)基于網頁特征分析的方法
基于網頁特征分析技術,這種方法就是從大規模的網頁實驗中提取網頁特征,通過統計的方法對特征進行分析,發展作弊網頁和正常網頁之間的不同特點,根據這些特征建立好一個網頁分類器,實現當網頁自動分為作弊網頁和正常網頁。這是作為一項非常基礎的反作弊技術,通過對網頁主機名組成,主機和IP個數比例入鏈和出鏈數站點網頁的平均更新率內容等信息進行有效的研究,發現其中蘊含的特征:有些域名很長,域名中還有一些特殊的字符,同時頻繁更換內容,那么這些網頁就極有可能是作弊網頁。通過對這些特征進行有效的識別研究,就能夠對作弊網頁和正常網頁進行有效的區分,但是由于時代的不斷發展,這些作弊網頁的技術也在不斷發展,因此要想利用網頁特征分析的方法,有效的實現反作弊技術的發展,那么網頁特征分析的方法也需要與時俱進,不斷更新[2]。搜索引擎在抓取網頁時對網頁正文標題標簽進行分析,如果發現某個站點內存在大量重復內容或者是網頁的出現,那么就可以判斷是一個作弊網頁。比如在一個網頁中出現超級和免費電影等詞語,這些詞語出現是單一的那么就不能判定為作弊網頁,但是這些詞語出現的頻率極高,出現多次這樣的詞語,那么就可以判定為作弊網頁,利用這種相關性的評分方式,能夠對這樣的網頁進行評測
(二)基于網絡鏈接分析的方法
基于頁面鏈接分析的方法主要有兩種思路,分別是從正面出發的HillTop算法和TrustRank算法,以及從反面出發的Bad Rank算法,HillTop算法是在2001年提出的,這種算法認為主題相關的網頁之間的鏈接對于權重計算貢獻應該比主題不相關,鏈接的價值更高,所以這種算法就是假設網絡中的文檔,所指向的網頁不會是作弊頁面,專家頁面指向排序應該更高。但是這種算法存在著一個致命弊端就是,如果找不到數量足夠的專家,文檔至少有兩個,那么該算法就失效。TrustRank算法是在2004年提出的,利用這種算法衡量網頁的可信度,從中挑出那些可能使用鏈接作弊的網頁,由人工判別是否在排名中降權,這種算法的依據是好的頁面很少會有鏈接指向作弊頁面。但是需要有反作弊專家挑選網頁中的一個好的集合,根據這些集合中的鏈接關系,找到同樣好的網頁,將好的網頁也放在集合中。BadRank算法和提到的以上兩種算法是完全不同的,它是從反面出發,發現那些肯定是作弊的網頁。主要流程就是維持一個作弊網易的黑名單,這個黑名單是通過用戶舉報或利用技術獲得的,然后內容就是黑名單發現其他的作弊網頁。
(三)檢測各種隱藏技術的方法
結束語:
總結全文,網頁作弊成為搜索引擎的重大威脅,作弊網頁在搜索引擎檢索中獲得較高排名,獲取流量,利用多種作弊方式欺騙搜索引擎。伴隨著信息化時代的發展,新的作弊技術不斷出現,甚至互相融合,給搜索引擎帶來了極大的困難,為了進一步增強反作弊技術,凈化網絡環境,給用戶帶來更好的搜索功能體驗,需要對檢測作弊技術進行不斷的更新,結合用戶的行為習慣,不斷地改善排序算法,提高搜索引擎的反作弊效率。
參考文獻
[1]?高尚建,魏國,楊功.網站搜索引擎優化策略研究[J].科學技術創新,2020(18):98-99.
[2]?顧惠超.大數據分析下智能搜索引擎的構建研究[J].信息與電腦(理論版),2020,32(04):125-126.
[3]?王慶福,王興國.搜索引擎反作弊方法研究[J].電腦知識與技術,2016,12(15):202-203.