當你使用搜索引擎時,它不是直接從網頁中為你網羅信息,因為這樣如同大海撈針,無法為用戶提供快速而準確的反饋。
以谷歌搜索引擎為例,你搜索的其實是它的索引數據庫。谷歌使用一種名為“蜘蛛”(spider)的程序(網絡爬蟲),它會先抓取少數網頁,然后跟蹤其中的網頁鏈接,再由這些鏈接提取出更多網頁信息存入數據庫中,就像蜘蛛由一個中心點織出一張張網一樣,形成一個相互聯系的索引網絡,包括數十億網頁。
當你輸入關鍵詞后,搜索引擎算法會分析你輸入的內容,再進入索引尋找帶有關鍵字的網頁。但含有這些關鍵字的網頁依然可能多得數不清,因此就需要由算法根據關鍵詞的匹配程度、出現頻率、位置、網頁質量等信息,評估網頁內容是否有幫助,并計算出排名分數。另外其他網頁鏈接到該網頁的次數也是分數評定的重要依據。算法最后會得出網頁的總積分,排出等級,再以此決定搜尋結果顯示的先后順序。盡管這些步驟看起來相當繁瑣,但搜索引擎能在半秒之內將相關網頁以相對合理的順序為你調出。
不同的搜索引擎有不同的算法來建立各自的索引數據庫,目的都是為了方便用戶查找信息。雖然有時候也可能恰好避開了所有你想要的資料。總之不論如何廣告總是躲不過的。