
Google機器人:Google部署了一項稱之為蜘(spiders)的項目,為的是建立它自己的互聯網副本。在一些熱門的網站,Googlebots可能一小時內要跟蹤若干次該網站的所有鏈接。每一次搜索,“蜘蛛們”就會把第一篇文章或代碼的每一個字節都保存下來。原始數據將會被送入集群中,穿過整個工廠,并且有計劃地加速替換掉那些在索引服務器和檔案服務器中的舊數據,從而保證搜索結果都是新鮮的,而非靜止的。
網頁排序:當Google形成了一個搜索結果的清單時,通過對內容中200多個因素的分析,Google會決定一個網站有多可靠,這個網站的內容有多重要。Google's方程式的秘密是,它會通過每一個網站被其他不同網站鏈接的情況,對該網站的重要性做出評估,換言之,一個網站能否被視為可靠,很大程度上取決于鏈接它的那些網站的質量。
容量:基于一些Google發布的極有限的數據,專家猜測,Google的服務器至少存儲了20個perabytes的數據(1pb等于100萬G)。不那么保守的《連線》雜志則說,Google可能有200個pb的容量。至底有多少呢?如果你的iPod只有1petabyte,你就能存儲大約2億首歌。如果你要在高速互聯網上下載1petabyte大小的東西,你的曾曾曾曾孫可能在2514年最后一個字節傳完時仍守在電腦左右。
集群控制
Google天賦表現在它的網絡軟件上,它能幫助一個集群中的成千上萬臺廉價電腦像一個巨型硬盤一樣工作。那些便宜的電腦允許Google在不停止整個“表演”的情況下替換局部組件;如果一臺電腦死機了。至少有兩臺其他的電腦做好了替代它的準備,此間,工程師會把那臺壞了的電腦換下?!?br>