蘇 云 曹正民
Google是斯坦福大學博士生Larry Page和Sergey Brin共同創立的。它支持132種語言,資料庫內包含24億個網頁、7億個新聞檔案和3.3億個圖形文件,如果用人工檢索,每分鐘1頁,24小時不間斷工作,需要5707年才能完成一遍搜索,而用Google檢索不超過1秒種。Google現有15000多臺服務器,200多條T3級寬帶同時服務,這使得它在搜索網站界的地位進一步得以鞏固。
Google的基本搜索語法
Boolean邏輯檢索語法
Boolean是指喬治·布爾提出的代數運算法則,常見的三種運算符是“與”、“或”和“非”,即AND、OR和NOT。在Google分別用“ ”(空格)、“-”和“|”表示,其中AND運算符表示對所有的關鍵字同時進行搜索,OR運算符表示從幾個關鍵字中指定任意一個,NOT運算符表示在搜索結果中不包括某個關鍵字。如果有兩個或多個關鍵字,可以用括號連接,用運算符檢索時,至少要求包含兩個以上的關鍵字,最好用括號構成邏輯運算式進行檢索。
強制搜索檢索語法
在網頁中經常包含有許多出現頻率極高,但無實際意義的高頻詞,例如英文單詞“a”、“the”和“i”等,中文的“的”和“啊”等,這些詞匯被Google保存在一個無用詞匯表中,但在檢索中它們是不可缺少的。例如,要搜索一些關于www起源的歷史資料,Google會把“www”和“的”都省略了,只搜索出關于“歷史”方面的資料,顯然不符合要求。因為Google把這個短語分成了“www”、“的”和“歷史”3個詞匯,而“www”和“的”被認為是無實際意義的詞而忽略。如果要對忽略的關鍵字進行強制搜索,需要在該關鍵字前加上“+”號,或者將上述的短語用英文雙引號括起來,Google就會進行強制搜索。特別注意用“短語”和“句子”檢索是一種提高檢準率非常有效的方法,但必須用英文引號將其括起來,最好配合“+”號同時使用。
通配符和外文字符大小寫檢索問題
Google支持通配符號,例如用“*”代表一連串字符,用“?”代表單個字符等,但對通配符支持有限,而且包含“*”必須用英文引號括起來。例如檢索“以*治國”,搜索結果可以是“以法治國”、“以德治國”等。
Google對外文字符大小寫不敏感,搜索Three、three和THREE會得到相同的檢索結果。
Google的特殊檢索語法
通常用基本搜索語法可以解決絕大部分檢索問題,但要更準確的檢索就需要了解特殊搜索語法,主要有限定標題的intitle、allintitle,限定查找網址鏈接的inurl、allinurl和link,限定查找特定網站的site等語法,這些語法可以直接在Google的查找框內輸入,相當于命令行語法。
搜索的關鍵字包含在URL鏈接中
inurl語法返回的網頁鏈接中包含檢索的第一個關鍵字,后面的關鍵字則出現在鏈接中或者網頁文檔中,因為很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,例如“MP3”、“GALLARY”和“Help”之類的目錄中,可以用inurl語法找到這些相關資源的鏈接,用第二個關鍵詞確定是否有某項具體資料。例如,查找MIDI曲《二泉映月》,檢索語法是inurl:midi "二泉映月"。注意在“inurl:”后面不能有空格,也不允許URL中含有“/”等符號。
allinurl語法返回的網頁鏈接中包含所有作用關鍵字,這個查詢的關鍵字只集中于網頁的鏈接字符串。例如查找可能具有PHF安全漏洞的公司網站,通常這些網站的CGI-BIN目錄中含有PHF腳本程序,表現在鏈接中就是“域名/cgi-bin/phf”,搜索語法為:allinurl:"cgi-bin" phf +com。
搜索的關鍵字包含在網頁標題和網頁中
intitle和allintitle的用法類似于inurl和allinurl,其中intitle限制搜索的網頁標題,allintitle搜索所有關鍵字構成標題的網頁。例如查找著名作家巴金的照片集,檢索語法為:intitle: 巴金 "照片集"。
intext只搜索網頁
和/之間包含的關鍵詞的部分,它忽略了標題、URL中含有的關鍵詞,例如intext:"yahoo.com";allintext檢索包含在中的所有關鍵詞。對搜索網站進行限制
site語法可以限制搜索范圍的域名,將搜索結果局限于某個具體網站或者網站頻道內,例如限定在新浪網站的教育頻道“edu.sina.com.cn”,或者是某個域名內,例如“com.cn”、“org”等,如果是要排除某網站或者域名范圍內的頁面,只需用“-網站/域名”。例如,搜索中文教育科研網站(edu.cn)上關于中學數學課件的頁面,檢索語法為:中學數學 課件 site:edu.cn。此外,網站域名不能有“http://”的前綴,也不能含有任何“/”的目錄后綴,網站頻道則只局限于“頻道名.域名”方式,而不能是“域名/頻道名”方式。
搜索所有鏈接到某個URL的網頁
如果想知道有多少網站對一個學校主頁或教師個人主頁作了鏈接,link語法就能迅速達到這個目的。例如,搜索所有含指向清華大學鏈接的網頁,檢索語法為:link:www.tsinghua.edu.cn,即link語法得到的是一個所有包含了某個指定網址的頁面列表,但是link語法不能與其他語法混合使用。link語法還有一個妙用,一般做友情鏈接的網站都有許多相似的方面,這樣就可以通過這些友情鏈接,檢索出一批具有相似內容的網站。例如,一個中國詩詞愛好者發現某網站非常不錯,就可以用link語法查一下與之做鏈接的網站,也許可以找到更多符合詩詞方面有趣的內容。
Google高級搜索語法
在某一類文件中查找信息
Google不僅能搜索文字網頁,還能對某些二進制文檔進行檢索,filetype就是一個非常強大實用的搜索語法,它已經能檢索微軟的Office文檔(如xls、ppt、doc和rtf)、WordPerfect文檔、Lotus1-2-3文檔、Adobe的PDF文檔和ShockWave的SWF文檔(Flash動畫)等。filetype也可以搜索各種不同的頁面腳本語言,例如ASP、PHP和CGI等,filetype是搜索文件的后綴或者擴展名。其中最實用的文檔搜索是PDF搜索,PDF是Adobe公司開發的電子文檔格式,是一種圖文并茂的綜合性文檔,現已經成為互聯網電子出版的標準。目前Google檢索的PDF文檔大約有3000萬左右,大約占所有索引的二進制文檔數量的80%。
顯示與某鏈接相關的一系列搜索
info語法提供一個和普通網址更多信息的頁面列表,包括網址緩存的鏈接、網址的鏈接、網址相關的鏈接和包含網址的頁面,即提供了cache、link、related和完全包含該鏈接的網頁的功能。例如,查找101遠程教育網首頁相關的一些信息,檢索語法為:info:www.chinaedu.com,這里搜索的結果取決于Google是否對該URL進行了索引,如果沒有,搜索結果會很少。
對網頁更新日期作出限定
daterange語法限制搜索特定時間段里的檢索內容,這里特定時間是加入Google檢索的時間,而不是頁面創建的時間,它評價搜索引擎的好壞和更新頻率的指標,它支持的日期格式為凱撒日格式(julian),Google提供通用日期數值切換成凱撒日格式的自動轉換功能。檢索語法為:"George Bush" daterange:2452389-2452389。
搜索的關鍵字包含在網頁的“錨”鏈點內