據中國互聯網絡信息中心近日發布的《第19次中國互聯網絡發展狀況統計報告》顯示,截止到2006年底,我國網民人數已達到1.37億,占全國人口總數的10.5%。這一數字標志著互聯網發展的高速拐點已經到來,預示著中國互聯網將迎來更快速的增長期??梢哉f,Internet和Web已經改變了人們的學習、生活和工作等各個方面,它們的影響力已滲透到社會的各個層面,而這一切才剛剛開始。面對互聯網高速拐點的到來,我們能做什么?
Vannevar Bush在1945年提出的Memex代表了人類長久以來的一個夢想:讓每個人都可以十分容易的訪問人類積累下來的知識并且十分容易的共享自己的見解。Memex被描述成一個存放了無數本書籍的書桌,這些書籍的內容被超鏈接互相連接起來,同時其它形式的知識載體,如圖片、聲音錄音等也被放進來。人們可以通過鏈接在Memex中瀏覽,也可以通過簡單的界面,比如口頭的命令來搜索和查詢。人們還可以共享自己對書籍閱讀的注解。
Web的出現使Memex不再僅僅是一個夢想。萬維網(World Wide Web,簡記為Web)起源于1989年歐洲粒子物理研究室CERN,最初計劃是由CERN的物理學家Tim Berners-Lee于1989年3月提出,在1993年2月,隨著第一個圖形界面Mosaic的發布而開始迅速發展。據估計每年Web流量增加100%,每天增加大約100萬的新網頁。到2004年4月,Google聲稱提供對4,285,199,774個網頁提供檢索服務,但這還只是Web上已有網頁中很小的一部分,Web的核心技術是超文本和超媒體,它通過將文本,圖形,圖像,音頻,視頻等信息的有機結合,給人們提供豐富的信息表示空間。同時Web使得信息發布變得前所未有的簡單,也讓信息瀏覽十分方便。整個Web相當于一個巨大的知識庫,越來越多的文本、書籍被數字化提供在線服務,越來越多的文字以數字化的形式創建和存儲。
Web規模的迅速增長和內容的不斷豐富,也給人們進行有效訪問帶來了困難。人們需要Web具有Memex中那樣理想的搜索和查詢的功能,以幫助自己快速、準確地在信息的海洋中找到自己需要的內容。搜索引擎正是由這樣一種需求推動而得到快速發展的信息服務形式。根據統計,約85%的用戶使用搜索引擎去定位他們需要的信息,并且,幾個著名的通用搜索引擎一直都穩定地處于全球訪問量最大的50個網站之列,搜索引擎已經成為了人們進行信息獲取的一個基礎設施。
搜索引擎的今天
競爭格局基本穩定。自1990年由加拿大的麥吉爾大學(McGillUniversity)學生Alan Emtage、PeterDeutsch、Bill Wheelan發明的Archie(Archie FAQ)開始,網絡搜索工具經過十幾年的研究和發展,到2006年底,全球搜索引擎市場的規模已達到204億。其中,Google占據了50%的市場份額,其它就是雅虎和MSN,整個市場呈現高度壟斷的競爭態勢。從競爭層面來看,Google的領先優勢更為明顯。而我國的搜索引擎市場,從產業規模上來看,2002年時中國搜索引擎只有2.5億元的規模,到2006年以年均60%的速度增長,已達到56.6億,用戶規模達到了8300萬。其中,百度在中國搜索引擎市場中已經達到了52%的比重,而Google和雅虎相對來說有一定的下降。但是,Google和雅虎的競爭實力依然還是非常強大,未來整個市場的格局還沒有一個定數。同時,第二陣營像搜狐和新浪還是有著比較強勁的增長空間,特別是2006年搜狗在積極營銷策略的帶動下份額有所增長。在搜索引擎這個市場中,新進入者的主要目標則更多的是瞄準新的領域尤其是垂直搜索。
在競爭格局基本穩定的前提下,廠商發展策略差異化主要體現在發展渠道和推廣策略方面:百度重點是直銷,Google是代理商的模式。這兩種模式各有優劣,將來會有所體現、調整或者發展。
新增領域漸成焦點。搜索引擎已經成為網民最重要的在線活動,70%的網民都使用過搜索引擎。尤其值得關注的是企業用戶對搜索引擎的認識逐漸在加深,這也促進了搜索引擎盈利模式的創新。但是,隨著互聯網上的信息越來越多,通用搜索帶給人們的搜索體驗并不是很好。往往在輸入某個關鍵字后,搜索到的有用信息并不多。這樣一來,一些帶有目的性的搜索,比如搜索酒店、搜索機票或者找工作方面,就需要依靠一些專業的搜索引擎來完成。而垂直搜索開始大行其道,在很大程度上也正是基于通用搜索這些缺陷的日漸顯現。
垂直搜索和通用搜索的不同點主要有:1、產生的背景不同。通用搜索的產生背景是因為互聯網上的網頁太多,用戶無法找到自己想要的網頁,而垂直搜索的產生是因為兩個原因:第一,用戶從通用搜索中想要找到自己想要的某一個特定領域的信息時,需要花費大量的時間。例如,對于求職而言,如果用戶在google中輸入“java開發”,得到的結果都是講java開發技巧的,要想看到關于“java開發”的職位,需要不斷的翻頁;第二,領域性網站數量的日益增多,以招聘來說,現在國內的招聘網站可以說是上千家,而用戶想要得到全面的招聘信息,就需要一個網站、一個網站地打開去看,耗時耗力。2、受限領域。垂直搜索一定是針對用戶在某一個方面的需求,專門搜索該方面的內容,例如:房地產搜索、汽車搜索、招聘搜索等。3、定向信息采集。垂直搜索所用的信息采集器是針對某一主題的站點列表進行抓取。4、信息抽取。垂直搜索中一項很關鍵技術就是信息抽取(IE:Infor-mation Extraction),呈現給用戶的是經過抽取整理后的內容,而不是一個簡單的摘要加上網頁鏈接。5、排序技術。假如一個關鍵詞的網頁有10萬個,那到底哪個該排在第一個?通用搜索引擎通常都是分析一個網頁中鏈接了多少個其它的網頁,加上其它網頁鏈接到這個網頁有多少個,再加上更新時間,然后做一個數學運算得到最后的排序權值。而現在所有的垂直搜索都是采用了按相關性和時間交叉排序的方法。此外,在結果頁面呈現方式、核心技術以及索引結構等方面,通用搜索與垂直搜索均有不同程度的差異。搜索引擎的明天
曾被喻為創新機器的Google,連同盛極一時的Google神話,正在全球范圍內經歷一個不可逆轉的去魅過程。面對諸多創意迭出的第三代搜索引擎的出現,人們不禁要問:Google還在創新嗎?
第二代搜索的軟肋。作為Google排名運算法則的核心,PageRank算法假定:某個網頁被鏈接得越多,則該網頁的等級和重要性就越大,從而在相關性排序中也就越靠前。PageRank的等級以PR值計算,PR值越高說明該網頁越重要。雖然Google的排名算法實際上要遠為復雜,比如還揉合了Title標識、Keywords標識等上百個參數和變量,但囿于關鍵詞搜索本身的局限,Google并沒有在搜索結果的相關性等指標上與其競爭對手拉開距離。
大體而言,第二代搜索的局限見于如下四個方面:其一,提供的提問函數相當有限;其二,僅支持單個關鍵詞或者一組關鍵詞及邏輯運算符組成提問,而并不支持自然語言搜索或語義搜索,所以關鍵詞與搜索結果之間的匹配很難做到精準,往往是搜到哪兒算哪兒;其三,不能利用歷史信息進行搜索。用戶的每次搜索都是從頭開始,而不能從原有的查詢結果中作進一步選擇;其四,呈現方式單一、呆板。多數搜索引擎只返回一個長長的搜索結果列表,其中可能有數以萬計的包含關鍵詞的網頁,但這些網頁是否以及在多大程度上與用戶的搜索意圖相關,則不得而知。
事實上,第二代搜索引擎所具有的局限性,也困擾著Google這樣的搜索巨頭。
浮現中的第三代搜索。作為對第二代搜索的一種超越,第三代搜索的范式革命不光見于呈現方式,而是表現為參差多態的演化路徑,例如個性化搜索、社會化搜索、本地化搜索、知識問答社區、社區內容搜索等等。而在核心搜索技術上,則大致包含人工智能、模式識別、語義分析、神經網絡等發展方向。由于神經網絡搜索和人工智能搜索耗資巨大,目前還沒有出現成型的搜索引擎,不過,包括Google、微軟、IBM、Roussinov等在內的搜索引擎,均已將人工智能搜索的研發提上了議事日程。在國內,Aisou等公司也躍躍欲試,隨時準備推出人工智能搜索產品。
值得一提的是,Autonomy的模式識別技術本身也包含有語義分析技術和部分人工智能技術。雖然迄今為止,計算機還無法做到完全理解語言,但通過采用基于統計學、概率論和信息論的概念識別技術,Autonomy可以理解信息的意義和信息間的連接。用戶搜索時可以直接以自然語言輸入一句話或一段文字,甚至一篇文章,Au-tonomy會自動判斷用戶查詢條件所描述的概念,從企業文檔庫中查找所有和用戶搜索概念相關的文檔。顯然,語義搜索比傳統關鍵詞搜索更能精準定位用戶的搜索意圖。
由于是基于對概念和概念之間關系的理解,Autonomy還可以利用精選內容中完整的上下文,實現概念提煉或基于例子的提煉,進而聚焦用戶所感興趣的概念結果,并提供自動建立檔案、社區及協作、信息自動推送等個性化搜索功能。不光如此,該系統還可以自動判別使用者的身份,并通過不斷學習更新系統的知識庫。
瞄準當前互聯網前沿技術和未來發展趨勢,由北京市計算中心開發的垂直搜索服務器ContentSmart集軟硬件為一身,將信息智能采集、快速中文實時檢索、信息智能分選、WEB發布、遠程后臺管理等功能有效地結合在一起,開始在電子商務、電子政務、情報搜集整理、競爭情報分析、門戶網站建設的領域應用,正在產生良好的經濟效益和社會效益。
關于第三代搜索,眾多的創新者已經為我們勾勒出一個美好而粗獷的輪廓,我們可以預言并且相信的是,浮現中第三代搜索引擎今后的進化之旅,還會有很多很多超出我們今天的想象。
(本文由北京市科學技術研究院北京市計算中心提供)