互聯網行業一直走在科技最前沿,總能引領科技浪潮并因此深刻改變人們的生活。如今,在普通民眾日益依賴搜索功能后,一場更為激烈的競爭正在互聯網企業中展開。
對于搜狐來說,如何在強手如林的搜索引擎市場占據有利地形,是一個必須解決的重要命題。而這個命題的重擔就落在了名字頗有寓意的搜狗(www.sogou.tom)身上。
中文搜索前三甲
搜狗是搜狐于2005年推出的全球首個第三代互動式中文搜索引擎,包括網頁應用和桌面應用兩大部分。據CNNIC(中國互聯網絡信息中心)剛剛發布的《2009年中國搜索引擎用戶行為研究報告》顯示,2009年搜狗的首選用戶新增率為41.2%,在所有搜索品牌中用戶新增率最高,搜狗的品牌滲透率為26.9%,緊隨百度、谷歌之后居第三位。從“用戶首選搜索引擎”、“用戶二選搜索引擎”兩個指標的數據綜合來看,在全國市場的網民選擇中,搜索引擎的排位應該是百度第一、谷歌第二、搜狗第三,這也被廣泛認為是目前為止針對中文搜索引擎相對科學的排名。
另外,基于搜索引擎技術的搜狗輸入法目前也已經占據了超過70%的市場,成為輸入法領域的佼佼者,結合第三方相關數據以及搜狗5年來的積累與沉淀,這表明快速成長的搜狗已經躋身于中國三大首選搜索引擎之中。
互聯網行業競爭激烈,能否得到更多用戶的認可是企業生存的根本,而被用戶認可的關鍵就在于服務是否及時、優質、準確,這些特質在“搜狗”的搜索服務上表現尤為明顯。搜狗深知搜索引擎的最大難題是正確理解與滿足用戶的需求,正是這種以“用戶需求為導向”的發展理念使得搜狗不斷優化產品體驗、提高技術能力,力爭做中國最有特色的搜索引擎。
不斷求“新”
出色的網頁引擎,必須基于一個強大的數據中心來完成,而增強數據中心的效能,就成為提高用戶滿意度的關鍵要素。因此,搜狐啟動了搜狗新一代數據中心項目的建設,希望通過利用技術創新,提升搜狗的產品品質,從而贏得用戶的青睞。在這一過程中,H3C提供的高性能、高可靠的新一代數據中心網絡解決方案,成為搜狗邁向未來的堅實基礎。
自2007年搜狐正式推出搜狗網頁搜索3.0版本之后,搜狗搜索引擎的中文網頁收錄量至今已達一百億之上,每天的網頁更新量則有5億之多。激增的海量數據對搜狗數據中心帶來了前所未有的壓力。新的搜狗業務應用要求數據中心網絡平臺能支撐百億海量網頁收錄、及時網頁更新和網頁評級體系,滿足高密度服務器集群的高性能并行抓取,同時網絡系統要能滿足后期靈活的擴展能力。面對超高的網絡流量與數量龐大的服務器集群,原有的搜狗數據中心網絡架構與設備性能已無法滿足這一要求,采用新一代數據中心架構來建設搜狗IDC新機房成為必然的選擇。
最終,搜狐選擇了H3C集S12508數據中心級核心交換機、S75E高端多業務路由交換機、S5800萬兆交換機、iMC智能管理中心等軟硬件設備為一體的統一交換架構數據中心解決方案,搜狗新一代數據中心網絡建設的大幕也由此拉開。
讓“浪涌”不再是問題
在搜狗數據中心網絡體系中,兩臺H3C S12500交換機是整個網絡的核心,同時,兩臺S75E高端多業務路由交換機承擔著數據傳輸網的重任,而數十臺S5800交換機則作為接入交換機,負責將兩千多臺服務器連成一個大的網絡。
作為國內首款100G平臺交換設備,H3C數據中心級核心交換機S12500具備超大交換容量、高密度的萬兆端口以及高級別的包緩存能力等特性,很好的體現出了數據中心高密度、大流量和大緩存的特點,能夠充分滿足搜狗數據中心高密度萬兆應用的需求。
網頁搜索的搜索速度與結果準確性依托的是系統在瞬間對海量網頁數據進行挖掘、分析、顯示的結果,在這一過程中,數據中心網絡承擔的帶寬壓力非常大。當搜狗引擎接收到一個網頁搜索請求時,往往會向高密度服務器群同時發起檢索需求,并在非常短的時間內接收幾百臺服務器幾乎同時發回的搜索結果,巨大的數據浪涌如果不被及時吸收,將很容易出現網絡擁塞的現象。
S12500的大緩存能力很好地解決了這個問題。不僅每個端口擁有256M的大緩存能力,更重要的是它支持分布式緩存機制,有效地利用了各級設備的端口緩存能力,最大限度地吸收突發流量,減少了丟包的可能性,盡可能地減少了對業務的影響,將每次浪涌的收斂時間都控制在幾十毫秒之內。對普通用戶來說。這意味著搜索結果中的死鏈接也會更少。
創新架構的價值
搜狗數據中心網絡架構還采用了H3C推出的IRF2(第二代智能彈性架構,Intelligent Resident Framework2)技術,也就是把多臺物理設備互相連接起來,使其成為一臺統一的邏輯設備。在具體應用中,S12500只需要10個端口就可實現40個萬兆互聯。這使得搜狗數據中心網絡具有了良好的可擴展性,日后進行網絡擴容時,可直接利用其他多余端口,而無須額外投資。
一直以來,搜狗數據中心網絡往往采用傳統的環路設計,這種設計會造成一半左右的網絡帶寬必須給環路讓道,帶寬利用率低,環路堵塞鏈路的問題,而且在維護上也容易形成廣播,致使整個網絡堵塞甚至中斷,而搜狗引擎業務也會隨之中斷。
如今,采用了IRF2架構雙機互聯的兩臺核心交換機S12500則避免了這些問題的發生:通過MSTP+VRRP+BFD的組網方式,去掉了令人煩惱的“環路”。這意味著不僅網絡運維更為簡單,不會出現環路故障,而且整個網絡在不增加投資的情況下,可利用的帶寬較之以前增加了—倍。
在搜狐對IRF2性能的實際測試中,無論是S12500內部雙引擎的主備倒換,還是鏈路級的倒換,系統的恢復時間都小于30毫秒。也就是說,即使針對網絡連續性要求高達50毫秒的延遲敏感型應用,網絡的穩定性也不會對業務產生不良影響,顯然,這有利于搜狗業務的進一步發展。
“正是因為IRF2技術可以讓整個網絡的擴展性更好,而且ROI投資回報率更高,為搜狗業務的未來提供了堅實的基礎,所以我們對H3C提出的解決方案也更為滿意。”搜狐網絡運維部總監×××表示。
在數據中心應用領域,互聯網企業由于其業務特點,一直走在應用的前列,他們的選擇往往代表著市場的“風向標”。在搜狗引擎業務方面,搜狐一直有一個口號:“搜狗——更懂網絡”。從實際效果來看,H3C新一代數據中心解決方案不僅保障了搜狐現有業務的連續性,滿足了搜狐不斷增長的業務帶寬需求,同時,面向未來也可以承載不斷涌現的新業務,讓搜狐在激烈的搜索引擎市場競爭中,真正做到“搜狗——更懂網絡”。