逆水行舟



近日,由亞馬遜(AWS)聯合Morketing舉辦的“云計算撬動的數字營銷”高端沙龍在北京盛大召開,現場匯集了40多位數字廣告行業的CTO進行思想碰撞。作為AWS首席云計算技術顧問的費良宏現場做了關于《亞馬遜與數字廣告》的主題演講,分享了廣告行業里企業應用AWS的成功案例、對大數據再思考以及對技術的思考和實踐。
有一個說法,在互聯網發展的幾十年里,只有廣告和游戲屬于賺大錢的行業。數據顯示,廣告產業的確是一個巨大的市場。2016年,全球廣告市場總支出達到4,070億美元,這個規模里超過一半多是數字化廣告,份額高達2,100億美元,而且增長的勢頭極好。
根據ZenithOptimedia的報告顯示,傳統的廣告媒體的份額在逐年下降,新興數字廣告的媒體增長速度明顯增幅。過去一年全球移動廣告增幅超過了35%,視頻廣告的增幅高達40%,Facehook的廣告收入的增長也達到了27%,數字廣告在各個方面都呈現快速增長的態勢。
針對數字廣告行業,我們可以通過一個簡單的價值鏈來理清這個產業的脈絡。圖2涵蓋了市場和媒體之間的數字廣告的價值鏈。這里面包括了像Razorfish這樣的廣告代理機構,DataXu這樣的廣告需求端平臺;在廣告發布方面,我們看到了發行解決方案提供商或供應方平臺如Fiksu和Zedo等。
同樣在這樣一個生態鏈里,有很多中國的企業都利用AWS成就了他們的成長。利用AWS的成功經驗,幫助中國企業如何立足于本地,嘗試用新的技術解構遇到實際的困難,幫助企業成功。
一效率與規模
目前,移動、視頻和數據這三大要素是數字廣告技術中的關鍵。此外,跨渠道的屬性和真正的受眾識別的能力也是能提升收入并決定企業在市場中成功的關鍵。
AWS提供的是基礎的云計算服務。在基礎設施之上的數字廣告從市場到媒體的所有企業,都是AWS的服務對象。隨著市場的發展,新的需求也會不斷地涌現,云計算提供的服務也將得到進一步拓展。
目前的市場上有很多廣告企業借助AWS的技術、產品和服務取得了成功。全球第三大的廣告與傳播集團陽獅集團( Puhlicis Groupe),也是其中之一。他們總結使用云計算的心得就是:效率很重要,但能力更為重要。
對于初創企業公司,比如美國這家專注于視頻市場的BrightRoll就認為AWS無論成本、效益、滿足需求方面都是創業公司的完美基礎設施和技術服務的提供者。
AWS對于數字廣告市場的目標就是幫助這個行業的參與者能夠以適當的價格在正確的時間將正確的信息送達正確的受眾。程序化的購買提供了新的機遇,它對于技術有了新的要求。利用技術手段,例如利用NoSQL的數據庫實現100多億條數據的管理;利用新的數據分析技術實現對于用戶行為的洞察力。
一個令人驚嘆的關于成長和成功的例子是一家來自美國加州的名為AdRoll企業。這是一家重定向廣告( Retargeting)服務的技術公司,提供了基于用戶瀏覽記錄等信息,為廣告主提供幾乎瞬時的廣告位購買服務。伴隨著廣告業的發展,其在2012年的增長率達150%。但是,為了有效地服務于廣告,AdRoll需要能夠靈活快速地增加容量,在極快的響應時間內實時中標,并通過自動化確保系統迅速響應競價。他們面向全球100多個國家龐大的群體提供服務,成本是非常重要的,在超過2,500臺服務器上運行RTB平臺,運行時間每天大約8小時,但是每臺機器每天花費不到0.05美元。這中間,AWS起到了關鍵的作用。
在這個數據平臺上,如何將之前數據處理的延遲由分鐘級降到秒級,就是利用了Amazon Kinesis為代表的流處理技術,解決了大量數據處理壓力的效率的難題。相信這樣的架構對大家、對于更好的架構設計都會有一些啟發。
二、成本、實時競價與全球化
如何以更低的成本滿足更高的處理的需要。許多人抱怨AWS的云計算服務報價復雜、計價也比較復雜,這實際上也給予每個云計算的使用者成本優化的能力。例如,可以通過向上或向下的擴展能力實現真正的彈性。此外這種彈性的能力可以通過SDK、腳本等實現自動化的處理。
這里想特別強調的是AWS的競價型實例(SpotInstance)。這種服務提供了一種通過競價的方式得到低于市場價格的計算資源。許多時候,這個價格低于正常市場價格的30%。大家也許會擔心這種模式對于數字廣告行業是否有效,我們就先看—下有沒有人做這樣的嘗試。
Netseer這家公司提供基于概念的廣告解決方案,將搜索查詢和網頁內容與廣告客戶和發布商的相關廣告相匹配。每天的處理請求高達soo億次,對他們來說計算成本壓力非常大。于是他們的選擇成本方法就是競價型實例。按照他們的說法“使用AmazonEC2 Spot Fleet實例,我們的投標成本是可以預測的。”有人會擔心競價型實例會有不方便的地方?許多的實踐證明,可以選擇通過自動化的方法實現資源的管理,尤其是將日志管理能力結合在一起,可以動態的去決定申請一個新的競價實例。這樣的方式更大程度上兼顧了計算能力和計算成本。
對于第一次接觸AWS的人來說有必要解釋—下所謂的“區域”和“可用區”的概念。“區域”是指全球范圍內的某個物理節點,每個“區域”由多個“可用區”組成。“可用區”由一個或多個分散的數據中心組成,每個都擁有獨立的配套設施,其中包括冗余電源、聯網和連接。可用區能夠提高生產應用程序和數據庫的運行效率,使其具備比單個數據中心更強的可用性、容錯能力以及可擴展性。AWS云在全球16個地理區域內運營著42個可用區。接下來還將會新增三個新的區域,這三個區域為中國寧夏、法國巴黎和瑞典斯德哥爾摩。這個基礎設施足以支持數字廣告企業實現全球化的業務覆蓋。
如何有效地利用AWS的云計算資源幫助企業實現全球化是一個很有意義的話題。一家名為BrightRoll的故事提供了很好的參考。BrightRoll的業務針對視頻的Ad Exchange。它提供了一個獨立的、統一的視頻廣告平臺,可在網絡,移動設備和連接的電視機上提供數字視頻廣告。這樣一家創業型企業面臨的壓力是每天要處理海量的廣告請求,于是他們嘗試利用AWS實現了每天處理300億條廣告數據,每個月投放30條視頻廣告的業務。endprint
而另一家名為Eyeota的企業提供的DMP平臺遇到問題是業務規模非常龐大,合作的媒體數量有3萬多家、用戶規模達到15億之多。他們最關心的一點是如何進入到新的市場,也就是快速的產品投放,這決定了一個公司的生死。他們的結論就是“AWS能夠幫助我們進入到新的市場而不是在新市場出現以后幾周或者幾個月以后……”
總結幾個案例,也歸納出企業目前共同面對的挑戰。二方面是程序化媒體的效率與規模的問題;另一方面是如何通過技術創新增加受眾范圍和提高參與度,這里面包括了應用流分析和機器學習的技術以及利用新的廣告技術。
三、大數據再思考
大數據是不斷出現的話題,大家可能覺得已經不那么新鮮。但大數據領域的技術發展還是會有一些新的方法可以幫助我們解決今天面臨的問題。
以往大數據處理更多地是使用“批處理”的模式,而今天我想為大家強調所謂的“流”式的處理模式。在AWS的產品家族里面,Amazon Kinesis就是這樣的一款實現了數據“流”處理的服務。
Beeswax公司在去年的AWS re:lnvent大會上分享了他們的系統架構。這個架構中的核心就是Streaming Message Hub,利用了“流”技術實現了數據的低延遲、緩存、持久化,以滿足最后的實時分析和任務的處理。利用這個特性剛才所說的大數據的許多問題,都可以通過這樣的架構加以解決。按照Beeswax的說法他們的系統峰值的QPS已經超過了1M。
與剛才分享的案例有異曲同之處,就是利用Amazon Kinesis作為數據的緩沖區將前端和后端的處理能力做了極好的緩沖,這個方式對于降低大數據處理的延時已經被證明是行之有效的。
DataXu是一家很神奇的企業,被認為是行業內成長最快的企業之一。通過他們的介紹我們了解到,他們每秒的業務請求超過了200萬次,數據規模已經達到PB級別,日增日志超過了180TB,僅僅用于分析的數據就有2PB之多。
在他們的架構中,將Amazon S3作為數據存儲的核心,原始數據都保存在S3之上。對處理之后的數據也會保存在S3上。DataXu利用了Amazon Kinesis實現了數據的緩沖,將數據處理的響應時間控制在10毫秒。
這個架構的好處是什么?這樣的設計意味著數據只需保存一份,所有的業務處理都可以共享同一個數據源,這也是我們后面談到的最佳實踐的原則之一。而在MediaMath分享的案例里面,提到了他們名為“Firehose”的架構。架構的關鍵就是基于AmazonKinesis組件,功能就是通過“流”技術來簡化流數據的攝取。
AOL的案例有另外的借鑒意義。首先,采用了混合的架構,在原有的數據中心跟新的云計算服務之間做了很好的集成,兼顧了原有的處理能力和新的云計算的服務方式;其次,使用數百個Hadoop集群,這在成本上和運維的效率上有很大的優勢。
總結下來這些案例值得借鑒的地方有三點:
第一,對于創業企業來說,更少的維護成本是非常重要的;
第二,利用新的技術不斷創新。AWS在2016年有超過1000多項新的服務和更新,我們可以不斷利用這些新的技術保持我們創新的能力;
第三,在成本方面,很多人說AWS服務的價格貴。或許單純比較價格,或者對比自己搭建的服務,AWS的服務價格要高一些。但是有沒有討成本優化的空間?我相信是有的。因為看到在很多的案例都證明了這一點。
四、數字廣告業的創新
數字廣告業發展到今天,出現了一些創新,比如說新的廣告格式、新的投放方式、新的數字營銷中心(HUB)以及物聯網和地理位置驅動等等。
我們完全可以通過借鑒去找到新的創新點。其中的一個新的廣告技術被稱作In Image廣告。這是針對圖片進行廣告投放的方法。這種廣告的針對性更強,而且可視率非常高。GumGum就是進行這種嘗試的廣告企業之一。他們與2000多家媒體合作,覆蓋的圖片數量達數十億,日數據量達到6TB。Localytics是一家針對地理位置實現廣告投放的企業,全球范圍合作的移動應用達到37,000多個,覆蓋的移動設備高達30億臺。他們的一個很值得稱道的地方是利用Amazon Lamhda實現了靈活的編排處理。
這種被叫做Serverless的技術允許我們用小塊程序塊組織我們的業務架構。它并不像傳統的業務架構,需要去開發一個耦合度很高的精密的處理系統。這種變化讓我們的架構設計可以變得更簡單,開發者可以更容易的去實現業務功能。這是一個非常值得關注的方向。
對于數字廣告在技術領域的熱點目前有三個:第一是大數據,數據量非常大,動輒TB級別。所以需要用新的技術去解決這樣一個海量數據。其中一個考慮就是用數據流去替代批處理。對于數據本身我們還希望借助新的算法去實現增值、個性化、推薦等。另外一點就是低延遲的需求。程序化的購買方式、程序化的廣告,需要在100到150毫秒內完成,這是一個迫切的需求。再有一個是廣告內容的發布,利用現有合作技術和手段去實現高效、安全的發布。
五、技術的思考和實踐
第一是混合架構的模式。對于許多業內的企業混合架構是目前可以嘗試的一個辦法。就實現而言通過專線的方法將我們現有的數據中心與云計算進行連接和集成。在兼顧原有的系統和處理能力的同時可以利用云計算帶給我們新資源和服務。
第二是數據的解耦。對于數據處理的流程而言無非就是采集、存儲、處理、分析這樣幾個環節。以往,我們習慣將數據的存儲和處理混在一起,但在今天看來這樣的系統會遇到越來越多的問題。所以比較好的方法就是將數據解耦,讓我們共享同一份數據但可以完成不同的處理任務。AWS提供的眾多服務都可以幫助我們實現這一點。
還有一點是“數據湖”的概念。所謂數據湖的概念是數據倉庫理論的一個延伸。強調的是在業務環境下一個全數據管理的實現。不同于傳統意義上的將數據按照不同的任務進行切分,而是利用現代大數據的管理處理能力實現全數據的管理的能力。在AWS的框架下很多人選擇利用Amazon S3這樣一款雖然時間最久,雖然看起來最簡單,但卻是樸實無華的數據服務來實現這個目標。
最后一點就是機器學習。機器學習目前已經成為業內的熱點技術。以DataXu公司為例,在過去幾年他們在這方面投入非常之大。對他們而言在機器學習領域最看重的就是處理的延時以及模型的尺寸。相信在數字廣告行業,這個技術一定會得到快速的發展。endprint