百度 北京 100085
隨著移動互聯網的快速發展,應用服務向移動化、場景化演進,基于O2O的生活服務等業務逐漸興起并迅速普及,移動電子商務得到快速的發展。據統計,互聯網打車滲透率已經超過40%、互聯網外賣訂單年增長超過5倍、而電影類業務基于互聯網的購票選座比例也已經超過50%。
據易觀智庫EnfoDesk預計,隨著商業模式的成熟,未來幾年移動互聯網市場規模將持續增長,預計2017年市場規模將達到15 790.7億元,如圖1所示。另外據其監測數據顯示,2013年移動商務占移動互聯網總體市場規模比例已達到67.8%,占比逐年上升。易觀智庫同時預計,移動電子商務未來幾年占比還將持續上升,2017年將達到87.4%,成為移動互聯網市場結構的主體。

圖1 2011年~2017年中國移動互聯網市場規模及預測
移動互聯網業務、終端和用戶的快速發展和普及,使更多的人和物理設備互聯。而隨著信息采集成本的不斷降低,物理世界加速向網絡空間量化,產生了海量的數據。根據國際數據公司IDC發布的研究報告,全球所有信息數據中90%產生于過去兩年,數據總量正在以指數形式增長,從2003年的5EB[1],到2013年4.4ZB[2],并將于2020年達到44ZB。
隨著互聯網+時代的到來,“聚合”和“調度”是提升效率的最核心要素。移動電子商務的發展帶動用戶產生的行為數據、交易數據、位置數據等數據激增,這些數據的“聚合”對于更好地實現移動電子商務有著極高的價值,通過提升智能化手段,對這些數據進行挖掘、利用和分析以提升現有業務體驗,實現智能化“調度”,可以進一步實現對商戶、應用平臺等的營銷決策、資源分配,解決商戶和用戶之間服務信息不對稱。
進入移動互聯網時代,用戶輸入和檢索需求更趨于復雜化和個性化,從最初的簡單獲取信息的需求,到現階段希望能夠通過搜索引擎直接獲取答案、連接服務,這就需要實現海量數據的挖掘和智能處理,實現人和服務的精準匹配。另外由于移動終端的限制,用戶也更趨向于自然的交互方式,據統計,現階段在百度的搜索請求中10%是以語音的形式表達的,而未來5年使用語音和圖像來表達需求的比例將超過50%。基于如此真實強大的需求,為了不斷提升移動電子商務用戶體驗,就必須能夠更好地實現語音與圖像的識別準確率,以及個性化的需求理解,從而實現智能的服務連接。在百度的眾多產品中,包括手機百度、百度外賣、百度糯米等應用,用戶基于語音和圖像的交互日益增多,語音和圖像識別技術已經成為移動互聯網電子商務用戶體驗提升的關鍵技術。
如今在移動互聯網和大數據時代,大量的互聯網用戶將產生包括文本、圖像、語音、視頻、地理位置在內的大量數據,規模呈爆炸式增長的趨勢。面對海量數據,以深度學習為代表的新興機器學習技術,可以做到傳統人工智能算法無法做到的事情,其輸出結果會隨著數據處理量的增大而更加準確,取得更好的效果。因此可以說深度學習及機器學習的發展,推動“大數據+深度模型”時代的來臨,使得人工智能和人機交互技術大踏步前進,推動圖像識別、語音識別、自然語言處理和深度問答等“視、聽、說”前沿技術的突破。
圖像識別技術是深度學習最早嘗試的技術領域。Yann LeCun等人在上世紀80年代末發明了卷積神經網絡(Convolution Neural Networks,CNN),該網絡是一種帶有卷積結構的深度神經網絡,CNN的結構受到著名的Hubel-Wiesel生物視覺模型的啟發,尤其是模擬視覺皮層V1和V2層中Simple Cell和Complex Cell的行為。CNN雖然在小規模的問題上(如手寫數字)取得過當時世界最好的結果,但一直沒有取得巨大成功,主要因為CNN在大規模圖像上效果不佳。直到2012年10月,Hinton等人利用更深度的CNN在著名的ImageNet問題上取得了很大進步,使得圖像識別技術大幅提升,其主要原因一方面來自算法的提升,例如防止過擬合技術,另一方面更重要的是GPU帶來的計算能力提升和更多的訓練數據。百度在2012年底將深度學習技術成功應用于自然圖像OCR識別和人臉識別等問題,并推出相應的桌面和移動搜索產品;2013年,深度學習模型被成功應用于圖像的識別和理解,驗證準確率得到大幅提升[3]。從百度的經驗來看,深度學習應用于圖像識別不但提升了準確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率。深度學習將取代“人工特征+機器學習”的方法而逐漸成為主流的圖像識別方法。
長期以來,以混合高斯模型(Gaussian Mixture Model,GMM)為代表的統計概率模型一直在語音識別應用中占有壟斷性地位,其本質上是一種淺層網絡建模,不能充分描述語音特征的狀態空間分布,特征維數一般是幾十維。采用深度神經網絡后,可以充分描述特征之間的相關性,可以把連續多幀的語音特征并在一起,構成一個高維特征,最終的深度神經網絡可以采用高維特征訓練來模擬。由于深度神經網絡采用模擬人腦的多層結果,可以逐級地進行信息特征抽取,最終形成適合模式分類的較理想特征。這種多層結構和人腦處理語音圖像信息時有很大的相似性。深度神經網絡的建模技術,在實際線上服務時,能夠無縫地和傳統的語音識別技術相結合,在不引起任何系統額外耗費情況下,大幅度提升了語音識別系統的識別率,從而徹底改變了語音識別原有的技術框架。百度在2012年11月上線了第一款基于DNN的語音搜索系統,成為最早采用DNN技術進行商業語音服務的公司之一。
除了語音和圖像,自然語言處理也是深度學習發揮作用的技術領域。經過幾十年的發展,基于統計的模型已經成為NLP的主流,但作為統計方法之一的人工神經網絡在NLP領域幾乎沒有受到重視。2008年,NEC美國研究院Collobert等人采用embedding方法和多層一維卷積的結構來研究NLP問題,取得了與業務最前沿相當的準確率。最近斯坦福大學教授Chris Manning等人將深度學習用于NLP的工作也值得關注。
深度問答是一種基于海量互聯網數據和深度語義理解的智能系統,基于對用戶自然語言的理解,實現對海量數據的深層分析和語義理解,并通過搜索和語義匹配技術,提煉出答案信息,對信息進行聚合、提煉,給出最全面、準確的結果。其實現的難點主要在于正確理解用戶復雜和多變的需求,并掌握海量結構化的知識庫數據,這就需要強大的人工智能技術和海量復雜的大數據處理能力。深度問答關鍵技術包括問題分析和理解技術、實體知識體系建模技術、文本分析和關系抽取技術、語義分析和排序技術等。
針對不同類型的問題,提取答案的技術也會不同。
根據可采用的技術,問題可以大致分為實體類問題和非實體類問題兩大類。實體類問題是指答案是實體的問題, 問題的答案可以是唯一實體或者實體的列表,需要通過問題分析技術分析出實體類別;對于非實體類的問題,需要通過問題分析技術,把這些類型的問題跟實體類問題區分開來,因為這些問題的答案不再是實體,答案的形態也更加復雜。
實體類問答離不開實體知識體系的支撐,實體的類別、實體間的同位、上下位關系都十分重要;因此,一個完備的實體知識體系建設(ontology)對于問題回答十分必要。實體的同位、上下位關系可以通過整合多種來源的知識獲取,包括一些結構化的數據如百度百科,也可以從普通文本中挖掘。
對文本的深層分析是深度問答用到的一項基礎技術。文本的分析分為多個層次,包括分詞、實體識別、句法分析乃至語義角色標注,在這些分析的基礎上可以進行知識獲取。而通過對海量數據進行深層分析,可以有效過濾文本分析引入的噪音,使得知識更加精準。文本分析和關系抽取技術不僅僅可以用于從普通文本抽取知識,也可以用于語義匹配。
移動電子商務實現了用戶、商戶、支付系統以及配送網絡的線上及線下的連接,同時也產生了海量的數據,相比較于PC端的應用,移動電子商務系統對于這些海量數據的實時分析和計算提出了更高的要求。比如打車軟件調度系統、外賣系統等要求實時處理程序能夠確保在嚴格的時間內響應,通常以秒為單位,甚至是毫秒。傳統的批量計算模型已無法滿足這些要求,必須用專門的實時計算系統替代。
為了更好地支撐自身的業務,百度自主研發了國內規模最大的實時計算平臺——Dstream和TM,它們各有千秋,適用于不同的業務場景,極大程度地滿足了移動互聯網業務的實時調度問題[4]。Dstream旨在面向有向無環的數據處理流,滿足高時效性要求的計算業務場景,如百度外賣系統的實時調度和路徑規劃等,可達到毫秒級的響應,目前Dstream平臺的集群規模已超千臺,單集群最大處理數據量超過50TB/天,集群峰值QPS 193W/S,系統穩定性、計算能力已完全滿足海量數據時效性處理需求。
沿海區由于靠海,自然元素充足,陽光燦爛、沙灘平坦、風景優美都能滿足游客追求放松、娛樂的條件。因此海岸線在規劃之前本身就具有很強的視覺觀景性,對整個島嶼經濟的發展,都有著直接和間接的價值。為實現人類與生態和諧共存,應做到合理利用自然環境,堅持生態環境保護,力求在開發建設時期對當地的生態環境破壞減到最小,從而實現取之自然,還之自然的原則,共同完成沿海景觀帶自我發展、自我保護和自我平衡的生態景觀系統。
TM則是queue-worker模式的準實時workflow計算系統,可滿足秒級到分鐘級的響應。并具備transaction語義,流入平臺的數據即使在平臺發生故障的情況下,也能做到不重不丟,有著非常高的可靠性。這一系統主要應用于低時延、高吞吐及對數據完整性要求極高的場景,如報表生成系統、計費流計算等。
即使與Storm相比,Dstream在系統成熟度、性能、穩定性等方面仍然優勢明顯,具體對比數據如表1所示。
餐飲業被認為是互聯網最早開始改造的傳統行業,最成熟的平臺模式是團購和外賣,本文以外賣系統為例探討移動電子商務系統智能化技術的重要性。外賣是一個傳統的業務,但是O2O時代的外賣系統卻是一個多種復雜技術的綜合體系,包括了多個層面的創新,如商業模式的創新、組織形態的創新和技術的創新。外賣業務實現的關鍵是提高配置效率,同時為用戶、騎士和商戶創造更多的價值,智能技術是其核心競爭力。

表1 DStream與Storm對比
一個基本的外賣流程主要包括如下3個環節:用戶下單、訂單調度、騎士配送。系統流轉的最主要目的就是為了能夠促成用戶下單,并及時交付訂單。其背后最重要的兩大系統就是推薦系統和調度系統,如圖2所示,通過推薦與調度系統,對于訂單日志、騎士狀態、實時場景和點擊日志等動態數據進行分析,完成實時、有效的配送;同時通過用戶畫像、菜品信息、商戶畫像和場景偏好等靜態數據與實時的場景相結合實現精準的推薦。例如百度外賣系統是國內首家采用流式計算、智能調度算法構建的外賣系統,通過智能調度和推薦,能夠實現用戶等待時間平均降低28%,騎士送單效率提升100%。
外賣系統中最重要的部分就是智能調度系統,主要包括智能派單和路徑規劃兩個部分。在傳統的電子商務時代,調度主要是由調度員完成,假設一個調度員大概一天能管一千單左右,如果每天要實現一百萬單的話,就需要有一千個調度員,這是一個非常龐大的運作體系。在移動O2O時代,系統要處理海量的訂單和數據,這就需要一個智能化、全自動的調度系統,要選擇合適的騎士,并同時考慮到LBS位置信息和訂單合并等信息,使得整個系統實現路徑最優。

圖2 百度外賣系統
百度外賣系統的架構如圖3所示。通過采集騎士、訂單、GIS服務和用戶等相關數據構建實時場景下的約束變量,并通過流式計算、預估模型、相關性排序和動態規劃等算法實現實時調度,包括路線規劃、智能導航、訂單自動分配等。為了實現更好的實時調度,系統還實現了離線預測和配送監控等功能。其中離線預測采用智能化手段實現出餐預估、熱點預測、運力預測等,這些預測信息可以與調度系統結合,根據離線的場景分析來實現最優的騎士配送路線。另外能夠實現自動化的騎士管理、商戶管理、調度檢測和配送監控等業務層功能,也可以用于實時監控及調整配送網絡。

圖3 外賣系統訂單流程圖
移動電子商務需要將用戶需求和所需要的服務實現精準對接,因此優秀的移動電子商務系統必須具備一個智能的推薦系統[5]。以百度外賣為例,通過智能化推薦系統,可以實現數據、場景的分析以及用戶畫像,對于不同的用戶、地域以及時間段等復雜的場景,呈現出不同的商戶和菜品的排序。同時滿足業務生態各參與方的需求和利益。外賣平臺提供一個公正、良性的競爭環境,同時滿足用戶多場景個性化的需求、口味變化的需求,并為商戶提供新的機遇并建立良好的商戶成長體系,增加用戶黏性,極大地提高用戶轉化率。
百度外賣的推薦系統主要包括數據處理層、商戶建模層、算法層、策略層、用戶建模層和應用層6個部分,如圖4所示。

圖4 智能推薦系統示意圖
其中商戶和用戶的建模包括離線和實時兩部分。商戶模型的離線數據包括商戶評級、適宜場景、商戶標簽挖掘和商戶屬性等;實時數據包括實時運力、實時庫存、商戶行為和運營數據等;用戶建模層的離線數據包括用戶長期畫像及其短期畫像;實時數據包括購買場景分析和實時的用戶畫像等。推薦系統通過高效的實時計算系統,分析百度海量的商戶及其用戶數據,刻畫商戶和用戶模型,并通過多樣性策略實現精準商戶排序、商戶推薦和菜品推薦,提升點擊率。
移動互聯網業務的快速發展,使得行業技術門檻越來越高。移動電子商務業務作為其中最為重要的分支之一,其業務及平臺實現涉及云計算、大數據、人工智能等多種技術的綜合應用,因此可以說技術與研發能力是實現移動電子商務業務創新、商業模式創新、優化資源配置的有利保證。
移動互聯網的發展實現了泛在連接和全面智能化的疊加,以及無所不在的連接和無所不在的感知,從而產生海量的數據。這些數據類型已不是單一的結構化數據,非結構化數據占有非常大的比重,但是如果現有技術手段無法將大量的非結構化數據與結構化數據進行統一和整合,就無法發掘數據中的重要價值。對于這些非結構化的數據進行分析和挖掘并實現其價值,人工智能是重要的技術發展方向。當感知、連接和計算無所不在的時候,人工智能將會全面提升數據處理的實時性、準確性和完整性。移動電子商務業務的快速發展也直接得益于數據驅動的創新及應用,可以極大地提升用戶體驗并降低成本。因此可以說人工智能是移動互聯電子商務的最重要的技術推動力,能夠提升“互聯網+”的智能化水平,并帶來技術、生產、商業模式的持續變革。
參考文獻
[1]易觀智庫.中國移動生活服務市場專題研究報告[R],2014:1-3
[2]涂蘭敬.百度的技術突破與應用[N/OL].[2015-07-20].http://www.ciw.com.cn/h/2562/404190-17609.html
[3]都大龍,余軼男,羅恒,等.基于深度學習的圖像識別進展:百度的若干實踐[EB/OL].[2015-07-20].http://wenku.baidu.com/link?url=4lIdMG0VcK0RW_EXIrwg8qQRd6SnDwd w8tfho3O0UIgbIkv6GvjiosnYs8TsUpuYvOe52K5fyQRc C3QmKQLC5h5Hrh-n2IWbHu-Gm6VYKJi
[4]郭江亮.百度實時計算平臺的實現和應用[J/OL].[2015-07-20].http://www.csdn.net/article/2014-10-28/2822319
[5]陳尚義.百度大數據應用與實踐[EB/OL].[2015-07-20].http://www.open-open.com/news/view/1e2f98f