潘永花、宋斐
(阿里數據經濟研究中心,北京100000)
?
從IT到DT:創新進行時
潘永花、宋斐
(阿里數據經濟研究中心,北京100000)
摘要:本文講述了從IT到DT的歷史變遷和DT技術群落崛起,認為DT產業給傳統IT產業帶來的沖擊是根本性的,隨著大數據領域的新產品、新技術、新服務不斷涌現,行業的DT化進程正在加速,不同的行業基本上會沿著“信息化、在線化、云化、DT化”的過程發展。并指出中國發展還是處在第二和第三階段,數據與傳統產業的融合還處在起步階段。
關鍵詞:DT;行業DT化進程;
以控制為出發點的IT時代,正在走向以激活生產力為目的的DT時代。——馬云
2014年,阿里巴巴集團董事局主席馬云提出了DT時代的全新理念。他認為,人類正從IT時代走向DT時代。IT時代是以自我控制、自我管理為主,而DT時代,則是以服務大眾、激發生產力為主。在馬云后續的數次演講中,關于DT時代的核心特征主要包括四點:
·利他主義——DT技術的核心是利他主義,“相信別人要比你重要,相信別人比你聰明,相信別人比你能干,相信只有別人成功,你才能成功。”
·體驗——“DT時代一個非常重要的特征是體驗,就是感受。我們上世紀講了很多服務,不斷地增加服務能力,其實客戶要的不是服務,而是體驗。”
·透明度——“21世紀由于出現了數據,出現了互聯網,你要想隱隱藏藏躲一點東西基本沒可能,所以隱私這個問題很有意思,今天討論隱私擔憂的問題,20年以后基本上觀念都轉變了。”
·小企業——IT時代到DT時代,小企業變成關鍵。“小企業的需求是很多的,需要物流、誠信、信息、數據和支付,這整個體系,我們沒有辦法全做完,所以必須引進各種各樣的合作伙伴,大家一起來干,每個人在這里面拿到一點點,你才可能有機會成功。”
如前所述,隨著DT技術、DT應用、DT產業的發展,各產業DT化進程的不斷深化,DT對社會經濟各個領域的影響力已經逐步顯現出來。
在IT的發展史上,以0,1作為載體的二進制數據成為了刻畫客觀世界的基礎,但數據的角色以及形態,從計算機誕生伊始就不斷發生著變革。
大家熟知的第一次工業革命是以機械代替手工為代表,2006年云計算概念出現以前的IT時代,正類似于信息時代的第一次工業革命,主要還是企業用IT來替代手工,改變自身的業務流程為主。1964年,IBM發明System/360大型計算機,這個時代的計算機最主要的目的是替代手工操作,以主機/終端的計算模式為主,終端有點類似于傻終端的概念,數據存儲和處理以集中的方式在主機端進行。后來摩爾定律出現,伴隨著硬件計算能力的迅速提升,PC端處理能力的增強使得傻終端進化成有處理能力的客戶端,客戶機/服務器的計算架構成為了主流,數據變得分散,服務器端與客戶端都進行數據存儲和處理。TCP/IP協議的出現以及寬帶網絡的飛速發展使得網絡邊界延展開去,從局域網走向廣域網和互聯網,互聯網進入人們的工作與生活,時至今日,中國的網民就已經達到6.88億,互聯網使得數據開始跨越企業的邊界流動,數據之間的共享開放融合成為可能。
在IT時代,企業用戶都要耗費巨資去購買軟硬件和服務,搭建信息系統,使用IT技術的門檻相對比較高。而云計算的出現和興起,使得成千上萬臺廉價的服務器能夠通過虛擬化和分布式計算等技術隨需提供計算和存儲能力,云計算成為類似于水與電這樣的公共基礎設施服務,這有如信息時代的第二次工業革命。我們看到,云計算的出現使得數據可以隨時在線,數據成為如同貨幣、石油一樣的資產,數據成為激發生產力的核心資源和生產要素,使得信息經濟越來越名副其實,也成為連接云、網、端的核心。

圖1 從IT時代到DT時代
DT意味著信息技術的發展使得它終于有能力、以低成本的形式還原、映射、記錄和支撐客觀世界的運行。DT時代的技術基礎并不是單一的某種技術,而是以云計算和大數據技術為核心的技術群落,共同驅動了新世界的到來。
分析IT世界的技術主體可以發現,IT時代實際上是以高價位、高穩定性、封閉的技術為主導的時代,商業化硬件與軟件技術在那時獲得了繁榮和發展,硬件+軟件成為那個時代的主導因素。IT時代的技術最主要還是應用在企業內部的信息化建設為主,企業要投資大量的資金建設自己的機房,上百萬的投入是常事,選用昂貴的技術架構去支撐自己的業務系統,最主要的數據處理還是內部數據和結構化數據處理為主,處理的數據主要來自于內部信息系統如ERP上所產生的數據;數據的流動和共享也主要在企業內部為主。IT部門的角色是支持部門。
著名的網絡三定律:摩爾定律,吉爾德定律以及邁特卡爾定律,詮釋了互聯網發展的技術基礎,也為DT世界奠定了硬件技術的基因。在某種意義上講,摩爾定律從微觀角度解釋了產品的性能提高而成本降低的現象;吉爾德定律則提出了主干網帶寬的增長速度至少是運算性能增長速度的三倍;邁特卡爾定律則從宏觀角度解釋了產生這種現象的社會淵源——這就是隨著一個技術的使用者的不斷增多,每一個使用者從使用中獲得的價值不斷增加,但使用費用卻不斷下降的現象。服務器、存儲、網絡帶寬成本的降低以及相應技術處理能力的增強,共同為云計算的崛起奠定了基礎,這也使得數據的流動、共享以及開放成為現實。
我們看到,云計算使得成千上萬臺的廉價的服務器利用分布式處理技術和虛擬化技術形成橫向擴展的計算能力,用戶使用訂閱服務的模式,以低價的成本按照需要訂購計算、存儲和網絡資源,就可以獲得以往需要高昂的固定資產投入才能獲得的能力。

圖2 DT時代的技術基礎準備
數據處理和管理技術的發展成為DT世界到來的另一個技術群落的基礎,這是一個軟件定義的世界,軟件在從封閉、開放走向開源主導。據統計,今天的世界中只有15%的數據是以二維表形式為代表的結構化數據,85%的是來自于機器數據、圖像、視頻、音頻、網頁、社交媒體以及日志等多種來源的半結構化或非結構化數據。
最早的數據管理技術實際上是以文件管理為主,數據與應用緊密捆綁在文件中,軟件與硬件也是緊耦合的關系,直到1960年開始,網狀數據庫的出現開始將數據與應用分開,更有標志性的是,1970年E.F.Codd的關系數據庫理論出現,數據處理的技術開始出現質的改變,之后以關系數據庫技術為核心的數據管理技術開始主導數據管理市場,1990年以后數據倉庫技術的發展,則使得數據分析成為數據管理的熱點方向,在這個過程中,數據管理軟件變得開放,以IBM,微軟、Oracle、Teradata為代表的巨頭們的產品已經從封閉走向開放,支持多個操作系統平臺和硬件平臺。但真正的大數據技術準備好是互聯網的快速發展帶來的變革,以Google分布式系統三架馬車GFS、MapReduce和BigTable為代表,隨之以其為基礎的Hadoop進入到Apache基金會,才意味著與云計算匹配的大數據管理技術的軟件基礎已經基本準備就緒,這一次的軟件不再是商業化軟件主導,而是開源技術成為了基礎。
我們會發現,DT世界技術群落的關鍵詞與IT世界差異很大,經濟性、虛擬化、分布式、開源、橫向擴展等因素使得DT世界的主體不再是傳統的大企業,而成為了擁有勃勃生機的中小企業,創新的力量從高端走向平民。
在DT應用層面,尤其是數據分析與挖掘以及應用層面的技術領域里,炙手可熱的數據可視化、人工智能、機器學習、數據挖掘以及模式識別技術的發展,將會帶動著DT技術更深層次的應用。雖然人工智能是1956年就提出的概念,但一直并沒有獲得很大實質性進展,今年火熱的AlphaGo被看做是人工智能領域的重要轉折點,但其背后的機理依然是云計算+大數據結合的體現,完全不同于20年前IBM計算機與世界象棋冠軍之間的大賽。人工智能不僅成為業界關注的熱點方向,人工智能走下神壇已經不再是遙遠的夢想。機器學習作為人工智能的核心和基礎,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。但大數據才是機器學習和人工智能的基礎,如今除了AlphaGo以外,已經有不少人工智能應用的落地。比如,在2016年阿里云年會上,阿里云小AI為演講者實時輸出字幕,其強大的語音識別能力戰勝了全球速記亞軍。

圖3 DT技術群落及特點
從Gartner 2014年技術成熟度曲線中可以發現,目前大數據作為一個新興領域,已經在全球進入到了應用發展的階段。可以預期,未來隨著大數據應用的不斷發展,“應用”將成為越來越主要的牽引力。

圖4 2014新興技術成熟度曲線
IT世界的創新主體以美國和產業巨頭為主,這其中既有硬件起步的IBM、HP、EMC、Cisco等,也有軟件制勝的Oracle、微軟。從IBM的百年歷史能夠透視出,它以封閉的技術提供者身份,可以為大型企業級用戶提供從硬件、軟件到服務的完整IT解決方案,Oracle與微軟則在數據庫、操作系統與辦公軟件市場上領先。DT世界的快速演進和發展也使得這些巨頭們不得不采取收購或轉型的方式向云計算和大數據方向進軍。
我們認為,DT產業給傳統IT產業帶來的沖擊是根本性的,因為業務范式不再是“硬件+軟件”主導,而是“數據+服務”主導,服務就是以云計算為核心的模式變革。DT世界的產業生態逐漸變得豐富多彩,由于以云計算作為基礎設施,數據在此之上的流動、共享以及價值發現變得更加容易。圍繞著數據的收集、存儲、管理、分析、挖掘和展現等不同功能,都會出現不同的角色:從數據生產者,數據提供者、數據服務提供者、第三方數據市場、數據解決方案提供者到數據消費者、數據資產評估機構等多個物種,都在DT世界中生長。
由于數據本身的屬性與傳統商品的差異,因此數據交易模及變現模式面臨很大挑戰,但這種第三方的數據交易市場層出不窮,成為DT領域創新的熱點之一。而在數據解決方案和數據服務方面的創新相對來說,模式比較清晰。以阿里巴巴為例,已經基于淘寶和天貓的大量消費者和商家數據,支撐起了生意參謀、芝麻信用等相關業務。另外,基于阿里云的大數據解決方案數加平臺已經正式發布,用戶可以通過阿里云獲得從數據收集、存儲、分析、展現等全流程的技術服務。

圖5 DT產業概略圖
由于移動互聯網用戶以及物聯網設備的快速增加,中國及全球的數據量呈現出飛速增長的態勢。根據IDC每年針對數字宇宙的研究,全球數據量從2020年將會達到44ZB的規模,而數據量進入ZB時代僅僅是在2010年,10年的變化如此驚人。從中國數據量來看,中國的數據量在2014年達到909EB(1EB=1000TB),占全球比例為12%,到2020年這個數字將會達到8060EB,占全球比例將會達到18%。對于中國來說,數據的價值并沒有被充分發揮和體現。未來5年是中國要從數據大國向數據強國變革的過程。正是基于這樣的背景,DT受到了各界廣泛關注,已滲透到金融、醫療、消費、電力、制造等幾乎各個行業。隨著大數據領域的新產品、新技術、新服務不斷涌現,行業的DT化進程正在加速。
IT可以理解為業務數據化的過程,行業在IT化的過程中,比如企業的IT系統產生了大量的數據,但這些數據有如IT產生的附屬品,在支撐企業業務的過程中,交易數據、操作日志、圖片、文檔等各種數據都已經產生,但數據的作用往往主要就用于查詢或報表,數據的價值遠未發掘;到了DT時代,數據能夠變成各種畫像:個人畫像、企業劃線個、信用畫像等,數據能夠產生出新的業務,數據業務化成為必然。比如,螞蟻金融服務公司的螞蟻小貸服務就是基于線上商家信用和銷售狀況的數據積累,形成了商家風險和信用評估模型,基于該模型為商家提供小額貸款服務,不僅能夠快速審批,最快的能夠實現1分鐘審批,而且極大降低了壞賬率。

圖6 數據業務化是DT時代的必然
我們認為,不同的行業基本上會沿著“信息化、在線化、云化、DT化”的過程發展。
大部分企業信息化以自身信息系統建設為主線;
在線化意味著內部數據開始走出企業邊界,外部數據可以走進企業內部;
云化意味著可以利用云的基礎設施實現成本最大化節省,同時實現數據管理能力的最大化,數據之間能夠很容易地互動起來;
前面的三步主要圍繞著業務數據化,DT化則意味著數據業務化的過程,需求方與供應方的信息壁壘消除,數據成為驅動業務創新的核心要素。

圖7 DT化的內在進程
具體來看,行業DT化進程的速度,與行業的信息化水平、行業與消費者的距離、行業的數據擁有程度最相關。
第一類是互聯網和營銷行業。互聯網行業本身就是離消費者最近的行業,同時擁有大量實時產生的數據,在線化是其基本要素,因此DT化的程度是最高的。與之相伴的營銷行業,是圍繞著互聯網用戶行為分析、為消費者提供個性化營銷服務為主要目標的行業,因此這一行業的DT化程度也很高。
第二類是信息化水平比較高的行業,比如金融、電信這兩類行業,它們內部信息系統相對比較完善,對內部數據有大量的歷史積累,并且有一些深層次的分析類應用,目前正走在內外部數據結合起來共同為業務服務的階段。政府行業的信息化程度和數據化程度差異較大,但政府的DT化將會是未來整個DT世界發展的關鍵,它通過數據開放可以使政府數據在線化走得更快,從而激發數據類創新創業的大發展。
第三類是制造業、物流、醫療、農業等行業,它們的DT化進程還處在初級階段,但未來C2B模式會倒逼著這些行業的DT化進程加快。

圖8 各產業的DT化進程
我們認為,大數據發展會經歷四個發展階段,目前中國發展還是處在第二和第三階段,數據與傳統產業的融合還處在起步階段。
第一階段(擴散期):互聯網行業的發展帶動了數據這種生產要素的快速擴散,而以電子商務為代表的互聯網新業態承載了業務數據化的過程,影響的首先是離消費者最近的一些行業,比如零售、媒體等,這時互聯網公司主要運營的是自己本身業務產生的數據,同時,大量的傳統企業和行業用戶處在建設IT系統建設的階段,以積累內部數據為主,數據主要用于查詢及報表類應用。
第二階段(加速期):互聯網公司開啟數據業務化的實踐,比如以螞蟻微貸為代表的源于大數據的新業務模式出現并快速發展;擁有重度線下數據資產的傳統行業對數據的商業價值加大重視力度,比如金融、電信、政府這類行業,開始加大互聯網化力度,注重線上線下數據、內部外部數據、結構化數據與非結構化數據的融合。
第三階段(轉型期):在傳統工業化進入尾聲,在即將到來的工業4.0時代,數據通過各種物聯網設備產生并滲透到各行業中,離消費者最遠的行業比如制造業加速數據化進程,數據帶動傳統產業的升級轉型,實現對主要傳統產業的解構、重構和再造,基于數據的傳統產業變革成為主流;
第四階段(成熟期):最后是數據價值全面滲透到所有產業之中,數據開放、共享、交換、交易的愿景實現,通過數據的多重融合實現數據商業化、證券化,傳統產業的業務模式、組織架構、管理制度、文化和人才都適應新經濟發展進行改造,完成范式轉移過程。

圖9 大數據發展四階段
(責任編輯:牛域寧)