張朝東
(四三九九網絡股份有限公司,福建 廈門 361000)
大數據已經成為當今時代一個重要的戰略資源,對社會經濟的發展具有極為重要的意義。表1為2020年大數據產業生態聯盟對我國9大省份2014年至2019年大數據專利新增數量的權威統計。從表1中可以看出:2014年9大省份之間大數據專利新增數量沒有較大差距,均小于500項。至2019年期間,各省份大數據專利新增數量持續提升,由此可以看出各地區都比較重視互聯網大數據的研發和創新工作。然而,受互聯網企業分布因素的影響,北京、廣東這2個大型互聯網企業較多的省份(地區),大數據專利數量的增長速度明顯高于其他省份,使我國大數據創新發展存在明顯的差異性。因此,加大互聯網大數據創新力度,強化基礎設施建設,是新時期背景下,打破我國互聯網大數據發展瓶頸,推動其進一步發展的重要路徑,是促進我國各地區互聯網大數據均衡發展的必經之路[6]。
隨著Schumpeter創新感念的提出,新工藝、新產品、新市場、新組織形式、新供應源成了現代經濟環境下,企業家挖掘經濟利潤的重要“寶藏”。而對互聯網大數據而言,其應用價值來源于新鮮、海量的數據資源。以Farecast公司為例,其通過獲取互聯網上機票價格變動的數據資源,來預測機票價格,以此實現了平均每張機票為乘客節省50美元的應用價值。與傳統意義上的數據價值不同,互聯網大數據的價值需要進行深入挖掘,且要滿足以下3個標準:(1)數據規模須達到海量型標準,且應盡可能將與某個問題相關的所有數據都納入分析范疇;(2)數據類型應達到相應的規模,結構化、非結構化、半結構化的數據均能夠為數據創新貢獻價值,其中非結構化數據的價值性更為凸顯;(3)數據來源應廣泛、生成速度應足夠快,這樣才能通過數據資源的不斷積累,產生相應的應用價值[1]。

表1 2014—2019年9大省份大數據專利新增數量統計圖
互聯網大數據創新過程中,要想充分挖掘出數據資源的價值,創新者必須要具備以下3個異質性能力:1)數據收集能力。互聯網時代,事物相關數據普遍分散在社會的各個角落,因此,必須要具備強大的數據資源收集能力,將所有數據整合,才能有效開展創新工作;2)高效整理、精準預測的分析能力?;ヂ摼W時代數據資源具有生成速度快、體量浩大、模態繁多、密度低等突出特征,只有具有強大的數據分析能力,才能有效挖掘出社會化數據資源的價值,奠定創新基礎;3)創造能力。該能力是實現互聯網大數據創新的核心能力。若缺乏對數據資源分析結果進行創新性應用的敏感性和創造力,數據分析結果只能作為僵化的信息,難以轉變為創新價值[2]。
現階段同時具備上述3個異質性能力的企業極為少見,因此,大數據時代分化出以下3類能力優勢各不相同的企業:第一類企業,具備深入挖掘數資源價值的技術和創意,但數據收集能力不足,無法掌握海量的數據資源;第二類企業,具備出色的數據分析能力,但不具備數據資源收集和創新性應用的能力;第三類企業,掌握海量的數據資源,但數據價值提取和創新性應用能力不足??梢?,現階段僅依靠自身能力進行大數據創新是極為困難的,因此“接力創新”是互聯網大數據創新的基本特征,其主要有2種接力創新模式:(1)上游企業提供技術和創意,下游企業結合自身數據資源實現大數據創新和商業應用(2)上游企業提供海量數據,下游企業根據自身數據分析和創新性應用能力,自主進行數據開發,挖掘數據價值,從而實現大數據創新和商業應用[3]。
想要完全占有大數據的創新價值,不僅要具備上述3個特征,還要具備創新性的思維方式。具體包括以下4點:(1)數據開放思維。網絡時代大數據廣泛分布在不同個人或團體手中,只有建立數據開放思維,實現數據資源的共享,才能更快速、更全面地獲取到所需的數據資源,從而使每個獨立個體或團體都能成為互聯網大數據創新的參與者和受益者,進而推進大數據創新的有效開展。(2)全樣本分析思維?;谌珮颖痉治鏊季S進行大數據信息處理,接受數據資源的不精確性與混雜性,注重數據間的相關關系而非因果關系,這樣才能更加深入地挖掘出數據的創新價值,并予以創造性應用。(3)潛在用途決定數據價值的思維。該思維可有效改變創新者對看待和運用數據資源的角度和方式,有利于大數據創新性應用能力和意識的催生。(4)多渠道獲利思維。互聯網大數據創新視域下,企業獲利的渠道不僅局限于提供服務或售賣商品,創新鏈中的每個環節都是企業獲利的渠道,如知識產權運營、售賣公司等[4]。
互聯網大數據是由分散在不同行業領域的各類主體所創造的,而數據匯集設施指的是,基于創新者的實際需求,從分散的社會性數據資源中收集和提取與特定問題或目的相關的數據資源,并利用通信渠道將這些數據資源傳遞給數據支配者,以此為互聯網大數據創新活動的順利開展提供豐富的數據資源。數據資源的“抽取→傳遞→聚集”過程,不僅需要依靠網絡通信硬件設備和軟件系統的支持,還需要借助數據創造者、中轉者、支配者間的“交換”行為。由此可見,對創新主體而言,加強大數據匯集設施的建設,是進行互聯網大數據創新的重要基礎和保障[5]。
廣泛收集互聯網大數據是為了更有效、更具創造性地運用數據資源,在該過程中,基于數據處理設施對數據資源進行高效處理并深入挖掘其創新價值是重要的環節。通常情況下,大數據處理設施主要建立在互聯網云計算平臺上,以獲得高效性、經濟性、拓展性等特點?,F階段,Hadoop是應用較為廣泛的大數據處理設施,雖能夠滿足基本的互聯網大數據處理需求,但數據價值的深入挖掘能力比較薄弱。因此,加大Hadoop的研究和創新力度,提升其數據價值挖掘能力,是數據處理設施建設的核心工作[7]。
數據傳輸設施是大數據收集、處理、應用全過程得以順利開展的重要保障。隨著互聯網技術的飛速發展,大數據呈現出數據規模海量化、生成速度高速化的發展趨勢。這對數據傳輸設施的傳輸能力提出了更高的要求,不僅需要其能夠適應不斷擴大的網絡規模,還需要其充分包容數據資源的異構性、支持海量數據的跨區域傳輸和跨層分配。然而,現階段數據傳輸設施還難以滿足上述需求,很容易受互聯網數據丟包和亂序等問題,影響數據傳輸的完整性與實時性。因此,需要加大網絡通信體系的研究和創新力度,加強數據傳輸交換機理以及高水平網絡通信體系結構的構建,切實提升網絡資源以及數據流的調度水平和效率,為互聯網大數據創新建設更高質量的數據傳輸設施[8]。
互聯網大數據多樣化、海量化發展,對數據存儲工作的挑戰主要體現在以下2個方面:一方面是數據資源生成速度快,對數據儲存空間的需求量顯著提升。而數據儲存空間拓展速度較慢,難以滿足實際需求;另一方面是當前數據儲存模式和管理方法難以滿足異構數據、海量數據、多源數據的儲存需求。因此,如何提升數據儲存設施的儲存能力,在實現數據資源高效儲存的同時,最大限度滿足“ZB”和“EB”計數數據的儲存需求,是數據儲存設施的核心內容。此外,通過提高數據儲存設備管理水平,在實現數據存取、處理、交換等功能的基礎上,降低設施運行成本也是數據儲存設施建設的一個重要目標[9]。
互聯網大數據創新的基礎設施具有“層次性”、“系統性”、“社會性”、“共生性”4個基本特征。在進行基礎設施建設時,必須把握其基本特征,注重各類基礎設施的協同耦合與齊頭并進,避免“水桶效應”影響基礎設施系統應用作用和價值的發揮。
就“層次性”特性而言,以數據收集、處理、傳輸、儲存為主的技術基礎措施和商業基礎設施是大數據創新的基礎設施體系的最內層,是大數據創新的“基石”;教育基礎設施是中間層,為大數據創新提供持續的動力;社會基礎設施是最外層,為大數據創新創造良好的社會環境。
就“系統性”特性而言,同一層次基礎設施中間具有緊密的系統關聯性。例如大數據科學技術教育與商業應用教育之間存在承接關系,缺少任何一個都難以組成完整的大數據創新教育體系。不同層次基礎設施之間也存在一定的系統關聯性,例如社會基礎設施的建設程度會一定程度上影響教育、商業、技術等基礎設施的建設。
就“社會性”特性而言,互聯網大數據創新是一項社會性行為,需要全社會的參與。在大數據創新的基礎設施建設過程中,各社會主體發揮各自不同的作用和價值?;A設施建設既可以是由某一社會群體主導建設的,也可以由多個社會群體協同建設。
就“共生性”特性而言,互聯網大數據創新與基礎設施建設之間存在互動發展、相伴相生的緊密關系,甚至很多時難以準確區分出哪些屬于基礎設施、哪些屬于產業技術。例如IBM、阿里巴巴、華為等社會企業,受到大數據技術的吸引而主動加入互聯網大數據創新活動中,既滿足了自身技術創新的發展需求,又在該過程中自主搭建和完善了相關的數據創新基礎設施。與此同時,基礎設施的建設也影響大數據創新的方向,例如Hadoop最為數據處理基礎設施被廣泛應用后,大數據創新的方向也會向Hadoop擅長的領域偏移。
綜上所述,只有準確把握基礎設施的基本特性,才能切實提升基礎設施的建設水平,構建出完善的互聯網大數據創新基礎設施體系。
企業是大數據創新基礎設施建設不可或缺的重要組成部分,是基礎設施建設的“主力軍”。大數據是由社會企業最早提出的,相較于政府,企業對大數據創新基礎設施的理解更具深刻性和前瞻性,對基礎設施建設的要求也更強烈。因此,應充分凸顯出企業在基礎設施建設中的主體性,使其充分發揮出以下主導作用:(1)數據抽取和匯集。例如“timeline”功能,既是Facebook公司為用戶提供的“生活故事記錄”功能,也是其抽取和匯集散落于各處數據的平臺;又如蘋果公司發布的“重大疾病發現”組件,既能夠幫助用戶解決醫療衛生服務需求,又是相關數據資源的抽取和匯集平臺(2)數據儲存。例如IBM公司率先提出的云計算平臺,通過“公用云空間”和“私人云空間”有效解決了企業或個人大數據儲存與分析的難題(3)數據處理和應用。以Hadoop為例,其以開源社區為代表的眾包,已經成為現階段各行業企業創造性運用大數據資源的重要基礎性技術平臺,很多企業在其基礎上構建了個性化的眾包平臺,以此有效解決大數據創新過程中的設計、技術、創意難題。
網絡全球化時代背景下,并不需要獨自完成所有大數據創新基礎設施的建設,應充分利用全球基礎設施網絡。通常情況下,各國之間的通信、交通、能源等基礎設施難以實現共享,但大數據產業是在相對開放的環境下產生并發展起來的,因此云計算、Hadoop等互聯網大數據創新基礎設施具有可共享性和無形性特征,這為我國利用全球基礎設施網絡提供了極為便利的條件。國有企業應主動向設計開放自己建設的大數據創新基礎設施,使其成為全球大數據創新基礎設施網絡的一部分,以此加快我國互聯網大數據創新的發展速度。例如我國一些科研機構和社會企業在研發大數據開源軟件的過程中,主動引入了國際標準,使科研結果可與全球基礎設施網絡有效“接軌”。
互聯網大數據創新活動的開展需要眾多基礎設施的支持,其中以數據匯集、處理、傳輸、儲存為主的技術基礎措施最為關鍵。為確?;ヂ摼W大數據創新具備完善、有力的基礎設施支持,政府和企業應通過把握大數據創新的基礎設施基本特性、明確企業的主力地位、借助全球基礎設施等思路,提高基礎設施建設能力,以此保證基礎設施的系統性和完整性,推動互聯網大數據創新活動持續、高效地開展。