◎ 文/劉永平
大數據視角下的產業安全監管
◎ 文/劉永平
全球化背景下,競爭泛化遍及全球經濟,時有競爭不可避免地演化為對抗,形成毒害世界經濟的貿易摩擦現象。同時,產業的國際依存度日益提高,特別是金融危機尚未消散,全球同舟共濟成為共識。如此,“競合”成為全球化背景下產業競爭的總體走向。由于合作訴求的存在,抑制了競爭中的對抗,因而產業安全的基本特征就表現為低烈度對抗。對抗的早期發現,及時救助調整,快速達成新的平衡,甚至將對抗消弭于萌芽時期,使競爭各方獲得最大公約數,減少對經濟的沖擊,被視為產業安全監管的最高境界。對抗的早期發現和控制屬于政府產業安全的監管范疇。政府監管的效率則取決于監管系統的數據化水平,在數據爆炸的時代,則取決于對大數據的處理能力。
產業安全監管達到數據化水平的重要特征就是系統運行的自動化與即時響應。數據化的系統具有自動聚集信息、自動響應、自動反饋、自動解析問題、自主啟動救助程序的能力。但目前我國的產業安全政府監管系統中實實在在存在著影響監管系統數據化的缺陷。
1.數據孤島現象
個人、企業、政府部門在自我保護的目的下,或在技術約束下(結構和非結構),形成了一個個數據孤島,孤立的數據自然減少了組合的總量,人們對數據間的關系沒有了“聯想”,數據價值就失去了升值的潛力。
我國與產業安全相關的數據類型多樣、分布很廣。筆者僅從其獲取方式上,將其分為兩大類,傳統專業化統計類數據和公眾活動聚集類數據。
(1)傳統專業化統計類數據,由兩大部分構成。其一是以政府部門為主建立的數據庫,以政府部門主管的商會、協會、學會建立的信息數據庫以及由政府主導的各產業自發建立的分布極廣的大量數據庫。其共同特征是政府背景,采用一致的統計制度,共享程度較高;其二是以企業為主建立的數據庫,包括了企業內部統計數據和社會專業盈利機構收集加工的數據。其特征是信息龐雜,統計口徑多樣,受利益約束而共享化程度較低。
(2)公眾活動聚集類數據,也由兩大部分構成。其一是會議類數據,提供的是信息加工機構的解析信息。此類數據庫常見于政府、學術機構、大專院校、公辦研究機構舉辦的年度論壇和研討會。其特征是方向上有連續性,內容上差異極大;其二是基于互聯網的公眾活動統計數據。其特征是數量巨大、結構多樣,壟斷性高。
無論傳統和新型數據,在利益和管理慣性的作用下,都被分割成一個個數據孤島。
2.數據單向輸出
無論傳統和新型數據,都是單向交換,為傳統銷售型交換模式,極大地影響了數據公益性的發揮。問題產生的根本原因就是利益,數據統計單位為了保障利益,只能選擇一次性完成交易,這就形成一種守“數”待購的局面,影響了數據傳播的速度與廣度,數據的社會效益極低。問題產生的另一個原因就是安全,在安全的旗幟下,公益數據被利益化到局部。甚至在保密的要求下,需要用戶到現場拷貝。
在數據單向輸出的突破上,互聯網的公眾活動統計模式是個進步,能夠從公眾反饋中獲益。如從點擊率中發現客戶的傾向性、潛在需求,但不是統計的徹底進步。數據交互式輸出才是理念上的徹底突破,互聯網的魅力就是多對多,通過交互挖掘,活躍創新。
3.計算低效運行
數據孤島和單向輸出形成的數據格局,從根本上造成了數據中心林立的后果。獨立的中心,甚至只是一臺個人計算機的運轉,必然是效率低、效能低、投入高。
當今是數據大爆炸時代,大到現有存取、運算、傳輸設備以及數理模型不能處理的程度。大數據理論的誕生,為的是從結構和非結構化數據、邏輯和非表面邏輯的數據中發現規律、預測未來。產業安全監管數據依據的是大量經貿數據。大而言之,人類的所有活動幾乎都商品化了,衣食住行、教育娛樂;小而言之,所有法人的經貿生產活動產生的數據,也都達到了大數據的量級,都是產業安全政府監管的題中之義。尋求低成本、高速度、綠色的計算手段,是大數據時代實現產業安全監管數據化的必然選擇。
1.多快好省的云計算
云計算是基于互聯網的超級計算模式,在遠程的數據計算中心,散布在互聯網上的成千上萬臺電腦和服務器連接成一片電腦云,實現了大規模資源整合。云計算具有計算速度快、專業水平高、一直在線、環保節能的優勢。這些特征非常符合產業安全實時監控的技術要求。
我國的云計算已進入實質發展階段,除北京、上海、杭州、無錫、深圳五個試點城市外,各地云計算建設風起云涌,云計算理念深入人心,推動云計算的有形建設已沒有障礙。
云計算大開大合的數據處理特征,對中央政府在應用、示范引導方面十分依賴。企業的逐利本性和生存壓力,決定了其無法完全開放自有數據;區域、部門的行政機構局限性大,一般收集不到海量數據來滿足云計算的經濟規模,即使數據規模夠大,也無法構成的大數據,其權威性、安全性離不開中央政府的授權和監管。而產業安全政府監管的廣泛性和安全性的高端特征,正好能滿足云計算的需要。
2.已具規模的大數據
經過多年發展,我國建立了大量的數據中心。數據中心可分為部門級數據中心、企業級數據中心、互聯網數據中心以及主機托管數據中心等。部門級數據中心以國家作后盾,實力最強。在中辦發布的《2006-2020年國家信息化發展戰略》中,專門強調重視數據中心災難備份建設,增強信息基礎設施和重要信息系統的抗毀能力和災難恢復能力。電力行業、交通行業、保險行業、銀行業等的信息化“十二五”規劃當中,專門強調了要強化數據中心的基礎設施。在這些數據中心沉淀了大量數據,特別是政府統計的數據含金量雖然較高,但開發不足。同時,公眾活動聚集類數據不斷生成,中國互聯網2011年年底持有的數據量1.9EB(1EB約等于4462個美國國會圖書館的數據存儲量),新浪微博每天上傳量超過1億條。另一個數據表明,截至2013年底,我國擁有6.18億互聯網用戶,手機用戶突破12億,互聯網和手機產生的數據正潮涌而來。隨著國人數據收集意識的增強,數據量會日益龐大。我國大數據所具備的量級規模,為將大數據管理引入產業安全監管創造了條件。
3.成熟的數據挖掘術
大數據理論既是海量數據孕育的產物,又是海量數據的解決者。大數據挖掘術在提高計算速度、促進創新、提高預測水平方面,展現了無限的可能性。
常見的數據挖掘技術大致可歸結為關聯規則分析、分類和預測、聚類分析、推薦技術、鏈接分析、孤立點分析、數據演變分析等,這其中很多方法在大數據概念產生前使用已久,不僅在實踐中得到廣泛應用,也給應用方帶來了收益。
要想讓海量數據對產業安全監管產生價值,先要把數據如水般蒸發到“云”上,“云”把數據帶到需要的地方,再把數據在“云”里加工成需要的“雨”。實施起來大致要分成三個方面:上“云”要進行技術規范、下什么“雨”要明確監測對象,云來雨去要不受阻礙。
1.技術規范
要想大數據上“云”,統一技術標準是個基礎。否則,分散的數據無法凝聚成“云”,也就更不能成“雨”。
(1)制定標準,由政府來規定,數據持有者來完成。建立標準這是必須首先完成的,以往的信息是多介質的信息,必須進行電子化,對入庫數據必須標準化、制式化才能進行加工比較。標準化的數據上傳,要由政府平臺歸集、調配資源。
(2)專業分類,由政府來規定,政府根據產業安全需要對數據進行理解。由數據中心進行歸類,完成對數據的粗淘,保證后續精加工數據具有實用性。
(3)建立模型,用于精煉數據。政府建立基準模型,處理商業價值極高的機密數據;同時,政府免費提供工具或推薦模型引導社會從更廣的視野挖掘數據,也接納社會創新模型。
(4)擴散成果,對大數據挖掘成果實施知識產權保護。政府主要將上傳成果用于公益事業,但無權對外發布;如果社會對成果有商業需求,需與成果產出者協議購買。
2.監測對象
監測對象是某一時期,政府在浩瀚的大數據里重點關注的目標。因為社會化的監測,熱點可能十分散亂,政府必須劃出一條主線,既是施政的目標,也是對社會挖掘數據的方向性指引。
當前產業安全監測的對象主要包括:
(1)幼稚產業,是經濟增長的新動力,是后發國家追趕世界先進水平的加速器,重點要關注其價格、技術、專利方面的數據。
(2)戰略產業,是經濟實力的支柱,是穩定、支持其他產業發展的基礎,重點要關注其規模、增速、競爭方面的數據。
(3)規模產業,是經濟穩定器,重點要關注其就業、稅收利潤情況,特別監視該產業利潤率與社會平均利潤率的相對變化。
(4)跨國產業,是產業安全的敏感地帶,需要全面關注技術、經濟指標數據的變化,密切注意價格波動超過2%、數量波動超過3%時的情勢演變。
3.開放數據
大數據只有“全”才能言其大。數據規模達到一定程度,似乎都可以稱為大,事實則不然。大不一定容納事物的全部關系,但是“全”必然包含全部關系,才最有可能在千絲萬縷中揭示出事物的規律或作出預見性判斷。要做到“全”,必須開放,充分的開放數據是激發社會強大創新潛力的前提。
雖然,數據安全讓數據持有者很緊張,但大數據要做的是預測而不是保護本身。事實上,只要數據用于商業銷售,其安全性就是個偽命題。與其積“數”不化,何如與人共享,廣泛的參與度能夠孕育無盡的組合潛力,產生比“數”更有價值的預測結果。
從系統論、控制論角度觀察開放的另一層意義,由于公眾參與,使單向信息擴散有了良好的反饋機制,形成信息交互往來、往復修正的機理,徹底改變了數據單向輸出的低效率和被動性。2009年,門戶網站Data.gov上線,旨在全面開放美國聯邦政府擁有的數據。截至2011年12月,在這個政府主導的數據開放網站上,匯集了1140個應用程序和軟件工具、85個手機插件。其中有近300個應用程序由民間的程序員、公益組織自發開發。截至2012年11月,Data.gov統計的訪問客戶來源國家中,來自中國最多。一方面反映出我國公眾對大數據表現出的積極性,同時也說明我國對數據的開放程度還很不夠。
開放數據必須進行資源整合。由國家安全委員會牽頭,整合各部門資源,選擇云計算服務商,將數據放置云端。
開放數據應是雙向開放終端。大數據是終端取勝的機制,終端數據上傳,會增加數據活性、及時性,通過建立企業報、行業審、國家規制的審查機制,入庫高品質數據。云端數據下載,放手公眾參與,能夠最大限度獲取多重組合的觀察結果,將產業安全尚處萌芽中的隱患消弭于無形。
新技術革命的浪潮是實現信息化。只有對產業體系進行數據化,才能實現信息化。大數據、云計算、互聯網為信息化時代提供了技術基礎,產業安全監管的數據化居于社會信息化管理的塔尖,是信息化時代的縮影。推進產業安全監管的數據化,是全球化、精細化管理產業的要求,也是對國際競爭低烈度對抗的現實回應。
(作者單位:北京交通大學)
編輯:張涵