/北京航天發射技術研究所

大數據浪潮洶涌而來,這不僅僅是信息技術領域的革命,更是全球范圍內加速企業創新的利器,不少公司已經意識到這是一個難得的機遇,都開始采取積極的行動。近年來,中國運載火箭技術研究院通過以戰略綱要為依據,以課題研究為牽引,以知識梳理為核心,以系統建設為支撐,以標準制度為保障,推進知識管理工程,取得了較好的實施效果。那么,如何將大數據與知識管理工作相結合,提升知識管理系統的效用,促進研究院的發展,成為當前必須正視和思考的問題。
數據的歷史極為漫長。戰國時期,著名的《商君書·畫策》中將全國總人口按壯男、壯女、官吏、商人、讀書人、殘疾人等13類分別統計,這就是中國歷史上的“強國知十三數”。古埃及在公元前3000年已經有人口、居民財產統計,尤其是每次修建金字塔之前都會進行全國性的人口普查,以計算可征調的勞動力。
隨著社會的發展進步,人類的數據量不斷增多。與此同時,數據的價值也得到更為廣泛的認可。從20世紀開始到如今,美國政府對于數據的收集、發布、使用和管理,已經形成了一個比較成熟的框架和體系。著名華人歷史學家黃仁宇先生說:“資本主義社會,是一種現代化的社會,它能夠將整個的社會以數目字管理。”2011年,麥肯錫公司以2010年度各國新增的存儲器為基準,對全世界大數據的分布做了一個研究和統計,結果表明:2010年美國新增的數據量為3500拍,歐洲為2000拍,日本400拍,而我國僅為250拍。
所有的信息都以數據的形式保存在物理存儲器上。由于數據量不斷增多,一些新的名詞也被相應定義,如“太”(Terabyte),代表2的40次方。數據的存儲單位見表1。
目前,一首普通MP3格式的流行歌曲大約4兆字節,一部電影大約1吉字節。而1艾字節,相當于13億中國人人手一本500頁書籍的信息量。截至2010年,人類擁有的信息總量大概是1.2澤字節。
大數據指那些大小已經超出了傳統意義上的尺度,一般的軟件工具難以捕捉、管理和分析的大容量數據。一般定義為:需要新處理模式才能處理,具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產,通常以“太字節”為單位;麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征;在《大數據時代》中,大數據指不用隨機分析法(抽樣調查),而采用所有數據進行分析處理。
一是數據的爆炸式增長。
2001年,著名的高德納咨詢公司在研究報告中指出,數據的爆炸是三維的、立體的(見圖1),這3個維度主要表現在:同一類型的數據量在快速增大;數據增長的速度在加快;數據的多樣性,即新的數據來源和新的數據種類在不斷增加。據估計,2000年人類新產生的數據量為1000~2000拍;而2020年僅全球企業一年新存儲的數據量就超過7000拍,全球消費者新存儲的數據量約為6000拍。圖2為麥肯錫全球研究所對美國各行業2009年擁有的數據量估算。

表1 數據的存儲單位

圖1 數據的三維增長

圖2 美國各行業數據存儲量
二是大數據帶來的挑戰與機遇。
經由量變到質變,大數據呈現出許多新的特質。通過對海量數據的交換、整合和分析,發現新的知識并創造新的價值,帶來“大知識、大科技、大利潤和大發展”。麥肯錫在其2011年的報告中指出:“大數據,將成為全世界下一個創新、競爭和生產率提高的前沿”,“已經有越來越多令人信服的證據表明:只要實施正確的政策和激勵,大數據將成為競爭的關鍵性基礎,并成為下一波提高生產率、創新和為消費者創造價值的支柱。”
但是,大數據存在多源異構、分布廣泛、動態增長,先有數據后有模式等特點,這些與傳統數據的不同,使得大數據時代的管理面臨新的挑戰。2010年,美國政府部門向奧巴馬和國會提交了《規劃數字化未來》報告,該報告列舉了5個貫穿各個科技領域的共同挑戰,第一個挑戰就是“數據”問題。報告說:“如何收集、保存、維護、管理、分析、共享正在呈指數級增長的數據,是我們必須面對的一個重要挑戰。”2011年,新加坡成立了德勤數據分析研究所,目的是引領政府和企業對于數據的研究和應用。
三是小數據和最小數據集。
與大數據概念相對應,誕生了小數據和最小數據集的概念。
小數據的定義尚不統一,有人認為以前采用調查方法獲得的抽樣數據,或者是結構化的海量數據是小數據;也有人認為需要新的應用方式才能體現出具有高價值的、個體的、高效率的、個性化的信息資產是小數據。
最小數據集的概念起源于美國的醫療系統,由于其實用性在美國已經演化成一般性的概念,指代國家的管理層面針對某個業務管理領域強制收集的數據指標,其實質是一個業務管理過程當中最重要的數據指標。它在各個公共領域的定義和推廣,成為這些部門在開發設計信息系統時最重要的一個參考,一旦核心的數據收集指標被確定,數據庫的結構設計就成為一個水到渠成的過程。有些最小數據集,甚至直接就被引用并成為信息管理系統的數據結構。
數據的開放。在數據浪潮中,很多人認為無論是代碼還是數據,只有開放,才能集聚群體的智慧、激發創新的力量、放射出更大的價值,真正推動社會的進步;同時,人民有權向政府索取各式各樣的數據。由此,美國和英國先后興起了數據開放運動,并得到時任美國總統奧巴馬和英國首相戈登·布朗的大力支持和推動,美國政府數據開放門戶網站與英國政府數據開放網站先后建立。2011年,美、英等國政府發起成立“開放政府聯盟”這一致力于數據開放和創新的國際組織,其會員迅速增加到50個。
數據可視化。大數據的出現使得數據價值得到了空前的重視,各行各業都在對大數據分析提出需求,數據的分析結果也需要得到更多形式的展示從而被大眾理解。數據可視化技術,可以通過圖像在邏輯思維的基礎上進一步激發人的形象思維和空間想象能力,以吸引并幫助用戶洞察數據之間隱藏的關系和規律,大數據可視化分析逐漸成為潮流和趨勢,乃至出現新一類的專業人才:數據科學家。
云計算和移動云處理。1997年,南加州大學的一位印度裔教授切諾柏正式提出“云計算”的概念。這種通過網絡將計算能力組織起來的做法,可以實現經濟學意義上的“規模化”和“專業化”,引發企業界前赴后繼的嘗試,并得到大規模的商業應用。2011年,美國政府通過云計算的應用,將全國的數據中心合并了137所,并將繼續精簡。隨著4G網絡的興起及手機、平板電腦等移動終端的使用,移動云處理的概念應運而生,未來關于移動數據和移動云處理的研究將會不斷處于熱潮當中。
人工智能與深度學習。傳統的數據表達模型和方法過于簡單與淺層,而大數據能夠支持更為復雜的模型。深度學習在計算機視覺、語音識別和圖片識別上已取得巨大成功,未來深度學習和大數據結合仍會有長足的發展。
知識管理簡言之是企業內知識資產的管理,包括知識獲取、知識交流、知識應用和知識創新等過程。知識管理系統的任務就是對企業的顯性知識和隱性知識進行處理,并把這些知識用一種適合于用戶及商業環境的方式表示出來,以提供給企業員工共享、吸收、利用。它以知識為核心,通過IT等輔助技術協助企業有效地獲取、傳播、共享、利用和創造知識,并為企業創造價值。
時代性。知識管理是在知識經濟時代提出的關于對知識共享問題的管理,具有鮮明的時代性。知識創新是知識管理的目的,知識管理是知識創新的基礎和手段,知識管理理念體現了社會經濟發展向依靠科技進步和提高勞動者素質水平轉移的趨勢。
快速化。資料顯示,20世紀末至21世紀初的十幾年之間,人類所創造的知識總量比人類五千年歷史創造的總量還要大。當知識更新的速度越來越快時,必須讓知識管理的水平跟上知識更新的速度。
人本性。知識是由人創造出來的,習慣、經驗、技術等隱性知識是由廣大員工長期的工作實踐積累下來的,而貢獻知識、共享知識和貢獻出知識的價值更與員工的意愿息息相關。員工對企業有良好的認同感和歸屬感,會不斷主動提高自身的創新能力和創新動力,并將知識無私貢獻給企業。從心理學以及企業文化的角度,關注個體構建開放共享型的文化,有助于企業知識管理。
中國航天事業的發展過程也是一個持續累積知識、推動創新的過程。研究院成立初期,各分院的設計部、研究室組織技術人員學習型號資料,下廠配合生產,選派技術人員跟隨蘇聯專家學習,并把專家的講解整理匯編、印發相關人員學習,大量的隱性知識通過蘇聯專家外溢給了中國本土的專家和技術人員。
1992年載人航天立項時,明確“長征”二號F火箭在“長征”二號E火箭的基礎上進一步研制和完善。“長征”二號E火箭共進行了8次發射,經歷了成功與失敗的考驗,但有了火箭關鍵領域的技術突破作基礎,“長征”二號F火箭在進行1次零高度試驗和4次無人飛船試驗后,實現了“神舟”五號飛船首次載人航天飛行的成功。
大數據和知識管理是2個相對獨立的領域,但數據是知識的源頭,大數據的最終目的是提取知識,二者自誕生之日起就有著千絲萬縷的聯系。大數據背景下的知識管理,有著很多新的特點,這是知識管理本身更新換代的體現,也是大數據技術催生的知識管理革命。
知識管理和大數據都通過提升技術以整合資源,前者著眼于在隱性知識向顯性知識轉化的過程中實現知識創新,后者憑借大數據的處理技術充分挖掘潛在規律。研究表明,數據資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;對于具有互聯網思維的企業而言,數據資產競爭力所占比重為36.8%。數據逐漸成為企業的核心資產,并關系到企業核心競爭力。同樣,知識已成為企業有效運作所需的基礎性資源,以及企業運營管理中最有價值的資產。知識管理可以在一定程度上輔助決策,提升企業的創新能力。數據、信息和知識的區別與聯系,如圖3所示。
大數據帶來種種便利的同時,也逐漸暴露出數據泄露的危害。資料顯示,未來幾年數據泄露的增長率也許會達到100%,每個財富500強企業都會面臨數據攻擊。數據開放過程中,個人隱私數據的保護和“信息過度窄化”等問題也浮出水面。知識管理雖然是企業發展的利器,但相當多的企業投入大量資金運作的知識管理系統并不成功,數據表明,僅有15%企業的知識管理運營成功。在研究和應用過程中,二者都需要摒棄誤區,選擇正確的應用策略。

圖3 數據、信息和知識的區別與聯系
早期企業的知識管理,是以郵件及文檔數據庫為核心的辦公業務自動化管理,其重點在文檔管理,所面臨的信息量和數據量并不多。同時,信息和數據結構多以結構化數據為主。
隨著數據生產和存儲技術的進步,企業產生和存儲的數據激增且有加速增長的趨勢。其中,迅猛增長的圖像與視頻等豐富格式的數據和信息大量涌現。總量大、流量大、格式多樣及處理的及時性,要求企業的知識管理系統具備大容量、極高的運行速度和基于大數據思維的業務流程思考。
被匯總的海量數據,其大部分都是機器自動搜集和組織的,且與傳統人工進行的搜集相比,價值密度會降低。但因數據和信息量呈幾何級數增長,海量數據中所蘊含的價值非常巨大,遠超價值密度低所帶來的負面影響。2014年,谷歌公司公布了在建的“知識庫”,其通過算法自動搜集網上信息,并利用機器學習把數據變成可用知識。
大數據時代的知識管理,不僅能夠替代人們自動地建設知識庫,還能像人類一樣具有智慧去思考和推理,并生產和組織知識。知識管理系統的智能化發展,將把人類從知識管理流程的低端階段中解放出來,從而更專注于高級知識的生產和應用。
《孫子兵法》強調“不可勝在己,可勝在敵”。要做到“低成本、高效率”的運營以及決策正確,企業必須廣泛推行以事實為基礎的決策方法、大量使用數據分析來優化企業的各個運營環節。這種競爭,就是一種基于數據的競爭。數據是信息的載體、知識的源泉,基于知識的競爭,也將集中表現為基于數據的競爭。
按照研究院年度工作要點進行“兩化”融合,加快構建數字化、智能化制造能力體系。未來研究院科研生產將從傳統向“數據驅動”轉型升級,建立從總裝測試到零部組件制造全過程的容差分配體系;實現覆蓋產品設計、生產、試驗、測試全過程數據采集與管控;滿足型號產品質量預判、問題快速定位、質量優化改進等需求。
從數據到知識。數據是對客觀世界的記錄,當我們對數據賦予背景時,它就成為信息;信息是知識的來源,當把信息提煉出規律的時候,它就上升為知識;知識是智能的基礎,當電腦、網絡能夠利用某種知識作出自動識別,采取行動為人類服務時,機器智能就誕生了。
如何將數據、信息轉化為知識。數據變成知識一般需要4個轉化過程,如圖4所示。
一是構建數據倉庫,這是決策支持系統面臨的一個“瓶頸”問題——多個不同運營信息系統產生的數據如何有機整合。通過專門的ETL(Extraction,Transformation,Load)工具,可以將來自企業內外的不同運行平臺、編制語言、物理位置的系統,如財務、人力、客戶管理系統等數據按照統一的格式提取出來,再進行清洗、轉換、集成,加載進入數據倉庫。

圖4 數據的轉化
二是聯機分析,也稱多維分析,是指把分立的數據庫“相聯”,進行多維度的分析。
三是數據挖掘,發現潛藏在數據表面之下的歷史規律并對未來進行預測。數據挖掘把數據分析的范圍從“已知”擴大到“未知”,從“過去”推向“將來”。
四是數據可視化,把海量數據中隱藏的知識展示出來,把復雜的數據轉化為直觀的圖形,呈現給最普通的用戶。
技術變革推動了社會變革,大數據在很大程度上改變了商業領域和體育運動領域的決策過程,但其它領域的應用還處在一個開始的階段。
企業要實施數據驅動的決策方法,不僅需要新的技術,還要改變目前的決策過程并施行制度創新。在大數據時代,傳統層層授權的縱向分級制與環環相扣的流程管理,基于層級的社會控制手段將不再適用,基于流程的管理方法也有很大的局限性。開放的數據和每一位員工之間都是等距的,而且中間沒有層級的過濾。數據的開放和流動,意味著知識的開放和流動、代表著權力的開放和流動,是多中心的、多水平的。用數據來決策、管理與創新,是一種進步,也是一種挑戰。
大數據是知識管理繞不開的時代主題,基于大數據技術,需要重新定位知識管理的業務流程。積極應用大數據的各類實用技術,將推動知識管理提高綜合集成水平,提升運行水平和效率。大數據與知識管理系統的協同,如圖5所示。
1947年,卡內基梅隆大學的赫伯特·西蒙教授出版了《行政組織的決策過程》。他指出人類的理性都是有限的,因此所有的決策都是有限理性的結果。這位天才科學家繼而提出,如果能利用存儲在計算機里的信息來輔助決策,人類理性的范圍將會擴大,決策的質量就能提高。

圖5 大數據與知識管理系統的協同
質量管理專家戴明說:“除了上帝,任何人都必須用數據來說話。”現代管理學之父德魯克說:“預測未來最好的辦法,就是去創造未來。”大數據的時代,意味著更精準、更高效、更智能的管理革命。未來,數據興則企業興,數據強則企業強。▲