
經過多年的技術積累,久其不斷優化應用和底層核心技術,并且擁有豐富的、自主知識產權的大數據應用平臺及工具產品。
—北京久其軟件股份有限公司CTO傅士光
根據IDC的數據,在數據大爆炸時代,我們利用的數據如滄海一粟。在海量的數據中,公共事業、政府、教育還有媒體、醫療保健這類數據每年的占比基本都在93%以上,而在這里面中也有大概82%以上的數據是非結構化的數據。到2020年,基本上平均每個人每分鐘要產生1.7兆數據。在數據爆炸時代的背景下,我主要想談以下幾點內容:當前的新時代是什么?久其軟件在新時代定位是什么?久其在新時代、新時期基于產品行業解決方案為用戶做了哪些實踐等。
從國家層面看,近年來國家基于互聯網、大數據和人工智能與實體經濟深度融合的發展,出臺了很多相關政策并作出了實際的支持、推動。
在數據大爆炸時代我們發現了新的“四化”,是哪“四化”呢?其中包括世界數字化、數據資產化、連接全球化、應用智能化。
當然,提供智能化應用的時候僅僅考慮國內是不行的,需要跟全球來進行連接,并且要結合底層技術以及平臺工具,最終為我們客戶去賦能解決企業的問題。
久其的大數據戰略,不同于業內傳統廠商。久其是一家具有橫跨多條技術路線的、為客戶賦能的綜合性大數據服務提供商。經過多年的技術積累,久其不斷優化應用和底層核心技術,并且擁有豐富的、自主知識產權的大數據應用平臺及工具產品。未來,久其大數據將深耕于此,在保持行業影響力的基礎上,做大、做深、做強。
久其從1997年成立到現在,擁有很強的綜合實力,歸納起來總共有8大能力,分別數據采集、建模管理、數據集成交換、存儲處理以及數據資產可視化、智能挖掘和數據質量管控。久其大數據能力也從傳統統計分析延伸到了模式概括和知識發現,結構化數據分析延伸到了非結構化的文本數據,輔助理解的數據可視化分析延伸到便捷化和智能化分析能力。
引入進來各種各樣的數據之后,該通過什么樣的數據治理方案來處理?久其有一個自主研發的、基于大數據戰略的數據庫,名叫Bi g DB。各種數據匯集到我們這個數據平臺之后,可以通過調用各種數據挖掘的算法來對這些數據進行處理,尤其是文本和視頻類的非結構化數據。對接入的數據進行結構化之后,就可以進入到大數據庫,然后緊接著進入各種主題數據分析庫。在數據資產管理和管控方面,我們可以提供可視化的數據底層或大數據應用。從數據采集這塊看,我們跟政府和交通部門合作的時候,我們對物聯網的數據也有一套完整的架構,數據通過各種方式采集進來之后,可以通過Fl i nk流處理引擎進行處理,實時性非常高。
有了各種各樣的互聯網的文本數據、視頻數據,還有傳統政府里面數據庫的數據之后,需要一個強大的數據資產管理平臺,真正把數據變成資產,并且能實現把整個自己的數據系統管理起來。這樣從產品角度看,將來找數據的時候就很方便了,可以去搜索查找這些數據,數據找到之后,可以在資產平臺上看到數據有什么特征,也可以做簡單分析。實現數據資產管理之后,各個部門之間需要對數據進行交換,我們也提供了完整的數據交換平臺,包括從各個系統的源端、各個系統目標端,以及為中間的流通提供了各種各樣的監控、授權,從而達到交換的質量保證、安全保證和脫敏。
在大數據之外,久其也發現越來越多的客戶需要結合AI來分析處理數據,進而真正幫他解決各種各樣的問題。久其也在這一兩年做了一些實踐和探索,主要是在三大領域:一是財務領域,實現智能報賬、客戶預測、智能審核。二是視頻領域,有文本要素抽取、視頻分析、視頻數據結構化。三是創新應用方面,包括法院智能分析、信訪智能分析、智慧監獄等。
通過對法院裁判文書這方面的了解,我們發現大部分的法院中,裁判文書基本都是以文本化的數據呈現,因此,后續的分析和應用非常困難。我們通過AI算法,把這些數據變成類似結構化的數據,后續的分析就變得更加容易。
在醫療領域,最有價值的有兩部分數據,一是住院病例數據,另一個是診斷中的影像數據。我們對住院病例采用AI的算法分析,首先把病癥、診斷,病史這些信息提取出來,然后將這些文本數據進行結構化處理。結構化之后采用深度學習的算法再進行分析,我們發現這樣的提取準確率非常高。在此基礎上我們跟協和醫院合作,對腹主動脈瘤的形成動因有了充分了解,并且還分析到這些疾病跟日常的生活習慣之間的聯系,價值很大。
關于智能分析的思考,在特定的一些行業里面,用戶可能把各種各樣的分析報表做好了,并且打上了標簽,做到了從語義理解這個角度去分析,包括整個完整的數據進來之后可以建立知識圖譜,可以將真正想要的數據自動化組織和呈現。另外,我們在視頻處理方面做了大量結構化的工作,包括搭建視頻分析引擎,這些同樣也是把視頻對應的數據結構化出來再做數據調取,價值判斷和分析。