董智鵬 常志軍 張建勇 錢力
(中國科學院文獻情報中心,北京 100190)
NSTL發展規劃的智能知識服務需要深入的數據挖掘、語義計算、深度學習等技術進行強有力的支持。NSTL經過近20年的發展,已形成了海量的多來源、多類型的文獻元數據庫,當前采用的存儲技術和管理技術相對比較傳統,數據管理成本較高,橫向擴展與彈性收縮較差,已不能滿足業務對數據的應用需求,亟須引進具有良好擴展特性的開源大數據生態圈技術,建設大數據管理與計算平臺。形成統一化、規范化、智能化的數據業務管理體系,提高業務運行效率,支持海量文獻元數據的集中管理和計算業務,提高數據管理的效率,擴展數據間的關系,強化數據的關聯度,以適應NSTL從文獻服務向知識服務轉變的發展戰略。
傳統數據管理流程采用聯機事務處理(OLTP)機制進行數據交互,在大規模處理數據時,存儲與計算瓶頸凸顯。針對NSTL業務流程再造目標分析,數據管理流程需要滿足海量多來源異構數據匯聚、融合、計算等大吞吐量操作,所以需對傳統數據管理流程進行改造與優化,采用聯機分析處理(OLAP)機制,提高數據計算效率、數據計算精度,有利于支撐數據產品研發。
NSTL業務流程再造目標對數據業務中的數據管理流程提出3個主要任務。首先,需滿足多來源、多類型、海量的數據資源的采集、發現、評估、共享與合作等;其次,滿足集成數據匯聚、數據融合、數據增值計算、名稱規范、語義標注和知識標引等,實現數據全生命周期的管理;……