丁海斌 趙錦濤/廣西民族大學(xué)管理學(xué)院、廣西數(shù)字檔案管理研究所
隨著社會(huì)信息化的深入發(fā)展,各主體單位越來(lái)越普遍地使用網(wǎng)絡(luò)系統(tǒng)處理公文和各種業(yè)務(wù)文件。各單位業(yè)務(wù)活動(dòng)具有多元性,它們需要制作和運(yùn)行多種業(yè)務(wù)系統(tǒng)來(lái)開(kāi)展各種業(yè)務(wù)活動(dòng),由此增量電子文件不斷產(chǎn)生與積累。在這種情況下,電子文件的形成具有零散性、多源性、異構(gòu)性等特征,類型也是多元的。因此,數(shù)據(jù)集成就成為解決多源形成的復(fù)雜電子文檔管理問(wèn)題的重要手段和方式。
數(shù)據(jù)集成的主要目標(biāo)是集成多種信息源數(shù)據(jù),其具體做法主要是按照邏輯和物理規(guī)范進(jìn)行多源數(shù)據(jù)集成,形成一個(gè)包含不同特征數(shù)據(jù)集的新的更高層次的數(shù)據(jù)集。而形成電子檔案新數(shù)據(jù)集的目的既在于實(shí)行電子檔案整體化集中管理,更在于實(shí)現(xiàn)集成化的檔案數(shù)據(jù)的智能化應(yīng)用。因此,在電子檔案數(shù)據(jù)集成應(yīng)用不斷發(fā)展的背景下,對(duì)檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景的研究變得越來(lái)越重要、越來(lái)越急迫。
檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景研究是以檔案管理系統(tǒng)為基礎(chǔ),以用戶需求作為導(dǎo)向,結(jié)合大數(shù)據(jù)分析、可視化、區(qū)塊鏈數(shù)據(jù)關(guān)聯(lián)等數(shù)據(jù)技術(shù)與集成化檔案數(shù)據(jù)集,探究集成化檔案數(shù)據(jù)能夠?qū)崿F(xiàn)的新功能與新用途。檔案數(shù)據(jù)集成背景下的各種應(yīng)用場(chǎng)景的開(kāi)發(fā)、創(chuàng)新與推廣,可以提高檔案的智能化管理,深化數(shù)據(jù)共享,形成多元化的共享利用模式,推動(dòng)電子檔案數(shù)據(jù)的智能化價(jià)值挖掘。
基于社會(huì)需要和現(xiàn)有研究之不足,本文在檔案數(shù)據(jù)集成背景下以公路建設(shè)項(xiàng)目檔案管理系統(tǒng)為例,較全面地探究各種檔案數(shù)據(jù)集成的應(yīng)用場(chǎng)景,推動(dòng)電子檔案數(shù)據(jù)集成系統(tǒng)智能化應(yīng)用水平的提升和相關(guān)理論研究的深化。
目前,對(duì)于檔案集成數(shù)據(jù)應(yīng)用場(chǎng)景的相關(guān)研究,主要表現(xiàn)在數(shù)據(jù)集成技術(shù)實(shí)現(xiàn)的文章中。數(shù)據(jù)集成技術(shù)與電子檔案管理聯(lián)系日益密切,但電子檔案數(shù)據(jù)集成尚未形成統(tǒng)一的概念。因此,本文從數(shù)據(jù)集成角度結(jié)合電子文檔的特征,以多元異構(gòu)數(shù)據(jù)源和先進(jìn)技術(shù)為基礎(chǔ),從檔案形成所涉及的業(yè)務(wù)流程和主體為出發(fā)點(diǎn),將電子檔案數(shù)據(jù)集成定義為:按照電子檔案集中管理模式,對(duì)檔案管理所涉及的內(nèi)容、環(huán)節(jié)、業(yè)務(wù)按照其流程進(jìn)行有機(jī)的融合和優(yōu)化,把來(lái)源于不同業(yè)務(wù)系統(tǒng)的不同格式、內(nèi)容、特點(diǎn)與性質(zhì)的檔案數(shù)據(jù)在邏輯上或物理上進(jìn)行有機(jī)地集中,形成新的集成化的檔案數(shù)據(jù)集,從而為集成化的電子檔案管理與應(yīng)用提供基礎(chǔ)。

圖1:公路檔案數(shù)據(jù)集成框架
研究發(fā)現(xiàn),到目前為止檔案數(shù)據(jù)集成情景下的應(yīng)用場(chǎng)景主要在醫(yī)療服務(wù)和企業(yè)活動(dòng)中體現(xiàn)得較多。目前,數(shù)據(jù)集成技術(shù)已經(jīng)比較成熟,在大型工程項(xiàng)目、醫(yī)療行業(yè)、金融企業(yè)等均有應(yīng)用。其應(yīng)用場(chǎng)景主要包括集成數(shù)據(jù)的共享與利用、可視化檔案展示與統(tǒng)計(jì)分析、檔案數(shù)據(jù)多維溯源以及專業(yè)檔案知識(shí)庫(kù)建設(shè)等。但是,在理論方面,數(shù)據(jù)集成視角下應(yīng)用場(chǎng)景的系統(tǒng)化探索與分析的文章還很缺乏,因此限制了檔案數(shù)據(jù)集成基礎(chǔ)上的應(yīng)用場(chǎng)景的不斷開(kāi)發(fā)與拓展。
從醫(yī)療產(chǎn)業(yè)方面來(lái)看,檔案數(shù)據(jù)集成的應(yīng)用場(chǎng)景主要在實(shí)現(xiàn)醫(yī)療數(shù)據(jù)的可視化展示以及數(shù)據(jù)之間的關(guān)聯(lián)性統(tǒng)計(jì)分析。在《面向精準(zhǔn)醫(yī)療服務(wù)的患者檔案數(shù)據(jù)采集與分析》[1]一文中,檔案集成化的數(shù)據(jù)主要應(yīng)用在患者檔案數(shù)據(jù)的可視化呈現(xiàn)、分析以及患者檔案畫像評(píng)估。把檔案數(shù)據(jù)集成轉(zhuǎn)換為可靠的醫(yī)學(xué)知識(shí)體系,指導(dǎo)精準(zhǔn)醫(yī)療開(kāi)展的全過(guò)程,從而實(shí)現(xiàn)精準(zhǔn)預(yù)防、精準(zhǔn)醫(yī)藥、精準(zhǔn)治療。在《區(qū)域健康醫(yī)療數(shù)據(jù)集成模式研究與實(shí)現(xiàn)》[2]一文中,通過(guò)構(gòu)建數(shù)據(jù)集成的系統(tǒng)整合數(shù)據(jù)后,應(yīng)用主要在醫(yī)療數(shù)據(jù)分析與結(jié)果可視化,運(yùn)用統(tǒng)計(jì)分析和關(guān)聯(lián)規(guī)則分析探究數(shù)據(jù)之間的關(guān)聯(lián)性。
從企業(yè)的應(yīng)用場(chǎng)景來(lái)看,集成化數(shù)據(jù)的應(yīng)用場(chǎng)景主要體現(xiàn)在數(shù)據(jù)的高效檢索、查詢與利用以及為提高其科研水平等方面。2019年11月,首鋼集團(tuán)有限公司礦業(yè)公司(以下簡(jiǎn)稱“首鋼礦業(yè)公”司)基于檔案數(shù)據(jù)集成的檔案管理系統(tǒng)投入使用,它的主要應(yīng)用場(chǎng)景是實(shí)現(xiàn)單點(diǎn)登錄、數(shù)據(jù)直達(dá),確保公司內(nèi)部檔案信息資源共享。檔案管理人員在進(jìn)行報(bào)表管理時(shí),可以直接調(diào)取前期數(shù)據(jù)繼承使用,提高公司數(shù)據(jù)的使用效率[3]。2021年,中國(guó)石油華北油田公司檔案中心公布其建設(shè)“互聯(lián)網(wǎng)+油氣采掘”新業(yè)態(tài),構(gòu)建了以華北油田地質(zhì)數(shù)據(jù)資源池為核心的地質(zhì)檔案大數(shù)據(jù)綜合集成開(kāi)發(fā)利用體系,集成化數(shù)據(jù)的應(yīng)用在地質(zhì)資料信息數(shù)據(jù)遠(yuǎn)程智能檢索與查詢以及在科研部門提供信息智能個(gè)性化推送服務(wù)。檔案數(shù)據(jù)集成不僅提高了其檔案數(shù)據(jù)的管理水平,也為科研生產(chǎn)提供專業(yè)的服務(wù)。
在數(shù)據(jù)集成情境下,檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景的特點(diǎn)呈現(xiàn)多樣性、專業(yè)性以及個(gè)性化等。以用戶需求為目標(biāo)驅(qū)動(dòng)的應(yīng)用場(chǎng)景結(jié)合現(xiàn)代技術(shù)能夠推動(dòng)實(shí)現(xiàn)知識(shí)型、專業(yè)型信息服務(wù),滿足用戶多樣化和個(gè)性化信息需求,提高檔案數(shù)據(jù)集成服務(wù)的深度和質(zhì)量。
2.1.1 應(yīng)用場(chǎng)景的多樣性
檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景以海量性、異構(gòu)性、多樣性集成化數(shù)據(jù)為基礎(chǔ)。首先,檔案數(shù)據(jù)應(yīng)用場(chǎng)景所涉及的業(yè)務(wù)流程和主體是多元的,其應(yīng)用通過(guò)全局模式對(duì)檔案管理所涉及的內(nèi)容、環(huán)節(jié)、業(yè)務(wù)按照其流程進(jìn)行有機(jī)的融合和優(yōu)化形成多樣化的信息資源體系。由于它涉及的環(huán)節(jié)、流程眾多,以及日常工作中產(chǎn)生結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)形式,整個(gè)過(guò)程是動(dòng)態(tài)變化的,因此檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景的實(shí)現(xiàn)是復(fù)雜多樣的。同時(shí),檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景實(shí)現(xiàn)屬于資源密集型工作,要求以實(shí)用為導(dǎo)向,并且堅(jiān)持全面覆蓋的原則。如,公路項(xiàng)目(見(jiàn)圖1)中產(chǎn)生的檔案包括傳統(tǒng)的紙質(zhì)檔案、圖表、圖片等內(nèi)容,也有電子記錄方式產(chǎn)生的視頻錄像、仿真模型等,形成的數(shù)據(jù)量大且其呈現(xiàn)出多源異構(gòu)的特點(diǎn)。其次,數(shù)據(jù)集成不僅體現(xiàn)在數(shù)據(jù)方面,而且在數(shù)據(jù)管理過(guò)程中,還延伸到人員、管理制度、業(yè)務(wù)過(guò)程、平臺(tái)與技術(shù)、安全集成等諸多方面。在此基礎(chǔ)上,結(jié)合新型現(xiàn)代技術(shù)能夠?qū)崿F(xiàn)多種應(yīng)用場(chǎng)景。
2.1.2 應(yīng)用場(chǎng)景的專業(yè)性
一般來(lái)說(shuō),應(yīng)用場(chǎng)景的實(shí)現(xiàn)會(huì)指向某一個(gè)具體的業(yè)務(wù)或?qū)I(yè)。運(yùn)用若干個(gè)有序的集成化數(shù)據(jù),結(jié)合分析策略能夠形成專業(yè)化的知識(shí)服務(wù)。現(xiàn)在常用的技術(shù)工具有人工智能技術(shù)和開(kāi)源軟件等,運(yùn)用機(jī)器學(xué)習(xí),提高處理高維非結(jié)構(gòu)化數(shù)據(jù)的能力,把多種關(guān)系數(shù)據(jù)庫(kù)、XML數(shù)據(jù)庫(kù)、文件系統(tǒng)等不同的數(shù)據(jù)源的數(shù)據(jù)構(gòu)建數(shù)據(jù)網(wǎng)絡(luò),實(shí)現(xiàn)大規(guī)模多源異構(gòu)數(shù)據(jù)的融合管理。通過(guò)數(shù)據(jù)集成形成的數(shù)據(jù)集會(huì)嚴(yán)格按照明確、統(tǒng)一的規(guī)定進(jìn)行有序的存儲(chǔ)。不僅有效解決數(shù)據(jù)之間復(fù)雜的依賴關(guān)系,而且方便數(shù)據(jù)的清洗、轉(zhuǎn)換、抽取、融合等,以及支持多維聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘[4]。
2.1.3 應(yīng)用場(chǎng)景的個(gè)性化
數(shù)據(jù)集成形成有序的檔案信息資源池,它能夠以利用者的需求為目標(biāo)驅(qū)動(dòng),篩選和組織利用者所需數(shù)據(jù)進(jìn)行展示。信息化社會(huì)中數(shù)據(jù)規(guī)模持續(xù)膨脹,通過(guò)數(shù)據(jù)集成技術(shù)工具,能夠有效緩解數(shù)據(jù)無(wú)序的狀態(tài)。首先,檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景會(huì)涉及元數(shù)據(jù)方法、本體方法、關(guān)聯(lián)數(shù)據(jù)方法以及數(shù)據(jù)模型方法等多種關(guān)聯(lián)和分析形式。其核心是把數(shù)據(jù)按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)化,通過(guò)兩兩之間不同的關(guān)聯(lián)進(jìn)行映射,建立異構(gòu)數(shù)據(jù)與數(shù)據(jù)模型之間的映射關(guān)系,通過(guò)可視化技術(shù)挖掘與利用者需求相關(guān)的潛在信息價(jià)值。其次,檔案數(shù)據(jù)集成應(yīng)用場(chǎng)景是動(dòng)態(tài)變化,基礎(chǔ)數(shù)據(jù)源是不斷增加,每個(gè)不同的階段會(huì)產(chǎn)生多種多樣的數(shù)據(jù)。因此,在具體的應(yīng)用中,要求信息技術(shù)能夠克服基礎(chǔ)數(shù)據(jù)源不斷增加和動(dòng)態(tài)變化的特征,從中抽取出利用者所需的信息數(shù)據(jù),實(shí)現(xiàn)“按需”分析。
2.2.1 有利于與新技術(shù)結(jié)合
先進(jìn)的技術(shù)為平臺(tái)的建設(shè)提供保障,檔案數(shù)據(jù)集成注重應(yīng)用需求和能力相結(jié)合,避免技術(shù)水平與實(shí)際應(yīng)用脫節(jié),保障檔案數(shù)據(jù)集成管理的持續(xù)性和穩(wěn)定性。集成化檔案數(shù)據(jù)集作為基礎(chǔ)數(shù)據(jù)在應(yīng)用場(chǎng)景中發(fā)揮作用,通過(guò)實(shí)際應(yīng)用分析對(duì)檔案數(shù)據(jù)集成進(jìn)行評(píng)估和改進(jìn)。云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等先進(jìn)的技術(shù)能夠便利地和集成化數(shù)據(jù)相結(jié)合,有利于形成大規(guī)模且有序的決策分析系統(tǒng),探索更加靈活、高效的技術(shù)模型與分析框架,為構(gòu)建可視化、規(guī)模化、精準(zhǔn)化的信息服體系提供數(shù)據(jù)支撐,有利于滿足現(xiàn)代化、信息化建設(shè)的需要。
2.2.2 支持多類型終端應(yīng)用
集成化數(shù)據(jù)有利于推動(dòng)檔案數(shù)據(jù)集成行業(yè)分析、應(yīng)用范式形成,具有潛在價(jià)值和推廣價(jià)值。集成化數(shù)據(jù)能更好地兼容不同設(shè)備、不同操作系統(tǒng)、不同數(shù)據(jù)庫(kù)以及開(kāi)發(fā)工具的應(yīng)用,具有更加強(qiáng)大的數(shù)據(jù)兼容和數(shù)據(jù)轉(zhuǎn)換能力,為多種類型終端的應(yīng)用提供便利條件。檔案數(shù)據(jù)集成的過(guò)程能夠更深入了解集成化數(shù)據(jù)的內(nèi)容,更加全面把握檔案數(shù)據(jù)形成的規(guī)律。在此基礎(chǔ)上,把數(shù)據(jù)科學(xué)、信息系統(tǒng)、情報(bào)學(xué)等技術(shù)與方法以及各個(gè)行業(yè)的需求進(jìn)行結(jié)合,梳理其在行業(yè)內(nèi)的動(dòng)態(tài)關(guān)系與內(nèi)在機(jī)理,有利于構(gòu)建某行業(yè)典型的檔案數(shù)據(jù)集成的應(yīng)用范式。
2.2.3 構(gòu)建一體化數(shù)據(jù)中心
數(shù)據(jù)中心職能是存儲(chǔ)和處理數(shù)據(jù),檔案數(shù)據(jù)集成在數(shù)據(jù)中心的運(yùn)轉(zhuǎn)下進(jìn)行集成和服務(wù)。數(shù)據(jù)集成的研究已經(jīng)從注重準(zhǔn)確率向提高算法效率和處理復(fù)雜數(shù)據(jù)的類型轉(zhuǎn)變[5]。大數(shù)據(jù)時(shí)代帶來(lái)的主要問(wèn)題之一是數(shù)據(jù)質(zhì)量問(wèn)題,低質(zhì)量的數(shù)據(jù)影響算法的準(zhǔn)確性和決策精準(zhǔn)性。因此,檔案數(shù)據(jù)集成是在不斷優(yōu)化集成模式上,通過(guò)多次數(shù)據(jù)清洗,形成的高質(zhì)量的集成化數(shù)據(jù)。其次,在集成的過(guò)程中有統(tǒng)一的元數(shù)據(jù)建設(shè)標(biāo)準(zhǔn)、電子資源建設(shè)標(biāo)準(zhǔn)以及嚴(yán)格的檔案數(shù)據(jù)評(píng)估流程。檔案數(shù)據(jù)集成能夠解決數(shù)據(jù)資源之間無(wú)序、分散、異構(gòu)的矛盾,建立有效檔案數(shù)據(jù)集成策略,形成的數(shù)據(jù)是多維度、相互關(guān)聯(lián)的有機(jī)整體。
檔案數(shù)據(jù)集成擴(kuò)展了數(shù)字檔案的應(yīng)用場(chǎng)景。面向多元、差異化的應(yīng)用場(chǎng)景,檔案數(shù)據(jù)集成可針對(duì)任何業(yè)務(wù)的特定需求靈活配置集成的數(shù)據(jù)資源,從而滿足不同行業(yè)、業(yè)務(wù)場(chǎng)景對(duì)數(shù)據(jù)集差異化的需求,這極大地拓展了檔案數(shù)據(jù)的應(yīng)用范圍和場(chǎng)景。
3.1.1 場(chǎng)景一:高效社會(huì)治理
高效社會(huì)治理需要處理龐大的數(shù)據(jù)量,檔案數(shù)據(jù)集成將形態(tài)各異的檔案轉(zhuǎn)化為可以量化的數(shù)據(jù),通過(guò)明確規(guī)定、統(tǒng)一保存形成的數(shù)據(jù)。依據(jù)單套制標(biāo)準(zhǔn),建設(shè)形成的檔案數(shù)據(jù)庫(kù)是多元化、多主體、多維度的結(jié)構(gòu)型數(shù)據(jù)庫(kù),為社會(huì)治理創(chuàng)造有利條件。云計(jì)算強(qiáng)大的數(shù)據(jù)處理中心與集成化數(shù)據(jù)結(jié)合,能夠?qū)崿F(xiàn)內(nèi)部信息之間交流與共享,有效實(shí)現(xiàn)各種數(shù)據(jù)資源間的整合,按照需求分配資源。
場(chǎng)景描述:社會(huì)治理過(guò)程中會(huì)出現(xiàn)各部門之間的信息孤島、信息真空、信息滯后現(xiàn)象,需要及時(shí)的信息共享與反饋,針對(duì)社會(huì)危害事件處理不及時(shí)、反應(yīng)不迅速等場(chǎng)景出現(xiàn)。運(yùn)用檔案數(shù)據(jù)集成方式打破條塊化、碎片化的管理模式,通過(guò)跨部門、跨層級(jí)、跨領(lǐng)域等多跨協(xié)同機(jī)制,重塑社會(huì)管理內(nèi)部運(yùn)行機(jī)制、制度鏈接機(jī)制、多元社會(huì)主體的溝通機(jī)制,逐步解決當(dāng)前社會(huì)中存在的系統(tǒng)性、結(jié)構(gòu)性問(wèn)題。
特性與競(jìng)爭(zhēng)力:運(yùn)用云計(jì)算技術(shù)對(duì)社會(huì)治理中龐大的數(shù)據(jù)進(jìn)行處理、傳輸,搭建虛擬化存儲(chǔ)利用平臺(tái),使系統(tǒng)具有完備的數(shù)據(jù)計(jì)算能力、數(shù)據(jù)存儲(chǔ)能力、數(shù)據(jù)傳輸能力、數(shù)據(jù)安全能力和應(yīng)用擴(kuò)展能力。通過(guò)給數(shù)據(jù)賦能,化解在社會(huì)公共管理過(guò)程中重難點(diǎn)問(wèn)題,使多部門協(xié)同合作實(shí)現(xiàn)動(dòng)態(tài)化、細(xì)分化、精準(zhǔn)化管理。把零散、多元、異構(gòu)的檔案數(shù)據(jù),利用大數(shù)據(jù)技術(shù)按照“統(tǒng)一平臺(tái)、存量共享、邏輯集中”的原則,彌合數(shù)據(jù)縫隙形成數(shù)據(jù)云、數(shù)據(jù)集等存儲(chǔ)在數(shù)據(jù)庫(kù)中,緩解各主體面臨的數(shù)據(jù)膨脹的壓力,擴(kuò)展了其保存的數(shù)據(jù)種類和數(shù)據(jù)量,提升了檔案管理部門的管理能力和服務(wù)能力[6]。
3.1.2 場(chǎng)景二:檔案知識(shí)庫(kù)建設(shè)
檔案知識(shí)數(shù)據(jù)庫(kù)以數(shù)字化檔案數(shù)據(jù)為基礎(chǔ),面向用戶提供的知識(shí)服務(wù)主要是檔案知識(shí)檢索和個(gè)性化定制的參考咨詢服務(wù)。能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)分析、控制信息而更好的感知知識(shí)。集成化的檔案數(shù)據(jù)資源完整地記錄了電子檔案形成到歸檔保存以及利用的整個(gè)流程,形成的電子檔案數(shù)據(jù)庫(kù)是檔案知識(shí)庫(kù)的基礎(chǔ)數(shù)據(jù)源。
場(chǎng)景描述:把可視化檔案技術(shù)應(yīng)用到檔案知識(shí)數(shù)據(jù)庫(kù)的構(gòu)建中,不僅能夠?qū)崿F(xiàn)數(shù)據(jù)的語(yǔ)義檢索,也可以向用戶提供細(xì)粒度、結(jié)構(gòu)化的檢索服務(wù)。此外,基于數(shù)據(jù)集成構(gòu)建的數(shù)據(jù)庫(kù)有利于實(shí)現(xiàn)檔案數(shù)據(jù)間的知識(shí)聚合與語(yǔ)義組織,構(gòu)建基于數(shù)據(jù)關(guān)聯(lián)的知識(shí)圖譜,實(shí)現(xiàn)相關(guān)數(shù)據(jù)間的相互聯(lián)結(jié),進(jìn)行檔案數(shù)據(jù)集成的深度開(kāi)發(fā)與挖掘,最終構(gòu)建一個(gè)集成化數(shù)據(jù)的檔案知識(shí)網(wǎng)絡(luò)。
特性與競(jìng)爭(zhēng)力:檔案數(shù)據(jù)集成情境下形成的集成化數(shù)據(jù)集具有高質(zhì)量、多樣化、有序化特點(diǎn),與建設(shè)檔案知識(shí)庫(kù)的基礎(chǔ)數(shù)據(jù)源要求基本一致。借助5G、大數(shù)據(jù)技術(shù)、物聯(lián)網(wǎng)等現(xiàn)代技術(shù),實(shí)現(xiàn)資源整合和知識(shí)組織,能夠有效輔助專家決策對(duì)信息資源需求[7]。
3.1.3 場(chǎng)景三:數(shù)字檔案信任體系構(gòu)建
檔案信息化建設(shè)過(guò)程中,數(shù)字檔案已經(jīng)成為重要的載體。防止數(shù)據(jù)被非法訪問(wèn)、惡意篡改等已經(jīng)成為重要的問(wèn)題。在集成化數(shù)據(jù)中引入?yún)^(qū)塊鏈技術(shù),保證數(shù)據(jù)的真實(shí)性不受篡改,去中心化的分布式系統(tǒng)可以避免數(shù)據(jù)丟失。
場(chǎng)景描述:區(qū)塊鏈技術(shù)支持分布式存儲(chǔ)。在集成化數(shù)據(jù)集中將形成的數(shù)據(jù)分布到多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)之間通過(guò)加密協(xié)議進(jìn)行傳輸和通訊,在數(shù)據(jù)集成的基礎(chǔ)上,各個(gè)節(jié)點(diǎn)不受地域和空間限制,在邏輯上又能夠重新構(gòu)成一個(gè)整體,相互驗(yàn)證與備份,能夠保障數(shù)據(jù)的存儲(chǔ)安全[8]。
特性與競(jìng)爭(zhēng)力:在集成化數(shù)據(jù)集中引入?yún)^(qū)塊鏈技術(shù)進(jìn)行分布式存儲(chǔ),形成一個(gè)分布式、虛擬化、分散性的網(wǎng)絡(luò),使數(shù)字檔案存儲(chǔ)更加安全可靠。同時(shí)區(qū)塊鏈技術(shù)為數(shù)字檔案構(gòu)建安全信任體系提供技術(shù)支撐,使整個(gè)數(shù)字檔案在其生命周期內(nèi)可被追溯,充分保障數(shù)據(jù)的保管與存儲(chǔ)。
3.2.1 場(chǎng)景一:可視化檔案展示
可視化檔案展示是基于物聯(lián)網(wǎng)技術(shù)的檔案感知方式。具體而言,在集成化數(shù)據(jù)的基礎(chǔ)上,把檔案數(shù)據(jù)資源、檔案用戶、檔案管理者等連接起來(lái),實(shí)現(xiàn)一個(gè)全面的物聯(lián)網(wǎng),使各個(gè)數(shù)據(jù)能夠被及時(shí)地感知,并對(duì)其進(jìn)行關(guān)聯(lián)處理。
場(chǎng)景描述:利用可視化技術(shù),實(shí)現(xiàn)集成化數(shù)據(jù)的可視化展示。集成化數(shù)據(jù)能夠從多視角對(duì)信息進(jìn)行增強(qiáng),也可以對(duì)相似性信息進(jìn)行補(bǔ)充,從而形成完整的數(shù)據(jù)集[9]。依據(jù)檔案集成化數(shù)據(jù)的資源特征,結(jié)合檔案主題、檔案人員主體、檔案資源類型、檔案形成時(shí)間、檔案類型等屬性,構(gòu)建兩個(gè)不同屬性之間的關(guān)聯(lián)關(guān)系,把幾何數(shù)據(jù)和非幾何數(shù)據(jù)的各類信息進(jìn)行補(bǔ)充和完善,從而為實(shí)現(xiàn)個(gè)性化信息服務(wù)奠定基礎(chǔ)。
特性與競(jìng)爭(zhēng)力:在檔案領(lǐng)域利用可視化模型,構(gòu)建面向復(fù)雜多樣的檔案數(shù)據(jù)資源的知識(shí)組織,提供集成化數(shù)據(jù)的規(guī)范化表示,實(shí)現(xiàn)錯(cuò)綜復(fù)雜的數(shù)據(jù)關(guān)聯(lián),滿足用戶檔案數(shù)據(jù)資源的可視化展示[10]。
3.2.2 場(chǎng)景二:數(shù)據(jù)的交互式分析
檔案數(shù)據(jù)集成形成大量集成化檔案數(shù)據(jù)集,運(yùn)用大數(shù)據(jù)技術(shù),對(duì)形成的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)數(shù)據(jù)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)其中的隱性知識(shí)和重要價(jià)值,通過(guò)對(duì)數(shù)據(jù)的分析和了解,預(yù)判用戶的需求特征。
場(chǎng)景描述:集成化的數(shù)據(jù)具有復(fù)雜性、完整性以及多源異構(gòu)的特點(diǎn),包含非幾何數(shù)據(jù)和幾何屬性的信息內(nèi)容。集成化的數(shù)據(jù)包含的內(nèi)容較多,可以運(yùn)用語(yǔ)義分析、聚類分析、知識(shí)圖譜、人工智能等對(duì)海量的數(shù)字檔案資源進(jìn)行篩選,通過(guò)描述性分析、推斷性分析、相關(guān)性分析對(duì)其進(jìn)行挖掘,發(fā)掘隱性知識(shí)和潛在價(jià)值。通過(guò)總體數(shù)據(jù)的發(fā)展趨勢(shì)去預(yù)測(cè)和判斷相關(guān)事件未來(lái)的發(fā)展動(dòng)向,同時(shí)也可以研究變量間的相關(guān)關(guān)系和相關(guān)性。
特性與競(jìng)爭(zhēng)力:大數(shù)據(jù)技術(shù)在處理體量大、類型多的數(shù)據(jù)中,具有實(shí)時(shí)性、交互性等特征。通過(guò)給數(shù)據(jù)賦能,從微觀層面為數(shù)據(jù)分析提供技術(shù)支持,促使研究從共性和個(gè)性深入挖掘和分析成為可能。不僅可以提高知識(shí)服務(wù)水平和數(shù)據(jù)信息的質(zhì)量,而且能夠?qū)Y源進(jìn)行深度挖掘,輔助決策的制定。
3.2.3 場(chǎng)景三:多維檔案溯源應(yīng)用
檔案是人們?cè)诟鞣N社會(huì)活動(dòng)中直接形成的具有保存價(jià)值的原始信息,其本質(zhì)屬性是原始記錄性。在數(shù)據(jù)涉及機(jī)密時(shí),需要對(duì)檔案數(shù)據(jù)保密。為應(yīng)對(duì)數(shù)據(jù)泄密、追溯源頭需要引入相應(yīng)的技術(shù)規(guī)范與標(biāo)準(zhǔn)。
場(chǎng)景描述:集成化檔案數(shù)據(jù)是在采集檔案數(shù)據(jù)以及檔案數(shù)據(jù)形成的業(yè)務(wù)流程中把其轉(zhuǎn)換成為可供操作的結(jié)構(gòu)化數(shù)據(jù)語(yǔ)言。數(shù)據(jù)溯源依據(jù)是“數(shù)據(jù)在整個(gè)生命周期內(nèi)的演變信息和演變處理內(nèi)容的記錄”。在集成化數(shù)據(jù)中引入非對(duì)稱加密、數(shù)字摘要、數(shù)字簽名來(lái)保障集成化數(shù)據(jù)的溯源,從而達(dá)到對(duì)集成化數(shù)據(jù)的演變歷史和操作歷史進(jìn)行過(guò)多級(jí)可信的溯源目的[11]。
特性與競(jìng)爭(zhēng)力:對(duì)集成化數(shù)據(jù)集的演變過(guò)程進(jìn)行追蹤,能夠保障數(shù)據(jù)溯源信息存儲(chǔ)的穩(wěn)定性與安全性。尤其是在應(yīng)對(duì)重大突發(fā)事件中,利用區(qū)塊鏈技術(shù)、人工智能、大數(shù)據(jù)技術(shù)等,能夠及時(shí)找到數(shù)據(jù)源頭進(jìn)行管控處理[12]。
3.2.4 場(chǎng)景四:數(shù)據(jù)智能化推送
海量的數(shù)據(jù)與用戶期望個(gè)性化服務(wù)之間的矛盾日益突出,在數(shù)據(jù)集成情境下形成的數(shù)據(jù)集提供了豐富的檔案數(shù)據(jù)資源,但是由于用戶知識(shí)背景不同,出現(xiàn)數(shù)字檔案利用水平較低等情況。通過(guò)大數(shù)據(jù)構(gòu)建用戶畫像,能夠精準(zhǔn)識(shí)別用戶的需求,為解決利用率低問(wèn)題提供有效解決方案。
場(chǎng)景描述:通過(guò)大數(shù)據(jù)和人工智能技術(shù),利用集成化數(shù)據(jù)集,對(duì)海量的有序化數(shù)據(jù)打造全生命周期以及全維度用戶畫像。把用戶情景畫像融入檢索過(guò)程中,把數(shù)據(jù)集的信息與用戶畫像進(jìn)行數(shù)據(jù)關(guān)聯(lián)分析,洞察用戶的潛在需求,驅(qū)動(dòng)服務(wù)型檔案管理模式。
特性與競(jìng)爭(zhēng)力:利用用戶檢索和查閱等數(shù)據(jù)進(jìn)行用戶情景畫像構(gòu)建,根據(jù)不同的用戶需求,結(jié)合集成化數(shù)據(jù)建立智能化、個(gè)性化的在線預(yù)測(cè)和推送服務(wù)。基于用戶需求的精準(zhǔn)識(shí)別和推送,從而達(dá)到提高數(shù)字檔案利用的效果。主動(dòng)化、精準(zhǔn)化、個(gè)性化的檔案數(shù)據(jù)推動(dòng)服務(wù),為檔案信息化建設(shè)和服務(wù)型檔案管理系統(tǒng)助力。
檔案數(shù)據(jù)集成管理是信息時(shí)代對(duì)檔案管理提出的新要求,它真正實(shí)現(xiàn)了信息、技術(shù)和人的集合與統(tǒng)一。檔案數(shù)據(jù)集成在公路項(xiàng)目管理系統(tǒng)中應(yīng)用涉及數(shù)據(jù)的關(guān)聯(lián)、數(shù)據(jù)可視化、數(shù)據(jù)溯源、數(shù)據(jù)共享等多個(gè)方面的內(nèi)容。檔案數(shù)據(jù)集成技術(shù)的應(yīng)用為實(shí)現(xiàn)這些場(chǎng)景奠定堅(jiān)實(shí)的基礎(chǔ),為“數(shù)字化、智能化交通”的發(fā)展提供可行性方案。
檔案數(shù)據(jù)集成要以各個(gè)部分的元數(shù)據(jù)建設(shè)為基礎(chǔ)。GIS技術(shù)和BIM模型為項(xiàng)目設(shè)計(jì)、施工方案、施工質(zhì)量監(jiān)督和進(jìn)度控制提供極大的便利條件。在項(xiàng)目竣工前,GIS和BIM模型對(duì)已經(jīng)形成的海量的文檔電子文件與聲像電子文件集成,則可推出一個(gè)全新的可視化集成系統(tǒng),為公路營(yíng)運(yùn)提供充足的項(xiàng)目建設(shè)信息。實(shí)現(xiàn)檔案數(shù)據(jù)信息的可視化應(yīng)用場(chǎng)景主要體現(xiàn)在業(yè)務(wù)系統(tǒng)應(yīng)用層和監(jiān)管展示層。
4.1.1 業(yè)務(wù)系統(tǒng)信息可視化應(yīng)用
通過(guò)圖2能夠清楚看到,該項(xiàng)目檔案主要涉及施工單位、監(jiān)理單位、業(yè)主單位以及系統(tǒng)管理員四個(gè)主體的檔案的采集、整理以及利用等,每一個(gè)主體單位按照各自不同的流程把需要?dú)w檔的資料進(jìn)行填報(bào)、審核、蓋章、上傳,通過(guò)特定的元數(shù)據(jù)整理和分類、集成形成結(jié)構(gòu)化數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)中能夠明確看到每個(gè)過(guò)程中的責(zé)任人以及相關(guān)文件的詳細(xì)內(nèi)容。將可視化模型引入到檔案數(shù)據(jù)信息檢索,把文書檔案、圖形、聲像數(shù)據(jù)等檔案數(shù)據(jù)關(guān)聯(lián)到三維的可視化空間中顯示出來(lái),并向用戶提供信息檢索查閱的過(guò)程。通過(guò)此種方式不僅可以解決檔案可視化收集、業(yè)務(wù)可視化管理、內(nèi)容可視化組織、知識(shí)可視化挖掘和信息可視化利用的問(wèn)題,同時(shí)為檔案維度溯源項(xiàng)目建設(shè),奠定堅(jiān)實(shí)基礎(chǔ)。
4.1.2 管理與監(jiān)測(cè)信息可視化應(yīng)用
基于BIM+3DGIS技術(shù),通過(guò)對(duì)基礎(chǔ)地理信息集成構(gòu)建沿線基礎(chǔ)地理信息三維空間場(chǎng)景。再根據(jù)地理信息數(shù)據(jù)集成模型,仿真出設(shè)計(jì)模型、施工模型、進(jìn)度模型、成本模型、制造模型、操作模型等。應(yīng)用勘察設(shè)計(jì)階段建立BIM模型、集成項(xiàng)目施工階段的管理信息、工程檔案信息、視頻信息,實(shí)現(xiàn)公路空間基礎(chǔ)地理信息、質(zhì)量安全監(jiān)控?cái)?shù)據(jù)、項(xiàng)目管理信息等數(shù)據(jù)的整合、交換和共享。同時(shí),BIM與GIS技術(shù)結(jié)合,通過(guò)對(duì)模型的構(gòu)建也能夠?qū)崿F(xiàn)項(xiàng)目的場(chǎng)地分析、相關(guān)數(shù)據(jù)分析,評(píng)估并且形成可行性報(bào)告,做出最優(yōu)的規(guī)劃以供參考。

圖2:公路項(xiàng)目業(yè)務(wù)流程圖
在檔案數(shù)據(jù)集成理論的指導(dǎo)下,BIM技術(shù)為項(xiàng)目資料的歸檔和利用提供了一個(gè)流程化、標(biāo)準(zhǔn)化的全過(guò)程生命周期管理方式,從公路的建設(shè)到養(yǎng)護(hù)均可以實(shí)現(xiàn)可視化。BIM信息集成平臺(tái),會(huì)收集現(xiàn)場(chǎng)相關(guān)工作人員上傳的各種資料,通過(guò)自定義的流程,及時(shí)預(yù)測(cè)項(xiàng)目建設(shè)所遇到的問(wèn)題,也能夠自動(dòng)生成報(bào)表和相關(guān)記錄的資料,并在后臺(tái)進(jìn)行保存,每次的建設(shè)進(jìn)度、維護(hù)都會(huì)形成記錄進(jìn)度表,使項(xiàng)目的管理和追溯實(shí)現(xiàn)可視化管理。
檔案數(shù)據(jù)集成方式能夠明確記錄該數(shù)據(jù)在生命周期內(nèi)的數(shù)據(jù)的工作流程,同時(shí)通過(guò)科學(xué)規(guī)范的元數(shù)據(jù),檔案管理系統(tǒng)能夠更加清晰地映射各個(gè)主體以及要素之間的關(guān)系,使歸檔材料的形成過(guò)程可復(fù)制、可再現(xiàn)、可驗(yàn)證[13]。多維度檔案數(shù)據(jù)集成和溯源的關(guān)鍵點(diǎn)在基礎(chǔ)層的數(shù)據(jù)信息,包含文書檔案、圖表、圖形、聲像數(shù)據(jù)等傳統(tǒng)檔案數(shù)據(jù)和GIS地理空間信息、構(gòu)件形狀尺寸等空間地理信息。
由于項(xiàng)目資料所涉及的內(nèi)容眾多且主體多元,因此在檔案數(shù)據(jù)采集、存儲(chǔ)和集成的過(guò)程中,會(huì)采用數(shù)據(jù)溯源安全模型,通過(guò)對(duì)文檔、聲像數(shù)據(jù)等添加一些無(wú)法修改的參數(shù),例如時(shí)間戳、加密密鑰、校驗(yàn)等來(lái)限制操作權(quán)限,保護(hù)溯源鏈的安全,實(shí)現(xiàn)檔案數(shù)據(jù)的可信性和不可抵賴性。通過(guò)標(biāo)注法和反向查詢法,實(shí)現(xiàn)多維度檔案數(shù)據(jù)的全程溯源。
在公路建設(shè)項(xiàng)目的檔案數(shù)據(jù)集成中,經(jīng)常會(huì)涉及多源異構(gòu)時(shí)空數(shù)據(jù)的集成和協(xié)同問(wèn)題[14]。由于公路項(xiàng)目檔案類型多樣化,不僅有傳統(tǒng)的紙質(zhì)檔案也有新型的電子檔案、實(shí)時(shí)監(jiān)測(cè)生成的信息。其形成的模型是以三維空間為主,數(shù)據(jù)來(lái)源復(fù)雜且規(guī)范性較差、存儲(chǔ)的結(jié)構(gòu)性差異較大。同時(shí),各層級(jí)信息之間存在信息孤島等問(wèn)題,難以實(shí)現(xiàn)快速的共享與集成的應(yīng)用。數(shù)據(jù)的有效共享依賴于數(shù)據(jù)高效的集成。該系統(tǒng)通過(guò)對(duì)于元數(shù)據(jù)的控制和統(tǒng)一的標(biāo)準(zhǔn)能夠使用戶檢索更加便利;也使檔案數(shù)據(jù)管理員更加條理化,增加了數(shù)據(jù)的辨識(shí)度;同時(shí),管理系統(tǒng)對(duì)于數(shù)據(jù)的識(shí)別與儲(chǔ)存更加快捷。
在公路建設(shè)項(xiàng)目檔案的數(shù)據(jù)集成中,重點(diǎn)把BIM模型和工程項(xiàng)目管理過(guò)程中形成的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集成和管理,打造一體化、智慧化的大型數(shù)據(jù)庫(kù)。建立全線BIM模型,對(duì)其進(jìn)行深度開(kāi)發(fā)實(shí)現(xiàn)碰撞檢查、工程量計(jì)算等應(yīng)用場(chǎng)景;其次將BIM模型集成的數(shù)據(jù)上傳至項(xiàng)目管理平臺(tái)實(shí)現(xiàn)項(xiàng)目質(zhì)量、安全、進(jìn)度、投資等可視化追溯與控制;最后結(jié)合GIS技術(shù)實(shí)現(xiàn)IOT數(shù)據(jù)與BIM的關(guān)聯(lián),建設(shè)一體化智能管理平臺(tái)。
電子檔案數(shù)據(jù)集成越來(lái)越成為一種電子檔案管理的發(fā)展趨勢(shì),檔案數(shù)據(jù)集成具有多樣性、動(dòng)態(tài)性和有序性等特征,在與新技術(shù)的結(jié)合、多類型終端兼容等方面有顯著優(yōu)勢(shì)。檔案數(shù)據(jù)集成把各相關(guān)業(yè)務(wù)系統(tǒng)進(jìn)行集成化管理,打破了系統(tǒng)間的藩籬,將檔案基礎(chǔ)數(shù)據(jù)、管理人員、管理過(guò)程與制度、管理技術(shù)與平臺(tái)、元數(shù)據(jù)與安全信息等進(jìn)行全方位的集成化管理,實(shí)現(xiàn)多元數(shù)據(jù)的一體化管理,實(shí)現(xiàn)數(shù)據(jù)信息的全方位共享和多維度溯源。檔案數(shù)據(jù)集成使得檔案數(shù)據(jù)可以實(shí)現(xiàn)檔案知識(shí)庫(kù)建設(shè)、可視化檔案展示、數(shù)據(jù)交互分析、多維溯源以及智能化推送等應(yīng)用場(chǎng)景。而且,在先進(jìn)信息技術(shù)推動(dòng)下,檔案數(shù)據(jù)集成應(yīng)用的場(chǎng)景和范圍會(huì)不斷地構(gòu)建和延展,創(chuàng)造出新的信息組織形式、傳播模式和應(yīng)用方式。以公路建設(shè)項(xiàng)目數(shù)據(jù)集成應(yīng)用為例,依賴數(shù)據(jù)集成平臺(tái),可以有效地打破各業(yè)務(wù)系統(tǒng)之間的信息壁壘,可以實(shí)現(xiàn)檔案數(shù)據(jù)的高度集成,可實(shí)現(xiàn)多源時(shí)空數(shù)據(jù)的共享利用,可以集成有廣闊應(yīng)用市場(chǎng)的可視化檔案,可為檔案數(shù)據(jù)的多維溯源奠定堅(jiān)實(shí)基礎(chǔ),并可以在將來(lái)實(shí)現(xiàn)更多方面的電子檔案數(shù)據(jù)賦能。