詹超銘,李锘雯
(中核國電漳州能源有限公司,福建 漳州 363300)
2021年7月6日, 習近平總書記對檔案工作作出了“四好”“兩服務”的重要批示。筆者作為核電從業者, 10余年深耕核電檔案工作, 深以為“四好”是基礎,“兩服務”是目的,新時代的文檔服務不僅要能發揮檔案的憑證作用,更要發揮檔案的參考作用,給組織和個人呈現文檔中的內容、 提供文檔中的知識,更好的服務于公司發展和人才培養,使檔案工作真正的“存史資政育人”。
通常來說,各行各業文檔部門的主要職責都是做好業務形成文檔的收、管、存、用,但實際上,大多數行業的文檔部門只做好了文檔的收、管、存,沒做好文檔的用,主要是因為傳統的文檔服務是一個從文檔管理端到文檔服務端的過程,文檔部門在進行文檔管理系統開發時關注重點在于如何做好文檔管理,沒有充分考慮用戶的需求,沒有從頂層的規劃、場景的需求、應用的方式和服務的成效進行系統性思考,從而導致文檔服務的能力不足、水平不高,如圖1所示。
究其根本原因,主要有以下兩方面因素:
(1)文檔管理和業務活動相互隔離
在各行各業的業務活動中,文檔業務環節基本上都處于業務流程的末端,業務部門和文檔部門職責邊界比較清晰,文檔部門很少提前介入業務過程。

圖1 傳統文檔服務的困境Fig.1 The dilemma of traditional document service
(2)文檔管理和服務主客觀不統一
文檔管理的主體是文檔人員,而文檔服務的對象是業務人員,在這種情況下,文檔人員很容易陷入主客觀不統一的陷阱,僅從文檔管理的角度思考后續的文檔服務。
近些年,中核集團持續推進系統工程理論學習與研討,核電文檔管理不應在局限于竣工資料管理、設備檔案管理以及相關的驗收活動中,而應運用系統思維,以核電大數據為主,深入挖掘信息資源,靈活運用信息技術來彌補以往文檔工作中數據缺失的不足和弊端,從而提升文檔管理工作效率和質量[1]。因此,文檔部門在開發文檔管理系統時應進行系統性思考,摒棄主觀思維,通過分析用戶產生需求的客觀場景,見表1,應用信息技術設計滿足用戶需求的目標場景,從而構建客觀場景到目標場景的價值實現以及目標場景到客觀場景的價值反饋的良性循環,持續改進和提升文檔服務能力和水平。

表1 案例客觀場景分析
通過這兩個案例的客觀場景分析,可以總結出一個業務邏輯:用戶想要通過文檔管理系統查詢所需內容,通常需要通過四個步驟:確定關鍵詞和文件類型、進行檢索、尋找目標文件、查找所需內容。
對這兩個案例的目標場景進行分析見表2。

表2 案例目標場景分析Table 2 Case target scenario analysis
通過這兩個案例的目標場景分析,可以推理出一個文檔服務概念(如圖2所示):用戶想要通過文檔管理系統查詢文檔中某一個知識點,文檔管理系統應直接告知用戶該知識點的內容。

圖2 客觀場景與目標場景的價值循環Fig.2 Value cycle between objective and target scenarios
通過以上兩個案例分析客觀場景和目標場景的差異,不難得到一個結論:知識型文檔服務可以有效減少用戶查詢步驟、提高文檔服務效率。因此,知識型文檔服務是新時代文檔服務的一個創新方向,文檔部門可以將知識工程理論體系與文檔管理進行融合,通過文檔知識工程指導文檔服務的創新和實踐,從而實現客觀場景到目標場景的場景轉變。
核電廠的文檔部門存有海量的文檔資源,這些文檔資源中隱含著大量零碎的知識,可以應用知識工程的理論將這些零碎的知識進行整合并用專業的語言表述出來,讓用戶能夠更容易地進行查詢利用。
知識工程是以知識為處理對象,借用工程化的思想,利用人工智能的原理、方法和技術,設計、構造和維護知識型系統的一門學科,人們一般認為知識工程是人工智能的一個應用分支。知識工程包括知識獲取、知識表示與知識利用三大過程[2]。文檔作為最典型的顯性知識,應結合文檔本身的特性在知識工程三大過程的基礎上進行“一增”“一強”,“一增”是在知識表示后增加一個知識組織過程,“一強”是強化知識利用的過程,因此,文檔知識工程應包括文檔知識獲取、文檔知識表示、文檔知識組織和文檔知識利用四大過程。
(1)文檔知識獲取
目前,大多數核電企業文檔管理系統所能夠支持的管理對象是文件,同時在系統中填寫元數據對文件進行補充描述,但是補充元數據并不能改變系統的管理對象,文件中的內容及其隱含的知識并沒有進行處理。因此,文檔知識工程的第一步就是要獲取文檔中的內容,將非結構化的文本進行內容解析識別為一條條結構化的數據。
(2)文檔知識表示
文檔知識獲取只能支撐文檔管理系統實現全文檢索,因為計算機并不知道這些文檔內容所表達的意思,所以文檔知識工程的第二步就是要告訴計算機這些文檔內容是什么意思。即將一條條結構化的數據賦予語義的過程,如定義“反應堆控制系統”是“系統名稱”,定義“控制反應堆系統壓力變化”是“系統的作用”,通過文檔知識表示讓無意義的數據代表語義。
(3)文檔知識組織
計算機知道文檔內容中的每條數據及其代表的語義后仍不能實現知識型文檔服務,因為計算機仍不理解數據與數據之間有什么內在的關聯關系,以及語義與語義之間到底是如何互相作用和影響的,所以,文檔知識工程的第三步就是要對語義進行重新排列組合,告訴計算機這是什么系統、系統的功能是什么、系統中有哪些設備以及每個設備的作用是什么等,將文檔內容中隱含的“系統-功能”和“系統-設備-作用”邏輯關系給梳理出來。這個數據之間的邏輯關系就是文檔中隱含的知識。實際上,文檔知識組織就是表達文檔中隱含的業務及其邏輯的過程。
(4)文檔知識利用
經過文檔內容獲取、文檔知識表示和文檔知識組織后,系統就基本具備了提供知識型文檔服務的條件,但要達成“提出問題-得到答案”兩個步驟的目標場景,系統的檢索引擎必須應用語義分析、分詞等信息技術進行功能開發,此外,為了更好的展示知識以及知識之間的關聯關系,還需要通過知識圖譜的技術實現知識的可視化。
在文檔知識工程的四個過程中,其中最為關鍵的是文檔知識獲取。文檔知識獲取的方式主要有三種:非自動知識獲取、機器學習和知識抽取。
1)非自動知識獲取是通過培訓、閱讀或與專家交流等方式獲取原始知識并進一步歸納總結形成文檔輸入到系統中;
2)機器學習是機器憑借人工智能通過其視覺、聽覺等途徑直接閱讀理解文檔中的知識,或在系統運行過程中,結合已有的知識和實例推演、歸納總結出新知識補充到系統中;
3)知識抽取是通過構建機器學習規則和知識庫,對隱含在文檔中的知識進行識別、理解、篩選、格式化,在解析文檔過程中不斷改進規則和算法,邊分析邊抽取,邊抽取邊校正,邊校正邊學習,把文檔中的知識點都抽取出來,以一定形式存入系統中。
非自動知識獲取效率較低,很難滿足自動化需要;機器學習難度太大,需要結合分詞、語義分析和人工智能等技術進一步研究和探索,也很難進行自動化實施;知識抽取是最符合現狀的文檔知識獲取方式。
結合知識工程的理論應用研究,知識型文檔服務可以在遵循和參考文檔知識工程理論和方法的基礎上,從業務、數據和技術三個實踐方向進行研究分析。
(1)以業務為導向
對于文檔管理而言,傳統的載體比如紙張、照片、膠片等如今已基本形成了數字化副本,同時也產生了原生的電子文件,文檔管理的對象已從物理實體變為了數字化實體,雖然提高了工作效率,但從業務邏輯來說并沒有改變。未來的文檔服務應該是通過數據和業務進行雙向互動和驅動,將文檔服務延伸到前端,延伸到核心業務線,在核心工作開展的初期,文檔部門就要緊跟業務部門,為業務流程做好服務配套,支撐并優化核心業務流程。通過審視業務過程找到業務痛點,也就是分析業務需求,制定解決方案,再應用信息技術去實現和促進業務流程,將業務整體進行升級。數據要成為知識從而優化業務流程,業務流程要更好地為數據保存和知識利用創造條件,他們之間雙向互動的這種工作模式不僅僅是提升效率,也能讓業務人員真真切切感受到知識型文檔服務的價值。
(2)以數據為導向
核電企業的信息化起點和平均水平比較高,基本上都實現了業務流程電子化,因此,業務形成的文檔也從紙質介質轉變為數字載體。實際上就是文檔管理對象發生了轉變,目前核電工程項目檔案執行的是雙軌單套制,這個單套制指的就是要歸檔一套紙質檔案,但是在實際工作中基本上很少會去檔案庫房找紙質檔案,只有財會檔案采用這種利用方式,其余大多數文檔都是在業務系統中直接形成數字載體文件。也就是說,原來在庫房中管理的檔案經過數字化存儲在了服務器和磁盤上,但整個管理流程,業務邏輯沒有發生本質改變,為了適應或滿足其他業務的需要,文檔工作就不能僅僅局限于保管,要向開發利用進行轉變,要對文檔進行更深層次的分析和數據采集,得到的數據越精細,獲取的知識越準確,才有助于開展分析和歸納總結,形成更多的知識成果。
(3)以技術為導向
文檔的載體已經從紙質轉向了數字,這是不可逆的趨勢,文檔技術的研究和應用上也應從實體保管技術、保護技術和數字化技術向以數據和內容為主的數據載體可信技術、數據內容開發技術和文檔知識服務技術轉型。但是,基于數據的通性或者說是數據的特性,僅憑單個技術或單個算法是無法真正實現知識服務的,一定是一種體系化的技術,集成化的技術,技術之間有交互、有關聯,實現新技術應用1+1>2的效果,這就需要把技術的應用點和應用邏輯講清楚。首先是單文檔的智能分析技術,知識工程第一步就是知識獲取,要通過智能分析的技術對單份文件中的內容和數據抽取出來。抽取第二份、第三份文件里面的內容時,就需要對內容中相同的數據進行關聯,所以第二個技術就是多資源的數據連接。當關聯的數據越來越多,數據就變得很亂,為了更好地去利用這些數據,就需要第三個技術,對數據進行知識化的組織。形成知識以后要進行利用,所以最后一個應用的技術就是全概念的結構化展示技術。因此,知識型的文檔服務就需要把這些技術點連成技術線,如果技術點應用得不好,就很可能會得到一個1+1<2的結果,產生很多的內耗造成資源的浪費。
信息技術的高速發展引領了各行各業的業務變革,同時也給各行各業帶來了很多理論和生產要素的變革文檔工作已從傳統制度化的1.0模式向文檔一體化的2.0模式轉變,現在正在向文檔智能化的3.0模式發展。文檔部門存有海量的文檔資源,坐擁最大的數據資產。文檔人員如何保管好、利用好這些數據資產,需要進一步研究和探索。作為“華龍一號”建設者,作為核電文檔工作者,要以“四好”“兩服務”為指引,留存好、記錄好這段奮斗歷史,講好這段紅色故事,實現傳統文檔服務向智慧知識服務轉型。