張 迅,涂 亮,林正平,楊宇亮,陶秀杰
(1.貴州電網(wǎng)有限責任公司電力科學研究院,貴陽 550002; 2.南方電網(wǎng)科學研究院,廣州 510663)
標準是產(chǎn)品研發(fā)、設計與生產(chǎn)的基礎,貫穿產(chǎn)品設計、生產(chǎn)、使用及報廢的整個壽命周期。隨著制造業(yè)的全球化、數(shù)字化轉(zhuǎn)型,產(chǎn)品設計、開發(fā)、制造的成本大幅降低,質(zhì)量明顯提高,效率顯著提升,信息系統(tǒng)產(chǎn)品數(shù)據(jù)集成能力成為推動行業(yè)發(fā)展的重要因素。《國家標準化發(fā)展綱要》將“標準數(shù)字化水平不斷提高”作為戰(zhàn)略目標之一,提出發(fā)展機器可讀標準、開源標準,推動標準化工作向數(shù)字化、網(wǎng)絡化、智能化轉(zhuǎn)型。
數(shù)字時代,需深度調(diào)整產(chǎn)業(yè)結(jié)構(gòu),數(shù)據(jù)已成為關鍵的生產(chǎn)要素。然而在產(chǎn)品各類數(shù)據(jù)紛紛轉(zhuǎn)為數(shù)字形式時,標準卻仍舊以文檔格式使用,僅僅從紙質(zhì)文檔變?yōu)殡娮游臋n[1],這給標準的使用推廣造成不必要的浪費,帶來潛在的風險。例如,標準的非結(jié)構(gòu)化的文檔格式編寫,導致其編寫復雜、審查效率低、標引和檢索困難。不同機構(gòu)的標準間沒有建立便利的引用鏈接關系,導致引用標準訪問困難。標準在企業(yè)生產(chǎn)運營流程中日益重要,但很難將標準內(nèi)容嵌入流程中直接使用,不僅需要及時更新標準,還需要實時評估更新后標準的適用性。
隨著數(shù)字經(jīng)濟時代的到來,產(chǎn)品生產(chǎn)和服務對標準的數(shù)字化使用提出了新要求。當前非結(jié)構(gòu)化的標準不便于信息的加工和挖掘,信息的深度和粒度難以滿足用戶需求。推進標準的數(shù)字化轉(zhuǎn)型,將標準內(nèi)容通過數(shù)字化手段與更高水平的平臺、系統(tǒng)進行傳遞和使用變得日益迫切。本研究在總結(jié)數(shù)字標準特征的基礎上,以存量模型化改良與增量結(jié)構(gòu)化改革兩種模式探索數(shù)字標準的生成路徑,為實現(xiàn)數(shù)字標準的普及應用提供參考。
2011年底,ISO改進其出版系統(tǒng),開發(fā)了期刊文章標簽集(JATS)的衍生品——ISO標準標簽集(ISO STS),用于ISO的標準出版。ISO STS是提供給標準組織、出版商、傳播者、檔案館及任何合法用戶的一種可以用來發(fā)布和交換標準內(nèi)容的通用格式[2],設置的目的是保留標準的知識內(nèi)容,使其區(qū)別于最初提供的標準內(nèi)容形式。此后,BSI、SIS、NEN、SA及一些經(jīng)銷商都采用了ISO STS。ISO STS是標準數(shù)字化工作的重要基礎。
國際標準化組織對“標準數(shù)字化“工作高度關注,ISO/IEC將機器可讀標準劃分為5個層級[3],如圖1所示,其中3~4級被稱為“SMART”標準。

圖1 機器可讀標準分級模型
我國的數(shù)字標準研究工作起步較早。GB/T 22373-2019《標準文獻元數(shù)據(jù)》規(guī)定了標準文獻數(shù)據(jù)集合的基本元數(shù)據(jù),給出了標準文獻核心元數(shù)據(jù)、公共元數(shù)據(jù)的定義及其表示方法。中國航空綜合技術研究所曹平等利用XML Schema定義了交互式電子標準的數(shù)據(jù)結(jié)構(gòu)和模型,開發(fā)了交互式電子標準編輯軟件,實現(xiàn)了標準的填空式編寫、免格式編輯、自主式校驗和交互式閱讀等[4]。機械工業(yè)儀器儀表綜合技術經(jīng)濟研究所王春喜等探討了工業(yè)自動化領域機器可讀標準的應用場景、關鍵技術及標準研制,為將機器可讀標準用于智能制造設備和系統(tǒng)集成提供了參考依據(jù)[5]。江蘇省質(zhì)量和標準化研究院胡甌靜從文字識別的概念中引出標準數(shù)字化的定義,闡述了標準數(shù)字化是未來標準信息服務和研究的基礎和發(fā)展趨勢[6]。
隨著《國家標準化發(fā)展綱要》的發(fā)布實施,我國在標準數(shù)字化領域進行了更加廣泛的探索和嘗試。南方電網(wǎng)公司全面開展了標準數(shù)字化轉(zhuǎn)型工作。中國航空綜合技術研究所立足軍工,提出“標準即數(shù)據(jù)、使用即標準”的思路并開展了數(shù)字標準場景化應用探索與工具開發(fā)[7]。中國電子技術標準化研究院提出標準知識圖譜智能化構(gòu)建方法,發(fā)布《標準數(shù)字化知識圖譜白皮書》,并于IEEE立項“面向標準的知識圖譜技術要求”。機械工業(yè)儀器儀表綜合技術經(jīng)濟研究所在標準管理殼、機器可讀相關標準制定等方面進行了研究與實踐[8]。可以看出,以數(shù)據(jù)為核心的數(shù)字標準已成為國內(nèi)外標準數(shù)字化轉(zhuǎn)型工作的重要內(nèi)容,研究其生成路徑是重要的基礎性工作。
盡管標準數(shù)字化轉(zhuǎn)型、數(shù)字標準等概念尚不統(tǒng)一,但各方均認同將“存量標準信息化處理后能融入信息化系統(tǒng)使用”作為標準數(shù)字化的重要內(nèi)容。據(jù)此,可對數(shù)字標準的內(nèi)涵作描述性揭示,即將紙質(zhì)或PDF等格式的電子文檔標準向數(shù)字化形態(tài)轉(zhuǎn)化,將標準數(shù)據(jù)等內(nèi)容碎片化為最小信息單元,將相互關聯(lián)的信息單元按照一定的結(jié)構(gòu)進行存儲,通過計算機、移動信息設備等數(shù)字化終端以交互的方式使標準信息內(nèi)容展現(xiàn)、推送或嵌入使用場景。數(shù)字標準從數(shù)據(jù)出發(fā),以數(shù)據(jù)為提升生產(chǎn)力的核心要素,釋放數(shù)據(jù)資產(chǎn)價值,推動商業(yè)與運營模式轉(zhuǎn)變,從而實現(xiàn)管理與業(yè)務變革。
數(shù)字標準與機器可讀標準一脈相承,根據(jù)機器可讀標準分級模型,可將2~4級機器可讀標準轉(zhuǎn)化為數(shù)字標準。具體來看,高度成熟的數(shù)字標準主要有以下幾方面特征:
1)機器可讀。系統(tǒng)能夠自動采集某個標準數(shù)據(jù),無需人工干預即可直接傳輸?shù)教幚硐到y(tǒng)。
2)人機交互。按照用戶使用習慣,實現(xiàn)語義化檢索與交互式閱讀,提升標準查詢與閱讀的效率和體驗感。
3)知識重用。利用已有的知識作為標準制修訂的參考依據(jù),將數(shù)據(jù)、文本、表格、圖形及公式方程提取并跟蹤到其他程序。
4)多人協(xié)同。實現(xiàn)多人異地實時網(wǎng)絡協(xié)同,可在線完成標準內(nèi)容的編輯,實時查看其他成員編寫的內(nèi)容,實現(xiàn)對多個版本標準的管理。
5)數(shù)字出版。利用數(shù)字技術創(chuàng)建開放式電子標準,實現(xiàn)標準表達與存儲的數(shù)字化、結(jié)構(gòu)化、規(guī)范化。
6)智能關聯(lián)。基于輸入的檢索詞自動補全、糾正候選詞,基于標準主題和內(nèi)容實現(xiàn)相關標準的聯(lián)想推薦。
7)互操作性。根據(jù)應用場景選擇性訪問賦有語義的標準內(nèi)容,利用應用程序界面對標準內(nèi)容執(zhí)行更加復雜的操作。
8)更新可追溯。數(shù)據(jù)源的更新自動傳輸?shù)较掠?保證全鏈條數(shù)據(jù)的可信、可追溯。
結(jié)合當前研究及實踐情況,根據(jù)標準數(shù)字化起點的不同,數(shù)字標準主要有兩種生成路徑——針對存量標準的“存量模型化改良模式”與針對未來標準的“增量結(jié)構(gòu)化改革模式”,詳見圖2。

圖2 數(shù)字標準的生成路徑
所謂存量標準模型化改良模式是指標準文件正式出版后,基于XML內(nèi)容模式(Schema)對標準文件進行結(jié)構(gòu)化加工和標引,再形成新的XML文件,即XML文件獨立存在于標準文件之外。
存量標準模型化改良模式首先對已有的標準文本進行OCR識別、自動化特征提取和交互式標引,并存儲成結(jié)構(gòu)化的XML文件。將XML文件中的元素(范圍、引用文件、章條、圖表、公式等)按照一定規(guī)則映射到標準元素庫。再結(jié)合行業(yè)背景知識庫、文本挖掘、知識關聯(lián)及個性化定制等技術為用戶提供智能化的標準應用服務。
存量模型化改良模式即是對基于現(xiàn)狀的存量標準的改進,優(yōu)點是相關技術比較成熟,不用改變現(xiàn)有的標準化流程和機制,易于推廣實施。缺點是文本標引工作量巨大,結(jié)構(gòu)化程度較低,主要用于解決目前存量標準的數(shù)字化定義及應用問題。
所謂增量標準結(jié)構(gòu)化改革模式是指在新標準開始編制時,基于XML數(shù)據(jù)模式對標準進行結(jié)構(gòu)化編寫,即標準本身就是XML文件。
增量標準結(jié)構(gòu)化改革模式首先參照國家標準規(guī)定,按需將各類標準的編寫總結(jié)歸納成“標準內(nèi)容范式”與“標準格式”兩部分。一方面將“標準內(nèi)容范式”轉(zhuǎn)換成Schema,并基于此填寫內(nèi)容,完成校驗。另一方面將“標準格式”轉(zhuǎn)換成多樣的標準出版樣式。將通過校驗的標準內(nèi)容與出版樣式進行組合,根據(jù)使用場景需要自動生成不同格式的標準。
增量結(jié)構(gòu)化改革模式是一種較徹底的“改革”模式,從源頭上改變了標準的編寫模式,優(yōu)點是結(jié)構(gòu)化、模式化程度高,內(nèi)容和格式分開,便于標準交互式應用。缺點是會影響標準形態(tài)和流程,目前缺少國家相關法規(guī)支持。這種模式主要用于解決未來增量標準文件的數(shù)字化定義及應用問題。
隨著標準數(shù)字化工作的不斷推進,數(shù)字化技術將改變標準的管理模式和存在形式,利用數(shù)字化技術能夠?qū)崿F(xiàn)標準的全生命周期管理、結(jié)構(gòu)化存儲、語義化表達與交互式閱讀。標準數(shù)字化技術可有效促進標準實施,使標準實施真正成為科研生產(chǎn)的有機組成部分。基于XML的開放式電子文檔標準是解決文檔有效表達的必要前提,將標準技術內(nèi)容整理加工后形成數(shù)字標準,開發(fā)出與現(xiàn)有軟件平臺集成的、便于廣大工程技術人員直接使用的軟件或數(shù)據(jù)庫,能夠達到標準自動實施的目的。在完成形式、業(yè)務和應用的數(shù)字化轉(zhuǎn)變之后,標準可與數(shù)字化環(huán)境完全融合,真正實現(xiàn)數(shù)字標準的普及應用。