999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ISO 國際標準知識圖譜的構建方法研究

2024-12-31 00:00:00方思怡
標準科學 2024年12期

摘 要:標準數字化轉型對標準知識組織形式和相關服務模式提出了全新的要求。知識圖譜是標準數字化轉型的關鍵核心技術之一,能有效解決ISO標準信息和知識服務在數據顆粒度和關聯(lián)性等方面的局限性。本研究聚焦標準知識服務重點關注的ISO標準核心要素,通過深入分析其文本結構特性,在綜合比較不同ISO標準數據存儲格式后,提出適用于ISO的標準知識圖譜構建方法,并在塑料制品、橡膠等市場監(jiān)管關注的領域開展初步應用,以期能夠為標準數字化轉型提供一定的技術參考。

關鍵詞:標準知識圖譜,ISO,國際標準,標準數字化,實體抽取,知識組織

DOI編碼:10.3969/j.issn.1674-5698.2024.12.012

0 引 言

標準是經各利益相關方協(xié)商一致形成的技術性文件。在不同類型的標準中,國際標準是在全球范圍內廣泛使用的技術性制度工具[1]。作為世界范圍內影響力最大的標準化組織,ISO歷來重視標準的推廣應用[2],聯(lián)合IEC共同提出了機器可讀標準的概念和相應的解決方案。近年來,面向機器可讀標準的標準數字化研究已逐漸成為標準領域的重大戰(zhàn)略方向,并催生了標準化工作的極大變革。

隨著數字經濟時代的深入發(fā)展和人工智能、大數據等技術的不斷普及,標準化工作已步入數字化發(fā)展的新階段[3],進而對標準情報服務提出了全新的發(fā)展要求[4]。在標準情報服務中,標準信息服務和標準知識服務的質量與標準數字化技術的應用深度密切相關。當前國內外機器可讀標準的能力等級普遍處于較低水平,標準信息和知識服務大多存在服務手段單一、技術方法落后、數據顆粒度不夠細等問題[5]。在數字化轉型的背景下,標準信息和知識服務亟需實現(xiàn)多元化、細粒度、深層次、關聯(lián)性的數據挖掘與組織形式。作為業(yè)內標準數字化轉型公認的關鍵核心技術[6,7],知識圖譜是一種以圖形式存儲和表征大規(guī)模數據及其關系的結構化知識庫[8,9],因此在標準知識組織方面享有一定的優(yōu)勢,能體現(xiàn)不同標準核心要素的關聯(lián)性,并提供面向特定標準應用的圖譜計算以支撐標準化活動的相關決策。

當前國內外的標準數字化技術研究大多處于初級階段,知識圖譜在ISO國際標準中的應用還存在較大的提升空間。本研究從機器可讀標準的視角出發(fā),通過深入分析ISO標準核心要素的文本結構特性,在綜合比較不同I SO標準數據存儲格式后,提出適用于ISO的標準知識圖譜構建方法,并選取特定領域開展初步應用,以期能夠為標準數字化相關工作提供一定的技術參考。

1 ISO國際標準知識圖譜的相關概念

本研究將標準知識圖譜界定為專業(yè)知識圖譜在標準領域的一大分支。標準知識圖譜是以標準文本及相關數據為來源、經由一定技術所形成的結構化知識庫,通過圖的形式來組織和存儲標準知識[10]。與常規(guī)的知識圖譜類似,標準知識圖譜在邏輯架構上可以分為模式層、數據層和應用層,其中模式層用來存儲標準知識的本體概念,也即標準核心要素的類型;數據層用來存儲模式層對應的實例數據;應用層則涵蓋了標準知識圖譜所涉及的智能計算。就數據類型而言,標準知識圖譜通常由標準實體和標準關系構成,其中標準實體通常是指標準文本中的具體核心要素,例如:標準名稱、標準號、標準指標、標準分類號等,而標準關系則是用來描述標準實體之間的具體聯(lián)系。

I S O國際標準知識圖譜是標準知識圖譜面向ISO文本的特定類型,以ISO文本及相關數據為來源,旨在存儲和表征ISO文本中的標準核心要素及其關聯(lián)性特點。本研究參考了ISO的文本編寫要求[11],并緊密結合標準數字化發(fā)展的業(yè)務需求和ISO標準核心要素的文本結構特性,在已有研究的基礎上[12]設計了ISO國際標準知識圖譜的模式層。本研究重點聚焦標準信息服務和知識服務所關注的ISO標準核心要素,包括標準號、標準英文名稱、標準發(fā)布時間、標準版本情況、標準化技術委員會、被代替標準號、標準ICS分類號、標準范圍、標準規(guī)范性引用文件名稱及標準號、標準術語、標準指標和基于標準全文的標準主題關鍵詞。在上述標準核心要素中,除了基于標準全文的標準主題關鍵詞外,均直接來自于標準文本。與其他核心要素相比,標準術語和標準指標在構成上更為復雜,可根據具體的元素功能進一步劃分為更小的知識單元,其中標準術語可以劃分為標準術語編號、標準首選術語、標準首選術語縮略語、標準棄用術語、標準術語同義詞、標準術語領域、標準術語定義、標準術語示例、標準術語條目注釋、標準術語來源;標準指標則可以劃分為標準指標名稱、標準關聯(lián)指標名稱、標準下一級指標名稱、標準指標值及單位、標準指標定義、標準指標描述說明、標準指標表格名稱、標準指標條目注釋、標準指標示例、標準指標符號、標準指標偏好值、標準指標最小值、標準指標分類和標準指標下一級分類。本研究以上述ISO標準核心要素為ISO國際標準知識圖譜模式層的標準實體類型,以標準號與上述核心要素的名稱指向形式“ISO標準核心要素+是”(例如:Termdefinition is)的英文表述為標準關系類型。

ISO國際標準知識圖譜模式層的框架圖如圖1所示。

2 ISO國際標準知識圖譜的構建方法

2.1 ISO國際標準文本數據資源的比較

ISO文本數據是ISO國際標準知識圖譜的知識來源,因此在開展ISO國際標準知識圖譜的構建之前,本研究選取上海市質量和標準化研究院標準文獻館中的部分ISO館藏資源,將ISO標準的數字PDF文本轉化為T XT、Word docx和XML文檔,對PDF、T XT、Word和X ML格式的I SO文本采用人機協(xié)作的方式進行數據讀取和標注效果的比對分析,所得的比較結果見表1。

經過詳細比對可知,在具有高質量PDF資源的前提下,ISO的XML文本在數據讀取準確性、表格數據的語義完整性和關聯(lián)性、數據標注的效果等方面表現(xiàn)優(yōu)于其他類型的文本格式,因此本研究選取I S O的X M L文本作為I S O國際標準知識圖譜的數據來源格式,在ISO的XML文本數據基礎上開展標準實體抽取和標準知識圖譜的構建工作。

2.2 ISO國際標準知識圖譜的構建流程

標準是具有明確編寫規(guī)范的技術性文件,ISO標準文本在章節(jié)結構、要素構成、層次編排等方面遵從一定的編寫要求。本研究從ISO標準的文本編寫特點入手,結合知識圖譜的通用性構建步驟,制定了適用于ISO國際標準知識圖譜的構建流程,主要包括ISO標準知識獲取、ISO標準知識表示、ISO標準知識存儲和可視化這4個步驟(如圖2所示)。

在ISO標準知識獲取階段,旨在將ISO標準文本轉化為機器可直接讀取的ISO標準語料數據集,在完成數據清洗后采用特定技術抽取ISO標準實體,采用自然語言處理和文本挖掘技術批量生成ISO標準實體對應的ISO標準關系。在ISO標準知識表示階段,主要是將上一個階段獲取到的ISO標準實體和ISO標準關系轉化為ISO標準知識圖譜的基本數據存儲形式,也即實體關系三元組(實體—關系—實體),最終形成ISO標準實體關系三元組結構化數據集。在完成ISO標準知識表示后,采用特定的知識圖譜工具讀取ISO標準實體關系三元組結構化數據集,完成ISO標準知識存儲和可視化呈現(xiàn)。

2.3 ISO國際標準知識圖譜的標準實體抽取方法

在深入分析I S O標準核心要素的文本結構特性的基礎上,本研究提出了適用于不同ISO標準核心要素的標準實體抽取方法,主要分為基于規(guī)則的文本挖掘方法、基于有監(jiān)督的深度學習方法和基于無監(jiān)督的機器學習方法,其中標準號、標準名稱、標準發(fā)布時間、標準化技術委員會、標準版本、被代替標準號、標準規(guī)范性引用文件名稱及標準號、標準范圍、標準術語可采用基于規(guī)則的文本挖掘方法來自動抽取;基于標準全文的標準主題關鍵詞則需要采用無監(jiān)督的機器學習方法來獲取,鑒于潛在狄利克雷分布主題模型(Latent DirichletAllocation Topic Model, LDA Topic Model)的理論相對成熟,本研究采用L DA主題模型來自動獲取ISO標準全文范圍內的主題關鍵詞;而對于不存在明顯規(guī)則的標準指標,考慮到當前尚未推出高度適配于ISO標準文本的大語言模型(Large language"model, L LM),本研究采用了有監(jiān)督的深度學習方法,基于循環(huán)神經網絡模型(Recurrent NeuralNetwork, RNN)及其亞型組合,通過人工標注指標數據和訓練神經網絡模型的方式實現(xiàn)自動抽取術語的相關實體。

2.4 ISO國際標準知識圖譜的可視化路徑實現(xiàn)方法

在綜合比較不同的圖譜可視化工具后,本研究選取Neo4j平臺作為ISO標準知識圖譜的存儲和可視化呈現(xiàn)工具。作為當前應用最為廣泛的圖數據庫,Neo4j自帶包括構建Web應用程序、機器學習圖算法以及圖計算與分析相關的Graph Data ScienceLibrary(GDS庫)等工具的大型生態(tài)系統(tǒng),可充分滿足ISO國際標準知識圖譜的快速存儲和功能模塊研發(fā)需要。本研究采用Python編寫了調用Neo4j平臺的程序,實現(xiàn)了ISO國際標準知識圖譜中各個實體和關系的可視化路徑。

3 ISO國際標準知識圖譜的應用

在形成ISO國際標準知識圖譜的構建方法后,本研究在綜合考量上海市市場監(jiān)管的業(yè)務需求基礎上,選取與民生密切相關的塑料制品、油漆和清漆、橡膠及橡膠制品等領域的7篇ISO文本開展ISO國際標準知識圖譜的構建方法驗證與初步應用。經過統(tǒng)計可知,上述小樣本ISO國際標準語料數據集共計231,655個字符,生成的ISO國際標準知識圖譜涵蓋了1251個標準實體和1474個標準關系。ISO國際標準知識圖譜的Neo4j平臺界面截圖如圖3所示。

4 總結與展望

4.1 總結

在標準數字化轉型的背景下,本研究緊密結合標準信息和知識服務的業(yè)務發(fā)展需求,通過深入分析ISO國際標準的文本結構特性,聚焦標準信息和知識服務所重點關注的ISO標準核心要素,經詳細比對ISO不同格式的文本特點后,以XML格式的ISO文本為數據來源,采用基于規(guī)則和深度學習相結合的技術打造了適用于ISO的國際標準知識圖譜構建方法,并在塑料制品、橡膠等領域的小樣本ISO數據集上開展方法驗證和初步應用,為后續(xù)的標準知識庫構建和相關標準知識服務提供必要的技術支撐。

4.2 展望

標準數字化轉型是標準未來發(fā)展的必然趨勢。本研究將在后續(xù)工作中圍繞以下幾個方向開展深入研究:(1)拓展標準知識圖譜的數據規(guī)模和應用功能,嘗試提取ISO標準文本中圖片數據的技術信息;(2)繼續(xù)追蹤以大語言模型為例的前沿技術,優(yōu)化當前ISO標準知識圖譜的實體抽取方法;(3)在ISO標準知識圖譜的基礎上進一步形成融合標準、專利、論文、法規(guī)等文件的標準綜合知識庫,為構建適用于標準領域的標準大語言模型和打造更為豐富的標準知識服務奠定數據基礎。

參考文獻

[1]張曉剛. 國際標準化發(fā)展的新趨勢[J]. 質量與標準化,2022(10):1-4.

[2]張寶林,侯常靚,鄔雨筍,等.國際標準化組織機器可讀標準工作動態(tài)[J]. 信息技術與標準化, 2022(10):18-22.

[3]崔靜,王立璽. 標準數字化工作路線圖探究[J]. 信息技術與標準化, 2023(06):43-46.

[4]彭國超,劉婕,張冰倩. 我國標準情報服務的分類及發(fā)展現(xiàn)狀研究[J]. 情報科學, 2022,40(10):179-186.DOI:10.13833/j.issn.1007-7634.2022.10.023.

[5]郝文建,魏梅,張浩,等. 標準知識圖譜的構建與應用[J]. 信息技術與標準化, 2021(08):44-47.

[6]范昊,王一帆. 知識關聯(lián)視角下標準文檔的多粒度知識組織方法研究[J]. 信息資源管理學報, 2024,14(04):133-145.DOI:10.13365/j.jirm.2024.04.133.

[7]王一禾,呂千千,祝賀. 標準數字化轉型關鍵技術及其應用分析[J]. 信息技術與標準化, 2022(10):51-55+59.

[8]穆天楊,陳華達,楊玉婷,等. 知識圖譜技術在機器可讀標準中的應用[J]. 信息技術與標準化, 2022(10):56-59.

[9]王萌,王昊奮,李博涵,等. 新一代知識圖譜關鍵技術綜述[J]. 計算機研究與發(fā)展, 2022,59(09):1947-1965.

[10]方思怡. 標準知識圖譜的技術路徑與應用場景探討[J].中國標準化, 2023(11):49-55.

[11]ISO/IEC Directives, Part 2:Principles and rules for the structure and drafting of ISO and IEC documents [S].

[12]方思怡.基于文本挖掘的ISO標準術語自動識別與標準術語知識圖譜構建研究[J]. 標準科學, 2024(08):84-89.

主站蜘蛛池模板: 国产福利拍拍拍| 国内毛片视频| 999国产精品| 92午夜福利影院一区二区三区| 国产99视频免费精品是看6| 国产在线拍偷自揄拍精品| 国产白浆一区二区三区视频在线| 69综合网| 久久国产热| 又大又硬又爽免费视频| 亚洲日韩国产精品综合在线观看| 国产呦精品一区二区三区下载 | 精品一区二区三区四区五区| 亚洲日韩国产精品综合在线观看| 亚洲国产综合自在线另类| 国产免费怡红院视频| 久久鸭综合久久国产| 亚洲网综合| 欧美精品v| 亚洲成A人V欧美综合| 国产成人1024精品| 日韩精品专区免费无码aⅴ| 婷婷综合亚洲| 欧美午夜性视频| 无码区日韩专区免费系列 | 99久久免费精品特色大片| 宅男噜噜噜66国产在线观看| 中美日韩在线网免费毛片视频| 国产剧情无码视频在线观看| 国语少妇高潮| 日韩无码白| 国产福利拍拍拍| 视频国产精品丝袜第一页| 国产成人综合亚洲欧美在| 在线观看国产精品第一区免费| 成人福利免费在线观看| 青草视频久久| 日本国产精品一区久久久| 精品自窥自偷在线看| 成人福利在线视频免费观看| 中文字幕亚洲第一| 亚洲性影院| 免费可以看的无遮挡av无码| 91在线国内在线播放老师| 国产色网站| 亚洲第一成人在线| 99这里只有精品免费视频| 国产精品原创不卡在线| 久久久精品无码一二三区| 色婷婷天天综合在线| 午夜日b视频| 亚洲福利视频网址| 亚洲无码高清一区| 五月婷婷丁香色| 三上悠亚精品二区在线观看| 久久国产拍爱| 亚洲国产黄色| 久久国产精品波多野结衣| 亚洲二三区| 国产99热| 国产成人精品2021欧美日韩| 精品少妇人妻一区二区| 亚洲综合激情另类专区| 国内精品久久久久久久久久影视 | 国产丝袜一区二区三区视频免下载 | 成人亚洲国产| 欧美在线三级| 国产黄在线观看| 国产在线91在线电影| 日本在线免费网站| 国产精品99久久久| 四虎在线高清无码| 54pao国产成人免费视频| www.91中文字幕| 国产精品亚洲а∨天堂免下载| 成人伊人色一区二区三区| 国产亚洲精久久久久久无码AV | 992tv国产人成在线观看| 亚洲欧美日韩成人在线| 成人韩免费网站| 激情六月丁香婷婷四房播| 国产亚洲视频中文字幕视频|