999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體重構的工業知識圖譜搭建方法*

2023-08-17 12:38:24翟值楚靖琦東
通信技術 2023年5期
關鍵詞:規則

翟值楚,靖琦東,滕 磊,李 倩

(中電工業互聯網有限公司,湖南 長沙 410205)

0 引言

知識圖譜具有鮮明的應用靈活性、知識表示精準性和獨特的圖結構特征[1-2],因而被廣泛地應用到工業領域,以解決設備診斷和異常檢測等問題,并能有效減少制造設備的停機時間、資源消耗、錯誤率等。由于工業領域擁有海量的結構化數據和半結構化數據,以及該行業的多樣性,自動生成對應的知識圖譜非常理想,但本體搭建問題卻制約了相關技術的發展。

本體通常分為面向知識的本體和面向領域數據的本體兩類[3-4]。其中,全行業領域專家共同搭建的本體通常為面向知識的本體,它被要求盡可能地涵蓋整個行業所涉及的知識,因此具有涉及面廣、知識精度高、本體復雜度高、人工成本巨大的特點。而面向領域數據的本體,則是在已有領域的知識本體庫中搭建合適的本體來表示該領域子行業或子領域數據。工業數據可能包含數十個類別,許多屬性存在于同一類數據集中,但在其他類別數據集中卻沒有。此外,面向領域數據本體的許多術語并不存在于所有數據集中,通常以該特定領域數據為導向,使用已有的知識型本體庫。因此,面向領域數據的本體在構建時可能會產生大量冗余或大量空白結點,從而導致數據稀疏問題。

知識圖譜的搭建是將已有的結構化或半結構化數據按照建立的映射關系進行實例化的過程,具體如圖1 所示。首先,由領域專家參與構建,因為其反映了行業領域內的知識細節,通常需要多位專家進行密集的討論,才能創建出反映一般領域知識的高質量本體庫;其次,根據不同細分領域及數據的特殊性,行業專家在本體庫中對本體進行選擇,構建出符合當前領域的數據模式;最后,根據已有的數據模式與數據做映射,生成對應的知識圖譜。然而,上述知識圖譜搭建方法還存在一些問題:一是通常不支持非結構化數據;二是需要大量的人工標注,最后生成的實例中會出現復雜度較深及空白的節點。

圖1 知識圖譜搭建流程與關系映射

針對上述問題,本文提出了一種基于本體重構的工業知識圖譜搭建方法,具體貢獻如下:

(1)在已有的工業領域本體重構算法中加入了多模塊匹配機制,以工業領域具體數據為導向,根據規則庫對工業領域通用本體庫中的本體進行重構,降低了重構過程中的人力成本。

(2)使用初始的工業領域知識圖譜對工業領域具體數據進行分析與總結,擴充并獲得新增規則庫;然后采用新增擴充規則庫對工業領域通用本體庫進行修改,減少了空白節點;還使構建的知識圖譜的更新形成閉環,自動完成本體重構及知識圖譜更新。

(3)使用工業領域真實數據,構建了認證機構領域的知識圖譜框架,并與未使用此框架的其他構建方式進行對比,證明了所提出方法的可行性。

1 相關工作

近年來,知識圖譜在工業領域得到了廣泛的關注,主要用于提取海量結構化或非結構化數據的高價值信息,從而輔助業務決策[1-2]。工業領域由于其行業的多樣性及數據的復雜性,通常使用通用的本體庫作為基礎,再根據細分領域以數據為導向轉化為較小的本體庫,這類方法通常涉及本體模塊化及本體摘要[5-6]。但是,這些方法通常只關注獲取本體的子集,而忽略了獲取虛實體導致生成圖譜復雜度較高的問題[7]。例如,Suárez-Figueroa 等人[8]提出了本體重構的方法,但是并未精確瞄準某個專業領域自動構建并反映領域數據的特殊性。Zhou 等人[9]首次針對工業領域數據使用本體重構的方式構建知識圖譜,并提出了本體重構的相關算法,但是在本體重構過程中加入了大量人工標注信息,增加了不同程度的人力成本。在上述研究的基礎上,本文提出了自動化的本體重構過程,并規范了工業領域使用本體重構方式創建知識圖譜的整個流程。

2 整體框架設計

基于本體重構的工業領域知識圖譜搭建框架如圖2 所示,主要包括如下步驟:

圖2 基于本體重構的工業知識圖譜搭建框架

(1)由各專家構建工業領域通用本體庫。這里的工業領域通用本體庫為專家通過密集討論,對本體庫進行擴展,最終形成的可以反映工業領域的通用知識本體。一般使用Protege 軟件生成owl 格式文件。本體庫的構建應具備通用性,搭建完成后可供行業中多個細分領域繼續使用。

(2)加入多模式匹配機制。以工業領域具體數據為導向,根據規則庫對所述工業領域通用本體庫中的本體進行重構,得到具體工業領域本體庫。所述具體工業領域本體庫包括由屬性、關系與實體構成的本體。

(3)根據數據模式生成對應的實例,搭建對應知識圖譜。構建所述本體與數據模式之間的映射關系,并根據所述數據模式生成所述本體對應的實例,搭建初始的具體工業領域知識圖譜。

(4)使用初始的具體工業領域知識圖譜對工業領域具體數據進行分析與總結,擴充并得到新增擴充規則庫。該部分使用SPARQL 作為查詢語句,對已有數據進行查詢,查詢類型包含信息摘要、數據檢驗等。

(5)使用新增擴充規則對領域本體庫進行修改。該步驟采用新增擴充規則庫對所述工業領域通用本體庫進行修改,然后返回到步驟(1),從而形成本體重構的閉環。

3 本體重構方法

3.1 問題描述

直觀來看,這里的本體重構是基于一些啟發式規則和已定義規則的規則庫,從一個較大的本體庫中獲取以數據為導向的本體庫子集。本體重構過程是在已知原始本體等信息的情況下生成特定領域的數據模式,重構公式為:

式中:S為數據模式;O為原始本體庫;D為具體工業領域的原始數據;M為工業領域的具體數據表名與工業領域通用本體庫之間的映射關系;R為根據用戶備注信息及部分啟發式規則生成的規則庫。

3.2 本體重構過程

面向工業領域知識圖譜搭建的本體重構過程加入了多模式匹配機制,包括匹配算法模塊、相似度加權計算打分模塊和本體仲裁模塊。具體過程如下:

(1)使用啟發式規則初始化規則庫R。

(2)使用標注本體AC 初始化數據模式S。根據規則庫中數據模式的類名,增加、刪除和更改規則庫中與工業領域通用本體庫對應的類名、屬性及關系。例如,在原始本體中“認證機構”和“證書”是“擁有”的關系,但依據規則,將其改為“認證”的關系。

(3)將表名通過映射關系M映射到CClass,并將CClass映射到S。將工業領域通用本體庫O可能被映射為類名的屬性添加進屬性集合CAttribute中,并將剩余的類名添加進類名集合CClass中。例如,將“檢查員”添加到CClass集合中,并將“檢查員CCAA注冊號”“生產企業編號”等添加進集合CAttribute中。

(4)將屬性集合CAttribute中的特殊屬性名轉換為類名,并放入類名集合CClass中,其中特殊屬性是指可以唯一標識實體的部分屬性。例如將屬性“企業ID”名轉換為類名并添加進CClass集合中。

(5)基于多模式匹配機制,將屬性集合CAttribute和類名集合CClass與工業領域通用本體庫O中的字段進行關聯重構,得到具體工業領域的本體庫D。如圖3 所示,多模式匹配機制包括匹配算法模塊、相似度加權計算打分模塊和本體仲裁模塊。

圖3 多模式匹配機制

多模式匹配機制的具體關聯過程如下:

①將規則庫中的新增字段集合OT與具體工業領域本體庫D中的類名與屬性集合AT中的元素做元素匹配,得到元素對。這里有3 種匹配情況:一是將集合中的類名與類名進行匹配;二是將新增屬性名所屬的類名與集合中的類名匹配;三是將新增屬性值與匹配類名對應的所有屬性值進行匹配。

②將元素對輸入匹配算法模塊進行相似度匹配,并通過相似度加權計算打分模塊進行打分與標注。匹配算法模塊包括詞性分析單元、句法結構相似度單元、字符串相似度單元、規則相似度單元和規則庫單元。具體計算過程如下:

a.通過詞性分析單元計算元素對的詞性相似度,判斷元素對詞性是否相同,相同為1,不相同則為0。追溯元素對在文本中出現的句子并進行采樣。分析采樣句的句法結構,并計算句法相似度。包含的語法標記如表1 所示。

表1 語法標記

b.通過句法相似度單元計算元素對的句法結構相似度,即:

式中:p為字段a的采樣句子個數;q為字段b的采樣句子個數;sameword表示相同兩句子中相同字段個數;maxeffectword表示句子主干成分中相同字段的個數。

c.通過字符串相似度單元計算元素對的字符串相似度,即:

式中:simedit為字段a到字段b的編輯距離;n為字段a的字符個數;simcos為字段a和字段b之間的余弦相似度。

d.將所述元素對輸入匹配算法模塊進行相似度匹配,并通過相似度加權計算打分模塊進行打分與標注,將打分超過閾值的元素對存入緩存中,得到標注的本體。通過匹配算法模塊進行相似度匹配計算,得到4 種相似度。對4 種相似度通過相似度加權計算打分模塊進行打分,打分公式如下:

式中:simword為詞性相似度;simsent為句法結構相似度;simstr為字符串相似度;simrule為規則相似度。

e.本體仲裁。將4 種相似度進行加權打分后,設置一個閾值,然后對相似度低于閾值的元素對進行舍棄,將大于閾值的元素存入緩存中,并由高到低進行排序。相似的元素若在原始的通用本體庫中存在,則自動進行標注。通過本體仲裁模塊的篩選后,本體庫表現出非連續特點,同時其空白節點減少,匹配的準確率更高。通過本體仲裁模塊得到標注的本體集合AC。該標注的本體集合AC構成具體工業領域本體庫。

3.3 構建知識圖譜

針對工業互聯網領域,構建本體與數據模式之間的映射關系,并根據數據模式生成本體對應的實例,搭建初始的具體工業領域知識圖譜。本文使用R2RML 中的自動化匹配框架[10]。首先,通過自定義映射方式將數據從關系型數據庫與RDF 進行轉化,映射過程可以設置啟發式映射規則,例如:table to class、column to property、row to resource、cell to literal value、in addition cell to URI、if there is a forging key constraint 等。然后,將RDF 數據導入到圖數據庫neo4j 中,生成對應的實例。本體與數據模式之間的映射如圖4 所示。

圖4 本體與數據模式映射

3.4 工業數據分析

使用初始的具體工業領域知識圖譜對工業領域具體數據進行分析與總結,擴充規則庫,得到新增擴充規則庫。具體地,該部分使用SPARQL 協議作為查詢語句[10],對已有數據進行查詢。查詢來源包括:使用用戶關鍵詞查詢方式,獲取用戶關心的關鍵詞;數據分析師輸入關鍵信息的方式,得到查詢信息;預警過程中對出錯數據進行的查詢。查詢過程如下:

(1)預警信息查詢。本文采用如圖5 所示的數據追溯與預警框架,包括預警模塊、數據追溯模塊和可視化模塊。其中,預警包含閾值預警、事件預警、風險預警3 個部分,閾值預警針對已設置閾值的情況進行定時掃描,事件預警針對數據源中發生的事件,風險預警針對數據源中未發生的潛在風險進行定時檢測。數據追溯模塊可以針對預警的發生,判斷預警發生的時間、位置和狀態等元信息。可視化模塊可將預警的狀態、處理時間等信息可視化。

圖5 數據追溯與預警框架

(2)數據自檢。輸入信息后,數據分析員會對涉及的字段進行檢查與糾正,該類查詢會返回對應的屬性列表。

(3)信息摘要。對同一類數據的統計信息概述,例如,“檢察員叫張三的人有多少?”“騰訊科技公司擁有多少項證書?”

(4)異常處理。針對已經報錯的異常信息,數據分析師會找尋其周圍環境,查詢異常發生的附近環境,如檢測異常的證書、操作等。

最后,采用新增擴充規則庫對工業領域通用本體庫進行修改,將修改后的工業領域通用本體庫當作原始本體,從而形成本體重構及知識圖譜更新的閉環。

4 實驗與性能分析

本文實驗采用了市場監督管理總局認證監督管理司及各認證機構提供的數據集,數據集中包含200 萬家企業提供的認證數據,共涵蓋150 余個字段、5 000 余萬條記錄。實驗中面向知識領域的本體由專家生成,包含282 個類和305 個屬性。將原始數據中所有的屬性與本體中的屬性進行映射,其中用戶信息包括用戶指定信息或其他可能的相關屬性設計信息。為了測試本體重塑在數據集D中的表現,將數據集隨機分為6 個子數據集。每個子集反映了不同的數據復雜度,將子集中的屬性數量增加10 倍,對子集重復采樣10 次以減少隨機性。

作為對比,本文使用未進行本體重構的數據集作為基準方法,直接使用領域本體作為數據模式,以平均查詢深度和最大查詢深度作為評估指標,最終實驗結果如表2 所示。

表2 實驗結果分析

實驗結果表明,當檢索相同的答案時,本文所提出的方法大大簡化了查詢深度,有效降低約2 個平均查詢深度,這表明生成的數據模式針對該領域的數據變得更加實用,可以通過更短的查詢來獲得相同的信息。此外,筆者還觀察到,在進行本體重構之后,數據模式變得更加簡單有效,生成速度加快了近10 倍,實體的數量減少到基準方法的1/3,存儲空間減少為之前的一半,空白節點的數量幾乎減少到零。因此,總體來說,本文所提出的方法可以有效降低重構成本,加快生成與查詢速度。

5 結語

針對工業領域的知識圖譜搭建問題,以真實工業數據為導向,提出了一種基于本體重構的工業知識圖譜搭建方法。相比于以往方法,在已有本體重構算法中加入多模塊匹配機制,根據規則庫對工業領域通用本體庫中的本體進行重構,降低了重構過程中的人力成本。在此基礎上,使用初始的具體工業領域知識圖譜對工業領域具體數據進行分析與總結,擴充規則庫,并基于新增擴充規則庫對工業領域通用本體庫進行修改,減少了空白節點,使構建的知識圖譜的更新形成閉環。最后,基于真實的工業數據集驗證了方法性能,實驗結果表明所提出的方法可有效降低重構成本,加快數據生成與查詢速度。

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 国产在线98福利播放视频免费| 人人看人人鲁狠狠高清| 国产亚洲美日韩AV中文字幕无码成人| 国产在线观看91精品| 欧美日韩导航| 高清无码手机在线观看| 欧美日本在线| 国产成人一区在线播放| 欧美一区二区三区不卡免费| 亚洲第一成年网| 亚洲综合二区| 呦视频在线一区二区三区| 欧美激情视频一区| 精品国产免费观看| 免费大黄网站在线观看| 乱人伦中文视频在线观看免费| 国内丰满少妇猛烈精品播 | 欧美在线导航| 91人妻在线视频| 欧美亚洲一二三区| 无码中文字幕精品推荐| 亚洲欧美另类日本| 日本国产在线| 亚洲欧洲日韩久久狠狠爱| 思思99思思久久最新精品| 欧美在线综合视频| 园内精品自拍视频在线播放| 一区二区三区四区精品视频| 国产在线一区二区视频| 视频二区中文无码| 免费不卡在线观看av| 日韩 欧美 小说 综合网 另类| 9丨情侣偷在线精品国产| 午夜视频在线观看免费网站| 亚洲日本一本dvd高清| 色婷婷视频在线| 亚洲va欧美ⅴa国产va影院| 99伊人精品| 国产精品色婷婷在线观看| 秋霞午夜国产精品成人片| 少妇精品在线| 亚洲成人网在线播放| 一级看片免费视频| 在线国产资源| 91在线一9|永久视频在线| 亚洲天堂免费| 999精品免费视频| 四虎永久免费地址| 鲁鲁鲁爽爽爽在线视频观看 | av天堂最新版在线| 综合亚洲色图| 精品国产成人高清在线| 不卡视频国产| 色哟哟国产精品一区二区| 999国产精品| 亚洲第一成年免费网站| 国产18页| 国产国产人在线成免费视频狼人色| 欧美国产日韩另类| 国产日产欧美精品| 亚洲一区二区三区麻豆| 国产欧美性爱网| 日本色综合网| 亚洲不卡影院| 亚洲欧洲自拍拍偷午夜色| 波多野结衣久久高清免费| 91伊人国产| 欧美黑人欧美精品刺激| 国产剧情伊人| 国产精品无码AV中文| 狼友av永久网站免费观看| 一级毛片免费观看久| 日韩av高清无码一区二区三区| 国产亚洲美日韩AV中文字幕无码成人 | 国产精品尹人在线观看| 色综合成人| 无码免费的亚洲视频| 一本大道视频精品人妻| 凹凸精品免费精品视频| 8090午夜无码专区| 国产午夜福利亚洲第一| 国产一在线|