999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于實體間關系的數據空間實體解析技術

2023-10-20 15:51:40祁祥威
現代計算機 2023年15期

祁祥威

(西南交通大學制造業產業鏈協同與信息化支撐技術四川省重點實驗室,成都 611756)

0 引言

實體解析(entity resolution,ER)是一種用于識別數據集中多個數據記錄是否為同一現實世界實體的技術。隨著時代的發展,實體解析成為了大數據應用中數據清洗和數據集成的關鍵技術之一[1],并且在信息檢索、人工智能、機器學習、數據庫等各個領域中都受到了相當的重視。

目前實體解析技術在各個領域都有不同的適用于其領域的方法,但還是以統計學中的概率決策為主,即,計算記錄之間屬性值的相似度,根據相似值與預設的屬性級閾值或記錄級閾值,判斷兩條記錄是否匹配[2]。

而數據空間是以圖數據庫為基礎的數據管理系統,集成了大量異質數據,沒有統一的語義[3],無法將不同的記錄的屬性值進行一一對應,從而無法進行基于統計學的實體解析。但數據空間中存有實體之間的關系,從實體之間的關系入手可以有效地進行數據空間的實體解析任務。

1 相關技術

1.1 數據空間

數據空間是為了應對海量異構的數據,由Franklin 提出的一個概念:一個數據空間由一系列相關的異構資源對象集和資源對象間的關聯關系集組成,包含某個組織或個體相關的一切信息,這些信息可以以任意形式,在任意地方存儲;在將數據加入到數據空間之前,無需像關系數據庫事先為其定義嚴格的關系模式,直接將數據源加入數據空間,并以pay-as-you-go模式實現數據的管理[4]。數據空間主要具有數據優先、模式滯后的特點[5],即優先集成數據,隨著數據的不斷加入再進行數據模式的演化。

1.2 實體關系模型

實體關系模型是一種描述現實世界中實體之間關系的模型,通常被應用于數據庫設計和數據建模領域。實體通常指從現實生活抽象出的一種有區分性的概念,可以指向具體的物體,如房子、車,也可以是一種邏輯上的概念,如交易、訂單。而關系則描述了實體之間的連接方式,一般有三種:“一對一”“一對多”和“多對多”。

2 算法實現

利用實體間關系進行實體解析的思想比較簡單。首先,找到兩側的實體至少有一個具有唯一性的關系,即,實體之間“一對一”或“一對多”的關系,稱為“決策關系”。將決策關系兩端的只能有一個出度或入度的結點(這里表示的是數據記錄)稱為決策結點。例如,“顧客”“酒店房間”之間的“預訂”關系,就可以稱為決策關系,而“酒店房間”則稱為決策結點。因為在這個關系中,“顧客”可以預訂多個“酒店房間”,但是“酒店房間”不能被多個“顧客”預訂(見圖1)。

其次,在數據空間中,查詢所有與決策結點具有決策關系的結點,在這些結點之間增加一個“匹配”關系(見圖2)。

圖2 基于實體關系進行匹配

最后,將結點進行分組合并。具體過程如下:

(1)為每一個結點分配一個整數ID 作為標識;

(2)將這個ID 傳送到與之具有“匹配”關系的相鄰的結點;

(3)使用從相鄰結點接收到的最小值ID 作為結點的新ID;

(4)重復步驟(2)、(3)直到沒有可以更新的ID;

(5)將具有相同ID的結點分為一組;

(6)對于每組內的結點,保留其中一個并使其繼承其它結點的屬性,刪除其它的結點。

3 實驗結果與分析

目前對于異質數據的實體解析任務,尚未有公認的數據集,因此,根據研究對象的特點,構建了包含顧客和房間兩種對象的小規模數據集作為實驗數據,見表1。

表1 包含顧客和房間兩種對象的小規模實驗數據集

如表1所示,顧客擁有的不同屬性用于表達數據空間中集成的異質數據,即,沒有統一的語義。將上述數據進行前文所描述的算法,則可以得到決策實體類型為房間,決策結點為結點1、結點2和結點3。

本文以Neo4J為基礎進行算法的驗證。數據的初始狀態如圖3所示。

圖3 Neo4j中數據初始狀態

通過上文所述算法過程,如圖4 所示,Costomer 4、Costomer 5 和Costomer 6 之間增加了“Matches”關系,而Costomer 7 和Costomer 8之間增加了“Matches”關系。最后通過連通分量算法進行冗余結點的刪除,得到如圖5所示的結果??梢钥闯觯撍惴ê啙嵱行?。

圖4 Neo4j中進行匹配后的數據

圖5 進行屬性繼承和刪除冗余結點后的數據

4 結語

實體解析是一個領域性較強的問題,不同的領域有著適合該領域的方法。對于結構性較強的數據,可以采用基于屬性值相似度計算的辦法。但是在數據空間中,大量的數據是異質,沒有統一的語義,無法運用類似的實體解析方法。本文針對這個問題,從數據空間中的數據關系入手,提出了基于實體關系的實體解析方法,并通過構建小規模數據集驗證了算法的有效性。但是對于缺少決策關系的數據,本算法則有一定的局限性,有待后續研究。

主站蜘蛛池模板: 亚洲成人播放| 色综合成人| 国产剧情一区二区| 午夜视频www| 在线免费看黄的网站| a网站在线观看| 亚洲欧美人成电影在线观看| 91精品网站| 噜噜噜久久| 午夜老司机永久免费看片 | 国产精品美女网站| 精品视频福利| 精品亚洲欧美中文字幕在线看| 国产麻豆aⅴ精品无码| 在线亚洲精品自拍| 丰满的少妇人妻无码区| 激情爆乳一区二区| 97人人做人人爽香蕉精品| 国产呦精品一区二区三区下载| 国产激情无码一区二区APP| 999在线免费视频| 五月丁香伊人啪啪手机免费观看| 国产拍在线| 亚洲AⅤ综合在线欧美一区| 狠狠亚洲五月天| 久久国产精品娇妻素人| 国产第一页免费浮力影院| 精品国产三级在线观看| 她的性爱视频| 国产在线观看成人91| 91精品国产综合久久香蕉922| 免费A级毛片无码免费视频| 超清人妻系列无码专区| 暴力调教一区二区三区| 国产成人1024精品下载| 精品91视频| 国产美女在线观看| 久久人搡人人玩人妻精品一| 91啪在线| 综合色88| 国产国产人成免费视频77777 | 欧美日韩高清在线| 91口爆吞精国产对白第三集 | 久久国产av麻豆| 午夜丁香婷婷| 欧美色丁香| 日韩在线播放中文字幕| 久久国产成人精品国产成人亚洲| 免费在线看黄网址| 成人第一页| 国产sm重味一区二区三区| 久久综合亚洲鲁鲁九月天| 国产jizzjizz视频| 91色国产在线| 美女无遮挡拍拍拍免费视频| 国产色网站| 日韩国产一区二区三区无码| 国产欧美日韩视频怡春院| 区国产精品搜索视频| 久久午夜夜伦鲁鲁片无码免费 | 国产精品流白浆在线观看| 久久这里只有精品2| 亚洲欧美一级一级a| 福利在线免费视频| 国产成人免费| 在线精品自拍| 欧美笫一页| 国产精品一区二区久久精品无码| 99视频在线免费| 亚洲成在线观看| 国内丰满少妇猛烈精品播| 欧美亚洲第一页| 国产福利影院在线观看| 免费国产好深啊好涨好硬视频| 不卡午夜视频| 97色婷婷成人综合在线观看| 女人18毛片久久| 亚洲v日韩v欧美在线观看| m男亚洲一区中文字幕| 国产在线91在线电影| 国产精品熟女亚洲AV麻豆| 亚洲欧美成人在线视频|