999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文物知識圖譜構(gòu)建關(guān)鍵技術(shù)研究與應(yīng)用

2023-06-02 23:52:01牛魁明
計算機應(yīng)用文摘 2023年10期

牛魁明

關(guān)鍵詞:文物保護;知識圖譜;三元組;關(guān)聯(lián)數(shù)據(jù)

1構(gòu)建文物知識圖譜的關(guān)鍵技術(shù)

1.1實體抽取技術(shù)

實體抽取技術(shù)又被稱作實體識別技術(shù)。該技術(shù)指在原始語料中自動識別和獲取命名實體。常見的實體抽取技術(shù)主要包括通過統(tǒng)計機器學(xué)習(xí)方法抽取實體、根據(jù)規(guī)范和字典抽取實體以及通過深度認(rèn)知技術(shù)抽取實體。近年來,科學(xué)家嘗試以國際微生物命名規(guī)范和國際微生物學(xué)字典為依據(jù)確定文件中的微生物命名,并建立以國際微生物名稱標(biāo)準(zhǔn)為依據(jù)的實體識別方法。技術(shù)人員便可以通過改進條件獲得明信片中的地址實體。部分技術(shù)人員通過微博文腳本在滑動窗口上創(chuàng)建預(yù)測標(biāo)簽,并通過深度認(rèn)知技術(shù)完成實體識別。博物館文物知識中涉及較多專用名詞,名詞命名規(guī)律并不具備規(guī)律,當(dāng)文物名稱在文本中出現(xiàn)時,很難利用機器學(xué)習(xí)識別文物正確名稱。所以,為了保證抽取實體準(zhǔn)確率,必須采用以詞典和規(guī)則為基礎(chǔ)的方法達成實體抽取目標(biāo)。

1.2實體關(guān)系和屬性抽取技術(shù)

實體關(guān)系和屬性抽取技術(shù)通過三元組表示方法呈現(xiàn),即通過“實體一關(guān)系一實體”的對象屬性或“實體一屬性一屬性值”方式表達。其中,屬性指的是數(shù)據(jù)屬性,數(shù)據(jù)屬性的屬性值歸于文本類型,而對象屬性的屬性值則歸屬于另一個實體。而依照信息的資源類型劃分,三元組提取方法也可被劃分為2種類型,即基于基礎(chǔ)結(jié)構(gòu)化信息和半結(jié)構(gòu)化信息的三元組提取方法、基于非結(jié)構(gòu)化信息的三元組提取方法。基礎(chǔ)結(jié)構(gòu)化或半結(jié)構(gòu)化信息都具有一種較好的分布結(jié)構(gòu),大眾能夠很容易地在其中獲取所需的三元組。而非結(jié)構(gòu)化數(shù)據(jù)僅使用比較規(guī)則,屬于自然語言的文本類型,由于中文句法和語言系統(tǒng)的復(fù)雜性特點導(dǎo)致三元組工作過程具有復(fù)雜特征。目前,常見提取技術(shù)分為基于深度學(xué)習(xí)的三元組提取、基于機器歇息的三元組提取以及基于模式匹配的三元組提取。

1.3實體鏈接技術(shù)

在知識融合的過程中,要對抽取的三元組進行有效處理,再將其融人自身知識圖譜之中,包括實體消歧和鏈接2種方式。其中,實體消歧指的是把名字中具有歧義的成分映射到具體知識中,以避免同一個實體的一詞多義現(xiàn)象。基本解決辦法將候選實物與知識圖譜中的實體指稱一個特征向量,并對其展開聚馓花序,完成整個實物消歧過程。進行消歧作用時,將其連接在圖上已出現(xiàn)的實物上,這稱為實體連接。

2構(gòu)建文物知識圖譜的實際流程

知識圖譜在實質(zhì)上屬于一種以圖像為基本的語義網(wǎng)絡(luò)內(nèi)容,其主體部分就是節(jié)點和邊。這里的節(jié)點主要指的是現(xiàn)實世界中實體內(nèi)容,邊指的是實體間的內(nèi)在聯(lián)系。知識圖譜使實際世界中的所有實體之間形成了聯(lián)系,主體結(jié)構(gòu)由“實體一關(guān)系一實體”或“實體一屬性一屬性值”這類三元組所構(gòu)成。以知識圖譜為基礎(chǔ)的搜索引擎,實現(xiàn)了從傳統(tǒng)Web頁面連接到實體連接之間的轉(zhuǎn)換,能夠直接為用戶指明搜索主體,在語義方面服務(wù)用戶獲取檢索意圖。通過知識圖譜檢索方式,用戶可以精準(zhǔn)獲取所需信息,具體流程如下。

2.1知識表示

半結(jié)構(gòu)化數(shù)據(jù)中包括很多文物知識,知識圖譜中的數(shù)據(jù)存儲形式具備結(jié)構(gòu)化特征。所以,文物知識圖譜主要研究的內(nèi)容是在結(jié)構(gòu)化數(shù)據(jù)中獲取文物結(jié)構(gòu)化知識,整合與構(gòu)建文物知識圖譜,將其應(yīng)用到文物知識推理中。而文物知識圖譜的形成與應(yīng)用過程蘊含的關(guān)鍵概念是文物人士表示。例如,國際萬維網(wǎng)協(xié)會所制定的資源描述框架技術(shù)標(biāo)準(zhǔn)就是以三元組表示為依據(jù)。當(dāng)前,知識信息表示技術(shù)仍然面臨知識信息缺失和運算質(zhì)量較低等情況。傳統(tǒng)知識庫的知識信息表示技術(shù)以一階謂詞為基準(zhǔn),構(gòu)成了符號信息表示模式中的最后一類,可以有效拓展二階邏輯信息表示功能。現(xiàn)代知識庫圖譜在語義描述領(lǐng)域的范圍已大幅縮小,以事實的知識為基礎(chǔ)特征。隨著計算式知識發(fā)展和深度神經(jīng)網(wǎng)絡(luò)發(fā)展,向量數(shù)據(jù)表征方法也將日益受到大眾關(guān)注。對于以向量數(shù)據(jù)為核心的表征目的可以有效表述的實體數(shù)據(jù),如非結(jié)構(gòu)化的數(shù)據(jù)。利用計算機學(xué)習(xí)、數(shù)據(jù)方法等手段的向量特點,可以把具體的文物關(guān)系抽象成數(shù)字的向量特征,為文物關(guān)系的發(fā)現(xiàn)奠定了堅實基礎(chǔ)。

以向量為基礎(chǔ)的知識可以被嚴(yán)格地區(qū)分為無知識表示與知識表示2個形式。其中,無學(xué)習(xí)數(shù)據(jù)表示方式中的最常用表示方式就是單獨熱表。這種描述方式把知識描述成只具有一個維度的非零向量。為區(qū)別不同知識,獨熱表示向量的向量維度更多。獨熱表示不能充分利用對象間語義相似度信息,會受到數(shù)據(jù)不足影響,計算效率無法得到提升。知識表示相對于獨熱表示而言,通過有效學(xué)習(xí)階段能夠有效使用對象間語義信息,減少知識表示向量維度。近年來,知識表示技術(shù)的出現(xiàn)使得研究人員逐漸從多維角度解決復(fù)雜建模問題,也逐漸構(gòu)建了多個新模型,提升了表示性能。

2.2知識抽取

博物館專家大多通過人工整理的方法建立了知識圖譜數(shù)據(jù),工作效率不能得到提升,自動化和數(shù)字化的特點還不夠突出,無法形成大規(guī)模、標(biāo)準(zhǔn)化和系列化的數(shù)據(jù)系統(tǒng)。所以,便捷地獲取和加工文物保護信息是形成知識圖譜的關(guān)鍵環(huán)節(jié)。在文物知識獲取過程中,所有文物數(shù)據(jù)都主要來自現(xiàn)存的博物館數(shù)據(jù)庫,而數(shù)據(jù)庫中數(shù)據(jù)又多為結(jié)構(gòu)化的網(wǎng)頁信息和非結(jié)構(gòu)化文本信息,其中包括圖片、考古文獻、歷史資料,以及網(wǎng)絡(luò)數(shù)據(jù)等。而通過人工獲取數(shù)據(jù)信息并無法完成專業(yè)知識的積累,而必須借助數(shù)字化機器技術(shù)和深度學(xué)習(xí)技術(shù)實現(xiàn)。知識抽取方法主要分為文物特性抽取、關(guān)系提取、實物抽取和屬性提取等。在知識提取基礎(chǔ)上對專業(yè)知識加以總結(jié),并綜合了實物對齊、質(zhì)量評價以及知識更新等內(nèi)容,從而形成了較為完整的文物知識圖譜。

2.3知識融合

除了數(shù)據(jù)描述與數(shù)據(jù)提取技能,數(shù)據(jù)圖譜的形成還必須考慮多源數(shù)據(jù)整合、復(fù)雜推理方法等。知識整合主要指的是通過對齊多種數(shù)據(jù)信息,并對數(shù)據(jù)加以有效整合,以建立全局一致的信息標(biāo)識并與知識關(guān)聯(lián)。知識整合也是知識圖譜建設(shè)中的重要環(huán)節(jié),通過開展知識整合工作可充分體現(xiàn)更開放的信息意識和互聯(lián)思想。比如,TransE使用了知識圖譜中的三元組結(jié)構(gòu)信息達成了表示學(xué)習(xí)目的。因此,整合這些異構(gòu)多源數(shù)據(jù),對于知識庫的整合來說十分必要。基于本體描述中的知識庫表示方式學(xué)習(xí)模式,以及在基于文本的知識庫中的知識表示方式具有代表性特點。多源信息整合有助于提高信息表示效能,也有助于提高信息實體的表征特性。多源信息整合的數(shù)據(jù)圖譜建設(shè)仍處在初期,成果數(shù)量很少,大量數(shù)據(jù)資料還不能得到考慮,仍具有相當(dāng)廣闊的研究空間。另外,以關(guān)系路徑知識表示學(xué)習(xí)為基礎(chǔ),通過實體關(guān)系和關(guān)系路徑的推理模式進行推理已經(jīng)成為未來研究的重要方向。

2.4知識加工

通過數(shù)字化手段可以做到對文物保護資料與信息的合理調(diào)取與集成,也可以對文物保護信息進行有效的整理。比如,信息推理、內(nèi)容創(chuàng)新和品質(zhì)評價等工作。以上文物信息與文物保護資料的信息與數(shù)據(jù)規(guī)范并不統(tǒng)一,如果是依據(jù)統(tǒng)一標(biāo)準(zhǔn)對它加以識別,將容易造成重疊及錯誤數(shù)據(jù)現(xiàn)象的發(fā)生。因此,對抽取的文物保護信息進行多次比較、加工,刪除統(tǒng)計重復(fù)的數(shù)據(jù),留下最完整規(guī)范的信息流。

3構(gòu)建文物知識圖譜的具體方法

3.1藏品文物知識問答

天津大學(xué)軟件工程專業(yè)學(xué)者楊偉強與山西博物館技術(shù)工作人員建立合作關(guān)系,根據(jù)博物院的100多件具有特色的博物館藏品所形成的信息圖譜,提供基于信息表達的本體模式和標(biāo)準(zhǔn)規(guī)范,實現(xiàn)以圖信息中數(shù)據(jù)的傳遞、信息保存與數(shù)據(jù)集成等最基本的信息功能。同時,提供館藏文物查詢和文物信息問答等人機交互功能,以提高文物陳列展示、資料分析和信息的輔助管理能力。由于文物基礎(chǔ)僅有100件,文物基礎(chǔ)類型比較有效,所以文物覆蓋面也并不大。因此,大量文物的基礎(chǔ)資料依舊采用自然語言的方式表達,在前期自然語言規(guī)范形式上會受到較大限制,可能會出現(xiàn)文物知識問答偏差的問題。問答偏差問題也是將來要攻克的主要知識問答弊端。

3.2文物知識圖譜可視化展示

董其昌數(shù)字人文知識圖譜中,以董其昌的書畫作品及其一生經(jīng)驗為主要認(rèn)知線索,具有重要的影像交游、文化、鑒藏、藝術(shù)發(fā)展的歷史脈絡(luò)。應(yīng)用機器學(xué)習(xí)CNN模型與卷積網(wǎng)絡(luò)的圖像數(shù)據(jù)引擎,為董其昌的書畫作品提供了數(shù)字化展示與網(wǎng)絡(luò)化研究,并應(yīng)用可視化方式為董其昌作品提供了“主體一表達一時代”的綜合維度,建立了研究藝術(shù)元素和樣本的系統(tǒng)[1]。同時,應(yīng)用機器學(xué)習(xí)并構(gòu)建社交媒體圖示,能夠更好地分析作者的交友圈,為其設(shè)計全方面立體化圖景。利用Gephi和Python可視化方式展現(xiàn)董其昌作品年表,預(yù)留我國歷史人物傳記資料庫和歷史地圖集這類數(shù)據(jù)庫接口,能夠為未來發(fā)展奠定基礎(chǔ)。對文物知識圖譜而言,其自身數(shù)據(jù)量和覆蓋范圍有限,大量工作均需要人工作業(yè)完成。實現(xiàn)知識圖譜自動化導(dǎo)人和更新能夠提升圖譜的準(zhǔn)確性與穩(wěn)定性,知識圖譜準(zhǔn)確性的提升已經(jīng)成為未來工作的重要研究方向。文物知識圖譜范圍內(nèi)的知識研究可以保證博物館中的文物獲取新的活力,有利于博物館更好地敘述背后故事,強化大眾的文化素養(yǎng)。

3.3文物知識圖譜輔助決策

以“發(fā)現(xiàn)·養(yǎng)心殿——主題數(shù)字體驗展”展覽為例,展覽中的知識圖譜打破了各個文物之間的壁壘,使得資源呈現(xiàn)出共享態(tài)勢,通過文物角度觀察到整個中國歷史文化的發(fā)展。利用云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)和移動通信等新技術(shù),實現(xiàn)博物館智能管理、智慧服務(wù)和智慧保護3大功能,切實達成“智慧博物館”建設(shè)目標(biāo),給文物賦予了新的生命力[2]。

4構(gòu)建文物知識圖譜的未來展望

4.1擴展現(xiàn)有知識表示方法

當(dāng)前科技背景下,以本體工程原理為依據(jù)的知識表述和知識描述仍然是知識圖譜形成的重要手段,而借助在RDFS和OWL中對知識元特征的明確界定,就可以形成知識圖譜模式層次的合理構(gòu)造。圖譜研究的焦點仍然聚焦于材料屬性、實物特征方面。文物描述中涵蓋大量時間、空間和歷史事件內(nèi)容,使得我們對文物背后的歷史認(rèn)識理解水平提高之后,必然拓展已有的認(rèn)識表達方式,對文物時序內(nèi)容、事件知識和空間知識表示方法進行擴充[3]。知識圖譜自身的關(guān)注重點逐漸被轉(zhuǎn)移到位置事件、時序等知識上,更高效地描繪事件發(fā)展變化特征,為預(yù)測類應(yīng)用形態(tài)提供必要支持。

4.2融合利用多源異質(zhì)數(shù)據(jù)

國內(nèi)各個地區(qū)的博物館數(shù)字化資源庫建設(shè)已經(jīng)成為共識,數(shù)字化資源建設(shè)進程也得到推進,獲得了一定成果[4]。數(shù)字化資源建設(shè)以大量結(jié)構(gòu)化數(shù)據(jù)為基礎(chǔ),當(dāng)前已經(jīng)提供了較多的結(jié)構(gòu)化數(shù)據(jù),但文字、圖片等非結(jié)構(gòu)化資源的提取數(shù)量卻仍然亟待增加。文物保護中的許多文物知識資料研究都是采用圖文信息融合的方法進行,因為圖片和文本信息都涉及文物資訊知識,所以針對文物保護信息材料知識具備的特征,對文物保護意識的探索就應(yīng)以同時處理文本信息和影響信息的知識表示獲取方式為依據(jù),探索利用不同文字信息和圖片特點的獲得途徑,提高命名實體辨識準(zhǔn)確率和召回度,提高文物保護信息知識語言表達能力。

4.3構(gòu)建聚合式文物元數(shù)據(jù)模型

研究當(dāng)前國內(nèi)外各個博物館的網(wǎng)絡(luò)架構(gòu)和數(shù)字資源可以看出,大部分?jǐn)?shù)據(jù)項目均屬于獨立開展形式,國內(nèi)數(shù)據(jù)共享和管理模式?jīng)]有形成。如果利用信息圖譜方法,通過信息整合手段使不同領(lǐng)域數(shù)字化信息實現(xiàn)高效連接,就能產(chǎn)生以知識為主體的海量數(shù)據(jù)庫信息,可以為全面的信息系統(tǒng)資源整合提供條件,使之獲得足夠的技術(shù)手段與資料基礎(chǔ)[5]。若要更好地實現(xiàn)這一目標(biāo),則必須做到整合并明確不同行業(yè)、領(lǐng)域和企業(yè)的數(shù)據(jù)文物資源信息中的語義表達標(biāo)準(zhǔn),并深入發(fā)掘其內(nèi)涵關(guān)系,對數(shù)字文物資料內(nèi)涵進行細粒度描述和去格式化語義描述。

在多重實踐證實的前提下,為了確定目前現(xiàn)有文化遺產(chǎn)理論,需要建立與多域元數(shù)標(biāo)準(zhǔn)一致的語義實踐框架模式。在維護這一框架的基礎(chǔ)上,通過整合更多源數(shù)據(jù)應(yīng)用程序概要,通過利用現(xiàn)有的成熟元數(shù)據(jù)基礎(chǔ)元素和語料內(nèi)容,迎合文化遺產(chǎn)范圍內(nèi)的其他類和屬性標(biāo)準(zhǔn)化協(xié)議,通過共同構(gòu)建聚合的元數(shù)據(jù)模型和實現(xiàn)對數(shù)據(jù)歷史的語義管理,降低元數(shù)據(jù)開發(fā)的整體成本。

4.4提供泛在化文物知識圖譜應(yīng)用服務(wù)

通過文物大數(shù)據(jù)分析的信息化采集形成文物信息圖像,并通過推擠分析技術(shù)發(fā)現(xiàn)不同文物具備的人文、歷史、藝術(shù)、思想和信仰等內(nèi)容,可以讓群眾對文物承載的歷史發(fā)展脈絡(luò)、社會演變過程有更加全面的了解。利用文物信息畫紙挖掘文物保護資源中內(nèi)容的有序化與信息間的相互關(guān)聯(lián),使用者可通過更加開放的軟件開發(fā)接口,在移動通信設(shè)備以及APP、網(wǎng)站等系統(tǒng)應(yīng)用中嵌入獲取的信息數(shù)據(jù)集,為用戶提供更加廣泛的數(shù)字非物質(zhì)文化遺產(chǎn)服務(wù),從而確保了文物的信息資料被有效開放共享,進一步提高了文物資訊、商品、服務(wù)渠道等信息消費鏈條的設(shè)計效率,有效融合中華民族的優(yōu)秀傳統(tǒng)文化和現(xiàn)代公共文化服務(wù)體系。

5結(jié)束語

為適應(yīng)文物保護與文物管理工作的需要,滿足大眾對文物保護認(rèn)識的需求,應(yīng)該在當(dāng)前科技環(huán)境背景下引入新型手段。博物館文物知識圖譜系統(tǒng)應(yīng)用了新的互聯(lián)網(wǎng)信息技術(shù),作為博物館公教傳遞的新業(yè)務(wù)方式,通過建立與文物數(shù)據(jù)庫間的信息聯(lián)系,能夠把文物知識與數(shù)據(jù)資訊加以高效集成,并利用計算機等智能語言及時反映有關(guān)文物保護活動的基本信息,從而有效地處理了文物資源保存、收集與展示過程中存在的各種問題。

主站蜘蛛池模板: 久久综合五月婷婷| 亚洲天堂免费在线视频| 亚洲第一视频网| 亚洲日韩精品综合在线一区二区| 欧美午夜网站| 国产chinese男男gay视频网| 中国国产A一级毛片| 免费毛片全部不收费的| 伊人久热这里只有精品视频99| 国产精品亚洲五月天高清| 亚洲成a人在线观看| 免费人成视频在线观看网站| 亚洲男人在线| 91精品免费久久久| 亚洲精品视频免费| 国内精品自在自线视频香蕉| 亚洲欧洲日产无码AV| 99国产在线视频| 国产综合亚洲欧洲区精品无码| 一本大道香蕉久中文在线播放| 国产毛片不卡| 国产成人高清亚洲一区久久| 国产在线91在线电影| 久久国产精品影院| 国产无人区一区二区三区| 婷婷亚洲视频| 亚洲天堂成人在线观看| 91黄色在线观看| 伊人激情久久综合中文字幕| 狠狠做深爱婷婷综合一区| 色综合热无码热国产| 国产黄色片在线看| 国产成年无码AⅤ片在线| 亚洲码在线中文在线观看| 狠狠色丁婷婷综合久久| 免费人成又黄又爽的视频网站| 国产亚洲欧美另类一区二区| 免费在线国产一区二区三区精品| 91久久国产综合精品女同我| 色欲综合久久中文字幕网| 亚洲第一区在线| 久久一本日韩精品中文字幕屁孩| 国产又色又刺激高潮免费看| 国产美女主播一级成人毛片| 精品视频一区二区三区在线播 | 91精品国产91久久久久久三级| 国产99热| 成人日韩精品| AV天堂资源福利在线观看| 亚洲成人在线免费| 国产精品免费入口视频| 九九热在线视频| 亚洲黄色视频在线观看一区| 国产免费精彩视频| 国产乱人乱偷精品视频a人人澡| 国产精品不卡片视频免费观看| 亚洲成a人在线播放www| 污网站在线观看视频| 成人免费午间影院在线观看| 小蝌蚪亚洲精品国产| 精品国产www| 国产亚洲精品97在线观看| 一本一道波多野结衣av黑人在线| 亚洲国产欧美国产综合久久| 久久综合AV免费观看| 精品伊人久久久香线蕉 | 欧美中日韩在线| 最新痴汉在线无码AV| 91亚洲免费| 黄色免费在线网址| 国产嫖妓91东北老熟女久久一| 精品无码一区二区三区在线视频| 国产成人区在线观看视频| 亚洲成a人片77777在线播放| 日本高清在线看免费观看| 日韩一区精品视频一区二区| 国产电话自拍伊人| 91小视频在线观看免费版高清| 日韩av在线直播| 久久99国产视频| 2021国产在线视频| 少妇高潮惨叫久久久久久|