999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的廣西非遺知識圖譜構建

2024-01-03 08:42:00李宏杰
現代計算機 2023年21期
關鍵詞:模型

李宏杰,黃 薇,王 奔

(1. 廣西民族大學人工智能學院,南寧 530006;2. 廣西民族大學電子信息學院,南寧 530006)

0 引言

知識圖譜從被提出至今,已經被各行各業廣泛關注和使用[1]。知識圖譜模仿人類推理和解決問題的方式,通過圖表示節點、邊表示節點間的關系來表示知識,從知識圖譜所存儲的知識中獲得解決更復雜問題的能力[2-3]。作為一種結構化的知識形式[4],知識圖譜是一種語義圖,用于表示知識,在各界都得到了廣泛應用。知識圖譜所表示的語義結構化信息特性為許多任務提供了潛在的解決方案,包括問答、推薦和信息檢索,并且許多研究人員認為有更大的發展前景。自“大數據”一詞出現以來,知識圖已經在各個場景和領域得到運用[5]。知識圖譜的應用和構建是兩個重要的研究方向。構造技術的研究側重于圖中知識的提取、表示、融合和推理[6],例如從非結構化文本中提取實體和關系后,將它們正確地連接到知識圖譜,并從這些知識圖譜中推理新的事實。而應用研究則側重于將知識圖譜應用于實際系統和特定領域。知識圖譜作為語義網的數據支撐,近年來成為了研究與應用的熱點問題。知識圖譜將實體表示為節點,實體與實體間的關系表示為節點間的邊,從而形成了一個巨大的知識網絡[7]。

廣西壯族自治區擁有秀美的自然風光資源,豐富的風土人情文化,孕育出燦爛的的非物質文化遺產項目文化和優秀的非物質文化遺產傳承人。廣西擁有著豐富的非物質文化遺產資源,是廣西乃至全國的文化瑰寶,但在傳播與宣傳上存在著明顯的不足,傳播形式不夠多元[8],保護措施不夠完善等。

目前,雖然已有結構化的廣西非物質文化遺產數據,但是仍存在著大量的非結構化數據未被利用與挖掘。從非結構化數據中抽取信息是廣西非物質文化遺產知識構建的一個巨大挑戰。無論是使用基于規則或基于語法等傳統的自然語言的方法都無法準確地從非結構化數據中抽取知識,因此,本文基于BERT模型對非結構化數據進行實體與關系抽取,從而從非機構化數據中準確抽取知識[9-10]。

1 構建廣西非遺知識圖譜

1.1 分詞

中文文本處理的一大難點在于分詞處理,但在特定領域下的中文分詞,無論是精準模式、全模式、搜索引擎模式下的jieba 分詞模式,非遺數據的分詞效果都不理想,見表1。

表1 jieba分詞效果

由于非遺名稱以及非遺數據中的一些詞匯并非通用詞匯,在jieba 原始詞典中并沒有關于非遺領域的詞,導致了使用jieba 分詞后有些實體并沒有被精準地切分出來。分詞的效果會直接影響實體的提取以及最終知識圖譜的構建效果。因此簡單的分詞方法已不適用于非遺數據文本處理。

1.2 詞性標注

詞性標注的方法分為基于規則的詞性標注方法和基于統計的詞性標注方法,基于統計的詞性標注方法主要有隱馬爾科夫模型(HMM)[11]。該模型可以由隱藏狀態序列生成觀測序列。利用該模型進行詞性標注,見表2[12]。

表2 jieba詞性標注

1.3 基于BERT的命名實體識別

由于分詞和詞性標注方法都無法把實體抽取出來,因此,本文使用基于BERT模型的命名實體識別方法對文本中的實體進行抽取。首先,需要把每一個詞轉換成詞向量,這樣做是為了把每一個單詞轉換成可用于計算機計算的向量。獨熱編碼、Word2Vec 和Glove 都是傳統的詞向量模型,但這些詞向量模型僅僅只是把低維的向量影射到更高維的向量空間中,并沒有很好地表現詞與詞之間的關聯。本文使用BERT模型作為詞向量的生成模型,BERT 模型參考上下文信息,相對于其它模型而言可以解決一詞多義的問題。

BiLSTM 模型被廣泛應用于自然語言處理任務中,它的出現代表著LSTM 有更大的改進,更好地解決了卷積神經網絡中梯度消失或梯度爆炸的問題。BiLSTM 層由雙向的LSTM 層組成,即前向和后向的LSTM 層,因此該模型能夠更加精確地獲取上下文信息。基本的LSTM 單元由遺忘門、輸出門、輸入門和記憶單元組成,之間的橫向箭頭被稱為單元狀態,它就像一個傳送帶,可以控制信息傳遞給下一時刻,它保存了每個神經元的狀態。通過門控機制控制信息傳遞的路徑。

BERT-BiLSTM-CRF 模型由詞嵌入層、雙向注意力機制網絡層和條件隨機場層組成。本文采用BIO 標注形式對非遺數據進行數據標注,B表示實體詞的開始字符,I 表示實體詞的其余字符,O 表示與實體無關的字符。先使用BERT 模型預訓練文本字向量,然后通過雙向LSTM 層學習上下文特征,輸出層通過softmax 預測各個標簽的概率,最后通過CRF 模型得到序列標簽,至此就完成命名實體識別任務。命名實體識別預測結果見表3。

表3 命名實體識別預測結果

1.4 關系抽取

關系抽取是抽取兩個實體之間的支配關系,它是關系詞(如:是、位于、所屬等級等)與其否定詞的集合,否定詞也是兩實體之間的一種支配關系。在命名實體識別任務中,識別出句子中廣西非遺項目名和其它實體名,并按照先后順序進行排序。從構建好的關系詞表中抽出關系R 與詞庫中的關系詞進行對比,若關系詞未在詞庫中,則使用詞庫中最相似的詞作為該詞的替換。此時便完成實體間關系的抽取。

至此就完成了廣西非遺知識圖譜構建,知識圖譜構建步驟如圖1所示。

圖1 知識圖譜構建步驟

2 廣西非遺知識圖譜展示

圖2為廣西非遺知識圖譜總圖,我們成功從文本信息中抽取了實體間地域、時間、類別、級別等關系信息,并將數據存儲于Neo4j圖數據庫中。圖3為廣西非遺知識圖譜中部份數據的類別關系。圖4為廣西非遺知識圖譜位置關系圖。

圖2 廣西非遺知識圖譜總圖

圖3 廣西非遺知識圖譜類別關系

圖4 廣西非遺知識圖位置關系圖

3 結語

知識圖譜作為一種人工智能的重要部份,越來越被廣泛地運用到各行各業中。由于廣西非物質文化遺產數據領域特殊,詞匯和表達與日常用詞存在比較大的差異,在該領域的應用研究尚有不足,非遺數據間的時空關聯性不強。廣西非遺知識圖譜的構建為廣西非遺資源保護和傳承提供了新的方向。本文對知識構建和知識存儲進行了分析,但對廣西非遺知識圖譜構建與應用研究還比較淺顯,有待進一步完善。如何把知識圖譜可視化呈現出來,從知識圖譜中挖掘更多的信息,靈活應用知識圖譜將是以后研究的重點。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产毛片高清一级国语| 在线中文字幕网| 日韩高清欧美| 国产69精品久久久久孕妇大杂乱| 国产福利一区二区在线观看| 成人在线观看一区| 国产在线精品99一区不卡| 蜜臀AVWWW国产天堂| 色综合天天娱乐综合网| 在线人成精品免费视频| 99视频在线观看免费| 亚洲精品中文字幕午夜| 国产主播在线一区| 日韩AV无码免费一二三区| 在线观看视频一区二区| 91九色国产porny| 国产综合色在线视频播放线视| 欧美日韩免费在线视频| 波多野结衣第一页| 国产精品白浆无码流出在线看| 国产福利不卡视频| 欧美人与牲动交a欧美精品| 天堂岛国av无码免费无禁网站| 成人综合在线观看| 日日碰狠狠添天天爽| 国产精品自在在线午夜区app| 熟妇人妻无乱码中文字幕真矢织江| 91精品啪在线观看国产| 亚洲中文字幕在线一区播放| 久久semm亚洲国产| 亚洲国产成人综合精品2020| 福利姬国产精品一区在线| 欧美亚洲中文精品三区| 午夜不卡福利| 91人妻在线视频| 一级毛片高清| 国产视频自拍一区| 精品视频在线观看你懂的一区| 任我操在线视频| 色噜噜综合网| 精品福利一区二区免费视频| 美女被狂躁www在线观看| 日韩久草视频| 国产一区二区人大臿蕉香蕉| 国产精品久久自在自线观看| 国产一区二区人大臿蕉香蕉| 五月天香蕉视频国产亚| 国产亚洲一区二区三区在线| 欧美第一页在线| 国产午夜一级淫片| 亚洲国产精品成人久久综合影院| 欧美国产在线一区| 久久视精品| 茄子视频毛片免费观看| 大乳丰满人妻中文字幕日本| 91无码国产视频| 一级毛片免费的| 国产欧美精品一区aⅴ影院| 国产97公开成人免费视频| 欧美激情伊人| 2022精品国偷自产免费观看| 波多野结衣在线一区二区| 亚洲日产2021三区在线| 亚国产欧美在线人成| 免费在线不卡视频| 日日拍夜夜操| 在线看片中文字幕| 欧美一区中文字幕| 重口调教一区二区视频| 综合亚洲色图| 国产婬乱a一级毛片多女| 综合色婷婷| 一边摸一边做爽的视频17国产| 99re热精品视频中文字幕不卡| 日韩精品毛片| 日韩av电影一区二区三区四区| 不卡无码h在线观看| 2020国产在线视精品在| 亚洲AV无码一区二区三区牲色| 人妻丰满熟妇αv无码| 精品免费在线视频| 久青草免费在线视频|