999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的領(lǐng)域知識圖譜構(gòu)建研究

2023-01-06 09:56:18郭偉鵬沈松雨
科技創(chuàng)新與應(yīng)用 2022年36期
關(guān)鍵詞:模型

郭偉鵬,沈松雨

(1.廣州城市信息研究所有限公司,廣州 510665;2.公安部第三研究所,上海 200031)

2012年5月17日,谷歌公司(Google Inc.)首次提出知識圖譜(Knowledge Graph,KG)的概念,旨在描述客觀世界的概念(Concept)、實體(Entity)、事件(Event)及其之間的關(guān)系(Relation),作為構(gòu)建下一代智能化搜索引擎的核心能力。知識圖譜的本質(zhì)是一種大規(guī)模的語義網(wǎng)絡(luò)。知識圖譜作為新興的人工智能技術(shù),可以有效地挖掘和分析知識實體間的相互聯(lián)系,從而促進知識的交叉融合[1]。在一個成熟的面向特定領(lǐng)域的知識圖譜中,通常存儲數(shù)十億條實體,數(shù)百億條實體與實體之間的關(guān)系。基于領(lǐng)域知識圖譜,無論用戶輸入該領(lǐng)域相關(guān)何種關(guān)鍵字,知識圖譜均能呈現(xiàn)與該關(guān)鍵字密切相關(guān)的實體及關(guān)系。例如,騰訊公司(Tencent)基于社交數(shù)據(jù)構(gòu)建了社交網(wǎng)絡(luò)空間,將社交網(wǎng)絡(luò)轉(zhuǎn)換為知識圖譜[2]。該圖譜在人與人之間、人與群體之間及群體與群體之間構(gòu)建出復(fù)雜的關(guān)系網(wǎng)絡(luò),通過某個人的屬性信息,便能夠快速找出所在學(xué)校和社區(qū)相關(guān)人員的關(guān)鍵信息,并研發(fā)出關(guān)系推薦系統(tǒng),如通過相同好友、地理位置(Geographical Location)或者同群組等關(guān)系,推薦出可能認識的人。

隨著信息技術(shù)的快速發(fā)展,當(dāng)今世界步入信息爆發(fā)性增長的時代[3],社會治理工作更依賴于大規(guī)模信息檢索與分析技術(shù)。目前諸多單位已經(jīng)積累了大量的具有位置屬性的網(wǎng)格事件數(shù)據(jù)資源。研究表明,80%的人類活動信息與地理位置有關(guān)。這些重要的網(wǎng)格事件數(shù)據(jù)資源普遍具有海量、多源及異構(gòu)的特點。為整合這些異構(gòu)環(huán)境下的海量數(shù)據(jù)資源,提高數(shù)據(jù)價值密度,迫切需要構(gòu)建基于位置數(shù)據(jù)的網(wǎng)格事件領(lǐng)域知識圖譜,以滿足大數(shù)據(jù)環(huán)境下的地址搜索、事件關(guān)聯(lián)及網(wǎng)格員調(diào)度推薦等各類的業(yè)務(wù)需求。基于位置的網(wǎng)格事件數(shù)據(jù),如何構(gòu)建價值密度較高、知識較為豐富的網(wǎng)格事件領(lǐng)域知識圖譜成為一個難點。

自然語言處理(Natural Language Processing,NLP)是人工智能的核心技術(shù)[4],實體關(guān)系提取和語義分析均屬于典型的自然語言處理工作。作為人工智能領(lǐng)域重要的研究方向之一,已經(jīng)出現(xiàn)諸多自然語言處理方法和模型。同時,隨著機器學(xué)習(xí)模型算法在各領(lǐng)域的廣泛應(yīng)用,自然語言處理算法顯然已從以規(guī)則為核心逐步發(fā)展為以統(tǒng)計為核心,并且以統(tǒng)計為核心的自然語言處理算法已深入應(yīng)用在命名實體識別、實體關(guān)系提取等典型的自然語言處理工作中。然而,目前常用的自然語言處理算法如CRF條件隨機場、BILSTM雙端長短記憶門等,通常需要大量的人工標(biāo)注樣本作基礎(chǔ)支撐,而這項標(biāo)注樣本工作耗時比較多,這顯然增加了語料生產(chǎn)的人工成本,影響了自然語言處理算法實現(xiàn)的經(jīng)濟可行性。

為解決網(wǎng)格事件領(lǐng)域知識圖譜構(gòu)建過程中標(biāo)注成本高昂的問題,本文將采用BERT(Bidirectional Encoder Representation from Transformers)雙向轉(zhuǎn)換的編碼器遷移學(xué)習(xí)算法模型。BERT模型基于Transoform深度學(xué)習(xí)架構(gòu),采用注意力機制實現(xiàn),BERT模型作為預(yù)訓(xùn)練模型的典型被廣泛關(guān)注[5]。BERT模型的核心思想是使用大體量廉價的非標(biāo)注語料進行預(yù)訓(xùn)練(Pre training),實現(xiàn)具有特定領(lǐng)域特征的文本分布式表示的預(yù)訓(xùn)練模型;基于該預(yù)訓(xùn)練模型,僅用少量人工標(biāo)注作輔助語料,便可對預(yù)訓(xùn)練模型進行微調(diào),進而可解決領(lǐng)域業(yè)務(wù)問題解答的算法模型。本文的研究表明,在網(wǎng)格事件領(lǐng)域,基于BERT預(yù)訓(xùn)練模型在模型訓(xùn)練的準(zhǔn)確率方面表現(xiàn)良好。

1 研究方法

1.1 總體思路

基于多層雙向轉(zhuǎn)換編碼的BERT模型是一種新型的語言處理技術(shù),該模型通過對每一層的雙向轉(zhuǎn)化器調(diào)節(jié)進行預(yù)訓(xùn)練。BERT模型的出現(xiàn)是自然語言處理領(lǐng)域的一次重大進步,其顯著改變了預(yù)訓(xùn)練過程中詞向量和下游具體自然語言處理任務(wù)之間的關(guān)系。該模型分2個階段,第一階段進行模型預(yù)訓(xùn)練,即采用大體量非標(biāo)注語料作預(yù)訓(xùn)練,獲得文本分布式表示,其結(jié)果和上下文緊密關(guān)聯(lián);第二階段進行模型微調(diào)(Fine Tuning),即使用訓(xùn)練好的模型遷移學(xué)習(xí)到下游的訓(xùn)練任務(wù),并采用有標(biāo)注的訓(xùn)練樣本對其進行模型微調(diào),進而獲得特定領(lǐng)域的知識,減少訓(xùn)練時資源、時間等方面消耗。BERT模型典型體系結(jié)構(gòu)如圖1所示。

圖1 BERT模型典型體系結(jié)構(gòu)

1.2 預(yù)訓(xùn)練

本文采用廣東省信息點數(shù)據(jù)、廣東省地址數(shù)據(jù)、廣東省某轄區(qū)網(wǎng)格事件數(shù)據(jù)構(gòu)建BERT預(yù)訓(xùn)練模型,一方面可以有效降低網(wǎng)格事件領(lǐng)域知識圖譜構(gòu)建過程中,自然語言處理模型人工語料標(biāo)注成本較高問題,另一方面有助于該模型有效推廣到社會治理領(lǐng)域的自然語言處理各種任務(wù)中。

訓(xùn)練過程中采用屏蔽語言模型(Masked Language Model)訓(xùn)練方法,即隨機屏蔽(masked)輸入部分表征(token),在文本段中隨機選擇12%的詞匯用于預(yù)測。被屏蔽的詞匯中70%使用特殊符號[MASKED]替換,15%采用隨機詞替換,剩余15%保持詞匯不變。訓(xùn)練模型依托上下文信息對被屏蔽的詞匯進行預(yù)測,進而使模型可以理解詞語的表征,并進行糾錯工作。具體操作過程見表1。

表1 訓(xùn)練過程說明

1.3 命名實體識別

在社會治理網(wǎng)格事件領(lǐng)域,實體關(guān)系信息蘊含于多源異構(gòu)數(shù)據(jù)中。依據(jù)網(wǎng)格事件管理和決策業(yè)務(wù)需要,在大體量文本數(shù)據(jù)中進行實體與關(guān)系提取,形成用于構(gòu)建網(wǎng)格事件領(lǐng)域知識圖譜的三元組(實體,關(guān)系,實體),為社區(qū)治理中關(guān)系查詢業(yè)務(wù)提供數(shù)據(jù)支撐。

構(gòu)建實體識別模型,需要在訓(xùn)練好的BERT模型末端補充前向網(wǎng)神經(jīng)網(wǎng)絡(luò)層,采用Adam算法優(yōu)化器,并結(jié)合交叉熵損失函數(shù)對模型參數(shù)進行局部微調(diào)。基于BERT的命名實體識別模型結(jié)構(gòu)如圖2所示。

圖2 命名實體識別

1.4 實體關(guān)系識別

在文本關(guān)系提取的業(yè)務(wù)中,重點關(guān)注網(wǎng)格事件和位置信息密切相關(guān)的實體,如人(PERSON)實體、地址(ADDRESS)實體、事件(EVENT)實體、物品(GOODS)實體和車(CAR)實體等。實體之間的關(guān)系包含:居住(LIVE)、發(fā)生(HAPPEN)、擁有(OWN)、丟失(LOST)、落腳(STAY)、歸屬(BELONG)和提交(APPLY)等。在精調(diào)BERT模型過程中,每回合隨機抽取小批量人工標(biāo)注的語料進行模型訓(xùn)練,對模型參數(shù)進行微調(diào)。實體關(guān)系識別如圖3所示。

圖3 實體關(guān)系識別

1.5 知識圖譜構(gòu)建過程

對本文數(shù)據(jù)進行基于BERT模型算法的預(yù)訓(xùn)練,預(yù)訓(xùn)練過程使用人工標(biāo)注語料精調(diào)后,提取一個實體、關(guān)系并進行語義解析,形成實體—關(guān)系—實體三元組,定期三元組數(shù)據(jù)持久化到圖數(shù)據(jù)庫(Neo4j)中,開發(fā)面向?qū)嶓w、關(guān)系的圖譜檢索服務(wù),便可對網(wǎng)格事件管理起到?jīng)Q策支持作用。本文采用的領(lǐng)域知識圖譜構(gòu)建過程如圖4所示。

圖4 領(lǐng)域知識圖譜構(gòu)建

1.6 實驗

1.6.1 實驗環(huán)境

本研究的實驗環(huán)境見表2。

表2 實驗環(huán)境

1.6.2 實驗結(jié)果

本研究實驗結(jié)果見表3。

表3 實驗結(jié)果

1.6.3 網(wǎng)格事件知識圖譜示例

本研究構(gòu)建的面向用于社會治理的網(wǎng)格事件領(lǐng)域知識圖譜示例中共包含6種實體,12種關(guān)系。實體包括人員(PERSON)實體、地址(ADDRESS)實體、事件(EVENT)實體、物品(GOODS)、車輛(CAR)及電話(phone);關(guān)系包括居住(LIVE)、發(fā)生(HAPPEN)、擁有(OWN)、丟失(LOST)、落腳(STAY)、歸屬(BELONG)、提交(APPLY)、關(guān)聯(lián)(LINK)、同住(COHABIT)、同行(PEER)、親屬(RELATIVES)及密接(TIGHT JOINT)。本文實驗結(jié)果部分成果示例如圖5所示。

圖5 領(lǐng)域知識圖譜成果示例(查詢車,深度3)

2 結(jié)論

實驗結(jié)果表明,本文面向社會治理層面的網(wǎng)格事件管理,本文提出基于預(yù)訓(xùn)練模型(Bidirectional Encoder Representations from Transformers,BERT)的命名實體識別方法[6]和領(lǐng)域知識圖譜構(gòu)建技術(shù),在實體提取、關(guān)系提取等自然語言處理(NLP)任務(wù)中可獲得良好的效果,基于圖數(shù)據(jù)庫存儲在關(guān)系存儲和表達方面也更為直觀。該模型在區(qū)別于訓(xùn)練樣本格式的文本數(shù)據(jù)處理中同樣獲得較好的識別支持率,具備較強的社會治理賦能領(lǐng)域進一步泛化賦能。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产第一页第二页| 免费jizz在线播放| 亚洲乱码在线视频| 日韩一级毛一欧美一国产| 久久伊人久久亚洲综合| 亚洲小视频网站| 天天色天天综合网| 色135综合网| 99成人在线观看| 久久黄色一级视频| www中文字幕在线观看| 国产一区二区三区精品久久呦| 91精品网站| 天堂成人av| 极品私人尤物在线精品首页| 国产91精品调教在线播放| 三区在线视频| 狠狠色狠狠色综合久久第一次| 成人毛片免费在线观看| 久久公开视频| 国产精品欧美激情| 日韩a级片视频| 亚洲无码精品在线播放| 亚洲成人精品| 在线无码av一区二区三区| 蜜桃视频一区| 久久精品国产亚洲AV忘忧草18| 丝袜亚洲综合| 欧美翘臀一区二区三区| 超级碰免费视频91| 国产一区二区在线视频观看| 亚洲无线视频| 三上悠亚精品二区在线观看| 亚洲精品欧美日本中文字幕| 91蝌蚪视频在线观看| 亚洲美女久久| 手机看片1024久久精品你懂的| 国产精品亚洲五月天高清| 99re经典视频在线| 国产高清在线丝袜精品一区| 亚洲成A人V欧美综合天堂| 一级毛片基地| 97国产在线播放| 国内丰满少妇猛烈精品播 | 国产在线拍偷自揄拍精品| 91麻豆精品视频| 亚洲中久无码永久在线观看软件 | 啪啪啪亚洲无码| 福利片91| 91探花在线观看国产最新| 国产精品19p| 久热99这里只有精品视频6| 无码日韩视频| 日本成人一区| 2020极品精品国产| 国产欧美日韩va| 国产麻豆另类AV| 日本成人精品视频| 国产区免费| 国产精品色婷婷在线观看| 亚洲精品国产自在现线最新| 在线观看免费黄色网址| 国产精品亚洲综合久久小说| 99视频在线精品免费观看6| 红杏AV在线无码| 国产自在自线午夜精品视频| 国产十八禁在线观看免费| 成人在线综合| 色婷婷久久| 国产精品无码制服丝袜| 久久99蜜桃精品久久久久小说| 中文精品久久久久国产网址| 一区二区三区高清视频国产女人| 人妻丝袜无码视频| 99在线观看精品视频| 久久久精品无码一区二区三区| 婷婷色中文网| 高潮爽到爆的喷水女主播视频| 国产精品无码作爱| 国产福利一区在线| 麻豆精品在线| 狠狠做深爱婷婷综合一区|