999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLP的《民法典·侵權(quán)編》知識圖譜構(gòu)建

2021-08-23 13:06:26萬萍潘千禧柳若辰
現(xiàn)代計算機(jī) 2021年20期
關(guān)鍵詞:關(guān)鍵文本

萬萍,潘千禧,柳若辰

(嘉興學(xué)院數(shù)理與信息工程學(xué)院,嘉興314001)

0 引言

作為新中國第一部以法典命名的《中華人民共和國民法典》(簡稱《民法典》),于2020年5月28日,由十三屆全國人大三次會議表決通過,自2021年1月1日起施行。《民法典》為民事主體合法權(quán)益的申張與保護(hù),提供了全面法律保障,被法學(xué)界譽為“能夠覆蓋一個公民‘生老病死’全部生活的社會生活百科全書”,堪稱新時代人民權(quán)利的“宣言書”,為新時代“依法治國”奠定了堅實的法律基礎(chǔ)[1]。

守法必先知法,懂法才能尊法。《民法典》一千兩百六十條的法條,對于非法學(xué)專業(yè)的普通公民而言,難以全面掌握;此外,法條嚴(yán)謹(jǐn)且富于邏輯的表達(dá),也容易造成法律條文“晦澀難懂”,不利于法律普及。經(jīng)過前期文獻(xiàn)閱讀和實踐調(diào)研,我們認(rèn)為通過對《民法典》法條進(jìn)行知識圖譜構(gòu)建,以可視化知識圖譜方式呈現(xiàn)的《民法典》,不僅使法條內(nèi)容呈現(xiàn)更加直觀,還使法律概念與法律關(guān)系的檢索與查詢更加便捷,提升廣大公民對于法律內(nèi)容的認(rèn)知,有效降低《民法典》的推廣普及難度。

考慮到《民法典》內(nèi)容龐大,本文擬選取與現(xiàn)實生活聯(lián)系最為緊密的《侵權(quán)責(zé)任》為分析對象,綜合人工智能領(lǐng)域中自然語言處理技術(shù),通過“Python編程+人工校驗”相結(jié)合的技術(shù)路線,應(yīng)用文本預(yù)處理[2]、命名實體識別[3]、知識圖譜[4-5]等NLP(Natural Language Processing,自然語言處理)領(lǐng)域的算法和NoSQL數(shù)據(jù)庫[6-7]領(lǐng)域的工具,對《民法典·侵權(quán)責(zé)任》的法條內(nèi)容進(jìn)行關(guān)鍵實體識別、句法依存關(guān)系分析與知識圖譜構(gòu)建。

1 文本預(yù)處理

《民法典·侵權(quán)責(zé)任》共包含10章,涵蓋《民法典》第1164-1258條款,合計95條。考慮到通用分詞工具并沒有針對法律術(shù)語的分詞字典,我們采用“jieba分詞+人工校驗”的方式,對《民法典·侵權(quán)責(zé)任》進(jìn)行文本預(yù)處理,本階段主要包括開發(fā)環(huán)境配置、jieba工具安裝、停用詞預(yù)處理和分詞。

jieba是中分分詞領(lǐng)域的優(yōu)秀開源框架,可以通過簡單編程,實現(xiàn)對中文文本基于精確模式、全模式和搜索引擎模式的分詞。總體上說,jieba工具的API簡明實用、配置簡潔。借助Python自帶的pip工具,在Windows中CMD環(huán)境下執(zhí)行如下命令:

即可實現(xiàn)jieba工具的自動安裝和配置。

考慮到法條中篇章分節(jié)與條目編號相對于分詞意義不大,我們在預(yù)處理階段將這些文字去除,之后將法條逐條放入laws列表。文本讀入與laws列表生成的源代碼如下:

經(jīng)過以上代碼處理,laws列表中只包含法條內(nèi)容。借助jieba分詞工具,可以進(jìn)一步對laws列表中法條逐一進(jìn)行分詞,并得到分詞集合,關(guān)鍵代碼如下:

通過校驗可以發(fā)現(xiàn),jieba對于部分條目的分詞結(jié)果不太理想,例如“行為人/因/過錯/侵害/他/人民/事/權(quán)益/造 成/損 害/的/,/應(yīng) 當(dāng)/承 擔(dān)/侵 權(quán)/責(zé) 任/。”中“/他/人民/事/權(quán)益/”顯然不符合法條本義。因此,需要在自動分詞的基礎(chǔ)上,引入人工校驗環(huán)節(jié),遵循法律術(shù)語、概念的使用習(xí)慣,修正分詞中出現(xiàn)的錯誤,進(jìn)而得到《民法典·侵權(quán)責(zé)任》的分詞字典,共計712個單詞。

通過文本預(yù)處理,我們得到了較為符合司法實踐的法條分詞及分詞詞典。在此基礎(chǔ)上,我們將結(jié)合法條上下文,應(yīng)用關(guān)鍵詞分析算法,對分詞詞典中的分詞的重要性進(jìn)行區(qū)分,提煉具有法學(xué)價值的核心概念,為知識圖譜構(gòu)建提供必要的鋪墊。

2 關(guān)鍵實體識別

《民法典·侵權(quán)責(zé)任》中涉及大量法學(xué)概念、實體,它們是構(gòu)建知識圖譜的關(guān)鍵要素。我們需要在前面得到的分詞詞典基礎(chǔ)上,進(jìn)一步應(yīng)用命名實體識別的思想、方法和技術(shù),對語料中的法學(xué)術(shù)語、概念進(jìn)行識別和提取。在這個階段中,我們通過關(guān)鍵詞提取算法,對分詞在法條中的表意權(quán)重進(jìn)行分析,得到法條中較為重要的命名實體。

與分詞一樣,命名實體識別也是自然語言處理中的基礎(chǔ)任務(wù),目的在于識別語料中人名、地名、組織機(jī)構(gòu)名等具有實體指稱的命名詞語。傳統(tǒng)命名實體識別側(cè)重于對實體、時間、數(shù)字、人名、地名、組織、時期等的識別與提取。與傳統(tǒng)不同,本文側(cè)重于對具有法學(xué)指稱的命名實體的識別。因此,分詞是否能夠表達(dá)法學(xué)領(lǐng)域概念,是否能夠結(jié)合其他法學(xué)術(shù)語形成法學(xué)知識的表達(dá),就成為界定法學(xué)實體的重要標(biāo)準(zhǔn)。考慮到法學(xué)實體界定屬于法學(xué)領(lǐng)域,我們邀請領(lǐng)域法學(xué)領(lǐng)域?qū)I(yè)人士,對分詞列表進(jìn)行分類,遴選出154個領(lǐng)域相關(guān)性較強(qiáng)的詞匯(圖1),作為知識圖譜構(gòu)建的核心法學(xué)實體。

圖1 關(guān)鍵法學(xué)實體詞云(《民法典·侵權(quán)責(zé)任》)

需要說明的是,對于分詞是否屬于具有法學(xué)指稱的關(guān)鍵實體,存在“仁者見仁,智者見智”的各種見解。因此,我們采取兼顧經(jīng)驗與統(tǒng)計的原則,選取法務(wù)工作中涉及的專業(yè)詞、高頻詞作為關(guān)鍵實體,進(jìn)而以之為基點,對《民法典·侵權(quán)責(zé)任》做提綱挈領(lǐng)的圖譜構(gòu)建。

3 知識圖譜構(gòu)建

本部分在關(guān)鍵實體集合基礎(chǔ)上,進(jìn)一步探究實體之間的法學(xué)邏輯關(guān)系,通過逐一對法條進(jìn)行句法依存分析,構(gòu)建關(guān)鍵實體之間的三元組,最終形成可視化的知識圖譜。

對于邏輯嚴(yán)謹(jǐn)、措辭考究的法律條目而言,“主語+謂語+賓語”是基本的表達(dá)句型,也是分析與理解其語言復(fù)合性的切入點。結(jié)合關(guān)鍵實體,逐條分析每款條文的句法依存關(guān)系,是構(gòu)建法條內(nèi)與法條間實體邏輯關(guān)系的關(guān)鍵。通過調(diào)用HanLP接口,逐一分析每款法條的句法依存關(guān)系,得到類似圖2的句法樹。

圖2 句法依存關(guān)系示例(《民法典》第一千一百六十六條)

借助以上語法樹結(jié)構(gòu),可以得到該法條清晰明確的推斷邏輯,即“行為人”為主體,“侵權(quán)責(zé)任”為客體,“承擔(dān)”是聯(lián)系主、客體的關(guān)系,而“民事權(quán)益損害”是邏輯前提。

實體依存關(guān)系分析的目的在于提煉“實體-關(guān)系-實體”構(gòu)成的三元組,通過這個三元組表達(dá)實體之間的邏輯關(guān)系。從前面對句法依存關(guān)系的分析可以看出,法條語法樹中“主謂賓”結(jié)構(gòu)天然適于構(gòu)造這種三元組。基于此,通過對作為主語和賓語的關(guān)鍵實體以及作為謂語的分詞的提取,就可以得到所有三元組構(gòu)成的集合。

三元組數(shù)據(jù)的持久化與可視化可以借助Neo4J數(shù)據(jù)庫及Py2neo框架。其中,Neo4J是一種常見的圖數(shù)據(jù)庫,以圖的形式表達(dá)數(shù)據(jù)的實體、屬性和關(guān)系,屬于典型的NoSQL數(shù)據(jù)庫;Py2neo是應(yīng)用Python操作Neo4J數(shù)據(jù)庫的三方庫。通過將三元組中的實體存儲為節(jié)點元素,將三元組中的關(guān)系存儲為節(jié)點之間的邊,就可完成從三元組到抽象圖譜的構(gòu)造。再通過調(diào)用Py2neo API,可以得到類似圖3的可視化知識圖譜。

圖3 知識圖譜示例(《民法典》第一千二百五十條)

目前,我們針對《民法典·侵權(quán)責(zé)任》的知識圖譜構(gòu)建主要還是以法條為基本單位。但是,不同法律條目間也可能存在語義或是邏輯上的關(guān)聯(lián),對于這一點,由于涉及到更為困難的語義分析以及知識推理,預(yù)期于將來的工作中做進(jìn)一步的深入研究和探討。

4 結(jié)語

本文對《民法典·侵權(quán)責(zé)任》文本進(jìn)行知識圖譜構(gòu)建,實現(xiàn)核心概念及其關(guān)系的可視化。首先,通過文本預(yù)處理與分詞,生成文本的分詞列表。由于法典文本的專業(yè)性,通用分詞工具得到的分詞結(jié)果不是完全合理,再通過對分詞列表的人工校驗,得到較為符合實際法務(wù)工作習(xí)慣的分詞列表。其次,通過對分詞列表進(jìn)行甄別,結(jié)合統(tǒng)計與法務(wù)實踐,遴選出司法實踐中使用頻率高、法律指稱明確的關(guān)鍵實體。最后,以篩選出的關(guān)鍵實體為中心,逐條對法條進(jìn)行句法分析,得到分詞列表以外的實體與關(guān)鍵實體之間的關(guān)系,據(jù)此生成三元組結(jié)構(gòu),進(jìn)而生成可視化圖譜。

本文通過對法條文字的圖譜構(gòu)建,有助于提升對侵權(quán)責(zé)任中法學(xué)對象、關(guān)系和邏輯的理解與整體把握,促進(jìn)民法典的宣傳與普及。

猜你喜歡
關(guān)鍵文本
高考考好是關(guān)鍵
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
走好關(guān)鍵“五步” 加強(qiáng)自身建設(shè)
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
生意無大小,關(guān)鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
主站蜘蛛池模板: 国产另类乱子伦精品免费女| 精品乱码久久久久久久| 免费A级毛片无码免费视频| 青青久视频| 国产成人啪视频一区二区三区| 国产成人h在线观看网站站| 毛片网站在线看| 国产综合网站| 日韩精品欧美国产在线| 91精品国产自产91精品资源| 成人午夜天| 久久亚洲AⅤ无码精品午夜麻豆| 欧美成人日韩| 波多野结衣亚洲一区| 国产91久久久久久| 亚洲三级片在线看| 国产第三区| 9久久伊人精品综合| 国产不卡网| 欧美精品影院| 狂欢视频在线观看不卡| 久久精品亚洲热综合一区二区| 国内精品久久人妻无码大片高| 99久久国产精品无码| 亚洲三级电影在线播放| 97在线观看视频免费| 色亚洲成人| 婷婷综合色| 国产欧美日韩资源在线观看| 国产精品手机在线播放| www.youjizz.com久久| 毛片在线看网站| 午夜欧美理论2019理论| 久久精品嫩草研究院| 小说区 亚洲 自拍 另类| 99久久人妻精品免费二区| 亚洲精品国产自在现线最新| 黄色在线不卡| 欧美a√在线| 在线国产毛片手机小视频| 第九色区aⅴ天堂久久香| 久久青草精品一区二区三区| 少妇人妻无码首页| 99精品福利视频| 青青青视频免费一区二区| 国产精品片在线观看手机版| 99久久国产综合精品2023| 国产激爽大片高清在线观看| 久久精品无码国产一区二区三区 | 欧美在线综合视频| 欧美色视频网站| 欧美yw精品日本国产精品| 色播五月婷婷| 国产成人av大片在线播放| 精品国产www| 欧美三级自拍| 日韩美女福利视频| 91精品啪在线观看国产91| 国产精品成人免费视频99| 亚洲欧美不卡| 久久午夜夜伦鲁鲁片无码免费| 尤物在线观看乱码| 久久久黄色片| 精品欧美一区二区三区在线| 香蕉网久久| 国产极品美女在线播放| 国产精品女在线观看| 在线日韩一区二区| 美女啪啪无遮挡| 国产91全国探花系列在线播放| 国产精品网址在线观看你懂的| 91高清在线视频| 男女男免费视频网站国产| 91欧洲国产日韩在线人成| 日本免费精品| 欧美激情伊人| 十八禁美女裸体网站| 欧美国产日韩在线播放| 精品91自产拍在线| 2022精品国偷自产免费观看| 国产99精品久久| 99久久国产综合精品2023|