999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向食品安全裁判文書的命名實(shí)體識別方法研究

2020-11-09 07:29:18李書欽劉召史運(yùn)濤
計(jì)算機(jī)時(shí)代 2020年10期
關(guān)鍵詞:食品安全

李書欽 劉召 史運(yùn)濤

摘? 要: 針對食品安全領(lǐng)域案件高發(fā)的突出問題,采用條件隨機(jī)場模型對食品安全裁判文書的命名實(shí)體進(jìn)行識別?;贖anLP平臺和引入自定義詞典,識別裁判文書中的人名、地名、機(jī)構(gòu)名、食品、毒害物、危害后果等命名實(shí)體,取得了較好的識別效果。實(shí)驗(yàn)結(jié)果表明,基于條件隨機(jī)場模型的命名實(shí)體識別方法是有效的,有助于自動識別食品安全裁判文書中的相關(guān)實(shí)體,構(gòu)建食品安全知識圖譜。

關(guān)鍵詞: 食品安全; 裁判文書; 條件隨機(jī)場; 命名實(shí)體識別

中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2020)10-01-03

Abstract: Aiming at the prominent problem of high incidence of cases in the field of food safety, the conditional random field model is adopted to identify named entities of food safety judgment documents. Based on HanLP platform, the custom dictionary was introduced to identify the person name, place name, organization name, food name, poison content and harmful consequences, and other named entities in the food safety judgment documents, which achieves good recognition effect. The experimental results show that the named entity recognition method based on conditional random field model is effective, which can help to automatically identify the related entities in the food safety judgment documents and construct the food safety knowledge graph.

Key words: food safety; judgment document; conditional random field; named entity recognition

0 引言

在命名實(shí)體識別研究領(lǐng)域,徐飛等[1]根據(jù)食品安全事件語料庫,構(gòu)造內(nèi)部和外部特征模板,實(shí)現(xiàn)了人名和機(jī)構(gòu)名兩類命名實(shí)體的識別。唐釗[2]基于條件隨機(jī)場模型,通過二次識別,解決了上下文環(huán)境中的人名識別問題。張劍[3]等用自定義標(biāo)注集對農(nóng)業(yè)命名實(shí)體進(jìn)行標(biāo)注,通過ICTCLAS分詞系統(tǒng)進(jìn)行分詞,添加多種特征提高了識別率。張華平等[4]采用Viterbi算法進(jìn)行模式匹配和角色標(biāo)注,實(shí)現(xiàn)了真實(shí)語料庫中的中國人名識別。俞鴻魁等[5]采用層疊隱馬爾科夫模型,識別出大規(guī)模真實(shí)語料庫中的人名、地名和機(jī)構(gòu)名。郭劍毅等[6]基于層疊條件隨機(jī)場模型,結(jié)合旅游景點(diǎn)常用特征詞典和復(fù)雜特征,實(shí)現(xiàn)旅游領(lǐng)域景點(diǎn)、特產(chǎn)風(fēng)味和地點(diǎn)的識別,相比HMM模型,具有較高的正確率和召回率。葉楓等[7]利用條件隨機(jī)場工具CRF++,以詞性、詞邊界、構(gòu)詞特征、上下文等為特征集,對中文病歷中的疾病、臨床癥狀和手術(shù)操作三類命名實(shí)體進(jìn)行識別,取得了良好效果。楊錦鋒等[8]構(gòu)建了中文電子病歷標(biāo)注語料庫,用于電子病例命名實(shí)體識別,對于個(gè)性化醫(yī)療服務(wù)和臨床決策支持具有重要意義。鞠久朋等[9]提出一種CRF與規(guī)則相結(jié)合的方法,識別地理空間中的地名及機(jī)構(gòu)名,具有較高的識別準(zhǔn)確率。

2014年1月1日,《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》正式實(shí)施,覆蓋民事、刑事、賠償、執(zhí)行等不同案件類型的裁判文書在互聯(lián)網(wǎng)公開。本文擬面向食品安全裁判文書,識別其中的人名、地名、機(jī)構(gòu)名、食品、毒害物、危害后果等命名的實(shí)體,對食品安全案件的預(yù)測預(yù)警和情報(bào)分析提供參考,顯著提升針對食品犯罪活動的主動發(fā)現(xiàn)能力。

1 命名實(shí)體識別

命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理中重要的預(yù)處理模塊,是機(jī)器翻譯、句法分析、信息抽取等任務(wù)的基礎(chǔ)。MUC-7(The Seventh Message Understanding Conferences)會議將命名實(shí)體細(xì)化為7類:人名(Person)、地名(Location)、機(jī)構(gòu)名(Organization)、日期(data)、時(shí)間(time)、百分?jǐn)?shù)(percentage)、金額(monetary value)等。中文命名實(shí)體識別的核心在于確定文本中命名實(shí)體的邊界,由于中文不同于西方語言,沒有明確的詞語邊界,不具備良好的字形特征,在實(shí)體詞之間,實(shí)體詞與非實(shí)體詞之間存在邊界模糊等問題,使得中文命名實(shí)體識別難度較大。

本文從食品安全裁判文書中,快速、準(zhǔn)確地識別相關(guān)命名實(shí)體,先提取人名、地名、組織機(jī)構(gòu)名,比如人名實(shí)體包括:原告、被告、法官、委托代理人等;組織機(jī)構(gòu)名主要指與案情相關(guān)的機(jī)構(gòu),如公安機(jī)關(guān)、法院、律師事務(wù)所等;地名實(shí)體用來表達(dá)案發(fā)地點(diǎn)。由于面向食品安全領(lǐng)域,在對通用的命名實(shí)體進(jìn)行識別之后,還需識別食品、毒害物、危害后果等命名實(shí)體。本文采用的命名實(shí)體識別流程如圖1所示,首先對食品安全裁判文書中的文本進(jìn)行句子分割,得到字符串序列,然后進(jìn)行中文分詞,得到標(biāo)識后的句子,接著進(jìn)行詞性標(biāo)注,返回標(biāo)注后的句子,在此基礎(chǔ)上,進(jìn)行命名實(shí)體識別,最終得到分塊后的句子,即命名實(shí)體。

2 基于條件隨機(jī)場的命名實(shí)體識別

條件隨機(jī)場CRF(Conditional Random Fields)是一種無向圖模型,在給定輸入結(jié)點(diǎn)值時(shí),計(jì)算指定輸出結(jié)點(diǎn)值的條件概率,該模型有效地解決了隱馬爾科夫模型的獨(dú)立性假設(shè)、基于最大熵的馬爾科夫模型標(biāo)記偏執(zhí)等問題,在分詞和命名實(shí)體識別領(lǐng)域有較高的識別率。CRF采用基于序列標(biāo)注的機(jī)器學(xué)習(xí)方法,主要涉及中文分詞、詞性標(biāo)注、訓(xùn)練語料生成、特征定義和模型訓(xùn)練。

則稱[P(Y|X)]為線性鏈CRF。在標(biāo)注問題中,[X]表示輸入觀測序列,[Y]表示對應(yīng)的狀態(tài)序列或輸出標(biāo)記序列。已知訓(xùn)練數(shù)據(jù)集,線性鏈CRF可通過極大似然估計(jì)得到條件概率模型。CRF通過定義權(quán)重系數(shù)和特征函數(shù)轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題,具有如下形式:

其中,[P(y|x)]表示某個(gè)標(biāo)簽序列的概率,[λa]和[μb]表示對應(yīng)特征函數(shù)的權(quán)重參數(shù),[ta]代表定義在[Y]節(jié)點(diǎn)上下文的特征函數(shù),[Sb]為定義在[Y]節(jié)點(diǎn)上的特征函數(shù)[10]。CRF的預(yù)測問題是在給定[P(Y|X)]和輸入序列[x]的前提下,求條件概率最大的輸出序列[y*]。CRF預(yù)測算法如下所示。

3 實(shí)驗(yàn)結(jié)果與分析

本研究從無訟網(wǎng)公開的裁判文書中,下載3000余份食品安全相關(guān)文書,使用語言技術(shù)平臺HanLP[11]進(jìn)行分詞、詞性標(biāo)注及命名實(shí)體識別處理,與名詞實(shí)體相關(guān)的HanLP詞性標(biāo)注集如表1所示。

以裁判文書文本“2017年1月19日,被告人王從華在蕭縣文化路某排檔鹵制羊蹄時(shí)添加了過量的亞硝酸鹽。被害人金某食用后發(fā)生中毒。被告人王從華于2017年3月15日17時(shí)許到蕭縣公安局投案?!睘槔衷~結(jié)果為“2017/m,年/qt,1月/t,19/m,日/b,,/w,被告人/n,王從華/nr,在/p,蕭縣/ns,文化路/ns,某/rz,排檔/nz,鹵制/n,羊蹄/nz,時(shí)/qt,添加/v,了/ule,過量/vi,的/ude1,亞硝酸鹽/n,。/w,被害人/n,金某/nr,食用/vn,后/f,發(fā)生/v,中毒/vi,。/w,被告人/n,王從華/nr,于/p,2017/m,年/qt,3月/t,15/m,日/b,17/m,時(shí)許/nr,到/v,蕭縣公安局/nto,投案/vi,。/w”。統(tǒng)計(jì)出的命名實(shí)體如表2所示。

參考一系列食品安全國家標(biāo)準(zhǔn)(GB 2760-2017,GB 2761-2017等),收集整理食品詞典共370個(gè)詞,毒害物詞典320個(gè)詞,危害后果詞典30個(gè)詞,將上述詞典增加到HanLP平臺的自定義詞典中,重新分詞,結(jié)果為“/w,2017/m,年/qt,1月/t,19/m,日/b,,/w,被告人/n,王從華/nr,在/p,蕭縣/ns,文化路/ns,某/rz,排檔/nz,鹵/n,制/v,羊蹄/food,時(shí)/qt,添加/v,了/ule,過量/vi,的/ude1,亞硝酸鹽/poison,。/w,被害人/n,金某/nr,食用/vn,后/f,發(fā)生/v,中毒/consequence,。/w,被告人/n,王從華/nr,于/p,2017/m,年/qt,3月/t,15/m,日/b,17/m,時(shí)許/nr,到/v,蕭縣公安局/nt,投案/vi,。/w”。自定義詞典識別出的命名實(shí)體為:食品/羊蹄,毒害物/亞硝酸鹽,危害后果/中毒。

從以上結(jié)果可以看出,默認(rèn)情況下,HanLP平臺將食品“羊蹄”識別為“其他專名”,將毒害物“亞硝酸鹽”識別為“名詞”,將危害后果“中毒”識別為“動詞”。在加入自定義詞典后,將“羊蹄”識別為“食品名稱”,將“亞硝酸鹽”識別為“毒害物名稱”,將 “中毒”識別為“危害后果”,模型對食品安全相關(guān)命名實(shí)體的識別效果也有了相應(yīng)的提高。

4 結(jié)束語

本研究采用基于條件隨機(jī)場的命名實(shí)體識別方法,以無訟案例網(wǎng)中3000余例食品安全裁判文書為數(shù)據(jù)樣本,進(jìn)行自然語言分析,實(shí)現(xiàn)了非結(jié)構(gòu)化文本數(shù)據(jù)中關(guān)鍵命名實(shí)體(人名、地名、組織機(jī)構(gòu)名、食品、毒害物、危害后果)的提取,取得了比較好的效果,對于食品安全相關(guān)案件的犯罪預(yù)測預(yù)警,具有重要的理論和實(shí)踐意義。下一步,在命名實(shí)體識別的基礎(chǔ)上,繼續(xù)研究食品安全實(shí)體關(guān)系抽取,進(jìn)而構(gòu)建食品安全知識圖譜。

參考文獻(xiàn)(References):

[1] 徐飛,宋英華.海量食品安全事件下的命名實(shí)體識別研究[J].科研管理,2018.39(7):131-138

[2] 唐釗.條件隨機(jī)場模型在中文人名識別中的研究與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2012.21:3-7

[3] 張劍,吳青,羊昕旖等.基于條件隨機(jī)場的農(nóng)業(yè)命名實(shí)體識別[J].計(jì)算機(jī)與現(xiàn)代化,2018.1:123-126

[4] 張華平,劉群.基于角色標(biāo)注的中國人名自動識別研究[J].計(jì)算機(jī)學(xué)報(bào),2004.1:85-91

[5] 俞鴻魁,張華平,劉群等.基于層疊隱馬爾可夫模型的中文命名實(shí)體識別[J].通信學(xué)報(bào),2006.2:87-94

[6] 郭劍毅,薛征山,余正濤等.基于層疊條件隨機(jī)場的旅游領(lǐng)域命名實(shí)體識別[J].中文信息學(xué)報(bào),2009.23(5):47-52

[7] 葉楓,陳鶯鶯,周根貴等.電子病歷中命名實(shí)體的智能識別[J].中國生物醫(yī)學(xué)工程學(xué)報(bào),2011.30(2):256-262

[8] 楊錦鋒,關(guān)毅,何彬等.中文電子病歷命名實(shí)體和實(shí)體關(guān)系語料庫構(gòu)建[J].軟件學(xué)報(bào),2016.27(11):2725-2746

[9] 鞠久朋,張偉偉,寧建軍,等.CRF與規(guī)則相結(jié)合的地理空間命名實(shí)體識別[J].計(jì)算機(jī)工程,2011.37(7):210-212,215

[10] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.

[11] https://github.com/hankcs/HanLP.

猜你喜歡
食品安全
關(guān)于加強(qiáng)食品安全政府監(jiān)管的若干思考
完善我國食品召回制度的法律思考
淺析食品安全犯罪的成因及其對策
食品安全檢測技術(shù)研究現(xiàn)狀
經(jīng)濟(jì)法視角下大學(xué)生網(wǎng)絡(luò)訂餐食品安全問題分析
市場經(jīng)濟(jì)下食品安全對經(jīng)濟(jì)發(fā)展的意義
新媒體在食品安全監(jiān)管工作中的特點(diǎn)和作用
食品安全存在的問題和解決對策
我國食品安全監(jiān)管面臨的挑戰(zhàn)及應(yīng)對措施分析
科技視界(2016年21期)2016-10-17 20:50:50
食品安全體系中物流的重要性
主站蜘蛛池模板: 久久精品国产精品一区二区| 久久无码免费束人妻| 亚洲精品免费网站| 亚洲国产精品日韩av专区| 好吊色妇女免费视频免费| 亚洲一区二区三区国产精华液| 欧美综合中文字幕久久| 国产爽妇精品| 亚洲免费人成影院| 伊人激情综合网| 久久久久久久久18禁秘| h网站在线播放| 日韩无码真实干出血视频| 亚洲乱亚洲乱妇24p| 欧美黄网站免费观看| 国产xx在线观看| 东京热av无码电影一区二区| 精品91自产拍在线| 五月激激激综合网色播免费| 国产在线精品美女观看| 日韩免费毛片视频| 老司国产精品视频| 欧美色香蕉| 精品国产电影久久九九| 亚洲精品第1页| 国产毛片高清一级国语 | 国产在线无码av完整版在线观看| 精品国产一区91在线| 国产成人午夜福利免费无码r| 天天综合网亚洲网站| 亚洲精品老司机| 免费观看精品视频999| 极品尤物av美乳在线观看| 91无码人妻精品一区| 天天躁夜夜躁狠狠躁图片| 另类重口100页在线播放| 午夜在线不卡| 人人91人人澡人人妻人人爽 | 999精品视频在线| 特级做a爰片毛片免费69| 真人高潮娇喘嗯啊在线观看| 久久99精品久久久久纯品| 久久婷婷国产综合尤物精品| www.精品国产| 国产一区二区福利| 国产精品综合色区在线观看| 国产精品片在线观看手机版| 日韩高清无码免费| 欧美h在线观看| 日本在线欧美在线| 五月婷婷综合网| 亚洲嫩模喷白浆| 欧美天堂在线| 制服丝袜国产精品| 中文一级毛片| 亚洲欧美成人在线视频| 色综合久久久久8天国| 久久久久免费精品国产| 四虎国产在线观看| 中文字幕2区| 久久人人97超碰人人澡爱香蕉| av手机版在线播放| 久久午夜夜伦鲁鲁片无码免费| 国产成在线观看免费视频 | 国产毛片久久国产| 亚洲视频三级| 亚洲无码37.| 欧美激情伊人| 婷婷综合亚洲| 亚洲黄色成人| 国产h视频免费观看| 超碰91免费人妻| 国产成人亚洲无吗淙合青草| 亚洲第一区在线| 一区二区三区在线不卡免费 | 国产男人的天堂| 午夜影院a级片| 亚洲综合色在线| 精品亚洲欧美中文字幕在线看| AV片亚洲国产男人的天堂| 国产特一级毛片| 99精品久久精品|