999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的食品添加劑知識圖譜構建和應用

2023-11-07 11:45:44張寅升秦貝貝向劍勤張燕新王海燕
食品工業 2023年10期
關鍵詞:關聯可視化

張寅升,秦貝貝,向劍勤,張燕新,王海燕*

浙江工商大學(杭州 310018)

食品添加劑是指為改善食品的品質和色、香、味以及為防腐和加工工藝的需要而加入食品中的化學合成或天然的物質[1]。添加劑的非法、過量使用和濫用情況持續存在,給民眾健康、行業發展以及政府監管帶來挑戰。圍繞食品安全及添加劑監管問題,國外部分學者認為食品安全監管是各利益主體之間的博弈[2]。研究主題也多是關注于食品安全本身及社會背景,如消費者行為[3]及政府監管方式等。國內學者則總結分析添加劑濫用引發的安全問題并提出對策[4-5]。同時,添加劑作用機理研究、檢測技術研發和膳食開發等方面的研究也未止步[6-8]。

從現有文獻來看,針對食品安全及食品添加劑問題的研究大多集中在完善管理機制、提高添加劑檢測技術水平、發現添加劑的新應用領域等方面,運用文本挖掘分析食品添加劑的數據驅動型研究仍處于新興階段[9]?;谝陨媳尘?,文章通過關聯規則學習與文本挖掘技術,從政府抽檢數據和新聞通報等多渠道信息來源中獲取不同食品與相應食品添加劑的關聯強度/支持度,構建可視化的知識圖譜,借以直觀了解特定食品易含有的非法添加劑和食用添加劑種類,并應用時空演化分析,得到食品安全事件的區域性和季節性特征。

1 方法

1.1 方案思想

數據資源是準確分析問題和科學決策的基礎,獲取到包含食品實體與添加劑實體之間關聯關系的知識圖譜是解決分析問題的關鍵。食品安全問題的信息具有極強的主題性,因此若要構建食品實體與添加劑實體的知識圖譜、實現食品安全事件的時空演化,需要構建食品安全主題語料庫并從中提取食品、添加劑、時間、地點等關鍵實體。基于上述邏輯,文章中所用到的整體研究方案見圖1。

圖1 整體研究方案

1.2 方案步驟

第一步:數據采集與清洗。數據采集包括官方發布的食品添加劑界定文件以及通過網絡爬蟲工具收集食品安全相關的新聞報道、事件通報、網購評論、消費者輿情等文本數據。數據清洗時完成無用字符的刪除以及數據格式的轉換。網絡評論、消費者輿情等網絡文本可能涉及企業、法人或消費者的隱私信息,針對此類數據,在數據采集和數據清洗階段將使用脫敏和匿名化技術處理。

第二步:構建食品安全事件語料庫。語料庫中的每條文本記錄包含了食品安全事件的關鍵信息,如事件時間、地點、事件原因、不合格食品種類、非法或超量添加劑種類等特征。通過設置定期運行的爬蟲腳本,可以不斷更新和擴展該語料庫。

第三步:構建知識圖譜。對語料庫中的信息完成分詞與詞頻統計操作,并進行基于詞典的命名實體識別(Dictionary-based named entity recognition,NER)與關聯提取,根據實體共現頻率構建食品和添加劑的知識圖譜,并使用力導向圖進行知識圖譜的交互可視化。

第四步:時空演化分析。時空演化的可視化使用cpca(chinese_province_city_area_mapper)實現,cpca可用于提取簡體中文字符串中省、市和區,并能夠進行繪圖。在提取語料庫中的時空信息后應用cpca進行圖像的繪制。

1.3 相關算法原理

在構建食品實體與添加劑實體的知識圖譜時用到了力導向圖,其依托于力導向布局可視化算法實現,在此對相關算法的原理進行介紹。

1.3.1 力導向布局算法

力導向布局算法的原理是自然界中電子之間的相互作用。在力導向布局算法中,各節點和連線的位置是通過斥力和引力的作用不斷更新的,在力的作用下節點經過不斷位移之后趨于平衡[10]。

力導向布局算法中的引力與斥力按式(1)和(2)計算。

式(1)中:d為兩節點之間的笛卡爾距離;K為調節全局節點之間的斥力常量;符號“-”為斥力的表征方向。

式(2)中:H為彈簧力的倔強系數;Li為第i層的默認彈簧長度,且Li/Li+1=I,即第i層和第i+1層的邊長比值為一個固定常數I[11]。

力導向布局算法因其結果具有良好的對稱性和局部聚合性而被廣泛應用于知識圖譜和復雜網絡的可視化中。

2 試驗結果

2.1 數據采集與清洗

文章針對食品安全問題,使用了五類數據來源,見表1。其中從《食品監督抽查不合格信息》《食品中可能違法添加的非食用物質和易濫用的食品添加劑名單》中整理出食品和添加劑的術語,作為初始的領域詞典。從《中國食品安全網-抽檢通告》《食安網-食品安全專欄》《食安網-曝光臺專欄》中挖掘食品安全事件中食品實體與添加劑實體的關聯關系及食品安全事件的時空實體,為構建知識圖譜和時空演化分析等應用奠定基礎。

表1 數據來源

2.2 構建語料庫

2.2.1 構建初始領域詞典

首先,從《食品監督抽查不合格信息》《食品中可能違法添加的非食用物質和易濫用的食品添加劑名單》中獲取添加劑的術語,并手動添加缺失的添加劑術語,確定最終的添加劑名單。然后,按照(食品,添加劑,關聯強度)的格式對獲取到的食品和對應添加劑等數據進行提取處理,獲取到4 548種食品種類、275種添加劑及7 075組表示食品與相應添加劑關聯強度的組合信息。

2.2.2 構建食品安全事件主題語料庫

食品安全事件的關鍵信息包括事件時間、地點、事件原因、不合格食品種類、非法或超量添加劑種類等特征。通過網絡爬蟲工具收集“中國食品安全網-抽檢報告”“食安網-食品安全專欄”“食安網-曝光臺專欄”中與食品安全相關的文本數據,對初始領域詞典進行補充,并根據食品安全事件的相關特征構建食品安全事件語料庫,最終得到一個包含13 698份文本的專題語料庫。

2.3 知識圖譜構建

2.3.1 命名實體提取

2.3.1.1 分詞與詞頻統計

常用的分詞工具有jieba、HanLP(漢語言處理包)、SnowNLP(中文的類庫)、Jiagu(甲骨NLP)、pyltp(哈工大語言云)等,通過對不同分詞工具的效果進行測試發現,Jiagu(甲骨NLP)在MSR(微軟亞洲研究院語料庫)、PKU(人民日報語料庫)等多個數據集上表現最優。因此,最終選用Jiagu(甲骨NLP)對所獲得食品安全事件主題語料庫進行分詞,接著利用遍歷對關鍵詞進行詞頻統計并實現詞云可視化。

2.3.1.2 詞云可視化

對語料庫中的食品實體與添加劑實體進行詞頻統計與可視化,詞云可視化效果見圖2。

圖2 詞云可視化

通過詞云可視化可以清晰關注到語料庫中食品種類和添加劑種類出現的頻率。在食品種類中,茶葉的出現次數最多;在添加劑種類中,鉛和鎘的出現次數居于首位。

2.3.2 構建知識圖譜

2.3.2.1 知識圖譜的構建

知識圖譜構建的依據是食品實體和添加劑實體的共現頻率(關聯強度),語料庫中食品實體與添加劑實體關聯強度前十的組合見表2。

表2 食品實體與添加劑實體的關聯強度(前10位)

這十條語義關聯反映了不恰當使用食品添加劑的最典型、最廣泛的幾個場景,下面將逐一分析,并為監管部門提供重點抽檢參考。

鳊魚和黃鱔中檢測出環丙沙星的頻率高居榜首。環丙沙星(ciprofloxacin,CIP)是恩諾沙星(enrofloxacin,ENR)在動物體內發生脫乙基反應生成的具有活性的代謝產物,具有毒副作用且極易產生耐藥性。恩諾沙星是第一個動物專用的抗生素,人若是長期使用則會影響軟骨發育,產生畸形。目前NY 5071—2002《無公害食品漁用藥物使用準則》[12]已將環丙沙星列為禁用漁藥。GB 31650—2019《食品安全國家標準食品中獸藥最大殘留限量》[13]將水產動物中ENR及其代謝產物CIP的總殘留限量定為100 μg/kg,但近年來在各類食品的抽檢中,常有在淡水魚中檢測出超標恩諾沙星的問題。

在年糕中檢測出的脫氫乙酸是能夠抑制酵母菌、霉菌繁殖的防腐劑,如按照國家規定的劑量使用食用后不會在體內殘留,但如果超量,則會造成皮膚問題,在2021年已被禁用;在豇豆中檢測出的甲氨基阿維菌素苯甲酸鹽(甲維鹽)則是一款常用綠色生物殺蟲劑,少量殘留對身體無害,但若是長期使用甲維鹽超標的食品則會對人體造成影響;海蜇中的鋁是由于多次使用鹽礬造成的,高濃度的鋁殘留會迫害人體腎臟和神經系統;香蕉和老姜中檢測出的噻蟲胺則是一種新型殺蟲劑,與常規農藥無交互抗性,但仍是要在標準劑量范圍內使用。

2.3.2.2 知識圖譜的可視化

前文完成各種食品類型和相應添加劑的關聯強度/支持度的提取,形成了食品實體和添加劑實體的知識圖譜,為使食品實體與添加劑實體的關聯情況更清晰直觀,提高關聯信息的可解讀性,文章基于Apache ECharts使用力導向圖實現了知識圖譜Web端的交互可視化,效果見圖3。

通過對圖3的觀察可以得知,得到的關于[食品,添加劑,關聯強度]的知識圖譜直觀展示了同一食品類型與不同添加劑之間的關聯強度關系以及不同產品類型容易檢測出哪些添加劑。

以我國大宗淡水養殖魚類鳊魚為例,鳊魚實體與添加劑實體關聯強度知識圖譜見圖4。在此次爬取的數據中,在鳊魚中檢測出了孔雀石綠、氯霉素、硝基呋喃代謝物、地西泮、培氟沙星、環丙沙星、恩諾沙星、磺胺類藥物和鋁共9種添加劑。

圖4 鳊魚實體與添加劑實體關聯強度知識圖譜

其中:孔雀石綠、氯霉素、硝基呋喃代謝物因致癌、致畸、引起再生障礙性貧血等副作用被列為禁用藥物[14];地西泮則是第二類精神藥品,有致癌風險;培氟沙星是一種通過干擾DNA的復制和菌體蛋白的合成發揮作用的抗生素,已被停用;起殺菌、防腐作用的環丙沙星、恩諾沙星、磺胺類藥物和鋁(鹽礬的殘留)常在鳊魚的加工環節中用到,但是常被檢測出超標,如環丙沙星和恩諾沙星的含量之和要<100 μg/kg、磺胺嘧啶等12種磺胺類總量要<100 μg/kg[15]。

以上數據說明在鳊魚的加工制作中濫用環丙沙星、恩諾沙星、磺胺類藥物和鹽礬(殘留物為鋁)較為普遍,是監管部門、消費者及相關上下游企業應重點關注的食品質量安全項目。綜上,構建出食品與相應添加劑的知識圖譜后,食品與添加劑之間的關系更為直觀,能夠提升社會公眾以及相關部門對食品安全現狀的認知,并指導后續的購買、抽檢、政策制定等行為。

2.4 時空演化可視化

知識圖譜本質上是由具有屬性的實體通過關系鏈接而成的網狀知識庫,單獨使用難以直觀表示食品安全事件的分布以及發展態勢,時空演化的可視化則充分利用了從新聞報道、網絡輿情等文本數據中實時提取食品安全事件的時間和地理信息,為特定的食品安全事件渲染時空演化過程,使得讀者了解重大事件的起源、發展和消亡,以及不同食品的區域性和季節性風險特征。

根據語料庫中食品安全事件的時空信息,對2014—2022年間的數據以三年為一組進行可視化,同時按照季度分類進行可視化,得到如圖5和圖6所示的年份分布圖和季度分布圖。從圖5和圖6中可以直觀看出在不同年份下食品安全事件發生的分布特點以及各季度下食品安全事件發生的分布特點。圖中顏色越深,則表示該區域安全事件發生的頻率越高。

圖5 食品安全事件年份分布圖

圖6 食品安全事件季度分布圖

以上介紹的知識圖譜交互可視化及時空演化技術,有望推廣到更多的應用場景中,能夠發現研究對象之間的隱含聯系,為決策行為提供支撐依據。

3 結語與討論

3.1 主要貢獻

3.1.1 開放的、自動定期更新的專題語料庫

基于目前由于食品添加劑相關數據多源異構造成的問題,初步整合互聯網上的分散數據,部署了一個支持公開訪問、可自動更新的食品添加劑專題語料庫。該語料庫可以作為研究食品安全及食品添加劑問題的基礎性工具,提供已經整理好的添加劑名單,相關研究可以基于此語料庫開展。

3.1.2 開放的、自動定期更新的可視化知識圖譜和時空演化

表示食品實體與添加劑實體關聯關系的可視化知識圖譜以及表示食品安全事件區域性、季節性風險特征的可視化時空演化同樣是自動更新且可公開訪問的。政府監管部門、研究同行及其他想要了解食品安全問題的群體,均可通過此種方式對食品添加劑不恰當使用的實時情況以及食品安全事件的時空演化過程有一個直觀的掌握。

3.2 討論及展望

針對研究的不足之處,為能夠更簡便、準確地為決策行為提供依據,表示食品實體與添加劑實體關聯度的知識圖譜仍需不斷完善,未來的研究可以從以下問題進行展開。

3.2.1 語義粒度的細化處理

研究在爬取添加劑實體信息時,未將添加劑進行細化分類,在實際應用中,添加劑可以按照不同的性質分為食用/不可食用,抑或是加工合成/天然形成,還可按照作用和功能分類為抗氧化劑、漂白劑、著色劑和營養強化劑等[1]。后續工作可以考慮將分類信息作為添加劑實體的屬性,細化語義粒度,構建更加詳細的知識圖譜應用。

另外,目前只是對食品實體是否含有添加劑進行提取,而未對添加劑的含量進行判定和約束??茖W表明,符合國家標準的合理適量的食品添加劑使用并不會對人體健康產生威脅。因此,后面還可以考慮將提取到的添加劑含量融合到語義關聯強度的計算中。

在時空演化應用中,后續可以考慮細化到市縣級層次,在各個省份內做時空分析,以獲取地域性更強的時空演化規律。

3.2.2 新命名實體的處理

隨著食品技術和化學工業的發展,新型食品及新食品添加劑的產生是不可避免的,準確高效地識別新的命名實體是一個重要挑戰。采用經典的基于詞典(dictionary-based)的方法,為發現新出現的命名實體,需要持續及時地更新領域詞典。為克服該不足,后面可以嘗試基于規則(rule-based)和代表最前沿(state-of-the-art,SOTA)的基于深度學習(deep learning-based,DL)的方法。其中,基于深度學習的命名實體識別方法能夠基于海量文本數據,習得各種單詞之間的語義和句法關系,其魯棒性和有效性得到了保證[16]。

3.2.3 APP/小程序的開發

專題語料庫、知識圖譜以及代碼庫可服務于研究機構和學者的二次開發及科研,但對于普通消費者群體,存在一定的技術壁壘。為此,后續將進行APP/小程序的開發,提供面向消費端的知識圖譜和時空演化等應用,并定期推送食品添加劑相關的事件統計信息。

猜你喜歡
關聯可視化
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
奇趣搭配
主站蜘蛛池模板: 91久久夜色精品国产网站| 欧美激情视频一区| 欧美日本二区| 毛片免费在线视频| 国产精品无码久久久久AV| 666精品国产精品亚洲| 成年人国产网站| 亚洲综合一区国产精品| 欧美不卡视频一区发布| 亚洲欧美在线精品一区二区| 老司机精品一区在线视频| 麻豆国产原创视频在线播放| 欧美第二区| 国产乱人乱偷精品视频a人人澡| 中文成人在线视频| 日韩精品成人网页视频在线 | 国产真实乱子伦精品视手机观看| 国产成人精彩在线视频50| 在线免费亚洲无码视频| 久久五月天综合| 久久大香香蕉国产免费网站| 日韩精品久久久久久久电影蜜臀| 热久久这里是精品6免费观看| 波多野结衣国产精品| 亚洲人在线| 国产v欧美v日韩v综合精品| 国产麻豆另类AV| 久草网视频在线| 天天色综网| 国产精品美女自慰喷水| 精品无码日韩国产不卡av| 国产SUV精品一区二区6| 99re经典视频在线| 在线精品自拍| 大学生久久香蕉国产线观看 | 狠狠综合久久久久综| av一区二区人妻无码| 欧美有码在线观看| 色一情一乱一伦一区二区三区小说| 国产不卡在线看| 午夜色综合| 永久免费无码成人网站| 免费99精品国产自在现线| 久久青草视频| 97视频免费在线观看| 精品一区二区无码av| 欧美亚洲欧美| 五月婷婷综合在线视频| 久久无码免费束人妻| 国产精品视频猛进猛出| 99热这里都是国产精品| 国产欧美视频在线| 亚洲国产精品美女| 国产女人18毛片水真多1| 91九色国产porny| 亚洲中文字幕久久精品无码一区| 内射人妻无套中出无码| 99久久精品免费看国产免费软件| 国产在线观看91精品| 久久久受www免费人成| 成年人视频一区二区| 精品亚洲国产成人AV| 国产精品视频久| 99热免费在线| 亚洲福利视频一区二区| 手机看片1024久久精品你懂的| 国产成人在线无码免费视频| 91亚洲精选| 国产91小视频| 中文精品久久久久国产网址| 日本免费福利视频| 福利一区在线| 精品国产Av电影无码久久久| 99视频国产精品| 亚洲精品欧美日韩在线| 毛片免费试看| 国产乱人乱偷精品视频a人人澡| 污污网站在线观看| 亚洲精品午夜无码电影网| 蜜臀AV在线播放| 99这里只有精品在线| 午夜一级做a爰片久久毛片|