999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯網(wǎng)絡(luò)的食品安全輿情監(jiān)控探針研究①

2022-02-15 06:39:32孫曉紅鋒2陶光燦
計算機系統(tǒng)應(yīng)用 2022年1期

王 旎,孫曉紅,吳 鍇,謝 鋒2,,陶光燦,

1(貴州醫(yī)科大學 公共衛(wèi)生學院,貴陽 550025)

2(貴州省分析測試研究院,貴陽 550014)

3(食品安全與營養(yǎng)(貴州)信息科技有限公司,貴陽 550014)

在網(wǎng)絡(luò)新媒體時代,為促進食品行業(yè)健康發(fā)展,食品安全網(wǎng)絡(luò)輿情監(jiān)測體系應(yīng)運而生,開發(fā)決策參考、監(jiān)督抽檢、專項整治、協(xié)查處置等輿情信息應(yīng)用場景化服務(wù),針對當下熱門的食品安全輿情事件自動展開跟蹤與分析[1].而數(shù)據(jù)采集作為輿情大數(shù)據(jù)資源池建設(shè)的第一步準備工作,將孤立分布在數(shù)據(jù)報刊、網(wǎng)絡(luò)媒體、微博、微信中的各個數(shù)據(jù)源采集并存儲,為下一步輿情分析打下基礎(chǔ),幫助政府、企業(yè)和輿情相關(guān)者采取措施以預(yù)警或控制食品安全輿情的發(fā)展態(tài)勢[2].但是,食品安全輿情數(shù)據(jù)采集在及時性和精準性等方面仍存在著許多痛點和難點問題[3],一方面,運用傳統(tǒng)語義識別的方法采集數(shù)據(jù)所需的費用偏高且準確率較低,采集內(nèi)容要素廣泛且難以統(tǒng)一,包括食品類別、風險類型、健康危害等多種關(guān)鍵詞,數(shù)據(jù)報刊、網(wǎng)絡(luò)媒體等多個輿情渠道,食品企業(yè)、政府和消費者等多方面用戶對象,以及包括監(jiān)督抽檢、檢測機構(gòu)、急救中心、公安部門的其他關(guān)聯(lián)因素.在采集過程中,通過傳統(tǒng)人工采集數(shù)據(jù)的方式難以窮盡,新發(fā)生的食品安全事件都有新的關(guān)鍵詞;另一方面,由于數(shù)據(jù)采集不夠精準,無法有效減少垃圾數(shù)據(jù)的產(chǎn)生,必然會影響數(shù)據(jù)采集的效率.

貝葉斯定理是數(shù)據(jù)挖掘領(lǐng)域一種用來描述概率關(guān)系的算法[4],提出了將知識圖解可視化的推理和模型[5],其方法簡單、分類準確率高、速度快,模型參數(shù)估計不需要任何復(fù)雜的迭代求解公式,只需統(tǒng)計訓練集中的先驗概率和條件概率[6].目前已廣泛應(yīng)用于醫(yī)療診斷、人工智能、生物信息學、金融分析與預(yù)測等多個領(lǐng)域[7].因此,本文運用貝葉斯網(wǎng)絡(luò)模型優(yōu)化食品安全關(guān)鍵詞庫的風險概率,將高風險性的食品類別、風險類型和健康危害等輸出為關(guān)鍵詞組,做一個自動關(guān)聯(lián)風險的數(shù)據(jù)模型,并形成監(jiān)控探針,結(jié)合輿情監(jiān)測系統(tǒng),實現(xiàn)采集食品安全輿情關(guān)鍵詞的合理配置,以提高采集效率和準確率.其中,監(jiān)控探針[8]是一個不流行的學術(shù)術(shù)語,常用于描述語言及其編譯器的設(shè)計,對其功能闡述為嵌入在目標系統(tǒng)代碼中,在系統(tǒng)運行時獲取目標監(jiān)控點的相關(guān)運行狀態(tài).

基于以上研究現(xiàn)況,提出科學假設(shè):構(gòu)建關(guān)鍵詞庫形成基于貝葉斯網(wǎng)絡(luò)的監(jiān)控探針,可提高食品安全輿情數(shù)據(jù)采集的及時性與精準度.對比實驗:運用傳統(tǒng)人為設(shè)計關(guān)鍵詞、網(wǎng)絡(luò)爬蟲和監(jiān)控探針的3 種方法采集同一食品安全事件的輿情數(shù)據(jù),從而對監(jiān)控探針設(shè)計的快捷性和準確性進行驗證.

1 現(xiàn)有工作

目前,網(wǎng)絡(luò)輿情數(shù)據(jù)采集的框架主要由6 部分組成:網(wǎng)站頁面、鏈接抽取、鏈接過濾、內(nèi)容抽取、網(wǎng)絡(luò)爬蟲技術(shù)[9]和數(shù)據(jù)[10].其中,新時代背景下又增加了爬行策略設(shè)計、網(wǎng)頁更新策略、網(wǎng)頁去重和計算機轉(zhuǎn)換軟件等新興互聯(lián)網(wǎng)采集技術(shù),針對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的網(wǎng)絡(luò)數(shù)據(jù)進行匯總和收集[11].在算法上,主要采用分布式、并行式的計算模型,以提高數(shù)據(jù)采集的速度[12].在信息存儲技術(shù)上,主要用Oracle、MySQL 數(shù)據(jù)庫和HBase、MongoDB 數(shù)據(jù)庫來實現(xiàn)[13].從應(yīng)用范圍上,網(wǎng)絡(luò)爬蟲技術(shù)[14]和信息抽取技術(shù)[15]是目前主流的輿情數(shù)據(jù)采集和分析挖掘方法.網(wǎng)絡(luò)爬蟲最早應(yīng)用于搜索引擎中,用來收集媒體網(wǎng)頁中的數(shù)據(jù),抓取有效輿情信息并加以存儲[16].信息抽取技術(shù)(information extraction,IE)是從非結(jié)構(gòu)化的自然語言文本中提取目標信息,然后進一步轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)形式的采集方法[17].伴隨科技的發(fā)展,全文信息的搜索引擎逐漸不能很好地滿足用戶要求,1957年,Luhn[18]提出一種基于詞頻統(tǒng)計的關(guān)鍵詞抽取方法,衍生出一系列關(guān)鍵詞抽取技術(shù)[14].關(guān)鍵詞抽取分為:(1)基于統(tǒng)計的方法,該方法的主要思想是通過指定特征來對詞語的權(quán)重進行計算,并根據(jù)詞語的權(quán)重大小來抽取關(guān)鍵詞[19].例如頻率統(tǒng)計(TF-IDF)[20]及其改進方法,簡單易行,具有較強的適用性,但由于TF-IDF 只提取頻率較高或位置較特殊的關(guān)鍵詞,不能完整概括全文主體信息,導致數(shù)據(jù)采集的準確率降低[21].(2)基于語言規(guī)則的方法,通過從文章、句子以及詞語等層次進行語法分析,來提高關(guān)鍵詞抽取系統(tǒng)的性能.(3)基于人工智能的方法,讓計算機能夠自動學習關(guān)鍵詞抽取的過程,通過對模型進行訓練以實現(xiàn)人工智能自動抽取關(guān)鍵詞.

但是,互聯(lián)網(wǎng)數(shù)據(jù)具有海量、異構(gòu)數(shù)據(jù)源、缺乏語義信息和動態(tài)可變性等特點,尤其是網(wǎng)絡(luò)社交媒體和新聞數(shù)據(jù),其更新頻率高,隨時隨地都會生產(chǎn)出大量信息,這部分內(nèi)容數(shù)據(jù)量大,交互性強,使得抽取技術(shù)變得更加復(fù)雜化,給輿情信息的抽取帶來了諸多困難.并且,目前在網(wǎng)絡(luò)上針對食品安全的輿情數(shù)據(jù)并沒有系統(tǒng)地進行過匯總,采集者缺乏食品安全專業(yè)領(lǐng)域的知識,使得無論是應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù)還是信息(關(guān)鍵詞)抽取技術(shù)都沒有高效的關(guān)鍵詞以供參考,不僅無法精準定位采集對象,還浪費了輿情數(shù)據(jù)的挖掘時間,造成了大量垃圾數(shù)據(jù)的產(chǎn)生,增加了輿情數(shù)據(jù)采集的工作量和計算成本,影響了輿情監(jiān)測系統(tǒng)的運營進度,阻礙了食品安全輿情監(jiān)測系統(tǒng)的拓展應(yīng)用.

因此,針對大數(shù)據(jù)時代食品安全輿情數(shù)據(jù)采集不夠快捷與準確的問題,從采集關(guān)鍵詞的研究對象出發(fā),構(gòu)建有關(guān)食品安全的關(guān)鍵詞庫,并引進貝葉斯網(wǎng)絡(luò)模型的分析方法,將高風險的食品安全關(guān)鍵詞設(shè)計成監(jiān)控探針,向輿情監(jiān)測者推薦采集較高的關(guān)鍵詞組,提高食品安全輿情數(shù)據(jù)采集的速度與效率,對于改善食品安全輿情監(jiān)測系統(tǒng)的數(shù)據(jù)采集環(huán)節(jié),為后續(xù)的數(shù)據(jù)處理與數(shù)據(jù)應(yīng)用打下良好的基礎(chǔ)建設(shè),提高國家在食品安全輿情方面的管理能力具有重要作用.

貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)[22]將貝葉斯理論、圖論、人工智能和決策分析相結(jié)合,是一種基于概率推理的圖形化網(wǎng)絡(luò)屬性數(shù)學模型[23].其在態(tài)勢評估、醫(yī)療保健、工業(yè)風險預(yù)測等領(lǐng)域都已有廣泛的應(yīng)用,比如,根據(jù)環(huán)境、人員等因素引入貝葉斯網(wǎng)絡(luò)對采礦現(xiàn)場、建筑施工等高危作業(yè)是否發(fā)生事故進行風險預(yù)估,以減少風險事件的發(fā)生[24];為提高疾病診斷效率,提出了基于余弦相似度加權(quán)改進的貝葉斯分類算法[25],開發(fā)了大量的人工智能方法輔助檢測疾病[26];在科技發(fā)展與人類智能上,提出了基于貝葉斯理論的人臉識別算法[27];基于貝葉斯算法的垃圾郵件識別與過濾系統(tǒng)[28];以及基于貝葉斯網(wǎng)絡(luò)的民航機票預(yù)測系統(tǒng)等[29].

2 材料與方法

2.1 數(shù)據(jù)來源

北京人民在線網(wǎng)絡(luò)科技有限公司的人民眾云平臺[30].

煙臺富美特信息科技股份有限公司食品伙伴網(wǎng)的食品標準(國家標準)[31].

食品安全與營養(yǎng)(貴州)信息科技有限公司食品安全云平臺的技術(shù)社區(qū)(國家標準)[32].

2.2 食品安全輿情監(jiān)控探針總體框架

首先,將食品類別、風險類型、健康危害等食品安全輿情關(guān)鍵詞,利用MySQL 數(shù)據(jù)庫構(gòu)建形成統(tǒng)一完善的食品安全關(guān)鍵詞庫;然后,運用貝葉斯網(wǎng)絡(luò)算法對關(guān)鍵詞庫建立數(shù)學模型,得出高風險性的食品安全輿情關(guān)鍵詞組,并自動關(guān)聯(lián)風險形成 監(jiān)控探針;最后,結(jié)合北京人民在線網(wǎng)絡(luò)科技有限公司開發(fā)的食品安全輿情監(jiān)測系統(tǒng),向用戶提供優(yōu)先采集的關(guān)鍵詞選項,形成一個包含監(jiān)控系統(tǒng)、關(guān)鍵詞庫、數(shù)學模型的監(jiān)控探針,從而達到提升食品安全輿情數(shù)據(jù)采集及時性與精準度的效果,如圖1所示.

圖1 食品安全輿情監(jiān)控探針邏輯圖

2.3 構(gòu)建關(guān)鍵詞詞庫

為了更準確描述一個食品安全事件的語義模板,包含發(fā)生地域、食品類別、風險因子以及造成的健康危害等關(guān)鍵詞,構(gòu)建食品安全輿情事件信息關(guān)鍵詞分類表(見表1),并做出以下定義:定義1.設(shè)a為食品安全輿情事件發(fā)生地域關(guān)鍵詞,地域分布以省、直轄市、自治區(qū)為父類,下轄地級市為子類,共計34 個省級行政區(qū);定義2.設(shè)b為食品安全輿情事件謂語表達關(guān)鍵詞;定義3.設(shè)c為食品安全輿情事件食品類別關(guān)鍵詞,食品分類方法以國家市場監(jiān)督管理總局頒布的《食品生產(chǎn)許可分類目錄》[33]為依據(jù),共計32 類;定義4.設(shè)d為食品安全輿情事件風險因子關(guān)鍵詞,風險因子指能夠促使或引發(fā)食品風險事件的危害要素,分為生物性因素、化學性因素、物理性因素和人為因素等[34];定義5.設(shè)e為食品安全輿情事件健康危害關(guān)鍵詞,即風險因子可能導致的人體健康損害.

表1 食品安全輿情事件信息關(guān)鍵詞分類

定義6.滿足食品安全輿情事件條件下,a,c 之間存在謂語b,且c 后為風險因子d,造成影響e,則稱“a,b,c,d,e”5 個詞組成一個食品安全輿情事件的標準語義模板.示例:2014年7月20日東方衛(wèi)視報道:上海福壽喜集團存在大量采用變質(zhì)肉原料的行為,引發(fā)顧客的食物中毒,“上海,報道,肉原料,變質(zhì),食物中毒”對應(yīng)“a,b,c,d,e”是滿足食品安全輿情事件的語義模板(見表2).根據(jù)標準語義模板中的語義信息量,定義了一、二、三、四、五級語義模板.由此得出,一件食品安全事件的關(guān)鍵詞越齊全,事件描述越完整,挖掘到的食品安全信息便越豐富,對于輿情數(shù)據(jù)采集工作的意義越大.

表2 食品安全輿情事件多級語義模板

2.4 使用食品安全輿情監(jiān)測系統(tǒng)采集數(shù)據(jù)

首先,登錄食品安全輿情監(jiān)測系統(tǒng)“人民眾云[30]”用戶端,選擇“自助監(jiān)測”欄目,進行食品安全輿情數(shù)據(jù)采集的任務(wù)設(shè)置,對任務(wù)名稱和選擇分組的基本信息進行填寫;然后,進入“關(guān)鍵詞選擇”功能,填寫“主關(guān)鍵詞”“輔關(guān)鍵詞一”“輔關(guān)鍵詞二”“輔關(guān)鍵詞三”,并設(shè)置數(shù)據(jù)采集范圍:“數(shù)據(jù)報刊、政府機構(gòu)、網(wǎng)絡(luò)媒體、網(wǎng)絡(luò)視頻、微博、微信、資訊、論壇等”;最后,提交操作采集輿情數(shù)據(jù).

2.5 運用MySQL 數(shù)據(jù)庫建立食品安全關(guān)鍵詞庫

MySQL 數(shù)據(jù)庫是一種高速度、高性能、多線程、開放源代碼的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)[35],是互聯(lián)網(wǎng)行業(yè)存儲和操作數(shù)據(jù)最常用的數(shù)據(jù)庫[36].根據(jù)貝葉斯網(wǎng)絡(luò)節(jié)點進行設(shè)計數(shù)據(jù)存儲,每條數(shù)據(jù)包括食物大類(F節(jié)點)、風險因子(R節(jié)點)、危害癥狀(S節(jié)點)3 個關(guān)鍵詞,分為32 個食品類別[28],其中食品添加劑18 條、糧食加工品的關(guān)鍵詞條42 條、食用油30 條、調(diào)味品52 條、乳制品36 條、飲料60 條、方便食品40 條、肉制品77 條、餅干44 條、冷凍飲品22 條、罐頭33 條、速凍食品12 條、糖果制品7 條、薯類和膨化食品54 條、茶葉及其制品4 條、蔬菜制品25 條、酒類30 條、水果制品25 條、糕點食品36 條、蛋制品18 條、可可及焙烤咖啡產(chǎn)品49 條、炒貨食品及堅果制品84 條、水產(chǎn)制品60 條、淀粉及淀粉制品30 條、蜂制品56 條、豆制品12 條、保健食品40 條、食糖5 條、特殊醫(yī)學用途配方食品1 條、其他食品1 條,共1 039 條數(shù)據(jù).

以“糧食加工品”為例,在MySQL 食品安全關(guān)鍵詞庫中查詢“糧食加工品”,輸入查詢編程:

SELECT a.f0,a.f1,b.f2,c.f3 from testlv1 a

LEFT JOIN testlv2 b on a.f1=b.f1

LEFT JOIN testlv3 c on a.f1=c.f1

WHERE a.f1=‘糧食加工品’

ORDER BY f0,f2,f3 ASC

可得出包括“糧食加工品”食物大類、風險因子、可能癥狀3 種關(guān)鍵詞的42 條數(shù)據(jù).每一條數(shù)據(jù)都具有唯一性,為食品安全輿情數(shù)據(jù)采集提供專業(yè)性較高的關(guān)鍵詞,提高數(shù)據(jù)采集的精準度,減少采集時垃圾數(shù)據(jù)的產(chǎn)生.

2.6 構(gòu)建基于貝葉斯網(wǎng)絡(luò)模型的食品安全輿情監(jiān)控探針

設(shè)置“食品安全風險因子、食品類別、食品檢測不合格、食品危害癥狀”的4 個變量為貝葉斯網(wǎng)絡(luò)模型的節(jié)點,確定節(jié)點之后,采用因果推理形式的方法,確定各節(jié)點之間的關(guān)系,由原因推知結(jié)果,以求得食品安全變量導致的風險事件發(fā)生的概率,從而建立有向無環(huán)圖,如圖2所示.其中,R節(jié)點為風險因子(risk),F節(jié)點為食物大類(food),S節(jié)點為癥狀(symptoms),O節(jié)點為檢測不合格(out of specification,OOS).

根據(jù)概率乘法公式有P(X)=P(Xi/X1,X2,…,Xi-1)用Pai表示變量Xi的父節(jié)點集,則P(X)=P(Xi/Pai),因此為了確定貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),需要:① 將變量X1,X2,…,Xi按某種次序排序;② 確定滿足P(X)=P(Xi/Pai)的父節(jié)點集合Pai(i=1,2,…,n);③ 指定局部概率分布P(Xi/Pai).從圖2可以清楚地看到影響食品安全輿情數(shù)據(jù)采集的風險節(jié)點及其相互的節(jié)點關(guān)系.在因果推理中,當食品安全風險等級為R=1 時,概率關(guān)系組合如下:

圖2 基于貝葉斯網(wǎng)絡(luò)的監(jiān)控探針有向無環(huán)圖

當食品安全風險等級為R=2 時,概率關(guān)系組合如下:

當食品安全風險等級為R=3 時,概率關(guān)系組合如下:

因果推理推出食品安全風險概率:

當R=3,F=3 時的概率是:

當R=3,S=3 時的概率是:

當R=3,O=3 時的概率是:

將貝葉斯網(wǎng)絡(luò)模型分成食物大類(F)、危害癥狀(S)、檢測不合格(O)3 個互不重疊的部分,每個部分都可能引發(fā)食品安全風險,且風險發(fā)生概率分別為P(F)、P(S)、P(O),引起食品安全風險J的可能性就為P(J/F),P(J/S),P(J/O).基于貝葉斯模型的網(wǎng)絡(luò)風險評估算法:

如果發(fā)生食品安全風險,由“食物大類F”引起風險的可能性為:

如果發(fā)生食品安全風險,由“癥狀S”引起風險的可能性為:

如果發(fā)生食品安全風險,由“檢測不合格O”引起風險的可能性為:

#查詢“食物大類”導致的食品安全風險概率貝葉斯網(wǎng)絡(luò)模型算法的結(jié)果

result=infer.query([‘R’],evidence={‘F’:1,‘O’:0})

#查詢“不合格”導致的食品安全風險概率貝葉斯網(wǎng)絡(luò)模型算法的結(jié)果

result=infer.query([‘R’],evidence={‘O’:1,‘O’:0})

#查詢“癥狀”導致的食品安全風險概率貝葉斯網(wǎng)絡(luò)模型算法的結(jié)果

result=infer.query([‘R’],evidence={‘S’:1,‘O’:0})

根據(jù)可能性大小,將“風險因子、食物大類、危害癥狀、檢測不合格”4 個方面的關(guān)鍵詞設(shè)計成監(jiān)控探針,按照引起風險的可能性大小,對高風險性詞語實現(xiàn)優(yōu)先采集,以提高食品安全輿情數(shù)據(jù)采集的及時性和精準度.

3 實驗結(jié)果與分析

運用傳統(tǒng)人為設(shè)計關(guān)鍵詞、網(wǎng)絡(luò)爬蟲和監(jiān)控探針的3 種方法采集同一食品安全事件的輿情數(shù)據(jù),針對采集的快捷性和準確性設(shè)計對比實驗:取乳制品類、酒類、茶類3 種食品類別為采集對象,由政府部門、企業(yè)、人民網(wǎng)三方各自獨立設(shè)置關(guān)鍵詞,以獲得的3 份數(shù)據(jù)代表傳統(tǒng)人工采集方法,其中政府部門由貴州省分析測試院的工作人員為代表,企業(yè)方由食品安全與營養(yǎng)(貴州)信息科技有限公司的工作人員為代表.另外,再運用網(wǎng)絡(luò)爬蟲技術(shù),使用Python的requests 庫解析頁面數(shù)據(jù)接口獲取相關(guān)數(shù)據(jù),采集新浪微博中乳制品類、酒類、茶類3 種食品類別的信息,以獲得的數(shù)據(jù)代表線下流行的分析挖掘方法.將得到的4 組數(shù)據(jù)與監(jiān)控探針采集到的數(shù)據(jù)做比照,比較5 組數(shù)據(jù)的挖掘時間、有效數(shù)據(jù)量、無效數(shù)據(jù)量等指標,從而驗證監(jiān)控探針采集數(shù)據(jù)的速度和效率.

3.1 乳制品類

政府部門自設(shè)關(guān)鍵詞“奶粉”、“三聚氰胺”和“北京”;企業(yè)自設(shè)關(guān)鍵詞“酸奶”“乳酸菌”和“發(fā)酵”;人民網(wǎng)自設(shè)關(guān)鍵詞“奶茶”“肥胖”和“危害”;運用基于貝葉斯網(wǎng)絡(luò)模型的食品安全輿情監(jiān)控探針算出所致食品安全風險概率偏高的3 個關(guān)鍵詞:“乳制品”P=95/23264×0.95=0.39%、“乳基嬰兒配方食品”P=5/23264×0.95=0.02%、“奶酪”P=3/23264×0.95=0.01%,因此設(shè)3 個關(guān)鍵詞為“乳制品”“乳基嬰兒配方食品”和“奶酪”.挖掘時間為3 s,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞使用時間(政府15 s、企業(yè)12 s、人民網(wǎng)10 s、網(wǎng)絡(luò)爬蟲技術(shù)9 s)明顯縮短;產(chǎn)生的垃圾數(shù)據(jù)僅9 條,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞產(chǎn)生的垃圾數(shù)據(jù)(政府52 條、企業(yè)512 條、人民網(wǎng)159 條、網(wǎng)絡(luò)爬蟲技術(shù)47 條)明顯減少;數(shù)據(jù)有效率為83.6%,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞(政府54.3%、企業(yè)54.7%、人民網(wǎng)56.2%、網(wǎng)絡(luò)爬蟲技術(shù)63.0%)準確率明顯提高(見表3).

3.2 酒類

政府部門自設(shè)關(guān)鍵詞“酒類”、“發(fā)酵”和“工藝”;企業(yè)自設(shè)關(guān)鍵詞“啤酒”“青島”和“生產(chǎn)”;人民網(wǎng)自設(shè)關(guān)鍵詞“葡萄酒”“張裕”和“發(fā)酵”;運用基于貝葉斯網(wǎng)絡(luò)模型的食品安全輿情監(jiān)控探針算出所致食品安全風險概率偏高的3個關(guān)鍵詞:“酒類”P=2299/23 264×0.95=9.39%、“白酒”P=25/23264×0.95=0.1%、“黃酒”P=7/23 264×0.95=0.03%,因此設(shè)關(guān)鍵詞為“酒類”“白酒”和“黃酒”.挖掘時間為2.5 s,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞使用時間(政府13 s、企業(yè)14 s、人民網(wǎng)5 s、網(wǎng)絡(luò)爬蟲技術(shù)6 s)明顯縮短;產(chǎn)生的垃圾數(shù)據(jù)僅9 條,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞產(chǎn)生的垃圾數(shù)據(jù)(政府2 5 7 條、企業(yè)785 條、人民網(wǎng)28 條、網(wǎng)絡(luò)爬蟲技術(shù)69 條)明顯減少;有效率為77%,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞(政府55.9%、企業(yè)52.3%、人民網(wǎng)68.2%、網(wǎng)絡(luò)爬蟲技術(shù)58.9%)準確率明顯提高(見表3).

3.3 茶類

政府部門自設(shè)關(guān)鍵詞“茶類”“工藝”和“檢測”;企業(yè)自設(shè)關(guān)鍵詞“綠茶”、“紅茶”和“銷售”;人民網(wǎng)自設(shè)關(guān)鍵詞“茶類”、“加工”和“貯存”;運用基于貝葉斯網(wǎng)絡(luò)模型的食品安全輿情監(jiān)控探針算出所致食品安全風險概率偏高的3 個關(guān)鍵詞:“茶葉及其制品”P=7/23264×0.95=0.03%、“綠茶”P=29/23264×0.95=0.12%、“紅茶”P=165/23264×0.95=0.67%,因此設(shè)關(guān)鍵詞為“茶葉及相關(guān)制品”、“綠茶”和“紅茶”.挖掘時間為2.4 s,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞使用時間(政府15 s、企業(yè)10 s、人民網(wǎng)7 s、網(wǎng)絡(luò)爬蟲技術(shù)11 s)明顯縮短;產(chǎn)生的垃圾數(shù)據(jù)64 條,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞產(chǎn)生的垃圾數(shù)據(jù)(政府29 條、企業(yè)381 條、人民網(wǎng)23 條、網(wǎng)絡(luò)爬蟲技術(shù)45 條)明顯減少;有效率為77.9%,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞(政府52.5%、企業(yè)55%、人民網(wǎng)59.6%、網(wǎng)絡(luò)爬蟲技術(shù)55.9%)準確率明顯提高(見表3).

表3 食品安全輿情數(shù)據(jù)采集監(jiān)控探針與傳統(tǒng)方法對比實驗

4 結(jié)論與展望

基于貝葉斯網(wǎng)絡(luò)的食品安全輿情監(jiān)控探針結(jié)合食品安全關(guān)鍵詞庫與貝葉斯網(wǎng)絡(luò)概率算法,運用貝葉斯網(wǎng)絡(luò)模型推理食品安全風險概率大小,定義節(jié)點并部署模型,查詢到“食物大類”“食品檢測不合格”和“危害癥狀”導致的風險結(jié)果.不僅評估出食品安全關(guān)鍵詞庫中的局部風險,還可以根據(jù)示例中的計算與分析過程,獲取食品安全相應(yīng)風險問題的全面評估,實現(xiàn)高風險性關(guān)鍵詞的優(yōu)先采集,有效解決了食品安全輿情監(jiān)測數(shù)據(jù)采集中的不精準及效率低等問題.

本研究圍繞發(fā)現(xiàn)問題、分析問題、解決問題的思路展開研究,針對食品安全輿情監(jiān)測系統(tǒng)數(shù)據(jù)采集環(huán)節(jié)所存在的問題提出科學假設(shè).首先利用MySQL 數(shù)據(jù)庫建立食品安全關(guān)鍵詞庫;然后,運用貝葉斯網(wǎng)絡(luò)模型將關(guān)鍵詞庫構(gòu)建形成監(jiān)控探針,并選擇食品安全輿情監(jiān)測系統(tǒng)進行數(shù)據(jù)采集;最后,以乳制品、酒及茶3 種食品案例的數(shù)據(jù)代入方法中與傳統(tǒng)人工采集、網(wǎng)絡(luò)爬蟲技術(shù)形成對比實驗,通過對比數(shù)據(jù)挖掘時間和采集數(shù)據(jù)有效率,驗證假設(shè)成立.由此得出,關(guān)鍵詞庫引入貝葉斯網(wǎng)絡(luò)模型形成監(jiān)控探針,可有效提高食品安全輿情數(shù)據(jù)采集的及時性與精準度,精準定位不同的采集對象,節(jié)約了輿情監(jiān)測體系的采集成本,拓展了食品安全網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)推廣應(yīng)用的范圍.

主站蜘蛛池模板: 狠狠亚洲婷婷综合色香| 在线观看国产精美视频| 日韩 欧美 国产 精品 综合| 国产产在线精品亚洲aavv| 国产乱子伦视频在线播放| 亚洲首页在线观看| 一级毛片免费高清视频| 欧美国产在线精品17p| 狠狠干欧美| 日本一区中文字幕最新在线| 国产小视频在线高清播放| 一级成人a毛片免费播放| 中文成人在线| 日韩欧美国产另类| 色综合中文综合网| 欧美啪啪网| 国产69精品久久| 久久久久亚洲av成人网人人软件| 日韩在线成年视频人网站观看| 一级毛片在线播放| 国产微拍精品| 青草免费在线观看| Aⅴ无码专区在线观看| 丰满人妻一区二区三区视频| 天天爽免费视频| аv天堂最新中文在线| 亚洲成人精品久久| 国产一级视频久久| 亚洲日韩国产精品综合在线观看| 亚洲综合色区在线播放2019 | 国产精品护士| 色135综合网| 欧美国产精品不卡在线观看| 五月天在线网站| 欧美影院久久| 无码人妻热线精品视频| 高清无码手机在线观看| 国产成人高清精品免费软件| 日韩不卡高清视频| 久久青青草原亚洲av无码| 中文字幕乱码二三区免费| 国产不卡一级毛片视频| 日韩二区三区| 日韩区欧美国产区在线观看| 久久精品丝袜高跟鞋| 国产高清色视频免费看的网址| www成人国产在线观看网站| 伊人精品成人久久综合| 四虎免费视频网站| 日韩毛片免费| 一级一级一片免费| 尤物精品国产福利网站| 亚洲一区第一页| 成人在线观看不卡| 亚洲欧美另类色图| 欧美五月婷婷| 色爽网免费视频| 91久久大香线蕉| 色偷偷综合网| Aⅴ无码专区在线观看| 久久久久国产一区二区| 天天摸天天操免费播放小视频| 欧美亚洲国产精品第一页| 看看一级毛片| 久久精品人人做人人| www.亚洲一区二区三区| 久草性视频| 精品无码一区二区在线观看| 91精品专区国产盗摄| 亚洲午夜国产片在线观看| 亚洲国产精品VA在线看黑人| 国产免费怡红院视频| 亚洲区视频在线观看| 成人永久免费A∨一级在线播放| 国产美女一级毛片| 真人高潮娇喘嗯啊在线观看| 国产精品久久久久鬼色| 凹凸精品免费精品视频| 欧美国产日韩在线播放| 久久综合干| 5388国产亚洲欧美在线观看| 免费看的一级毛片|