999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于結構化分析和語義相似度的食品安全事件領域數據挖掘模型

2021-05-19 02:22:04張景祥胡恩華吳林海
食品科學 2021年7期
關鍵詞:語義文本

陳 默,張景祥,胡恩華,吳林海,張 義

(1.南京航空航天大學經濟與管理學院,江蘇 南京 211106;2.江南大學理學院,江蘇 無錫 214122;3.江南大學生物工程學院,江蘇 無錫 214122;4.江南大學商學院,食品安全風險治理研究院,江蘇 無錫 214122)

近年來,我國食品安全事件不斷涌現,并以互聯網為主要載體快速傳播。根據中國互聯網絡信息中心發布的報告,截至2020年3月,我國網民規模達9.04億 人,網民使用手機上網的比例達99.3%,由于食品安全事件信息傳播具有參與人數眾多、傳播速度快、范圍廣、表現形式多樣等特點,加上傳播者與受傳者的意識形態、宗教文化、生活經歷等存在種種差異,造成信息演化路徑多樣、不確定強、反復性高,都極大地推動了食品安全事件影響的深度和廣度[1]。因此,對互聯網上相關的食品安全數據進行挖掘與梳理,對食品安全的熱點問題進行跟蹤,不僅可以正確引導大眾的輿論方向,也可以避免由于不實食品安全報道引起的社會恐慌。

目前,針對我國食品安全事件的大數據分析方法還較少,且互聯網信息量巨大,關于食品安全的信息難以被有效提取和分析,只有通過對互聯網數據的挖掘,科學分析食品安全事件發生的內外特征,為建立食品安全的預警機制奠定數據和理論基礎,才能進一步健全食品安全的保障機制[2]。因此,構建針對食品安全事件的大數據挖掘模型,不僅可以實現信息的高效利用,強化政府監管、企業自律和公眾參與的有機結合,還可以通過分析食品安全事件在空間分布的規律性特征,對防范未來系統性、區域性的食品安全風險發揮重要作用,有利于形成食品安全管控無縫隙、精細化的全社會共治新模式。

1 食品安全概述及食品安全事件挖掘技術

1.1 食品安全風險及危害因素的解析

食品安全風險達到并超過一定的臨界點就可能誘發食品安全事件。Gratt[3]認為風險是風險事件發生的概率與事件發生后果的乘積。聯合國化學品安全項目中將風險定義為暴露某種特定因子后在特定條件下對組織、系統或人群(或亞人群)產生有害作用的概率[4]。由于風險特性不同,沒有一個完全適合所有風險問題的定義;針對特定問題,應依據研究對象和性質的不同而采用具有針對性的定義。關于食品安全風險,聯合國糧農組織與世界衛生組織于1995—1999年先后召開了3 次國際專家咨詢會,提出了食品風險管理的框架和基本原理[5]。國際法典委員會認為,食品安全風險是指將對人體健康或環境產生不良效果的可能性和嚴重性,這種不良效果是由食品中的一種危害所引起的。國際生命科學學會提出食品安全風險主要是指潛在損壞或危及食品安全和質量的因子或因素,這些食品安全風險的危害因素包括生物性、化學性和物理性的[6]。其中,生物性危害因素主要是指影響食品質量與安全的有關細菌、病毒、真菌及其毒素、寄生蟲及其蟲卵、昆蟲等;化學性危害因素主要包括動植物固有天然毒素、農藥、獸藥、化肥、環境污染物、食品添加劑、食品包裝浸出物;物理性危害因素主要指玻璃、鐵絲、鐵釘、石頭、金屬碎片、碎屑等各種各樣的外來雜質[7-8]。除生物性、化學性和物理性危害因素外,吳林海等[9]進一步提出了人源性/人為性危害因素,即由于食品生產經營者故意違反食品安全法律法規所進行的不當行為以及其他制度性原因而產生的食品安全風險危害因素,主要包括生產經營者因素、信息不對稱性因素、消費者因素、政府規制性因素、國際環境因素等。需要指出的是,人源性因素也是通過物理性、化學性、生物性因素等體現,并產生食品安全風險,但風險原因的本質完全不同。總之,由于技術、經濟發展水平差距,不同國家存在的食品安全風險及其危害因素不盡相同。

1.2 食品安全事件概念界定與主要特征

現行的《食品安全法》中沒有“食品安全事件”這個概念,但對“食品安全事故”作出了界定,即“食源性疾病、食品污染等源于食品,對人體健康有危害或者可能有危害的事故”。世界衛生組織將食品安全定義為,食品中有毒、有害物質對人體健康影響的公共衛生問題[10]。李清光等[11]認為基于食品安全的定義,食品中含有的某些有毒、有害物質(可以是內生的,也可以是外部入侵的,或者兩者兼而有之)超過一定限度而影響到人體健康所產生的公共衛生事件就屬于食品安全事件。厲曙光等[12]將食品安全事件與食品或食品接觸材料關聯,認為食品安全事件為所涉及食品或食品接觸材料有毒或有害,或食品不符合應當有的營養要求,對人體健康已經或可能造成任何急性、亞急性或者慢性危害的事件。實際上,在可查閱到的國內外研究文獻中,鮮見對食品安全事件的界定,而且近年來中國發生的影響人體健康的食品安全事件往往是由網絡新聞媒體(而且主要由網絡媒體)首先曝光,故在目前國內已有的研究文獻中,學者們較多地選取媒體報道的與食品安全相關的事件進行研究[12-13]。

對于業已發生的食品安全事件,學者們主要對事件性質、產生的影響、危害類型等進行了相關的研究。較為典型的是,He Zhongyue[14]、Dai Yunhao[15]、Liu Huan’an[16]等分別研究了食品安全事件產生的影響,包括對消費者購買意愿和對國際貿易產生的影響、食品生產經營廠商對發生的食品安全事件的危機處理等。此外,學者們主要采用內容分析法進行食品安全事件特征的研究,重點分析食品安全事件中所涉及的供應鏈環節、食品類別、危害類型與本質原因等,且取得了一定的研究成果。如Li Qiang等[17]研究了2009年4月1日至2009年6月30日時段內中國發生的600 起食品安全事件;Liu Yang等[18]分析了在2004年1月1日至2013年8月1日時段內北京發生的295 起食品安全事件;張紅霞等[19]研究了2010—2012年間中國發生的由于生產企業不當行為產生的628 起食品安全事件;莫鳴等[20]分析了2002—2013年間中國發生的由于經營與消費環節處理不當引發的359 個食品安全事件;而劉玉朋等[21]則研究了2001—2013年間中國發生的278 個類別畜產品食品安全事件。已有的食品安全事件研究多以人工為主,智能化不足,導致數據不全面、不精準,對防范食品安全事件意義不足,無法實現對食品安全事件的精準監管和預警,甚至可能產生誤導。

1.3 網絡媒體報道的食品安全事件挖掘技術

對食品安全事件研究而言,至關重要的是事件的數據來源。傳統食品安全風險治理領域的數據,例如全國性的食品監管抽檢數據,數量相對有限,難以起到食品安全風險治理中的預防、預警作用。而在大數據時代,獲取食品安全風險治理大數據以防范食品安全事件的條件日趨成熟。由于目前國內在食品安全事件的分析方面尚沒有成熟的大數據挖掘工具,因此近年來有關食品安全事件的研究,其涉及的數據主要來源于各個研究團隊根據研究需要而基于網絡媒體新聞所進行的專門收集[16-18]。數據從國內各相關網站收集,主要由人工進行重復性的檢驗和有效性的篩選,其中王東波等[22]通過條件隨機場模型對食品安全事件當中食品名稱與誘因的自動識別;沈思等[23]通過BilSTM-CRF模型構建基于深度學習的食品安全事件實體模型;鄭麗敏等[24]提出FSE_ERE這種基于依存分析的食品安全事件新聞文本的實體關系抽取方法。也有學者利用“網絡爬蟲”技術取代人工搜索,抓取網站中與食品安全事件相關的新聞[25]。目前網頁排序的典型算法是Page Rank算法,Page Rank是由Larry Page和Sergey Brin提出來的一種根據網頁之間相互的鏈接關系計算網頁排名的技術。通過對網頁抓取技術獲取相關數據,其主要技術方法都是將來源網站的網頁解析成樹,在樹的基礎上,再利用網頁結構信息或視覺信息從中提取出網頁正文內容。如Zhang Cheng等[26]構建了基于DOM樹結構匹配和視覺一致性的新聞信息構造的算法;王俊峰[27]又改進提出了結合結構一致性和視覺一致性的新聞提取算法。基于關鍵詞匹配的網頁抓取技術也有較為廣泛的研究,如Cai Xinbao等[28]提出基于網頁關鍵詞的主題相關性爬蟲技術。Zhao Xu等[29]用語義本體代替傳統關鍵詞庫,通過本體中詞匯的層次關系計算網頁的主題相關度。陸玉昌等[30]基于網頁詞匯共同分布進行了相關研究。Bollegala等[31]通過統計淺層關鍵詞和語義分析技術,估計詞匯間語義相似度和詞匯共現頻率,但此方法缺陷在于沒有考慮外圍語義成分及語義結構。隨著研究的深入,學者們在選取文檔特征碼中也逐漸兼顧詞語的語義信息,Chowdhury等[32]提出有選擇性地挑選詞語來生成文檔特征碼的策略;Theobald等[33]提出Spot Sigs算法,按特定規律提取網頁特征值;Andoni等[34]根據內容相似度提出的局部敏感哈希(locality sensitive Hashing,LSH)算法;黃承慧等[35]提出按倒排序生成文檔特征碼的算法。

上述研究雖然在文本抓取和語義分析上取得了一定的成功,但目前針對食品安全事件的大數據研究方法尚不足以達到精準監管與預警的作用。長期以來,中國食品安全風險與由此誘發產生的食品安全事件歷史數據非常匱乏,而網絡媒體所報道并形成的食品安全事件大數據并沒有為人們所綜合利用。因此,對于網絡媒體對中國食品安全事件的研究,迫切需要基于大數據技術,從食品安全事件的食品種類、事件在食品供應鏈環節上的分布、誘發事件發生的風險因子、事件的空間分布等各個方面來研究食品安全事件的演化規律,科學闡述食品安全事件的基本特征與發生機理。針對上述問題,本文全面分析了食品安全事件的基本特征,對食品安全事件關鍵詞進行有序語義重構,構建了食品安全事件的多層多級語義模板,通過比較不同食品安全事件與語義模板的相似度,得到食品安全事件多層多級語義結構排序策略(strategy of multi-layer and multi-level semantic structure of rank,MMSS-Rank)算法。

2 基于結構的多層多級語義分析

2.1 語義模板

食品安全事件的報道應該包含的信息量很多,包括事件發生的區域、食品安全事件的類型以及危害程度等。為了更加準確描述一個食品安全事件的語義模板,做出如下定義:

定義1:設YRi是描述某一個食品安全事件Ri的一個詞語,稱YRi為語義關系詞語。

定義2:YRi是語義關系詞語;YR={YR1,YR2,...,YRn}為所有食品安全事件Ri的語義關系關鍵詞集合。

定義3:滿足食品安全事件條件下兩個關鍵詞YRi、YRj之間存在一動詞DRij,且YRj后 為 名 詞mRij, 則 稱YRi、DRij、YRj、mRij4 個詞組成一個語義結構體。

定義4:對語義結構體中的各個關鍵詞YR={YR1,YR2,...,YRn}進行有序重構,次關鍵詞為DRij,mRij可以描述關鍵詞YRi、YRj間的語義關系,則稱<YRi,DRij,YRj,mRij>為滿足食品安全事件Ri的標準語義模板。

示例:2016年5月26日新華社報道:海口破獲一起特大銷售假冒白酒案。由定義4可知,<海口, 報道, 白酒,假冒>對應<YRi,DRij,YRj,mRij>是滿足食品安全事件的語義模板。

2.2 食品安全事件的語義分層

食品安全數據經過去重、清洗等預處理后,轉化為非結構化的文本數據,用分詞技術和詞頻統計方法將文本轉化為可處理的結構化形式。針對食品安全事件的語義特征,語義關鍵詞出現在文本的位置不同,所起到的作用就不同,按文本結構可分為3 層:第一層是標題層,如標題、小標題等,已初步表達文本的主題概念,若食品安全事件的語義結構完整地出現在標題層,該文本數據被識別為食品安全事件作用明顯;第二層是段落層,食品安全事件在不同段落中表達的語義結構體的內容較為完整,其作用與段落數、段落長度有關;第三層是關鍵詞層,對于食品安全事件而言,包括食品種類、供應鏈環節、風險因子、空間分布等語義關系中的關鍵詞,且與關鍵詞的詞頻、關鍵詞出現的位置、詞長等屬性有關。通過對食品安全數據的文本進行結構化分析,對文本數據進行抽象處理,進而建立描述食品安全事件的數學模型,通過對模型計算,實現計算機對大規模文本的挖掘和識別。

2.3 食品安全事件的多級語義模板

在主流媒體新聞報道中描述詳盡的食品安全事件應該包含空間分布、食品種類、供應鏈環節、風險因子等信息,空間分布以省、直轄市、自治區為父類,下轄地級市為子類。食品安全事件中食品種類分類方法按照食品生產許可管理辦法(征求意見稿)分類,共計32 類,見表1。食品安全事件的風險因子主要是指潛在損壞或危機食品安全和質量的因素,這些因素包括生物性、化學性和物理性,以及人的行為不當、制度性等因素,包括生產經營者因素、信息不對稱性因素、消費者因素、政府規制性因素等,食品安全的風險因子詞庫見表2。根據定義4和文本數據中語義結構信息量,定義食品安全事件的一、二、三、四級語義模板,見表3。通過分詞技術獲得食品安全文本數據中的結構和語義信息,遍歷結構化的文本數據,計算文本數據信息與食品安全事件語義模板的匹配度,可以有效提高語義分析處理粒度,從而降低語義分析處理的規模,同時也有助于將無規則的數據信息轉化為標準化數據。

表1 食品安全事件的信息分類Table 1 Classification of information about food safety incidents

表2 食品安全事件風險因子Table 2 Risk factors for food safety incidents

表3 食品安全事件的多級語義模板Table 3 Multi-level semantic template of food safety incidents

3 MMSS-Rank算法

3.1 MMSS-Rank算法流程

選擇合適的網絡媒體作為食品安全事件的來源網站,在確保所抓取數據來源真實可靠的基礎上實現去重和清洗;利用分詞技術提取數據中關鍵詞的位置、詞頻、總字數等內容信息,并識別標題、首段、尾段等位置信息,根據數據的語義結構體在文本分層結構的位置,進一步與多層多級語義模板進行相似度計算,由相似度得分對文本數據進行排序,選擇適當閾值判別并輸出食品安全事件的精度,MMSS-Rank算法流程圖如圖1所示。

圖1 基于多層多級語義模板相似度的網頁排序框架Fig.1 Web page ranking framework based on multi-layer, multi-level semantic template similarity

3.2 文本數據與標準語義模板相似度算法

首先將抓取的文本數據集合進行預處理,轉化為文本數據,利用分詞技術確定文本數據中關鍵詞的位置,然后計算與多層多級語義模板的相似程度,其相似度計算如式(1)所示。

式中:P1×m=(p1,p2,...,pm)表示語義結構體在文本中不同結構位置的權重;Wn×1=(w1,w2,...,wn)表示不同級別語義模板的權重;Simij表示食品安全事件語義結構體與第i個語義模板和第j個文本層次的關鍵詞密度,i=1,...,m,j=1,...,n。

將抓取的文本數據按PValue(P,S,W)數值由大到小排列,并選擇適當的閾值輸出文本數據。關鍵詞密度計算如式(2)所示。

式中:a為描述食品安全事件語義結構體的關鍵詞集合;b為抓取的文本集合;vak為文本集合a中關鍵詞k對食品安全的重要程度;vbk為文本集合b中關鍵詞k對食品安全的重要程度。vak和vbk均采用式(3)計算,以vak為例。

式中:tf(ak,b)為文本集合a關鍵詞k在文本集合b中出現的頻率;為關鍵詞i在文本集合b中出現的總數;N為文本集合中字數;nk為文本集合a關鍵詞k出現的所有文檔數。

根據上述描述,設計MMSS-Rank算法,步驟如下:

輸入:數據D={title, content},文本層次權重P(簡稱層權重,共3 層權重),語義模板權重W(簡稱級權重,共4 級權重),文本層次級別數量m,語義模板級別數量n

輸出:文本數據得分Score

1.根據系統設定的語義模版(地區行為學術標簽風險標簽)對文章進行分詞和統計處理,得到文章字符數量、關鍵詞列表和分段信息(區分是標題還是正文),關鍵詞需要包含所在段落、所在段落中的排序和類型

2.keywordMap=[關鍵詞: 密度值(關鍵詞字數/全文關鍵詞總字數)]

3.根據關鍵詞和分段信息,采用最短路徑和系統設定的語義模版組合各段落語義,劃分標題語義列表、同段落語義列表、不同段落語義列表,每個語義需要含有(語義內容、語義關鍵詞密度之和、語義級別(1級(4 類信息)、2級(3 類信息)、3級(2 類信息)、4級(1 類信息)、語義層次(1標題、2同段、3不同段))

取分段語義列表

標題中的語義計入標題語義列表中

正文段落區分同段語義列表和不同段語義列表,默認同段是第一段,判斷各段落中語義級別最高且語義中各類關鍵詞之和最大的段落作為本文同段

sameNum=1;

for all段落do

if段落語義級別最高且語義中各類關鍵詞之和最大 then

sameNum=;

end if

end for

for all段落do

if段落Num == sameNum then

sameList=[段落語義]

else

differList=[段落語義]

end if

end for

4.文章語義關鍵詞密度矩陣Cij=[0],同一層次將相同級別語義的關鍵詞密度和相加后除以個數

for all m do

i按照標題、同段、不同段的順序取出各層級語義列表

for all n do

if語義級別為jthen

cij=其中a為該文本層次語義集合,vk為語義k的關鍵詞密度,n為a集合的個數;

end if

end for

end for

5.更加公式計算得分:Score=P×(Cmn×WT)

6.return Score

輸出:Score

得分的高低進行排列,輸出檢索網頁的重要程度,按得分數值高低進行排序。

3.3 示例

為說明MMSS-Rank算法,以單獨一段的文本數據為例,計算過程如下:

標題:抽檢嘉興市嘉利、五福奶糖存在多批次不合格

正文:近日,嘉興市工商行政管理局公布2019年4季度對海寧市流通環節銷售的部分奶糖產品進行了質量監測抽檢。本次監測主要對奶糖的衛生指標(如菌落總數、大腸菌群等)以及酸價、過氧化值、苯甲酸或山梨酸、蘇丹紅等項目進行了檢測。監測結果顯示,奶糖內在質量較好,個別產品存在甜蜜素、還原糖等指標不符合國家有關標準要求的問題。此次抽查49 批次產品,其中2 批次不合格。晉江市嘉利食品有限公司生產的五福多彩軟飴,糖精鈉、甜蜜素不合格,海寧市嘉利食品廠生產的五福酥糖(裹皮型),還原糖不合格。

計算過程:

1.從文章中提取關鍵詞

keywordList:奶糖(4), 嘉興(2), 公布(1),海寧(2)

2.計算提取的關鍵詞分數

keywordMap:奶糖(2*4/254=0.0315), 嘉興(2*2/254=0.01575), 公布(2*1/254=0.00787), 海寧(2*2/254=0.01575)

3.計算出標題、同段和異段中語義的分數

標題:{"2":[{"density":"0.04725","content":"海寧奶糖"}]};

同段:{"2":[{"density":"0.02362","content":"嘉興公布"},{"density":"0.04725","content":"嘉興奶糖"}],"1":[{"density":"0.0315","content":"奶糖"},{"density":"0.0315","content":"奶糖"},{"density":"0.01575","content":"海寧"}]};異段:{};

4.計算文章語義關鍵詞密度矩陣

cmn=[ [0, 0, 0.04725, 0],[0, 0, 0.035435, 0],[0, 0, 0, 0]]

5.得出分數:score=[5, 3, 1]*(cmn*[[10][8][5][1]])=[5, 3, 1]* [ [0.23625][0.177157][0]]=1.7127

4 實驗分析

4.1 實驗設計與說明

4.1.1 數據準備

目前,針對國內外還沒有關于食品安全事件的大規模數據作為公共測試集,因此,本文選擇中國食品報網、中國食品監督網、食品安全快速檢測網、39健康網、中國食品科技網、中國質量新聞網、浙江消費維權網、第一食品網、山東美食網、FT中文網、四川新聞網、東方網、光明網(食品頻道)等58 家主流網站的食品版塊,從2009—2019年間的720 000 條相關報道數據中通過科學地抓取、去重和清洗得到的數據作為實驗文本數據。再借助分詞技術對食品安全文本數據進行分詞,通過對文本數據的語義分析、關鍵詞識別、結構化分解、分層化標注等預處理,進一步得到不同文本數據的結構化信息。其中語義分析工具使用了哈爾濱工業大學社會計算與信息檢索研究中心研發的“語言技術平臺”,該平臺提供包括中文分詞、詞性標注、命名實體識別、依存句法分析、語義角色標注等豐富、高效、精準的自然語言處理技術。少量食品安全事件特定的目標詞識別和結構工作是通過人工進行標注及矯正。

4.1.2 評價指標

本文中MMSS-Rank算法的測試效果采用判別食品安全事件準確率來評價,具體做法為:從實驗文本數據中隨機抽取N條數據,通過人工判別是否為食品安全事件,標記為labeli,i=1, 2,...,N,當labeli=1時表示文本數據是食品安全事件,當labeli=0時表示文本數據不是食品安全事件;再從標注清楚的數據集中隨機選取N1條文本數據作為訓練集,剩余N-N1條作為測試集。設定不同層、級和閾值參數,按本文提出的語義模板相似度算法計算訓練集中每一條文本數據的得分,將訓練集中所有文本數據按分值由大到小排列,得到分值大于和等于閾值α的N2(N2≥N1)條文本數據,并定義此時的判別準確率P和召回率J。

在食品安全事件準確率最優的條件下,得到層、級和閾值權重參數,在N2個文本數據中,得分大于和等于閾值α的文本中的確是食品安全事件的所占比例為P,P用于測試算法的判別準確率。

在N個文本數據中,得分大于和等于閾值α的文本占全部文本數據的比例為J,J用于測試算法的召回率。

4.1.3 對比算法及參數設置

為了驗證文本所提MMSS-Rank算法的有效性,基于標準測試數據集,用不同方法進行性能評估,實驗部分采用如下比較算法:1)傳統的機器學習方法支持向量機(support vector machine,v-SVM),通過訓練和測試已有的數據,得到較好的訓練參數用于對新數據類別判別;2)基于主題的網頁排序算法T-rank。v-SVM采用LibSVM參數,選擇程序包的默認設置;基于主題Page-rank算法設置參數。MMSS-Rank算法有結構層、語義模板和閾值權重,因此,設置不同參數來研究結構層、語義模板和閾值權重系數的影響,見表4。

表4 MMSS-Rank權重算法參數設置Tale 4 MMSS-Rank parameters

4.2 同層級權重實驗及結果分析

為了說明本算法中不同層級權重對多層多級語義模板語義影響的差異,首先從第一級開始,依次逐層級權重取值0.1,其他層級權重全部取值為[1, 1, 1, 1],來說明改變層級單一權重對算法影響的情況,計算結果如圖2所示;然后將層級權重全部取值為[1, 1, 1, 1],來對比說明若僅考慮層級中一個因素取不同權重時對MMSS-Rank算法的影響,計算結果如圖3所示。

從圖2可以看出,在MMSS-Rank算法中僅改變層級中單一權重,或者層級權重相近時,準確率和召回率沒有顯著變化,說明對于MMSS-Rank算法若不考慮數據的文本位置信息和語義結構特征,由于對食品安全事件缺少比較完整的描述,因此,對于數據挖掘的準確率和召回率較低,說明對于MMSS-Rank語義分析算法而言,用不同權重系數反映層級間的重要程度是必要的。

圖2 改變層級單一權重的準確率和召回率曲線Fig.2 Accuracy and recall rate curves determined by changing a single layer and level weight

圖3 單層和單級權重準確率和召回率曲線Fig.3 Accuracy and recall rate curves of single layer and single level weights

從圖3A可以看出,將MMSS-Rank算法中的級權重相同時,層權重越小準確率上升越快,召回率下降越快;從圖3B可以看出,層權重相同時,級權重越小準確率上升越快,召回率下降越快。同時,準確率都隨著閾值的增加而增加,召回率隨閾值增加而減小。當閾值足夠大時,準確率可以達到100%,召回率趨近于0。進一步說明通過適當層級權重可以反映數據結構關系和語義特征,進一步提升MMSS-Rank算法的精度。

4.3 不同層級權重實驗及分析結果

為了更直觀說明不同層級權重系數對準確率和召回率的影響,使用表4中已設定的參數對測試集進行評分測試,計算結果如表5所示。取準確率80%,當層權重參數為[1, 0.5, 0.1]和級權重參數為[10, 3, 1, 0.5]時,閾值經計算可得0.092 555,此時召回率達到68.24%;將層級參數設置為[1 000, 100, 10]和[1 000, 100, 10, 1]時,閾值取值較大且準確率有所下降。

表5 不同準確率下不同參數的召回率與閾值Table 5 Recall rates and threshold values of different parameters showing different accuracies

圖4 層和級權重不同時準確率和召回率曲線Fig.4 Accuracy and recall rate curves for different layer and level weights

從圖4A~D可以看出,在MMSS-Rank算法中當權重逐漸增大時,層數降低,層數越小,準確率和召回率均快速上升,這表明在MMSS-Rank算法中層權重的重要性高于級權系數,尤其是在標題結構和食品安全事件數據的一級語義結構基本可以描述食品安全事件數據的結構關系和語義特征時。因此,層權重重要性高于級權重。

在MMSS-Rank算法中,顯著增加食品安全數據層權系數時,準確率和召回率變化情況如圖4E所示,MMSS-Rank算法不僅兼顧文本位置信息,還融入了語義結構特征,因此能夠完全描述一個食品安全事件,較好地克服了僅使用文本關鍵字來表達的句子語義信息的限制。

4.4 對比算法實驗及分析結果

本部分實驗選擇v-SVM算法、T-rank算法對食品安全文本數據集進行判別,并與本文提出的MMSS-Rank算法進行性能比較,使用平均值作為算法對應的準確率,選擇從2007—2018年主流媒體報道中食品安全事件發生較多的3 種食品類型進行對比實驗,得出v-SVM、T-rank和MMSS-Rank 3 種算法對食品安全數據判別準確率,如表6所示。

表6 三類食品安全事件判別準確率Table 6 Accuracy in discriminating FSI-related data

由表6可知,對于食品安全事件數據,相比之下,傳統v-SVM方法的準確率均遜于其他方法,說明傳統的分類學習方法處理文本數據時,僅通過提取文本詞頻、句長等信息,無法全面獲取食品安全事件語義信息;基于主題的網頁排序算法T-rank雖然對食品安全事件主題內容進行分割,能夠在一定程度上避免v-SVM抽取方法的局限,但是由于食品安全事件具有時空特性,T-rank算法不考慮事件結構信息,特別是忽略食品安全事件語義特征,因而準確性不高。MMSS-Rank算法在充分考慮食品安全事件數據結構信息的基礎上,又兼顧了食品安全事件發生地點、時間和環節等語義信息,通過與標準食品安全事件的語義模板進行相似度比對,從而較好地實現文本數據語義分析;因此,MMSS-Rank算法在肉制品、乳及乳制品上判別準確率明顯優于其他兩種方法。

5 結 語

本文提出的MMSS-Rank算法不僅能夠高效提取不同食品安全事件的語義結構信息,還通過計算不同事件與語義模板間相似度,實現食品安全事件排序。實驗結果表明,MMSS-Rank算法對食品安全事件的判別具有較好的準確性和高效性。較之于現有的相關方法,該算法的特色之處在于:1)從食品安全事件的食品種類、供應鏈環節、風險因子、空間分布等特征,全面梳理食品安全事件的關鍵詞,構建食品安全事件多層多級標準語義模板。2)將主流來源網站數據清洗后,算法分別從橫向和縱向提取食品安全數據的語義結構信息,粒度更小。3)創新地融合食品安全數據的分層結構信息和語義特征,實現在食品供應鏈環節上,應用大數據挖掘技術研究食品安全事件的演化規律。

利用MMSS-Rank算法開發的中國食品安全事件大數據分析平臺,不僅可以分析食品安全風險產生的動因和傳播方式,還可以基于信息收集、分析評估、預警預報、預案實施、效果評價等制定相應的措施,探索覆蓋食品供應鏈全程動態安全預警系統,以及研究中國食品安全事件的空間分布特點和變化趨勢。

在實驗過程中,由于不同網站報道形式和內容表述的差異,特別是結構松散的食品安全事件文本數據、關鍵詞抽取、分詞、切詞等問題不準確,直接影響了算法精度,這是本算法本身設計特點所決定的。對于未來的工作,可以從下面幾個方面考慮:1)結合食品安全事件特點,需要尋找一種新的語義模板間相似度的計算方法。另外對于特殊食品安全數據和文本,如單句、單段或多關鍵詞交叉,尋找一種高效率、高準確率的食品安全關鍵詞和句抽取方法至關重要。2)食品安全事件關鍵詞切詞、分詞方法也有待改進,本文事先將食品安全事件新聞報道中的關鍵事先設定好,但隨著新聞報道和事件的變化,關鍵詞會不斷變化,因此需要開發一種動態的優化機制,提升食品安全事件語義分析的準確率。

猜你喜歡
語義文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 国产精品片在线观看手机版| 欧美成人日韩| 国禁国产you女视频网站| 亚卅精品无码久久毛片乌克兰 | 亚洲无码视频一区二区三区 | 91久久偷偷做嫩草影院电| 亚洲人精品亚洲人成在线| 免费aa毛片| 在线亚洲小视频| 在线a视频免费观看| 国产亚洲一区二区三区在线| 国内精品视频| 99久久亚洲综合精品TS| 黄色网址手机国内免费在线观看| 免费激情网址| 国产成人综合久久精品下载| 日本午夜精品一本在线观看| 国产欧美精品一区aⅴ影院| 日日拍夜夜嗷嗷叫国产| 91在线无码精品秘九色APP| 黑人巨大精品欧美一区二区区| 亚洲人人视频| 国模私拍一区二区| 国产一区自拍视频| 国产成人乱无码视频| 97在线视频免费观看| 国产99精品久久| 国产99免费视频| 亚洲最大福利视频网| 国产乱论视频| 一级一级一片免费| 国产一在线| 日韩AV无码一区| 亚洲人视频在线观看| 国产女人综合久久精品视| 在线观看亚洲人成网站| 欧美天堂在线| 性色一区| 五月激情综合网| 中文字幕 日韩 欧美| 亚洲天堂网站在线| 日韩精品无码免费专网站| 亚洲成a人片7777| 亚洲h视频在线| 欧美不卡二区| 亚洲av片在线免费观看| 国产三级国产精品国产普男人| 国产精女同一区二区三区久| 好紧好深好大乳无码中文字幕| 亚洲一区二区精品无码久久久| 中文字幕精品一区二区三区视频 | 免费无码AV片在线观看中文| 久久国产乱子| 久久综合成人| 色悠久久综合| 精品在线免费播放| 国产流白浆视频| 女人av社区男人的天堂| 日韩中文精品亚洲第三区| 亚洲第一成年网| 国产精品午夜福利麻豆| 99久久人妻精品免费二区| 国产熟睡乱子伦视频网站| 免费在线a视频| 男女性午夜福利网站| 熟妇人妻无乱码中文字幕真矢织江 | 天天躁夜夜躁狠狠躁躁88| 国产91高跟丝袜| 亚洲精品成人福利在线电影| 热思思久久免费视频| 国产香蕉在线| 日韩高清欧美| 一级爆乳无码av| 亚洲Av激情网五月天| 欧美第二区| 色婷婷亚洲十月十月色天| 久热中文字幕在线| 亚洲综合色婷婷中文字幕| 国产自视频| 波多野结衣视频网站| 日本午夜影院| 亚洲人成电影在线播放|