張馨月 王寧 張瑤瑤



收稿日期:2023-08-18
基金項目:太原科技大學教學改革創新項目(XJ2021004)
DOI:10.19850/j.cnki.2096-4706.2024.06.023
摘? 要:我國建立了完備的食品安全法規體系,其具有海量和零散性的特點,難以檢索分析。以食品安全法規文本數據為依托,通過自頂向下和自下而上的方式進行食品安全法規知識圖譜的構造研究。首先,獲取多源異構的食品安全法律法規和問答數據語料,對用戶的需求進行分析。其次,定義食品安全知識圖譜的本體層及其屬性,使用基于規則的方法對知識進行抽取,針對規則性不強的知識,使用基于機器學習的命名實體識別方法完成領域命名實體識別。最后,實現食品安全法規知識圖譜的構建。
關鍵詞:食品安全法規;知識圖譜;自然語言處理;機器學習;命名實體識別;BERT模型
中圖分類號:TP391.1? ? 文獻標識碼:A? ? 文章編號:2096-4706(2024)06-0103-07
Construction of Knowledge Graph for Food Safety Regulations
ZHANG Xinyue, WANG Ning, ZHANG Yaoyao
(College of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan? 030024, China)
Abstract: China has established a complete food safety regulatory system, which is characterized by massive and fragmented nature and difficult to retrieve and analyze. Therefore, we conduct research on the construction of a Knowledge Graph of food safety regulations through a top-down and bottom-up approach based on the textual data of food safety regulations. First, we obtain multi-source heterogeneous food safety laws and regulations and Q&A data corpus, and analyzes user needs. Then, we define the ontology layer and attributes of the food safety Knowledge Graph. We extract the knowledge by using a rule-based method, and complete the domain named entity recognition by using Machine Learning-based methods for the knowledge with weak regularity. Finally, we realize the construction of Knowledge Graph for the food safety regulations.
Keywords: food safety regulation; Knowledge Graph; natural language processing; Machine Learning; named entity recognition; BERT model
0? 引? 言
“民以食為天,食以安為先”。食品安全是健康中國的重要內容,也是“五大公共安全”的重要內容之一[1]。2017年7月8日,國務院印發了《新一代人工智能發展規劃》,其中提到促進人工智能在法律文件閱讀與分析中的應用[2]。因此,使用人工智能技術來完成對食品安全法律法規的閱讀與分析,是實現“舌尖上的安全”必不可少的環節之一。構建基于食品安全法律法規的知識圖譜,不僅能夠解決知識查詢問題,還可以將食品安全法律法規中涉及的重點實體和層次等內容通過知識圖譜中的邊進行連接,這樣就打破了法律法規的相對獨立性,可以對法律法規的重要知識進行關聯查詢。
目前,知識圖譜在司法領域的應用取得了一些進展。Li等人提出了事務的法律規定預測任務,并使用知識圖譜中的文本理解和圖推理的方式來完成任務[3]。Filtz等人構造了奧地利法律知識圖譜,提出了LKG本體論。通過鏈接到地理名稱和開放街道地圖等外部空間知識庫,對各種歐盟成員國的現有法律舉措進行深度分析[4]。曾蘭蘭等人基于刑事裁判文書數據構建了刑事法律知識圖譜[5]。
《規劃》指出,要強化利用人工智能等計算機技術實現對食品安全的有效保護,在綜合考量食品分類、預警水平、食品安全風險和評估等內容的基礎上建立了人工智能食品安全預警系統[6]。但是我國針對食品安全法規知識圖譜的構建和研究仍然處于起步狀態,亟待我們進一步深入研究。
1? 圖譜概述
對用戶需求的正確認知直接關系到所構建知識圖譜質量的高低。本文將業內公認規模較大、可信度較高的“12348中國法網”等網站作為數據源,爬取主題為“食品”的法律咨詢問答8 000余條,并進行了咨詢用戶畫像和咨詢問答分類分析,從而得到不同類別用戶的具體需求。將如圖1所示的風險識別因素作為領域實體進行存儲,將因素的層次結構作為知識圖譜模型構建的參考,并將它們補充進食品安全領域詞典中。
圖1? 食品安全風險識別因素
與食品安全風險因素存在的各個階段相對應,咨詢用戶的角色基本上可以分為四類,即生產者、銷售者、網絡食品第三方交易平臺和消費者。他們所關心的問題具有相似性,可分為三類,即賠償問題、行政處罰和刑事責任。經過整理分析,在用戶進行搜索或提問之后,公共法律服務網站反饋給用戶的搜索結果或回答包括兩個方面的內容,一是違法犯罪行為或受到侵害行為所涉及的法規,包括具體的章節條例;二是相關的執法部門或可以求助的部門能夠提供的具體幫助。其他詳細的解答內容都是從這兩個方面延伸出來的。
因此,本文旨在建立法律法規之間的聯系,破除法律法規之間的獨立性,以法律法規為核心對知識進行重載利用。食品安全法規知識圖譜作為領域知識圖譜,主要強調知識的體系結構和深層次的領域知識,因此采用自頂向下和自底向上相結合的方式進行構建。本文結合食品安全相關行政法規、司法解釋以及地方政府規章文本數據的邏輯特點,對知識圖譜進行設計。數據來源為全國人大常委會、國務院、國家質量監督檢驗檢疫總局、國家食品藥品監督管理總局、中央編辦、地方食品藥品監督管理局等網站公開發布的有關食品安全的一般法律、條例、決定、辦法等共計3 474篇(截至2023年4月)。在構建食品安全法規知識圖譜時,首先定義食品安全法律政策體系,并根據該體系形成本體概念。我國的食品安全政策體系包含法律、法規、部門規章、規范性文件等,形成了國家、部門、行業與地方逐層約束的食品安全法規體系,具有“二元制”和“多層次”的特點。在《中華人民共和國食品安全法》和《中華人民共和國農產品質量安全法》的指導下,全國人民代表大會及其常務委員會制定了法律,涵蓋立法、執法、法律監督、刑罰和行政處罰等各個方面。在食品安全法律法規體系的縱向關系上,法律、法規、部門規章、規范性文件和安全標準之間需要相互協調,彼此銜接,下一層的立法不能和上一層的立法相互抵觸,也就是遵守“法制統一”的原則。
2? 知識圖譜模式層設計與構造
2.1? 總結和分析食品安全法規領域本體
首先,構建知識圖譜模式層,定義本體概念及屬性:
1)法規。是食品安全法規知識圖譜中的核心概念。使用法規名稱、主席令號、發布時間、施行時間、立法主體、法規目錄、施行范圍、效力等級、涉及執法部門、規定過程、規定責任部門、參考文件、制定依據、法規條文等屬性對法規進行描述。
2)相關部門。每篇法規都會涉及立法主體、執行某些條款、觸犯某些條款所牽涉的執法部門、責任部門。
3)品類領域。在不同類型的法律法規中,所要針對和規范的生產品類、角色品類可能類似,也可能不同,因此其實體內容非常廣泛,生產品類如養殖業、捕撈業等,角色品類如藥品生產企業、藥品經營企業等,它們在法規中都屬于被定義和被規范的內容。
4)規定過程。由于食品安全法規覆蓋了從種植養殖、生產、加工經營、檢測到流通消費的全過程,所以將規定過程定義為知識圖譜中的一個本體,通過將本體實例化來描述規范過程。
5)規定對象。覆蓋了大部分食品類別,是參照了GB 2760-2014國家標準中的附錄E食品分類系統所定義的本體,與規定過程相對應。若某一法規約束了某一食品類別下的食品,則可以將該食品作為這一食品類別下其他食品的參考。
2.2? 定義本體之間的關系
在關系方面,從當前法規的獨立性出發,以法規為核心,將法規與相關部門、品類領域、規定過程、規定對象的關系進行知識圖譜的語義關系定義,如表1所示。食品安全法規知識圖譜的結構如圖2所示。通過命名實體識別方法和基于規則的實體、實體屬性和實體關系抽取方法,能夠將本體實例化,并存入數據庫中,構造知識圖譜。
表1? 本體關系表
關系名稱 關系說明
立法 相關部門與法規
規定職責 法規與相關部門
制定依據 法規與依據法規
約束領域 法規與品類領域
針對的生產過程 法規與規定過程
針對的生產對象 法規與規定對象
協同合作 部門與部門
圖2? 知識圖譜結構圖
3? 知識抽取
3.1? 主題詞提取
通過提取食品安全法律法規的所有章節名實體來概括該法規的文本內容。為了進一步補充法規內容特征,對每篇法規進行內容提取,獲得特征項。食品安全法律法規的原始數據中包含有大量的領域特征詞匯,如果將這些特征詞匯作為特征項,會給后續處理工作帶來很多不必要的麻煩。因此,使用TF-IDF函數從特征詞匯中提取出主題詞來表示食品安全法律法規的主要特征,能夠概括法規的文本內容。
我國的法律法規文本與新聞報道等文本存在著很大的區別。它們的書寫格式、段落結構、遣詞造句都必須要符合一定的規范。因此,一些實體、實體屬性都可以通過基于規則的方法進行抽取,并且能夠取得較好的抽取效果。特殊用語描述內容的附近會有明顯的提示詞,可以用來提取擴充實體。
3.2? 基于BERT-BiLSTM-CRF的命名實體識別
BiLSTM-CRF模型是將雙向長短期記憶網絡(BiLSTM)和條件隨機場(CRF)有機結合的命名實體識別模型[7]。命名實體識別問題實際上是一個序列標注問題。本文使用BIO標注集對數據字符進行標注。BiLSTM模型是由一個正向LSTM和一個反向LSTM組合而成的,對輸入的字符序列進行兩個方向的計算,能夠用到兩側的上下文信息。Softmax輸出的概率相對獨立,輸出值之間不存在依賴關系,在每一步選出一個概率最大的值,輸出其對應標簽,會生成不符合語義邏輯的標簽序列。CRF層將輸出層面的關聯性進行分離,進行標簽預測時將上下文關聯情況考慮在內。此外,在求解維特比時,CRF使用動態規劃算法來求解概率最大的路徑,可以防止結果中出現非法序列,比如“B-OBJ”后面跟著“I-DEP”。
假設字符序列輸入的是X = (x1,x2,x3,…,xn),獲取到輸入序列后,進行分布式表示,經過BiLSTM層的學習之后,輸出概率矩陣Pn×m,其中m表示標簽的類別個數。對于想要輸出的標簽序列y = (y1,y2,y3,…,yn),定義最優路徑得分,如式(1)所示:
(1)
最優路徑求解如式(2)所示:
(2)
其中,Pi, j表示xi被標記為第j個標簽的概率大小,Ai, j表示概率轉移矩陣中第i個標簽被轉移到第j個標簽的概率。由此可知,CRF建模輸出標簽二元組,并且使用動態規劃的算法求出得分最高的路徑y?作為最優路徑。如圖3所示為BiLSTM-CRF模型的網絡結構。
訓練BiLSTM網絡結構需要將預處理后的食品安全法律法規漢字語料輸入到待訓練的神經網絡模型中,但是神經網絡模型不能接收漢字,漢字字符串的長度也互不相同。因此本文采用BERT模型進行字符向量的編碼,解決了Word2Vec歧義詞效果不佳的問題[8]。BERT模型能夠通過在所有層上下語境的基礎上實現聯合調整的方式來預訓練深層雙向表征。只要額外增加一個輸出層,即可對預訓練的BERT表征進行微調,使它更加適合新任務和新模型。組成BETR的核心模塊是12層或24層的雙向Transformer,其最為關鍵的部分是Attention機制。相對于RNN,雙向編碼器Transformer更加高效,能夠捕捉到更長距離的依賴。相對于LSTM,Transformer能夠并行訓練,達到更快的訓練速度。
在BERT模型后接入BiLSTM-CRF網絡結構,使用BiLSTM獲得每個實體類型標簽的得分,并通過CRF借助維特比算法挑選出概率最大的標簽類型。BERT-BiLSTM-CRF的網絡模型如圖4所示。
圖4? BERT-BiLSTM-CRF模型結構示意圖
其中,Ei表示序列中第i個位置的輸入。由圖4可以看出,BERT-BiLSTM-CRF模型通過將BERT模型的輸出作為特征表示加入BiLSTM模型中。因為需要海量數據和強大的計算能力來支持模型的訓練,本文使用了針對中文語料的Bert-Base-Chinese版本。
3.3? 命名實體識別實驗分析
利用YEDDA文本標注工具,參照BIO標準對數據集進行類型標注。對改進后的CRF模型、BiLSTM-CRF模型和BERT-BiLSTM-CRF模型在有效食品安全相關行政法規、司法解釋以及地方政府規章文本數據中命名實體的識別效果上進行了比較,實驗中采用的評價指標是機器學習中常用的評價機制準確率、召回率和F1值。
其中準確率的求解如式(3)所示:
(3)
其中,P表示命名實體識別實驗的準確率,Q表示結果中被正確識別的詞語數,R表示結果中所有的實體數。召回率的求解如式(4)所示:
(4)
其中,R表示命名實體識別實驗的召回率,Q表示結果中被正確識別的詞語數,T表示文本中所有應當被識別的實體數。F1值的求解如式(5)所示:
(5)
3.3.1? CRF模型實驗
實驗中使用食品安全法律法規文本涉及的詞匯和詞性作為詞的特征輸入,借助CRF++0.58工具包實現對食品安全法律法規文本的命名實體識別。CRF模型訓練需要特征模板,以便通過訓練集提取特征函數。如圖5所示為特征模板的部分截圖。
圖5? 定制CRF特征模板
其中,U表示模板類型是Unigram Feature,每行中的% x[m, n]表示生成一個CRF中的點函數。
3.3.2? BiLSTM-CRF模型實驗
針對該模型使用不同參數值進行了多組實驗,根據實驗機器具體環境修改Batch size參數為20,根據模型訓練效果修改Dropout為0.5,修改Learning rate為0.001。
3.3.3? BERT-BiLSTM-CRF模型實驗
在BERT-BiLSTM-CRF網絡模型實驗中,使用到的訓練數據如上文所述。由于數據和實驗配置所限,選擇Bert-Base-Chinese版本進行實驗,并選用模型中的默認參數。其中sequence length設置為128,以減少因句長過短導致的命名實體漏檢。
為了測試添加了特征的CRF模型、BiLSTM-CRF模型、BERT-BiLSTM-CRF模型在食品安全法律法規數據集上的效果,文章將這些模型應用在命名實體識別任務中,設置了對比實驗來驗證模型的有效性,如圖6所示。
圖6? 實驗結果對比圖
在食品安全法律法規數據集中,CRF模型取得了比BiLSTM-CRF模型更為優越的效果,驗證了對數據進行預處理時根據數據特點對特征模板進行定制的實效性。BERT-BiLSTM-CRF模型取得了最好的效果,相對于BiLSTM-CRF模型,前者的領域命名實體準確率提高了0.22%,領域命名實體召回率提高了3.94%,F值提高了1.91%,說明它捕捉到了更長距離的依賴和上下文信息,能夠顯著改良食品安全法律法規領域的命名實體識別。
使用BERT-BiLSTM-CRF模型識別并抽取出法規施行時間、地點、部門機構、規范對象、約束食品類別等實體,作為對食品安全法規知識圖譜的實體擴充。將結果與《GB 2760—2014食品添加劑使用標準》《T/CFLP 0022—2019食品冷庫溫度監測規程》等領域的標準和規范進行對照,保證識別結果的有效性和科學性。抽取后有效的食品安全法規實體數據量如表2所示。
表2? 識別實體統計表
實體類型 制定施行時間 地點名稱 部門機構 規范對象 約束食品類別
實體個數 2 570 1 020 417 976 406
3.4? 知識抽取評價
知識抽取是知識圖譜構建過程中的關鍵步驟,知識抽取的效率和準確性決定了所構建知識圖譜的質量,因此評價食品安全知識圖譜和基于食品安全知識圖譜的分析系統,需要對知識抽取的有效性進行驗證。根據食品安全政策體系,將法規分為六類,并從每類法規中隨機抽取法規文本段進行抽取評估,比較模型抽取的效果。如表3所示,抽取準確率較高,但在發生前綴、后綴省略和術語位置更換用詞等情況時,會出現抽取識別失敗的問題。
4? 知識圖譜的存儲
根據知識圖譜中知識的類別,對實體、實體屬性和實體關系進行存儲。本文中采用Protégé工具[9]進行了本體的創建和存儲。對于實體和實體之間的關系,如國家層面的政策法規與國家級的食品安全監管部門建立的聯系,規范某個食品類別的法規與生產企業、食品對象建立的聯系等,需要用三元組的形式進行存儲,使用Neo4j數據庫進行有效表示,構建食品安全法規知識圖譜。例如,為了滿足用戶對《食品安全法》具體章節條目內容的需求,本文將法規章節、法規條目作為實體內容與法規名稱實體建立包含關系,組成實體關系三元組數據,并將其導入Neo4j數據庫[10]中,形成法規內容管理類圖譜,如圖7所示。
表3? 知識抽取對比表
基本法律 《中華人民共和國畜牧法》已由中華人民共和國第十屆全國人民代表大會常務委員會第十九次會議于……自2006年7月1日起施行 《中華人民共和國畜牧法》->法規名稱
全國人民代表大會常務委員會->部門機構
2006年7月1日->施行時間
行政法規 其他食品生產經營者應當在依法取得相應的食品生產許可、食品流通許可、餐飲服務許可后,辦理工商登記 食品生產經營者->規范對象
食品生產經許可->規范對象
食品流通許可->規范對象
餐飲服務許可->規范對象
工商登記->規范對象
部門規章 生產企業必須在巴氏殺菌乳和超高溫滅菌乳包裝主要展示面上緊鄰產品名稱的位置 生產企業->規范對象
巴氏殺菌乳->約束視頻類別-乳及乳制品
滅菌乳->約束食品類別-乳及乳制品
當用戶查詢有關某種食品添加劑的問題時,結合食品名稱,通過知識圖譜挖掘到相關規章對于該添加劑功能、最大使用量和使用標準的約束。構建<約束食品名稱>-<最大使用量>-<食品添加劑>三元組,將所得到的三元組數據存儲到Neo4j數據庫中。如圖8所示為食品添加劑子類圖譜。
5? 結? 論
通過爬蟲技術獲取了多源異構的食品安全法律法規等相關語料和法律咨詢網站的問答數據語料。根據問答數據語料對用戶的需求進行分析,總結出用戶的知識盲點和搜索重點,以此確定研究方法和研究內容。在處理食品安全法律法規文本時,根據法律法規文本用詞比較規范的特點,使用基于規則的方法對部分實體、實體屬性和實體關系進行抽取。對于規則不明顯的非結構化法律法規文本語料,采用命名實體識別的方法完成領域命名實體識別。將抽取出的實體、實體屬性和實體關系存入圖數據庫,構建食品安全法規知識圖譜。
參考文獻:
[1] 蔡嬌麗.國民收入、健康不平等與健康產業發展 [D].武漢:武漢理工大學,2019.
[2] 張子洞.淺談人工智能產業的創新與發展——統籌推進現代化經濟體系建設 [J].新絲路:上旬,2021(1):1-3.
[3] LI L Q,BI Z,YE H B,et al. Text-guided Legal Knowledge Graph Reasoning [C]//Knowledge Graph and Semantic Computing: Knowledge Graph Empowers New Infrastructure Construction. Singapore:Springer,2021:27-39.
[4] FILTZ E,KIRRANE S,POLLERES A. The Linked Legal Data Landscape: Linking Legal Data across Different Countries [J].Artificial Intelligence and Law,2021,29(4):485-539.
[5] 曾蘭蘭.刑事法律知識圖譜構建技術研究 [D]. 貴陽:貴州大學,2023.
[6] 徐博.當前我國智慧法院建設問題研究 [D].武漢:華中師范大學,2019.
[7] DANG N C,MORENO-GARC?A MN,PRIETAF D L. Sentiment Analysis Based on Deep Learning: A Comparative Study [J/OL].arXiv:2006.03541v1 [cs.CL].(2020-06-05).https://arxiv.org/abs/2006.03541.
[8] MU X F,WANG W,XU A P. Incorporating Token-level Dictionary Feature into Neural Model for Named Entity Recognition [J].Neurocomputing,2020,375:43-50.
[9] MUSEN M A. The Protégé Project: a Look Back and a Look Forward [J].AI Matters,2015,1(4):4-12.
[10] FERNANDES D,BERNARDINO J. Graph Databases Comparison: AllegroGraph, ArangoDB, InfiniteGraph, Neo4J, and OrientDB [C]//Proceedings of the 7th International Conference on Data Science, Technology and Applications DATA. Porto:Scitepress Digital Library,2018:373-380.
作者簡介:張馨月(1995—),女,漢族,山西太原人,助教,碩士研究生,研究方向:知識圖譜。