面向稅收條例的知識圖譜構建方法

2023-05-11 08:58:28鄒安琪陳艷平

軟件導刊 2023年4期

鄒安琪，陳艷平

（貴州大學計算機科學與技術學院，貴州貴陽 550025）

0 引言

隨著人工智能、云計算和大數據等新興技術不斷發展，稅務作為國家經濟的重要組成部分，面臨著稅務改革和現代化建設等時代任務，因此，智慧稅務應運而生。在實際稅收征管中，首先需要專家對國家頒布的條例進行解讀并制定規則，然后再由計算機工作人員將規則編寫成代碼進行稅收計算。該模式依賴人工，無法實現智慧稅務中的“智慧”，稅務領域迫切需要一種能夠自動抽取并表示稅收條例所蘊含規則和知識的方法。由于知識圖譜結合了高效的深度學習方法，是決策支持、語義搜索、智能問答等智能服務的基礎技術［1］，因而能夠為上述問題提供優秀的解決方案：通過知識圖譜構建可以自動表征和抽取稅收條例中的規則及知識，并使用知識圖譜“解讀”稅收條例。

本文結合自然語言處理技術，研究面向稅收條例的稅法知識表示模型和稅法知識抽取方法，構建面向稅收條例的稅法知識圖譜。根據征收條例內在知識結構特征和邏輯關系，對稅收條例所蘊含的知識進行建模。同時，對稅務條例知識抽取數據集進行標注，設計實現針對稅務知識要素的抽取算法，提出針對稅法知識圖譜的自動構建框架。

1 相關工作

知識圖譜始于20 世紀50 年代，可分為3 個發展階段［2］：第一階段（1955-1977 年）是知識圖譜起源階段，引文網絡分析方法被用于研究現代科學發展脈絡；第二階段（1977-2012 年）是知識圖譜發展階段，語義網得到快速發展，“知識本體”的研究開始成為計算機科學重要領域；第三階段（2012 年至今）是知識圖譜發展的繁榮階段，2012年谷歌提出Google Knowledge Graph［3］，知識圖譜正式得名。知識圖譜一經提出便引起學術界和工業界廣泛關注，并成功應用于醫療、金融、公安、教育、社交網絡、電商等領域，可將其分為通用領域知識圖譜和垂直領域知識圖譜。

在通用領域，國外對于知識圖譜的研究早于國內，最具代表性的大規模通用領域知識圖譜包括YAGO［4］、DBpedia［5］、Wikidata［6］、Probase［7］、ConceptNet［8］等。國內工業界和學術界也對通用領域知識圖譜展開了一系列研究，工業界如百度“知心”、搜狗“知立方”，學術界如THUOCL、大詞林、zhishi.me、CN-Probase 等。

在垂直領域，學術界也掀起了知識圖譜相關技術研究高潮，胡芳槐［9］以互聯網上各類結構化、半結構化數據為基礎，提出基于多種數據源的知識圖譜構建方法，構建包含數千萬事實知識的中文知識圖譜。李文鵬等［10］針對4種不同類型的軟件資源，基于軟件知識實體提取原則，提出軟件知識圖譜構建方法，包括軟件知識實體抽取、關系關聯和知識查詢，并基于此實現了面向開源軟件項目的軟件知識圖譜構建工具，提高了軟件復用性，有助于軟件開發人員對軟件知識進行檢索與應用。楊玉基等［11］對領域知識圖譜構建進行系統研究，提出領域知識圖譜快速構建方法，并使用該方法以中國基礎教育的九門學科為原始數據構建了包含67 萬個實體及1 412 萬條事實的中文學科知識圖譜。張元博［12］構建了一種半監督的知識挖掘方法，依據挖掘的醫療信息構建醫療領域知識圖譜，針對醫療數據中結構化知識缺失問題，提出使用Bootstrapping 算法和條件隨機場對元數據進行抽取。王劍輝等［13］通過分析知網收錄的國內空中交通管理資料，利用知識圖譜對空中交通管理知識進行可視化。Arenas 等［14］運用DBpedia 數據集中IT 領域數據資源間的關系，使用建立關聯圖的方法構建知識圖譜，實現了IT 資源實體語義查詢。Karidi 等［15］基于知識圖譜和圖計算提出在Twitter 中關注主題推薦算法，實現了知識圖譜在社交網絡中的應用研究。洪文興等［16］基于中文預訓練語言模型，對知識圖譜構建過程中的信息抽取算法進行研究，其中包括命名實體識別和關系抽取，并以此實現了司法案件案情知識圖譜自動構建。

目前，知識圖譜在司法、生物醫療、金融風控和電子商務等特定領域有著廣泛應用，但在涉稅領域方面鮮有研究。稅務領域作為國家經濟重要組成部分，稅務智能化建設與每個人息息相關，構建基于智慧稅務的知識圖譜迫在眉睫。

2 稅收條例知識建模

在構建稅收條例知識圖譜前，需對構建圖譜的原始數據進行分析，得到知識圖譜建模數據形態，并說明知識圖譜要素的知識類型，定義知識圖譜結構模型。

2.1 稅收條例知識子圖

對稅收條例進行人工分析并與稅務領域專家進行討論，發現稅收條例文本詞匯專業性強、可讀性差，具有語言表達規范、語義明確、知識較為結構化、邏輯性強等特點。

傳統知識圖譜只對涉及到的實體類型和關系類型進行預定義，這種建模方式無法完全將稅收條例中蘊含的語義內涵和知識結構表示出來，但稅收條例存在明顯語義結構，為此提出稅收條例知識子圖建模具體涉稅措施，通常將一個稅收條例轉化為一個子圖，如圖1所示。

Fig.1 Tax regulations knowledge subgraph圖1 稅收條例知識子圖

2.2 稅收條例知識要素

稅收條例知識子圖是以納稅人為根節點、具體涉稅措施為終結點的有向無環圖。其內部結構鮮明，包含9 種知識要素和5種要素關系，知識要素如表1所示。

Table 1 Types of knowledge elements of tax regulations表1 稅收條例知識要素類型

稅收條例知識子圖包含納稅主體、納稅對象、納稅行為、納稅客體、主體修飾、行為修飾、對象修飾及時間。其中，修飾要素通常是對主體、對象、行為進行修飾限定，例如表1 中的“二手車經銷”與“從事”結合起來對納稅主體“納稅人”進行修飾。修飾要素用于對納稅主體、納稅對象及納稅行為進行限定，對條例邏輯和知識結構更好地進行刻畫。時間用于對條例有效日期作出描述。除知識要素外，根據知識表示方法定義的6種關系如表2所示。

Table 2 Six relationships defined according to the knowledge representation method表2 根據知識表示方法定義的6種關系

2.3 稅收條例知識圖譜及操作

稅收條例知識圖譜以納稅人源節點為中心節點，由稅收條例知識子圖構成知識圖譜。該知識圖譜并非子圖的簡單拼接，向圖譜中添加子圖時，需判斷待添加稅法分面樹和已有稅法分面樹間的語義關系。為此，定義基于知識圖譜的操作如下：

（1）查詢子圖。查詢符合條件的知識子圖，判斷其是否存在。查詢操作是其他操作的基礎，是分面樹進行添加、更新、刪除等操作的前提條件。

（2）添加子圖。添加某一子圖，添加前應先判斷該分面樹是否已存在，添加后，知識圖譜中會新增一個子圖。

（3）更新子圖。若添加子圖前發現該子圖已存在，則更新分面樹。更新操作可能存在合并、拆分子圖的情況。

（4）刪除子圖。對知識圖譜中符合條件的知識子圖執行刪除操作，查詢當前知識圖譜，若存在同待刪知識子圖語義相同的子圖，則執行刪除操作。

3 基于BERT的稅收條例要素抽取

稅收條例知識要素抽取采用命名實體識別方法，對句子中每個字預測一個分類標簽，從而判斷該字在要素中的語義角色。在B-I-O 編碼中，B（Beginning）表示該字對應一個要素的開始，I（Inside）表示要素的后續，O（Outside）表示不屬于該要素。為保證建模標簽間的語義依賴關系，現有要素識別方法主要采用序列標注模型輸出一條最大化標注路徑，從而建立句子中知識要素間的語義依賴信息。

傳統基于Word2vec 的序列標注模型無法表征上下文關系，一個詞只包含一個詞向量。本文在BiLSTM-CRF 模型基礎上，引入基于BERT 的預訓練語言模型，構建BERT-BiLSTM-CRF 稅收條例要素抽取模型，結構如圖2所示。

Fig.2 Element extraction model of tax regulations based on BERT圖2 基于BERT的稅收條例要素抽取模型

模型整體可劃分為三大網絡層：第一層是嵌入層，利用BERT 預訓練語言模型對句子進行嵌入生成融合上下文語義信息的字符向量表示；第二層是BiLSTM 層，對BERT輸出的字符向量表示進行編碼及解碼，有效獲取字符序列的長距離依賴；第三層是CRF 層，對上層輸出解碼，學習標簽間約束關系并輸出最大化標注序列。

3.1 嵌入層

BERT 模型在嵌入層對輸入的條例依次進行詞嵌入、段落嵌入和位置信息嵌入［17］。詞嵌入對輸入的文本進行分詞處理，將每一個token 轉換為固定維度的向量表示；段落嵌入是用［CLS］和［SEP］特殊符號分割句子中的token，并以0/1 下標做區分進行嵌入。由于BERT 可以處理長度為512 的句子，故以0-512 區分每個字的位置，以此學習每個位置的向量表示，得到包含輸入序列順序特征的位置嵌入。3 種嵌入表示疊加輸入后，BERT 采用Transformer 對輸出向量進行特征提取。給定條例1 的文本輸入為{w1，w2，w3，...，wn}，經過BERT 嵌入層得到帶有上下文語義信息的向量表示為{x1，x2，x3，...，xn}，其中n代表句子長度。

3.2 BiLSTM 層

BiLSTM 指雙向長短記憶神經網絡，在解決長距離序列依賴方面較為優秀，并解決了LSTM 只能獲取單向語義信息的問題，LSTM 單元通過門控機制以控制信息取舍。

每個LSTM 單元中包含輸入門it、輸出門ot和遺忘門ft，BERT 嵌入得到字符分布式表示為x={x1，x2，x3，...，xn}，t 時刻的輸入包括xt與ht-1，ct和ct-1表示記憶單元，ct-1通過遺忘門摒棄部分歷史信息，結合輸入門新加入的信息得到ct，利用輸出門計算得到當前時刻ht，其計算過程如式（1）。

3.3 CRF層

CRF 作為解碼層，用于學習標簽間的約束關系，解決標簽不合理問題。BiLSTM 的輸出將句子表示映射到與句子字符對應的標簽概率矩陣P，其中Pij表示句中第i個字符對應標簽是j的概率，而CRF 主要是學習標簽間的轉移矩陣A，其中Ai，j表示i標簽后接j標簽的概率。

對于經過BiSLTM 特征抽取后得到的隱狀態輸出H(h1，h2，...，hn)，其對應標簽序列為Y(y1，y2，...，yn)，得分函數可定義為式（3）。

其中，S表示全部句子集合，Hs表示句子s經過BERT和BiLSTM 的隱狀態輸出，Ys表示句子s對應的預測標簽序列。

4 實驗及結果分析

4.1 數據集

為構建稅務征收條例知識圖譜，本文選用國家稅務總局和各地稅務局官網政策庫自1984 年以來發布的各項稅務征收條例作為數據集。采用BIO 格式對稅收條例知識建模方法提及的要素進行標注，最終得到Tax 數據集。以8∶1∶1 的比例對數據集進行劃分得到訓練集、驗證集和測試集。稅收條例知識要素類型和數據統計信息如表3所示。

為證明本文模型的可擴展性，除在本文標注的Tax 數據集上開展實驗外，還選取了兩個中文基準數據集MSRA和Weibo［18］進行實驗，數據集統計信息如表4所示。

4.2 實驗設置與評價指標

本實驗基于Tensorflow 深度學習框架，在Linux 系統下的Nvidia Tesla P40 平臺上進行模型訓練。主要參數包括：最大句子長度為300，batch_size 為64，學習率為0.000 5，優化器采用Adam［18］，drop_out 為0.5；為緩解梯度消失和爆炸的影響，LSTM 隱含單元設為128，層數為2；經過預訓練模型對比實驗后，選取更加適用于本文抽取任務的RoBER-Ta-wwm-ext［19］模型，該模型包含了包含12 個Transformer，預訓練詞向量維度為768。本文采用P 值、R 值和F1值作為評價指標，F1值使用微平均計算，具體計算公式如式（6）。

Table 3 Statistics of element number of Tax dataset表3 Tax數據集要素數量統計

Table 4 Statistical of universal datasets表4 通用數據集統計

其中，TP 表示預測要素是正確識別的個數；FP 表示預測要素是錯誤識別的個數；FN 表示標準標注要素被錯誤識別的個數。

4.3 實驗結果與分析

為證明本模型性能，采用BiLSTM-CRF、BERT-CRF 這兩種模型作為對比模型。具體實驗性能如表5所示。

Table 5 Knowledge element extraction model performance表5 知識要素抽取模型性能

將本文模型與序列標注經典基線模型BiLSTM+CRF進行對比，3 個指標均大幅提升，準確率提升10.03%，召回率提升11.47%，F1 值提升11.15%。說明在稅務領域，BERT 預訓練模型詞向量較于傳統Word2vec 模型訓練的靜態詞向量在表達字的語義信息和有效提取上下文特征方面表現更佳，證實了本文模型在稅務領域要素抽取任務上可行。

將BERT+BiLSTM+CRF 模型與BERT+CRF 模型進行對比，兩個模型間的區別在于BiLSTM 層，從結果上看召回率降低了，但準確率提高2.1%，F1 值提高2.44%，證明BiLSTM 在獲取句子的長距離語義依賴方面具有一定優勢。

在通用數據集MRSA 上實體類型少，識別較為容易，3個模型F1值均達到90%以上，BERT-BiLSTM-CRF 模型相較于BiLSTM-CRF 模型各項指標均提高5%以上，但與BERT-CRF 模型相比，性能提升不大。在更具挑戰性的數據集Weibo 中，本文模型各項指標較基線模型BiLSTM 提升17%以上，在BERT-CRF 模型上的提升比MSRA 數據集更大，表明本文方法具有一定擴展性。

為驗證各種中文預訓練語言模型性能，在本文模型結構下選取BERT-base［17］、BERT-wwm［19］、Roformer［20］、Ro-BERTa-wwm-ext［19］等BERT 模型進行對比實驗，實驗性能如表6所示。

BERT 系列模型明顯優于Roformer，表明BERT 系列模型更適用于本文抽取任務。BERT-wwm 作為BERT 升級版，引入了全詞MASK，實驗表明，模型在準確率（P）和召回率（R）上略優于BERT-base，F1指標性能幾乎接近。

由于RoBERTa-wwm-ext 訓練數據量大和特殊設計的MASK 方式，各項指標均明顯優于其他對比預訓練模型。

Table 6 Pre-training model extraction performance表6 預訓練模型抽取性能

5 稅收條例知識圖譜自動構建

本文基于上述稅收要素抽取模型，實現了面向稅收條例的知識圖譜自動構建，構建流程如下：

（1）知識要素抽取。給定一條稅務條文，采用基于BERT 的稅收條例要素抽取模型對稅務征收條例進行要素識別，得到知識要素數據列表List1。

（2）結構組合。由于稅法分面樹的各部分組成詞較為固定，將要素按＜納稅主體-主體修飾＞、＜納稅主體-納稅對象＞、＜納稅對象-對象修飾＞、＜稅種-納稅對象＞、＜納稅行為-行為修飾＞＜納稅行為-稅種＞進行組合得到數據列表List2。

對List2中的各類二元組組合，利用表2 中的預定義關系類型進行關系拼接，形成最后的關系數據列表List3。此列表包含：要素1 及其要素類別、要素2 及其要素類別，從而得到三元組，對三元組進行拼接得到稅收條例知識子圖。

（3）稅收條例知識圖譜構建。利用子圖中的納稅人源節點進行融合得到知識圖譜。子圖融合之前進行定義的查詢子圖操作，利用文本匹配方法在條例庫中進行匹配，若有沖突則執行子圖更新操作，更新知識圖譜中的知識子圖；若無沖突則進行添加子圖操作。通過上述操作融合知識子圖得到知識圖譜。

（4）可視化展示。將獲取的知識圖譜以數據形式進行結構化存儲，利用Echarts 結合Vue.js 開發的知識圖譜可視化工具，以導向圖形式對稅收條例知識進行可視化展示，如圖3所示。

Fig.3 Visual display of tax regulations knowledge graph圖3 稅收條例知識圖譜可視化展示

6 結語

本文面向稅務征收條例數據研究知識圖譜構建方法，針對知識圖譜構建需求，提出面向稅收條例的知識建模方法，準確且適當地表示了稅收條例中蘊含的知識。同時，針對稅收條例的數據特點，設計基于BERT 的稅收條例知識要素抽取模型，在本文標注的Tax 數據集上展現出其優秀性能，并通過對比實驗選取適合本文任務的中文預訓練語言模型。在通用數據集上進行實驗也展現了較好性能，證明該模型適用于稅務知識抽取任務，且在通用領域具有一定擴展性。最后，基于知識要素抽取模型，提出了知識圖譜自動構建流程，實現了面向稅收條例知識圖譜的構建。

為構建質量更高的知識圖譜，后續研究將收集更多稅收條例數據進行人工標注，增加數據量以提升知識要素抽取性能。知識建模中要素分類粒度較粗，并不能完全涵蓋所有領域知識概念，后續將繼續補充相關領域知識，完善知識建模方法。