呂仲琪,董卓達,劉曉麗,蘆惠娟
(深圳市華云中盛科技股份有限公司,廣東 深圳518057)
數據作為人工智能所應用的一個重要前提是數據具有結構化特征。目前關于法院法律文書的大數據分析報告中指出,在法律大數據上對裁判文書進行標注、挖掘、分析、建模等法律人工智能應用的研究。除了對外公布的法律裁判文書,其它關鍵部分的法律決策過程大多不具有結構化特征的數據。除此之外,司法決策運行的程序過程信息也不充分,如大量的程序過程如刑偵過程、起訴過程、庭審過程等文字記錄具有散亂、無序和碎片化的特點[1]。
在語料稀缺的法律大數據領域,面對各種各樣的多源異構數據[1],傳統的命名實體識別(Named Entity Recognition,NER)的標注方法[14]并不能獲得很好的效果。法律領域數據中命名實體識別任務更加復雜,其難點主要表現在:①領域命名實體識別局限性。②命名實體表述多樣性和歧義性。③命名實體的復雜性和開放性。盡管法律裁判文書對法律的主體、案件事實、適用等要素做了明確規定,但細化到法律用語上,并未作出統一規定。以喪葬費為例,在起訴狀中“喪葬”可能被稱為“安葬”、“殯葬”,“停尸”的等價表達有“存尸”、“收尸”。這些非結構化的數據表述為機器的知識構建造成了很大的障礙。在法律這種非客觀領域知識挖掘過程中,無監督學習效果不甚理想,必須通過其它途徑對法律數據進行處理。
本文提出了一種多源異構數據融合的法律文書實體識別方法,結合領域知識,建立BERT-BiLSTM-CRF模型用于法律文書的命名實體識別,為命名實體關系抽取模型并挖掘結構化特征,實驗結果表明,該方法比傳統的樣本融合方法的實體識別效果有顯著優勢,滿足領域要求。
人工智能對證據的審查、判斷、采信的過程是法官模糊決策過程,類似的,人工智能量刑預測的過程可以抽象為不同源頭數據融合的過程[1]。數據融合本質上是對來自不同時空,不同類型,不同速率的多源數據的協同處理的過程,達到完善協同信息的目的[10]。文獻[2]研究了GIS中的多源異構數據的部署與管理,以及融合模型的構建;文獻[5]研究了基于異構數據融合的數據管理和決策架構,提高了針對數據的融合決策的準確性和有效性;文獻[3,4]研究了IOT環境下海量多源異構數據的融合策略,并有效用于目標追和路徑過程推演應用;文獻[6]利用神經網絡方法研究了在實際生產應用過程中的多源異構數據融合技術,保證了基礎信息平臺的知識互補和安全高效。
在多源異構數據數據的融合過程中,命名識別(NER)任務越發重要,人們開始用深度神經網絡來處理領域信息的NER過程,并取得了可觀的效果。這種方法的優勢在于,不需要對數據進行預處理,可由給定的神經網絡模型自行訓練并提取特征。在基于卷積的深度神經網絡模型來解決序列標注的問題的基礎上,Chiu和Nichols[14]提出了一種雙向LSTM-CNNs架構,該架構可自動檢測單詞和字符級別的特征。Ma和Hovy[12]進一步將其擴展到BiLSTM-CNNs-CRF體系結構,其中添加了CRF模塊以優化輸出標簽序列。Liu等[13]提出了一種稱為LM-LSTM-CRF的任務感知型神經語言模型,將字符感知型神經語言模型合并到一個多任務框架下,以提取字符級向量化表示。隨著問題的深入,也出現了許多半監督學習方法,例如基于預訓練語言模型BERT等[15]的半監督方法。
數據融合從算法層次上分為數據(像素)級融合、特征級融合以及決策級融合。本文研究多數據源在命名實體識別、特征提取級等決策層面上的融合,其方法主要有加權平均法、Dempster-Sharer證據推理法(D-S 方法)和選舉決策法等[8]。
1)加權平均法
設wi為數據源i的權重,tij為數據源i對決策j的支持度,即計算∑~witij值,根據支持度確定決策算法。該方法考慮了數據源的重要程度,但權重的確定具有隨意性。
2)D-S 證據理論
將待識別個體所有可能性構成的集合定義為D,其子集記為2D,?A?D,定義:m:2D→[0,1],其中:m(?)=0,∑A?2Dm(?)=1,?為空集,則m為 2D上的基本概率分配函數(Basic Probability Assignment Function,BPAF),它實際上是根據證據對 D 的子集信任程度的分配。
實際中往往針對同一問題因證據不同而得到不同的mi,考慮所有證據后的m可通過下式得到
m(A)=K-1×∑∩A=Ai∏mi(Ai)(1≤i≤n)
其中:K=∑∩Ai≠?∏mi(Ai)
3)選舉決策法
將各個數據源抽象為投票者,通過對比各決策獲得的票數確定優劣
Sup(ai)=F(Supj(ai))
其中:ai為第i個決策,Sup(ai)為其所得“票數”;Supj為數據源j對ai的支持度,若支持則取1,否則為0,函數F可定義為求和運算。
由于存在多源異構數據的 BPAF 難于確定,投票法不能區分票數相同的問題,本文采用OWA 方法[10]解決面臨的挑戰。
受文獻[7]的啟發,針對法律領域的數據和知識歸納了如圖1 所示的融合結構。

圖1 多源數據源融合結構
針對上述融合過程,本文提出了多源異構數據融合自動特征結構化模型,如圖2 所示。模型包括數據倉庫、支持度管理、OWA算子權重計算和數據處理4 個模塊,具體描述如下。

圖2 多源異構數據融合模型
1) 數據倉庫作為前后銜接模塊,為后續的業務提供數據源,前端處理整合數據消除異構性,統計并特征提取等功能。
2) 決策支持度計算模塊從數據倉庫獲取數據,并計算相應的支持度值sij;
3) OWA 算子計算模塊根據決策者提供的模糊語義原則來量化對數據源的偏好,計算出 OWA 權重向量wi;
4) 數據轉換與排序根據可信度值,結合 OWA 權重向量wi對sij進行轉換,并將轉換后的結果排序,最后通過求和計算出決策值(結果返回)。
本文主要研究基于深度學習模型的多源異構數據特征融合的方法,結合語言模型的的框架其融合思路如圖3 所示。
語言模型被普遍應用于自然語言處理的各個環節中。目前,神經語言模型(Neural Language Model)得到了廣泛的研究,Devlin等[15]將其應用到神經機器翻譯系統,緩解了手工設計退避(back-off)規則的需要,且支持不同上下文的泛化性能。將深度神經網絡語言模型與信息融合模型結合[8]產生的互補信息進行推理,構建一個逐層深度學習模型框架,用于多源異構數據訓練學習,以提取融合多源數據特征的目標信息。從運行結果上看,模型方法具有較好的通用泛化能力。

圖3 基于深度學習的融合思路結構框圖
根據數據類型的不同,重點研究隨機類型、二值類型、程度類型和詞匯術語類型4類描述,如表1所示。

表1 數據描述方式
隨機變量服從正態分布,記為:X~(μ,σ2),μ為期望,σ為標準差。
二值類型數據用于描述命題的是或否,取值空間大多為{1,0}或{True,False}。
表示程度的數據采用漢語程度副詞來描述,如較大、較多等,程度等級大多采用 7 或 9 個標準。
基于詞匯術語的數據采用詞匯表中規定的事物定性的描述,詞匯個數視情況而定。
多源數據具有模糊特征,可采用三角模糊數計算決策的支持度值[10]。
1)隨機性數據的轉換
設:x0=u-3σ
將區間[μ-3σ,μ+3σ]進行n等分,則隨機數據的支持度定義為

(1)
反之,則支持度定義為
s′(x)=(1,1,1)-s(x)
2) 二值型數據的轉換
若二值型數據中取 1 和 0 的個數分別為n和m,則數據源對決策的支持度定義為
s(x)=(n/n+m,n/n+m,n/n+m)
(2)
3) 程度類數據的轉換
本文采用 7 等級標準描述對象嚴重程度。比如在“盜竊金額”方面就可以細分為“數額較大”“數額巨大”“數額特別巨大”,并與具體金額掛鉤。各等級對決策的支持度如表2 所示。

表2 程度類型數據的支持度
2) 詞匯術語數據的轉換
設詞匯表w包含n個術語,按決策支持度從低到高排序:w={w0,w1,…,wn-1},則支持度表示為:
s(wi)=(i/(n-1),i/(n-1),i/(n-1))
(3)
有序加權平均算子(OrderedWeighted Averaging,OWA)及其拓展的算子是一種決策信息融合工具,能夠有效地處理模糊或者不確定決策信息。


(4)
其中:bi是ai中第i個最大的元素,則F稱為n維OWA算子。
OWA權向量w=(w1,w2,…,wn)由下式確定
wi=f(i/n)-f((i-1)/n)
(5)
其中:i=1,2,…,n,f為模糊語義量化算子,定義為

(6)
其中:x,a,b∈[0,1]。
此外,OWA算子定義的反映決策者樂觀態度的度量算子

(7)
設n個決策:A=(A1,A2,…,An),m個數據源:S=(S1,S2,…,Sm),各數據源的可信度為pi,數據融合算法描述如下:
第 1 步:計算數據源對決策的支持度。首先讀取數據,根據4.2計算出對決策的支持度
Sij=(aij,bij,cij)
(8)
其中:Sij為數據源i對決策j的支持度,(aij,bij,cij)為支持度的三角模糊數表示,且:0≤aij≤bij≤cij≤1。
第 2 步:計算OWA算子權重向量。根據決策者的偏好,基于模糊語義原則確定式(6)中的參數和的值。根據參數可確定出模糊語義量化算子f(x)。
根據f(x),通過式(5)求得OWA權重向量w=(w1,w2,…,wn),n為數據源個數,并按式(7)求得c的值。
第 3 步:根據各數據源可信度pi和支持度值sij,對sij進行轉換。設

(9)
定義:當c≤0.5 時
h(c)=0,m(c)=2c,l(c)=1-2c
當c≥0.5 時
h(c)=2c-1,m(c)=2-2c,l(c)=0
則經過轉換后的決策支持度值表示為
sij=h(c)sij_max+m(c)sij_average+l(c)sij_min
(10)
第4 步:依據前面步驟的結果對數據進行融合,并計算最終決策值;

(11)
其中:bij為(s1j,s2j,…,snj)中第i個最大元素。
第 5 步:根據實際問題做出決策。
爬取裁判文書網等各行政機關網站公開的文書數據,從中挑取100萬份標注好的數據作為本文使用的數據集。
該數據集標簽共有1000多個,大致分為以下幾大類:
1)文書信息類:如文書號、文書類型等;
2)相關人基本信息類:如姓名、性別、工作單位等;
3)案件事實類:如案發時間、案發地點等;
4)相關證據類:如證據類型等;
5)檢察院審理及起訴情況類:如起訴時間、起訴罪名等;
6)法院判決情況類:如刑期、罰金等;
將數據集隨機打亂順序后,按照8:1:1的比例劃分訓練集、驗證集和測試集。
實驗采用Tensorflow1.12.0深度學習框架,并使用NVIDIA TESLA T4顯卡,優化器采用Adam自適應學習率梯度下降算法進行參數優化。本文使用Word2Vec的連續詞袋模型(CBOW)算法在全量數據集上進行預訓練,得到字向量的維數為512。BiLSTM的循環單元節點數為128,BERT里的多頭注意力層數multi_head attention layer為6層,注意力頭數為8,Adam學習率為1e-5,dropout為0.5。
本次使用精準率(Precision)、召回率(Recall)和F1值來評價模型的識別效果,其中F1值為精準率和召回率的調和均值,來綜合評價模型的性能。
精準率計算方式如下:

召回率計算方式如下:

F1值的計算方式如下:
F1=(P+R)/(2*P*R)
5.3.1 與現有方法的對比
為驗證本文模型的性能,將其和下列方法進行對比:
BiLSTM-CRF模型.該模型由Huang等提出并應用于序列標注任務[13]。將句子的詞向量表示輸入該模型對句子的標注序列進行預測。與Huang等不同,為了應對詞語邊界模糊的問題,本文以字為單位構建字向量。
BiLSTM-CNN-CRF模型.該模型是由卡耐基梅隆大學語言技術學院的Ma等人[12]提出的,首先使用CNN將一個詞匯的字符級別信息編碼到它的字符級別表示中去,然后將字符級別的表示和詞匯級別的表示連接起來,將它們放到BLSTM中,對每個詞匯的上下文信息建模。
Lattice-LSTM-CRF模型.該模型由新加坡科技設計大學的Zhang等提出[9],專門針對中文數據進行命名實體識別任務。該模型較基于字符的方法顯性地利用詞和詞序信息;較基于詞的方法不會出現分詞錯誤。
Att-BiLSTM-CRF模型.該模型[16]在BiLSTM層和CRF層之間加入了注意力機制。
實驗結果如表1所列。

表1 各種方法的實驗結果(單位:%)
通過觀察發現,BiLSTM-CNN-CRF和加注意力機制的Att-BiLSTM-CRF相比原始BiLSTM-CRF模型,識別率均有所提高。由此可見,通過給標注模型加入適當的外部知識或特征,有助于提升識別效果。本文提出的方法充分利用了未標注語料來訓練語言模型,并由此得到語言模型特征;同時BERT中的多頭注意力機制充分挖掘了文本本身的特征。因此,相比于其它方法,本文方法的F1值均有提高:相比于BiLSTM-CRF,提高了6.97%;相比于BiLSTM-CNN-CRF,提高了3.48%;相比于Lattice-LSTM-CRF,提高了3.37%;相比于Att-BiLSTM-CRF,提高了3.98%;
5.3.2 模型效率分析
在實際應用場景中,模型的運行效率也非常重要。為此,本文進行了效率對比實驗。通過多次加載模型,對測試集進行預測,統計出模型的加載時間和推理時間,以加載時間的均值和推理時間的均值作為評價模型運行效率的指標。將本模型與BiLSTM-CRF等模型進行對比,結果如表2所列。

表2 不同模型的效率對比(單位:ms)
從表2中可以看出,模型加載時間沒有明顯的差別,而在測試時間中本文模型不占優勢,這是因為本文模型在復雜度上高于另外4個模型。實驗中,最快的模型(BiLSTM-CRF)處理每條數據的平均時間為312ms,本文模型為615ms。線上應用數據量一般較小,因此速度上差別不是很明顯;而線下應用對時間的要求相對較低,且本文模型的F1值有較好的提升,所以該運行時間在可接受的范圍內。
本文在自動數據特征結構化的業務驅動下,提出了BERT-BiLSTM-CRF命名實體識別方法,并且成功在法律領域實現規模化應用。文中建立多源異構數據結構融合模型,研究了異構數據量化策略并改進了數據融合算法,結果證明融合方法是可行有效的。通過實驗,表明結合融合算法的NER方法的模型結構和方法,對其它類似的數據處理和融合具有借鑒作用。