□朱福勇,高 帆
(西南政法大學 人工智能法學院,重慶401120)
在人工智能技術迅猛發展的今天,各國司法系統正經歷著從專家審判司法體系向智能人工司法體系的轉型[1](p33-48)。目前,人工智能技術在我國司法領域主要應用于司法文書處理、庭審智能化、輔助辦案三個方面,在案件事實要素的自動抽取場景中,存在著專業術語抽取錯誤、難以搭建證據規則模型等諸多問題。對此,域外學者嘗試將證據之間的相似度計算方法作為研究重點,抽取知識以司法信息、律師信息和當事人信息為主。例如,某一特定法律問題中不同法官所持的態度,律師所持的辯護意見以及特定案由案件中不同當事人在不同法院的勝訴率等。典型應用諸如Premo?nition公司和Hodge Jones&Allen公司的審判結果預測系統,重點描述如何在案例表示、檢索、改編、重用和案例庫維護中使用軟計算(一個由模糊邏輯、神經網絡理論、進化計算和概率推理組成的聯合體),然后簡要總結使用軟計算技術的六個CBR應用。我國學者或認為利用案例文本組織結構和線索詞,運用正則表達式構建抽取規則模板,并將抽取結果經過語義標注,構建案例信息庫[2](p23-29);或主張基于相似案例的檢索推薦,對知識元、神經網絡、案例表示與檢索方法、案例推理等進行探究[3](p54);或提出要件事實型民事裁判論與司法人工智能的生成規律具有內生契合性,可作為神經網絡深度學習,分詞設置,知識圖譜設計的基礎與前端理論,具體應用路徑是依要件事實論不斷進行層級解構等[4](p68-82),均難以精準抽取案件事實要素,制約依法裁判作出。隨著最高人民法院《人民法院第五個五年改革綱要(2019—2023)》“健全順應時代進步和科技發展的訴訟制度體系”和“建設現代化智慧法院應用體系”,《人民法院信息化建設五年發展規劃(2019—2023)》“要利用商業智能、大數據分析和可視化手段,對司法審判信息資源庫中的數據進行挖掘、分析和展現,支持多維分析、關聯分析、趨勢預測等大數據智能服務”的穩步推進,本文認為,以要素式審判為基礎,運用深度學習技術自動識別、抽取、分析當事人或者相關工作人員提供的案卷材料,以司法場景專用大數據與人工智能技術為驅動,集合法律法規庫、文書卷宗庫、司法信息庫等司法知識庫,智能生成案件事實,對化解日益凸顯的人案矛盾,統一法律適用以及公正裁判訴訟目標的實現意義重大。
案件事實要素又稱涉法事實要素或者法律事實要素,是引起法律關系發生、變更和消滅的客觀事實情況,是案件事實得以成立的必要條件。它是從涉案材料和審判信息庫中提取出來,以證據為基石,以法律規則為紐帶,構成案件事實的基本元素。案件事實要素智能抽取的核心在于,圍繞結構化證據要素搭建出較為完整的案件畫像,通常需要結合專業知識對結構化證據要素進行可信度評估,一般由何時、何地、何人、何事、何因、怎樣和意義(有本質的含義)七個部分組成。由于案件的性質不同,案件事實要素存在一些差異。總體而言,案件事實要素包括實體法的事實和程序法的事實兩個部分。以民事案件為例,前者是能夠引起民事實體法律關系發生、變更和消滅的事實,如合同的簽訂、履行、違約的事實,侵權損害結果發生的事實以及當事人之間因民事權利義務的享有、履行發生爭議、解決紛爭和訴諸人民法院的事實。后者是當事人主張的訴訟程序事實,可以影響到民事訴訟程序的啟動、進行和終止,間接地對審判結果產生影響,主要包括當事人主張的程序法的事實和法院依職權查明的程序法事實。其中,當事人主張的程序法的事實主要有管轄權協議、管轄異議的事實等,法院依職權查明的程序法的事實包括當事人是否適格、法院是否具有管轄權等。值得注意的是,在適用外國法律法規和其他地方性法規、習慣時,這些法律、法規和習慣均可能成為證明對象。為了更好地獲取案件事實要素,需要將法律所關注的事實要素形式進行泛化描述,通過司法專家和自然語言處理專家共同梳理及機器半自動標注的方式構建案件事實要素標簽體系。
這里以機動車交通事故損害賠償糾紛案件為例(圖1),將中國裁判文書網上500份機動車交通事故損害賠償案件的人民法院裁判文書事實部分進行梳理,可以歸結該類案件的核心事實要素包括當事人信息、肇事車輛信息、交通事故發生時間、交通事故發生地點、交通事故發生經過、責任劃分、受傷及治療情況、傷殘等級情況、損失構成、受害方已獲得賠償情況、機動車使用人、機動車所有人、機動車實際控制、肇事車輛駕駛人與賠償義務主體、各賠償義務主體之間的關系、機動車交強險承保公司和機動車商業險承保公司等。
案件事實要素作為構成案件事實的基本元素有其固有的特性,正是這些特性為其應用語義智能抽取技術提供了可能。第一,同一案由案件事實要素具有相對確定性。如上文所述的機動車交通事故損害賠償糾紛,該類案件中的關鍵事實要素往往是相對固定的,這使得法律專家人工抽取和利用歷史案例材料訓練深度學習模型成為可能。第二,案件事實要素關聯概率具有可計算性。基于海量的歷史案件,計算特定案件中事實要素的證據支持度和置信度,將事實要素間的印證關系進行機器語言表達,使得利用人工智能技術搭建案件事實證據鏈條成為可能。第三,案件事實要素的推理軌跡具有可復現性。法律推理尤其是抗辯式審判中的司法推理,以明確的規則、理性標準、充分的辯論,為人工智能觀察、學習審判思維活動的軌跡提供了可以記錄和回放的樣本[5](p54)。第四,案件事實要素要以證據為基礎,且對法律適用構成一定影響。在機動車交通事故損害賠償糾紛案件中,對交通事故發生的時間需要提供相關的書證等予以證明的同時,對一方當事人提出訴訟時效抗辯時,人民法院還要根據《民法典》第188條和第195條規定進行判別,即向法院請求保護民事權利的訴訟時效期間為三年,自權利人知道或者應當知道權利受到損害以及義務人之日起計算。但自權利受到損害之日起超過二十年的,人民法院不予保護;有特殊情況的,法院可以根據權利人的申請決定延長。有權利人向義務人提出履行請求,義務人同意履行義務,權利人提起訴訟或者申請仲裁或者與提起訴訟或者申請仲裁具有同等效力的其他情形之一的,訴訟時效中斷,從中斷、有關程序終結時起,訴訟時效期間重新計算。

圖1:機動車交通事故損害賠償糾紛案件核心要素
1.對審判體系的內向價值。一是人案矛盾的緩解。根據最高人民法院近年來工作報告中的數據顯示,2013—2017年全國地方各級法院受理案件8896.7萬件,同比上升58.6%;2018年全國地方各級法院受理案件2800萬件,同比上升8.8%;2019年全國地方各級法院受理案件3156.7萬件,同比上升12.7%。在員額法官人數未予增加的情勢下,案件數量的激增使法院的訴訟服務壓力不斷增加,司法資源的稀缺性與民眾日益增強的需求之間的矛盾日益凸顯,給法官的身心健康帶來極大的壓力,難以避免導致審判效率低下、質量不高。人工智能技術的引入,及時為審判賦能。通過對審判活動中案件事實要素的智能抽取,構建案件畫像并自動生成裁判文書,確保法官從大量重復、煩瑣的審判工作中解脫出來。二是審判質效的提升。公正、高效和經濟是審判活動的終極目標。可見,成本與收益是審判活動關注的重要因素。在案件事實要素智能化運行的語境下,首先應當重視人工智能與法官的關系問題。有學者認為,人工智能取代法官是未來必定會發生的事,而另一觀點則堅持人工智能與法官相互補充,在不同案件中的主、輔作用相互置換,共同構成一種全新的審判模式[6](48-55)。我國理論界與實踐界普遍認為,人工智能是法官的重要輔助力量,無法像法官一樣對糾紛作出有溫情的判定。本文認為,人工智能技術對常規性案件預測有較為精準的裁判結果,并非由機器代替法官進行審判,而是利用法院裁判的大數據分析與人工智能技術生成案件畫像,不斷整合審判信息資源庫中的事實數據,為法官在案件審理階段提供全面、智能的案件事實要素判定的決策指引,保障法官準確認定案件事實,顯著提升審判質效。
2.對法治建設的外向價值。一是便于當事人訴訟。在司法改革進程中,推動便民服務能力現代化是人民法院審判體系與審判能力現代化建設的根本需求,也是落實公正司法與司法為民基本國策的關鍵所在。法院審判案件事實要素的智能抽取,可以根據訴訟當事人所提供的訴訟材料形成基本的案件事實,對審判結果進行初步預測,方便訴訟當事人及時調整訴訟策略,節約訴訟成本。二是避免恣意裁判。在審判活動中,存在不同法院或者同一個法院的不同法官就相同或相似的事實要素得出不同的判定結果的現象,影響了案件事實的判定和裁判結果的準確作出。運用人工智能技術對案件事實要素進行智能抽取,生成案件畫像,在一定程度上能夠避免法官對案件事實要素判定的恣意,消解對案件事實認定不一的現象,對統一裁判標準和尺度,提升審判權威和審判公信力意義非凡。
1.法律語言的模糊性。要實現案件事實要素的自動抽取,首要問題便是如何克服法律語言的模糊性。法律語言模糊是法律條文在語義表達上的不確定性,包括法的類屬邊界的不確定性和立法時故意附加模糊詞的情形[7(]p1)。這一模糊性是法律語言發展過程中所不可避免的。也正因為法律語言的模糊性,在一定程度上緩解了法律具有滯后性的弊端,賦予了法官自由裁量的空間,使得法律更具普適性。在審判活動中,法官需要綜合考量各類涉案司法文書材料,司法文書材料又由法律語言所組成。所以,法律語言的模糊性決定了法官需要根據自己的專業知識和歷史經驗,對法律語言在法律允許的范圍內進行解讀。這就導致遵循相對確定規則的機器學習模型在處理模糊法律術語時存在障礙,如“顯著輕微”“特別惡劣”等法律表達僅依算法均難以識別。
2.證據可信程度的評估。證據是認定案件事實的基石,它為法官搭建案件畫像提供了“砌磚”。證據的證明力直接決定了所搭建的案件事實的可信程度。證據的證明力評估涉及如何圍繞證據“三性”對抽取到的證據要素進行甄別,對劣質證據進行駁斥,摒棄薄弱和不確定的證據,最大程度上還原案件真相。運用單一機器學習模型提取證據要素時,往往會在一定程度上弱化對證據的審核力度,難以實現對全案證據的綜合分析,從而降低了證據的證明力。證據證明力評估的缺陷,會使得司法工作人員必須承擔系統做出瑕疵甚至錯誤審判決策指引的風險。
1.專業詞匯的提取。案件事實要素智能抽取需要對司法領域的專業術語進行篩選和識別。語義自動抽取技術主要有基于詞典與規則、基于統計以及規則與統計相結合等方法。技術層面的困境在于如何抽取司法領域的專業術語,在統計階段忽視分詞抽取的重要性會給賦值階段帶來難以彌補的漏洞。在分詞抽取的過程中,由于不同領域詞匯的構成規則及含義不同,專業領域的詞匯容易被錯誤地切割成多個詞語碎片,將詞語碎片作為分詞抽取結果納入候選詞進行統計計算,可能會給詞句的整體性和領域性帶來損害[8](p6716-6718)。在實踐中,運用傳統方法對證據材料進行語義抽取,容易導致司法領域的專業術語抽取錯誤,如“法定代表人”被錯誤地切分為“法定代表”和“人”兩個單詞碎片,進而導致法律關系錯亂。
2.關鍵事實要素的甄別。案件事實要素自動抽取的關鍵在于,將從法院案例數據和案例事實要素中抽取的詞語圈定在司法場域內。如前所述,事實要素的自動抽取是以要素式審判為基礎,要素式審判的核心就在于圍繞關鍵案件事實展開審理,實際案件中往往包含實體事實、程序事實等多種要素,只有對復現案件事實具有意義的要素,才可能成為事實要素[9](p74-78)。對數據進行清洗圈定關鍵案件事實要素,既可以大大降低案件事實要素自動抽取過程中存在的噪音,也可以在一定程度上從數據源頭減少機器學習模型的算法偏見。但是,涉案訴訟材料中存在大量與案件無關的案件事實要素,在數據挖掘過程中,單一的文本識別技術難以抓取目標數據。
3.推理規則的機器表達。在案件事實要素的智能抽取中,需要將抽取的要素進行法律推理,但由于機器學習模型要按照嚴格的數理推理模式,如何把法律推理的邏輯過程進行機器語言表達,將證明標準進行量化處理是案件事實要素智能抽取面臨的主要問題。目前,主流的法律推理模型主要有基于規則的推理模型、歷史判例的推理模型和數據的推理模型三種。但是,無論哪一種單一推理模型,均很難實現準確的案件事實要素抽取。法律推理既不是依循純粹的規則,也不是完全局限于歷史案例,因為它總是需要抽象規則和具體法律適用之間的一種相互作用。將推理過程階段化,不同階段采取不同的推理模式,實現多模型層疊是復現法律推理軌跡的解決之道。
法律形式主義以邏輯推理為基礎,嚴格遵循司法三段論的演繹推理模式,基本思路為“案件事實→法律規則→裁判結果”。將系統化的法律規則作為大前提,將特定案件事實作為小前提,把具體案件帶入法律規則中推導出裁判結果。在法律形式主義者看來,法官只需要依照現行法律進行規范的邏輯推理即可得出良好的裁判結果[10](p146-155)。這一傳統的法學理論常常因為過于封閉和僵化遭到學者們的詬病,但也因為法律形式主義演繹推理的“機械性”為人工智能技術引入司法領域找到了突破口。技術專家可以預先將系統化的法律規則進行機器語言表達,再將識別到的具體案件信息輸入規則模型,推理出審判結果。
案件事實的發現是準確適用證據規則的過程:T→R大前提:具備T的要件,適用R的法律效果;S=T小前提:特定糾紛事實S符合T的要件;A1、A2、A3…=S1、S2、S3(證明事實構成特定的糾紛事實要件);S1、S2、S3…=T1、T2、T3(特定的糾紛事實要件符合證據規則要件);S→R得出結論:S適用R的證據規則適用效果。當然,在對案件事實的建構中,應當滿足大前提法律規范T所有要素被窮盡描述,小前提法律事實S被具有T所描述要素刻畫,以及保證語言、思想與現實具有相同的邏輯一致性三個條件。大數據技術的出現為法律現實主義的發展帶來了新的機遇,使案件事實要素的智能抽取成為可能。如有學者所言,“法律現實主義不得不面臨對法官預測能力的質疑,客觀上法官的這種預測也必然存在較大的風險,大數據與人工智能可以使后果預測從宏大敘事轉為精耕細作,從充滿感性轉為富有理性,可以最大限度保證預測的準確性”[11](p101-106)。
為了實現案件事實要素的智能抽取,采用層疊注意力機制,對大量的案件事實要素進行相關性計算,模擬法官在面對眾多案件事實要素時的考量。人體的視覺器官在獲取畫面時,對于不同目標的注意力分布不同,以便大腦在讀取信息時可以快速捕捉到畫面重點區域,從而分配更多注意力資源用于重點目標的分析和理解,從而減少不相干區域給大腦所帶來的干擾。根據人體這一特殊的機制,學者提出了注意力機制(Attention Model)[12](p62-74)。隨著深度學習技術的不斷發展和數據規模的增加,基于循環神經網絡(RNN)的注意力機制被廣泛運用于機器翻譯、自然語言處理和圖片識別等眾多領域。在Encoder-Decoder框架下引入注意力機制,使輸入信息(Source)通過En?coder-Decoder框架計算出目標信息(Target)。注意力機制在運算過程中將Source中的輸入信息要素構成一系列相關性待計算數列,每次運行時通過給定Target中的一個要素Query,通過Query和各個Key的相關性計算,得到每個Key對應Value的權重分布情況,最后對Value進行加權求和,使用常用的Softmax分類器對整個文本進行分類處理。Attention機制實質上是將Target中的目標要素置于Source中進行相關性計算,得出權重最大的要素。
層疊注意力機制與普通注意力機制的不同在于,其將構建多層神經網絡,在實現對詞級的分類基礎上,再進行句級的分類。層疊注意力機制神經網絡把復雜的句式結構切割為多個語句碎片,對每一個語句碎片運行RNN注意力機制計算,將得到的映射向量再次運行RNN注意力機制實現對語句的分類賦值。層疊注意力機制可以明顯改善復雜語義信息的提取質量。簡言之,在機動車交通事故損害賠償糾紛中,以輸入交通事故責任認定書為例。Source為“A駕駛機動車違反《××××××》第××條之規定,在本次事故中承擔全部責任”,Tar?get為“A為賠償義務主體”,注意力機制先將該句式結構分割為“A”“機動車”“《××××》第××條”等語句碎片,再把Target中的“賠償義務主體”作為Que?ry值代入Source中與每一個語句碎片進行對齊(相關性計算),相關性的值通過Softmax函數歸一化后,得到對齊概率值,找到權重系數最大的“A”。
1970年布坎南和黑德里克發表的《關于人工智能與法律推理的思考》,開啟了法律推理機器建模的先河[13](p40)。早期學者們針對法律推理的機器建模主要是基于相對封閉的單調演繹推理,搭建法律專家系統。典型應用如1977年問世的TAX?MAN系統[14](p837-893),基于經典的演繹推理模式,針對公司稅法問題,將法學知識拆分為一系列的概念和規則,搭建起了一個相對封閉的法律專家系統。這些早期的法律推理模型因理論和技術的限制,如國家社科“七五”研究課題《量刑綜合平衡與電腦輔助量刑專家系統研究》,難以在法律知識庫的基礎上取得更多的成果。
隨著理論認識的不斷深入,學者們逐漸認識到,法律推理和論證過程具有開放性和可廢止性。可廢止性是指法律推理具有被擊敗的傾向,它發生在新的信息被發現或加入之前推導的前提集中,但之后的推導并沒有撤銷之前較弱推導的任何前提[15](p139-150)。與演繹推理相比,可廢止推理的前提條件中并不包括得出結論的所有因素,其得出的推理結果會根據新因素的介入而處于一個動態的變化過程中,使法律規范和其形式化之間保持結構上的相似性成為可能。由于法規之間可能存在沖突,若用經典演繹系統來表示,很容易得出相互矛盾的結論而導致系統崩潰[16](p99-104)。
為了使推理事實更加接近案件事實真相,可借助貝葉斯網絡在抽取到的相互印證或相互矛盾的眾多證據中,尋找證據之間印證關系最強、最具說服力的證據鏈。在無新事實要素介入的情況下,生成暫定案件事實,避免因為之后增加的新事實要素的介入導致系統崩潰。貝葉斯網絡是一種將目標變量之間的概率關系進行編碼的圖形模型。當貝葉斯網絡與統計技術結合使用時,此種圖形模型在數據分析方面具有強大的推理和知識表達能力。首先,由于模型對所有變量之間的關聯關系進行計算,因此它很容易處理某些數據項丟失或不完整的情況;其次,貝葉斯網絡可以用來學習因果關系[17](p49-52),因此可以用來獲得對問題域的理解和預測干預的結果;再次,由于該模型同時具有因果語義和概率語義,因此它是結合先驗知識和數據的理想表示;最后,統計學方法與貝葉斯網絡相結合,為避免數據的過度擬合提供了一種有效的、有原則的方法。在數據挖掘過程中,通過歷史案例構建訓練數據集來訓練機器學習模型,再使用循環訓練后的模型對目標數據進行預測。但是,訓練數據集中包含抽樣誤差,不可能涵蓋所有的樣例,機器學習模型可能處于過擬合狀態,即對訓練數據來說過于完美而偏離了真實的曲線,從而導致預測結果失真。本文利用先驗知識構造貝葉斯網絡的方法,計算涉案證據之間的關聯概率,以求對案件事實進行推理和表達。
貝葉斯網絡與其他數據挖掘方法相比,貝葉斯網絡因其不確定性知識表達形式和便于計算任意隨機變量組合的聯合條件概率分布的優勢,將先驗信息和樣本信息綜合起來,一方面,可以修正單一先驗信息帶來的主觀偏見,減少采集的樣本信息中的數據噪音;另一方面,在貝葉斯網絡中,將事件的出現概率分為先驗概率(根據現有數據材料或主觀經驗知識判定的概率)、后驗概率(導入樣本信息對先驗概率進行優化后獲取更加可信的概率),并將兩者聯系起來計算聯合概率(交叉概率)。基于貝葉斯網絡搭建證據關聯概率模型,需要將特定案由案件中證據要素轉移率當作隨機變量,根據專家知識搭建的司法知識庫對證據的轉移概率進行推定,確定先驗分布。利用海量歷史司法文書,利用OCR等識別技術,從不同案由案件中提取涉案證據要素,計算不同證據要素之間的相關性,得到后驗分布密度,對案件事實做出推斷。
以簡化的機動車交通事故損害賠償糾紛為例(圖2),一方面,利用機動車交通事故賠償糾紛歷史案例數據結合專家知識,計算證據之間的證據相關性,構建貝葉斯證據關聯概率網絡;另一方面,對當事人提交的起訴狀、原被告有效證件、事故證明、治療證明、誤工證明、支付憑證等涉案材料,通過分句、分詞、句法分析和實體識別對證據要素以及證據屬性進行抽取。同時,結合層遞注意力機制,篩選數據源,定義、尋找案件關鍵要素。將識別到的司法要素圈定在機動車交通事故損害賠償糾紛內,獲取用于構建案件畫像的案件事實要素。此外,利用貝葉斯證據關聯概率網絡,選定證據之間印證關系最強、最具說服力的證據鏈條,生成案件畫像。

圖2:獲取證據鏈條流程

圖3:事實要素自動抽取模型流程
案件事實要素自動抽取與歸納賦值的難點在于,對特定案由案件關鍵證據要素的提取以及使用機器語言表達各類涉案證據之間的印證關系。事實要素自動抽取模型(圖3)將基于注意力機制深度學習模型、基于貝葉斯網絡的證據關聯概率模型兩大關鍵技術進行系統集成,將自動抽取出的詞語圈定在司法領域內部,搭建案件事實證據鏈,能夠有效地減少案件事實要素自動抽取過程中存在的噪音。
為了應對法律語言的模糊性,提高案件事實要素抽取的準確性,避免分詞抽取錯誤,需要通過司法專家和自然語言處理專家共同梳理及機器半自動標注的方式,構建案件事實要素標簽體系。構建案件事實要素標簽體系是法律本體研究的一種實踐嘗試[18](p53-66),需要以要素式審判為基礎。在具體操作過程中,并不是案件所有的事實要素均能夠成為要素式審判的關注對象,只有案件雙方爭議的關鍵要素才能成為審判過程中需要重點考慮的要素。構建案件要素集合需要法律專家預先根據不同案由案件,收集相關案件法律法規、訴訟材料、案件卷宗、裁判文書等作為研究及機器學習訓練數據。對法律法規、案件卷宗、裁判文書進行無監督機器學習,自動對案件事實要素進行標簽及歸類,形成法律知識規則庫。基于海量法律法規、訴訟材料、裁判文書、雙方質證情況及開庭中雙方答辯的案件卷宗對涉案文書進行結構化處理,并對相關案件事實要素的證據進行分類標簽化處理,確定不同案由案件中需要重點考慮的案件事實要素。

圖4:案件實體特征識別流程

圖5:案件事實要素歸納賦值流程
通過OCR等技術識別,對涉案訴訟材料中的案件實體特征信息進行識別,將涉案訴訟材料轉化為電子證據集,針對電子證據集中的有效信息進行去噪。為了進一步提高證據的可信程度,需要人工專家對識別到的結構化證據要素進行校驗標注。
如圖4所示,將具體案件的電子卷宗、訴訟材料等涉案文書,通過OCR自然語言識別技術將涉案文書從PDF或者TXT格式中,識別案情中法律關系、時間、地點、人物、事件、行為等關鍵要素,快速提取出純文本數據信息,對提取到的純文本數據信息進行數據降噪,完成關鍵信息的抽取和案件要素的識別。對于不適用OCR識別技術的案件材料,由涉案人員進行證據輸入。最后由涉案人員及司法工作人員對抽取到的案件事實進行甄別,特別是對證據的真實性和合法性做出預先判定后,形成結構化案件事實要素。
為了構建案件畫像,將法律推理規則進行邏輯表達,必須對識別到的案件事實要素的實體特征進行歸納賦值,以事實要素標簽體系為基礎,根據事實證據鏈條,將多方證據進行關聯形成證據網絡,對證明標準進行量化處理。案件事實要素的歸納賦值是將司法領域提取到的結構化證據要素,利用基于層疊注意力機制,生成特定案由的案件關鍵要素,并確定多方證據之間的證據相關性和證據轉移概率,得到目標的證據鏈條,構建案件事實畫像。具言之,案件事實要素的歸納賦值可分為兩個階段(圖5):
第一階段:提取證據要素。利用基于注意力機制的深度學習模型和Word2vec網絡模型,對識別到的結構化證據要素進行抽取、歸類處理和相關性計算,將識別到的案件事實要素圈定在目標范圍內,獲取用于構建案件畫像的關鍵要素。從司法源數據中獲取案件事實要素進行實體識別和關系識別,根據證據規則,構建各事實要素之間的關系,形成訓練數據集,用于搭建和訓練基于注意力機制的深度學習模型,并進行循環學習。將新的司法數據導入搭建好的注意力機制模型,進行各要素之間的相關性計算,最后生成特定案由的案件事實的關鍵要素,以抽取到符合要求的目標要素。
第二階段:構建案件畫像。將甄別后的結構化證據要素與法律知識規則庫中的司法規則相結合,將結構化證據要素中的信息與法律知識規則庫中的條目進行匹配。通過貝葉斯網絡搭建,基于證據關聯概率模型生成案件畫像。構建案件事實證據鏈條是對構建案件基本畫像的必要支持。構建事實證據鏈條是對構建案件基本畫像的必要支持。證據鏈條是指由兩個或者兩個以上不同的證據鏈節(或證據)所組成的,通過鏈頭的相互聯結形成的聯結點,以及鏈頭與鏈體的客觀聯系,使內容得到相互印證并體現或者提高證據的證明力,用以證明案件事實的證據集合體[19](p128-136)。證據鏈條包括一系列的鏈節和聯結點,前者為我國訴訟法中規定的適格證據,后者為證據與證據之間相互印證的交叉關系[20](p65-68)。證據鏈條中鏈節為抽取到的結構化證據要素,為了獲取聯結點需要結合專家知識預先從歷史案件文書中進行證據支持度和置信度計算。支持度說明了A和B兩個證據事實之間的關聯關系,即在特定案由的案件中A和B兩個證據事實同時出現的概率。置信度用于揭示在特定案由案件中A證據事實出現時,B證據事實是否會出現以及出現概率大小的問題。基于海量的歷史案件,計算特定案由案件中各類證據的支持度和置信度,以獲取事實證據鏈條中的聯結點,插入結構化證據要素,構建事實證據鏈條,并采用法律專家參與的方式提高事實證據鏈的準確性,最大限度發揮專家知識在信息抽取過程中的作用。換言之,在語義信息的智能抽取過程中,專家知識與多模型相結合的方式,能夠大幅度地提高目標信息抽取的準確性。搭建好事實證據鏈條后,根據涉案訴訟材料選定與之相對應的案件事實證據鏈條,利用多條事實要素證據鏈條,基于貝葉斯網絡搭建多方證據關聯模型生成案件畫像。
理論認識的不斷深入和人工智能技術的漸進發展,為人工智能技術與審判活動的契合提供了更多的可能。人民法院應當順勢而為,積極擁抱大數據和人工智能新時代,不斷創造更高水平的社會主義司法文明[21]。客觀地說,案件事實要素智能抽取是以基于注意力機制的深度學習模型為抽取工具,輔以基于貝葉斯網絡的證據關聯概率模型推理引擎,旨在提高案件事實要素智能抽取的準確性,對證據要素進行歸納賦值,進而生成案件畫像,奠定了司法裁判的基礎,為審判權依法有序地推進帶來難以估量的正向影響,如緩解人案矛盾,提升審判質效,實現裁判尺度統一等,同時也拓展了人工智能科學的研究范圍,對發現和推動認知科學及人工智能等理論研究意義深遠。然而,由于審判過程中涉案訴訟材料的多源性和多樣性,在一定程度上抑制了案件事實要素的自動抽取的準確率。就案件事實要素智能抽取的研究和現實運行而言,仍處于一個初步的、低水平階段。在未來的研究工作中,將基于案件事實要素的智能抽取技術,對當事人圍繞案件事實提交的證據通過關聯分析,自動提取案件事實特征要素,通過規則推理和隨機森林算法預測裁判結果,利用神經網絡模型定位相關法條,構建候選法條緩存,從法條數據中自動推薦與案情匹配的法條,實現輸出更為準確可靠的法條推薦結果,同時獲得法律適用判別的依據。隨著人工智能技術的不斷發展,如何有效通過法律大數據、機器深度學習模型,為當事人及法官提供涉案證據材料識別、分類、判定并自動生成案件事實畫像,并結合糾紛情況,為當事人乃至司法工作人員提供訴訟風險告知及訴訟決策指引,仍需理論與實務界吸納域外人工智能發展的先進技術和理念。