蔡一博
內容摘要:目前AI與法律結合的研究處于蹣跚起步階段,該領域文獻綜述與研究滯后于系統研發,為更好地對司法科技進行有效地能動回應,立足實證研究,總結現有系統研發的瓶頸問題,并站位于法院系統內的開發者、裁判者、使用者的三重身份提出以法官的裁判思維與要件標注的方法來審視現階段的應用成果。首先,以場景需求為導向,在法學、計算機的理論支撐下構建AI下民商事辦案系統,并補強實踐短板,使辦案系統后期具備深度學習能力。在路徑依賴上,運用“開放結構”法學理論對類案場景模式下的裁判思維進行建模。其次,采用專家經驗提取案件要素和證據規則,通過大量的人工化的要素標注建立起標簽體系夯實數據基礎,提高案件自動標注能力。最后,通過數據的機器學習、優化、迭代,最終實現機器對法律各領域的自主學習功能,實現民商事辦案系統的智能化。
關鍵詞:人工智能民商事系統裁判思維要件標注
數據由法官創造,AI辦案系統的開發應以法官的需求側為設計進路,法官的親歷性決定其深度參與研發才能讓AI更好地服務于審判。
——題記
信息化、智能化建設系智慧法院建設中牽一發而動全身的“牛鼻子工程”,是進一步推進和落實司法體制綜合配套改革精神的“現代”助推器。過去數十年來,S市法院的信息化建設工作將案件基本信息、流程管理信息等進行有機統合,而且在AI 〔1 〕與法律結合的輔助辦案系統方面進行大膽探索,扎實推進,比如“以審判為中心的刑事訴訟制度改革軟件”的開發取得初步成效,并得到中央政法委的肯定。同時,G省模式和Z省模式在智能輔助辦案系統方面也卓有創新。但是,目前三省市的智能輔助辦案系統基本限于刑事領域或極特定的民事領域,鮮有大范圍、標準化、系統性地對民商事案件智能輔助辦案系統進行深度研發。筆者立足于推進智慧法院這一重大課題的背景下,利用好現有大數據資源、已有的法學理論研究成果和日趨完善的AI模型算法,通過橫向對案件標準化要件提取與標注、縱向對裁判思維的梳理與整合等進行多重維度的深挖以構建民商事案件智能辦案系統。為該領域具備深度學習功能打下堅實的基礎,以此促進審判體系和審判能力現代化、破解案多人少的矛盾、實現簡單案件智能力。
國內關于AI與法律融合的各種研究孵化成果并不豐富,〔2 〕甚至有應用成果倒逼理論研究之勢。相關內容的模型實用性不強、建模系數提取的合理性不夠,真正將計算機技術、裁判思維與法學理論結合起來的模型不多。〔3 〕雖然S市和G省模式下的刑事領域已進行系統性的研發,但是民商事領域因覆蓋面廣、類型復合高、類案差異性大等特點鮮有深入研發,目前呈碎片化、分散式研發態勢。比如S市高級人民法院開發的知識產權民事侵權案件賠償數額專題分析系統、G省研發的道路交通事故損害賠償系統等。我們通過實證分析、走訪調研和理論分析三個角度對已有系統進行述評以明確研發難點和重點,為下一步大范圍、深度化研究指明方向。
(一)宏觀視角:系統述評
1.供給層面的述評。目前而言,法院系統內部的S市模式和G省模式在辦案系統方面最具代表性,但是兩個系統的特色各有不同,S市偏向于辦案系統在貫徹證據規則,統一法律適用上起到智能輔助作用,而G省偏向于辦案流程智能化管控。G省刑事模式的優勢在于各單位專網整合早,數據利用的整合能力強,但是系統適用范圍相對較窄,僅針對十余類刑事案件的裁判文書進行梳理分析,并且主要提取量刑要素分析處理;應用效果和部門協調應用有待提升;輔助法官制作裁判文書方面功能較弱。〔4 〕上述研發雖是刑事領域的內容,但是對于民商事案件智能輔助辦案系統在辦案流程規范、網絡建設平臺、建模算法等方面具有啟發性。比如,通過刑事領域的建設,S市法院系統在數據采集、存儲、分析、可視化等多個基礎性技術領域已經取得較大的突破,形成了實用性強、穩定度高的技術能力,整體技術體系已初步構建完成。
雖然國內外部分軟件已取得較好成效,但是存在研究領域過于集中(刑事案件領域、民事案件領域中的合同文本自動生成及部分內容可視化表達、智能類推等)、研發深度淺、實際應用少、覆蓋面窄等不足。同時,國外的系統大多系服務市場的律師事務所研發,與法院系統的需求點有所不同,所以應擴大研發領域,并明確研究方向,只有將占案件總量85%的民商事案件進行深度研發,明確用途為輔助辦案系統,才能切實做到為法官減負、達到服務訴訟當事人的美好愿景。但在研發的過程中應立足民商事案件的本質規律進行科技能動的系統研究,將產品目標琢磨透,從而有利于辦案系統的深入研究和持續應用。
2.需求層面的問題。(1)開發應用與實際需求存在偏差的主要原因系需求分析的產品負責人對于法律和一線辦案人員所需不甚了解。以筆者經驗,如果該項工作的起步存在偏差,后期研發難度和應用適宜度將大打折扣,我們必須重視此項工作。所以筆者提出數據由法官創造,“智能輔助”的辦案系統開發應以法官的需求側為改革進路,讓法官深度參與研發才能讓AI更好地服務于審判。我們在提出產品需求的同時一定要拋棄傳統的純文字表達方式,爭取利用文字說明與思維導圖相結合的方式進行充分的可視化表達。(2)關于研發數據的數量和質量問題系事關AI能否有效開展研究的基礎性工作,因為現有法律數據大多是非結構化數據,將此類數據有效的轉化為準確和可理解的數據需要標注工作科學化。尤其是民商事案件訴請內容復雜、證據形式多樣,該部分既是供給需求層面問題,也是運行中的最大障礙之一。未來的發展方向將主要集中在非結構化數據的標準、快速的提取方面,大量存在的非結構化數據和半結構化數據帶來的技術和應用領域是大數據的藍海,多樣類型的數據分析、復雜的數據組合、多源的數據融合等問題將成為創新的重要聚焦點。上述兩部分內容的解決方法后文會予以實操演示。
(二)微觀聚焦:運行問題
現階段各項辦案系統的運行遠沒有達到人們預想的實用結果,從法律角度看其主要原因是系統的開發者對法律問題還不太熟悉,沒有將法學理論的方法引入這些系統開發。〔5 〕同時對數據未進行有效法標化、推理建模算法不成熟等問題是給我們法律工作者和技術研發者提出的棘手課題。
1.系統數據表達的非標準化。研發系統的成功很大程度上需依賴于自然語言理解研究工作的突破。之所以目前困難重重,首要原因是法律實務中專業術語使用混亂。〔6 〕術語非標化問題的根源在于理論與實踐在某些表達方面存在脫軌,這種脫軌不是不可以避免的,通過同類案件中對高頻詞匯進行統計后統一同一內涵的語詞作為備注庫可解決技術分辨的問題。其次除術語非標化外,法律文本或者裁判文本的系統數據標注化建設嚴重滯后,針對此種非結構化的內容我們要時常進行類案語言的標注工作。更重要的是希望有關部門能夠貫徹、落實好“關于進一步完善與推廣最高法院2015年法標規范工作”的指導意見。
2.系統邏輯建構的不確定性。現有各種系統難以突破的熱點問題,即法律推理的認知學習難以確定的設定造成邏輯結構的不確定性。這個原因要素包括法理基礎不夠完善、〔7 〕實證研究成果未予應用“跑測數據”、價值判斷和社會效應很難納入推理等。比如,在案件智能類推方面,因數據采集的體量大、對象層次復雜,所以傳統的數據采集只是將眾多已公開的裁判文書按類別放到統一的“數據池”,然后根據搜索引擎的關鍵詞逐步切換到下一個模塊,最終查找所需內容。具體如體系檢索法、關鍵詞檢索、案例倒查檢索,這些背后的原理基本相同,基本做到了數據的有效整合和智能搜索,但缺陷是因未能建構類似于人腦的審判思維的數據提取和智能推理,所以導致智能類推的內容存在全而雜的問題。智能推理模塊的編寫需前期對非結構化內容進行人工的大樣本分析和知識圖譜設計,然后根據不同的功能進行以程序語言和人類表述語言相互結合的信息邏輯設計。如果這個問題不進行艱難嘗試,并且進行長期有效探索,真正的AI下的專家系統很難有效建構。
3.系統場景設計高度同質化。民事案件案由共424個,因覆蓋面廣、類型復合高、類案差異性大等特點,所以單一的場景設計路徑難以滿足多元化、復雜性的案件類型要求。目前,大部分智能辦案系統的研發路徑依靠模仿類似“審判要件九步法”“法律適用五步法”等抽象思維模式或者辦案流程程序來設計場景要素的方向是對的,但是這樣設計的弊端在于專家知識模型越通用,就越會包容噪音,帶來高擬合性和重復性,更帶來智能輔助的不精確性。〔8 〕反之,專家知識模型的設計路徑越體現案件的個性化特征,就越無法夾雜無用的信息;適用的場景越有限,提供有條件檢索或者智能輔助就更精確化。目前辦案系統并不具備知識獲取能力和對復雜場景的自適應能力,只有在通用場景下強化在特定場景下的設計和學習,才能避免系統場景設計的高度同質化,最大化地接近案件自身的真實,并且對于真理的可證偽性保持謙抑。
為解決辦案系統數據采集非標準化、案件模型建構同質化的問題,應積極建構符合法理依據和滿足技術要求的應用性強的民商事案件智能輔助辦案系統。筆者在分析、研討上述問題的基礎上,認為在研發技術載體上應堅持專家系統和人工神經網絡技術并存發展的路徑,這對民商事案件智能輔助辦案系統的初期建構非常必要。在初期的研發路徑上分三步:第一步是仿照裁判方法成果進行樹狀結構圖梳理,再通過排除選項和人工提取法律文本中的審判要件進行建構;第二步是立足審判要件、庭審筆錄和裁判文書(非結構化文本)等,對案件進行要件提取與數據標注,進而歸納各種可能出現的情形進行模塊化建構。第三步是將裁判思維提取與審判要件標注通過技術領域的算法進行研發整合,并在數據跑測下完善對大量案例和文檔的深度學習和分析。
(一)民商事專家系統的破題基礎
1.研發對象的選擇原則。AI下的民商事智能輔助辦案系統的研發按照對象類別可分為簡易型和復雜型,初期研究對象的選取上應考慮簡易類型為主,復雜案件為輔,但是最好兩類案件可以在體系上一脈相承。研究對象的選取一定要科學論證,通過大量的試錯與有益嘗試,初期研究對象的選取最好滿足以下原則。第一,選擇的領域應是一個相對自我完備的法學分支領域,比如法律架構完整的合同法,但是合同法項下子項目過多,需要進行限縮。第二,該法律領域的確需要法律專業知識,比如合同損害賠償中涉及與有過失、損益相抵等專業詞匯。第三,最好選擇一個窄而深的領域,而不是廣而淺的領域,這樣的角度方便日后從簡易型擴充到復雜型。第四,最好選擇法律專家爭論較少的領域,避免邏輯不清或者適法不統一的情形。第五,選擇的領域不需要大量知識性常識。〔9 〕比如,S市高級法院開發的知識產權民事侵權案件賠償數額專題分析系統、該市某中級人民法院研發的金融詐騙類犯罪分析系統和該市F法院開發的道交案件大數據分析系統均在研發的選取對象上遵循上述原則,并在輔助審判環節中取得較好效果。
2.研發建模的法理基礎。民商事案件智能輔助辦案系統的模型建構需要提出關于法律推理性質的假設,該假設不僅需要基礎性的法律知識,更需要法律推理的完整理論,即法學規范理論、法學推理理論、描述法律科學的理論。〔10 〕盡管法律推理十分復雜,但它具有相對穩定對象(案件)、相對明確的前提(法律規則、法律事實)及嚴格的程序規則,且須得出確定的判決結論,這為人工智能模擬提供了極為有利的條件。〔11 〕歷經法學理論的變遷演化和人工智能技術的迭代進步,基礎性的法學理論依舊是人工智能建立數學模型并編制計算機應用程序的基礎。如法律形式主義、法律現實主義、開放結構等理論為辦案系統建模提供了強大的法學理論基礎。
法律形式主義 〔12 〕遵循三段論的推理邏輯模式,最基本的兩個要素為機械的演繹推理和封閉的規則體系,其認為將法律化成簡單的幾何公式是完全可能的。〔13 〕同時以圖爾敏和佩雷爾曼為代表的邏輯學家們開始把注意力轉向實踐推理特別是法律推理領域,開辟了法律邏輯研究的新領域。〔14 〕該法律邏輯理論的進一步發展為人工智能的司法應用提供了可能的理論前提,20世紀70年代開發了律師推理系統,使機器法律推理第一次從理論變為現實。〔15 〕但法官所從事的法律活動不可能不受到其社會體驗和思維結構的影響,尤其是民商事案件夾雜了大量社會利益的衡量問題。因此,法律形式主義忽視了推理主體的社會性,造成系統設計僵化性的致命弱點。
此時法律現實主義 〔16 〕的理論運用促使人工智能研究從模擬法律推理的外在邏輯形式,進一步轉向通過探求法官的內在思維結構,總結裁判經驗中的規律性和普適性問題。在此背景下,大規模知識庫系統(KBS) 〔17 〕開發就注意了思維結構的整合作用,又通過聯想程序被有機聯系起來,構成具有法律推理整體功能的系統。〔18 〕
“開放結構”理論 〔19 〕為人工智能在司法領域的深度學習應用提供了理論基礎,打開了疑難案件自下而上的法律推理模擬的思路。〔20 〕在這一理論的指導下,人工智能在司法領域可以進行更具深度和廣度的應用,一方面是將簡易問題從疑難問題中篩選出來,運用基于規則的技術來解決;另一方面是將疑難問題先用非案例知識,如規則、控辯雙方的陳述、社會常識來獲得初步答案,再運用案例來比對,檢查案件的正確性。上海市高級人民法院目前承擔研發“推進以審判為中心的訴訟制度改革軟件”的任務正是對這一理論最好的實踐和詮釋。〔21 〕
3.研發路徑的技術支持。早期的法律智能輔助系統研發路徑主要依靠專家系統理論 〔22 〕來構建,如國外具有代表性的美國D.沃特曼和M.皮特森1981年研發的法律判決輔助系統、1993年武漢大學開發《實用刑法專家系統》等均是通過大量“如果-就”(If-Then)規則定義進行“自上而下”的設計。專家系統理論是在產生式系統的基礎上發展起來的,通過知識庫和推理機兩部分來描述從一個基本概念演繹出的系統。〔23 〕雖然專家系統存在欠缺自我學習的能力等缺點,但現階段關于利用人工智能進行法律推理、建立司法裁量模式,專家系統仍是人工智能與法律結合研究的重點之一。〔24 〕
目前,人工神經網絡是AI研究的另一個重要方向,屬于“自下而上”的機器學習思路。它的基本特點是試圖模仿大腦的神經元之間傳遞、處理信息的模式來解構法律問題。其技術研發的路徑和步驟:通過小樣本數據進行對偶研究,然后經過監督學習、人工打標簽、強化學習、交叉驗證、原型開發、模型測試、業務試用、模型調整等階段完成初期研發任務。
根據上述兩個技術研發路徑和理論支持,民商事案件智能輔助辦案系統的架構建設在技術開發角度看具有較高的同質性,基本均采用依靠專家經驗提取案件要素和證據規則,通過大量的人工化的要素標簽建立起辦案系統的標簽體系,再通過邏輯建模、物理建模等對數據進行機器學習訓練,同時形成數據支撐下的神經網絡再造和發育,通過數據的優化、迭代最終實現機器對法律各領域的自主學習功能,實現民商事辦案系統的智能化。綜上所述,根據需求正確地引入不同的研發技術路徑可以有效地將審判要件進行系統歸類和裁判思維的構建進行有機契合,使其達到研發目標。
4.研發步驟的注意事項。細節決定成敗,蹄疾步穩中堅持法律問題標準化、技術問題簡單化的原則。法律問題標準化建設包括術語表達統一內涵、裁判依據的歸納概括具有明確性等,為解決好此方面的問題,需要經驗豐富的法官在實踐的過程中有計劃地逐漸統一術語表述,并通過完善類案制度統一裁判依據。涉及技術問題簡單化方面,主要針對法律工作者與技術人員的知識嫁接“鴻溝”問題,該內容的清障是各環節工作開展的基礎,通過總結優化各機構的研發經驗,涉及審判邏輯方面的內容可以通過思維導圖方式進行圖示化展示,可盡可能的將雙方溝通的內容精準化。涉及技術語言的理解方面,首先,要確定文本語義相似度比較的對象,并實現語義相似度計算。討論的對象包括篇幅劃分(如詞組,段落還是全文)和結構劃分(如證據、法院認定和法律依據)兩個方面。其次,采用何種自然語言描述推理規則的提取關系到規則庫、領域庫和法律庫(例如儲蓄存款合同糾紛案由相關的法律)的設計和構建技術。最后,輸入系統的語義概念和邏輯體系必須自洽,不能含糊不清甚至互相矛盾。
(二)民商事案件智能輔助辦案系統建構的方法初探
民商事案件辦案系統的智能化是個宏觀而復雜的問題。主要以裁判思維的成果整理和類案要件提取標準化建設作為邏輯起點的兩個方面進行辦案系統建構初探。
1.裁判思維的整理與提取——數據結構樹的邏輯起點。按照訴訟請求、法律關系、法律規范、案件事實、法律結論的邏輯思路建構裁判思維。在這套系統工程中,我們要善于歸納、利用已有的裁判思維的研究成果,運用到數據的清洗、整理過程中。典型的民商事案件講究以請求權為基礎作為審判邏輯的起點,在經過充分學理研究且有強大實踐大數據作為支撐的情況下,已有的較成熟的裁判思維方法的模型研究可否有效運用到審判數據建構基礎值得嘗試,為辦案系統中的模型建構建設奠定扎實基礎。
(1)訴訟請求表達固定化。訴請基礎的固定事關整個訴訟,所以要在系統建構中先決的預設完整、精準的請求權詞語表達。在這方面,S市某中級人民法院已卓有成效的構建了訴訟請求主題詞庫和裁判文書主題詞庫,在訴訟請求主題詞庫方面進行全面的、標準化的整理編撰,細分300項案由,1483項訴訟請求。〔25 〕這項訴請的整理基于最高人民法院關于案由的規定,但又創新的結合司法實踐中常用術語表達進行升華。同時對提出各項訴請所依據的請求權基礎及法條的原文進行整理和編纂。這一步的跨出實質地解決了訴訟中請求權基礎詞語混雜、機器學習難以識別的問題,增強了案件信息間的聚合度,有效回應了案件信息的非結構化難題,為辦案系統的建構提供了標準化、體系化的審判數據模型。
(2)推理模型選擇與場景深化設計:訴請固定后如何選用適合的裁判方法或者要件方法系辦案系統設計中的核心問題。目前而言,實證表明所謂的邏輯三段論在實踐中套用情形并不足以支撐細化的案件事實,所以三段論只能作為檢驗模型設計是否合理的工具或者語言編寫的程序,但不適宜作為案件推理模型進行整體設計。如果能夠將所有的法律論證置于演繹論證框架之內,就可以將所有的法律推理和論證交給計算機處理。但是司法實踐中的法律概念、規則往往可以作不同解釋,而且往往是訴諸例外的,如果遵循演繹主義,每增加一次例外就重寫一次公式,無疑會增加一階公式表達的復雜性,因此需要另尋途徑和方法。法律實踐表明,將法律推理處理為一種非單調推理 〔26 〕是有效的解決辦法。〔27 〕目前,從實踐中看案例法律推理和規則法律推理現在已聚合了,這個框架提供了一個能夠組合規則推理和案例推理的語境。人腦的邏輯基礎是非形式邏輯,而電腦的邏輯基礎是形式邏輯。如果說形式邏輯對論證的分析與評價僅僅是建立在語義和句法維度之上的話,那么非形式邏輯顯然在形式邏輯框架基礎上引入了一個語用維度。
在場景模型的選擇上,經過反復研討并與技術人員溝通,筆者認為有兩種進路選擇可供參考。一種是以引入德國成熟的裁判模型,即法律適用方法中常用的歸入法或者相關性分析法。優勢在于裁判思維模式成熟,簡單案件適用歸入法,復雜案件適用相關性分析法,同時技術層面的樹狀圖制作也不復雜。劣勢在于模型較簡單和我國實踐中較少應用此方法,需要一線法官逐漸在案件中豐富并進行深化設計,但受限于目前我國法官隊伍掌握此裁判方法的人并不多,制約了該方法的快速系統地應用。另一種是嘗試直接試用我國理論學界或者法院實證已受關注的民商事裁判思維。其優勢在于裁判規則逆向總結貼合司法實踐,同時豐富的類案模型設計可以滿足基本的案件需要并方便機器深度學習,尤其現階段的研發進展使研發者越來越清晰地認識到不同類型的法律問題要求不同的推理形式,如證據推理不同于法律解釋,而法律解釋又不同于法律規則適用或立法辯論。〔28 〕在這樣的法學理論和技術要求的背景下,通常場景模式下的特定化場景構建就是一個非常重要的內容。比如,四川省郝廷婷法官實證研究歸納七種典型的民商事裁判思維方法就非常符合特定的場景化構建要求,分別是回流型、往返型、衡平型、循環型、同步型、逆向型、順向型。〔29 〕這七種類型是在請求權為基礎的裁判思維方法下,通過司法實踐的指引細化特定場景下不同案件的審理步驟等。這也只是實證分析中認可的一種思維方式,此類問題值得深入研究和擴展應用。
以上兩種進路無論選擇哪種作為模型基礎都是初步的框架性邏輯設定,需要在數據跑測中逐漸豐富和完善,更離不開我們審判實務部門在日常的審判活動中積極整理各種疑難案例的裁判思路。
(3)思維導圖的充分運用:思維導圖是一種將放射性思考具體化的表達方法,優勢在于清晰展現案件全部裁判思維流程,具有點線面結合的特點,易于將復雜的問題簡單化,在數據建模的始端概念建模階段通過思維導圖易于明確產品需求以及業務規則,避免法律人口述或者文字表達后技術人員理解偏差的問題。然后落實到實體,〔30 〕這些信息將來會成為數據字典中非常重要的一部分,也就是所謂的元數據。比如,結合司法實踐的研發實例,借記卡盜刷類案件通過盡可能的貼合程序員的設計路徑,來運用法律思維導圖進行各研發要素的表達,達到了較好的效果,這種單向性的邏輯表達設計具有簡明性特點。在工具選擇上以PROCESS ON或者XMIND等導圖工具進行操作,建議裁判者可以學習這方面的知識,既方便審判思維的歸納整理又利于日常工作思維記錄。在制作的過程中需要注意的是,盡可能使用單一化的線條表示,避免導圖發散過多。如果說案件非常復雜,包含往返穿梭式的涵攝,具有極其復雜性和抽象性的話,建議使用正面或負面清單的表述進行來備注。
2.要件標準化和標注化建設——數據標準化的建構過程。類案要件提取標準化、標注科學化、問答交互化處理可以幫助我們構建各類型案件的審判要素模型,形成從生產到加工再到產出的這樣一個司法大數據產業,為構建裁判數據模型暨辦案系統的知識庫建設奠定基礎。
(1)要件提取“標準”化。國外在進行應用之前,通常將已有的類案研究成果進行標準化提取,然后再根據各類案常用的不同審判思維進行模擬編程,這種將理論研究成果與法律科技創新相結合的方式已得到絕大部分實務人士和技術人員的認可。但是問題就在于一般的標準化提取要件如何實現結構化和科學性。從宏觀上看,法官的智慧是最核心的財富,審判業務部門應配合好要件提取工作,通過類案審判要件的大數據分析總結案件具體特征、事實情況、訴請與抗辯內容等填充到樹狀結構圖,通過樣本的機器學習最終有效得出所需結果。筆者正在嘗試利用審判要件標準化的提取來構建AI知識圖譜。如當事人的訴訟請求為“查閱、復制會計賬簿”可以快速定位其請求權基礎及其構成要件,并且通過對應被告的主要抗辯理由,可以快速對案件法律關系予以整體性的把握。
從微觀實證上看,每類案件具有其特殊性,需要分類整理證據內容與證明目的、通常爭議點及對應的法律依據。比如,德國Hollatz教授采用高斯發散神經網絡的方法對200個非物質損害案例進行類案提煉,利用數學模糊性的評價系統將數據推理具體化為:傷害類型、持續時間長短、造成的后果的嚴重性、性別、職業的損害、特別嚴重情節和醫療損害,最終獲取非物質損害的裁量模式,〔31 〕該模型良好地運用于非物質損害的賠償系統軟件中。目前,S市民事、行政案件智能輔助辦案系統通過人工提取大量卷宗和整理各類材料,已建立包括證據規則、證據指引庫、辦案要件(六類八個案由)、立案審查關鍵要素庫、訴請庫、抗辯庫,案例庫等12項大數據庫,為辦案提供信息支撐和保障。
(2)類案“標注”科學化。標注系技術用語,應用于模型和復雜神經網絡建構,如標注的數據越準確、數量越多,模型的效果越好。所以類案標準化確定后標注內容表達要素提取要全面化、科學化,S市某中級人民法院在兩庫建設中的做法值得我們關注。運用技術手段對裁判文書主題庫方面中各類案由所含的高頻詞匯,關涉事實認定和法律適用難點的關鍵詞,以及文書中所含的包括但不限于行業經濟發展、社會綜合治理人員結構等重要要素高亮提示,以“貼標簽”的形式予以設置標注,共梳理2654個主題詞。〔32 〕比如,在民事領域該法院選取近3年案件量較大的機動車交通事故糾紛中3000份文書進行高頻詞匯分析并標注,得出案件特點、訴請內容、證據類型、勝負趨勢等。在刑事領域,案情預測系統“法狗狗”設計思路正是:對于人類說不清楚的問題,通過裁判文書整理后輸入大量的標注數據,通過機器學習等算法得到測量值最終得到同案類判的匹配結果。這種主動標注的方法,整體上看類似于百度后臺有強大的數據標注員一樣,為后續機器智能深度學習打下基礎。目前,S市民事、行政案件智能輔助辦案系統已建成8組標簽體系支撐辦案系統的前期運行,為后續的迭代開發奠定堅實的基礎。
(3)類案“問答式”交互化。深度學習技術將改革人們與技術的交互方式,同樣智能輔助辦案系統如何在設計應用中體現這種交互性非常重要,也事關能否實現法律AI化的關鍵。筆者也正在嘗試利用在類案“庭審筆錄”整理與“思維導圖”的指引下,通過EXCEL表格細化法官審理思維,實現當事人求問思維和技術人員程序思維的問答交互,進而在程序編寫過程中可初步跑測數據的合理性。現在外界的研發機構的基礎數據主要為對外公布的司法文書,不包括庭審筆錄、專家研討會議筆錄或者其他不可對外的秘密內容。但是筆者認為這些內容對于辦案系統建設至關重要。比如,庭審筆錄系法官根據案件事實情況逐一將要點查明的思維方法的書面化表述,也是對于同一類型問題的庭審確認和爭議問題的庭審辯白。
在上述問題意識的指引下,下面以銀行借記卡被盜刷的儲蓄存款合同糾紛為例。進行標準化的審判要件提取和裁判結構樹的建構,做到智能深度學習與服務訴訟當事人的作用。以下內容系S市M法院與H省某大學機構按照數據的來源側、數據的處理側、數據的產業側暨挖掘、分析、應用等三個方面進行共同研發的微觀展示。
(一)研究對象的選取與破題技術的基礎
1.研究對象的符合性。借記卡盜刷類案件在研究對象上具有限縮性特征,避免出現研究面過大的易遺漏問題。研究的立足點基于違約或者侵權損害賠償的要件體系具有完整性,符合智能推理的邏輯自洽性。更重要的是該類問題的訴請、證據形式、爭議焦點都比較明確和統一,有利于率先嘗試簡單案件智能化。同時該類案件符合熱點問題的回應性和智能研究領域的空白性特點。
2.技術性目標的設定。第一步,以“偽卡盜刷”類型為案由的判決書收集和分析(法律研習者為主);第二步,研究基于結構和語義的判決書文本提取和語義匹配方法(高頻詞匯整理外以技術人員為主);第三步,研究基于規則的判決結果診斷方法,設計和實現基于規則的判決結果推理服務;第四步,研究基于模板的判決書生成方法,設計和實現基于模板的判決書生成向導服務。上述第三、四步主要以技術人員為主導。
(二)裁判思維的整理與提取
1.訴訟請求表達的確定系源泉的固定。設定程序后電腦自動下載1600份偽卡盜刷案件的判決后對訴請部分進行結構化文本的提取、理解和分析。整理訴請表達如下,案由為儲蓄存款合同糾紛,請求權表達通常為原告向某銀行主張的賠償盜刷具體金額。附加內容為原告主張的賠償利息等損失的金額、計算方式及起止日期。極個別情況下有些原告的訴訟請求中包含解除合同、要求賠禮道歉等內容。
2.模型選擇與思維導圖深化表達。根據上述第二部分的七大常用裁判思維模型分析來看,儲蓄存款合同糾紛常用的裁判思維屬于逆向性邏輯,逆向性的民商事審判思維通常適用于信用卡糾紛、儲蓄存款合同糾紛、金融借款糾紛案件。在模型設計上即對已有書面材料或者問題的審查完成后,很大程度上對結論的形成起了決定性作用。庭審查明或者問題互答只是為了排除例外事實以及法律規范的尋覓,主要作用則在對于預設結論的進一步驗證。〔33 〕按照以上的“逆向式民事思維”檢索順序制作邏輯樹和思維導圖。步驟演示,第一步:訴請與證據類型;第二步:得出預設結論;第三步:排除例外事實;第四步:尋找法律規范;第五步:作出裁判。最終通過制作思維導圖,暨與技術人員溝通較為流暢的導圖化表達。
(三)要件標準化提取和標注科學化建設
按照要件標準化提取偽卡盜刷類案件,首先審查原告請求權基礎并將其固定化,如審查原告向發卡行或特約商戶的主張、原告訴請是否明確等;其次審查被告的抗辯權基礎,如被告對民刑競合情形下該案件受理是否提出異議、對訴訟時效是否異議、偽卡交易過錯責任抗辯等;同時進一步歸納爭議焦點,如一般而言,偽卡交易中發卡行有無盡到注意義務,在偽卡交易中有無過錯對損失的產生有因果關系等;再次根據規則分配舉證責任,最后明確歸責原則,具體不再一一贅述。
同時要件標準化下關鍵詞提取系重要任務,即高頻詞匯整理。第一步,選取200份借記卡盜刷案件的裁判文書,即“偽卡盜刷”類型案件的判決書大范圍采樣,采樣過程中需注意判決書采樣的審理地區、審理審級等問題,建議采用法律發達地區或者該類型分布較密集地區為主。第二步,對高頻有用詞匯進行標注細化,涉及的技術問題如分詞、詞典建立、詞性標注和相似度計算(文本匹配)內容等由技術人員根據大數據自動高頻檢索進行分析。在此過程中除卻傳統類案研究的書面報告整理外,筆者整理出一套行之有效的新方法。在第一步的基礎上,先挑選200份相關案由的判決,全部下載下來。然后閱讀3-5份判決,尋找20個左右大概出現的特殊詞,接下來將所有文檔進行合并,創建一個文檔,word中有插入文檔選項進行批量(多選)插入文檔。最后在合并后的文檔對20個詞進行分別查找,統計每個詞出現的頻率(一般100次),并按照頻率進行排序。
(四)人機對話的互動基礎設計
立足當事人咨詢、法官詢問和銀行抗辯三者的角度構建智能輔助化的咨詢系統或者類案結果智推系統。選取大樣本的庭審筆錄是先行之舉,通過對庭審筆錄的充分整理和高度概括明晰審理此類案件的事由和問題。比如,筆者通過庭審筆錄為基礎,結合判決書等材料標準提取和裁判樹狀設計問題取得良好效果。只有以持續不斷的數據記錄,數據分析模型形成支持事實還原的證據;以用戶為中心的司法流程設計依靠高度結構化的改造,才能大大降低當事人進入司法通道的成本,方便法律服務的獲取和起到智能