張舟 劉文清
(江蘇師范大學 江蘇 徐州 221116)
隨著人工智能技術的迅猛發展,其在各領域的應用也日益廣泛,在計算機視覺、自然語言處理、語音識別等領域取得了重要突破。法律領域作為檢驗人工智能理論價值與技術性能的有效領域之一,也自然而然地接入了人工智能技術。智慧法院、智慧檢務建設等國家重大工程,便是法律人工智能的落地應用之一。我國還探索建立了一些法律人工智能模型,如:冪律智能和智譜AI 聯合推出的基于中文千億大模型的法律垂直大模型PowerLawGLM;清華大學自然語言處理實驗室開發的OpenCLaP、LawFormer 等。這些垂直模型一定程度上規避了通用大模型應用于法律領域時由于專業知識及數據的欠缺而出現的法律知識錯誤、專業引用偏差等問題。此外,大數據和人工智能技術已經被廣泛應用在自動定罪量刑、法律信息檢索、法律依據推薦、類案推送、自動法律問答等若干領域,協助解決技術含量低且重復率高的工作,提升了法律實踐的質量和效率。法律推理是由已知的法律命題或事實命題推導出未知法律命題(結論)的過程[1],是法律人工智能的核心論題,探索建立法律推理的模型有利于進一步發展法律人工智能。
“人工智能法律系統的發展源于兩種動力:一是法律實踐自身的要求。二是人工智能發展的需要。[2]”法律實踐需要人工智能,人工智能技術的價值體現為提升法律實踐的質效,法律實踐對人工智能的渴求成為驅動兩者融合的源動力。
現階段人工智能在法律領域的應用多為輔助司法裁判、預測刑期及類案檢索等輔助性工作,雖在一定程度上提升了法律任務執行的質效,緩解了“案多人少”的窘境,但仍無法步入司法審判核心領域。總體而言,法律人工智能的技術機理是由感知智能走向認知智能,再形成法律決策的過程。感知智能屬于初階智能,主要包含語音識別與合成、圖像識別和視頻智能化處理技術,意在模擬人類的語言表達、視覺和聽覺感知能力。感知智能在法律領域的應用場景主要包括:庭審語音的轉錄,圖像證據識別、庭審視頻自動巡查等[3]。如在“北京菲林律師事務所訴北京百度網訊科技有限公司侵害作品信息網絡傳播權案”中,法院參考使用了人工智能技術來分析涉案作品的獨創性等問題從而做出判決。認知智能是人工智能的高級階段,旨在模擬人類的高階智能,主要包括:自然語言表達、語義理解、知識表達、邏輯推理和自主學習等能力。認知智能在法律領域的應用主要是在法律文本分析、法律知識表達、法律推理和法律論證,以及多種依賴法律知識決策的多樣化任務[3]。如北京市高級人民法院推出的“睿法官”人工智能系統,可以通過自然語言處理技術對大量的裁判文書進行分析和處理,幫助法官更快地找到相關的法律條款和案例,提高工作效率,但其處理結果僅能作為最終裁判的參考。
法律人工智能的發展史經歷了三次波峰,第一次波峰是以法律推理刻畫法律人的理性思維和邏輯推理,第二次波峰是以法律專家系統支持法律任務決策,第三次波峰是當前由法律大數據所驅動的人工智能的全面應用[4]。整個發展過程不只是將大量的法律文本信息化、數據化,而是通過多輪多次高質量法律文本數據清洗及模型增量訓練形成垂直應用模型,為法律實踐提供所需的解決問題的理論、技術與方法。
盡管人工智能技術在法律領域具有廣泛的應用前景,但在實際應用過程中仍面臨挑戰,主要包括以下幾個方面:一是數據安全與隱私保護問題:人工智能技術的開發與應用中涉及到的海量數據的質量與隱私保護問題成為制約其發展的重要因素;二是法律法規滯后問題:隨著人工智能技術的發展,可能出現一些新的法律法規無法適應的現象,這就需要及時關注并跟進相關法律法規的發展動態;三是技術成熟度與可靠性問題:目前,人工智能技術在法律領域的應用尚未完全成熟,部分技術可能存在誤判的風險;四是人工智能倫理道德問題:隨著人工智能技術的廣泛應用,如何在保障技術發展的同時兼顧倫理道德問題成為亟待解決的問題。
隨著人工智能技術的發展,現階段人工智能的核心問題可歸結為實現機器的自動推理[5],相應的,法律人工智能的核心問題也轉變為自動法律推理的實現問題。從法律人工智能發展史來看,法律人工智能領域中自動法律推理建模有兩種經典路徑:一是規則推理路徑;二是案例推理路徑。然而,大數據時代的到來卻催生了第三種推理建模路徑,即大數據推理建模路徑[6]。無論法律推理建模路徑如何發展選擇,其最終目的都是使人工智能可以通過分析大量的法律數據來識別相關的案例和法規,并將其應用于當前的案件中。在人工智能背景下建立法律推理模型需要充分了解現有的法律法規體系,搜集相關案例和數據,選擇合適的算法和技術,并對模型的性能進行評估。人工智能法律推理模型作為一種垂直大模型,其構建方法同通用大模型構建的基礎方法基本相同,但又有其獨特之處。在建立法律推理模型時,要在確定模型目標與應用場景的基礎上收集整理用于訓練模型的相關法律數據,選擇合適的算法和技術并對模型進行評估和優化。通過數據預處理、模型訓練優化、模型選擇應用等步驟,從基座層、對話層、應用層三層結構入手進行開發建構。
人工智能法律推理模型構建中的數據預處理包括數據清洗、特征選擇、數據融合等步驟,以提高數據質量和適用性。具體處理步驟如下:首先是數據清洗,指發現并糾正數據文件中可識別的錯誤,包括檢查數據一致性,處理無效值和缺失值等,通過這一步驟以達成去除重復數據、缺失數據、異常數據的目的。其次是數據整合,即將不同數據源的數據收集整理后加載入新的數據源提供統一數據視圖,提高數據質量和完整性,提升數據管理效率和利用率,從準確和相關的數據中更快獲取有意義的見解。再次是數據轉換,即將文本數據轉化為可供模型輸入的向量表示。數據轉換的目的和方法包括數據類型轉換、數據語義轉換、數據粒度轉換、圖標或數據拆分、行列轉換、數據離散化、提煉新字段、屬性構造、數據壓縮等。最后是數據標注,即對數據進行標準化標注的過程,用于提高數據的可用性和可比較性,以便計算機識別。在對大量的法律法規、案例資料等法律文本數據化、信息化的基礎上,通過多輪高質量的數據清洗與標注整合,提高人工智能模型對法律文本的敏感度,同時確保模型的準確性和時效性。
要根據具體應用場景和需求,選擇合適的人工智能模型,如基于知識圖譜的法律推理模型、基于深度學習的法律推理模型等。法律人工智能推理模型的選擇需要考慮多個因素,如模型的可解釋性、模型的準確性、模型的效率等。一些研究表明,基于規則的推理模型在法律領域中表現出色,但是這種方法可能會導致模型過于復雜,難以解釋和修改。另一種方法是使用機器學習技術,例如決策樹、支持向量機等來訓練模型。這種方法可以提高模型的準確性和效率,但是需要更多的數據和計算資源。在建立法律推理模型時,還需要選擇合適的算法和技術并關注這些算法和技術在不同領域的應用效果,以便選擇最適合的法律推理模型。
通過機器學習算法對模型進行訓練和優化,以提高模型的準確性和可靠性。包括模型參數調整、模型評估與驗證等步驟。在訓練階段,可將法律數據大規模注入模型,并對這些知識進行特殊處理和加強,以確保模型在后續推理中具備法律先驗知識并保持穩健。在訓練好法律推理模型后,需要對模型進行評估和驗證,確保其符合預期的性能要求。可以通過與專業律師的對比測試、實際案例的預測結果等方式對其進行性能評估。若模型性能不滿足預期,則需對模型進行進一步調整和優化。
模型應用即將訓練好的模型應用于實際案例中,嘗試進行案例分析、法律問答與審判輔助等實踐操作,并根據實際應用效果對模型進一步調整優化。法律推理模型的應用場景有其特殊性,對結果的準確性、可解釋性要求較高,直接使用大模型來端到端生成回答會面臨很多效果問題,例如引用失效法律、杜撰法條案例等“人工智能幻覺”現象。因此,為保證人工智能法律推理模型的應用效果,需要進行人工評測,法律從業者從專業角度對法律推理模型所生成的結果進行全方位、多維度的測評。評測的維度包括:對問題點的把握是否準確、對問題所含信息的分析是否全面準確、答案的操作可行性強弱、答案的法律專業性程度、法律依據有無,以及準確性全面性程度。
綜上所述,法律推理模型的開發者應當設計一系列通用型及場景特定型的工程化優化方案,通過閱讀投喂大量法律文本進行數據預處理的基座層、利用大量的法律領域對話數據進行模型選擇訓練與監督微調的對話層以及保證輸出結果質量和可靠性的應用層這三層構建結構出發,提升大模型對法律專業文本的理解、推理與生成能力。
從法律人工智能應用現狀來看,其主要適用于證據搜集、法律文書撰寫等司法輔助領域,從整體趨勢上看,信息歸類、法律檢索等耗時長、重復性高的工作將完全由其代替。國內知名的大成律師事務所在2016 年就創建了自己的人工智能實驗室Nextlaw Labs,并與IBM 公司的認知技術平臺沃森(Watson)合作開發了法律人工智能產品ROSS[7]。使用法律人工智能具有顯而易見的優勢:通過自動化處理大量法律文書和案例,幫助法律從業者更快地找到相關信息,提高工作效率;利用人工智能技術,可以更準確地分析案件,提高法律服務質量;部分工作的自動化處理能夠減少從業人員工作量從而降低法律服務成本。
人工智能能否得到飛躍性發展,認知智能的突破是關鍵。認知智能可以幫助機器跨越模態理解數據,學習到最接近人腦認知的“一般表達”,獲得類似人腦的多模感知能力[8]。人工智能法律推理要求將整個法律推理的過程都交給人工智能去處理,在建立全樣本數據庫的基礎上通過算法的運行自動獲得裁判結果[9]。但目前人工智能技術的發展水平顯然無法完全模擬法律人的思維過程,法律推理模型對法律文本的處理分析結果僅能作為司法裁判過程中的輔助性參考,需要在“人機交互”的運行模式下進一步探索發展。隨著人工智能技術的不斷突破發展,法律推理模型具有廣闊的應用前景,其將在基于大數據和自然語言處理的法律文書智能化處理、基于模型的法律信息檢索、面向電子取證和其他應用的機器學習與數據挖掘以及多智能體系統中的法律推理等方面發揮重要作用。
基于大數據的法律文書智能化處理能夠自動化處理大量法律文書,從海量數據中篩選提取出個案有關的信息,在節省人力與時間成本的同時,提高法規檢索及類案查找的準確性與周嚴性,從而提升法律服務效率、降低法律風險。基于人工智能的法律推理模型通過機器學習和自然語言處理技術,對輸入的數據進行分析和預測,挖掘出數據背后的規律和趨勢,利于對類案進行總結歸納,實現法律推理模型的案例推理路徑,從而提高判決的準確性,更好地促進司法公正、保障人權。法律推理模型還可以通過可視化技術將復雜的法律概念轉化為簡單易懂的形式,提高法律法規的可解釋性,推動法律科技的發展,助力法治建設。此外,人工智能法律推理不同于傳統法律推理,傳統法律推理是在對法律規則及其文本解析的基礎上通過人類思維活動將價值判斷融入推理過程中,得出的裁判結果始終充斥法官個人主觀利益衡量的影子。而人工智能法律推理則更注重通過對同案判決的深度學習自主挖掘法律外因素,以案例推理作為規則推理的補充,輔之以大數據推理吸納法律文本外的裁判規則作為演繹的基礎,能夠為法官的司法裁判、律師等法律從業者對裁判結果的預測提供良好的參照。
盡管基于人工智能的法律推理模型具有廣闊的發展前景,但在實際應用過程中仍需關注以下風險并提出相應的應對措施:
一是技術風險,包括數據安全、隱私保護和算法公正性等方面。法律推理模型需要大量的法律數據進行訓練,如何確保這些數據的安全及相關隱私權益是一個重要問題。首先要確保數據來源的安全性,除公開的數據資料外,涉及個人隱私、商業秘密的法律文本在獲取時應同權利人簽訂保密協議,明確數據使用范圍和保密責任。其次在數據處理時,應對收集到的數據進行去標識化處理,進一步保護所涉權益人的隱私,同時建立完善的數據備份和恢復機制,以防止數據丟失或泄露。最后應該明確規定數據使用范圍和目的,嚴格遵守相關法律法規,建立完善的數據安全管理制度,確保數據在存儲、傳輸和使用過程中的安全。此外,為了保證算法公正性,防止對某些特定群體產生不公平的影響,算法設計應該遵循平等機會、非歧視性、透明度等公平性原則,并建立完善的監督機制,以確保其公正性。
二是法律風險,包括法律法規滯后、法律適用準確度、法律責任界定等方面。一方面,為解決法律法規滯后同社會發展與技術更新之間的矛盾,需要模型開發者及時跟進相關法律法規的發展動態,推動法律法規的更新與完善以適應新技術、新社會現象。另一方面,技術發展也存在局限性,現有技術的局限同法律適用準確度之間存在矛盾,要化解這一矛盾必須突破技術發展局限,在充分發展人工智能技術的基礎上尋求提高法律人工智能法律適用準確度的破局之策。此外,當法律推理模型出現錯誤時,如何界定其法律責任是一個復雜的問題。
三是其他風險,主要包括倫理道德風險與人工智能技術特性固有的風險,如人工智能工具屬性與人工智能模型的可解釋性問題。倫理道德風險主要體現為設計風險、算法風險和應用場景風險,具體而言開發者的個人道德準則、“算法黑箱”以及法律領域具體應用的道德問題都可能成為法律推理模型的應用風險。此外還需進一步研究以尋求人工智能工具屬性的單一功能與法官辦案充分運用法、情與理的矛盾之解決良策。
目前的法律人工智能系統離真正意義上的“智能”仍有不小的距離,還屬于“技術輔助”的范疇。由于技術條件的限制,人工智能還不能完全模擬法律從業者在面對具體個案時的全部思維過程,法律人工智能背景下的法律推理也受到算法和邏輯的掣肘,但其作為一種輔助性工具在司法裁判領域的應用,也具有不可小覷的價值與功用。應當充分重視法律推理模型的重要性,在分析其技術現狀的基礎上嘗試性地提出模型構建方法并分析其應用前景與風險,力圖以法律推理模型實現更加智能化的法律服務,推動審判體系和審判能力現代化。